买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京国科众安科技有限公司
摘要:本发明提供了一种基于网页xpath获取新闻正文的通用方法,属于自然语言处理技术领域,其方法包括:通过Scrapy爬虫框架工具获取新闻网站的xpath;用k‑means相似度聚类分组算法,将网页中的xpath进行分组,得到n组xpath;通过n组xpath中每组xpath反向推出每个xpath所对应内容;获取每组xpath总内容文本大小,筛选出文本最大的组;将所述文本最大的组作为xpath正文部分入库,实现对网页新闻正文内容的爬取。解决了新类型的网站也需要通过维护规则库的方式达到获取正文的目的,人工投入量较大,维护成本较高的问题。
主权项:1.一种基于网页xpath获取新闻正文的通用方法,其特征在于,该方法包括:步骤1:通过Scrapy爬虫框架工具获取新闻网站的xpath;步骤2:用k-means相似度聚类分组算法,将网页中的xpath进行分组,得到n组xpath;步骤3:通过n组xpath中每组xpath反向推出每个xpath所对应内容;步骤4:获取每组xpath总内容文本大小,筛选出文本最大的组;步骤5:将所述文本最大的组作为xpath正文部分入库,实现对网页新闻正文内容的爬取;其中将所述文本最大的组作为xpath正文部分入库之后,还包括:获取所有xpath形成的文本并进行段落划分,划分为多个段落块;根据每个段落块的文本属性获得每个段落块的标签属性;确定每个段落块的候选关键词的数量,获取每个候选关键词的关键词参数;根据每个候选关键词的关键词参数确定该候选关键词与其所属的目标段落块的目标标签属性的目标关联度;将目标关联度大于等于预设关联度的目标候选关键词进行筛选,获得每个段落块各自对应的当前数量个目标候选关键词;解析每个目标候选关键词的特征因子;基于特征因子,确定对应段落块基于同段落块中每个目标候选关键词的依赖度,并筛选依赖度大于等于预设阈值的期望候选关键词;将所述每个段落块对应的期望候选关键词,确定为每个段落块内与所述标签属性相关的目标关键词;利用目标关键词在文本中进行搜索,获得每个目标关键词所搜索出的关联文本;对每个目标关键词所搜索出的关联文本进行解析,获取每个目标关键词的相关参数映射信息;根据每个目标关键词的相关参数映射信息确定该目标关键词的价值指数;在所有价值指数中选择最大价值指数,并将最大价值指数对应的目标关键词作为实体关键词;利用预设词性解析方式解析所述实体关键词的目标词性;根据所述实体关键词的目标词性确定所有xpath形成的文本的具体表达方法。
全文数据:
权利要求:
百度查询: 北京国科众安科技有限公司 一种基于网页xpath获取新闻正文的通用方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。