买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提供基于热词检测的实时网络爬虫框架实现方法及系统,方法包括:热词源选择:定义热词来源,构建热词库;热词检测模块:实时监测热词源的变化,确定热词的权重以及优先级;网络爬虫调度:制定爬虫调度算法,启动或调整爬取任务;网页抓取:适用网络爬虫技术访问目标网站,抓取HTML内容;文本解析与处理:对抓取的内容进行文本解析,进行文本预处理。本发明解决了爬取效率较低、实时调整爬取策略慢以及爬取数据质量低的技术问题。
主权项:1.基于热词检测的实时网络爬虫框架实现方法,其特征在于,所述方法包括:S1、利用预置前端框架,设计用户界面,在所述用户界面采集用户输入信息;S2、利用预置的热词检测模块,获取并训练预置深度学习模型,对所述用户输入信息进行热词检测,以得到热词,通过所述热词检测模块,计算每个词的热度得分;S3、对所述热词检测模块,使用所述调度与控制器,根据所述热词,动态调整网络爬虫任务;S4、利用预置的网络爬虫模块,以分布式爬虫技术,进行多节点并行抓取,爬取目标网站,根据系统性能信息以及所述目标网站,规划所述网络爬虫任务,以爬取文本信息,将文本信息汇总至中央存储设备;S5、利用文本处理引擎,以预置解析库工具,对所述文本信息进行文本处理操作,以得到文本结构化信息;S6、利用所述热词构建热词库,根据所述热词库以及预置词向量模型,设计热词匹配与过滤模块,以对所述文本结构化信息进行匹配、过滤;根据所述热词对应权重,过滤得到热门话题相关信息,以作为目标内容;S7、选取预置数据库,以建立索引结构,供进行数据存储、检索操作,对处理过的数据进行存储和检索;S8、利用预置的实时更新与反馈模块,利用预置网络协议,进行信息互联更新操作,将当前更新的所述目标内容传递给用户;S9、利用预置的异常处理与优化模块,以自动化异常处理机制,获取并根据用户反馈结果,处理爬取过程异常。
全文数据:
权利要求:
百度查询: 国网安徽省电力有限公司电力科学研究院 国网安徽省电力有限公司 基于热词检测的实时网络爬虫框架实现方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。