Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于模板的分布式互联网大数据采集系统及方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西安电子科技大学

摘要:本发明公开了一种基于模板的分布式互联网大数据采集系统及方法,主要解决现有技术系统稳定性低、维护困难、采集内容不灵活的问题。其主要由系统功能管理单元和任务执行单元组成。该系统功能管理单元包括:模板管理模块、代理管理模块、任务管理模块和节点管理模块;该任务执行单元包括:主体逻辑处理模块,异常处理模块和后处理模块。这些模块分别完成模板测试、嵌套,设置代理请求间隔,生成数据采集任务,监控节点信息,执行任务,处理异常任务、对无异常任务继续采集的功能。本发明增强了系统的安全性和稳定性,提高采集内容的灵活性和可扩展性,提升了数据采集系统的性能和可移植性,降低了系统的维护难度,可用于人工智能、大数据、物联网。

主权项:1.一种基于模板的分布式互联网大数据采集系统,其特征在于:包含系统功能管理单元(1)和任务执行单元(2);所述系统功能管理单元(1),包括:模板管理模块(11),用于系统中各采集模板的管理,包括增删改查、导入导出,并提供模板测试功能和模板嵌套功能;所述模板管理模块(11)进行模板测试,是先新建、导入或修改模板,并配置模板运行所需要的变量;再将配置好的模板信息传递给主体逻辑处理模块执行数据采集任务;主题逻辑处理模块运行结束后,把运行结果返回给模板管理模块,模板管理模块再进行简单展示:若执行成功,模板管理模块会显示采集到的数据信息;若执行失败,模板管理模块会显示异常信息,重新修改模板,重复整个过程,直到模板管理模块模板采集到预期内容后,保存模板待用;所述模板管理模块(11)在新建模板时进行模板嵌套设置,即调用当前模板和已有模板共享任务变量设置,模板之间通过配置不同采集网址实现多网站联合采集数据内容;代理管理模块(12),用于采集任务所需要的代理管理,包括代理的创建、删除、导入导出以及对代理进行请求间隔设置;所述代理管理模块(12)对代理进行请求间隔设置,是根据给定的每秒请求数,为每一个访问请求设置特定的访问时间间隔,使单个采集任务中所有发出的请求服从泊松分布,请求间隔服从指数分布,实现步骤为先根据每秒请求数计算平均请求时间间隔,并以此间隔为期望构建指数分布曲线;再在此曲线上进行随机采样,给每个请求设置指定访问时间间隔;任务管理模块(13),用于根据模板管理模块和代理管理模块的已有数据以及相关设置,生成并保存数据采集任务;节点管理模块(14),用于节点整体设置管理,监控节点信息,采集数据浏览;所述任务执行单元(2),包括:主体逻辑处理模块(21),用于根据相关设置执行任务管理模块生成的任务;异常处理模块(22),其包括代理异常处理子模块(221)和模板异常处理子模块(222),用于当主体逻辑处理模块处理过程中出现问题时,根据不同的异常类型进入不同的异常处理分支进行处理;后处理模块(23),用于当主体逻辑处理模块执行无异常时,进行后续采集数据的处理和保存。

全文数据:

权利要求:

百度查询: 西安电子科技大学 基于模板的分布式互联网大数据采集系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。