买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国电子科技集团公司第二十八研究所;南京莱斯网信技术研究院有限公司
摘要:本发明提供了一种基于动态自适应的网站异步序列数据智能采集方法,本发明在已有爬虫集群、账号池和IP池基础上,针对常见的反爬技术,如ajax动态加载技术、动态cookie访问限制、系统安全防护、异常访问行为监测和异常账号监测等反爬技术,通过动态自适应的智能采集系统实现目标主流网站的实时数据采集,通过分布式网络爬虫安全回传实现目标网站数据连续获取和隐蔽传输,为进一步数据分析做好铺垫。
主权项:1.一种基于动态自适应的网站异步序列数据智能采集方法,其特征在于,包括如下步骤:步骤1,通过对用户网络访问的操作特征信息,通过页面置换算法建立模拟用户操作的爬虫调度模型,使用两组以上浏览器的伪装指纹,将单个爬虫的访问频率降低到真实用户的行为频率,同时通过爬虫任务调度系统将任务按照采集频率定时分发给各个采集节点,使用不同的代理、账号伪装策略获取相同网站的不同板块下的内容,最终再按照数据存储字典标准进行拼接,将采集响应内容原始非结构化的中间结果转化为最终结构化数据,实现基于用户互联网访问行为学习的爬虫调度;步骤2,通过在HTTP或者HTTPS请求中对网站地址参数、cookie设置,对请求响应内容进行自适应实体抽取,使用保活的账号,实现非黑客侵入式受限内容的访问和网页元素的采集,实现非黑客侵入式受限内容访问;步骤3,通过模仿真实用户的浏览器指纹、IP地址、登录session不定期的进行注册、登录、发贴、转帖活动,规避目标网站对异常账号监测,保证账号池内活跃账户不低于阈值,进行基于用户行为学习的账号自动注册和保活;步骤4,通过JavaScript解析器实现脚本解析和动态执行功能,实现目标页面文档对象模型重建,实现目标源文件的完整绘制,面向Ajax的浏览器完成自动编译;步骤5,网页要素自适应匹配与提取:在爬虫获取到页面资源后,提取目标页面DOM树,借助相似匹配和xpath语法定位各页面要素路径表达式,同时通过前序遍历、中序遍历、后序遍历算法,实现页面标题、时间、正文的自动识别和抽取,为了获得网页间的访问关系,循环解析网站中的网页,并将网页间的链接存储在二维字典中;生成一个关系矩阵,在这个关系矩阵中,为了有效区分每个链接,通过Python中的枚举函数定义两个字典,两个字典分别为索引节点和节点索引;生成字典后,定义一个零矩阵M,长度n*n,n表示抓取网页的数量;两层循环嵌套形成一个关系矩阵外部循环使用二维字典的key作为索引,内部循环获取key对应的值,生成初始概率矩阵,设定从一个节点到通过有向边相连的所有节点的转移概率相等,概率矩阵M计算如下:M=[mij]n×n第i行第j列的元素mij取值规则如下:如果节点j有k个有向边出度,并且节点i是其出度的一个节点,则mij=1K;否则mij=0,i,j=1,2,……,n;最后通过概率矩阵迭代生成等距离概率矩阵和第一元素全捕获概率矩阵,迭代生成等距离概率矩阵将1的值赋给零矩阵M中的每个元素,第一元素全捕获概率矩阵将1的概率赋给零矩阵M的第一个元素,具体每个页面的权重计算如下: 其中Mpi是所有对网页pi有出度的网页集合,Lpj是网页pj的出度数量,N是网页总数,α是阈值,PRpi是网页pi的权值,PRpj是网页pj的权值;用新计算的权值更新新的概率矩阵,生成概率矩阵和计算页面权重的过程是迭代的,直到满足暂停准则;步骤6,实现基于隐蔽通道的数据回传;步骤6包括:步骤6-1,网络加密传输;步骤6-2,敏感类和非敏感类仓库数据加密改造;步骤6-1包括:步骤6-1-1,使用安全套接字协议加密技术对系统间传输的数据进行加密;步骤6-1-2,使用SSLVPN技术实现与服务器端的远程访问,确保远程访问传输中的数据受到安全保护,利用加密方式保证数据不被非法截获;步骤6-2包括:步骤6-2-1,进行接口采集,包括敏感类信息和非敏感类信息采集;步骤6-2-2,敏感类信息采集入库到敏感信息用户,入库成功后删除本地文件。
全文数据:
权利要求:
百度查询: 中国电子科技集团公司第二十八研究所 南京莱斯网信技术研究院有限公司 一种基于动态自适应的网站异步序列数据智能采集方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。