一种基于动态自适应的网站异步序列数据智能采集方法

导航：龙图腾网> 最新专利技术> 一种基于动态自适应的网站异步序列数据智能采集方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国电子科技集团公司第二十八研究所;南京莱斯网信技术研究院有限公司

摘要：本发明提供了一种基于动态自适应的网站异步序列数据智能采集方法，本发明在已有爬虫集群、账号池和IP池基础上，针对常见的反爬技术，如ajax动态加载技术、动态cookie访问限制、系统安全防护、异常访问行为监测和异常账号监测等反爬技术，通过动态自适应的智能采集系统实现目标主流网站的实时数据采集，通过分布式网络爬虫安全回传实现目标网站数据连续获取和隐蔽传输，为进一步数据分析做好铺垫。

主权项：1.一种基于动态自适应的网站异步序列数据智能采集方法，其特征在于，包括如下步骤：步骤1，通过对用户网络访问的操作特征信息，通过页面置换算法建立模拟用户操作的爬虫调度模型，使用两组以上浏览器的伪装指纹，将单个爬虫的访问频率降低到真实用户的行为频率，同时通过爬虫任务调度系统将任务按照采集频率定时分发给各个采集节点，使用不同的代理、账号伪装策略获取相同网站的不同板块下的内容，最终再按照数据存储字典标准进行拼接，将采集响应内容原始非结构化的中间结果转化为最终结构化数据，实现基于用户互联网访问行为学习的爬虫调度；步骤2，通过在HTTP或者HTTPS请求中对网站地址参数、cookie设置，对请求响应内容进行自适应实体抽取，使用保活的账号，实现非黑客侵入式受限内容的访问和网页元素的采集，实现非黑客侵入式受限内容访问；步骤3，通过模仿真实用户的浏览器指纹、IP地址、登录session不定期的进行注册、登录、发贴、转帖活动，规避目标网站对异常账号监测，保证账号池内活跃账户不低于阈值，进行基于用户行为学习的账号自动注册和保活；步骤4，通过JavaScript解析器实现脚本解析和动态执行功能，实现目标页面文档对象模型重建，实现目标源文件的完整绘制，面向Ajax的浏览器完成自动编译；步骤5，网页要素自适应匹配与提取：在爬虫获取到页面资源后，提取目标页面DOM树，借助相似匹配和xpath语法定位各页面要素路径表达式，同时通过前序遍历、中序遍历、后序遍历算法，实现页面标题、时间、正文的自动识别和抽取，为了获得网页间的访问关系，循环解析网站中的网页，并将网页间的链接存储在二维字典中；生成一个关系矩阵，在这个关系矩阵中，为了有效区分每个链接，通过Python中的枚举函数定义两个字典，两个字典分别为索引节点和节点索引；生成字典后，定义一个零矩阵M，长度n*n，n表示抓取网页的数量；两层循环嵌套形成一个关系矩阵外部循环使用二维字典的key作为索引，内部循环获取key对应的值，生成初始概率矩阵，设定从一个节点到通过有向边相连的所有节点的转移概率相等，概率矩阵M计算如下：M＝[mij]n×n第i行第j列的元素mij取值规则如下：如果节点j有k个有向边出度，并且节点i是其出度的一个节点，则mij＝1K；否则mij＝0,i,j＝1,2,……,n；最后通过概率矩阵迭代生成等距离概率矩阵和第一元素全捕获概率矩阵，迭代生成等距离概率矩阵将1的值赋给零矩阵M中的每个元素，第一元素全捕获概率矩阵将1的概率赋给零矩阵M的第一个元素，具体每个页面的权重计算如下：其中Mpi是所有对网页pi有出度的网页集合，Lpj是网页pj的出度数量，N是网页总数，α是阈值，PRpi是网页pi的权值，PRpj是网页pj的权值；用新计算的权值更新新的概率矩阵，生成概率矩阵和计算页面权重的过程是迭代的，直到满足暂停准则；步骤6，实现基于隐蔽通道的数据回传；步骤6包括：步骤6-1，网络加密传输；步骤6-2，敏感类和非敏感类仓库数据加密改造；步骤6-1包括：步骤6-1-1，使用安全套接字协议加密技术对系统间传输的数据进行加密；步骤6-1-2，使用SSLVPN技术实现与服务器端的远程访问，确保远程访问传输中的数据受到安全保护，利用加密方式保证数据不被非法截获；步骤6-2包括：步骤6-2-1，进行接口采集，包括敏感类信息和非敏感类信息采集；步骤6-2-2，敏感类信息采集入库到敏感信息用户，入库成功后删除本地文件。

全文数据：

权利要求：

百度查询：中国电子科技集团公司第二十八研究所南京莱斯网信技术研究院有限公司一种基于动态自适应的网站异步序列数据智能采集方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于车桥耦合系统的桥梁检测装置

下一篇：电子地图自动缩放方法、电子地图系统和存储介质

相关技术

一种基于车桥耦合系统的桥梁检测装置

电子地图自动缩放方法、电子地图系统和存储介质

一种生产粒状尿素产品的自动化设备

一种检测MMP12蛋白的试剂在制备评估受试者未来发生心肌梗死风险产品中的应用

一种电致重构的滤波阵列

一种用于玻璃纤维拉丝机的降温装置

一种具有弹性体的极框极板及电解槽

一种奶粉罐顶盖放置用抓取装置

数据迁移方法、装置、终端设备及计算机可读存储介质

图像编码/解码方法和装置，以及发送比特流的方法

适用于风电接入系统的时域模型故障方向判断方法、方向元件及系统

一种心肌梗死改进动物模型及其构建方法

数据相关技术

基于大数据的智能数据分析系统_山西数字政府建设运营有限公司_202210156469.9

生理数据监测传感装置及生理数据监测设备_深圳迈瑞生物医疗电子股份有限公司_202011281292.2

学习数据增强策略_谷歌有限责任公司_201980014733.1

数据仿真方法_豪威科技(武汉)有限公司_202410858556.8

流式数据采集系统_季华实验室_202410971053.1

合成数据生成_亚马逊技术股份有限公司_202380030830.6

三维数据编码方法、三维数据解码方法、三维数据编码装置、以及三维数据解码装置_松下电器(美国)知识产权公司_202411164820.4

一种数据传输方法、数据存储服务器及数据存储系统_北京嘀嘀无限科技发展有限公司_201910335421.2

用于数据上报的装置_山东云海国创云计算装备产业创新中心有限公司_202410961901.0

丢失数据块的传输_瑞典爱立信有限公司_202280094450.4

序列相关技术

高效表达的mRNA的5′UTR序列及其应用_深圳新合睿恩生物医疗科技有限公司_202311788522.8

一种基于因果不变性解耦序列的知识追踪方法_华中师范大学_202410961044.4

多子载波系统中基于特殊序列的发射机IQ skew估计方法_电子科技大学_202410971075.8

一种识别DNA序列中增强子及其活性强度的预测方法_桂林电子科技大学_202410992982.0

一种基于知识感知自监督学习的长尾序列推荐算法_辽宁师范大学_202410940177.3

基因序列非比对方法、装置和电子设备_北京建筑大学_202210051329.5

一种基于时间序列异常检测的卡钻预警的方法_西南石油大学_202411439971.6

改进对认证和密钥协商协议中的序列号的保护_高通股份有限公司_202411023737.5

基于混沌序列调制的混沌信号产生方法及装置_南京航空航天大学_202411194646.8

基于关键点序列分析的人体跌倒检测方法、装置及设备_宁波星巡智能科技有限公司_202411075372.0

网站相关技术

一种网站访问量预测方法、装置及设备_中国工商银行股份有限公司_202110472701.5

新型拉胀压电材料的高通量筛选与数据库网站构建_北京理工大学_202410969227.0

一种基于动态自适应的网站异步序列数据智能采集方法_中国电子科技集团公司第二十八研究所_202111515500.5

非国密浏览器访问国密网站的方法及国密网站访问系统_江苏意源科技有限公司_202411136548.9

一种多线程的网站异常检测方法及终端_福建天晴在线互动科技有限公司_202410928879.X

一种Web网站自动化测试方法_四川启睿克科技有限公司_202111654996.4

一种动态分配的网站监测调度方法_北京天融信网络安全技术有限公司_202111210276.9

一种诈骗网站的识别方法及系统_广州市刑事科学技术研究所_202210056971.2

基于JSON Schema数据格式的网站渲染方法_一渔(杭州)数字科技有限公司_202411365588.0

汽车网站的指标框架生成方法、装置、设备及存储介质_雄狮汽车科技(南京)有限公司_202210435497.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于动态自适应的网站异步序列数据智能采集方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务