Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种网络爬虫代理隧道的负载均衡调度及异常重试方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中联财联网科技有限公司

摘要:本发明提供一种网络爬虫代理隧道的负载均衡调度及异常重试方法,属于网络搜索技术领域,适用于通过多条代理隧道进行分布式爬取网页信息的场景。本发明提供一种网络爬虫代理隧道的负载均衡调度及异常重试方法,有效提升代理隧道资源的利用率,大大降低高并发情形下网页访问的失败率,显著地缩短了任务爬取时间。

主权项:1.一种网络爬虫代理隧道的负载均衡调度及异常重试方法,包括以下步骤:S1、以正常爬取方式启动网络爬虫,在启动之前先结束掉该爬虫以当前方式运行中的进程;S2、在一天之内,定时启动每个网络爬虫,每个网络爬虫的启动时间都不相同,避免某个时间段内启动网络爬虫数量多导致代理隧道高并发增多;S3、根据每条代理隧道的权重进行排序,网络爬虫根据权重选择使用一条代理隧道;设置不同的权重,次数较高的权重较低,次数较低的权重较高,根据权重高低,选择使用权重最高的代理隧道,以此来达到代理隧道负载均衡的目的;S4、在数据库里分别记录下每个网络爬虫爬取失败和成功的网址;S5、在一定的时间段内,使用统一的数据库记录每条代理隧道的使用次数;S6、在一定的时间段内,使用统一的数据库记录每条代理隧道因高并发导致的失败次数;将爬取失败的网址记录到一个统一的数据库内,异常重试时从统一的数据库读取这些爬取失败的网址然后进行爬取,而不是重复从站点的起始网页爬取,网络爬虫的启动有两种方式,一种是正常启动,一种是异常重试启动,启动网络爬虫的时候会在命令行添加参数,正常启动在执行命令行后面带上--type=default参数,异常重试启动在执行命令后面带上--type=exception参数,爬虫启动后会根据type参数来判断是需要从站点起始网页爬取,还是从统一的数据库读取标记为爬取失败的网址然后爬取;S7、根据每条代理隧道因高并发导致的失败次数设置不同的权重,失败次数多的代理隧道权重较低,失败次数较少的代理隧道权重较高;S8、同正常爬取方式,每天以异常重试方式定时启动网络爬虫,在任意时间内,正常爬取方式启动的进程和异常重试方式启动的进程都最多只能存在一个;S9、以异常重试方式启动,启动时间在正常爬取启动一定时间之后,在启动之前先结束掉该爬虫以当前方式运行中的进程;S10、异常重试方式启动网络爬虫,从统一的数据库里读取爬取失败的网址,优先爬取失败次数最高的网址;S11、在数据库里记录已爬取成功的网页,爬取成功的网页直接跳过不再爬取;S12、异常重试方式爬取,根据网址的特征,判断出是属于首页、列表页还是详细内容页,分别进行爬取;S13、如果异常重试方式爬取网页再次失败,记录该网址的失败次数;S14、重复步骤S8到S13直至数据库里没有记录为爬取失败的网址。

全文数据:

权利要求:

百度查询: 中联财联网科技有限公司 一种网络爬虫代理隧道的负载均衡调度及异常重试方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。