买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本申请提供了一种基于筛选条件的数据采集方法及装置,涉及数据处理技术领域,解决了对网站数据的采集效率较低技术问题。该方法包括:确定数据采集请求的请求加载方式;如果请求加载方式为静态加载,则根据目标采集格式、目标采集内容类型以及目标接口协议通过指定静态筛选条件从多个表达式中确定目标表达式,并通过目标表达式对目标网站进行数据的选择、提取以及采集,得到目标网站的第一数据采集结果;如果请求加载方式为动态加载,则通过指定动态筛选条件利用自动化工具模拟采集行为操作,获取目标网站的页面元素;基于目标网站的页面元素通过CSS选择器以及元素选择器对页面元素进行识别,得到页面元素对应的正文内容。
主权项:1.一种基于筛选条件的数据采集方法,其特征在于,所述方法包括:获取针对目标网站的数据采集请求,并确定所述数据采集请求的请求加载方式;其中,所述请求加载方式包含静态加载和动态加载,所述动态加载对应有指定动态筛选条件,所述静态加载对应有指定静态筛选条件,所述指定静态筛选条件中根据不同的采集格式、不同的采集内容类型以及不同的采集地区对应的接口协议对应有多个表达式,多个所述表达式中包含正则表达式;如果所述请求加载方式为所述静态加载,则确定针对所述目标网站的目标采集格式、目标采集内容类型以及目标采集地区对应的目标接口协议,根据所述目标采集格式、所述目标采集内容类型以及所述目标接口协议通过所述指定静态筛选条件从多个所述表达式中确定目标表达式,并通过所述目标表达式对所述目标网站进行数据的选择、提取以及采集,得到所述目标网站的第一数据采集结果;如果所述请求加载方式为所述动态加载,则通过所述指定动态筛选条件利用自动化工具模拟采集行为操作,并通过所述采集行为操作获取所述目标网站的页面元素;其中,所述采集行为操作包括点击操作、滑动操作以及长按操作中的至少一种;基于所述目标网站的页面元素通过CSS选择器以及元素选择器对所述页面元素进行识别,得到所述页面元素对应的正文内容,并将所述正文内容作为所述目标网站的第二数据采集结果;其中,所述正文内容包括正文标题、正文图片以及正文文本中的至少一种。
全文数据:
权利要求:
百度查询: 戎行技术有限公司 基于筛选条件的数据采集方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。