首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

大数据智能归集分析方法、系统、电子设备和存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:泉州市易达信息科技有限公司

摘要:本发明涉及大数据处理技术领域,尤其是大数据智能归集分析方法、系统、电子设备和存储介质,所述大数据智能归集分析方法是通过对来自多个数据源的待归集数据进行分类,得到分类后的待归集数据;基于不同数据结构对应的待归集数据的数据特征,确定与不同数据结构相匹配的目标XML描述文件;针对任一数据结构对应的待归集数据,通过数据结构对应的目标XML描述文件和目标归集算法,对数据结构对应的待归集数据进行数据归集。通过针对多源异构数据的数据特征,设计不同数据结构的数据归集过程的XML描述文件,并设计与之对应的归集算法,在实现对多数据源、多数据类型、多数据结构的待归集数据进行归集的同时,可以提高数据归集的效率。

主权项:1.一种大数据智能归集分析方法,其特征在于,包括:针对来自多个数据源的待归集数据,按照所述待归集数据的数据结构对所述待归集数据进行分类,得到分类后的待归集数据;分类后的待归集数据包括结构化数据、半结构化数据和非结构化数据;针对任一所述数据结构对应的待归集数据,基于所述数据结构对应的待归集数据的数据特征,确定与所述数据结构相匹配的目标XML描述文件;所述目标XML描述文件是对所述数据结构对应的待归集数据的数据归集逻辑进行描述的文件;不同的数据结构采用不同的目标XML描述文件;确定与所述数据结构的目标XML描述文件对应的目标归集算法;不同的所述目标XML描述文件对应不同的目标归集算法;针对任一所述数据结构对应的待归集数据,通过所述数据结构对应的所述目标XML描述文件和所述目标归集算法,对所述数据结构对应的待归集数据进行数据归集;对于所述待归集数据中的结构化数据,所述目标XML描述文件包括结构化XML描述文件;基于所述数据结构对应的待归集数据的数据特征,确定与所述数据结构相匹配的目标XML描述文件,包括:根据所述结构化数据的数据特征,设计与所述结构化数据相匹配的结构化XML描述文件;其中,所述结构化XML描述文件包括数据收集元素的元素标签,所述数据收集元素的元素标签包括表示JDBC连接数据库时所需要的配置信息的配置标签和表示数据库具体表结构的结构标签,所述配置标签包括数据库类型及所需驱动标签、数据库地址及设置标签、用户名及密码标签,所述结构标签包括数据库表名称标签和字段信息标签,所述字段信息标签包括字段名称标签、字段类型标签、以及字段长度标签;对于所述待归集数据中的结构化数据,通过所述结构化数据的数据结构对应的所述目标XML描述文件和所述目标归集算法,对所述数据结构对应的待归集数据进行数据归集,包括:在对所述待归集数据中的结构化数据进行归集过程中,将所述结构化XML描述文件转化为DOM文档,并根据DOM文档解析和遍历所述数据收集元素的元素标签,得到各个元素标签里的元素;将字段信息标签下具有同个属性标签的元素以数组格式存放至字段信息数组,以及将没有重复属性的标签的元素直接读取并赋值给JDBC连接数据库所需的字段,并且指定字符的编码格式;通过所述用户名及密码标签来完成JDBC和数据库之间的连接;以所述字段信息数组中数组元素个数为判断条件进行循环,按顺序依次获取数组元素,并将数组元素与SQL语句中的选择查询语句相结合,完成SQL查询语句的组建,获取所述数据源为不同数据库中的数据;通过将SQL查询语句传递给JDBC对不同数据库操作类方法,并执行对应的目标归集算法,完成对所述结构化数据的数据归集;对于所述待归集数据中的半结构化数据,所述目标XML描述文件包括半结构化XML描述文件;基于所述数据结构对应的待归集数据的数据特征,确定与所述数据结构相匹配的目标XML描述文件,包括:根据所述半结构化数据的数据特征,设计与所述半结构化数据相匹配的半结构化XML描述文件;其中,所述半结构化数据包括网页页面数据,所述网页页面数据包括社交类型网站数据和公告类型网站数据,所述社交类型网站数据和公告类型网站数据的网页组织架构不同;所述半结构化XML描述文件为用于描述所述待归集数据中的半结构化数据在各个所述数据源中HTML文件的位置的文件;不同网页组织架构对应不同的半结构化XML描述文件不同;对于所述待归集数据中的半结构化数据,对所述数据结构对应的待归集数据进行数据归集,包括:通过解析所述半结构化XML描述文件,确定所述待归集数据中半结构化数据的位置以及对应的目标归集算法,对所述半结构化数据进行数据归集;其中,所述目标归集算法包括选择器归集策略、标签归集策略、标识归集策略中的至少一种;所述非结构化数据的归集方式包括:解析所述目标XML描述文件,确定出所述非结构化数据的位置;根据所述非结构化数据的位置对所述非结构化数据进行数据归集,其中,所述目标XML描述文件存储有所述非结构化数据的描述信息和注释信息。

全文数据:

权利要求:

百度查询: 泉州市易达信息科技有限公司 大数据智能归集分析方法、系统、电子设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。