首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种知识图谱抽取方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国建设银行股份有限公司

摘要:本发明提供了一种知识图谱抽取方法及装置,包括:判断接入的数据来源的类型,并根据数据来源的类型将数据来源注册成临时表;根据数据来源的数量确定对应的数据抽取方式,并从临时表中对数据的字段进行抽取;根据知识图谱本体的要求对抽取的字段所对应的数据进行验证,并根据验证通过的字段所对应的数据对原有数据进行更新,获得更新后的数据。本申请提供了通用的知识图谱抽取数据接入接口和数据输出接口,并且预先设置了一些常用的数据来源处理模块,灵活地根据不同数据来源来进行调整从而获取数据;并且,将获取的数据全部转化为Spark中的DataFrame对象,从而实现了屏蔽底层数据的各种不统一的格式和名称,实现统一化处理的效果。

主权项:1.一种知识图谱抽取方法,其特征在于,包括:判断接入的数据来源的类型,并根据所述数据来源的类型将数据注册成SparkSQL中的临时表;根据所述数据来源的数量确定对应的数据抽取方式,并根据所述数据抽取方式从所述临时表中抽取数据的字段;根据知识图谱本体的要求对抽取的字段所对应的数据进行验证,并根据验证通过的字段所对应的数据对所述知识图谱中的原有数据进行更新,获得更新后的数据,其中,所述知识图谱本体的内容存放在Hbase中,从Hbase中读取知识图谱本体内容然后映射到内存数据结构中,其中,封装了知识图谱本体属性的名字、类别和长度的元数据信息,并使用这些本体元数据对抽取得到的数据集进行校验,从而保证数据的合法性和有效性;其中,所述根据所述数据来源的数量确定对应的数据抽取方式,并根据所述数据抽取方式从所述临时表中抽取数据的字段,包括:当所述数据来源的数量为单个时,根据预设的抽取字段从所述临时表中对数据的字段进行抽取;当所述数据来源的数量为多个时,确定抽取字段所属的数据来源并建立所述数据来源对应的临时表间的关联方式;利用预设的关联字段生成第二SQL查询语句并利用所述第二SQL查询语句从所述临时表中对数据的字段进行抽取;其中,所述根据知识图谱本体的要求对抽取的字段对应的数据进行验证,包括:对所述抽取的字段对应的数据进行过滤,将不满足所述知识图谱本体的要求的数据剔除,得到有效数据;其中,在所述判断接入的数据来源的类型之前,所述知识图谱抽取方法还包括:文件配置环节,其中,所述文件配置环节包括:数据来源的配置、抽取内容的配置、辅助规则的配置以及输出配置,其中:所述数据来源的配置支持多种数据来源提供数据,其中,基于Hadoop的大数据系统支持从HDFS、Hive以及Hbase中加载数据;所述抽取内容的配置是包括字段名、字段的数据来源、字段类型和字段所属的本体概念的配置;所述辅助规则的配置包括PrimaryID生成规则配置、HDFS数据文件配置和DataFrame的Schema映射配置;所述输出配置是根据需要制定处理后的DataFrame对象的输出位置;其中,所述方法还包括:将更新后的数据根据所述数据来源的类型采用对应的方式进行数据导出,其中,对于HDFS文件,直接通过Spark的中的SaveAsTextFile写入输出端;对于Hive文件,使用SparkSql直接在输出端写insert语句;对于Hbase文件,通过提供的bulkload方式,直接使用排序后的Hfile写入输出端;其中,所述根据验证通过的字段所对应的数据对所述知识图谱中的原有数据进行更新,包括:获取原有数据并比较原有数据与符合要求的字段所对应的数据是否一致,如果不一致,根据预先配置的配置文件指定对原有数据进行覆盖或追加新增数据,其中:如果是覆盖,将发生变化的新数据替换对应的原有数据形成更新后的数据;如果是追加,将新数据以新增内容的形式追加到原有数据中形成更新后的数据。

全文数据:

权利要求:

百度查询: 中国建设银行股份有限公司 一种知识图谱抽取方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。