买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:同济大学
摘要:本发明涉及一种用于钢铁制造企业的知识图谱自动构建方法和系统,方法包括:收集制造企业的文本数据;预处理后构建单句集合;将单句载入BERT预训练模型中,进行分词、向量化和特征提取,输出词序列向量;对词序列向量进行最大池化处理后,与[CLS]向量拼接得到实体向量表示,获取实体识别结果;根据实体向量表示,选取候选关系向量,一起载入关系分类模块中,获取关系分类结果;得到实体关系三元组;对获取三元组进行打分选取正确的三元组,通过路径排序算法挖掘新的三元组,实现知识进化。与现有技术相比,本发明将异构数据抽象成知识,对知识进行建模,同时提升了钢铁制造领域知识图谱构建效率、降低了钢铁制造领域知识图谱构建成本。
主权项:1.一种用于钢铁制造企业的知识图谱自动构建方法,其特征在于,包括以下步骤:数据收集步骤:收集制造企业的文本数据;数据处理步骤:对收集的文本数据进行预处理,构建单句集合;知识建模步骤:将所述单句集合中的单句载入预先建立并训练好的BERT预训练模型中,该BERT预训练模型对单句进行分词并向量化,然后通过双向Transformer结构进行特征提取,输出词序列向量;对所述词序列向量进行最大池化处理,并与BERT预训练模型根据该单句生成的[CLS]向量拼接得到实体向量表示,最后进行全连接与Softmax处理,得到实体识别结果;根据所述实体向量表示,选取候选关系向量,并与实体向量表示一起载入预先建立并训练好的关系分类模块中,进行全连接以及Softmax处理,获得关系分类结果;根据所述实体识别结果以及关系分类结果,得到实体关系三元组,完成知识图谱的构建;所述方法还包括知识进化步骤:将获得的实体关系三元组输入预设的词向量嵌入模型中,将抽取得到的知识嵌入低维向量空间,并根据构建的损失函数对实体关系三元组的置信度进行打分,通过预设的置信阈值判断是否为正确的三元组;将正确的三元组输入改进路径排序算法中,挖掘新的三元组,作为进化后的知识图谱;所述词向量嵌入模型采用用TransE模型对实体关系三元组进行编码,将实体和关系编码到相同维度的向量空间,并假设:h+r-t≈0式中,h为头实体向量,r为关系向量,t为尾实体向量;所述损失函数的计算表达式为: 式中,frh,t为损失函数的计算结果,符号为L2范数;所述改进路径排序算法利用双层随机游走机制对路径特征进行评估,该双层随机游走机制中引入向量空间相似性的启发式方法,获取关系路径特征模式。
全文数据:
权利要求:
百度查询: 同济大学 一种用于钢铁制造企业的知识图谱自动构建方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。