首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种行业知识图谱构建方法、计算机设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京中关村科金技术有限公司

摘要:本发明提供一种行业知识图谱构建方法、计算机设备及存储介质,基于感兴趣文本段落中的目标命名实体属性的实体文本语义表征数组构建显著性优化数组,基于显著性优化数组对字符分布表征数组进行优化,让最后基于字符分布表征数组预测获得的感兴趣文本段落中的文本字符针对目标命名实体属性的预估文本段落更准确可靠,那么最后在预估文本段落集合中确定的对于针对目标命名实体属性的目标文本段落准确可靠。

主权项:1.一种行业知识图谱构建方法,其特征在于,应用于计算机设备,所述方法包括:获取目标行业知识文本,从所述目标行业知识文本中确定包含目标命名实体属性的感兴趣文本段落;获取所述感兴趣文本段落中的文本字符对应的字符分布表征数组,其中,所述字符分布表征数组包括所述文本字符针对所述目标命名实体属性的字符分布表征单元;通过所述感兴趣文本段落中的所述目标命名实体属性的实体文本语义表征数组构建用于修正所述字符分布表征数组中的所述字符分布表征单元的显著性优化数组;通过所述字符分布表征数组中的所述字符分布表征单元和所述显著性优化数组,确定所述文本字符对应的预估文本段落,将所述文本字符对应的预估文本段落加入预估文本段落集合;在所述预估文本段落集合中确定与所述目标命名实体属性在所述目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落;以便从所述目标文本段落中获取目标命名实体属性,基于所述目标命名实体属性构建行业知识图谱;其中,所述字符分布表征数组包括句字符分布表征数组和段字符分布表征数组,所述字符分布表征单元包括所述文本字符对于对应的目标命名实体属性的句边际间隔单元和段边际间隔单元,所述句字符分布表征数组中的字符分布表征单元为所述句边际间隔单元,所述段字符分布表征数组中的字符分布表征单元为所述段边际间隔单元,所述显著性优化数组包括句显著性优化数组和段显著性优化数组,所述句显著性优化数组用于修正所述句字符分布表征数组中的句边际间隔单元,所述段显著性优化数组用于修正所述段字符分布表征数组中的段边际间隔单元;所述通过所述字符分布表征数组中的所述字符分布表征单元和所述显著性优化数组,确定所述文本字符对应的预估文本段落,包括:基于所述句显著性优化数组对所述句字符分布表征数组中的句边际间隔单元进行显著性优化,获得优化后的句字符分布表征数组;基于所述段显著性优化数组对所述段字符分布表征数组中的段边际间隔单元进行显著性优化,获得优化后的段字符分布表征数组;通过所述优化后的句字符分布表征数组和所述优化后的段字符分布表征数组,确定所述文本字符对应的预估文本段落;所述通过所述优化后的句字符分布表征数组和所述优化后的段字符分布表征数组,确定所述文本字符对应的预估文本段落,包括:通过所述优化后的句字符分布表征数组和所述优化后的段字符分布表征数组,确定所述文本字符对应的预估文本段落的段落字符覆盖区间;通过所述文本字符对应的所述段落字符覆盖区间确定所述文本字符对应的预估文本段落;所述方法依据目标识别算法实现,所述获取目标行业知识文本之前,所述方法还包括:初始识别算法获取行业知识文本样本,依据所述初始识别算法从所述行业知识文本样本中确定包含目标命名实体属性的感兴趣文本段落;获取所述感兴趣文本段落中的文本字符对应的字符分布表征数组,其中,所述字符分布表征数组中包括所述文本字符针对所述目标命名实体属性的字符分布表征单元;通过所述感兴趣文本段落中的所述目标命名实体属性的实体文本语义表征数组构建用于修正所述字符分布表征数组中的所述字符分布表征单元的显著性优化数组;通过所述字符分布表征数组中的所述字符分布表征单元和所述显著性优化数组确定所述文本字符对应的预估文本段落,将所述文本字符对应的预估文本段落加入预估文本段落集合;在所述预估文本段落集合中确定与所述目标命名实体属性在目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落;通过所述目标文本段落与在所述行业知识文本样本中标注的所述目标命名实体属性的实际文本段落之间的文本段落损失,优化所述初始识别算法的算法参数,获得训练好的识别算法;其中,所述获取所述感兴趣文本段落中的文本字符对应的字符分布表征数组,包括:检测所述文本段落中的文本字符的字符类别,通过检测结果为所述文本字符赋予检测类别标记,所述字符类别包括目标字符类别和上下文字符类别,所述目标字符类别的文本字符为所述感兴趣文本段落中所述目标命名实体属性包含的文本字符,所述上下文字符类别的文本字符为所述感兴趣文本段落中,除所述目标命名实体属性包含的文本字符以外的文本字符,所述检测类别标记包括所述目标字符类别对应的目标类别标记和所述上下文字符类别对应的上下文类别标记;通过所述文本字符被赋予的检测类别标记构建所述感兴趣文本段落对应的文本段落特征数组;通过所述文本段落特征数组构建所述感兴趣文本段落中的所述文本字符对应的所述字符分布表征数组;所述通过所述文本字符被赋予的检测类别标记构建所述感兴趣文本段落对应的文本段落特征数组,包括:通过所述文本字符被赋予的检测类别标记和所述感兴趣文本段落中的所述目标命名实体属性的所述实体文本语义表征数组构建所述感兴趣文本段落对应的所述文本段落特征数组;所述通过所述感兴趣文本段落中的所述目标命名实体属性的实体文本语义表征数组构建用于修正所述字符分布表征数组中的所述字符分布表征单元的显著性优化数组,包括:通过所述文本段落特征数组构建用于修正所述字符分布表征单元的所述显著性优化数组;所述感兴趣文本段落中的所述文本字符还被赋予实际类别标记;所述实际类别标记包括所述目标类别标记和所述上下文类别标记;所述通过所述目标文本段落与在所述行业知识文本样本中标注的所述目标命名实体属性的实际文本段落之间的文本段落损失,优化所述初始识别算法的算法参数,获得训练好的识别算法,包括:通过所述文本字符对应的所述检测类别标记与所述实际类别标记之间的标记误差,确定第一算法代价函数;通过所述目标文本段落与所述实际文本段落之间的文本段落损失,确定第二算法代价函数;通过所述第一算法代价函数和所述第二算法代价函数,优化所述初始识别算法的算法参数,获得所述识别算法;所述通过所述目标文本段落与在所述行业知识文本样本中标注的所述目标命名实体属性的实际文本段落之间的文本段落损失,优化所述初始识别算法的算法参数,获得训练好的识别算法,包括:通过所述目标文本段落与所述实际文本段落之间的文本段落损失,确定第二算法代价函数;获取所述感兴趣文本段落中被赋予所述目标类别标记的文本字符在所述目标行业知识文本中的分布段落;通过所述分布段落和所述实际文本段落之间的文本段落损失,确定第三算法代价函数;通过所述第二算法代价函数和所述第三算法代价函数,优化所述初始识别算法的算法参数,获得所述识别算法。

全文数据:

权利要求:

百度查询: 北京中关村科金技术有限公司 一种行业知识图谱构建方法、计算机设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术