首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

针对电力作业文本的知识图谱构建方法、装置、介质及芯片 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华北电力大学(保定)

摘要:一种针对电力作业文本的知识图谱构建方法、装置、介质及芯片,克服了现有技术中知识量少、识别率低、资源占用高的缺陷。该方法涵盖本体层定义、实体关系抽取、实体消歧、图谱构建等关键环节。通过预处理电力文本语料、构建词向量表、实体类型标注、LEBERT‑BiGRU‑CRF模型训练、关系标注、实体关系联合抽取及知识融合消歧等步骤,实现从文本中抽取实体及关系,并构建成可视化的电力作业知识图谱。引入了词汇增强和注意力机制,提升识别准确率,采用先实体识别后联合抽取的模式,有效解决实体重叠问题,优化知识抽取效果。将抽取的实体关系三元组导入图数据库,形成电力作业领域的知识库,为一种高效、精准的知识图谱构建方法。

主权项:1.一种针对电力作业文本的知识图谱构建方法,其特征在于,包括步骤:S1:本体层实体关系定义将收集得到的电力领域相关文本整合到文档中,结合电力领域专业知识对其中包含的实体及关系类型进行定义,得到实体类型集合和关系类型集合,其中实体类型集合为,关系类型集合为;S2:电力文本语料预处理过程;S3:实体类型标注、构建词表根据S1中定义的本体层实体类型,对语料进行实体标注,标注样本为S2预处理后得到的全部文本语料的20%-25%,同时需要保证实体类型在该标注样本中分布均匀;S4:训练模型抽取命名实体将S3中得到的实体识别数据集送入LEBERT-BiGRU-CRF模型中进行训练,基于训练完毕的模型,对S1形成的全部语料的50%内容进行实体标注;S5:关系类型标注对S4中输出的实体识别结果进行实体间关系类型的标注,标注格式为SPO格式,得到电力作业实体关系数据集,规模为全部语料的50%;S6:实体关系联合抽取将标注的实体关系数据集送入PRGCA模型进行训练,对全部语料进行实体关系联合抽取,实体关系联合抽取具体包括:(1)给定输入语句S,经过BERT预训练编码器得到包含n个tokens的句子嵌入h,首先预测句子中潜在关系的子集,后仅需识别潜在关系下的主客体,潜在关系预测的元素为: (7) (8)其中Avgpool是平均池化操作,是可训练权重,是Sigmod函数;该潜在关系预测过程为一个多标签分类任务,如果概率超过阈值,则为对应标签分配标签1,否则分配标签0,后续只需要将预测出的潜在关系用于抽取过程;(2)进行主客体标注前,使用注意力机制对表示向量进行权重分配,以充分利用位置信息,提升模型识别精度,优化得到向量c,优化过程如下: (9) (10) (11)式中,为输入的待优化向量,为学习函数,受到的影响,计算过程视为对输入向量的加权平均,确定权值后进行加权,得到优化向量;优化后的向量使用全连接网络进行两次序列标注操作分别识别主体和客体,能够有效解决实体重叠问题,对每个token的操作如下: (12) (13)其中是训练嵌入矩阵U中第j个关系表示,是第i个token的编码表示,、是训练权重;(3)序列标注后得到所有潜在关系中包含的主客体,下面使用全局标注矩阵来确定正确的主客体对;首先枚举句子中所有主客体对,然后在全局对应矩阵中将该实体对对应的分数与阈值进行比较,超过阈值则保留,否则进行过滤;矩阵中元素对应的值,即主客体对的置信度如下: (14)其中,、是形成潜在主客体对的输入语句中的第i个和第j个位置的token编码表示,为可训练权重,为Sigmod函数;全局矩阵输出的正确的主客体对结合关系,可以得到正确的三元组表示,表示为:主体,关系,客体;S7:知识融合消歧在抽取工作完成后,需要针对多词同义问题对实体库进行实体链接,使用BERT编码器将实体和其周围的语义信息映射到同一个向量空间中,对相似度设置阈值,该向量空间中相邻的实体中,其距离小于等于阈值时,视为同义实体,归并其名称及关系;S8:导入图数据库将知识抽取与融合得到的实体关系三元组导入Neo4j图数据库中,形成可视化的电力作业知识图谱。

全文数据:

权利要求:

百度查询: 华北电力大学(保定) 针对电力作业文本的知识图谱构建方法、装置、介质及芯片

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。