买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了融合关系过滤和多任务学习的全局指针网络实体关系抽取方法,涉及自然语言处理领域,包括:将原始文本映射到预训练语言模块的输入序列,在输入序列的开头和结尾分别进行标记,对原始文本中的句子进行特征提取获得输出词向量;基于词向量构建全局指针网络,全局指针网络用于进行实体抽取;基于词向量获得关系过滤解码模块,关系过滤解码模块用于对关系进行筛选过滤;基于全局指针网络和关系过滤解码模块构建实体与关系抽取模块,基于实体与关系抽取模块对待处理文本进行处理获得实体与关系抽取结果,本发明能够解决重叠三元组问题以及嵌套实体问题,具有全局观,实现了训练与预测目标的一致性,增强了模型的性能,减少了实体关系抽取中的冗余关系判断,针对多任务学习,本发明设计了自适应损失函数权重调整,提升模型的性能。
主权项:1.融合关系过滤和多任务学习的全局指针网络实体关系抽取方法,其特征在于,所述方法包括:步骤1:获得原始文本,将原始文本映射到预训练语言模块的输入序列,在输入序列的开头和结尾分别进行标记,将预训练语言模块作为编码器对原始文本中的句子进行特征提取获得输出词向量;步骤2:基于步骤1获得的词向量进行线性变换处理获得变换后的序列,基于变换后的序列构建第一打分函数,在第一打分函数中加入相对位置信息获得第二打分函数,构建实体抽取任务的损失函数,基于第二打分函数构建全局指针网络,对全局指针网络进行训练,全局指针网络用于进行实体抽取;步骤3:基于步骤1获得的词向量进行池化操作获得池化结果,将池化结果通过线性层和非激活函数得到关系概率,设置阈值过滤冗余关系,针对关系过滤任务构建相应的第二损失函数,获得关系过滤解码模块,训练关系过滤解码模块,关系过滤解码模块用于对关系进行筛选过滤;步骤4:基于全局指针网络和关系过滤解码模块构建实体与关系抽取模块,基于实体与关系抽取模块对待处理文本进行处理,分别识别出主体实体和客体实体各自的首位置和尾位置以及主体实体与客体实体之间的关系获得识别结果,基于识别结果获得待处理文本对应的实体与关系抽取结果;步骤2具体包括:基于步骤1获得的词向量[h1,h2,...,hn]进行线性变换处理获得变换后的序列,得到序列[q1,α,q2,α,...,qn,α]和[k1,α,k2,α,...,kn,α],序列[q1,α,q2,α,...,qn,α]和[k1,α,k2,α,...,kn,α]是识别第α种类型实体所用的向量序列,线性变换方式为:qi,a=wq,αhi+bq,α;ki,a=wk,αhi+bk,α;其中,1≤i≤n,wq,α为当前线性变换的权重参数,bq,α为偏置项,wk,α为当前线性变换的权重参数,bk,α为偏置项;基于变换后的序列构建用于确定实体的第一打分函数,第一打分函数为: 其中,sαi,j表示从i到j的连续片段是一个类型为α的实体的打分,用qi,α和ki,α的内积作为实体片段类型为α的打分;在第一打分函数中加入相对位置信息获得第二打分函数,第二打分函数为: 其中,T为转置矩阵运算符号,Ri和Rj为变换矩阵,用来增加相对位置信息,为满足关系构建实体抽取任务的损失函数,实体抽取任务的损失函数为: 其中,LGP_entity表示实体抽取的损失值,M和N是正类别和负类别的集合,Si表示预测的第i个值对应标签中的第i个位置,e为自然常数,A=M∪N,A为正负类别的集合。
全文数据:
权利要求:
百度查询: 成都信息工程大学 融合关系过滤和多任务学习的全局指针网络实体关系抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。