买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国人民解放军国防科技大学
摘要:本发明公开了一种基于自动问答的实体关系联合抽取方法,属于信息抽取和自然语言处理技术领域。包括对数据进行预处理;设计实体抽取问题模板并生成实体抽取问答对;基于预训练语言模型的第一自动问答模型抽取实体;结合识别出的实体和根据数据集特点设计的关系抽取问题模板,采用无监督方式生成关系抽取问答对;基于预训练语言模型的第二自动问答模型抽取关系;将第一自动问答模型和第二自动问答模型进行联合训练;将关系抽取问答对和输出的尾实体进行三元组转化。本发明将实体关系抽取转化为问答任务,可以有效解决实体关系抽取中存在的跨句关系、多元关系难以识别的问题,且能识别出训练集中未预先定义的实体关系类型。
主权项:1.一种基于自动问答的实体关系联合抽取方法,其特征在于,包括:对数据进行预处理,至少包括分词和词性标注;还包括去停用词,去停用词的方法是根据停用词表删除文本中的助词、语气词;根据数据集特点设计实体抽取问题模板,并根据模板生成实体抽取问答对;根据数据集特点设计实体抽取问题模板,并根据模板生成实体抽取问答对的方法包括:通过对数据集进行分析,对不同类型的头实体设计不同的问题,形成实体抽取问题模板;当给定一段输入文本后,对所有头实体类型遍历进行提问,若文本中存在该类型的头实体,则将该头实体标记为问题的答案,若不存在该类型的头实体,则将答案标记为None,构造出实体抽取问答对;将实体抽取问题和给定文本输入到基于预训练语言模型的第一自动问答模型中,输出实体;基于预训练语言模型的问答模型包括将高维离散空间的词映射到低维连续空间向量的嵌入编码输入、预训练和输出微调;构造所述基于预训练语言模型的第一自动问答模型的方法包括:将输入文本、问题进行拼接,并对其进行嵌入编码;将文本、问题嵌入编码的结果输入到预训练语言模型中;对预训练语言模型的输出层进行微调;所述将输入文本、问题进行拼接的方法为:给定问题和文本其中Nq和Nc分别表示问题和文本中的字数,将问题和文章用特殊符号[CLS]和[SEP]拼接,输入形式为[CLS]Q[SEP]C[SEP];嵌入编码的方法为:以序列[CLS]Q[SEP]C[SEP]中每一个字的字向量、片段向量和位置向量的和作为嵌入编码;所述预训练语言模型为BERT模型;所述对预训练语言模型的输出层进行微调的方法为:将BERT模型的输出结果输入到全连接层中,之后再进行Softmax;求得开始位置和结束位置概率最高的位置,将从开始位置到结束位置之间的序列作为预测答案的输出;还包括:对基于预训练模型的第一自动问答模型进行训练,训练的方法为:通过最小化开始和结束位置负对数的概率和,公式如下: 其中,N是训练样本中的样例数,和是样例i的真实标记的开始位置和结束位置,是预测答案开始位置在的概率,是预测答案结束位置在的概率,θ表示模型中所有可训练权重的集合;给预测答案开始和结束位置的置信度得分向量pb和pe分别拼接一个可训练的偏置t,新的置信度得分向量表示为其中NS表示句子中的字数,“;”表示按行进行拼接;没有答案时的概率表示为:其中a表示答案,表示没有答案;当的概率大于最优答案片段的得分时,则该问题没有答案;结合识别出的实体和根据数据集特点设计的关系抽取问题模板,采用无监督方式生成关系抽取问答对:通过对数据集进行分析,对不同类型的头实体、关系设计不同的问题,形成关系抽取模板;对实体抽取识别的每一个实体可能存在的关系根据问题模板进行提问,并将问题模板中的“xx”替换为实体抽取识别出的实体,若该实体在文本中存在该类的关系,则将尾实体作为问题的答案,反之,若不存在该类关系,则问题的答案为None,以此方法循环遍历所有样例构造关系抽取问答对;将关系抽取问题和给定文本输入到基于预训练语言模型的第二自动问答模型中,输出尾实体;将第一自动问答模型和第二自动问答模型进行联合训练;将关系抽取问答对和输出的尾实体进行三元组转化,输出由主语、谓语、宾语构成的三元组,分别对应头实体、关系和尾实体。
全文数据:
权利要求:
百度查询: 中国人民解放军国防科技大学 一种基于自动问答的实体关系联合抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。