买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:沈阳航空航天大学
摘要:本发明公开了基于预训练模型与规则结合的武器装备实体关系抽取方法,涉及信息抽取技术领域;对武器装备文本数据集进行处理,获得武器装备及其属性值两类实体和实体关系;采用预训练模型与规则知识结合的方法,构建武器装备实体关系抽取模型,首先使用预训练模型完成实体关系的初步抽取,再引入到滤调模块对抽取结果筛选,得到过滤调整后的实体关系集合R1;然后,使用基于规则知识的实体关系抽取模型对武器装备文本数据集进行实体关系的再抽取,得到实体关系集合R2;将R1与R2进行融合,得到最终的实体关系结果。通过本发明可以实现从武器装备领域的文本数据中抽取实体关系,为武器装备信息的知识化组织和管理提供新方法。
主权项:1.基于预训练模型与规则结合的武器装备实体关系抽取方法,其特征在于:包括以下步骤:S1:对武器装备文本数据集进行去重、填充或截断处理,获得武器装备及其属性值两类实体、武器装备间的实体关系及武器装备与属性值间的实体关系;S2:采用基于预训练的实体关系抽取模型与规则知识结合,构建武器装备实体关系抽取模型,在基于预训练的实体关系抽取模型中完成实体关系的第一次抽取,得到实体关系抽取结果;S3:将S2得到的实体关系抽取结果和武器装备文本数据集中提供的与抽取结果相对应的实体对组成三元组引入过滤调整模型,根据实体关系类型与头实体类型和尾实体类型间的约束关系,通过过滤层过滤掉头尾实体类型不满足约束规则的三元组,将过滤出的三元组通过调整层对实体间关系进行调整,得到过滤和调整后的实体关系集合R1;S4:使用基于规则知识的武器装备实体关系抽取模型对武器装备文本数据集进行实体关系的第二次抽取,得到实体关系集合R2;S5:将R1与R2通过去重和消融操作进行融合,得到实体关系集合R;所述S2具体包括以下步骤:S2.1:使用基于预训练的实体关系抽取模型BERT层作为表示层,将武器装备文本数据集中的每条句子输入表示层获得一组融合上下文语义信息的词向量表示;S2.2:将融合上下文语义信息的词向量输入循环神经网络中,得到整条句子对应的完整隐藏层状态序列H;S2.3:将句子的完整隐藏层状态序列H引入到卷积神经网络层,通过卷积和池化操作,得到融合句子局部和句子全局语义特征的向量表示S;S2.4:将S输入全连接层,得到的特征向量v引入输出层中使用分类器进行关系分类,完成实体间关系的抽取,得到实体间关系的抽取结果;S2.5:根据实体间关系的抽取结果和实体关系标签信息,设定实体间关系抽取损失函数,完成基于预训练的实体关系抽取模型的训练和测试,并根据测试结果对基于预训练的实体关系抽取模型进行更新;所述循环神经网络采用BiGRU神经网络:BiGRU神经网络采用前向GRU编码器和后向GRU编码器相结合的方式提取句子上下文特征,分别输出句中各词对应的单向隐藏层状态h'i和h″i,并将h'i和h″i拼接得到句中各词对应的融合上下文语义信息的隐藏层状态hi=[h'i;h″i],整条句子对应的完整隐藏层状态序列为H=[h0,h1,…,hn];所述分类器采用Softmax函数,如式1所示: 其中:Softmaxvi是实体关系集合中第i个实体关系的预测值;vi是输入的特征向量;vj是向量第j个位置的权值;N是实体关系总数;所述设定实体间关系抽取损失函数为:根据基于基于预训练的实体关系抽取模型抽取的结果yi与真实关系标签设定交叉熵损失函数计算模型的损失值L,如式2所示: 根据损失值更新模型参数,完成基于预训练的实体关系抽取模型的训练;利用测试集对模型进行N次测试,记录每次测试时模型的准确率P、召回率R和F1值作为模型的评测指标,如式3-式5所示: 其中,TP表示模型抽取出的实体关系三元组中正确的数量,FP表示抽取出的实体关系三元组中不正确的数量,FN表示未抽取出的正确的实体关系三元组数量;根据准确率、召回率和F1值,选取效果最好的一组模型参数,作为基于预训练的实体关系抽取模型的最终参数;所述S3具体包括以下步骤:S3.1:根据实体关系类型与头实体类型和尾实体类型间的约束关系,建立用于实体间关系过滤的过滤层,以及调整实体间关系的调整层;S3.2:将S2.4实体间关系的抽取结果和武器装备文本数据集中提供的与抽取结果相对应的实体对组成三元组引入到过滤层,通过过滤规则过滤掉头尾实体类型不满足约束规则的三元组;S3.3:将S3.2过滤出的三元组引入到调整层,并根据调整规则和三元组中头尾实体类型对实体间关系进行调整,得到能够满足约束规则的实体间关系;S3.4:经过过滤层和调整层的过滤和调整,得到实体关系集合R1;所述实体关系与头实体类型和尾实体类型间的约束关系为:当三元组中头实体类型为PRODUCT,尾实体类型为PRODUCT时,其对应的实体关系类型为装备关系;当头实体类型为PRODUCT,尾实体类型为FAC或LOC时,其对应的实体关系类型为位置关系或目标关系、隶属关系;当头实体类型为PRODUCT,尾实体类型为QUANTITY时,其对应的实体关系类型为位置关系;当头实体类型为PRODUCT,尾实体类型为CATEGORY时,其对应的实体关系类型为类型关系;所述过滤规则为:通过武器装备文本数据集中提供的实体标签信息和实体关系标签信息,获得三元组中头实体类型和尾实体类型,过滤掉不存在于约束关系中头尾实体类型组合的三元组;所述调整规则为:通过武器装备文本数据集中提供的实体标签信息和实体关系标签信息,获得三元组中头尾实体的实体类型和实体关系类型,根据约束关系中头尾实体类型及其对应的实体关系类型,对不满足约束关系的三元组中的实体关系进行调整。
全文数据:
权利要求:
百度查询: 沈阳航空航天大学 基于预训练模型与规则结合的武器装备实体关系抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。