恭喜江西师范大学左家莉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜江西师范大学申请的专利基于序列交互和句法集成的中文命名实体识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119204018B 。
龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411451862.6,技术领域涉及:G06F40/295;该发明授权基于序列交互和句法集成的中文命名实体识别方法是由左家莉;戴其沥;涂传龙;彭健;谭景璇;王云凯;康文军设计研发完成,并于2024-10-17向国家知识产权局提交的专利申请。
本基于序列交互和句法集成的中文命名实体识别方法在说明书摘要公布了:本发明公开一种基于序列交互和句法集成的中文命名实体识别方法。采用检索算法,基于输入序列检索相关上下文序列,并使用中文自然语言处理工具包得到输入序列的三种句法信息,句法成分、词性标签和依存关系;将输入序列、上下文序列以及三种句法信息分别输入命名实体识别模型,获得融合输入序列和上下文序列的序列交互信息,以及融合句法成分、词性标签和依存关系的句法集成信息,最后动态地将两种信息融合输入条件随机场,得到输入序列的命名实体标签序列。通过融合序列交互信息和句法集成信息,不仅有效补充了句子级输入序列缺失的实体信息,还引入了模型中关于句子的文本结构信息,并灵活调整了两种信息的重要性,从而达到更高的识别性能。
本发明授权基于序列交互和句法集成的中文命名实体识别方法在权利要求书中公布了:1.基于序列交互和句法集成的中文命名实体识别方法,其特征在于,包括如下步骤:步骤S1:构建数据集,数据集包括若干预处理后的句子文本;步骤S2:构建命名实体识别模型,识别模型包括序列交互模块、句法集成模块、信息融合模块和分类器;导入步骤S1中的句子文本至序列交互模块,获取输入序列和相关上下文序列,并进一步通过交叉注意力机制获取序列交互信息特征向量;步骤S3:导入步骤S1的输入序列至句法集成模块,获得句法集成特征向量;步骤S4:信息融合模块将步骤S2中的序列交互信息特征向量和步骤S3中的句法集成特征向量进行融合,获取融合特征编码特征向量;步骤S5:将步骤S4的融合特征编码特征向量输入到分类器的条件随机场中,输出句子文本的实体标签序列,并使用负对数似然损失函数来优化模型的参数;步骤S2中,具体步骤为:步骤S21:序列交互模块通过预训练语言模型BERT获得输入的句子文本对应的输入序列;表示为: ; ; ;其中,表示句子文本,表示句子文本中的第一个字符,表示句子文本中的第二个字符,表示句子文本中的第i个字符,表示句子文本对应的输入序列,表示输入序列中的第一个字符特征向量,表示输入序列中的第二个字符特征向量,表示输入序列中的第i个字符特征向量;步骤S22:序列交互模块通过BM25检索算法获取每个句子文本对应的相关上下文;步骤S23,序列交互模块通过预训练语言模型BERT对相关上下文进行处理得到相关上下文序列;表示为: ; ; ;其中,表示每个句子文本对应的相关上下文,表示相关上下文中的第一个字符,表示相关上下文中的第二个字符,表示相关上下文中的第j个字符;表示相关上下文序列,表示相关上下文序列中的第一个字符特征向量,表示相关上下文序列中的第二个字符特征向量,表示相关上下文序列中的第j个字符特征向量;步骤S24:输入步骤S21的输入序列和步骤S23的相关上下文序列,将二者交互后得到序列交互信息;序列交互信息包含序列间交互信息和序列内交互信息;序列间交互信息通过交叉注意力建模输入序列与相关上下文序列间的交互信息,将输入序列与相关上下文序列分别作为查询向量,键向量和值向量输入序列交互模块,获取两个序列间的交互信息,表示为: ; ;其中,表示以相关上下文序列为查询向量,以输入序列为键向量和值向量得到的序列间交互信息,表示以输入序列的特征向量为查询向量,以上下文的特征向量为键向量和值向量得到的序列间交互信息,表示交叉注意力机制; 以及,,为两个序列之间的交互次数;在序列交互过程中,引入不同序列的字符之间关于位置的相对含义,使字符之间具有距离感知和方向感知的能力,表示为; ;其中,表示不同序列的字符之间的相对位置信息,是作为查询向量的序列中字符的索引,是作为键向量的序列中字符的索引,的取值范围为,,为输入句子文本的特征维度,为多头注意力的头数;将相对距离信息融入到注意力机制中,表示为: ;其中,表示融入距离信息的注意力值,是查询向量中索引为的字符的特征向量,是键向量中索引为的字符的特征向量,和均为可学习的参数;在交叉注意力的计算中引入top-k选择策略,从而将交叉注意力转换成稀疏交叉注意力,以保留相似度最高的注意力值,表示为: ;其中,表示包含查询向量中字符与键向量中字符之间的前个注意力值,是超参数,掩码常量,,表示包含和之间的注意力值,表示中排名在前的注意力值;得到最终的注意力值,表示为: ;其中,最终的注意力值中保留了查询向量中字符与键向量中字符之间的前个注意力值;建模输入序列与相关上下文序列间的交互信息后,使用交叉稀疏注意力计算序列内交互信息,表示为: ;其中,是序列内交互信息,表示输入序列通过预训练语言模型得到的特征向量,作为查询向量,,表示以相关上下文序列特征向量为查询向量,以输入序列特征向量为键向量和值向量的序列间交互信息特征向量;最后,将序列间交互信息与序列内交互信息拼接,得到序列交互信息特征向量,表示为: ;式中,为序列交互信息特征向量,表示连接操作,和为可学习的参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江西师范大学,其通讯地址为:330000 江西省南昌市高新技术开发区紫阳大道99号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。