首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于原型网络的嵌套命名实体识别方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国电子科技集团公司第十五研究所

摘要:本发明提供了一种基于原型网络的嵌套命名实体识别方法和装置,属于自然语言处理技术领域。本发明方法采用原型网络作为识别结构;构建训练样本时,根据训练文本序列中每个字符在已知实体中的位置和实体类型,构成标签;一个字符可能对应多个标签,形成理想标签组,组成训练样本,对原型网络进行训练;进行识别时,将待识别文本序列输入原型网络,生成每个字符对应的标签组;待识别文本所有字符的标签组组成标签序列,最后对标签序列进行标签解析,识别出实体。使用本发明能够能够有效支撑多类别嵌套实体的识别。

主权项:1.一种基于原型网络的嵌套命名实体识别方法,其特征在于,包括:步骤1、构建原型网络包括编码器、全连接网络、原型参数映射网络;所述原型参数映射网络包括4m+1个原型组,每个原型组中包含多个原型;4m+1个原型组对应4m+1个标签;其中,4m个标签对应m种已知的实体类别SEntity;每个实体类别SEntity有4种标签,分别为BIOES标注方式中的B标签、I标签、E标签和S标签,这四类标签由BIOES标识IBIOES和实体类别SEntity组成;第4m+1个标签为BIOES标注方式中的O标签;步骤2、构建训练样本集:已知训练文本序列和对应的实体,所述实体包括实体字符序列和实体类别SEntity;根据训练文本序列和已知实体,确定训练文本序列中的每个字符Wi属于哪个实体以及在实体字符序列中的位置,利用所属实体的实体类别SEntity和所述位置的BIOES标识IBIOES构建标签;一个字符Wi对应至少一个标签,形成理想标签组labeli;字符Wi和理想标签组labeli组成训练样本;步骤3、训练原型网络:将训练样本输入原型网络,计算原型网络输出与训练样本中理想标签组之间的损失函数值,对原型网络进行优化;所述对原型网络进行优化为:原型参数映射网络计算所述全连接网络输出的所有隐含特征hi与所有原型的距离,通过损失函数计算原型网络的损失函数值,根据损失函数值优化原型网络;首先计算每个隐含特征hi属于原型mpq的概率P为: (1)其中,x表示字符Wi;原型mpq表示第p个标签对应的原型组中的第q个原型,p[1,C],q[1,K];C为原型参数映射网络中标签的数量也是原型组的个数,C=4m+1;K为每个标签对应的原型组中原型的个数;d·为距离函数;γ为常量;计算字符Wi属于每个标签的概率值为: (2)计算损失函数值为: (3)上式中,N为输入原型参数映射网络的文本序列中字符的个数,C为原型参数映射网络中标签的数量也是原型组的个数;labeli为字符Wi对应的理想标签组;上式(3)表示,如果C个标签中第k个标签在字符Wi对应的理想标签组labeli中,则字符Wi属于第k个标签的概率参与损失函数的累加,否则,不参与损失函数的累加;遍历字符Wi~WN,利用上式(3)获得原型网络的损失函数值;根据损失函数值优化原型网络;步骤4、进行识别时,将待识别文本序列输入原型网络,生成每个字符Wi对应的标签组li;待识别文本序列所有字符的标签组组成标签序列;步骤5、根据待识别文本序列及其标签序列进行标签解析,识别出待识别文本序列对应的实体集合。

全文数据:

权利要求:

百度查询: 中国电子科技集团公司第十五研究所 一种基于原型网络的嵌套命名实体识别方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。