买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工程大学
摘要:基于偏旁特征嵌入的中文命名实体识别网络模型,涉及自然语言处理与中文命名实体识别领域。解决了现有中文命名实体识别算法的语义识别的准确率和F值低的问题。将字符拆分成其偏旁构成的形式,将其映射为偏旁特征向量、并与单词特征向量和字符特征向量,组合后输入到Bi‑LSTM编码层中进行编码中,编码后的特征经CRF解码层解码后得到输入文本的命名实体标签,从而实现对中文命名实体的识别。本发明主要用于对中文命名实体进行识别。
主权项:1.基于偏旁特征嵌入的中文命名实体识别网络模型,其特征在于,该网络模型包括输入层、单词特征嵌入向量层、字符特征嵌入向量层、偏旁特征嵌入向量层、下连接层、Bi-LSTM编码层、上连接层、CRF解码层和输出层;输入层,用于接收输入的文本语句S={x1,x2,...,xn},并将文本语句S中的各字符,同时送入单词特征嵌入向量层、字符特征嵌入向量层、偏旁特征嵌入向量层;其中,xi为语句中第i个字符,i=1,2,3……n,i为整数;单词特征嵌入向量层,用于根据分词技术获得文本语句S中字符xi的匹配词序列wi1,wi2,…,wiP,根据字符xi的匹配词序列中的各匹配词,获得各匹配词的特征向量再根据各匹配词的特征向量以及该匹配词的权重值获得字符xi的匹配词特征向量其中,wij为字符xi的匹配词序列中的第j个匹配词;j=1,2,……P,j和P均为整数; 为字符xi的第j个匹配词的特征向量; 为字符xi的第j个匹配词的权重值;字符特征嵌入向量层,用于根据接收的字符xi与字符嵌入特征向量矩阵Wc间的关系,获得字符xi的字符嵌入特征向量且其中,C为字符嵌入特征向量矩阵中的中文字符的个数;dc为字符嵌入特征向量的维度;R表示实数;偏旁特征嵌入向量层,用于利用中文拆字技术将各字符拆分为组成该字符的各个偏旁,其中,字符xi偏旁拆分后的结果为xi′={ri1,ri2,……rim},再根据xi′中各偏旁与中文偏旁嵌入特征矩阵Wr间的关系,获得字符xi中各偏旁的特征向量再根据字符xi中各偏旁对该字符xi在文本语句S中语义信息贡献度得分scorexi,rik,得到字符xi中每个偏旁的权重值再根据字符xi各偏旁的特征向量与该偏旁的权重值获得字符xi的偏旁特征向量且其中,rik为字符xi的第k个偏旁,k=1,2,3……m;k为整数;dr为偏旁特征向量的维度;r为偏旁特征向量的个数;下连接层,用于将字符xi的匹配词特征向量字符嵌入特征向量和偏旁特征向量通过串联的方式进行连接,得到字符xi的最终的特征向量Bi-LSTM编码层,用于将字符xi的最终的特征向量vi进行编码,获得字符xi的前、后向隐藏状态向量,并将其字符xi的前、后向隐藏状态向量作为上连接层的输入;上连接层,用于将每个字符的前、后向隐藏状态向量进行连接,连接后的结果作为CRF解码层的输入;CRF解码层,用于对上连接层输出的结果进行解码,获得所有字符的实体标签,该字符的实体标签中包含字符的实体类别和位置;输出层,用于将输出所有字符的实体标签。
全文数据:
权利要求:
百度查询: 哈尔滨工程大学 基于偏旁特征嵌入的中文命名实体识别网络模型
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。