买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:华中科技大学;武汉烽火技术服务有限公司
摘要:本发明公开了一种基于词汇增强和多特征的中文命名实体识别方法及装置,属于信息抽取技术领域,方法包括:结合双向长短期记忆网络和卷积神经网络提取输入序列的字符特征、通过字符串模式匹配的方式引入字符对应的词汇信息并以词频加权平均的方式提取词汇特征以及使用预训练模型提取预训练特征;使用门控机制来控制词汇特征对字符特征的词汇增强;线性拼接经过词汇增强后的字符特征和预训练特征以构建多特征;基于多特征的上下文相关性以获取上下文特征;标签解码结合上下文特征预测输入序列最佳标签序列。从而使得,提取中文序列的字符特征更充分;提取的词汇特征更丰富且避免了中文分词误差的影响;使用多特征结合的策略模式提高了实体识别指标。
主权项:1.一种基于词汇增强和多特征的中文命名实体识别方法,其特征在于,包括以下步骤:S1,提取输入序列的字符特征、词汇特征以及预训练特征;S2,利用门控机制将所述词汇特征融入到所述字符特征中,以实现对字符特征的词汇增强;S3,线性拼接经过词汇增强后的字符特征和所述预训练特征,得到输入序列的最终特征;S4,对所述最终特征进行编码处理,以提取上下文特征;S5,基于所述上下文特征预测所述输入序列的最佳标签序列;所述利用门控机制将所述词汇特征融入到所述字符特征的方式包括方式一或方式二;所述方式一为:Xc,w=Xc*σXwWG+bG所述方式二为:Xc,w=G*Xc+1-G*Xw其中,Xc,w为经过词汇增强后的字符特征,Xc为字符特征,σ为sigmoid函数,Xw为字符对应的词汇特征,G=σXcWC+XwWW+bG,WG、WC、WW、bG为可学习的参数。
全文数据:
权利要求:
百度查询: 华中科技大学 武汉烽火技术服务有限公司 基于词汇增强和多特征的中文命名实体识别方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。