恭喜哈尔滨工程大学李丽洁获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜哈尔滨工程大学申请的专利一种融合多粒度信息的中文命名实体识别方法、设备和介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114781380B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210277553.6,技术领域涉及:G06F40/295;该发明授权一种融合多粒度信息的中文命名实体识别方法、设备和介质是由李丽洁;胡双阳;韩启龙;宋洪涛;王也;马志强;张海涛设计研发完成,并于2022-03-21向国家知识产权局提交的专利申请。
本一种融合多粒度信息的中文命名实体识别方法、设备和介质在说明书摘要公布了:本发明提出一种融合多粒度信息的中文命名实体识别方法、设备和介质。所述方法步骤如下:1获取领域语料数据集,将数据集进行预处理并分为训练集、测试集、验证集;2提取1预处理后的语料数据中字符、软词、部首级预训练向量并进行融合;3构建融合多粒度信息的中文命名实体识别模型;4将2所得的数据输入到模型中进行训练;5利用4所得的识别模型对待识别数据进行处理与计算,得到命名实体识别结果。本发明针对中文命名实体识别存在的不足,通过融合部首级信息利用序列中字符内部固有的语义信息,利用扩展的软词模块获取了词级别的语义信息,将两者融入到字符嵌入向量中,提高了中文命名实体识别的精度。
本发明授权一种融合多粒度信息的中文命名实体识别方法、设备和介质在权利要求书中公布了:1.一种融合多粒度信息的中文命名实体识别方法,其特征在于,具体包括以下步骤: 步骤1:获取领域语料数据集,将数据集进行预处理并分为训练集、测试集和验证集; 步骤2:提取步骤1预处理后的语料数据中字符、软词和部首级预训练向量进行向量融合,并构建融合多粒度信息的中文命名实体识别模型; 所述步骤2具体包括以下步骤: 步骤2.1:对于序列中的字符,使用预训练语言模型将所述字符序列一一进行字符映射,并将输入序列中的每一个字符编码为低维稠密嵌入向量; 步骤2.2:对于序列中字符对应的候选词:以外部词典为基础建立一颗词汇查找树,匹配句子中字符对应的候选词,并构建扩展的软词集,接着使用权重融合策略将字符对应的扩展软词集进行加权,得到字符对应的词级向量; 步骤2.3:对于序列中字符对应的部首级特征:为常用汉字构建一个部首级特征查找表,并将特征表示为预训练的嵌入向量,使用卷积神经网络提取部首级特征嵌入向量; 步骤2.4:依次拼接字符、软词、部首级特征向量; 步骤2.5:将数据集中的每个句子执行填充截断操作处理为固定长度;对于长度超过规定长度的句子,舍弃超过规定长度的部分;对于长度不足规定长度的句子,执行填充操作,补齐到规定长度; 步骤2.6:将固定长度的句子以Batch_Size大小为一组作为模型的输入,Batch中的每一条子序列都是一个句子; 步骤2.7:对所述Batch中的特征向量进行隐藏层前向LSTM编码和反向LSTM编码,并将前向和反向隐藏向量进行向量拼接,获得所述数据的双向特征向量; 步骤3:将步骤2所得的数据输入到模型中进行训练; 步骤4:利用步骤3所得的融合多粒度信息的中文命名实体识别模型对待识别数据进行处理与计算,得到命名实体识别结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工程大学,其通讯地址为:150000 黑龙江省哈尔滨市南岗区南通大街145号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。