买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:安徽师范大学
摘要:本发明涉及自然语言处理技术领域,且公开了一种融合多粒度特征的中文医疗文本命名实体识别方法,包括以下步骤:S1:数据预处理,获取需要进行命名实体识别的中文医疗文本数据和标注数据,对医疗文本数据进行预处理,生成训练集、验证集、测试集;S2:数据嵌入,对预处理后文本数据的每个字符通过预训练语言模型得到对应的字嵌入。本发明不仅能够更有效地整合不同粒度的特征,避免了信息孤立和过拟合的问题,使得特征融合更加高效,而且能够提高识别的准确性和效率,还能够生成的词嵌入对于文本中的噪声、拼写错误等问题具有较好的鲁棒性,并且更好地控制过拟合风险,提高模型的泛化能力。
主权项:1.一种融合多粒度特征的中文医疗文本命名实体识别方法,其特征在于,包括以下步骤:S1:数据预处理,获取需要进行命名实体识别的中文医疗文本数据和标注数据,对医疗文本数据进行预处理,生成训练集、验证集、测试集;S2:数据嵌入,对预处理后文本数据的每个字符通过预训练语言模型得到对应的字嵌入;S3:转换字符,对预处理后文本数据的每个字符统一转换为思源黑体的字形图,并通过卷积操作输出汉字的图像特征嵌入,再将字符全部转化为笔画串通过卷积操作提取汉字的笔画串特征嵌入,将两个嵌入拼接组成汉字图形嵌入;S4:字符匹配,紧接着将每个字符通过医学词典匹配到所对应的匹配词集合,通过统计训练集、验证集、测试集中各个词汇出现的频率,以词频为依据将得到四个匹配词,最后将得到的匹配词转换为词特征嵌入;S5:计算融合,计算出S1中每句话生成的字嵌入的平均值,取每句话的开始标志位[CLS]位置的输出向量,将两者通过自注意力机制进行融合,得到句子特征嵌入;S6:特征嵌入融合,将S2和S3得到的特征嵌入直接拼接,得到字符级特征嵌入,将字符级特征嵌入与S4中的词特征嵌入通过交叉注意力机制动态的融合得到新的嵌入;S7:二次融合,将S5和S6中的嵌入,通过基于权重的自适应动态融合得到最终的词嵌入;S8:预测标签,将S7得到的最终词嵌入输入到BiLSTM-CRF模型中预测相应的实体标签。
全文数据:
权利要求:
百度查询: 安徽师范大学 一种融合多粒度特征的中文医疗文本命名实体识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。