首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

中文临床表型细粒度命名实体识别方法及系统 

申请/专利权人:北京交通大学

申请日:2022-01-14

公开(公告)日:2024-07-05

公开(公告)号:CN114564959B

主分类号:G06F40/295

分类号:G06F40/295;G06F18/214;G06N3/047;G06N3/084;G06N3/0455;G06N3/09;G16H10/60

优先权:

专利状态码:有效-授权

法律状态:2024.07.05#授权;2022.06.17#实质审查的生效;2022.05.31#公开

摘要:本发明提供一种基于中文临床表型细粒度命名实体识别方法及系统,属于临床病历信息处理技术领域,通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取;利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码,得到标签;利用条件随机场CRF进行标签的解码预测,得到命名实体识别结果。本发明建立了用于细粒度命名实体实验的临床细粒度表型实体标准数据集,其区分了阴性症状和阳性症状,为临床分析提供更为精确的结构化数据。

主权项:1.一种中文临床表型细粒度命名实体识别方法,其特征在于,包括:通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取;利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码,得到标签;利用条件随机场CRF进行标签的解码预测,得到命名实体识别结果;自然语言预训练模型BERT的输入数据为患者的临床病历文本序列,它使用双向Transformer捕获文本中的上下文信息;在进行训练时,BERT会随机掩盖部分字信息,通过对掩盖信息的预测完成上下文的学习;通过BERT模型对患者的临床病历文本进行字符嵌入表示,得到病历文本每个字的字符级嵌入向量特征;双向长短词记忆模型BiLSTM,对于字符级嵌入特征,分别以从左到右和从右到左的方向得到字符嵌入特征的潜在表示,通过将两个方向的特征的潜在表示进行融合,得到每个字符隐藏层表示;将隐藏层表示按照句子中每个字的顺序排列,得到句子的向量序列,句子的向量序列对应于一个标注序列,基于所有可能的标注序列的集合得到用于训练条件随机场CRF的损失函数;在CRF层中,使用维特比算法得到最优的标签序列,得到的标签序列就是对于临床病历文本的最优命名实体标注结果。

全文数据:

权利要求:

百度查询: 北京交通大学 中文临床表型细粒度命名实体识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。