Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于中文电子病历的知识图谱构建方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明属于自然语言处理领域,提供了一种基于中文电子病历的知识图谱构建方法。当前已构建的大多数知识图谱所包含的病历语料数目较少,知识图谱规模不大,且往往只适用于单一科室或疾病,通用性较差,而一些做的比较完善的病历知识图谱又需要大量的人工参与,费时费力、可扩展性差。电子病历不同科室和疾病之间由于描述疾病类别不同,所对应的一系列检查和治疗等语言环境也有所不同,不同疾病类别所对应的医生习惯用语不同,这些特点使得一些深度学习方法效果下降,知识图谱构建框架不易扩展。针对上述存在的问题制定了基于中文电子病历的知识图谱数据分析处理方法、语料标注流程规范、及实体关系抽取方案。

主权项:1.一种基于中文电子病历的知识图谱构建方法,其特征在于包括如下步骤:步骤1、中文电子病历语料的预处理1语料拆分:根据电子病历中的标签对病历进行拆分,每个标签下对应的为用自然语言形式描述的医学知识;2标签归类:对标签进行手工归类,将包含相同方向医学知识的标签放在一个集合;3标签数量统计和筛选:统计所有集合包含标签的数量,按数量多少对标签集合进行排序;然后依据统计的标签集合数量从中抽取了几个包含标签较多的集合作为知识图谱构建的语料;步骤2、数据标注规则及标注流程的制定1实体标注规范:将实体类型分为五个类别:疾病、部位、症状、检查和治疗;对五个实体类型的详细介绍如下:疾病:泛指病人身体或心理上出现的非正常现象,或者是由医生根据病人身体做出的诊断,分为两类:传染性疾病和非传染性疾病;部位:泛指人身体的一部分,包括体外的和身体内部的;症状:泛指由疾病或其它突发状况导致的不适或异常感觉,或者在医院,医生给定异常诊断结果,设备的异常检查结果;检查:泛指为了确认是否存在疾病,或了解疾病的更多细节而进行的检查项目、查体、实施的检查设备;治疗:泛指针对疾病或症状而采取的用药方法、手术或设备治疗手段;2关系标注规范根据以上确定的实体类型,进一步将实体之间的关系类型分为七个大类:疾病与疾病的关系、疾病与部位的关系、疾病与症状的关系、治疗与疾病的关系、治疗与症状的关系、检查与疾病的关系和检查与症状的关系,其中有的大类中还有细分的小类;具体如下:第一大类,疾病与疾病:疾病与疾病的关系有相关的并发症、疾病表明疾病或者疾病的别名,将这些关系统一归为一个大类;第二大类,疾病与部位:疾病体现在部位,包括发病部位和转移部位;第三大类,疾病与症状:疾病的一种体现形式,指疾病导致的某种症状;第四大类,治疗与疾病:治疗与疾病之间的关系,根据结果细分为如下四类:治疗改善疾病:表示治疗针对于该疾病且疾病好转或治愈;治疗恶化疾病:表示针对该疾病的治疗导致病情恶化;治疗导致疾病:表示因治疗而出现的疾病;治疗管理疾病:治疗被应用于该疾病,没有提及治疗效果;第五大类,治疗与症状:针对某些症状采取的治疗,将其关系分为两种:对症治疗:针对某些症状采取的治疗手段,这里不细分治疗结果;治疗导致症状:因采用此种治疗方式所产生的症状;第六大类,检查与疾病:通过设备或其它检查方法确认疾病,根据是否出现检查结果可用分为两类:检查证实了疾病:检查确认了该疾病的发生;为证实疾病而采取的检查:表示为了证实疾病而采取某种检查手段,结果未知;第七大类,检查与症状:检查显示症状,是正常症状或者异常症状,或者检查确认是否存在症状;3语料标注流程首先对实体进行规则匹配的方式抽取,然后对抽取出的实体,做实体关系的标注;实体关系标注的主要流程如下:标注数据准备:首先,进行①实体配对:每一份病历文本会匹配到多个实体,根据实体类型和实体之间的距离来配对实体;此处实体之间的距离不是字符间隔,而是相隔的句子数目,设定如果两个实体之间间隔三个句子以上,则不考虑实体之间的关系;然后做②实体对关系筛选:运用深度学习模型来预测实体对之间是否有关系,训练集来自预标注的语料,模型采用的是LSTM;LSTM模型公式如下:ft=σWf[ht-1,xt]+bfit=σWi[ht-1,xt]+biot=σWo[ht-1,xt]+bo ht=ot⊙tanhCt其中,xt表示LSTM网络第t个位置的输入向量,ht表示LSTM网络第t个位置的隐藏层的输出,W·,b·表示可训练的权重和偏置,tanh和σ是激活函数,⊙表示元素逐个相乘;该步骤仅筛选出存在关系可能性较大的实体对,而实体对之间是什么关系需要进一步进行人工标注来确定;人工标注流程:①制定标注规范并举出标注范例供标注员理解学习;②A组标注员标注1000份语料后做一个准确性验证,并对所遇到问题做一个总结;③对A组标注员提出的问题做解答,然后决定是否继续标注;④标注一半语料后B组标注员从A组标注结果中随机抽取10%的语料做验收;⑤讨论两组人员标注一致性,决定是否回标;⑥标注完成后,专家随机抽取5%的语料验收,如验收不成功,需重新标注;标注验收:验收主要参考B组标注员验收的准确率和专家验收的准确率;两者验收的准确率都达到一定分值时,标注结束;步骤3、基于中文电子病历的实体及关系抽取1实体抽取采用规则匹配的方式从中文电子病历中抽取实体;使用规则匹配的方式抽取实体的具体流程如下所示:①构建实体库:构建实体库的实体来源于ICD-10和国家卫生健康委2019年发布的常用医学名词;按照标注规范中制定的实体类型抽取出需要的实体,然后将这些实体储存于5个对应的实体表中;②规则匹配实体:利用实体库采用规则的方式去匹配实体,采用分词搜索的匹配方法,其实现过程如下所示;分词搜索:第一种方法是先对文本做分词,然后判定每个词是否在实体库中,如果在则确定该词为一个实体,实体类型为对应的实体表的类型;在第二步判定时不仅仅在实体库中搜索当前词,而是搜索当前词与后一个词拼接、当前词与后两个词拼接,共搜索三种形式的词;③后处理:在上述规则匹配后,能识别大多数实体,但是规则匹配的方法不可避免的存在两个问题;其一是实体相交问题,即两个或多个实体有一部分内容重合;其二是同一个实体有多个实体类型,即一个实体既是症状类型又是疾病类型;对于实体相交问题,采用规则合并的方法,若两个实体互相包含则保留长实体,若两个实体相交,则合并两个实体;包含的实体合并后的实体类型即为长实体的实体类型,对于相交实体合并后的实体类型,如果其中一个为部位实体,则将另一个实体的类型作为合并后的实体类型,如果没有部位实体则选择其中一个实体的类型作为合并后的实体类型;对于同一个实体拥有多个实体类型问题,采用根据上下文语义进行模型预测的方法;训练集和测试集为拥有一个类型的实体且训练集和测试集中实体不重合,模型使用LSTM+ATTN,对多类型实体做类型预测;ATTN表示注意力机制,其计算公式如下:st=Fxt,q 其中,xt表示输入向量,q表示查询向量,F·表示打分函数,st表示相关性分数值,αt表示归一化后的分数值;打分函数有如下几种计算方式:加性模型:sx,q=vttanhWx+Uq点积模型:sx,q=xTq缩放点积模型: 双线性模型:sx,q=xTWq其中,v,W,U,D均为模型中可学习的参数;具体实现时,如果预测的实体类型在实体原本匹配到的类型集合中,则使用该类型作为实体类型,如果不在实体原本匹配到的类型集合中,则从匹配到的类型集合随机选择一个;2关系抽取实体关系抽取是判断已匹配到的实体之间是否存在关系,标注规范定义的关系种类共有12种,采用有监督的方式构建模型来抽取三元组,因此首先需要标注数据,这里使用人工标注的方式,然后再根据标注的数据训练模型,最后用训练好的模型预测其余未标注数据,得到实体关系三元组,实体关系抽取方法采用的是基于位置降噪和丰富语义的电子病历实体关系抽取模型。

全文数据:

权利要求:

百度查询: 大连理工大学 一种基于中文电子病历的知识图谱构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。