一种基于句法分析的中文电子病历文本关系的抽取方法

导航：龙图腾网> 最新专利技术> 一种基于句法分析的中文电子病历文本关系的抽取方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：合肥工业大学

摘要：本发明公开了一种用于电子病历文本关系抽取的方法，包括：1.对文本进行预处理，并通过哈工大LTP工具生成依存句法图，并使用ALBERT预训练模型提取文本序列向量和实体关系向量；2.利用Bi‑LSTM模型处理文本序列向量，融入上下文信息；3.结合依存句法图和文本序列，通过图注意力网络GAT提取句法信息；4.利用首尾指针网络识别头实体位置，以及通过异构图神经注意力网络HGAT进行节点特征交互，获取融合关系信息的文本表征；5.通过多层指针网络识别尾实体及关系，并构建关系三元组头实体,关系,尾实体。本发明能有效抽取电子病历文本中的关系三元组，利用句法信息与预定义实体关系提升抽取精度。

主权项：1.一种基于句法分析的中文电子病历文本关系的抽取方法，其特征在于，是按如下步骤进行：步骤1：对中文电子病历的主诉部分的文本进行预处理，得到预处理后的文本序列，从而构建中文电子病历语料库D；根据中文电子病历的医学实体关系，构建预定义关系集合R＝{r1,r2,…,rj,…,rm}，rj表示第j种关系，j∈[1,m]，m表示关系的种类总数；步骤2：对中文电子病历语料库D中任意一个文本序列S＝{s1,s2,…,si,…,sn}构建对应的句法依存图G，其中，si表示第i个字符，i∈[1,n]；根据所述句法依存图G中各个字符之间的依存句法关系，构建句法依存邻接矩阵Adep；步骤3：构建关系抽取网络，包括：ALBERT预训练模型、Bi-LSTM模型、图注意力网络GAT、首尾指针网络、异质图注意力网络HGAT和多层首尾指针网络；步骤3.1：利用所述ALBERT预训练模型对所述文本序列S进行编码，得到初始化的向量表征序列E＝{e1,e2,…,ei,…,en}，ei表示第i个字符si所对应的编码特征；利用ALBERT预训练模型对所述预定义关系集合R进行编码，获取初始化的关系向量ER＝{er1,er2,…,erj,…,erm}，erj表示第j种关系rj所对应的编码特征；步骤3.2：利用所述Bi-LSTM模型对初始化的向量表征序列E进行编码，获取包含上下文语义信息的向量表征L＝{l1,l2,...,li,...,ln}，其中，li表示第i个编码特征ei在正、反方向上LSTM的输出结果拼接得到的隐层向量表征；步骤3.3：将包含上下文语义信息的向量表征L作为句法依存邻接矩阵Adep中字符的初始表征，并按照Adep中各字符间的依存句法关系，利用所述图注意力网络GAT对向量表征L进行节点的信息更新，获得包含依存句法信息的特征表示序列其中，表示第i个字符si经过图注意力网络GAT后得到的包含句法信息的特征表示；步骤3.4：利用所述首尾指针网络对进行处理，得到关系三元组头实体,关系,尾实体中的头实体EntH的位置及其对应的头实体表征EnbH；步骤3.5：根据依存句法表征H以及关系向量ER构建异构图，所述异构图中包括两类节点分别为字符节点以及关系节点，利用异质图注意力网络HGAT进行异构节点的信息更新，得到融合关系信息的文本序列S的向量表示U，并与头实体表征EmbH进行融合后，获得包含头实体信息的融合特征向量C；步骤3.6：定义多层首尾指针网络的层数m为预定义关系的种类总数，利用所述多层首尾指针网络对所述融合特征向量C进行处理，获得关系三元组头实体,关系,尾实体中尾实体EntT的位置及对应关系Rel，并与头实体EntH的位置进行组合后，获得最终预测的关系三元组头实体,关系,尾实体，记为EntH,Rel,EntT；步骤4：对所述关系抽取网络构建总体损失函数Ltotal＝Lce1+Lce2，其中，Lce1和Lce2分别为所述首尾指针网络和多层指针网络的二元交叉熵损失函数；步骤5：利用梯度下降法对所述关系抽取网络进行训练，并计算所述总体损失函数Ltotal以更新网络参数，当迭代次数达到设定的次数或总体损失函数Ltotal收敛时，训练停止，从而得到最优关系抽取模型，用于抽取电子病历文本中的关系三元组头实体,关系,尾实体。

全文数据：

权利要求：

百度查询：合肥工业大学一种基于句法分析的中文电子病历文本关系的抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于句法分析的中文电子病历文本关系的抽取方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务