Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合交叉知识注意力的电子病历相似检索方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:众阳健康科技集团有限公司

摘要:一种融合交叉知识注意力的电子病历相似检索方法,利用知识注意力的相互交叉的方式,提供了电子病历文本间知识信息传递的一种有效模式。知识信息来源两部分,一是文本内的实体信息,二是实体位置信息。电子病历中的实体是作为整体发挥作用的,传统方法只考虑实体内单字的作用,缺乏实体的整体交互作用,知识注意力机制可以很好的刻画实体间的相互关系,交互模式为文本间知识信息传递提供了通道,能够在多文本相似度量方面给出有效评估。在给定原始电子病历文本、若干个判断文本及相似文本标签的情况下,提高了电子病历文本间相似检索精度。

主权项:1.一种融合交叉知识注意力的电子病历相似检索方法,其特征在于,包括如下步骤:a数据处理:将输入电子病历文本S0和n个电子病历判断文本{S1,S2,...,Sn},设定最大字符长度为L,将输入电子病历文本中文本长度超过L的部分截掉,不足的部分进行特定字符补全,其中L及n均为正整数;b实体标记获取:利用现有实体库或利用神经网络模型抽取实体信息的方式进行实体标记;c将电子病历文本S0及n个电子病历判断文本{S1,S2,...,Sn}的构成的电子病历文本集合{S0,S1,S2,...,Sn}经步骤b中实体标记后得到文本实体标签信息;d知识模型构建:将实体标记与电子病历文本S0、n个电子病历判断文本{S1,S2,...,Sn}中原始字符进行拼接,拼接后一同输入到知识模型,输出文本集合{S1,S2,...,Sn}中每一个文本相较于S0的相似度概率值;e设定最大返回数量M,从n个电子病历判断文本{S1,S2,...,Sn}内输出M条S0的相似文本序列,相似程度依次递减,其中M≤n;步骤d包括如下步骤:d-1将电子病历文本S0与一电子病历判断文本Si,i=1,...,n输入到预训练语言模型,分别生成文本嵌入表示V0∈RL×E及Vi∈RL×E,其中E为预训练语言模型的输出维度,R为实数空间;d-2通过公式利用步骤c中获得的文本实体标签信息的实体集合表示为En={ent0,ent1,...,entK},K为文本集合{S0,S1,S2,...,Sn}中最大实体数量,通过公式计算得到文本Si中的第j个单字wi,j与实体entk之间的距离distancewi,j,entk,得到文本Si中每个字的实体位置,其中j≤L,如wi,j∈entk,wi,j与entk之间距离为0,根据实体位置的最大数量entity_size初始化词嵌入权重矩阵,初始化权重矩阵维度为Rentity_size×E的实体位置嵌入层Entity_Embedding,根据公式Bi=Entity_EmbeddingSi得到文本Si的实体位置嵌入Bi,根据公式B0=Entity_EmbeddingS0得到文本S0的实体位置嵌入B0,Bi∈RL×E,B0∈RL×E;d-3实体entj中包含nj个单字符,其在文本Si中的位置为l,l+nj-1,l为实体entj在文本Si中的起始位置,在Vi中截取经Meanpooling层,通过公式ENTi,j=MeanpoolingVi[l:l+nj-1]∈RE计算得到文本实体嵌入ENTi,j,通过公式Pi={ENTi,1;ENTi,2;...;ENTi,K}∈RK×E将K个实体嵌入进行拼接,得到整体文本的实体嵌入Pi,通过公式ENT0,j=MeanpoolingV0[l:l+nj-1]∈RE计算得到实体嵌入ENT0,j,通过公式P0={ENT0,1;ENT0,2;...;ENT0,K}∈RK×E将K个实体嵌入进行拼接,得到整体实体嵌入P0;d-4通过公式将文本嵌入V0、文本嵌入Vi、实体位置嵌入B0、实体位置嵌入Bi、实体嵌入P0及实体嵌入Pi进行拼接,输出维度V0∈R2L+K×E,Vi∈R2L+K×E;d-5将步骤d-4中得到的V0与Vi经过一层MLP网络进行维度变换后输出向量维度为V0∈R2L+K×3E,Vi∈R2L+K×3E;d-6构建交叉知识注意力网络,将V0∈R2L+K×3E,Vi∈R2L+K×3E通过多头注意力机制处理后分别得到V0的交叉注意力表示CrossAttentionV0∈R2L+K×E以及Vi的交叉注意力表示CrossAttentionVi∈R2L+K×E,CrossAttentionV0∈R2L+K×E表示为A0,CrossAttentionVi∈R2L+K×E表示为Ai;d-7将交叉注意力表示A0及Ai导入Transformer层;d-8将步骤d-7的输出在句长length维度分别进行Maxpooling和Meanpooling操作,得到将四个张量进行拼接,输出维度outputi∈R2L+K×4E,d-9对步骤d-6中交叉知识注意力网络采用随机梯度下降法,利用交叉熵损失函数进行逐步训练。

全文数据:

权利要求:

百度查询: 众阳健康科技集团有限公司 一种融合交叉知识注意力的电子病历相似检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。