首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种结构化自监督的医患对话摘要方法 

申请/专利权人:杭州电子科技大学

申请日:2021-12-31

公开(公告)日:2024-07-02

公开(公告)号:CN114334189B

主分类号:G16H80/00

分类号:G16H80/00;G06F16/35;G06F40/126;G06F40/216;G06F40/284;G06F40/295;G06N3/0442;G06N3/045;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.07.02#授权;2022.04.29#实质审查的生效;2022.04.12#公开

摘要:本发明公开了一种结构化自监督的医患对话摘要方法。本发明包括:1、对医患对话语料库中指定对话的诊断结果抽取疾病实体词Ⅰ;2.通过SOAP模型判断指定对话中每一句话对应主题类型并进行分类,得到初步的结构化内容;对结构化内容抽取摘要;通过抽取的摘要预测疾病实体词Ⅱ;3、基于抽取的摘要需近似于原始指定对话的替换假设,通过辅助任务进行摘要指导生成:对结构化内容进行编码过程中对结构化内容中的每个词进行下采样,然后通过文本分类从候选疾病词中选择正确的疾病实体词Ⅱ;调整编码参数直至辅助任务中疾病实体词Ⅰ和疾病实体词Ⅱ的差异收敛。本发明解决了医患对话数据集有限、显著的领域转移、摘要不准确的问题。

主权项:1.一种结构化自监督的医患对话摘要方法,其特征在于:该方法包括以下步骤:S1、对医患对话语料库中指定对话的诊断结果抽取疾病实体词I;S2、通过SOAP模型判断指定对话中每一句话对应主题类型并进行分类,得到初步的结构化内容;对结构化内容抽取摘要;通过抽取的摘要预测疾病实体词II;S3、基于抽取的摘要需近似于原始指定对话的替换假设,通过辅助任务进行摘要指导生成:首先对结构化内容进行编码,编码过程中对结构化内容中的每个词进行下采样,下采样后将它们编码;然后通过文本分类从候选疾病词中选择正确的疾病实体词II;采用RepSum策略调整编码参数,直至辅助任务中疾病实体词I和疾病实体词II的差异收敛;步骤S1文本生成TG采用编码器-解码器结构,整个诊断结果由双向LSTM连接和编码;每个词的表示是前向和后向LSTM状态的串联,表示编码中第i个词;解码器采用具有注意力机制的单向LSTM,在t时刻的注意力分布at和上下文向量ct被公式化为: 其中,Wa是可学习的参数,σ是softmax函数,n表示诊断结果词的数量;st表示当前解码器状态;表示第i个词在t时刻的注意力分布;ai表示第i个词的注意力分布;看上下文向量和当前解码器状态st用于预测输出词在所有词汇表上的概率分布:pyt=σWpφWk[yt-1;st;ct]+bk+bp3其中,Wp、Wk、bk、bp是可学习的参数;σ是softmax函数,φ是tanh函数,yt表示预测输出词,yt-1表示前一个预测输出词;pyt表示yt的概率分布;采用负对数似然作为损失函数,并通过路径encres→decres得到生成的损失表示为: 其中,encres表示编码器;decres表示解码器,l={l1,l2,...,lq}是生成的词,q表示生成的词数量;通过encsum→decsum计算得到生成摘要的损失 其中,encsum表示编码器,decsum表示解码器;为了保证基于原始指定对话和生成的摘要的结果相似性,解码器中添加KL散度以减少每个时间预测的概率分布之间的差异损失: 因此,最终生成摘要的任务损失表示为: 其中,α0、α1、α2是每个损失部分的权重;步骤S2所述的主题类型包括症状、用药、个人属性、检查结果、过往病史;使用SOAP模型对每一句话进行计算并标注对应主题,形成初步的结构化内容;步骤S3具体实现如下:对结构化内容进行编码,编码过程中对结构化内容中的每个词进行下采样,并将它们经过编码器编码;在前向训练和测试过程中,使用argmax采样进行离散化,简化为: g=-log-logξ,ξ~U0,19其中,g是Gumble函数的贡献,U是统一化后的贡献;计算反向传播中的梯度,使用argmax采样的连续可微近似: 其中,|V|是词汇大小,τ∈0,∞是临时参数;gj表示第j个词的贡献;表示第i个词在t时间步骤的概率;编码器encsum的输入表示为: 其中,ewi是第i个词wi嵌入;辅助任务:文本分类TC从K个候选疾病词中选择正确的疾病实体词II;与任务TG中的编码类似,使用Bi-LSTM作为编码器;文本表示hd是每个词的隐藏状态的平均值;每个候选词也由Bi-LSTM编码,并由逻辑层f投影到一个密集向量,然后连接到hd;每个词属于正确答案的概率由逻辑层计算,其损失公式为: 其中,zn表示真实得到的第n个候选疾病词;表示预测得到的第n个候选疾病词;使用KL散度来衡量疾病实体词I和疾病实体词II之间的差异: 其中,pucres和pucsum是在K个候选者中的概率分布;采用RepSum策略调整编码参数,直至辅助任务中两个疾病实体词差异收敛。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 一种结构化自监督的医患对话摘要方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。