首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的辅助智能问诊系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广州中康数字科技有限公司

摘要:本发明公开了一种基于深度强化学习的辅助智能问诊系统,综合了知识图谱、深度学习和强化学习的各种优势去实现当下真实场景里的重要问题。利用知识图谱组织知识的能力完成知识的累积,然后使用嵌入式表示的方式把知识映射到向量空间,使之能与深度学习的技术相结合,同时利用了强化学习的解决实际场景复杂问题的能力。

主权项:1.一种基于深度强化学习的辅助智能问诊系统,其特征在于,包括知识图谱和模型;知识图谱:用于组织医学领域知识的数据结构,为一个有向图,由多个事实组成,其中每个事实由头部实体节点、尾部实体节点和从头部实体节点指向尾部实体节点的关系组成,称为三元组;模型:包括用于把知识图谱的实体节点和关系映射到向量空间的translation-basedembedding模型、用于诊断的诊断网络、用于判断证据充分性的决策网络和用于问诊流程关联问题的行动网络;1Translation-basedembedding,即TransE:TransE的目标函数如下所示:L=∑h,r,t∈s∑h′,r,t′∈S′max0,fh,r,t+γ-fh′,r,t′;其中f是计算头部实体节点与关系的和与尾部实体节点的距离函数:f=h或h’+r-t或t’;S为正样本的集合,即所有真实存在的三元组,h、t为正样本中的实体,分别表示头部实体节点和尾部实体节点;而S’为负样本的集合,为虚构的三元组集合,h’、t’为负样本中的实体,分别表示头部实体节点和尾部实体节点;在训练的时候,首先为每一个实体节点e对应的每一个维度赋予初始值: 接着对于每一个关系r也赋予初始值: 并做归一化:r←r‖r‖;然后开始训练;k代表向量的维度;训练过程采取的是多轮的训练策略,其中每一轮都会随机地从真实存在的三元组中抽取设定数量的数据作为正样本,负样本的构成方式为先随机抽取设定数量的正样本,然后随机以其他实体节点替换尾部实体节点进而得到负样本;以正样本和负样本作为样本输入到f函数中进行计算,并最终汇总到目标函数计算梯度,以梯度下降的方式反向传播到代表实体节点和关系的向量中去;完成训练后模型基本收敛;2诊断网络是基于知识图谱中疾病类型的实体节点和与之直接或者间接相连的实体节点去做模拟诊断的神经网络,该神经网络采用三层全连接形式,输入层的维度与TransE训练的实体和关系的向量维度k相一致;中间隐层的维度设定为256,并且隐层的输出会接着ReLu激活函数;最后输出层的维度与知识图谱中疾病类型的实体节点的数量相一致,并接softmax函数,目的是要把输出的数值压缩到0到1之间然后做softmax回归;目标函数采用crossentropy,为以下形式: N为疾病类型的实体节点的数量,i为当前实体节点的下标,Si是当前实体节点所获得权重占总体比例的数值,也就是归一化后的概率值,yn为当前实体节点的标签;针对此目标函数进行设定轮数的训练过程,每轮随机从知识图谱中抽取设定数量的疾病类型的实体节点,并搜索与之直接相连或者间接相连的其他实体节点;采取随机舍弃实体节点的方式处理这一批次的实体节点,然后根据实体节点的ID即刻从TransE生成的向量lookuptable中找到对应的向量;对于间接相连的实体向量,要经过实体向量和对应关系向量相加而得到虚拟实体向量再做下一步计算,对于直接相连的实体向量,则不需要做额外操作;得到直接实体向量或者虚拟实体向量之后,通过对这些向量求和就可以得到诊断网络的输入并开始前向计算过程,最终通过上述目标函数计算出损失值和梯度,通过反向传递的过程加上与模型学习率的乘积按照矩阵元素点对点的方式叠加加到模型的参数中并固定下来,然后等待下一轮数据到来再重复以此方式进行计算,最终收敛完成训练过程;3决策网络是用于评判在问诊过程当中,当前所获得到的证据是否充足的神经网络,如果当前的证据是充足的话,就可以用诊断网络做诊断;该神经网络采用三层全连接形式,输入层的维度与TransE训练的实体和关系的向量维度k相一致;中间隐层的维度设定为256,并且隐层的输出会接着ReLu激活函数;最后输出层的维度为1,并接sigmoid函数,目的是要把输出的数值压缩到0到1之间然后做logistic回归;目标函数采用crossentropy,为以下形式: 其中hθ为sigmoid函数,x是决策网络最后一层的输出,y为实际结果;针对上述目标函数进行设定轮数的训练过程,每轮随机从知识图谱中抽取设定数量的疾病类型的实体节点,并搜索与之直接相连或者间接相连的其他实体节点,采用随机舍弃实体节点的方式处理这一批次的实体节点;然后根据实体节点的ID即刻从TransE生成的向量lookuptable中找到对应的向量;对于间接相连的实体向量,要经过实体向量和对应关系向量相加而得到虚拟实体向量再做下一步计算;对于直接相连的实体向量,则不需要做额外操作;得到直接实体向量或者虚拟实体向量之后,通过对这些向量求和就可以得到决策网络的输入并开始前向计算过程;训练的过程中,当以相同的数据输入到诊断网络中时,如果诊断到的结果疾病是当前样本的疾病,则这个输入为正样本,决策网络的回归目标应该为1,说明当前所获得的证据充足,可以做决策;假如诊断到结果不是当前样本的疾病,则这个输入为负样本,决策网络的回归目标应该为0,说明当前所获得的证据不充分,当前暂不可以做决策;最终通过上述目标函数计算出损失值和梯度,通过反向传递的过程加上与模型学习率的乘积按照矩阵元素点对点的方式叠加加到模型的参数中并固定下来,然后等待下一轮数据到来再重复以此方式进行计算,最终收敛完成训练过程;4行动网络是根据病人主动汇报的相关症状和当前已经收集到的证据输出在问诊过程当中当前应该询问的问题所关联的症状的神经网络;该神经网络采用三层全连接形式,输入层的维度与TransE训练的实体和关系的向量维度k相一致;中间隐层的维度设定为256,并且隐层的输出会接着ReLu激活函数;最后输出层的维度和知识图谱中与疾病关联的任何类型实体节点的数量相一致,并接softmax函数,目的是要把输出的数值压缩到0到1之间然后做softmax回归;目标函数采用crossentropy,为以下形式: 其中,M为与疾病关联的任何类型实体节点的数量;Si是当前实体节点所获得权重占总体比例的数值,也就是归一化后的概率值,ym为当前实体节点的标签;对于行动网络的训练,是基于Q-learning的强化学习方式以及诊断网络和决策网络进行的;假设有一个agent在进行问诊环节,在训练中,估计价值的方式采取的是TD-based形式,把两个时刻之间的差值转换成回归的问题;具体可以用以下的表达式来说明:Vπst=Vπst+1+rtrt=Vπst-Vπst+1Qπst,at=rt+Qπst+1,πst+1其中,V是值函数,Vπst代表当前agentπ在遇到当前状态st计算出的评价值;rt则是两个时刻之间获得奖励的差值,也是迭代目标;Qπst,at代表agent在遇到st状态下做出动作at所获得的价值;针对以上的设定进行设定数量的episode的训练过程,最终通过上述目标函数计算出损失值和梯度,通过反向传递的过程加上与模型学习率的乘积按照矩阵元素点对点的方式叠加加到模型的参数中并固定下来,然后等待下一轮数据到来再重复以此方式进行计算,最终收敛完成训练过程。

全文数据:

权利要求:

百度查询: 广州中康数字科技有限公司 一种基于深度强化学习的辅助智能问诊系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。