首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于实例和特征共享级联的疾病预测系统、设备及介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东师范大学

摘要:本公开公开了基于实例和特征共享级联的疾病预测系统、设备及介质,其中系统,包括:待预测数据集获取模块,其被配置为:获取待预测患者的所有疾病特征;待预测数据集预测模块,其被配置为:将待预测患者的所有疾病特征,输入到已经训练好的基于特征和实例迁移的平衡概率分布模型中,输出待预测患者所患疾病是否为慢性阻塞性肺疾病。

主权项:1.基于实例和特征共享级联的疾病预测系统,其特征是,包括:待预测数据集获取模块,其被配置为:获取待预测患者的所有疾病特征;待预测数据集预测模块,其被配置为:将待预测患者的所有疾病特征,输入到已经训练好的基于特征和实例迁移的平衡概率分布模型中,输出待预测患者所患疾病是否为慢性阻塞性肺疾病;已经训练好的基于特征和实例迁移的平衡概率分布模型的训练模块,包括:训练集获取单元,其被配置为:获取第一数据集和第二数据集;所述第一数据集为慢性阻塞性肺疾病的前期疾病数据集;所述第二数据集为已患和未患慢性阻塞性肺疾病的疾病数据集;所述第二数据集为小样本数据集;基于特征和实例迁移的平衡概率分布模型构建单元,用于构建基于特征和实例迁移的平衡概率分布模型,所构建的基于特征和实例迁移的平衡概率分布模型,包括:依次串联的实例共享级联单元、特征共享级联单元和特征共享级联优化单元;实例共享级联单元,其被配置为:从第一数据集中筛选出统计次数最多的N种疾病名称,将第一数据集中疾病名称相同的患者记录进行统计,按照统计结果从多到少进行排序,排序靠前的N种疾病被赋予高权重;最后得到高权重对应的N种疾病名称;特征共享级联单元,其被配置为:筛选出第一数据集与第二数据集疾病特征距离最近的M种疾病特征;具体地,对第一数据集和第二数据集的疾病特征均映射到同一个特征空间中,计算特征之间的距离,如果第一数据集的疾病特征a与第二数据集的疾病特征b距离小于设定阈值,则表示两个特征相似,对第一数据集的疾病特征a赋予设定的高权重;否则,对第一数据集的疾病特征a赋予设定的低权重;最后得到赋予权重后的若干个疾病特征;利用近似马尔科夫毯算法对赋予权重后的所有疾病特征进行过滤,剔除不相关特征和冗余特征,得到过滤后的M种特征;其中,所述对第一数据集和第二数据集的疾病特征均映射到同一个特征空间中,是利用多维标度法将特征映射到同一个特征空间,在该空间里保留了特征间的差异度,发现特征之间的关系;特征空间中每个特征都有相近分布的表示,记为:X=Xs,XT=xs1,xs2,…,xsm,xt1,xt2,…,xtm;其中,Xs为源域特征集,XT为目标域特征集,n为源域特征数,m为目标域特征数;计算多个特征之间的距离发现多个特征之间的关系,计算公式为: 其中,剔除不相关特征和冗余特征,得到过滤后的M种特征,具体步骤包括:计算特征x的信息熵Ex,计算公式为:Ex=-∑iPxilog2Pxi;计算类别y的信息熵Ey,计算公式为:Ey=-∑iPyilog2Pyi;计算条件熵Ex|y,计算公式为:Ex|y=-∑jPyj∑iPxi|yjlog2Pxi|yj;计算不同特征的互信息MIx|y,互信息描述了特征含有的信息量及为了得知特征空间X的信息而使得类别空间Y的信息不确定性减少的程度,计算公式为:MIy|x=Ex-Ex|y;计算最大互信息MImaxx|y,筛选重要特征,计算公式为: 计算特征x和类别y的对称不确定性ECx|y,计算公式为: 给定一个阈值μ,若ECx|y≥μ,则x对于y来说是相关性高的特征,应该被保留;反之x应该被删除;特征共享级联优化单元,其被配置为:根据N种疾病名称和M种疾病特征,计算第一数据集与第二数据集之间的平衡概率分布值;具体地,计算第一数据集中N种疾病名称的每种疾病名称c的M种特征,与第二数据集中的M种特征的边缘概率分布和条件概率分布;对边缘概率分布和条件概率分布进行加权求和,得到平衡概率分布值;计算特征共享级联模块输出特征的边缘概率分布和条件概率分布,引入平衡参数λ动态的调整两种概率分布,对两类概率分布融合;其中,边缘概率分布的计算步骤包括:源域和目标域特征边缘概率计算:MMDPs,Pt表示源域和目标域特征的边缘概率分布,引入核映射定义为公式 n为源域特征数,源域Ds的特征总数为s=1,2,...n;m为目标域的特征数,目标域Dt的特征总数为t=1,2,...m;M0是MMD矩阵,定义如公式: 条件概率分布的计算步骤包括:源域和目标域特征条件缘概率计算:MMDQys|xs,Qyt|xt是源域和目标域特征的条件概率分布,引入核映射后为公式: ny表示源域中第y类的特征个数,my表示目标域中第y类的特征个数;Dsy代表源域中属于类别y的特征集合,Dty代表目标域中属于类别y的特征集合;适配类别矩阵的Mc计算如下: 预测单元,其被配置为:根据平衡概率分布值与设定阈值的比较,输出第二数据集中待预测疾病是否为慢性阻塞性肺疾病;验证单元,其被配置为:将预测单元的预测结果和预测单元的当前待预测疾病对应的特征均输入到弹性网络中,弹性网络输出损失函数值,如果损失函数值达到最小值,则表示基于特征和实例迁移的平衡概率分布模型训练结束;否则,继续对基于特征和实例迁移的平衡概率分布模型进行训练;其中,弹性网络的目标函数如下式: 其中,yi代表第i个疾病类别的预测结果;xi是第i个疾病的所属特征;α是估计回归系数,μ是最小化均方误差;正则化项Pβα为: 其中β∈[0,1],当β=0时,表示为岭回归;当β=1时,表示为Lasso回归,此处选择使用α作为交叉验证;将前一次得到的类别标签作为下一次识别的伪标签,而参与迁移的特征不会改变,迭代t次后,函数最小值不再变化,即达到模型的优化,说明已获得最优值。

全文数据:

权利要求:

百度查询: 山东师范大学 基于实例和特征共享级联的疾病预测系统、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。