首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种改进随机森林相似性度量的患病风险预测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西南石油大学

摘要:本发明涉及一种改进随机森林相似性度量的患病风险预测方法,属于医学健康分析和机器学习领域;解决了随机森林算法基于复杂医学数据进行患病风险预测时准确率低的问题;其技术方案是:构建基于原始随机森林算法的患病风险预测模型;保留AUC值高的部分决策树;将决策路径分组后得到所有病症特征的值域;提出三层交并比法计算决策树之间的相似度;删减冗余决策树后得到最终的患病风险预测模型;本发明提出了一种新的度量随机森林模型中决策树相似性的方法,保证原始医学数据完整性的同时提高了对患病风险的预测精度,为辅助医学健康分析提供了新思路。

主权项:1.一种改进随机森林相似性度量的患病风险预测方法,其特征在于,包括以下步骤:S100、对获取的医学数据进行预处理,构建基于原始随机森林算法的患病风险预测模型;S200、计算模型中每棵决策树的AUC值,仅保留AUC值高的前80%决策树;S300、将每棵决策树中的路径进行分组,得到每条路径中所有病症特征的值域;S400、提出三层交并比法计算每两棵决策树的相似度;S500、根据相似度和AUC值删减冗余决策树,得到最终的患病风险预测模型;所述的步骤S100中,将医学数据中的类别变量通过one-hot编码转换为数值变量,并对缺失的数值变量采用平均值进行填充,所述的步骤S300包括以下步骤:S301、遍历所有决策树,根据叶节点的患病输出类别对决策路径进行分组,输出类别相同的属于同一分组;S302、对于每条决策路径,遍历所有节点后得到其分裂特征的取值范围,对于相同的病症特征,定义其取值的交集为该病症特征的值域,所述的步骤S400包括以下步骤:S401、计算病症特征相似度,定义在决策树I和决策树J中,同一分组下的决策路径分别为路径K和路径M,则病症特征A的相似度为其取值范围的交并集之比: 式中:IoUA为病症特征A在路径K和路径M上的相似度,Xmin,Xmax为病症特征A在路径K中的值域,Ymin,Ymax为病症特征A在路径M中的值域,若IoUA值不小于相似阈值,则判定两条路径上的病症特征A相似,从而得到同一分组下的两条决策路径中病症相似特征的个数;S402、通过步骤S401中病症相似特征个数与病症特征总个数之比来计算两条决策路径的相似度: 式中:IoUKM为路径K和路径M的相似度,Sim_KM为两条路径中病症相似特征个数,k为路径K中的病症特征总个数,m为路径M中的病症特征总个数,若IoUKM值不小于相似阈值,则判定路径K和路径M相似,从而得到相似路径的条数;S403、通过步骤S402中相似路径条数与总路径条数之比来计算两棵决策树的相似度: 式中:IoUIJ为决策树I和决策树J的相似度,Sim_IJ为两棵决策树中相似路径条数,i为决策树I中的总路径条数,j为决策树J中的总路径条数,若IoUIJ值不小于相似阈值,则判定决策树I和决策树J相似,所述的步骤S500包括下列步骤:S501、若决策树I和决策树J不相似,则同时保留两棵决策树,否则执行下一步;S502、比较决策树I和决策树J的AUC值,若决策树I的AUC值更低,则判断决策树I的AUC值是否为前30%,若是,则同时保留两棵决策树,若不是,则保留决策树J的同时删除决策树I;S503、用剩下的决策树构成最终的患病风险预测模型。

全文数据:

权利要求:

百度查询: 西南石油大学 一种改进随机森林相似性度量的患病风险预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。