买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种对乳腺癌进行风险评分的方法,涉及预测评估技术领域,S1、采集样本数据、S2、填充缺失样本数据、S3、计算模型权重、S4、收集用户信息、S5、确定风险概率和S6、生成风险评分,本发明根据完整的样本数据进行推算,从而补全缺失样本数据,使得后续模型训练以及分析时得到的一系列参数值能够更加准确,并且构建缺失样本对应的相似数据集时,不仅对于样本数据之间的相似性进行分析,而且指标信息之间的关联程度也会影响筛选结果,保证最终得到的样本数据与缺失样本数据具备更高的相似性,在用户相关信息收集时,一旦发现缺失数据,也会利用该方式快速获取合适的填充值,使得后续在风险概率评估时能够避免较大的误差。
主权项:1.一种对乳腺癌进行风险评分的方法,其特征在于:包括以下步骤:S1、采集样本数据:在乳腺癌症家族登记网站中获取所有公开的用户数据信息,根据这些数据信息提取每个用户对应的相关信息,其中包括个人信息、生理信息、生活习惯信息、健康信息和家族信息;S2、填充缺失样本数据:由于相关信息对应十六个指标信息,将指标信息存在缺失的样本存储至第一数据集中,反之则将其存储至第二数据集中,利用皮尔逊相关系数法对样本中各个指标信息之间的相关度进行计算,通过权重转化算法将相关度转化为权重矩阵,利用相似度分析算法对缺失样本数据和第二数据集中的每个样本数据之间的距离值分别进行计算,对第二数据集中的样本数据按照距离值从小到大进行排序,设定阈值后,将缺失样本数据和样本数据之间的距离值依次相加,当相加后的距离值与距离和之间的比值小于等于阈值时,则将相加过程中涉及到的样本数据存储至相似数据集中,缺失样本与相似数据集中每个样本之间的距离倒数作为两个样本之间的邻近值,单个样本邻近值与邻近总值之间的比值设定为该样本对应的权值,根据权值进行计算得到缺失样本中指标信息对应的填充值;S3、计算模型权重:当第一数据集中所有缺失样本均经过处理得到对应的填充值后,统计所有样本数据中涉及患有乳腺癌的用户数据量以及健康用户数据量,删除多余的数据后,将百分之八十的样本数据存储至训练数据集中,余下的数据存储至测试数据集中,通过极大似然估计法根据训练数据集中样本数据计算出对应的模型参数,从而构建出Logisitic回归模型,利用随机搜索法分析出多个参数后,根据组合的参数确定对应的核函数,选择准确度最高的参数组合构建出最终的SVM模型,利用训练数据集中的样本数据对Gail模型和SVM模型以及Logisitic模型和SVM模型进行训练,通过最小方差法计算出各个模型对应的权重;S4、收集用户信息:接收用户填写的乳腺癌问卷信息后,根据乳腺癌问卷信息提取该用户的个人信息、生理信息、生活习惯信息、健康信息和家族信息,并上传个人病史、家族病史和基因检测报告;S5、确定风险概率:对用户的相关信息进行遍历时,若存在指标信息对应的数据为缺失值,利用样本数据分析对应的填充值,若指标信息中存在受影响的一级亲属数量为零且指标信息对应的数据存在两个及两个以上填充值时,则利用Logisitic模型和SVM模型分别根据用户的指标信息进行分析,将模型对应的权重与得到的风险概率相乘后再进行相加操作,从而确认出最终的风险概率;S6、生成风险评分:将用户相关信息以及风险概率传输至咨询师界面后,得到的建议文档、风险评分以及风险概率传输至用户界面中,等待用户根据这些数据进行反馈,若反馈结果为不接受时,将选择除原先使用的模型外的其余模型对其进行分析,生成的多个风险概率后,将其传输至多个咨询师界面中,从而获取多组建议文档、风险评分以及风险概率,将其传输至用户界面中。
全文数据:
权利要求:
百度查询: 宁夏医科大学总医院 一种对乳腺癌进行风险评分的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。