首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于HF-GAN的心脏病诊断缺失数据填补方法及系统 

申请/专利权人:长春师凯科技产业有限责任公司;长春理工大学;吉林大学第一医院

申请日:2024-03-08

公开(公告)日:2024-06-21

公开(公告)号:CN117854716B

主分类号:G16H50/20

分类号:G16H50/20;G06N3/094

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2024.04.26#实质审查的生效;2024.04.09#公开

摘要:本发明属于医学数据处理技术领域,公开了基于HF‑GAN的心脏病诊断缺失数据填补方法及系统。该方法对系统初始化和配置的训练数据集以及测试数据集进行数据预处理;基于数据预处理后的数据,构建特征属性矩阵,并利用属性矩阵直接将医学疾病缺失数据转换为实值型、二值型或标称型数据,生成逼近真实数据的数据;构建并训练生成对抗网络,利用所述生成对抗网络对医学疾病缺失数据进行填补;对所述利用生成对抗网络对医学疾病缺失数据进行填补性能进行评估。本发明生成新的多样化数据实例,保证数据合理性的同时,增加数据的丰富性和复杂性。本发明提高了数据可解释性和实际应用价值,确保生成数据的有效性。

主权项:1.一种基于HF-GAN的心脏病诊断缺失数据填补方法,HF-GAN为生成对抗网络的缺失数据填补架构,其特征在于,该方法包括:S1,对系统初始化和配置的训练数据集以及测试数据集进行数据预处理;S2,基于数据预处理后的数据,构建属性矩阵,并利用属性矩阵直接将医学疾病缺失数据转换为实值型、二值型或标称型数据,构建并训练生成对抗网络,利用所述生成对抗网络对医学疾病缺失数据进行填补,生成逼近真实数据的分布形式;S3,利用生成对抗网络对医学疾病缺失数据进行填补性能进行评估;所述对系统初始化和配置的训练数据集以及测试数据集进行数据预处理包括:第一步,心脏病数据集导入:使用‘readData.ReadPhysionetData’从指定路径加载训练数据集,使用‘readTestData.ReadPhysionetData’从指定路径加载测试数据集;其中,‘readTestData.ReadPhysionetData’为从数据库读取数据函数的方法;第二步,数据预处理,采用的方法为:最大最小归一化,可变分数阶梯度下降法;所述最大最小归一化的表达式为: 式中,xscale为经过归一化处理后的数据值,xscale在[0,1]区间内;maxdj,mindj分别为第j维属性的最大值和最小值,xij为未丢失可观测的数据;所述可变分数阶梯度下降法包括:将Caputo分数阶导数的公式扩展,表达式为: 式中,为Caputo分数阶导数,n为数据样本总数,i为第i个样本,μ为分数阶导数的阶次,fi为输入函数f的i阶导数,Γ为伽马函数,t为时间,a为起始时刻;迭代方法如下: 式中,tk+1为k+1时间点,tk为k时间点,为不同时间学习率差值,λ为学习率,c为Caputo分数阶导数的标记,为tk时间的输入值,Z+为正整数,k为离散时间序列的某节点;所述利用属性矩阵直接将医学疾病缺失数据转换为实值型、二值型或标称型数据,构建并训练生成对抗网络,利用所述生成对抗网络对医学疾病缺失数据进行填补,生成逼近真实数据的分布形式包括:给定包含n个数据样本的原始数据的数据集为X=X1,X2…XnT,每个样本有d维属性值数为Xi={xi1,xi2…xid};Xn为第n个数据样本的原始数据,T为矩阵转置符号,xid为第i个数据样本的第d维度的属性值数;利用缺失标记矩阵M={m|mij∈{0,1}}确定原始数据的数据集X缺失数据的信息,矩阵m中的元素由以下公式产生: 式中,mij为第i个样本的第j维属性值缺失,NaN为表示单元格中缺失数值,i为第i个样本,d为第d个维度,n为数据样本总数;特征属性包含实值型、二值型、标称型,将实值型、二值型、标称型分别设置为0,1,2,属性矩阵A={a|ai∈{0,1,2}}用来标记数据的特征属性信息,表达式为: 式中,dtypeXi为Xi的数据类型;在步骤S2中,所述构建并训练生成对抗网络,利用所述生成对抗网络对医学疾病缺失数据进行填补包括:通过拟合真实数据的分布,生成网络学习到随机噪声数据和真实数据的映射关系;在生成网络中,输入的是数据矩阵X、随机噪声数据Z、标记矩阵M和属性矩阵A,通过生成网络创建新生成的数据,用表示,然后,将所述新生成的数据与原有的未缺失数据结合起来,以此形成一组最终的完整的数据集Z是一个d维向量,Z=Z1,Z2…Zd,每个都有中的非缺失值,而中的缺失值被随机噪声替代;属性矩阵A标记数据集中每一列的属性信息;令N=N1,N2…Nd作为从连续均匀分布中抽取随机值的函数的输出,Z的取值如下: 为生成器生成的填补值,表达式为: 式中,为生成器生成的填补值,G为生成器函数,X为数据矩阵,Z为随机噪声数据,M为标记矩阵,A为属性矩阵; 为最终的完整数据集,有缺失值的地方用中的数据,无缺失值的地方用X中的数据,属性矩阵A用于标记数据的属性,若数据的属性为二值型或标称型,则将数据转为int整型数据,否则数据不变,整体公式如下: 所述训练生成对抗网络包括:求解一个二元函数极小极大值的过程,表达式为: 式中,为训练过程中希望做到对生成器的损失值最低值,为鉴别器损失值最高值,为原数据的期望,x为原数据样本,Dx为鉴别器的结果,为噪声的期望,DGz为噪声经过生成器与鉴别器的结果,Gz为噪声经过生成器的结果,VD,G为对抗损失;优化对抗损失VD,G,同时让生成器G生成真实的样本,让判别器D区分开真实样本和生成样本;训练生成对抗网络的损失函数为对抗损失VD,G中关于噪声z的项,损失函数为: 生成器目标为生成器生成的样本逼近真实样本,表达式为: 式中,BCE,为二元交叉熵函数,LG为生成器G损失函数,为噪声的期望,DGz为噪声经过生成器与鉴别器的结果,DGzi为某个样本的噪声经过生成器与鉴别器的结果;训练生成对抗网络的损失函数其是对抗损失VD,G中关于样本x的项,损失函数为: 式中,LD为鉴别器损失函数,为最终完整数据的期望,为最终完整数据经过鉴别器的结果;判别器的目标区分出生成样本和真实样本,具体公式为: 式中,x为原数据样本,为生成器生成的样本;训练生成对抗网络中将生成器和判别器交叉训练,在一次对抗中每训练1次生成器训练k次判别器,训练生成器时将判别器参数固定并串联至生成器后,生成器的预测损失由生成器生成的填补数据与真实数据的差值得到,使用判别器的输出概率值计算生成器的对抗损失,由损失函数计算生成器网络参数的梯度信息并沿负梯度方向更新参数;训练判别器时将生成器的参数固定并生成假的填补数据,判别器判断并输出当前输入数据来自真实样本集的概率;在步骤S3中,所述利用生成对抗网络对医学疾病缺失数据进行填补性能进行评估包括:评估指标计算包括:均方根误差RMSE、错分类比例PFC、AUC指标;均方根误差RMSE计算公式为: 式中,mij为缺失标记矩阵中第i行第j列的数值,i为第i个样本,j为第某个维度,xij为未丢失可观测的数据,为填补数据;错分类比例PFC计算公式为: 式中,I为输出值为0或1的函数,当完整数据集与填补后数据集变量不相等时输出为1,相等时输出为0,为完整数据集第i个样本第j个变量的值,为填补后数据集第i个样本第j个变量的值,NA为离散型变量缺失的个数;AUC指标的计算与正阳例TPR数目及假阳例FPR数目相关,表达式为: 式中,TPR为真阳性率,FPR为假阳性率,TP为正确分类的正样本数,FN为被错误的标记为负样本的正样本数,FP为被错误的标记为正样本的负样本数;AUC指标为ROC曲线下的面积计算公式为: 式中,AUC为ROC曲线下与坐标轴围成的面积,yt为ROC曲线函数,dxt为xt的微分。

全文数据:

权利要求:

百度查询: 长春师凯科技产业有限责任公司 长春理工大学 吉林大学第一医院 基于HF-GAN的心脏病诊断缺失数据填补方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术