买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南通大学
摘要:本发明提供了一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法,属于精神分裂症的生物标记物选择技术领域;解决了数据集中样本分布不一致的技术问题。其技术方案为:首先,在主节点Master上,读取大规模精神分裂症病历图像数据,对其进行预处理和划分,并将数据子集广播到相应的子节点上,在第i子节点Slaveri上,通过Spark并行化的稀疏约束模型刻画样本之间的联系,得到样本最优的K个邻居K是邻居个数,然后,在粒化过程中引入双向互邻策略,构造基于稀疏双向的Spark粗糙集模型,在子节点Slaveri上,将启发式特征选择方法和动态优化策略结合,选取预测精神分裂症的重要脑区域。本发明的有益效果为:有助于精神分裂症的预测。
主权项:1.一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法,其特征在于,包括以下步骤:S1:在主节点Master上,读取大规模静息态功能磁共振成像的精神分裂症病历图像数据集,将分布不平衡的RS-fMRI数据存储到数据库的分布式文件中,并进行数据预处理和划分操作,RS-fMRI图像经过数据预处理后,使用解剖自动标记模板将其划分为若干个大脑区域,在大脑网络中,每个大脑区域代表一个独立的节点,分别提取每个节点的平均体素时间序列,将每个区域相似度较高的聚类到一起,计算每个区域的聚类系数,将系数转为一组一维特征向量,用这些系数来表示大脑网络的拓扑结构,建立脑区之间的脑功能连接网络,定义节点时间序列矩阵;将精神分裂症病历图像转换为一个四元组决策信息系统S=U,C∪D,V,f,其中U={x1,x2,……,xn}表示数据集中精神分裂症病历图像的患者对象集合,m表示精神分裂症病历的患者个数,xm表示第m个样本;C={a1,a2,…,an}表示精神分裂症病理属性的非空有限集合,n表示精神分裂症病理属性的个数,an表示第n个属性;D={d1,d2,……,dN}表示精神分裂症病历决策类别的非空有限集合,N表示精神分裂症病历决策类别的个数,dN表示第N个决策类别,且V=∪a∈C∪DVa,Va是数据集属性a下数据对象所有可能的数据取值,f:U×C∪D→V表示一个信息函数,它为每个精神分裂症病历图像赋予一个信息值,即x∈U,fx,a∈Va;S2:在Spark框架中,建立主控节点Master和子节点Slavei之间的通信,读取精神分裂症病历的数据集,将数据集S合划分成M个精神分裂症数据子集{S1,S2,……,SM},其中SM表示第M个数据子集,且满足数据子集之和等于数据集,满足任意数据子集的交集为空,并将其广播到相应的子节点上,在子节点Slaveri上,使用留一法列出病历图像样本xi,xi表示第i个精神分裂症病历图像样本,通过Spark并行化的稀疏约束模型计算图像样本xi和其他样本x1,x2,……,xi-1,xi+1,……,xj之间的相关性,xj表示第j个数据集,其中j<n,当行内尽可能多的元素为0时,约束才可能取得最小,即使得矩阵出现尽可能多的全零行,得到权重矩阵W,元素大小反应样本紧密程度,通过非零元素个数得到样本最优的K个邻居,获得K值,构造基于Spark并行化的稀疏K近邻粒度模型,利用所有样本最优的K个邻居,生成关系矩阵,表示每个样本之间的距离关系;S3:在子节点Slavei中引入双向互邻策略,通过病历图像样本x和样本y的互邻信息重叠区域来判断,当样本x和样本y都属于对方的最近邻粒度,则样本y被选为样本x的最近邻,得到基于稀疏双向的Spark粗糙集模型,令B表示精神分裂症病理特征非空有限集合的子集,则稀疏双向最近邻定义如下:SMKBxi={KBxi|xi∈KBxj∩xj∈KBxi}1其中,x关于特征子集B的最优邻居为xi表示精神分裂症病历图像数据子集中第i个样本,xj表示精神分裂症病历图像数据子集中第j个样本,KBxj表示样本xj在特征子集B下的K个邻居,KBxi表示样本xi在特征子集B下的K个邻居;所述步骤S3的具体步骤如下:步骤S3.1:在子节点Slaveri上,使用留一法列出样本xi,增加一个L1正则化,通过Spark并行化的稀疏约束模型计算图像样本xi和其他样本x1,x2,……,xi-1,xi+1,……,xj之间的相关性,稀疏约束函数如下; 其中是Frobenius范数的平方,F是范数的选取方式,T是矩阵的转置变换,||·||1是1范数,rho是1范数的调优参数,取值在0到1之间,W为数据集的重构权重矩阵,XT表示数据集的转置矩阵;步骤S3.2:在稀疏约束函数中利用1范数生成行稀疏性,若行内的0元素越多,则约束越小,当行内所有元素都为0时,约束能够取得最小值,即使得矩阵出现尽可能多的全零行,通过目标函数不断调节参数,获得重构权重矩阵W,通过矩阵的对应列获取样本xi的重构向量P,利用重构向量P中元素的大小反映样本紧密程度,其中非零元素的个数即为该图像样本的最优K值,构造基于Spark并行化的稀疏K近邻粒度模型;步骤S3.3:在子节点Slaveri上,在基于Spark并行化的稀疏K近邻粒度模型中加入互信息策略,通过样本x和样本y的互邻信息的重叠区域来判断,当样本x和样本y都属于对方的近邻粒度,则样本y被选为样本x的最近邻,得到基于稀疏双向K近邻的Spark模型,对于样本x和样本y满足x∈Kxy∩y∈Kyx3则样本y包含在样本x的稀疏双向的Spark并行特征选择模型中,选择模型中符合该策略的样本,构造基于稀疏双向的Spark粗糙集模型,Kxy表示样本y的K个邻居,Kyx表示样本x的K个邻居;步骤S3.4:根据稀疏约束函数得到的最优K值和双向互邻策略,设计了构造基于稀疏双向的Spark粗糙集模型,给定信息系统S,特征子集B中xi的稀疏双向邻居SMKBxi,其上近似以及下近似分别定义为 步骤S3.5:计算D关于B的正域、负域和边界域分别定义为 S4:将启发式特征选择方法和动态优化策略结合,在子节点Slavei上,基于粒度的模型采用条件熵来评估模型的不确定性,在属性C-B子集中寻找具有最大属性重要度SIGai,B,D对应的属性,其中ai表示第i个属性,将其加入到属性集B中,若属性ai冗余则继续计算下一个具有最大属性重要度的属性,比较依赖性γBD和γCD,将属性集B中的冗余属性删除,γBD表示属性子集B对于决策类D的依赖度,γCD表示条件属性C对于决策类D的依赖度,利用依赖关系来评估近似的区域,得到各个子节点计算出的病理属性约简子集集合{R1,R2,……,RM},其中M表示子节点的个数,RM表示第M个子节点求出的属性子集,根据基于稀疏双向的Spark并行模型对数据进行特征选择,由此选取预测精神分裂症的重要脑区域;所述步骤S4的具体步骤如下:步骤S4.1:将启发式特征选择方法和动态优化策略结合,基于粒度的模型采用条件熵来评估模型的不确定性,在所述子节点Slavei中,初始化属性集B,设计算属性重要度SIGai,B,D,并选择最大的属性重要度和对应的特征ai,属性集B关于决策属性D的条件邻域熵计算公式如下所示: 属性重要度的计算公式如下所示:SIGa,B,D=CEBD-CEB∪{a}D10其中CEB∪{a}D表示属性集B加入属性a后关于决策属性D的条件邻域熵,如果SIGai,B,D0,则将对应的特征ai加入到选定的属性集B中,B=B∪{ai};步骤S4.2:在所述子节点Slavei中,根据限定约简的定义,计算更新后特征子集B对决策特征D的依赖度γBD,判断如果计算结果满足γBD≥γCD,则将γBD赋值给γCD,继续计算下一个特征ai,特征ai相对于特征子集B的依赖性可以描述为:γBD=|MKPosBD||U|11步骤S4.3:在所述子节点Slavei中,判断如果满足γBD≤γCD且SIGai,B,D<0,则说明特征ai冗余,需将属性集B中的特征ai去除,B=B-{ai},直到将所有的属性都比较一遍;步骤S4.4:若属性集B中的特征a不止一个且γBD≥γCD,则需验证其中是否有特征冗余,令计算γB-eD,如果γB-eD≥γCD,则将属性集B中的特征e去除;构建候选属性集合,并将其属性依次添加到属性约简集合Red中,最后,在主节点Master将子节点Slavei所得的属性约简子集取交集得到属性约简集为R,特征选择算法进行单元化,获得所选脑区域。
全文数据:
权利要求:
百度查询: 南通大学 一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。