买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:齐鲁工业大学(山东省科学院)
摘要:本发明公开了一种用于单细胞测序数据的缺失值插补方法,涉及单细胞RNA测序数据测序技术领域。本发明包括如下步骤:S1、构建原始基因表达矩阵V,对V进行归一化处理而后分别进行两次遮蔽操作,得到原始遮蔽基因矩阵X1和X2,而后,基于X1和X2分别生成细胞图A1和A2;S2、构建图对比学习重构网络,得到插补后的基因表达矩阵;S3、构建图对比学习重构网络的总损失;S4、基于总损失L训练图对比学习重构网络;S5、将单细胞测序数据按照步骤S1获取X1、X2、A1和A2,而后将其输入至模型中,前向传播一次,得到插补后的基因表达矩阵。本申请得到的插补后的基因表达矩阵,在细胞聚类、细胞轨迹重建任务中都有较佳表现。
主权项:1.一种用于单细胞测序数据的缺失值插补方法,其特征在于:包括如下步骤:步骤S1、基于单细胞测序数据构建原始基因表达矩阵V,对原始基因表达矩阵V进行归一化处理得到原始基因归一化矩阵G,对原始基因归一化矩阵G分别进行两次遮蔽操作,得到原始遮蔽基因矩阵X1和原始遮蔽基因矩阵X2,而后,基于原始遮蔽基因矩阵X1和原始遮蔽基因矩阵X2分别生成细胞图A1和细胞图A2,所述单细胞测序数据即为基因数据;步骤S1具体包括如下步骤:S1-1、从目标数据集中获取细胞类型和与其相对应的基因数据,而后,对目标数据集中的基因数据进行裁剪,得到变异特征基因,而后筛选出一定数量的与研究细胞特征相关的变异特征基因,筛选出的变异特征基因以及与其相适应的细胞类型名称,构成原始基因表达矩阵V;S1-2、对原始基因表达矩阵V进行归一化处理,得到原始基因归一化矩阵G,如式1所示: 1式1中,log10是计算以10为底的对数,V为原始基因表达矩阵,G表示原始基因归一化矩阵;S1-3、将原始基因归一化矩阵G中的随机一个非零元素设置为0,得到原始遮蔽基因矩阵X1,完成第一次遮蔽操作;而后,将原始基因归一化矩阵G中的随机一个不同的非零元素设置为0,得到原始遮蔽基因矩阵X2,完成第二次遮蔽操作;第一次遮蔽操作和第二次遮蔽操作中是将不同的非零元素设置为0,原始遮蔽基因矩阵X1和原始遮蔽基因矩阵X2是不同的;S1-4、将原始遮蔽基因矩阵X1和原始遮蔽基因矩阵X2分别通过KNN算法生成细胞图A1和细胞图A2;步骤S2、构建图对比学习重构网络,所述图对比学习重构网络包括依次连接的图对比学习模块和插补模块;图对比学习模块用于对原始遮蔽基因矩阵X1和原始遮蔽基因矩阵X2的细胞特征进行降低维度和增强维度的操作,得到增强细胞的低维特征,插补模块用于对原始归一化基因表达矩阵G中的零值进行插补,得到插补后的基因表达矩阵;步骤S2中,图对比学习模块包括依次连接的第一个图卷积网络、第二个图卷积网络、第一个全连接网络、ReLU激活层以及第二个全连接网络,其中,第一个图卷积网络和第二个图卷积网络结构相同,第一个图卷积网络和第二个图卷积网络的参数设置不同,第一个图卷积网络和第二个图卷积网络结构均现有的GCN模块结构相同,第一个全连接网络和第二个全连接网络结构相同,第一个全连接网络和第二个全连接网络结构的参数设置不同,第一个全连接网络和第二个全连接网络结构均与现有的MLP模块结构相同;原始遮蔽基因矩阵X1和原始遮蔽基因矩阵X2分别输入图对比学习模块,得到维度为512×K的增强细胞低维特征Z1和维度为512×K的增强细胞低维特征Z2;步骤S2中,原始遮蔽基因矩阵X1和原始遮蔽基因矩阵X2分别输入图对比学习模块,得到维度为512×K的增强细胞低维特征Z1和维度为512×K的增强细胞低维特征Z2的具体方式为:原始遮蔽基因矩阵X1输入第一个图卷积网络后,第一个图卷积网络对原始遮蔽基因矩阵X1进行降维操作,将原始遮蔽基因矩阵X1的维度由2000×N降低至2000×512,N为细胞数量,第一个图卷积网络根据细胞图A1所示的细胞之间的距离计算得到细胞之间的距离权重;第二个图卷积网络用于对第一个图卷积网络输出的基因矩阵Ⅰ进行降维操作,将基因矩阵Ⅰ的维度由2000×512降低至512×K,K表示细胞类别数量,并根据第一个图卷积网络输出的细胞图所示的细胞之间的距离计算得到细胞之间的距离权重,得到维度为512×K的增强细胞低维特征Z1;其中,第一个图卷积网络输出的细胞图与细胞图A1完全相同;第一个全连接网络用于对第二个图卷积网络输出的维度为512×K的增强细胞低维特征Z1进行全连接操作,得到维度为K×K的增强细胞低维特征;ReLU激活层用于对第一个全连接网络输出的维度为K×K的增强细胞低维特征进行非线性关系映射,输出非线性映射的细胞低维特征矩阵Ⅰ;第二个全连接网络用于对ReLU激活层输出的非线性映射的细胞低维特征矩阵Ⅰ进行全连接操作,得到维度为K×K的预测细胞低维特征P1;原始遮蔽基因矩阵X2输入第一个图卷积网络后,第一个图卷积网络对原始遮蔽基因矩阵X2进行降维操作,将原始遮蔽基因矩阵X2的维度由2000×N降低至2000×512,第一个图卷积网络根据细胞图A2所示的细胞之间的距离计算得到细胞之间的距离权重,其中,N为细胞数量;第二个图卷积网络用于对第一个图卷积网络输出的基因矩阵Ⅱ进行降维操作,将基因矩阵Ⅱ的维度由2000×512降低至512×K,K表示细胞类别数量,并根据第一个图卷积网络输出的细胞图所示的细胞之间的距离计算得到细胞之间的距离权重,得到维度为512×K的增强细胞低维特征Z2;S3、构建图对比学习重构网络的总损失,图对比学习重构网络的总损失包括交叉熵损失LCross、对比损失LContrast以及重构损失LRecontrast;步骤S4、基于图对比学习重构网络的总损失L训练图对比学习重构网络,得到图对比学习重构网络模型;步骤S4包括如下步骤:步骤S4-1、将原始遮蔽基因矩阵X1、原始遮蔽基因矩阵X2、细胞图A1和细胞图A2共同构成训练集;步骤S4-2、将原始遮蔽基因矩阵X1、原始遮蔽基因矩阵X2、细胞图A1和细胞图A2同时输入到图对比学习重构网络中,在总损失L的引导下进行反向传播,更新并保留图对比学习重构网络的模型参数,而后将图对比学习重构网络输出的插补后的基因表达矩阵利用更新模型参数后的图对比学习重构网络前向传播一次进行验证,输出并保留总损失L,完成一次迭代过程,迭代500次后,完成图对比学习重构网络的训练过程,将总损失L最小的所述验证过程中图对比学习重构网络的参数作为图对比学习重构网络的模型参数,得到图对比学习重构网络模型;步骤S5、将单细胞测序数据按照步骤S1所示的步骤获取原始遮蔽基因矩阵X1、原始遮蔽基因矩阵X2、细胞图A1和细胞图A2,而后,将其输入至步骤S4得到的图对比学习重构网络模型中,前向传播一次,得到插补后的基因表达矩阵。
全文数据:
权利要求:
百度查询: 齐鲁工业大学(山东省科学院) 一种用于单细胞测序数据的缺失值插补方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。