首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种单细胞转录组数据进行细胞分化预测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:蓝天;兰青

摘要:本发明公开了一种单细胞转录组数据进行细胞分化预测方法,包括数据输入、数据预处理、数据降维可视化、分化轨迹推断、假时间预测、输出预测的细胞分化轨迹等步骤。本发明提供了一种全新的单细胞转录组数据进行细胞分化预测方法,使用了寻找细胞集群中的过渡细胞并连接对应细胞类群的方法,确保了可以构建包括如闭合环状、分离的子轨迹等复杂拓扑结构任何的拓扑结构。另外,使用基于密度的方法,使用了细胞的相对分布而不是绝对位置作为信息,以此来减小噪声数据对于结果的影响。本发明的方法可以用于研究例如癌症的发展阶段,其内部细胞的差异性,以及构建任意拓扑结构的细胞分化图等。

主权项:1.一种单细胞转录组数据进行细胞分化预测方法,其特征在于,包括以下步骤:S1、数据输入;所述数据为单细胞转录组数据计数矩阵,所述矩阵的行为基因名称,列为细胞名称;S2、数据预处理,配置为清理矩阵;S3、数据降维可视化,配置为提取主成分特征以及可视化;S4、分化轨迹推断;S5、假时间预测,配置为输出假时间向量对应于每个细胞;S6、输出预测的细胞分化轨迹,所述细胞分化轨迹对应于每个细胞的细胞类别向量和假时间向量;在步骤S2中,所述数据预处理包括以下步骤:S21、基因筛选:挑选方差最大的前k个基因k为正整数;S22、细胞筛选:去除含有基因总计数少于n的细胞n为正整数;S23、目标基因确定:如有提供n个基因,需要寻找k个目标基因;S24、数据标准化:通过标准化公式进行计算;在步骤S23中,所述目标基因确定可通过以下方法之一实现:1通过找出与提供的基因含有最高相关系数的k个基因;2对筛选后的数据集进行非负矩阵分解,并使用KNN算法,基于分解后的W矩阵为每个提供的基因找出k个最邻近的基因;所述KNN算法的公式为:V≈W×H其中,V为原始数据矩阵,W为维度g,m的矩阵,H为维度m,c的矩阵;g,c,m分别为基因数,细胞数,降维后的维度;在步骤S24中,所述标准化公式为:其中,ng,c为基因g在细胞c中的计数,Nc为每个细胞中的总基因计数,scalefactor为常数且单位为10^4;在步骤S3中,所述数据降维包括以下步骤:S31、主成分降维PCA:求出标准化后的mRNA计数矩阵的协方差矩阵,并求出该协方差矩阵的特征值及对应的特征向量,将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行即为提取的前k个特征并组成新的降维后的矩阵;S32、T随机临近嵌入法tSNE:基于步骤S3降维之后的矩阵,将数据点之间的相似度转化为条件概率,原始空间中数据点的相似度由高斯联合分布表示,嵌入空间中数据点的相似度由学生t分布表示,并将KL散度作为损失函数并用梯度下降算法优化,形成二维的关于细胞的坐标矩阵;在步骤S4中,所述分化轨迹推断包括以下步骤:S41、细胞聚类:采用基于密度的聚类方法进行,用期望最大算法对于降维后的矩阵数据估计混合高斯分布模型,并结合二维核密度估计确定细胞类群,用最小方差决定算法重新拟合每一个类群;S42、统计模型拟合:采用最小协方差决定算法进行;S43、过渡期细胞预测:基于每一个类群的拟合模型: 其中,Pc,d1,Pc,d2为:细胞c属于d1,d2类群的概率,Csum,Cdiff为分类的阈值;满足上述拟合模型的细胞即为过渡细胞;S44、连接条件确定:过渡细胞的数量超过对应的细胞类群中细胞总数量的百分比阈值即判定对应的细胞类群存在分化关系;S45、轨迹生成:对于任意两个可以连接的细胞类群,主成分曲线为:fs=EYsfy=s;Y=Y1,Y2其中,fs为概率分布Y中所有映射索引sfy为s的点的期望值;然后迭代直到收敛: 其中,sfDny为通过细胞类群D的主成分曲线的点的映射索引,n为主成分曲线通过细胞类群的总数;在步骤S5中,所述假时间预测包括以下步骤:S51、确定细胞初始分化群:人工设置初始细胞群;S52、分配假时间:基于细胞距离并通过以下公式进行: 其中,ND为细胞类别D的总数,m为细胞类别的总数,Cm为在m类别中的细胞c,dp,q为细胞p与细胞q的欧几里得距离。

全文数据:

权利要求:

百度查询: 蓝天 兰青 一种单细胞转录组数据进行细胞分化预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。