买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南开大学
摘要:本发明公开了基于Hi‑C测序数据的TAD识别方法及系统;其中,所述方法包括:获取单条染色体的Hi‑C测序数据;对单条染色体的Hi‑C测序数据进行分段,生成若干个染色体片段;对每个染色体片段进行TAD结构识别;根据识别的TAD结构,识别假阳性结果。充分利用了整条染色体Hi‑C测序数据,提高了精度;同时引入随机重启游走算法和惩罚操作,通过惩罚系数有效的限制了基因变异带来的影响。
主权项:1.基于Hi-C测序数据的TAD识别方法,其特征是,包括:获取单条染色体的Hi-C测序数据;对单条染色体的Hi-C测序数据进行分段,生成若干个染色体片段;对每个染色体片段进行TAD结构识别;根据识别的TAD结构,识别假阳性结果;所述获取单条染色体的Hi-C测序数据;对单条染色体的Hi-C测序数据进行分段,生成若干个染色体片段;具体包括:获取单条染色体的Hi-C测序数据;其中,单条染色体的Hi-C测序数据为矩形结构;计算单条染色体中每个片段bin的局部接触频率;在每个片段bin都计算出一个局部接触频率值之后,筛选出极小值点所在的片段bin;从极小值点所在的bin出发,分别向左右计算局部接触频率严格单调上升的最大边界;每个极小值的左右边界差被称为最大上升距离;对最大上升距离按照从大到小的顺序进行排序,将排序靠前的若干个值作为TAD边界;根据TAD边界对整条染色体进行分割,得到若干个染色体片段;所述计算单条染色体中每个片段bin的局部接触频率;具体为: 其中,w由用户输入的分辨率resolution除以2MB得出,cont.freq是两个bin之间的接触频率,其值是Hi-C测序数据形成的矩阵的值;U、D分别指代上游up和下游down区域;局部接触频率值localdensity描述了一个bin与其上游距离w和下游距离w内的接触总和,TAD中心具有极大值,TAD边界具有极小值;所述对每个染色体片段进行TAD结构识别;具体包括:对每个染色体片段,采用随机重启游走算法获取当前染色体片段内所有片段bin两两之间的相似度;将两两片段bin之间的相似度与两两片段bin之间的距离做相除操作,得到惩罚的结果;将除法结果作为标签传播算法的输入数据,采用标签传播算法,对输入数据进行标签传播过程,其输出内容为社区结构,社区结构含义上对应于TAD结构;所述社区结构,由标签传播算法定义为一个区域其内部相关性高于该区域与其他区域相关性;根据识别的TAD结构,识别假阳性结果;具体包括:根据生物结论,TAD结构的标准范围介于180Kb到2Mb之间;用户输入参数为Hi-C矩阵分辨率值,将标准范围的两个端点值除以resolution值,得到在该Hi-C矩阵分辨率下,一个拓扑关联区域内包含的bin数目范围;根据拓扑关联区域内包含的bin的数目范围,过滤掉已识别的TAD结构中不在此范围内的假阳性结果;根据质量指标拓扑关联区域内部与相邻拓扑关联区域之间的接触频率差和皮尔逊相关系数进一步过滤假阳性;最终剩余社区作为TAD识别结果。
全文数据:
权利要求:
百度查询: 南开大学 基于Hi-C测序数据的TAD识别方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。