首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种植物细胞器泛结构组装及统计不同构象频数的方法 

申请/专利权人:南京林业大学

申请日:2024-01-25

公开(公告)日:2024-07-05

公开(公告)号:CN118298914A

主分类号:G16B20/30

分类号:G16B20/30;G16B30/00;G16B20/40;G16B5/20

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.07.23#实质审查的生效;2024.07.05#公开

摘要:本发明公开了一种植物细胞器泛结构组装及统计不同构象频数的方法,属于生物信息领域。该方法先对植物样本进行HiFi测序,利用Jellyfish和Genomescope软件对HiFi数据进行植物基因组大小评估;然后利用Flye对HiFi测序数据进行基因组组装,获得Contigs序列以及Contigs的初始装配文件;在通过利用Blastn将植物线粒体基因组的保守蛋白序列和植物叶绿体基因组序列比对到所有Contigs的序列等步骤,实现植物细胞器泛结构组装,并统计不同构象频数。结果证实:本方法在组装准确性和完整性方面优于现有的细胞器基因组组装器,且只需要1×HiFi测序数据就可以获得完整的植物细胞器基因组。

主权项:1.一种植物细胞器泛结构组装及统计不同构象频数的方法,其特征在于,包括以下步骤:1对植物样本进行HiFi测序,得到高质量的HiFi测序数据;2利用Jellyfish和Genomescope软件对HiFi数据进行植物基因组大小评估;3利用Flye对HiFi测序数据进行基因组组装,获得Contigs的初始装配图结果assembly_graph.gfa文件;4利用Blastn将植物线粒体基因组的保守蛋白序列和植物叶绿体基因组序列比对到所有Contigs的序列。根据线粒体保守蛋白序列和叶绿体基因组比对结果中的Identity,Evalue和Score进行排序,分别选择前5个比对最佳的Contigs作为植物线粒体基因组和叶绿体基因组的种子,对于不足五个Contigs则全部选择;5根据评估得到的植物基因组大小以及HiFi数据量,计算植物基因组Contigs的深度;然后,选择所有Contigs的深度作为混合模型的输入变量,同时标记基因组Contigs深度、线粒体基因组种子的深度以及叶绿体基因组种子的深度,计算得到线粒体基因组深度和叶绿体基因组深度区间;6利用Python脚本将线粒体基因组种子作为输入参数,实现DFS完成线粒体基因组初始的GFA格式文件,同样的步骤完成叶绿体基因组初始GFA文件;7对于获得的初始GFA文件,利用Python脚本删除单独悬挂的异常Contigs和BubbledContigs,以获得简化GFA文件。8利用Python脚本选择简化GFA中导致多种结构的重复Contigs;将重复Contigs相邻的Contigs存入列表,按照深度进行排序;依次将每个重复Contig相邻的Contigs组成的列表存入字典中;对该字典进行全排列,生成所有可能的构象路径;9按照每个构象路径遍历简化GFA,输出单个构象的GFA路径,直到获得细胞器基因组的泛结构;10调用Python脚本计算构象中每对连接在3种构象中出现的次数作为重复次数,以字典的格式记录Contig00229-234:1。提取每种构象下每对连接处前后2000bp的序列,利用minimap2对原始HiFi测序数据进行比对,然后使用Samtoolsdepth进行计算连接处2000bp的平均深度并分配给所属的构象。最后根据该构象下所有连接处2000bp的平均深度除以重复次数进行累加求均值作为该构象的频数。

全文数据:

权利要求:

百度查询: 南京林业大学 一种植物细胞器泛结构组装及统计不同构象频数的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。