首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种DNA测序数据匹配增强方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:齐鲁工业大学(山东省科学院)

摘要:本发明涉及电数字数据处理领域,具体涉及一种DNA测序数据匹配增强方法及系统,属于电数字数据处理技术的一种具体应用。方法包括:提取DNA测序数据;获得参考基因组上各碱基位置的测序误差累积系数;调整待测基因组与参考基因组的比对匹配策略;对DNA测序数据匹配增强处理。系统包括:DNA数据提取单元、测序误差累积系数获取单元、比对匹配策略调整单元和数据匹配增强处理单元。本发明通过分析序列比对过程中的差异体现获得的测序误差累积系数,实现数据比对匹配过程分析,进行比对匹配策略调整。相较于常规处理方式,本发明还能够根据比对匹配策略进一步去除大片段插入缺失误差的影响,使得DNA测序数据匹配结果更加准确。

主权项:1.一种DNA测序数据匹配增强方法,其特征在于,包括:S1、提取DNA测序数据;S2、根据DNA测序数据,获得参考基因组上各碱基位置的测序误差累积系数;S3、根据所述测序误差累积系数,调整待测基因组与参考基因组的比对匹配策略;S4、根据所述待测基因组与参考基因组的比对匹配策略,对DNA测序数据匹配增强处理;步骤S2、根据所述DNA测序数据,获得测序误差累积系数,包括:S201、根据所述DNA测序数据,获取参考基因组上各碱基位置的读段覆盖程度数据;S202、根据所述读段覆盖程度数据,获取参考基因组上各碱基位置的测序误差累积系数;步骤S201中,根据所述DNA测序数据,获取参考基因组上各碱基位置的读段覆盖程度数据,包括:S2011、根据所述DNA测序数据,计算所述参考基因组上各碱基位置的各读段的端点所在的读段的误差程度;S2012、根据所述参考基因组上各碱基位置的各读段的端点所在的读段的误差程度,计算参考基因组上各碱基位置的读段端点影响程度;S2013、根据所述参考基因组上各碱基位置的读段端点影响程度,计算所述参考基因组上各碱基位置的读段覆盖程度;所述参考基因组上各碱基位置的各读段的端点所在的读段误差程度具体计算公式为: ; 表示第个碱基位置的第个读段的端点所在的读段的误差程度;表示第个碱基位置的第个读段的端点所在的读段的长度;表示第个碱基位置的第个读段的端点所在的读段的对比异常的碱基位置数量;参考基因组上各碱基位置的读段端点影响程度的计算公式为: ; 表示第个碱基位置的读段端点影响程度;表示第个碱基位置的读段端点所在的读段的数量;表示线性归一化函数;衡量的是以第个碱基位置作为读段端点的读段误差程度的累积,可表征该碱基位置上受到所有以其作为读段端点的在此碱基所在局部区域上的影响特征;读段覆盖程度计算公式为: ; 表示的是第个参考基因组碱基位置上的读段覆盖程度;表示第个参考基因组碱基位置上的被测序次数;表示参考基因组碱基位置上的被测序次数均值;测序误差累积系数计算公式为: ;其中,表示的是第个参考基因组碱基位置上的测序误差累积系数;表示的是第个参考基因组碱基位置上的读段覆盖程度;表示的是第个参考基因组碱基位置所在读段长度上对应的所有碱基位置的读段覆盖程度序列;表示的是第个参考基因组碱基位置所在读段的前一个等长区间长度上对应的所有碱基位置的读段覆盖程度序列;表示的是求取序列标准差;表示的是归一化操作;表示的是预设邻域数量;步骤S4中根据所述待测基因组与参考基因组的比对匹配策略,对DNA测序数据匹配增强处理,包括:S401、根据所述比对匹配策略中确定的待比对DNA读段在参考基因组的对应位置,确定与参考基因组的碱基比对匹配结果异常的部分碱基;S402、获取与该待对比DNA读段存在位置覆盖的多个待对比DNA读段,则以上述部分碱基相应的碱基位置的测序误差累积系数的反比作为此对比结果的可信度,选取最大可信度的碱基类型作为上述部分碱基的矫正后的碱基类型。

全文数据:

权利要求:

百度查询: 齐鲁工业大学(山东省科学院) 一种DNA测序数据匹配增强方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术