买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:基诺创物(武汉市)科技有限公司
摘要:本发明公开了一种基于哥隆尺的基因组碱基错误数量评估算法及系统。本发明使用一种基于哥隆尺结构的滑动窗口将被保护的大规模DNA序列转换成众多小规模的子序列,对子序列进行哈希,将哈希结果在不改变指定的基因的氨基酸序列的情况下存储进基因里,实现编码过程。当被保护的长DNA序列中发生点变异如碱基的替换、插入、删除时,可利用基因内存储的编码信息估算出错误的碱基数量。本发明使用一种编码方法实现对DNA分子的变异检测及变异、错误碱基数量评估对医学、药学研究具有一定的价值。例如对肿瘤细胞的DNA突变检测,可用于肿瘤早期诊断、疗效检测和耐药监测等,这对医学与药学等学科的研究具有重要的价值。
主权项:1.一种基于哥隆尺的基因组碱基错误数量评估算法,其特征在于,包括评估编码和评估解码;其中,评估编码包括以下步骤:S110,根据存储编码信息的基因的氨基酸的长度根据规则选择一个最优哥隆尺,并将基因的起始密码子与终止密码子强制转换成指定的密码子;S120,根据S110的哥隆尺构造滑动窗口,对被保护的长DNA序列进行滑动扫描;S130,将S120中滑动窗口扫描到的碱基组合成一个短的子序列,对该子序列进行哈希,生成两个哈希值;选择一个存放纠错信息的基因,基因由一段氨基酸序列组成,设置一个与所选基因内氨基酸序列个数相同的数组,初始时数组内全为0;S140,将S130中产生的第一个哈希值映射到存储编码信息的基因中的一个氨基酸中,确定氨基酸的位置下标,再将S130中的另一个哈希值累加到该下标所对应的数组的位置上;S150,重复S120~S140,直到被保护的长DNA序列全部扫描完;S160,将最终的存储编码信息的基因的氨基酸序列对应的数组中的数据按照密码子映射关系转换成一个确定的密码子,生成一个新的基因密码子序列;S170,将S160得到的新的密码子序列替换基因的原始序列;评估解码包括以下步骤:S210,读入待评估解码的长DNA序列,根据编码时标记的起始密码子与终止密码子找到存储编码信息的基因;S220,根据基因的氨基酸长度按照规则选择一个与编码时相同的最优哥隆尺;S230,根据S220选择的最优哥隆尺构造滑动窗口;S240,利用滑动窗口对待评估解码的长DNA序列进行扫描,将扫描到的碱基组合成一个短的子序列,对该子序列进行哈希,生成两个哈希值;设置一个与存放纠错信息的基因的氨基酸序列长度相同的数组,初始时数组内全为0;S250,将S240中产生的第一个哈希值映射到一个与存储编码信息的基因的氨基酸等长的空白序列中的一个氨基酸位置,再将S240中产生的另一个哈希值累加到对应下标位置的数组上;S260,重复S240和S250,直到待评估解码的长DNA序列全部扫描完;S270,将最终重新生成的一个氨基酸序列对应的数组中的数据按照密码子映射关系转换成一个确定的密码子序列;S280,将S270生成的新的密码子序列与找到的存储了编码信息的基因密码子序列进行比对,若相同氨基酸对应的密码子不相同,则进行一个标记;S290,统计所有标记的个数,根据标记的个数利用错误数量推导公式进行碱基错误数量的估算。
全文数据:
权利要求:
百度查询: 基诺创物(武汉市)科技有限公司 一种基于哥隆尺的基因组碱基错误数量评估算法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。