买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:齐鲁工业大学(山东省科学院)
摘要:本发明涉及生物信息学技术领域,具体涉及一种基于人工智能的DNA测序数据存储方法及系统,所述方法包括:获取待存储的DNA测序数据;采用基于序列组装的无参考压缩模型对待存储的DNA测序数据进行压缩;无参考压缩模型在对DNA测序数据进行压缩时,不断将各短基因序列进行拼接,将当前要拼接的短基因序列与已拼接序列进行匹配,若当前要拼接的短基因序列中的Base数据全部匹配成功,则直接记录当前要拼接的短基因序列的Base数据在已拼接序列中的偏移和长度,以达到对相应Base数据的压缩目的;否则,将该Base数据拆分后进行压缩;将压缩后的DNA测序数据进行存储。本发明可有效提高DNA测序数据的压缩率。
主权项:1.一种基于人工智能的DNA测序数据存储方法,其特征在于,包括:获取待存储的DNA测序数据;其中,所述待存储的DNA测序数据包括多条短基因序列,所述短基因序列指的是待存储的DNA测序数据所对应的DNA链的一个片段所对应的测序读取数据;所述短基因序列包括ID数据、Base数据以及Quality数据;采用基于序列组装的无参考压缩模型对待存储的DNA测序数据进行压缩处理;其中,基于序列组装的无参考压缩模型在对待存储的DNA测序数据进行压缩处理时,不断地将各短基因序列进行压缩拼接,同时记录一条由未压缩的短基因序列所组成的已拼接序列;将当前要拼接的短基因序列与已拼接序列进行匹配,若当前要拼接的短基因序列中的Base数据全部匹配成功,则记录当前要拼接的短基因序列的Base数据在已拼接序列中的偏移和长度,以完成对当前要拼接的短基因序列的Base数据的压缩;若当前要拼接的短基因序列的Base数据部分匹配成功,则将当前要拼接的短基因序列的Base数据拆分为已匹配序列和未匹配序列,并对拆分出的已匹配序列和未匹配序列分别进行压缩,以完成对当前要拼接的短基因序列的Base数据的压缩;对压缩后的DNA测序数据进行存储,以实现基于人工智能的DNA测序数据存储;所述若当前要拼接的短基因序列的Base数据部分匹配成功,则将当前要拼接的短基因序列的Base数据拆分为已匹配序列和未匹配序列,并对拆分出的已匹配序列和未匹配序列分别进行压缩,包括:若当前要拼接的短基因序列的Base数据部分匹配到已拼接序列中,则根据当前要拼接的短基因序列的Base数据与已拼接序列的匹配结果,确定当前要拼接的短基因序列的Base数据中的最长匹配序列;其中,所述最长匹配序列由当前要拼接的短基因序列的Base数据与已拼接序列之间实现匹配且连续的所有数据组成;将当前要拼接的短基因序列的Base数据中所述最长匹配序列对应的数据划分为已匹配序列,剩余的数据划分为未匹配序列;对拆分出的已匹配序列和未匹配序列分别采用不同的压缩方式进行压缩;所述根据当前要拼接的短基因序列的Base数据与已拼接序列的匹配结果,确定当前要拼接的短基因序列的Base数据中的最长匹配序列,包括:步骤1,根据当前要拼接的短基因序列的Base数据与已拼接序列的匹配结果,以当前要拼接的短基因序列的Base数据中完成匹配的数据所组成的序列作为候选序列,并记录当前的候选序列的长度;步骤2,将当前的Base数据中的首字符去掉,得到新的Base数据;并将新得到的Base数据与已拼接序列进行匹配,根据匹配结果,计算新得到的Base数据中完成匹配的数据所组成的序列的长度,若新得到的Base数据中完成匹配的数据所组成的序列的长度大于当前的候选序列的长度,则以新得到的Base数据中完成匹配的数据所组成的序列作为新的候选序列,并更新候选序列的长度;否则,保持候选序列以及候选序列的长度不变;步骤3,迭代执行步骤2,直至满足预设的迭代终止条件,此时所得候选序列即为最长匹配序列。
全文数据:
权利要求:
百度查询: 齐鲁工业大学(山东省科学院) 一种基于人工智能的DNA测序数据存储方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。