买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于自回归大模型的核酸序列特征挖掘方法,该方法全程基于无监督式一维核酸序列进行挖掘,基于频率统计法归纳有效k‑mer核苷酸片段,使用提取的k‑mer核苷酸片段作为分割基础,基于无监督式自回归转换器模型上进行特征训练,从而得到密集型高语义信息的序列嵌入特征。本发明实现了基于大规模数据集的无监督学习方法,在降低数据采集和标注实现成本同时将核酸序列信息映射到高维语义空间,实现高密度语义信息的特征提取,为疾病预测分类、药物开发等下游任务提供基础。
主权项:1.一种基于自回归大模型的核酸序列特征挖掘方法,其特征在于,包括:获取大规模核酸序列数据集,对所述核酸序列数据集进行预处理;基于频率统计法归纳核酸的k-mer片段;其中,k表示片段长度;使用所述k-mer片段对核酸序列进行编码;构建自回归转换器模型,输入编码后的核酸序列,进行无监督训练;所述自回归转换器模型包括多层耦合的位置信息嵌入网络、跨域特征提取网络、单体特征整合网络和特征输出网络;其中,所述跨域特征提取网络用于实施自适应注意力机制和多头注意力机制;输出处理后的核酸序列特征。
全文数据:
权利要求:
百度查询: 浙江大学长三角智慧绿洲创新中心 一种基于自回归大模型的核酸序列特征挖掘方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。