买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:一种基于单氨基酸序列特征的蛋白质二级结构预测方法,它属于生物信息学领域。本发明解决了由于进化信息特征获取存在局限性且模型忽略了氨基酸序列中二级结构标签之间的相互依赖关系,导致利用现有方法获得的模型预测效果不佳的问题。本发明在特征处理阶段融合了蛋白质语言模型生成的特征表示以及采用词嵌入和位置嵌入的混合编码方式得到的特征,融合的特征既含有丰富的进化信息,又充分获取了序列中氨基酸残基的位置信息以及它们之间的依赖关系。融合的特征再依次经过Transformer编码器、CNN和BiLSTM输出全局特征信息,并通过引入CRF,将序列中蛋白质二级结构之间的相互作用考虑在内,保证蛋白质二级结构预测准确率。本发明方法可以应用于蛋白质二级结构预测。
主权项:1.一种基于单氨基酸序列特征的蛋白质二级结构预测方法,其特征在于,所述方法具体包括以下步骤:步骤S1、收集蛋白质二级结构数据文件,并对收集的蛋白质二级结构数据文件进行处理,再获取处理后的蛋白质二级结构数据文件中的氨基酸序列以及序列中每个氨基酸的二级结构标签;将获取的氨基酸序列以及序列中每个氨基酸的二级结构标签作为训练样本集;步骤S2、将训练样本集中的氨基酸序列作为蛋白质语言模型的输入,通过蛋白质语言模型分别生成每个氨基酸序列的特征表示;对训练样本集中的每个氨基酸序列分别进行正余弦位置编码,得到位置编码结果,再将位置编码结果与词嵌入矩阵进行拼接,得到每个氨基酸序列对应的拼接后的特征;再对拼接后的特征和蛋白质语言模型输出的特征表示进行融合,得到每个氨基酸序列对应的融合后的特征表示;步骤S3、将融合后的特征表示作为Transformer模型的输入,通过Transformer模型的编码器输出增强的特征;步骤S4、将步骤S3的增强特征作为CNN模型的输入,通过CNN模型输出提取的每个氨基酸序列的局部特征,再将局部特征作为BiLSTM模型的输入,通过BiLSTM模型输出每个氨基酸序列的全局特征;步骤S5、根据步骤S4的全局特征,获得对训练样本集中每个氨基酸序列的蛋白质二级结构预测结果,根据蛋白质二级结构预测结果和训练样本集的二级结构标签计算损失,直至损失函数收敛时停止训练,获得训练好的蛋白质语言模型、Transformer模型、CNN模型和BiLSTM模型;步骤S6、将待预测的氨基酸序列作为蛋白质语言模型的输入,并采用步骤S2的方法得到待预测氨基酸序列的融合后特征表示,将融合后特征表示作为训练好的Transformer模型的输入;再将Transformer模型的编码器输出的特征依次经过训练好的CNN模型和BiLSTM模型,并根据BiLSTM模型输出的特征获得对待预测氨基酸序列的蛋白质二级结构预测结果。
全文数据:
权利要求:
百度查询: 东北林业大学 一种基于单氨基酸序列特征的蛋白质二级结构预测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。