Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜之江实验室侯丽亚获国家专利权

恭喜之江实验室侯丽亚获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜之江实验室申请的专利一种基于预训练大语言模型的蛋白质功能注释方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119479836B

龙图腾网通过国家知识产权局官网在2025-05-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510058985.1,技术领域涉及:G16B50/10;该发明授权一种基于预训练大语言模型的蛋白质功能注释方法和装置是由侯丽亚;袁孟雯;王家喜;洪泓;黄雷;杨炜炜设计研发完成,并于2025-01-15向国家知识产权局提交的专利申请。

一种基于预训练大语言模型的蛋白质功能注释方法和装置在说明书摘要公布了:本申请涉及一种基于预训练大语言模型的蛋白质功能注释方法和装置,应用于人工智能驱动的计算生物领域,其中,该蛋白质功能注释方法包括:将待注释蛋白质序列输入目标蛋白质功能域分类模型,得到待注释蛋白质序列所包含的功能域类别;将待注释蛋白质序列所包含的功能域类别和待注释蛋白质序列,输入目标蛋白质功能域识别模型,得到待注释蛋白质序列的功能域类别所在的目标位置;根据待注释蛋白质序列的功能域类别所在的目标位置,对待注释蛋白质序列进行功能注释。通过本申请,实现了准确且高效识别完整蛋白质序列上的功能域的效果。

本发明授权一种基于预训练大语言模型的蛋白质功能注释方法和装置在权利要求书中公布了:1.一种基于预训练大语言模型的蛋白质功能注释方法,其特征在于,所述方法包括:将待注释蛋白质序列输入目标蛋白质功能域分类模型,所述目标蛋白质功能域分类模型包括预训练蛋白质大语言模型层和分类层;基于所述目标蛋白质功能域分类模型中的预训练蛋白质大语言模型层,确定所述待注释蛋白质序列的蛋白质表征;根据所述目标蛋白质功能域分类模型的分类层,基于所述蛋白质表征预测得到所述待注释蛋白质序列所包含的功能域类别;所述目标蛋白质功能域分类模型,根据预设训练集中完整的蛋白质序列,对基于预训练蛋白质大语言模型的蛋白质功能域分类模型训练得到;所述预训练蛋白质大语言模型的核心架构基于Transformer的编码器,并利用完整的蛋白质序列进行无监督预训练得到;将所述待注释蛋白质序列所包含的功能域类别和所述待注释蛋白质序列,输入目标蛋白质功能域识别模型,所述目标蛋白质功能域识别模型包括:预训练蛋白质大语言模型层、区间表征层及功能域表征层;基于所述预训练蛋白质大语言模型层,确定所述待注释蛋白质序列的蛋白质表征;基于所述功能域表征层,将所述待注释蛋白质序列所包含的功能域类别映射至预设的潜在空间,得到潜在空间类别表征;基于所述区间表征层,将所述蛋白质表征映射至预设的潜在空间,得到潜在空间位置表征;确定所述潜在空间类别表征和所述潜在空间位置表征之间的相似度;根据所述相似度,确定所述待注释蛋白质中多个功能域位置对应的功能域类别的类别概率;确定所述类别概率超过预设概率阈值的功能域类别为目标功能域类别,并确定所述目标功能域类别对应的位置为所述待注释蛋白质序列的功能域类别所在的目标位置;所述目标蛋白质功能域识别模型,根据预设训练集中完整的蛋白质序列及对应的蛋白质功能域类别和位置,对基于预训练蛋白质大语言模型及命名实体识别模型的蛋白质功能域识别模型训练得到;所述预训练蛋白质大语言模型,是用于确定蛋白质序列中的蛋白质表征的模型;根据所述待注释蛋白质序列的功能域类别所在的目标位置,对所述待注释蛋白质序列进行功能注释;所述方法还包括:设置包括多个蛋白质序列的训练集和验证集;所述训练集和验证集中包括互不重叠的多个完整的蛋白质序列;获取所述训练集中的第一蛋白质序列,输入所述第一蛋白质序列至所述预训练蛋白质大语言模型层,得到蛋白质表征中的初始类别表征;通过所述分类层对所述初始类别表征进行预测,确定所述第一蛋白质序列的预测功能域类别标签;获取所述训练集中的第一蛋白质序列的真实类别标签,根据所述预测功能域类别标签和真实类别标签确定标签损失值;根据所述标签损失值对所述蛋白质功能域分类模型进行更新;获取所述验证集中的第二蛋白质序列,确定所述第二蛋白质序列的验证值;根据所述验证值对更新后的蛋白质功能域分类模型进行验证,得到所述目标蛋白质功能域分类模型;所述方法还包括:获取所述训练集中的第一蛋白质序列,输入所述第一蛋白质序列至所述预训练蛋白质大语言模型层,获取所述蛋白质序列的初始位置表征和初始类别表征;通过区间表征层从所述初始位置表征中,确定所述第一蛋白质序列的功能域对应的潜在空间位置表征;获取所述训练集中的第一蛋白质序列的真实类别标签,根据所述真实类别标签确定功能域初始表征;基于所述蛋白质序列的初始类别表征,通过功能域表征层确定所述第一蛋白质序列的功能域对应的潜在空间类别表征;确定所述潜在空间位置表征和所述潜在空间类别表征的相似度;根据所述相似度对应的类别概率和预设概率阈值计算损失值,并根据损失值对所述蛋白质功能域识别模型进行训练更新;获取所述验证集中的第二蛋白质序列,确定所述第二蛋白质序列的验证值;根据所述验证值对更新后的蛋白质功能域识别模型进行验证,得到所述目标蛋白质功能域识别模型。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人之江实验室,其通讯地址为:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。