买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:复旦大学
摘要:本发明属于生物信息计算技术领域,具体为一种基于多示例学习的MHC‑I类分子新生抗原识别方法。本发明包括设计交互卷积网络结构,提取输入肽与每个MHC‑I分子的高维特征,以注意力机制为各个高维表征学习并分配权重,通过多示例学习获得输入肽与多个MHC‑I分子结合的融合特征,再进行结合预测的二分类任务;在多基因数据训练后,将网络知识针对下游新生抗原识别任务采用多任务学习技术进行迁移:利用数据库中记录的成对的新生抗原‑野生型序列数据,构建辅助数据生成流程,包括运用排序学习损失函数和二分类交叉熵损失函数,提高模型对新生抗原预测分数的绝对大小。通过大规模开源实验数据上的大量实验验证本发明具有优越性能。
主权项:1.一种基于多示例学习的MHC-I类分子新生抗原识别方法,其特征在于,设计用于序列结合的交互卷积网络结构,提取输入肽与每个MHC-I分子的高维特征;以注意力机制为各个高维表征学习并分配权重,通过多示例学习技术中的排列不变聚合函数获得输入肽与多个MHC-I分子结合的融合特征,再进行结合预测的二分类任务;在百万级规模多基因数据训练后,将网络知识针对下游新生抗原识别任务采用多任务学习技术进行迁移:对于新生抗原由野生型序列突变而来同时只有极少数突变具有免疫原性的背景知识,利用数据库中记录的成对的新生抗原-野生型序列数据,构建辅助数据生成流程,首先运用排序学习损失函数设置任务一,旨在让模型对新生抗原预测分数高于其他随机突变的训练;再运用二分类交叉熵损失函数设置任务二,将新生抗原判别为正样本,野生型序列保持原有预测分数,提高模型对新生抗原预测分数的绝对大小;具体步骤如下:1首先,针对人体内数千种MHC-I分子并各自拥有绑定特异性的问题,同时针对不同长度的短肽序列由于结合残基的错位影响与MHC-I分子结合强度的问题,采用一种网络架构以提高表征能力;具体地:对于输入的一对具有L个氨基酸的短肽序列P与MHC-I分子序列Q,采用嵌入层将序列中的每个氨基酸映射到对应可学习的向量中,分别得到短肽的嵌入矩阵X∈RL×d与MHC-I分子的嵌入矩阵Y∈R34×d,d表示氨基酸嵌入向量的维度;对短肽嵌入矩阵的每个氨基酸表示向量,分别采用独立的门线性单元GLU进行表达控制以区别短肽序列中的结合残基,实现自适应识别锚定位点,表示为:GLUixi=σWixi+bi⊙Vixi+ci,1其中,Wi,bi,Vi,ci为可学习参数,σ·为Sigmoid激活函数,⊙为逐元素相乘的哈德玛积;在经过L个GLU后更新得到的短肽嵌入矩阵作为后续卷积层输入;利用可学习的参数矩阵Ui∈Rk×34与MHC-I分子的嵌入矩阵Y来生成卷积核再对短肽嵌入矩阵进行卷积计算以构建两者的交互信息,表示为: 上式中,f·为ReLU激活函数,为可学习的偏置项,*为卷积计算符号;为简化符号,定义上述计算过程为其中θi为网络中的参数;采用两层BICL以实现残差连接的计算范式: 接着,采用多层感知机网络MLP对得到的交互特征进一步更新,最后利用一个最大池化层得到最终的表示向量h,作为后续MIL框架的输入: 2为了学习多基因数据内在关联关系同时避免直接的分数比较引起的偏见,使用基于注意力机制的多示例学习框架替换传统的基于MIL的最大池化的简化策略;多示例学习框架具体为:鉴于多基因数据中一个样本由一条短肽与多个且个数不确定的MHC-I分子构成,其数据本身含有以下性质:当存在至少某一个MHC-I分子与短肽结合时该样本为正样本,反之只有所有MHC-I分子都不与之结合时该样本表现为负样本;利用注意力权重分配的方式进行软处理,具体来说,使用上文说明的网络架构对一条短肽P与多个MHC-I分子Q1,Q2,…QS组成的多对分别计算并得到它们的表示向量h1,h2,…hS.采用如下公式计算带门控的注意力权值: 其中,w,V,U分别为可学习的参数,exp·为指数函数;根据以上权重,计算得到最终的综合表示向量: 接着采用一个线性层作为分类器来进行二值预测: 该部分网络采用二分类交叉熵损失函数进行训练: 3将上述网络架构用于多基因数据以预测MHC是否递呈肽;由于在人体内细胞膜表面有大量被MHC-I分子递呈的短肽,只有极少数才会被特异性识别引起免疫反应,使用成对的新生抗原-野生型序列数据,结合多任务学习进行微调以增强对新生抗原的判别能力;预测模型要求将引起免疫应答的新生抗原预测分数大于其他随机突变的预测分数,为了增强对新生抗原的判别能力,使用多任务学习设置不同损失函数来微调模型参数,具体如下:采用训练-微调的两阶段学习策略来决定最终模型参数:在训练阶段,在百万级洗脱数据,包含单基因数据与多基因数据上进行有监督训练,采用标准的二分类交叉熵损失函数,获得一个具有提呈预测能力的模型;任务一,数据构建与损失函数计算:对于数据库中成对的野生型序列与新生抗原序列,首先遍历每个野生型的单氨基酸突变序列,并用第一步训练后的模型进行打分同时进行排序;对于每个野生型序列的单突集合,分别从排名第10%,30%与70%位置采样10个单突序列构成三个候选池:强绑定池弱绑定池非绑定池对于每个新生抗原序列Sneo,在训练时从对应的三个候选池分别随机抽取一条突变序列构成一个列表x=Sneo,SS,SW,SN,该列表被期望的排序为y=1,2,3,4,即新生抗原预测分数大于强绑定突变序列大于弱绑定突变序列大于非绑定突变序列;采用经典排序学习损失函数ListMLE[11],定义如下:L1=-logPy|x;fw,9其中,fw代表第一阶段训练得到的模型,Py|x;fw定义为: 其中,xyj代表在真实排序中j位置上的突变序列;任务二,利用新生抗原的标签信息进行有监督的分类;具体来讲,对于新生抗原Sneo被标注为正样本,而对野生型序列Swt则期望模型保持原有的预测分数,采用第一阶段得到的模型对其预测值ywt作为自蒸馏软标签;具体损失函数如下:L2=H1,fwSneo+Hywt,fwSwt,11其中,H·,·代表交叉熵损失函数;整个微调过程的损失函数为:L=αL1十βL2,12其中,α,β为权重系数。
全文数据:
权利要求:
百度查询: 复旦大学 一种基于多示例学习的MHC-I类分子新生抗原识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。