一种基于多示例学习的MHC-I类分子新生抗原识别方法

导航：龙图腾网> 最新专利技术> 一种基于多示例学习的MHC-I类分子新生抗原识别方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：复旦大学

摘要：本发明属于生物信息计算技术领域，具体为一种基于多示例学习的MHC‑I类分子新生抗原识别方法。本发明包括设计交互卷积网络结构，提取输入肽与每个MHC‑I分子的高维特征，以注意力机制为各个高维表征学习并分配权重，通过多示例学习获得输入肽与多个MHC‑I分子结合的融合特征，再进行结合预测的二分类任务；在多基因数据训练后，将网络知识针对下游新生抗原识别任务采用多任务学习技术进行迁移：利用数据库中记录的成对的新生抗原‑野生型序列数据，构建辅助数据生成流程，包括运用排序学习损失函数和二分类交叉熵损失函数，提高模型对新生抗原预测分数的绝对大小。通过大规模开源实验数据上的大量实验验证本发明具有优越性能。

主权项：1.一种基于多示例学习的MHC-I类分子新生抗原识别方法，其特征在于，设计用于序列结合的交互卷积网络结构，提取输入肽与每个MHC-I分子的高维特征；以注意力机制为各个高维表征学习并分配权重，通过多示例学习技术中的排列不变聚合函数获得输入肽与多个MHC-I分子结合的融合特征，再进行结合预测的二分类任务；在百万级规模多基因数据训练后，将网络知识针对下游新生抗原识别任务采用多任务学习技术进行迁移：对于新生抗原由野生型序列突变而来同时只有极少数突变具有免疫原性的背景知识，利用数据库中记录的成对的新生抗原-野生型序列数据，构建辅助数据生成流程，首先运用排序学习损失函数设置任务一，旨在让模型对新生抗原预测分数高于其他随机突变的训练；再运用二分类交叉熵损失函数设置任务二，将新生抗原判别为正样本，野生型序列保持原有预测分数，提高模型对新生抗原预测分数的绝对大小；具体步骤如下：1首先，针对人体内数千种MHC-I分子并各自拥有绑定特异性的问题，同时针对不同长度的短肽序列由于结合残基的错位影响与MHC-I分子结合强度的问题，采用一种网络架构以提高表征能力；具体地：对于输入的一对具有L个氨基酸的短肽序列P与MHC-I分子序列Q，采用嵌入层将序列中的每个氨基酸映射到对应可学习的向量中，分别得到短肽的嵌入矩阵X∈RL×d与MHC-I分子的嵌入矩阵Y∈R34×d,d表示氨基酸嵌入向量的维度；对短肽嵌入矩阵的每个氨基酸表示向量，分别采用独立的门线性单元GLU进行表达控制以区别短肽序列中的结合残基，实现自适应识别锚定位点，表示为：GLUixi＝σWixi+bi⊙Vixi+ci，1其中，Wi,bi,Vi,ci为可学习参数，σ·为Sigmoid激活函数，⊙为逐元素相乘的哈德玛积；在经过L个GLU后更新得到的短肽嵌入矩阵作为后续卷积层输入；利用可学习的参数矩阵Ui∈Rk×34与MHC-I分子的嵌入矩阵Y来生成卷积核再对短肽嵌入矩阵进行卷积计算以构建两者的交互信息，表示为：上式中，f·为ReLU激活函数，为可学习的偏置项，*为卷积计算符号；为简化符号，定义上述计算过程为其中θi为网络中的参数；采用两层BICL以实现残差连接的计算范式：接着，采用多层感知机网络MLP对得到的交互特征进一步更新，最后利用一个最大池化层得到最终的表示向量h,作为后续MIL框架的输入： 2为了学习多基因数据内在关联关系同时避免直接的分数比较引起的偏见，使用基于注意力机制的多示例学习框架替换传统的基于MIL的最大池化的简化策略；多示例学习框架具体为：鉴于多基因数据中一个样本由一条短肽与多个且个数不确定的MHC-I分子构成，其数据本身含有以下性质：当存在至少某一个MHC-I分子与短肽结合时该样本为正样本，反之只有所有MHC-I分子都不与之结合时该样本表现为负样本；利用注意力权重分配的方式进行软处理，具体来说，使用上文说明的网络架构对一条短肽P与多个MHC-I分子Q1,Q2,…QS组成的多对分别计算并得到它们的表示向量h1,h2,…hS.采用如下公式计算带门控的注意力权值：其中，w,V,U分别为可学习的参数，exp·为指数函数；根据以上权重，计算得到最终的综合表示向量：接着采用一个线性层作为分类器来进行二值预测：该部分网络采用二分类交叉熵损失函数进行训练： 3将上述网络架构用于多基因数据以预测MHC是否递呈肽；由于在人体内细胞膜表面有大量被MHC-I分子递呈的短肽，只有极少数才会被特异性识别引起免疫反应，使用成对的新生抗原-野生型序列数据，结合多任务学习进行微调以增强对新生抗原的判别能力；预测模型要求将引起免疫应答的新生抗原预测分数大于其他随机突变的预测分数，为了增强对新生抗原的判别能力，使用多任务学习设置不同损失函数来微调模型参数，具体如下：采用训练-微调的两阶段学习策略来决定最终模型参数：在训练阶段，在百万级洗脱数据，包含单基因数据与多基因数据上进行有监督训练，采用标准的二分类交叉熵损失函数，获得一个具有提呈预测能力的模型；任务一，数据构建与损失函数计算：对于数据库中成对的野生型序列与新生抗原序列，首先遍历每个野生型的单氨基酸突变序列，并用第一步训练后的模型进行打分同时进行排序；对于每个野生型序列的单突集合，分别从排名第10％，30％与70％位置采样10个单突序列构成三个候选池：强绑定池弱绑定池非绑定池对于每个新生抗原序列Sneo，在训练时从对应的三个候选池分别随机抽取一条突变序列构成一个列表x＝Sneo，SS，SW，SN，该列表被期望的排序为y＝1，2，3，4，即新生抗原预测分数大于强绑定突变序列大于弱绑定突变序列大于非绑定突变序列；采用经典排序学习损失函数ListMLE[11]，定义如下：L1＝-logPy|x；fw，9其中，fw代表第一阶段训练得到的模型，Py|x；fw定义为：其中，xyj代表在真实排序中j位置上的突变序列；任务二，利用新生抗原的标签信息进行有监督的分类；具体来讲，对于新生抗原Sneo被标注为正样本，而对野生型序列Swt则期望模型保持原有的预测分数，采用第一阶段得到的模型对其预测值ywt作为自蒸馏软标签；具体损失函数如下：L2＝H1，fwSneo+Hywt，fwSwt，11其中，H·，·代表交叉熵损失函数；整个微调过程的损失函数为：L＝αL1十βL2，12其中，α，β为权重系数。

全文数据：

权利要求：

百度查询：复旦大学一种基于多示例学习的MHC-I类分子新生抗原识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种新型动盖板

下一篇：一种降低转向节磕碰伤的模具

相关技术

一种新型动盖板

一种降低转向节磕碰伤的模具

一种可控流量的自动倒袋装置

一种密炼机混炼室

一种皮带输送生产线防晃动结构

一种具有防护功能的建筑结构加固连接装置

一种基于双边模糊集的三支决策疾病分类方法及装置

一种低压开关柜

一种废旧电池回收系统及其回收方法

一种分捡操作设备

一种双推杆固定可调式光伏支架

一种预制菜保鲜运输箱

分子相关技术

针对FRα的结合分子_阿斯利康(瑞典)有限公司_202380024719.6

基于分子动力学模拟的食品气味分子逸散度数字化表征方法及系统_中国农业科学院农产品加工研究所_202411082705.2

一种分子筛及制氧机_深圳市新鸿镁医疗器械有限公司_202420430676.3

用于分析核酸分子的方法和系统_斯坦福大学托管董事会_202410331007.5

一种人参小分子的制备装置_连云港诗碧曼生物科技有限公司_202410956681.2

一类具有萘胺结构的小分子化合物及其应用_杭州天玑济世生物科技有限公司_202410805284.5

一种分子筛合成碱性废液的处理方法及工艺系统_陕西煤业化工技术研究院有限责任公司_202110009762.8

基于度量小样本学习方法的分子性质预测方法_中国石油大学(华东)_202410969130.X

用于杏果实耐贮性鉴定的SNP分子标记、引物和应用_中国林业科学研究院经济林研究所_202310541477.X

分子筛SSZ-122的无有机模板合成_雪佛龙美国公司_202380026542.3

新生相关技术

一种新生儿保温箱保护垫结构_广东省妇幼保健院(广东省妇产医院、广东省儿童医院)_202420451603.2

防治眼部血管新生相关疾病的药物及其应用_南京贝思奥生物科技有限公司_202310457352.9

秦皮乙素在新生隐球菌感染性疾病中的应用_上海中医药大学附属龙华医院_202310585281.0

新生儿安抚装置_杭州市临平区第一人民医院_202323188656.4

一种新生儿肠胀气缓解设备_重庆佑佑宝贝妇儿医院有限公司_202411157546.8

一种新生儿喂药器_许云丽_202323381669.3

一种袋鼠式新生儿可控温水床_集诺新材料(烟台)有限责任公司_202420021289.4

一种用于新生儿的黄疸检测装置_深圳市深大云伴健康科技有限公司_202322778437.5

一种新生儿重症监护室用的喂食装置_邯郸市中心医院_202323441544.5

一种香精新生产和放置陈化后香气变化的控制方法_广州馨誉香料有限公司_202310428541.3

抗原相关技术

抗原递送平台和使用方法_因提玛生物科学公司_202280092880.2

靶向BCMA的嵌合抗原受体及其应用_上海先博生物科技有限公司_202380026202.0

变态反应的抗原及其表位_朋友股份有限公司_201780093516.7

抗溶瘤病毒抗原抗体及其使用方法_艾德梅尔治疗协会_202410848156.9

靶向叶酸受体α嵌合抗原受体、其制备方法及其应用_中国人民解放军陆军军医大学_202111163687.7

筛选AML免疫原性新抗原的方法及多参数预测模型_上海交通大学医学院附属瑞金医院_202410999017.6

一种抗原子氧/防静电复合防护涂层及其制备方法_中国科学院上海硅酸盐研究所_202310456172.9

一种基于均相化学发光法的癌胚抗原测定试剂盒_威特曼医学检验(南京)有限公司_202410908478.8

一种新型冠状病毒亚单位抗原及其应用_中国科学技术大学_202410819853.1

新型个体化新抗原疫苗和标志物_安达生物药物开发(深圳)有限公司_202380026097.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多示例学习的MHC-I类分子新生抗原识别方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务