首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国海洋大学

摘要:本发明提供了一种用于药物‑靶点亲和力预测的蛋白多层次语义聚合表征方法,该方法选择合适的神经网络架构分别对药物分子和靶点蛋白分子进行各自的特征编码,最后将获得药物表征和靶点蛋白表征进行联合表征学习,实现DTA的预测。过程包括药物分子特征提取、靶点蛋白特征提取、亲和力预测、预测结果可解释性方法。本发明构建了一套通用的蛋白语义信息融合框架并设计了两种层次融合策略包括自上而下、自下而上策略,来丰富蛋白质表征,用于亲和力预测任务;本发明提出了一种梯度加权可解释方法,其可以以可视化的方式反映出模型所捕获的蛋白质结合口袋信息,为亲和力预测任务提供一了种可解释途径。

主权项:1.一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法,其特征在于,包括以下步骤:步骤一:药物分子特征提取首先在药物分支层次,以药物原子为节点,以原子之间的共价键为边,将药物分子构建药物分子图,将构建的药物分子图加载到包含图卷积层的药物GCN编码器中,在最后一层GCN之后增加一个具有全局平均池化层和MLP层的读出块;药物分子特征提取步骤如下:1首先在药物分支层次,以药物原子为节点,原子之间的共价键为边,将药物分子表示为药物分子图其中Vd为药物分子内原子节点的集合,Ed为边集,采用RDKit计算包将SMILES分子串转化为药物图;2将构建的药物分子图加载到包含3个图卷积层的药物GCN编码器中,提取药物分子节点嵌入,每一个GCN层可以定义为: 其中Hd为药物GCN层的隐藏特征矩阵,为添加的自环的药物分子图邻接矩阵,Ad为药物分子图的节点邻接矩阵,In为与Ad具有相同维大小的单位矩阵,D为对角度矩阵,σ为激活函数ReLU,Wl为第l层GCN的可学习权重矩阵l表示GCN的层数;3为了得到最终的药物表示d,在最后一层GCN之后增加一个具有全局平均池化层和MLP层的读出块,表示为: 其中hd,i为药物分子图的最终节点嵌入,Nd为药物分子中的原子数,i为药物分子中的原子索引;步骤二:靶点蛋白特征提取1首先,设计了一种蛋白质层次图来代替传统的靶点蛋白计算建模方式:分别为数据集中的靶点蛋白构建残基尺度的蛋白质残基接触图和蛋白质尺度的蛋白质-蛋白质相互作用网络在此基础上进一步构建蛋白质层次图,进行全面的蛋白质表示学习,也即给定一个PPI网络该蛋白质层次图与共享相同的节点和边集,只是其中的蛋白质节点被该蛋白质的相应的残基图所取代;其中,Vp为蛋白质残基接触图中的节点集合,它的每一个元素代表了一个残基节点;Ep为蛋白质残基接触图中的边集合,每一条边指示了两个残基节点之间的三维欧氏距离小于即在蛋白质的三维结构中是空间邻近的;Vppi为PPI网络中的节点集合,每一个元素代表一个蛋白质节点;Eppi为PPI网络中的边集合,每一条边代表两个蛋白质节点之间存在着相互作用;2其次,依托该蛋白质层次图,借助图神经网络分别提取蛋白质的低阶结构语义信息以及高阶功能语义信息;在此过程中设计了两种通用的语义信息融合策略实现蛋白质语义信息的流动与融合,提升蛋白表征丰度,分别为自上而下和自下而上的层次融合策略;自下而上融合策略为:在该策略中,从蛋白质残基图中提取的蛋白质图嵌入q作为PPI图中同一蛋白质的初始节点特征,进行进一步的监督学习,得到最终的节点嵌入hppi,这种策略使蛋白质残基图中的结构语义信息流动并融合到PPI图中,因此称之为自下而上;该过程表示为: 其中,φ和ψ分别表示施加在蛋白质图和PPI图上的映射函数,Sta·表示对所有蛋白质图嵌入q进行叠加运算,得到初始PPI图的节点特征矩阵X'ppi;自下而上融合策略具体过程如下:1借助一个GCN编码器从蛋白质残基图中提取残基嵌入,该编码器包括三个独立的GCN层,表示为如下方程: 其中Hp为蛋白质残基图在GCN层中的隐藏特征矩阵,Ap为残基图的邻接矩阵,该GCN编码器块通过聚合邻居节点特征迭代地进行特征平滑,使拓扑相邻的残基具有相似的节点嵌入,最终获得结构感知的残基嵌入;然后,使用一个读出块来获得蛋白质残基图的图嵌入q;2将所有含有低阶结构语义信息的蛋白质残基图嵌入q堆叠成一个矩阵,并将作为PPI图的初始特征矩阵: 其中为PPI图的隐藏特征矩阵,Nppi表示PPI网络中的蛋白质节点个数,qi为第i个蛋白质的蛋白质图嵌入,i取值范围为1到Nppi间的整数;该操作将使PPI图中每个蛋白质节点的初始特征隐式地包含结构语义信息;在此基础上,再借助另一个GCN编码器块通过PPI图中的相互作用边Eppi平滑节点表示,使一组功能相似的蛋白质在特征空间上更加接近;平滑过程如下所示: 其中,为PPI图的归一化邻接矩阵,Z为与Appi具有相同维数的随机二值矩阵,⊙为逐元素乘法,该GCN编码器只包含两个GCN层,W0为第一层GCN中的可学习权重矩阵,W1为第二层GCN中的可学习权重矩阵,Z0为第一个GCN层中的随机二值矩阵,Z1为第二个GCN层中的随机二值矩阵;此外,该编码器还引入了一个DropEdge正则化项,以进一步缓解过度平滑;该正则化项表示为一个随机二值矩阵Z,其元素为伯努利分布的随机采样;最后,对PPI图最后的节点嵌入hppi进行线性变换,得到最终的蛋白质表示p,如下所示:p=whppi+b其中w是线性参数,b是偏置项;自上而下融合策略如下:该策略通过对PPI图的学习,首先计算PPI图的节点嵌入hppi,使学习到的hppi包含高阶功能语义信息,然后将该蛋白质的hppi输入到相应低阶蛋白质残基图的所有残基特征上,形成自上而下的融合方式;上述过程表示为: 其中Com·表示一种特殊的特征组合操作,其中Xppi为PPI网络的初始节点特征矩阵,Xp为蛋白质残基接触图的初始节点特征矩阵,X'p是将计算得到的PPI图节点嵌入hppi融合进蛋白质残基接触图的初始特征矩阵后得到的残基接触图的新特征矩阵;自上而下融合策略具体如下:首先在PPI图上利用一个GCN编码器块提取蛋白质的功能语义信息,这个编码器块包括两个GCN层和一个DropEdge正则化项,是由InterProAPI计算得到的属于蛋白尺度的特征,其中,代表了一个实数域上的向量空间,上角标Nppi×Dppi表示了该向量空间的维度大小,Nppi为PPI网络的节点数量,Dppi代表了PPI网络中节点特征的维度大小;其次,在得到PPI图中的最终节点嵌入hppi后,采用一种特征组合运算Com·将hppi融合到蛋白质残基图的特征矩阵Xp中,公式如下:其中和表示向量的元素相加和元素相减,||表示向量拼接,xp表示原始残基特征;对蛋白质图中的所有残基进行特征组合运算后,得到一个新的特征矩阵X'p,该矩阵中将包含来自PPI图的功能语义信息;最后,对蛋白质残基图应用一个GCN编码器和一个图池化层,得到最终的蛋白嵌入步骤三:亲和力预测将最终的药物表征d和蛋白质表征连接起来,得到药物-靶标对表示,然后通过以下方法预测药物-靶标相互作用: 其中MLP是具有三个全连接层的MLP块;对于DTA任务,采用均方误差损失函数来计算回归损失,其表示为: 其中,为神经网络对于当前药物-靶点对d,p之间结合亲和力的预测值,而yd,p为当前药物-靶点对d,p的结合亲和力真值;步骤四:预测结果可解释性方法使用一个训练好的模型来预测药物靶标对的亲和力得分,然后反向传播亲和力得分,进而可以计算蛋白结构GCN编码器输出的梯度,该梯度可以用来表示特定残基对最终亲和力得分的贡献。

全文数据:

权利要求:

百度查询: 中国海洋大学 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。