买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京航空航天大学
摘要:本发明通过人工智能领域的方法,实现了一种面向化合物建模的集合表示学习方法。方法针对化合物分子建模过程,提出原子群的概念,并在原子群的概念上建立基于集合表示学习的化合物标签预测通用模型。原子群用于建模化合物分子,集合表示学习的化合物标签预测通用模型包含五个模块:输入层、交互层、排列不变层、集合表示层和输出层。本发明提供的方法实现了根据不同粒度聚集临近元素组成多阶元素,这些元素的向量表示根据邻接关系通过信息传递来不断地更新迭代。最后对同阶元素池化等操作解决了化合物建模的集合表示问题。
主权项:1.一种面向化合物建模的集合表示学习方法,其特征在于:针对某一化合物,通过构建一个低维稠密向量来表示的原子群对化合物进行多粒度建模,构成集合表示学习方法的一个特性,并在此基础上,构建集合表示学习的化合物标签预测模型CombiSet预测化合物标签;所述原子群用于建模化合物分子的方法为: 其中分别代表一阶、二阶和三阶原子群,表示原子群内的原子与存在关联信息,多阶群体的最大阶数不会超过原有集合的元素数量,并且仅有一个最大阶的群体;所述原子群用于建模化合物标签预测值的方法为: 其中的为所有单原子对待预测值的贡献,通过原子的向量表示、特征和原子之间的结构特征计算得到; 表示两阶原子群对待预测值的贡献,所述两阶原子群指具有关联信息的两个一阶原子群组合而成的整体,将所有两阶原子群作为顶点组成一个新图,新图的边定义为两个两阶原子群都共享同一个一阶原子群,在新图中的顶点贡献同样是通过顶点的向量表示、特征和原子之间的结构特征计算得到,两阶原子群的向量表示通过该原子群内部包含原子的向量表示进行哈达玛积计算得到,它的顶点和边的特征向量需要通过特征工程得到,两阶原子群视为对化合物的化学键的建模,它的结构特征是化学键之间的夹角;进而,表示三个具有关联信息的原子群对待预测值的贡献,大于二阶的原子群建模化合物的官能团,它们的结构特征是面夹角;所述集合表示学习的化合物标签预测模型CombiSet包含五个模块:输入层、交互层、排列不变层、集合表示层和输出层;所述输入层包含一个嵌入查找表和神经网络,对每个原子共享,用于获取的首轮向量表示,输入原子群的低维稠密向量,首先原子的离散特征通过嵌入查找表得到特征对应的嵌入表示,该向量之后与原子预训练得到的初始向量表示进行连接操作,接着通过神经网络计算出首轮向量表示;所述交互层用于对原子向量表示进行多轮训练迭代,迭代次数为,将不同粒度的相邻原子整体建模成对应阶数的原子群,同阶的原子群包含相同的低阶原子群时具有邻接关系,同阶原子群对应的向量表示在交互层进行连接操作,之后送入到神经网络中;对于不同阶的原子群将它们向量表示累加起来,送入到神经网络中;进入神经网络后的中间向量会求和,得到下一轮的向量表示,所述交互层对每个原子群进行次迭代计算,形成轮训练迭代;排列不变层对每个原子群的首轮向量表示计算得到,经过轮训练迭代后原子群的影响会传递到-阶邻近度的原子;所述集合表示层对每一阶的原子群的低维稠密向量表示求和,然后以纵向连接方式组成一个矩阵,之后通过卷积层操作得到集合的向量表示所述输出层包含三层神经网络,其中的输出层维度取决于待解决问题需要的维度,所述输出层最后将预测数值与判断结果对应,对每个标签取值都输出它的预测的可能性,然后最大可能性的标签的判断结果取值作为输出结果;所述输入层的具体结构为:对于当前输入特征向量是第阶中的第个原子,该原子的原始特征向量分别为连续型的特征向量、离散型的特征向量,使用嵌入查找表来将映射成,隐向量将与初始表示向量连接起来一起输入到一个全连接神经网络中,计算得到初始向量表示,的计算方式为: 式中、是全连接层中可训练参数,是向量连接符号,是激励函数;所述交互层具有两个阶段:信息的传递和节点的更新;同阶原子群表示的更新过程为:其中表示原子群的邻接原子群,表示原子群的邻接原子群的第轮向量表示,表示向量拼接;不同阶原子群表示的更新过程为: 其中表示原子群最大阶数,中的表示除第阶外其他阶次序的序数,表示除第阶外第个其他阶的次序,表示原子群的邻接原子群的第轮向量表示,其中原子群的阶数是;向量表示的更新在交互层还依赖于原子群的连续型特征向量与之前聚集同阶、非同阶信息得到的中间变量和分别通过对应的神经网络,最后以求和的形式得到下一轮向量表示,计算过程为: 每一个原子群都被交互层处理多轮;所述排列不变层中每一层都输入前一层输出向量表示,首层的输入是原子群的初始向量表示经过输入层的计算得到,排列不变层中每层更新所有原子群的向量表示,并将更新后的表示传入到下一层,k层堆砌共同组成了排列不变层;每一层迭代计算结束,原子群的向量表示都得到更新,随着k轮更新,得到最终训练后各原子群的向量表示;所述集合表示层对每一阶原子群的向量表示分别求和: 每一阶原子群的向量表示进过聚集操作后会对应一个列向量,每一个列向量都对应一个阶数的所有原子群,视为一个包含阶原子群的集合,并将所有的连接起来组成一个矩阵: 连接后的矩阵将通过卷积层操作,用于对不同阶原子群赋权,该卷积层输入通道数和输出通道数均为1,卷积核大小取决于原子群最大阶数和纵向视野的宽度,卷积层输出的向量长度一般固定为原始向量长度的一半,通过设置步长和填充来调整,通过卷积层操作后,最后得到集合的向量表示: 式中的表示卷积操作,表示卷积核;所述输出层由三层神经网络组成,输出的维度依靠具体任务而定,模型训练时,使用交叉熵损失函数作为目标训练函数,如式所示: 式中,指的是模型输出实际值,取值为指的是期望输出。
全文数据:
权利要求:
百度查询: 北京航空航天大学 一种面向化合物建模的集合表示学习方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。