买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:大连理工大学
摘要:本发明属于面向化学品风险管理的高通量筛查技术领域,公开一种预测化学品环境暴露行为参数的深度学习方法。在已知化学品分子结构的基础上,应用所构建的方法,即获得化学品的环境暴露行为参数。该方法简便高效,可节省实验测试的资源投入。方法的构建过程如下:1环境暴露行为参数搜集;2深度学习模型训练和性能评价;3深度学习模型应用域表征。本发明建立的预测模型具有良好的稳健性和预测能力,能够准确预测应用域内化学品的环境暴露行为参数,为有害化学品筛查提供基础性工具。
主权项:1.一种预测化学品环境暴露行为参数的深度学习方法,其特征在于,步骤如下:1环境暴露行为参数数据搜集从文献中搜集52,688个化学品的环境暴露行为参数实测值,覆盖化学品的沸点、熔点、蒸汽压、水溶解度、亨利定律常数、正辛醇-空气分配系数、正辛醇-水分配系数、土壤沉积物有机碳吸附系数、生物累积因子、生物富集因子、最强酸性基团的解离常数、最强碱性基团的解离常数、化学物质与羟基自由基的气相反应速率常数、化学物质在水和沉积物中的半减期以及化学物质在鱼体内的生物转化半减期;按照8:1:1的比例随机分配训练集、测试集和验证集;训练集和测试集被用于训练模型和评估模型的拟合优度;模型训练完成后,使用验证集评估模型的预测效果;2深度学习模型训练和性能评价在图神经网络的算法框架中,化学品的分子结构以分子图的形式表示;因此,模型构建过程中,首先根据SMILES码读取化学品的结构,并将其编码为分子图的形式;为分子图中每个原子编码节点特征向量,包含原子种类、共价键数目、电荷、是否有手性、杂化类型、是否有芳香性、与该原子相连的氢原子数;为分子图中每个化学键编码边的特征向量,包含化学键种类、共轭与否;由此,所有分子图都包含一个原子特征矩阵和一个化学键特征矩阵,用于后续训练中的逐次特征聚合和特征更新;此外,分子图中还需要包含节点之间的相连关系,用于确定每次特征聚合和特征更新的邻域范围;将SMILES编码转换为分子图后,通过聚合相邻节点的特征,来更新某一中心节点的特征表示;聚合相邻节点特征的过程划分为两个阶段:消息传递阶段和读出阶段;消息传递阶段如式1和2所描述: 其中,和分别表示经过t次迭代后v和w两个节点的特征,表示经过t次迭代后连接节点对v和w的边的特征;Nv表示中心节点v的一组邻居节点;Mt·表示将邻居节点特征传递到中心节点的消息传递函数;表示经过Mt·函数整合后的邻居节点与相邻边的特征;Mt·函数为取特征最大值、最小值或平均值的函数;最后,更新函数Ut·被用于更新中心节点的特征表示;Ut·函数由全连接层实现,邻域内的节点特征实质上共享同一组可学习的权重值矩阵W;读出阶段利用读出函数R·,根据最后一次消息传递后更新的所有节点特征为整个分子图G计算预测终点 在进行了原子节点的特征聚合后,引入一个与所有原子节点相连的虚拟节点来代表分子;对虚拟节点使用与原子节点相同的方法聚合所有原子节点的特征,更新虚拟节点的特征;由此,虚拟节点的特征就包含了与预测属性相关的、有高度代表性的分子特征;利用式3,基于虚拟节点在分子注意力层输出的分子特征,计算分子图的终点采用损失函数来计算模型的预测终点与化学品的环境暴露行为参数实测值的差异大小;预测结果与实际值相差越大,损失函数的值就越大;神经网络的训练就是对模型内部所有可学习参数W的优化,来最大限度减小损失函数的值;根据损失函数的值和梯度下降算法,采用优化器对模型内部参数进行新一轮的优化,逐渐减小损失函数的值,实现“端到端”的训练;3深度学习模型应用域表征采用ADSAL{ρs,q≥ρs,T,IA,q≤IA,T}方法表征模型ADs,其中ρs,q用于表征查询化学品q和训练化学品t之间的加权相似性密度;IA,q用于表征查询化学品q和训练化学品t之间的加权活性差异;对预测模型表征ADs后,ADSAL{ρs,q≥ρs,T,IA,q≤IA,T}的严格程度由不同的ρs和IA阈值,ρs,T和IA,T决定;通过计算查询化学品的ρs和IA值,查看其是否满足预设的阈值,从而判定查询化学品是否落入模型的ADs内。
全文数据:
权利要求:
百度查询: 大连理工大学 一种预测化学品环境暴露行为参数的深度学习方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。