买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉大学
摘要:本发明提供了一种基于两路多分支CNN的单步逆合成方法及系统,其中的方法在进行单步逆合成预测时,输入待预测分子的SMILES序列,经过两路多分支卷积层,特征拼接层,全连接层后,输出反应规则集能产生该分子的前k条反应规则。根据输出的反应规则,结合待预测分子的SMILES,最终计算得到目标分子的反应物SMILES,实现单步逆合成自动化。本实施例还提出一种基于两路多分支CNN的单步逆合成系统,通过反应数据集获取,训练集构造,模型构建,模型训练,单步逆合成预测以及结果可视化等模块处理过程,实现了目标分子的单步逆合成自动化。本发明成果既可用于化学逆合成领域,也可用于生物逆合成领域,具有比现有方法更广泛的用途。
主权项:1.一种基于两路多分支CNN的单步逆合成方法,其特征在于,包括:S1:获取既定的反应数据集,既定的反应数据集包含不同的反应,每条反应包含底物分子和产物分子,根据既定的反应数据集中反应的产物分子构造分子集合S,根据既定的反应数据集中的反应构造反应规则集;S2:根据构造的分子集合、反应规则集以及分子和反应规则之间的对应关系,构造输入数据集,其中,表示分子,表示反应规则,,,二元组表示反应规则所对应的反应中存在能产生的反应;S3:搭建两路多分支CNN,构建单步逆合成预测模型;S4:利用构造的输入数据集D作为训练集训练步骤S3中构建的单步逆合成预测模型,得到训练好的预测模型A;S5:将待预测的目标分子输入训练好的预测模型A,预测出反应规则集合中每个反应规则产生该目标分子的概率,根据概率值,选择其中概率最大的前条规则作为结果输出,为设定的参数;其中,步骤S3中搭建的两路多分支CNN包括五层,分别为输入层、两路多分支卷积层、特征拼接层、全连接层和输出层;其中,输入层包含一个输入节点,用于输入分子的SMILES序列;两路多分支卷积层由两路结构类似的网络组成,用于得到输入分子的两种卷积特征,其中每一路均包括多条分支,每条分支依次由卷积、批量归一化、Sigmoid激活和最大池化操作构成;对于每一路的输入,不同分支采用不同大小卷积核卷积,并进行批量归一化、Sigmoid激活和最大池化后得到不同的卷积向量,多个卷积向量经过拼接操作得到该路输入所对应的卷积特征;拼接层用于对得到的两种卷积特征进行拼接得到输入分子的融合表示特征;全连接层通过Softmax函数计算反应规则集T中各反应规则产生输入分子的概率,概率值取值范围为[0,1];输出层包含|T|个节点,分别对应反应规则集T中的每个反应规则,|T|表示集合T的大小;两路多分支卷积层中,一路的输入V1是基于输入分子的SMILES序列生成的半径值为2的扩展连通性指纹,另一路的输入V2是基于输入分子的SMILES序列和字母表生成的单热编码矩阵,其中,字母表由预定的由所有分子SMILES序列包含的符号组成;两路多分支卷积层采用的卷积核均为一维卷积核,对其中一路,设第一个分支的卷积核大小为,则第个分支的卷积核的大小设为,其中为卷积核大小增加的步长。
全文数据:
权利要求:
百度查询: 武汉大学 一种基于两路多分支CNN的单步逆合成方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。