买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提供一种基于小样本数据融合和迁移学习的色谱保留时间预测方法。针对小分子定性数据库中已知保留时间信息的化合物少、样本稀疏等问题,本发明联合多个小样本色谱数据训练基模型,通过微调,建立小样本数据的保留时间预测模型。重点关注影响化合物保留时间的因素,包括化合物结构与色谱实验条件。为此,本发明对色谱实验条件进行编码,在化合物表示中加入色谱实验条件,限定样本化合物对应的色谱实验,提升保留时间预测的准确性。通过编码色谱条件和化合物表示,联合多个小样本数据集进行预训练,提升了保留时间预测的准确性,很好地辅助了小分子的定性。
主权项:1.一种基于小样本数据融合和迁移学习的色谱保留时间预测方法,其特征在于步骤如下:步骤一:色谱条件表示预处理色谱条件包括:色谱柱信息、梯度洗脱程序、流动相信息;不同数据集所使用的色谱条件不同的,而同一数据集的样本都是在同一色谱条件下采集的;色谱条件中的洗脱液各组分比例与色谱柱部分参数均为数值类型,直接作为输入特征拼接在分子描述符后边;色谱柱类型是字符串类型,将所有色谱柱类型汇总成一个语料库,之后进行编码;步骤二:数据预处理2.1基于SMILES计算分子的MACCS分子指纹、分子图和Mordred分子描述符,三种表示拼接作为分子的特征表示fmolecule:fmolecule=concatfingerprints,graph,descriptors1其中,fingerprints为MACCS分子指纹;graph代表分子结构图;descriptors表示Mordred分子描述符;2.2使用步骤一构建的梯度程序语料库建立Word2Vec模型,将梯度程序编码为等长向量,表示梯度的输入特征fgradient:fgradient=encode1Gradient2其中,encode1表示Word2Vec模型,提取梯度程序文本Gradient的向量表示;2.3基于数值型色谱条件构造向量表示,记为feluentcolumn;2.4使用步骤一构建的色谱柱类型语料库建立Word2Vec模型,将非数值型的色谱柱类型编码为向量,作为色谱柱类型的输入特征fcolumn_type:fcolumn_type=encode2Column_Type3其中,encode2建立的Word2Vec模型,提取当前色谱柱类型的向量表示;2.5将分子表示与色谱条件拼接作为输入特征f:f=concatfmolecule,fgradient,feluentcolumn,fcolumn_type4步骤三:联合众多小数据集建立大样本量数据集,将步骤二处理过后的每个小样本数据训练集融合在一起作为训练集Xtrain;步骤四:构建基模型使用步骤三建立的训练集Xtrain进行基模型训练;使用7层深度神经网络DNN作为基模型来提取特征并预测保留时间;第一层和最后一层分别为输入层和输出层,中间五层为隐藏层,结点数逐层递减;输入层的节点数为输入数据的维度,输出层的节点数为1;4.1输入层只负责接收数据,不对数据进行处理;4.2输入层接收数据后传递给隐藏层,经过第h层隐藏层获得的表示为Zh:Zh=ReLUWhZh-1+bh5其中,Wh和bh分别是可学习的权重和偏置,ReLU是激活函数,Z0是步骤三建立的Xtrain;4.3经过与上述5层隐藏层的处理后,将提取到的特征送入输出层进行保留时间预测,获得最终的保留时间预测值 其中,W和b都是可学习的权重和偏置;步骤五:迁移到目标数据集迁移到目标数据集有两种情况,一是迁移到参加过预训练的小样本数据集,二是迁移到未参加过预训练的外部数据集;使用小样本数据的训练集对基模型进行微调,得到最终目标数据集上的保留时间预测模型。
全文数据:
权利要求:
百度查询: 大连理工大学 中国科学院大连化学物理研究所 一种基于小样本数据融合和迁移学习的色谱保留时间预测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。