首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于度量小样本学习方法的分子性质预测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国石油大学(华东)

摘要:本发明属于人工智能技术领域,特别涉及基于度量小样本学习方法的分子性质预测方法。本发明采用了原型网络框架结合图预训练策略、低秩表示、对比学习和优化的SinkhornK‑means算法。原型网络框架,旨在解决图数据的特征学习和聚类问题,利用原型网络框架结合图提取了分子的通用特征,包括局部和全局信息,以应对分子复杂性。通过低秩表示,将高维分子数据映射到更紧凑的表示空间,有助于提高预测性能。引入了对比学习来保持数据在降维后的结构特征,以进一步提高预测准确性。借助扩展的SinkhornK‑means算法,将带有标签的数据集成到预测模型中,从而实现更精确的分子性质预测。

主权项:1.基于度量小样本学习方法的分子性质预测方法,其特征在于,包括以下步骤:S1、选用原型网络框架构建模型的框架;S2、借助原型网络框架结合图方法学习分子图的通用特征;S3、运用低秩表示对数据进行降维处理,得到子空间和降维后的嵌入表示;S4、使用对比学习捕获数据点与其邻居和其他数据点之间的相似性;S5、采用扩展的SinkhornK-means算法,将带标签的数据纳入算法,进行数据的聚类分析,其中,带标签的数据为五个公开可用的基准数据集,分别是血脑屏障穿透性数据集、毒性数据集ClinTox、β分泌酶的抑制活性数据集、人类免疫缺陷病毒数据集与毒性数据集Tox21;步骤S3中,模型需要进行子空间学习,其中,子空间学习包括SVD分解和QR分解,SVD分解的公式如下: ;其中,A是待分解的矩阵原矩阵,U是大小为m×m的酉矩阵,也是左奇异矩阵,V是大小为n×n的酉矩阵,也是右奇异矩阵,Σ是一个包含有奇异值的对角矩阵,大小为m×n,U和V是两个正交矩阵,其中的每一行或每一列分别被称为左奇异向量和右奇异向量,T表示矩阵的转置;QR分解的公式如下: ;其中,Q是一个m×n的正交矩阵,其列向量是彼此正交且是单位长度的,满足;即:Q的转置和Q的乘积等于单位矩阵I,而R是一个n×n的上三角矩阵,即:除了主对角线及其以上的元素外,其他元素都为零;步骤S3中,低秩表示的具体步骤如下:A1、对原始数据进行QR分解,将输入矩阵降维为一个三角矩阵R,其包含了数据的主要结构信息;A2、对三角矩阵R进行SVD分解,得到左奇异矩阵U;A3、在U的基础上求出相似矩阵S,通过计算左奇异矩阵U与其转置的乘积,得到相似性矩阵W,即:;其中,S是相似矩阵,U是左奇异矩阵,T表示矩阵的转置;A4、对相似性矩阵S的对角线元素进行置零操作;A5、为了使得每个数据点的相似性权重之和为1,对相似性矩阵S进行归一化操作;A6、根据相似矩阵S构建不相似矩阵S1,不相似矩阵S1是与相似矩阵S具有相同形状的全1矩阵,对于一个N-wayK-shotC-query问题,不相似矩阵S1的计算公式如下: ;其中e是全1向量,E是单位矩阵,N是类别数,K是每个类别样本数,C是查询集样本数量,T表示矩阵的转置;步骤S3中,数据降维的步骤如下:B1、通过最大化相似特征的相似性和最小化不相似特征的不相似性,学习到特征在子空间的投影P,即: ;其中F为分子特征,S1是不相似矩阵,S是相似矩阵,T表示矩阵的转置;B2、对P进行特征值分解,提取其特征向量并保留前k个最大特征值对应的特征向量,将原始数据矩阵与这些特征向量相乘,即可将数据F映射到一个新的坐标空间,即: ;其中V是前k个最大的特征向量,F1是数据在新坐标空间的特征映射;步骤S5中,扩展的SinkhornK-means算法指的是基于SinkhornK-means算法对数据进行聚类,它是在K-means算法的基础上进行改进,通过引入最优传输矩阵和Sinkhorn进行迭代,首先初始化K个聚类中心,然后,通过迭代的方式不断更新聚类中心和数据点之间的关系;扩展的SinkhornK-means算法进行聚类分析的步骤如下:C1、初始化类中心,借鉴原型网络,对支撑集中所有样本的嵌入取平均,得到各个类别的原型表示,也就是初始的类中心向量;C2、根据每个数据点与聚类中心的距离M,计算概率转移矩阵P,使用Sinkhorn算法进行迭代优化,得到稳定的矩阵;C3、根据概率转移矩阵P,计算每个化合物点属于每个类别的概率,得到概率矩阵;C4、计算新的类中心并更新类中心,将概率转移矩阵与数据降维后的嵌入相乘,得到每个类别中样本的加权和,再将其与总样本数相除,即可得到类中心的估计值;将计算的估计值与原始类中心的差值作为类中心的更新量,使用学习率对更新量进行调整缩,并将调整更新后的值加到原始类中心上,完成类中心的更新,即: ;C5、重复上述步骤,直到聚类中心不再发生显著变化或达到最大迭代次数。

全文数据:

权利要求:

百度查询: 中国石油大学(华东) 基于度量小样本学习方法的分子性质预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。