买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南通大学附属医院
摘要:本发明属于AI辅助药物设计领域,公开了基于人工智能片段化技术的先导活性分子生成与筛选方法,包括基于AIDD的片段化活性分子的数据处理、高亲和力的活性分子片段预测以及先导活性分子筛选。本发明从语言模型角度,将分子碎片化为多个token的组合,关注这些token片段的相互作用关系,找到对分子性质影响较大的片段。进一步以分子的分段表示为基础结合语言模型,使用基于语言模型的亲和力模型来筛选具有高亲和力的分子片段。所得到高亲和力的分子片段可以进一步结合分子属性约束,最终通过多维属性预测模型对初步生成的分子进行筛选,生成先导活性分子,实现了AI辅助药物生成的完整解决方案。
主权项:1.基于AIDD的片段化活性分子数据处理方法,其特征在于包括如下步骤:步骤一、构建片段词典1将数据集中的数据源分子转化为线性化文本,数据源分子为化合物、核酸、多糖中的一种或几种的组合时,将数据源分子转化为SMILES字符串,数据源分子为多肽或蛋白质时,将多肽或蛋白质中氨基酸残基序列按照亚基顺序首尾相接,形成完整的一条氨基酸残基序列;2采用序列切分算法将所有SMILES字符串或氨基酸残基序列切分为片段,构建片段词典,训练过程如下:a根据预生成token的频率对所有候选token进行由高到低排名;b所有具有概率的token都用于在最优传输算法中初始化,在每个时间步上,根据传输矩阵得到熵最大的片段词典;c穷举所有的时间步长,选择满足指定指数搜索空间的词汇作为最终词汇;d使用贪婪策略编码文本:先将句子分割成字符级的标记,若合并后的token在片段词典中,则将两个连续的token合并为一个token,直到没有token可以合并为止,片段词典外标记将被分割成更小的标记;步骤二、活性分子数据处理1活性分子转化为线性化文本,活性分子为化合物、核酸、多糖中的一种或几种的组合时,将活性分子转化为SMILES字符串,活性分子为多肽或蛋白质时,将多肽或蛋白质中氨基酸残基序列按照亚基顺序首尾相接,形成完整的一条氨基酸残基序列;2在步骤一构建的片段词典指导下,采用序列切分算法将活性分子的SMILES字符串或氨基酸残基序列切分为片段,统计词频低于5个的片段定义为“低频片段”,在编码过程中,包含“低频片段”的活性分子中所有“低频片段”按照同一个token进行编码,得到活性分子片段;3经过分子片段表征提取方法提取活性分子每个片段的表征。
全文数据:
权利要求:
百度查询: 南通大学附属医院 基于人工智能片段化技术的先导活性分子生成与筛选方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。