首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于DNABERT微调的G-四链体预测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:电子科技大学长三角研究院(衢州)

摘要:本发明属于计算机生物学领域,具体涉及一种基于DNABERT微调的G‑四链体预测方法。该基于DNABERT微调的G‑四链体预测方法,包括如下步骤:构建数据集:获取来自不同细胞系的序列数据,使用预测工具预测其中潜在的四链体形成序列PQS;将PQS与通过高通量测序技术得到的G4峰值进行交集处理;将与G4峰值有至少一个碱基对重叠的PQS定义为eG4作为正样本;根据得到的eG4正样本,从人类基因组随机提取多方面特征类似于正样本的序列作为负样本,得到由正样本和负样本构成的数据集;使用所述数据集对DNABERT预训练模型进行微调。本发明提高了对G‑四链体的预测性能,同时还增强了模型的可解释性。

主权项:1.一种基于DNABERT微调的G-四链体预测方法,其特征在于,包括:构建数据集:获取来自不同细胞系的序列数据,使用预测工具预测其中潜在的四链体形成序列PQS;将PQS与通过高通量测序技术得到的G4峰值进行交集处理;将与G4峰值有至少一个碱基对重叠的PQS定义为eG4作为正样本;根据得到的正样本构建负样本,利用genNullSeqs函数生成与正样本GC含量、长度和重复序列相匹配的负样本,所述构建负样本包括,使用人类基因组数据包,调用genNullSeqs函数,从指定的BED文件中随机提取正样本序列,并生成与其GC含量、长度和重复序列相匹配的负样本;得到由正样本和负样本构成的数据集;所述数据集中正负样本的数量差值小于4.5%;使用所述数据集对DNABERT预训练模型进行微调:利用DNABERT预训练模型的词表对数据集进行分词,将正样本和负样本转化为长度一致的标记化序列;所述DNABERT预训练模型包括Encoderblock模块和多头感知机,将标记化序列直接提供给输入嵌入层进行微调,利用固定权重衰减的AdamW作为优化器,并采用dropout到输出层,得到DNABERT微调模型;所述Encoderblock模块包括输入嵌入层、Encoderblock层和最后隐藏层,所述Encoderblock层包括顺序执行的12个串联的Encoderblock,所述Encoderblock层还包括多头自注意力层,通过多头自注意力层的多头自注意力机制来捕获DNA碱基的上下游信息,将多头自注意力层的输入和输出相加,残差连接后进行层归一化,对每一层的激活值进行归一化;所述的Encoderblock层还包括前馈网络,所述的前馈网络包括两层全连接层,第一层的激活函数为Relu,第二层不使用激活函数,对应的公式如下: 其中X表示前馈网络的输入,前馈网络最终得到的输出矩阵的维度与X一致,将前馈网络的输入和输出相加后进行层归一化;所述最后隐藏层状态的输出作为最终序列提取的特征;所述多头感知机包括使用全连接层进行预测,输入最终序列提取的特征,在特征融合后,全连接层将融合后的特征映射到低维度的表示空间,学习样本和标签之间的关系,将特征送入一个或多个全连接层,应用激活函数,实现最终的G-四链体的二分类;所述多头感知机还包括通过Classifier分类器,进行线性变换,使用ReLU激活函数引入非线性特性,经过Dropout层,随机丢弃输入的一些元素,防止过拟合,输出的模型预测G4形成的概率;从数据集中抽取部分数据作为独立数据集,并使用独立数据集对经过训练的DNABERT微调模型进行motif分析,以对模型关注到的特征进行解释,具体包括:利用微调好的DNABERT模型计算注意力分数,在独立数据集进行motif分析,利用p值对motif进行筛选,保留在正样本中频率显著高于截断值p值0.005的motif;将筛选的motif进行合并,以去除重复或高相似的motif;采用设定窗口大小来定义motif长度绘制出weblogo图,提取内源G-四链体的关键特征和分布。

全文数据:

权利要求:

百度查询: 电子科技大学长三角研究院(衢州) 一种基于DNABERT微调的G-四链体预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。