一种基于DNABERT微调的G-四链体预测方法

导航：龙图腾网> 最新专利技术> 一种基于DNABERT微调的G-四链体预测方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：电子科技大学长三角研究院(衢州)

摘要：本发明属于计算机生物学领域，具体涉及一种基于DNABERT微调的G‑四链体预测方法。该基于DNABERT微调的G‑四链体预测方法，包括如下步骤：构建数据集：获取来自不同细胞系的序列数据，使用预测工具预测其中潜在的四链体形成序列PQS；将PQS与通过高通量测序技术得到的G4峰值进行交集处理；将与G4峰值有至少一个碱基对重叠的PQS定义为eG4作为正样本；根据得到的eG4正样本，从人类基因组随机提取多方面特征类似于正样本的序列作为负样本，得到由正样本和负样本构成的数据集；使用所述数据集对DNABERT预训练模型进行微调。本发明提高了对G‑四链体的预测性能，同时还增强了模型的可解释性。

主权项：1.一种基于DNABERT微调的G-四链体预测方法，其特征在于，包括：构建数据集：获取来自不同细胞系的序列数据，使用预测工具预测其中潜在的四链体形成序列PQS；将PQS与通过高通量测序技术得到的G4峰值进行交集处理；将与G4峰值有至少一个碱基对重叠的PQS定义为eG4作为正样本；根据得到的正样本构建负样本，利用genNullSeqs函数生成与正样本GC含量、长度和重复序列相匹配的负样本，所述构建负样本包括，使用人类基因组数据包，调用genNullSeqs函数，从指定的BED文件中随机提取正样本序列，并生成与其GC含量、长度和重复序列相匹配的负样本；得到由正样本和负样本构成的数据集；所述数据集中正负样本的数量差值小于4.5%；使用所述数据集对DNABERT预训练模型进行微调：利用DNABERT预训练模型的词表对数据集进行分词，将正样本和负样本转化为长度一致的标记化序列；所述DNABERT预训练模型包括Encoderblock模块和多头感知机，将标记化序列直接提供给输入嵌入层进行微调，利用固定权重衰减的AdamW作为优化器，并采用dropout到输出层，得到DNABERT微调模型；所述Encoderblock模块包括输入嵌入层、Encoderblock层和最后隐藏层，所述Encoderblock层包括顺序执行的12个串联的Encoderblock，所述Encoderblock层还包括多头自注意力层，通过多头自注意力层的多头自注意力机制来捕获DNA碱基的上下游信息，将多头自注意力层的输入和输出相加，残差连接后进行层归一化，对每一层的激活值进行归一化；所述的Encoderblock层还包括前馈网络，所述的前馈网络包括两层全连接层，第一层的激活函数为Relu，第二层不使用激活函数，对应的公式如下：其中X表示前馈网络的输入，前馈网络最终得到的输出矩阵的维度与X一致，将前馈网络的输入和输出相加后进行层归一化；所述最后隐藏层状态的输出作为最终序列提取的特征；所述多头感知机包括使用全连接层进行预测，输入最终序列提取的特征，在特征融合后，全连接层将融合后的特征映射到低维度的表示空间，学习样本和标签之间的关系，将特征送入一个或多个全连接层，应用激活函数，实现最终的G-四链体的二分类；所述多头感知机还包括通过Classifier分类器，进行线性变换，使用ReLU激活函数引入非线性特性，经过Dropout层，随机丢弃输入的一些元素，防止过拟合，输出的模型预测G4形成的概率；从数据集中抽取部分数据作为独立数据集，并使用独立数据集对经过训练的DNABERT微调模型进行motif分析，以对模型关注到的特征进行解释，具体包括：利用微调好的DNABERT模型计算注意力分数，在独立数据集进行motif分析，利用p值对motif进行筛选，保留在正样本中频率显著高于截断值p值0.005的motif；将筛选的motif进行合并，以去除重复或高相似的motif；采用设定窗口大小来定义motif长度绘制出weblogo图，提取内源G-四链体的关键特征和分布。

全文数据：

权利要求：

百度查询：电子科技大学长三角研究院(衢州) 一种基于DNABERT微调的G-四链体预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种微沟槽双栅mosfet器件及制备方法

下一篇：一种基于RSSI的客轮室内环境定位方法、装置和介质

相关技术

一种微沟槽双栅mosfet器件及制备方法

一种基于RSSI的客轮室内环境定位方法、装置和介质

一种鸡粪处理装置

一种砖混结构古建筑墙体的防潮组合体系及其施工方法

基于深度卷积神经网络的轨迹分类方法及其系统

一种轮胎磨损监测方法、系统、设备及存储介质

一种高粘高散热可降解双面胶带及其制备方法

一种不规则晶体的磨圆装置及其磨圆方法

面向动态波动车间通信网络的车辆编队控制方法及系统

一种高可靠性光纤夹持装置

一种基于深度学习模型的电子合同管理方法及系统

一种高吸湿性橡胶的制造方法及其产品

体相关技术

柜体_博洛尼智能科技(青岛)有限公司_202420086687.4

包装体_三井化学东赛璐株式会社_202080064876.6

聚烯烃系树脂发泡体及成型体_积水化学工业株式会社_202380023891.X

层叠体的制造方法和层叠体_株式会社力森诺科_202410739480.7

泳池池体_上海杰深建材有限公司_202322779598.6

金属有机结构体_东洋制罐集团控股株式会社_202380023693.3

心脏瓣膜假体_恪心有限责任公司_201880095776.2

粉体涂敷装置_松下知识产权经营株式会社_202280092920.3

车辆用管道构造体_京洛株式会社_202180005983.6

SiC膜单体结构体_艾德麦普株式会社_201980002150.7

G-相关技术

一种新型i-motif及G-四链体杂交的双分子结构及其制备方法与传感应用_安徽大学_202410734394.7

5G通信基站安装方法_中国通信建设北京工程局有限公司_202410986775.4

一种5G天线的安装座_深圳市鸿联兴电子有限公司_202323391668.7

一种5G天线模组_江苏骅盛车用电子股份有限公司_202411012195.1

5G通信光缆铺设牵引方法_中国通信建设北京工程局有限公司_202410955807.4

5G频段手机信号放大器_佛山市林创科技有限公司_202410786461.X

一种5G通信网关_烟台科大正信电气有限公司_202420326643.4

一种TDD制式5G NR自同步通信系统及方法_成都芯通软件有限公司_202411037728.1

一种智慧5G信号传输电缆_佛山市恒焰电子有限公司_202323208167.0

5G大规模阵列天线的幅相校准方法及装置_中国信息通信研究院_202410770999.1

预测相关技术

胃癌复发预测模型_河北医科大学第四医院(河北省肿瘤医院)_202410939741.X

水位预测方法及设备_杭州海康威视数字技术股份有限公司_202411256213.0

基因导入率预测方法_武田药品工业株式会社_202280092352.7

预测模型的训练方法、空调最优运行参数的预测方法、装置、空调_青岛海尔空调器有限总公司_202410886464.0

故障预测模型训练和预测方法、装置、电子设备及介质_广东电网有限责任公司_202111108055.0

一种代谢性疾病的智能预测模型训练及类别预测方法_吉林大学_202411021046.1

景观格局分析与预测方法_吉林大学_202411239460.X

使用运动预测进行去方块滤波_北京字节跳动网络技术有限公司_202080009303.3

仿射预测的带宽控制方法_北京字节跳动网络技术有限公司_201980005114.6

一种刀具寿命预测系统_稀导技术(中山)有限公司_202410740324.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于DNABERT微调的G-四链体预测方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务