首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

预测植物lncRNA中sORFs的贝叶斯优化集成学习方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:大连理工大学

摘要:本发明提出了一种预测植物lncRNA中sORFs的贝叶斯优化集成学习方法,属于生物信息学和机器学习领域。本发明可以对植物长非编码RNAlncRNA中小开放阅读框sORFs有无编码能力进行预测,不仅为lncRNA编码小肽的发现奠定了基础,同时为生物实验验证提供重要参考,有利于揭示生命体性状及抗病抗逆的分子机制,在农林业生产等领域具有重要的价值。

主权项:1.一种预测植物lncRNA中sORFs的贝叶斯优化集成学习方法,其特征在于,该方法包括以下步骤:Step1:利用生物信息学软件和公共数据库获取小开放阅读框sORFs序列数据并进行数据预处理,结合逻辑推理对数据进行进一步筛选,提高数据可信度;Step2:将处理后的sORFs序列翻译成相应的氨基酸序列,对sORFs序列及氨基酸序列分别进行序列及理化性质特征提取,共得到1795维人工特征;Step3:构建结合多卷积池化与SENet模块的MCSENN深度学习模型,提取sORFs序列512维深层特征;步骤Step3具体过程为:3.1:对sORFs序列进行分词处理并进行p-nts编码;3.2:将编码序列输入嵌入层,并进行多尺度卷积池化操作;具体如下:3.2.1:嵌入层将编码序列映射成128×101的矩阵向量,易于卷积操作和特征提取;3.2.2:使用4个不同尺度卷积核代替单一卷积核,充分提取特征,挖掘sORFs序列的有效信息;每个尺度的卷积池化操作过程如下:a选用64个尺度为f的卷积核进行卷积操作,其中,m表示卷积核宽度,f为卷积尺度,即可得到卷积后的特征矩阵C;b对特征矩阵C进行最大池化操作,提取局部区域重要的特征信息P,其中l为特征映射集C的长度,f为卷积核尺度,故以尺度为f的卷积核进行卷积操作后,经池化大小为l-f的max-pooling操作后输出如下:Pil-f=maxCi,Ci+1,...,Ci+l-f-1,i∈1,2,...,f+1c按照步骤a、b中的方法,对4个尺度的卷积核f1、f2、f3和f4进行卷积池化操作后,将各输出结果进行串联,得出多尺度卷积操作的最终结果V,其表示如下: 3.3:将卷积池化后的数据V输入SENet结构进行特征重标定首先对输入大小为W×H×N的特征图进行压缩操作,得到1×1×N向量;接下来通过两层全连接的bottleneck结构进行激励操作,得到特征图中每个通道的权值,其中缩放参数SERatio设为158,从而减少通道个数,降低计算量;最后是scale操作,将SENet模块计算出来的各通道权重值分别和原有特征向量对应通道的二维矩阵相乘,得出结果输出;3.4:将步骤3.3所得结果输入展平层Flatten,利用展平层Flatten将多维输入一维化,实现从卷积层到全连接层的过渡;3.5:最后经全连接层Dense作用,并利用sigmoid函数将其映射在[0,1]之间,得出预测标签;其中,标签为0,表示没有编码能力;标签为1,表示有编码能力;3.6:将sORFs序列输入MCSENN深度学习模型,提取Flatten层输出,得到512维特征;Step4:利用全相关的Boruta特征选择算法对人工提取的1795维特征进行特征选择,实现特征维度压缩;利用主成分分析PCA算法分别对步骤3中MCSENN深度学习模型提取的特征与步骤2中人工提取的特征进行降维,去除冗余信息;Step5:选择分类效果优秀的XGBoost与LightGBM作为基模型,用贝叶斯优化算法对基模型进行优化,采用逻辑回归LR模型来减少基模型之间的信息冗余,构建集成学习模型sORFPred;Step6:模型训练,在苔藓数据集上采用五折交叉验证进行模型训练和测试,将五次实验得到的性能指标取平均值进行模型性能评估。

全文数据:

权利要求:

百度查询: 大连理工大学 预测植物lncRNA中sORFs的贝叶斯优化集成学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。