恭喜华东师范大学江振然获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜华东师范大学申请的专利基于Transformer的CRISPR/Cas9单导RNA打靶活性预测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114999576B 。
龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210796256.2,技术领域涉及:G16B40/00;该发明授权基于Transformer的CRISPR/Cas9单导RNA打靶活性预测方法是由江振然;万蕴琦设计研发完成,并于2022-07-06向国家知识产权局提交的专利申请。
本基于Transformer的CRISPR/Cas9单导RNA打靶活性预测方法在说明书摘要公布了:本发明公开了基于Transformer的CRISPRCas9单导RNA打靶活性预测方法,属于基因编辑技术领域,本发明Transformer使用自注意力机制来学习序列中的全局架构信息,并计算每个碱基与所有其他碱基之间的关系,通过碱基之间的相互作用可以进行过程捕获,将同一序列特征映射到多个子空间中,获得多种向量空间表示,方便计算注意力时对上下文数据的融合与学习,此外本发明将序列的向量表达通过多头机制学习序列在不同子空间中表达,保证了计算与学习的高效性与精确性,另外为避免深层网络导致的梯度消失或信息丢失,动态残差结构将每一模块的输出均进行加和,可更快提取特征信息,增强模型表达能力,进而有利于在保证并行计算同时有效解决长序列远端特征捕获的问题。
本发明授权基于Transformer的CRISPR/Cas9单导RNA打靶活性预测方法在权利要求书中公布了:1.基于Transformer的CRISPRCas9单导RNA打靶活性预测方法,其特征在于,包括如下步骤:1获取公开数据集:获取包含sgRNA序列以及indel频率的公开数据集;所述数据集包括Sniper-Cas9、SpCas9-NG、xCas9和HypaCas9;2sgRNA序列编码:对所述公开数据集进行预处理,同时采用互补碱基来代表所述公开数据集中原始的所述sgRNA序列,并使用特定的编码方式对所述公开数据集的sgRNA序列进行编码,以生成用于模型不同阶段的样本集,并划分为预设比例的训练集和测试集;3构建预测模型:构建基于动态残差结构的Transformer模型,将所述训练集作为输入数据置入其中进行训练,并根据预设指标输出训练好的预测模型;4模型应用:将待测sgRNA序列输入所述训练好的预测模型中,预测indel频率;步骤2所述sgRNA序列编码的具体过程如下:2.1将所述sgRNA序列视作文本,利用Tokenizer方法进行词典构建,包含了A、T、C、G四种不同碱基与其对应的数值映射,形成{A:1,T:2,C:3,G:4};2.2在每个所述sgRNA的开头添加标志位SOS,并扩充词典添加元素{SOS:0};根据词典将所述sgRNA序列中的单碱基转化为对应的正整数,以实现所述sgRNA序列的向量化;2.3最后将向量化后的sgRNA序列作为样本集,并进行打乱,同时按照85%:15%的比例划分为训练集与测试集;所述构建预测模型的具体过程如下:3.1将所述训练集,向量化后sgRNA序列输入Transformer层中进行sgRNA序列特征的捕获,得到Transformer部分的输出;3.2将所述Transformer部分的输出进行展平后得到n*3072的二维向量,生成flat;3.3将所述flat输入参数维度为64的全连接层,并使用ReLU作为激活函数,同时将该层命名为dense1;3.4将所述dense1输入到参数为0.4的Dropout层,并命名为dropout1;3.5将所述dropout1输入到参数维度为32的全连接层,并使用ReLU作为激活函数,并将该层命名为dense2;3.6将所述dense2输出再次输入到参数为0.4的Dropout层,并命名为dropout2;3.7最后将dropout2层的输出输入到参数为1的输出层,得到对应预测indel频率,并进行损失函数计算;所述sgRNA序列特征的捕获,包括:3.1a将所述训练集,向量化后sgRNA序列输入Embedding层,sgRNA序列中的每个碱基都转化为一个对应的向量表示,此向量长度由参数embedding-size决定,每一维都分别表示了碱基的属性;3.1b采用序号1-23来代表碱基在所述sgRNA中的位置数据,同时也将位置数据通过Embedding方法进行向量化操作,将位置向量与碱基向量进行加和,得到最终表示向量,其公式如下:W=ω1,ω2,…,ωmp=p1,p2,…,pme=ω1+p1,ω2+p2,…,ωm+pm式中:W为碱基向量;p为位置向量;e为最终表示向量;3.1c将所述最终表示向量分别输入Encoder与Decoder两个部分,并利用所述Encoder与Decoder中的多头注意力模块进行注意力表示,并进行拼接,得到多个子表达空间中的自注意力矩阵,所述多头注意力模块是由8个缩放点积注意力经过Concatenate操作得到的,其计算公式如下: 式中:Q,K,V分别表示矩阵,且其分别是结合了位置信息的碱基向量通过与可学习的权重矩阵WQ,Wk,Wv相乘得到的;dk是矩阵K的维度;3.1d将多个子表达空间中的自注意力矩阵输入前馈神经网络中,所述前馈神经网络由多层全连接层构成,并使用ReLU作为激活函数,计算公式如下:FF=ReLUxW+b式中:x为前序层的输出,W与b分别为全连接层的权重与偏差;3.1e对每个多头注意力模块与前馈神经网络都使用残差连接与层归一化,并对碱基向量的分布进行调整,避免出现梯度消失爆炸或协变量偏移的问题,计算公式如下:y=LNFx+x式中:F·函数为多头注意力函数,LN为层归一化函数,具体计算方式如下: 其中:μ与δ分别为样本均值与标准差,γ与β分别代表缩放与平移的可训练参数向量;3.1f在Decoder部分中的多头注意力模块与前馈神经网络模块之间加入Encoder-DecoderAttention模块,同时将多头注意力模块使用与Encoder部分一致的加入位置信息的碱基向量作为输入,并将原始碱基向量做了线性变换: 式中:x为原始输入序列,dk是矩阵K的维度;3.1g将Encoder-DecoderAttention模块使用Encoder的输出与Decoder中前序多头注意力模块的输出共同作为输入矩阵进行自注意力计算,并在Decoder模块中引入动态残差结构,将每个神经模块的输出进行累加,并使用该模块的权值进行约束,作为最终Decoder部分的输出,其中每个神经模块的输出可以表示为:out=LNFy+y式中,F·为前馈神经网络函数,LN为层归一化函数,y为所述多头注意力模块输出;3.1h将高层的向量表示与低层的向量表示结合到一起,防止信息损失,并增强碱基向量在不同空间中学习到的高维表示,其具体计算过程如下: 式中:Blocki为每一个模块的输出,Wi为该模块对应的权重;3.1i将所述Decoder部分的输出送入一个浅层全连接神经网络中,得到Transformer部分的输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200062 上海市普陀区中山北路3663号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。