买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种入侵生物多组学数据库构建方法及系统,具体涉及生信技术领域,本发明通过公开资源收集处理得到入侵物种的基础参数信息,以及新闻、论文、书籍、法律法规等科普数据,构建入侵物种生物多组学原始和分析数据集,随后,构建入侵生物多组学数据访问规则,开发数据库网站,标准化收集中国入侵物种基础信息和危害信息,在补充我国生物入侵的物种数量、分布区域、扩散态势、危害水平等这些本底数据的前提下,能够提供多组学的信息存储和相关功能,为野外外来入侵生物调查和生态防控提供技术和数据支撑。
主权项:1.一种入侵生物多组学数据库构建方法,其特征在于,包括以下步骤:S1、获取目标入侵生物组合中每种目标入侵生物的基因组学、转录组学、代谢组学、蛋白质组学,以及目标入侵物种生物学信息和科普信息的数据集,其中,所述目标入侵生物组合包括N种入侵生物,N≥1;S2、对步骤1收集到的数据集进行预处理,其中,所述预处理包括数据清洗和质量控制;S3、将预处理后的目标入侵生物多组学数据进行整合,构建目标入侵生物多组学数据库;S4、对构建的目标入侵生物多组学数据库进行管理,所述管理包括数据存储、索引建立,以及查询优化;S5、利用构建的目标入侵生物多组学数据库进行生物信息学的分析和应用,其中,所述分析包括目标入侵生物的基因表达差异分析。S1中所收集的入侵物种覆盖中国范围内的所有入侵物种,包括覆盖目标入侵物种中文名、外文名、寄主、形态描述、图片的基本信息,包含目标入侵物种的危害特点、危害等级、来源地、分布地点、传播途径、防治方法、入境防疫要求的危害描述。预处理步骤包括数据清洗和质量控制,其中质量控制可以通过质量值计算和过滤低质量数据实现,具体包括:在目标入侵生物的基因组和转录组数据中,用弗兰德质量分数表示目标入侵生物的基因组和转录组测试数据的质量值,将质量值记为Q,则Q=-10*log10err;其中err表示为测序错误的概率,为小数形式,0err1,对于测序序列的每个碱基都有一个质量值,即Q1,Q2,……,Qn,对Q1,Q2,……,Qn求平均值将作为测序序列的质量值阈值,将测序序列的每个质量值分别与进行对比,若则表示为低质量,直接删除低质量序列,从而达到质量控制。步骤S3中对目标入侵生物多组学数据中转录组学的数据进行基因表达量的计算,具体包括:将经过预处理的目标入侵生物转录组学数据通过快速质量控制与参考基因组进行对比,使得测序数据对应到参考基因组的位置上,通过根据比对结果,将每个测序读段分配到其覆盖的基因上,使用基因注释信息来确定每个读段所属的基因,根据基因计数的结果,得到每个基因的计数,记为ct,将ct代入公式计算出目标入侵生物每个基因的读数密度R,则R=ctgl;其中,gl表示为基因的长度,根据上述参数计算出样本的总读数tr,分别将R和tr代入公式计算出目标入侵生物转录组学中每个基因在样本上的读数gr,则gr=R*tr1000000;计算每个基因的样本长度值RPKM,则RPKM=rcgltrc10000;其中rc是指该基因的读数,trc是样本中的总读数,最后,标准化每个基因的RPKM值到百万总读数,即为目标入侵生物多组学数据中转录组学的数据进行基因表达量。步骤S4中对构建的目标入侵生物多组学数据库进行数据存储、索引建立,以及查询优化,具体方式为:A1、通过使用多布工具箱提取目标入侵生物的线粒体COI基因,构建DNA条形码;A2、根据展示需求,通过使用序列比对工具构建目标入侵生物相关序列的索引文件,并导入基因组浏览器中预存;A3、利用美国国立生物技术中心的引物设计与特异性评估工具,输入目标入侵生物的目标基因序列,设置引物参数,得到一系列的引物对,并对其进行特异性和二聚体检测,选择最优的引物对,存储引物名称、序列,以及GC含量;A4、利用直系同源基因的概念,通过比较不同入侵物种的基因序列,找出来源于同一个祖先基因的拷贝,形成一个基因家族;A5、提取转录组数据中的差异表达信息,得到基因表达矩阵,构建共表达网络;A6、使用基因预测软件对基因模型进行了预测,综合了计算机算法预测、同源比对,以及全长转录组比对多种证据,并使用蛋白质数据库和KEGG综合性生物信息学数据库对其进行了功能注释,使用软件将蛋白序列比对到蛋白质数据库和KEGG综合性生物信息学数据库,进行了功能注释、通路分析和功能分类,并使用生物信息学工具软件对其进行了注释。步骤S5中发现基因在不同条件或组别之间的表达差异,具体包括:将原始的RNA数据进行读取和预处理,包括对读数进行筛选、归一化和转换处理,使用函数创建一个目标对象,该对象将包含读入的RNA数据和与条件相关信息,使用函数,通过负二项分布模型对每个基因的表达进行建模和拟合,利用负二项分布模型拟合的结果,并使用函数计算每个基因的差异表达统计指标,包括基因表达的均值、方差、抑制比例,以及相应的p值。对目标入侵生物的每个基因的p值进行计算,具体包括:从目标入侵生物的数据集中取两组样本,分别记为A和B,其中每组样本含有基因表达数据,对于每个基因,根据组A和组B的样本均值和方差来计算t值,进而计算p值,对于每个基因,计算组A和组B的样本均值μA和μB,其中以及方差σA2和σB2,根据样本均值和样本方差,计算t值,则t=μA-μBsqrtσA2A+σB2B;其中,nA和nB分别代表组A和组B的样本大小,根据自由度df,使用t分布的概率密度函数计算t值对应的p值,df=nA+nB-2;使用t分布的纵向积分来计算p值,则使用显著性水平作为判断标准,当p值小于设定的显著性水平,则认为基因在两组之间存在差异表达。
全文数据:
权利要求:
百度查询: 中国农业科学院农业基因组研究所 中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心) 一种入侵生物多组学数据库构建方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。