买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:华中科技大学同济医学院附属同济医院
摘要:本申请涉及生物基因技术领域,尤其涉及一种基于连锁基因突变检测MRD标志物的装置。本发明建立了一种基于连锁突变的MRD监测装置。相比于其他流式细胞方法和PET‑CET方法,本发明方法样本获取简单,仅需要患者血液,操作方便,无放射性伤害;相比于PCR定量方法,本发明能一次检测多个位点,并且检测下限可达10―6级别,可有效地进行MRD术后评价和复发监控,随后根据患者个体情况开展精准指导;本发明不依赖于UMI分子标签技术,当仅使用常规方法进行cfDNA建库时,本发明检测下限也可达到10―5级别,相对于双重测序技术,本发明节约实验建库成本,能有效提高原始片段的利用率。
主权项:1.一种连锁基因突变数据库构建方法,其特征在于,包括:提取若干个正常人的cfDNA进行双端测序,获取测序数据作为样本数据,使用hg19参考基因组进行对比,获得比对信息,并标记重复片段;针对每个样本数据,并行计算该样本每个位点的每类碱基突变频率;针对每个样本数据,并行计算该样本所有可能的LV信息;收集每个样本数据的SNV及LV信息,构建SNV和LV数据库;其中SNV数据库以SNV突变位置和突变类型为索引,以样本编号为列名,存储每个样本对应的SNV突变支持数、测序深度以及SNV突变频率;LV数据库以LV突变位置和突变类型为索引,以样本编号为列名,存储每个样本对应的LV突变支持数、测序深度以及LV突变频率;所述SNV表示单核苷酸突变;所述LV表示连锁基因突变;所述针对每个样本数据,并行计算该样本每个位点的每类碱基突变频率,具体包括:将测序使用的捕获探针针对的目标区域延伸340bp,使用本地计算装置按照目标延伸区域多线程并行计算每个位点的测序深度DP以及ATCG4类碱基对应的数目AD,按照测序读段比对质量MQ和碱基质量BQ进行过滤,按照MQ≥20,BQ≥20设置,然后得出每个样本在该位置对应4类碱基的突变频率AF=ADDP;所述针对每个样本数据,并行计算该样本所有可能的LV信息,具体包括:A.过滤软切除的测序读段,按照MQ≥20筛选;B.通过测序读段上MD标签,获得每个测序读段上的错配碱基数目,如果测序读段上错配碱基数量≥7个,则过滤该测序读段;C.将双端测序读段合并为一个片段,如果测序读段1和测序读段2的重叠部分碱基不同,则修改为N碱基,如果两个测序读段没有重叠,则将空白区域标记为N碱基;D.标记合并片段上的SNV突变碱基,并排除N碱基,如果一个片段上≥2个alt,则认为该片段包含一个可能LV突变;E.将所有存在LV突变的片段按照首个SNV的突变位置进行排序,迭代所有片段,获得以LV突变为索引,LV突变片段数目为列的LV突变矩阵;F.合并所有LV突变,构成连锁突变区域,某一LV突变i,其染色体编号为chrom0,起始的SNV突变位置是start0,终止的SNV突变位置是end0,另一LV突变j,其染色体编号是chrom1,起始SNV突变位置是start1,终止SNV突变位置是end1,如果突变j满足如下a或者b条件:achrom0=chrom1并且start1≥start0并且start1≤end0;bchrom0=chrom1并且start0≥start1并且start0≤end1;则将连锁突变i和连锁突变j合并到一个连锁突变区域;G.以一个连锁突变区域为计算单元,针对该区域完成如下计算:a假设该连锁突变区域包含n个LV连锁突变,每个LV连锁突变,包含多个SNV单元,即为集合Ai,对应的片段支持数为ADi;b针对SNV单元数目大于等于3的LV突变,假设为该SNV单元数目为x,从中随机抽取2个SNV单元构成2连锁LV,则包含个组合,从中随机抽取3个构成3连锁LV,则包含个组合,最终将1个x连锁的LV突变拆分成个3连锁或者2连锁的LV突变;c将SNV单元数目等于2的LV突变和上述拆分所有3连锁或者2连锁的LV突变合并成一个包含m个2连锁或者3连锁的LV突变集合M,集合Bj是集合M中每个LV突变包含的2到3个SNV突变单元组成的SNV突变单元的集合,则对应的片段支持数ADj按照如下公式进行计算: d假设上述每个LV突变j的每个SNV突变单元的坐标位置为{POS1,POS2,…,POSj},具有相同的突变位置合并,构成k个连锁突变位置集合Pk;e假设该连锁突变区域,起始位置为s1,终止位置为sq,则将集合Pk转变为k×q的01矩阵Mat: f同时构建一个k的0向量VecDP,用以存储集合K中每个元素对应的深度信息DPk;g迭代该连锁区域的所有测序读段,过滤掉标签为重复、补充比对、次比对、比对异常、MQ≤20和错配碱基数目大于7个的测序读段,合并双端测序读段;h针对每个双端测序读段,得到双端测序读段覆盖的所有参考碱基位置{PEP1,PEP,…,PEPp}设为集合R,将集合R转为长度为q的向量Vecpe: i将矩阵Mat和向量Vecpe按照如下公式计算得到向量VecS: j按照下述方法,计算Vecdp数值变化,假设加入VecS前,Vecdp第k位数值是DPk,j―1,加入VecS计算之后,数值是DPk,j,则DPk,j和DPk,j―1的关系如下: k得到每个连锁位置k对应的深度信息DPk,每个LV突变Bj的突变支持数为ADj,可计算得到突变频率为ADjDPk;H.合并每个计算单元,得到针对连锁突变数据库中每个正常人样本的所有2连锁或者3连锁的突变支持数、深度以及突变频率信息。
全文数据:
权利要求:
百度查询: 华中科技大学同济医学院附属同济医院 一种基于连锁基因突变检测MRD标志物的装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。