首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种精确定量肿瘤标准品中突变支持reads数的方法及其应用 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳华大基因股份有限公司;深圳华大临床检验中心;广州华大基因医学检验所有限公司;天津华大医学检验所有限公司

摘要:本发明公开了一种精确定量肿瘤标准品中突变支持reads数的方法。该方法包括如下步骤:根据肿瘤标准品的突变信息,组装参考序列;采用比对软件对参考序列依次进行建索引、比对、过滤、排序和去重,得到目标reads;将目标reads和参考序列进行比对,比对上的即为突变支持reads;统计突变支持reads数。实验证明,采用本发明提供的方法以评估捕获探针对突变支持reads的捕获能力,可与变异检测软件识别的突变支持reads数作对比,从而评估变异检测软件的性能。本发明具有重大的应用价值。

主权项:1.一种精确定量肿瘤标准品中突变支持reads数的方法,包括如下步骤:1根据肿瘤标准品的突变信息,组装参考序列;2完成步骤1后,采用比对软件对所述参考序列依次进行建索引、比对、过滤、排序和去重,得到目标reads;3完成步骤2后,将所述目标reads和所述参考序列进行比对,比对上的即为突变支持reads;统计突变支持reads数。

全文数据:一种精确定量肿瘤标准品中突变支持reads数的方法及其应用技术领域本发明属于生物技术领域,具体涉及一种精确定量肿瘤标准品中突变支持reads数的方法及其应用。背景技术TKI药物的出现显著提高了非小细胞肺癌的5年生存率。TKI药物与EGFR基因、ALK基因等的突变状态相关,因此在临床上需要常规检测EGFRL858R、EX19Del、ALKfusion等。而使用高通量测序检测肿瘤基因,支持突变的信息和支持正常的信息均混杂在测序数据中,从而影响突变检出。影响突变检出的原因主要有两方面。一是捕获阶段:捕获探针的序列是以hg19为基础进行设计的,针对的是正常的序列,而突变支持reads是带有突变信息的,与正常序列会存在一定的差异,差异性取决于突变的复杂程度如SNV、INDEL、复杂INDEL,突变程度越复杂,捕获探针对发生了突变的序列捕获能力越差,导致测序数据中突变支持reads数偏少,进而影响突变的检出。二是变异检测软件:检测SNV或INDEL时,常用的代表性变异检测软件是GATK,其通过读入经bwa比对好的bam格式数据,统计每个位置上ATCG四种碱基的数目以识别SNV,通过统计CIGAR字串中标识出的I和D来识别INDEL;由此可知,突变支持reads的识别严重依赖于比对软件的性能,SNV和短INDEL只涉及单个碱基的改变,对比对影响不大,其识别率接近真实值,但对于EGFREX19DEL等较长的INDEL,当突变发生在reads末端时经常会被错误解析,如被拆分成有间隔的几个SNV或者softclip,特别是对于先缺失后又有插入的复杂突变,插入的碱基会在缺失位置上发生波动,比对结果并不能反映出所有的突变支持reads,GATK在后续的建模中就会丢失该部分信息,从而影响突变的检出。检测FUSION的代表性变异检测软件是SEEKSV,该软件通过soft-clip和PEreads的非正常比对来识别突变支持reads。在液体活检中,DNA片段长度主峰在170bp,PE信息不足,只剩下soft-clip信息一种。Soft-clip信息完全依赖于比对软件的性能,当断点位于reads末端或者断点处在基因组上存在同源区域时,都会导致无法识别,从而影响突变的检出。为了明确是哪个环节影响突变检出,常用的方法是拿测序文库进行第三方的验证,但是这种方法存在诸多的缺点,例如耗时长、成本高、准确性受第三方验证方法的精度影响等等。而且对于变异检测软件的性能评估,只能从宏观上判断是否检出,并不能体现变异检测软件对不同复杂结构突变支持reads的识别能力。发明内容本发明所要解决的技术问题是评估捕获探针对突变支持reads的捕获能力和变异检测软件的性能。为解决上述技术问题,本发明首先提供了一种精确定量肿瘤标准品中突变支持reads数的方法,可包括如下步骤:1根据肿瘤标准品的突变信息,组装参考序列;2完成步骤1后,采用比对软件对所述参考序列依次进行建索引、比对、过滤、排序和去重,得到目标reads;3完成步骤2后,将所述目标reads和所述参考序列进行比对,比对上的即为突变支持reads;统计突变支持reads数。所述步骤1中,所述肿瘤标准品可为a1或a2或a3或a4:a1带有ALK_EML4融合突变的肿瘤标准品;a2不同混合频率的融合细胞系标准品;a3H2228融合细胞系;a4不同混合频率的EGFREX19INDEL的肿瘤标准品。所述不同混合频率的融合细胞系标准品具体可为南京科佰生物科技有限公司生产的不同混合频率的融合细胞系标准品H2228。所述带有ALK_EML4融合突变的肿瘤标准品、所述H2228融合细胞系和所述不同混合频率的EGFREX19INDEL的肿瘤标准品均可为南京科佰生物科技有限公司的产品。所述步骤1中,所述组装参考序列可为组装Fusion突变类型的参考序列和或组装SNV突变类型的参考序列和或组装INDEL突变类型的参考序列。所述组装Fusion突变类型的参考序列的方法可为根据所述肿瘤标准品的突变位点的断点信息和具有生物学意义的断点方向,基于人类参考基因组,沿着各自的断点方向,前后各延伸180-220bp,组装。所述组装SNV突变类型的参考序列或所述组装INDEL突变类型的参考序列的方法可为基于人类参考基因组,将所述肿瘤标准品的突变位点的序列信息替换成突变后的序列信息,然后基于人类参考基因组前后各延伸180-220bp,组装。上文中,所述“延伸180-220bp”具体可为延伸200bp。所述步骤2中,所述比对可为将原始下机数据或与人类参考基因组进行过一次比对的reads和所述参考序列进行比对,得到精确的比对reads。所述步骤2中,所述过滤可为从所述精确的比对reads中过滤掉未比对上或比对质量值小于30的reads。所述步骤2中,所述排序可为将经过过滤的reads根据染色体编号和所在染色体上的位置进行排序。所述“将经过过滤的reads根据染色体编号和所在染色体上的位置进行排序”具体可为将经过过滤的reads根据染色体编号和所在染色体上的位置按从小到大的顺序进行排序。所述排序可采用排序软件进行。所述排序软件具体可为Samtools。所述步骤2中,所述去重可为将排序后的reads去除PCR重复片段。所述去重可采用去重软件进行。上述任一所述的方法中,所述比对软件可为比对软件tmap或比对软件bwa。当比对使用比对软件tmap时,所述去重软件具体可为BamDuplicates软件ThermoFisher公司的产品。当比对使用比对软件bwa时,所述去重软件具体可为picard软件。上述任一所述方法的应用也属于本发明的保护范围。上述任一所述方法的应用可为b1或b2或b3或b4:b1分析是捕获探针还是变异检测软件影响肿瘤基因突变的检出;b2评估肿瘤基因突变检测时捕获探针对突变支持reads的捕获能力;b3评估变异检测软件的性能;b4分析肿瘤标准品为阳性、弱阳性还是阴性。上述应用中,所述捕获探针可为所述参考序列。本发明还保护一种判断待测肿瘤标准品为阳性、弱阳性还是阴性的方法,可包括如下步骤:按照上述任一所述的方法精确定量突变支持reads数,然后进行如下判断:如果突变支持reads数为3以上,则待测肿瘤标准品为阳性;如果突变支持reads数为1或2,则待测肿瘤标准品为弱阳性;如果突变支持reads数为0,则待测肿瘤标准品为阴性。上文中,所述变异检测软件可为TVC、VarScan、GATK或LOD。上文中,上述任一所述人类参考基因组具体可为人类参考基因组hg19。实验证明,通过精确定量突变支持reads数,转换突变频率,与标准品理论的突变频率作比对,可以评估实验阶段对于突变支持reads的捕获能力;与变异检测软件识别的突变支持reads数作对比,评估变异检测软件的性能。当变异检测软件检测不出对应突变的时候,通过本发明提供的方法可以明确具体的原因是因为实验阶段未捕获到相应的突变支持reads还是变异检测软件的检测精度不够,即明确是哪个环节影响突变检出,从而指导研发体系的优化。本发明具有重大的应用价值。附图说明图1为融合基因断点方向的各种组合。图2为实施例1步骤二1中a的ref.fa文件。图3为实施例1步骤二1中b的ref.fa文件。图4为实施例1步骤二中7的实验结果。图5为实施例4中步骤2的ref.fa文件。图6为实施例4中步骤2的突变支持reads数。具体实施方式以下的实施例便于更好地理解本发明,但并不限定本发明。下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的试验材料,如无特殊说明,均为自常规生化试剂商店购买得到的。以下实施例中的定量试验,均设置三次重复实验,结果取平均值。融合基因断点方向:具有生物学意义的融合方向为启动子基因如EML4基因的上游连接癌基因如ALK基因的下游。肿瘤标准品能提供发生融合的具体基因和各自的断点,具有生物学意义的断点方向跟发生融合的两个基因的正负性有关,融合基因断点方向的各种组合见图1+表示基因的正性,-表示基因的负性。下述实施例中涉及到的程序均需在linux的环境下运行。其中比对软件tmap的网址为:https:github.comiontorrentTStreemasterAnalysisTMAP。实施例1、精确定量肿瘤标准品中突变支持reads数的方法一、精确定量肿瘤标准品中突变支持reads数的方法本方法的基本原理是根据肿瘤标准品具体的突变信息,利用组装和比对的方法精确定量突变支持reads数。具体步骤如下:1、组装参考序列根据肿瘤标准品的突变位点组装fasta格式的参考序列。一般涉及SNV、INDEL和Fusion三种突变类型的参考序列组装,Fusion相对SNV和INDEL来说更为复杂。1Fusion的组装方法根据肿瘤标准品的突变位点的断点信息和具有生物学意义的断点方向,基于人类参考基因组hg19,沿着各自的断点方向,前后各延伸200bp,组装,得到ref.fa文件。2SNV的组装方法基于人类参考基因组hg19,将肿瘤标准品的突变位点的序列信息替换成突变后的序列信息,然后基于人类参考基因组hg19前后各延伸200bp,组装,得到ref.fa文件。3INDEL的组装方法同步骤2。2、建索引完成步骤1后,使用比对软件tmap,对ref.fa文件建索引tmapindex-fref.fa。3、比对完成步骤2后,利用比对软件tmap,将原始下机数据fastq文件或未比对的文件或与人类参考基因组hg19进行过一次比对的bam文件比对到ref.fa,得到精确的比对结果tmap.bam。4、过滤完成步骤3后,过滤掉tamp.bam中未比对上或能比对上但是比对质量值小于30的reads,得到tamp.filter.bam。5、排序完成步骤4后,使用samtools排序软件对tmap.filter.bam进行排序根据染色体编号和所在染色体上的位置按从小到大的顺序进行排序。6、去重完成步骤5后,使用BamDuplicates软件ThermoFisher公司的产品对tmap.filter.bam的排序结果去除PCR重复片段,得到tmap.filter.rmdup.bam。7、统计突变支持reads数完成步骤6后,统计tmap.filter.rmdup.bam中能比对上参考序列ref.fa的突变支持reads数。例如融合突变,比对上的突变支持reads为:跨过断点2005bp以上,整条reads的编辑距离为5以下。二、按照步骤一的方法精确定量带有ALK_EML4融合突变的肿瘤标准品的突变支持reads数1、组装参考序列根据带有ALK_EML4融合突变的肿瘤标准品南京科佰生物科技有限公司的产品的突变位点组装fasta格式的参考序列。一般涉及SNV、INDEL和Fusion三种突变类型的参考序列组装,Fusion相对SNV和INDEL来说更为复杂。1Fusion的组装方法带有ALK_EML4融合突变的肿瘤标准品的两个基因的断点信息分别为ALK-chr2:29448092和EML4-chr2:42493956,ALK基因为负链基因,EML4基因为正链基因。根据两个基因正负性得到具有生物学意义的断点方向,但是除了具有生物学意义的方向外,在DNA的测序数据中有时也能发现癌基因ALK基因上游连接启动子基因EML4基因下游的信号,因此在组装参考序列的时候两种断点方向都需要考虑。基于人类参考基因组hg19,在ALK基因和EML4基因的断点处,沿着各自的断点方向,前后各延伸200bp,组装出启动子基因上游连接癌基因下游以及癌基因上游连接启动子基因下游的ref.fa文件。ref.fa文件见图2。2SNV的组装方法基于人类参考基因组hg19,将带有ALK_EML4融合突变的肿瘤标准品的突变位点的序列信息替换成突变后的序列信息,然后基于人类参考基因组hg19前后各延伸200bp,组装,得到ref.fa文件。ref.fa文件见图3。3INDEL的组装方法同步骤2。2、建索引同步骤一中2。3、比对同步骤一中3。4、过滤同步骤一中4。5、排序同步骤一中5。6、去重同步骤一中6。7、统计突变支持reads数同步骤一中7。实验结果图4。实施例2、实施例1提供的精确定量突变支持reads数的方法的可追溯性待测样本一:不同混合频率的融合细胞系标准品H2228南京科佰生物科技有限公司的产品,突变基因型为ALK_EML4。待测样本二:不同混合频率的融合细胞系标准品H2228南京科佰生物科技有限公司的产品,突变基因型为ALK_EML4。1、取待测样本一或待测样本二,采用NGS高通量测序检测。待测样本一的NGS检测结果见表1第4列。待测样本二的NGS检测结果见表2第4列。2、取待测样本一或待测样本二,采用实施例1提供的方法检测精确定量突变支持reads数。具体步骤如下:1组装参考序列同实施例1步骤一中1。2建索引同实施例1步骤一中2。3比对同实施例1步骤一中3。4过滤同实施例1步骤一中4。5排序同实施例1步骤一中5。6去重同实施例1步骤一中6。7统计突变支持reads数同实施例1步骤一中7。待测样本一的检测结果见表1第5列。待测样本二的检测结果见表2第5列。表1表2表1结果如下:待测样本一的突变支持reads数很少,只有0或者1;表2结果如下:待测样本二的突变支持reads数很多,远大于待测样本一的突变支持reads数,并且是随着混合频率增大而增多。采用NGS检测方法获得的检测结果与采用实施例1提供的方法获得的检测结果完全一致。由此可见,采用NGS高通量测序检测待测样本一未能检出的原因是待测样本一本身不带有突变信息。实施例3、实施例1提供的精确定量突变支持reads数的方法在评估不同变异检测软件的性能中的应用待测样本:不同混合频率的EGFREX19INDEL的肿瘤标准品南京科佰生物科技有限公司的产品。1、取待测样本,分别采用变异检测软件TVC、VarScan、GATK和LOD检测,统计各个软件识别的突变支持reads数。检测结果见表3第3列至6列。2、取待测样本,采用实施例1提供的方法检测精确定量突变支持reads数。检测结果见表3第7列。表3结果表明,不同的变异检测软件对于突变支持reads的识别都不尽相同。因此,通过与精确定量突变支持reads数进行对比,可以评估不同变异检测软件的性能,也能作为科研或产品研发阶段最优检测软件挑选的依据。上述结果还表明,通过精确定量突变支持reads数,转换突变频率,与标准品理论的突变频率作比对,可以评估实验阶段对于突变支持reads的捕获能力;与变异检测软件识别的突变支持reads数作对比,评估变异检测软件的性能。当变异检测软件检测不出对应突变的时候,通过本发明提供的方法可以明确具体的原因是因为实验阶段未捕获到相应的突变支持reads还是变异检测软件的检测精度不够,从而指导研发体系的优化。实施例4、实施例1提供的精确定量突变支持reads数的方法的可验证性待测样本:H2228融合细胞系南京科佰生物科技有限公司的产品;其断点为ALK-chr2:29448093和EML4-chr2:42493957。1、取待测样本,采用变异检测软件广州肺癌产品配套的自主开发软件检测,统计识别的突变支持reads数。结果表明,待测样品为弱阳性。2、取待测样本,采用实施例1提供的方法检测精确定量突变支持reads数,然后进行如下判断:如果突变支持reads数为3以上,则待测样品为阳性;如果突变支持reads数为1或2,则待测样品为弱阳性;如果突变支持reads数为0,则待测样品为阴性。ref.fa文件见图5。统计突变支持reads数的实验结果图6。结果表明,待测样本的突变支持reads数为7,判断待测样品为阳性。由此可见,不同的变异检测软件对于突变支持reads的识别率相对于真实的突变支持reads会有一定的差距,当变异检测软件检测出弱阳性的结果时,可能是因为变异检测软件对突变支持reads的识别能力有限,识别到的突变支持reads数太少,不能通过变异检测算法的阳性阈值。可见,采用传统的变异检测软件检测有一定的局限性。使用本发明提供的方法精确统计真实的突变支持reads,进而在生物信息的层面对弱阳性的结果进行验证。

权利要求:1.一种精确定量肿瘤标准品中突变支持reads数的方法,包括如下步骤:1根据肿瘤标准品的突变信息,组装参考序列;2完成步骤1后,采用比对软件对所述参考序列依次进行建索引、比对、过滤、排序和去重,得到目标reads;3完成步骤2后,将所述目标reads和所述参考序列进行比对,比对上的即为突变支持reads;统计突变支持reads数。2.如权利要求1所述的方法,其特征在于:所述步骤1中,所述肿瘤标准品为a1或a2或a3或a4:a1带有ALK_EML4融合突变的肿瘤标准品;a2不同混合频率的融合细胞系标准品;a3H2228融合细胞系;a4不同混合频率的EGFREX19INDEL的肿瘤标准品。3.如权利要求1或2所述的方法,其特征在于:所述步骤1中,所述组装参考序列为组装Fusion突变类型的参考序列和或组装SNV突变类型的参考序列和或组装INDEL突变类型的参考序列。4.如权利要求1所述的方法,其特征在于:所述步骤2中,所述比对为将原始下机数据或与人类参考基因组进行过一次比对的reads和所述参考序列进行比对,得到精确的比对reads。5.如权利要求1所述的方法,其特征在于:所述步骤2中,所述过滤为从所述精确的比对reads中过滤掉未比对上或比对质量值小于30的reads。6.如权利要求1所述的方法,其特征在于:所述步骤2中,所述排序为将经过过滤的reads根据染色体编号和所在染色体上的位置进行排序。7.如权利要求1所述的方法,其特征在于:所述步骤2中,所述去重为将排序后的reads去除PCR重复片段。8.如权利要求1所述的方法,其特征在于:所述比对软件为比对软件tmap或比对软件bwa。9.权利要求1至8任一所述方法的应用,为b1或b2或b3或b4:b1分析是捕获探针还是变异检测软件影响肿瘤基因突变的检出;b2评估肿瘤基因突变检测时捕获探针对突变支持reads的捕获能力;b3评估变异检测软件的性能;b4分析肿瘤标准品为阳性、弱阳性还是阴性。10.一种判断待测肿瘤标准品为阳性、弱阳性还是阴性的方法,包括如下步骤:按照权利要求1至8任一所述的方法精确定量突变支持reads数,然后进行如下判断:如果突变支持reads数为3以上,则待测肿瘤标准品为阳性;如果突变支持reads数为1或2,则待测肿瘤标准品为弱阳性;如果突变支持reads数为0,则待测肿瘤标准品为阴性。

百度查询: 深圳华大基因股份有限公司 深圳华大临床检验中心 广州华大基因医学检验所有限公司 天津华大医学检验所有限公司 一种精确定量肿瘤标准品中突变支持reads数的方法及其应用

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。