Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

通过测序评估的DSBs的全基因组无偏鉴定(GUIDE‑Seq) 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:通用医疗公司

摘要:无偏的、全基因组的和高敏感性的方法,用于检测工程化核酸酶诱导的突变,例如脱靶突变。

主权项:一种在细胞的基因组DNA中检测双链破裂DSB的方法,所述方法包括:使所述细胞与双链寡聚脱氧核苷酸dsODN接触,其中所述dsODN的长度优选地在15到50nts之间,其中所述dsODN的两条链对于所述细胞的基因组都是直系同源的;优选地,所述dsODN的5'末端是磷酸化的;以及还优选地,在两个3'末端上存在硫代磷酸酯连接,或在两个3'末端和两个5'末端上存在两个硫代磷酸酯连接;在所述细胞中表达或活化外源的工程化核酸酶,其时间足以使所述核酸酶在所述细胞的基因组DNA中诱导DSB,以及足以使所述细胞修复所述DSB,在一个或多个DSB处整合dsODN;扩增包含整合的dsODN的基因组DNA的部分;和对所述基因组DNA的扩增的部分进行测序,从而检测所述细胞的基因组DNA中的DSB。

全文数据:通过测序评估的DSBs的全基因组无偏鉴定GUIDE-Seq[0001]优先权要求[0002]本申请要求2014年6月23日提交的美国临时专利申请序号62015,911,2014年11月10日提交的美国临时专利申请序号62077,844,2014年11月12日提交的美国临时专利申请序号62078,923,以及2014年12月5日提交的美国临时专利申请序号62088,223的权益。上述的全部内容通过引用合并在本文中。[0003]联邦政府资助的研究或开发[0004]本发明是在美国国立卫生研究院授予的拨款NO.DP1GM105378的政府支持下作出的。在本发明中政府拥有某些权益。技术领域[0005]提供的是高敏感性、无偏和全基因组的方法,用于鉴定活细胞中工程化的核酸酶裂解位点的位置。背景技术[0006]人类医学的长远目标是治疗先天的遗传性失调。基因组编辑涵盖了直接纠正内源基因中的突变来治愈或预防疾病的强大构想。这种方法的一个正在出现的实例是被工程化以破坏HIV的共受体CCR5的锌指核酸酶ZFN治疗剂的临床试验(1。这种离体的自体细胞治疗方法试图重演"柏林患者"TimothyBrown的HIV的成功治愈,该患者被移植了来自带有CCR5纯合突变的个体的骨髓细胞。另一个新近的实例是X-连锁的严重联合免疫缺陷失调的矫正,其是通过在来自6个月龄受试者的造血干细胞中对ZFN的基因靶向(2。[0007]存在四种主要类型的工程化核酸酶:1巨核酸酶meganucleases,2锌指核酸酶,3转录激活物效应物样核酸酶(transcriptionactivatoreffector-likenucleases,TALEN,和4成族规则间隔短回文重复ClusteredRegularlyInterspacedShortPalindromicRepeats,CRISPRCasRNA-向导的核酸酶RGN。[0008]然而,这些新的治疗和研究工具的采用可能取决于它们的特异性的证明。如果这些核酸酶要广泛用于研究和治疗应用,对人类和其他真核细胞中脱靶效应的了解和鉴定将是极为必要的。发明内容[0009]GUIDE-Seq提供无偏的、全基因组的和高敏感性的方法,用于检测突变,例如由工程化核酸酶诱导的脱靶突变。因而,所述方法提供了用于在活的哺乳动物细胞中在全基因组尺度上评估突变的最全面的无偏方法。所述方法可以在任何细胞类型中利用,在所述细胞类型中dsODN可以被有效地捕获入核酸酶诱导的DSB中。[0010]因而,在一个方面,本发明提供了方法,用于检测双链破裂(doublestrandedbreaks,DSBs,例如,脱靶DSB,例如,在细胞的基因组DNA中由外源的工程化核酸酶所诱导的。所述方法包括使细胞与双链寡聚脱氧核苷酸dsODN接触,优选地其中所述dsODN长度在15到75nts之间,例如,15-501^8、50-751^8、30-351^8、60-65拉8或50-651^8长,其中所述dsODN的两条链对于所述细胞的基因组都是直系同源的;优选地,所述dsODN的5'末端是磷酸化的;以及优选地,在两个3'末端存在硫代磷酸酯连接,或在两个3'末端和两个5'末端存在两个硫代磷酸酯连接;[0011]在细胞中表达或活化外源的工程化核酸酶,其时间足以使所述核酸酶在细胞的基因组DNA中诱导DSB,以及足以使细胞修复所述DSB,在一个或更多个DSB处整合dsODN;[0012]扩增包含整合的dsODN的基因组DNA的部分;以及[0013]对所述基因组DNA的扩增的部分进行测序,[0014]从而检测细胞的基因组DNA中的DSB。[0015]在某些实施方式中,扩增基因组DNA的部分包括:[0016]使所述DNA片段化,例如通过剪切;[0017]使来自所述细胞的片断化基因组DNA的末端与通用衔接子连接;[0018]使用与所述整合的dsODN互补的引物(引物A和与所述通用衔接子互补的引物(弓丨物B在所述连接的DNA上进行第一轮聚合酶链式反应PCR;然后使用与引物A互补的3'嵌套引物(引物C、与引物B互补的3'嵌套引物(引物D和与引物D互补的引物(引物E进行第二轮PCR。在某些实施方式中,引物E包含一种或更多种的:[0019]纯化或结合序列,例如,流动细胞结合序列;和[0020]鉴定序列,例如,条码或随机分子索引。[0021]在某些实施方式中,所述工程化核酸酶选自由巨核酸酶、锌指核酸酶、转录激活物效应物样核酸酶TALEN和成簇规则间隔短回文重复CRISPRCasRNA-向导的核酸酶CRISPRCasRGN构成的组。[0022]在另一个方面,本发明提供了用于确定多个向导RNA的哪一个是最为特异性的,即,诱导最少的脱靶DSB的方法。所述方法包括使第一细胞群体与第一向导RNA和双链寡聚脱氧核苷酸(dsODN接触,优选地其中所述dsODN长度在15到75nts之间,例如,15-50nts、50-75nts、60-65nts、30-35nts或50-65nts的长度,其中所述dsODN的两条链对于所述细胞的基因组都是直系同源的;优选地,所述dsODN的5'末端是磷酸化的;以及优选地,在两个3'末端存在硫代磷酸酯连接,或在两个3'末端和两个5'末端存在两个硫代磷酸酯连接;[0023]在所述第一细胞群体中表达或活化外源的Cas9工程化核酸酶,其时间足以使核酸酶在细胞的基因组DNA中诱导DSB,以及足以使细胞修复所述DSB,在一个或更多个DSB处整合dsODN;[0024]扩增包含整合的dsODN的、来自所述第一细胞群体的基因组DNA的部分;以及[0025]对来自所述第一细胞群体的所述基因组DNA的扩增的部分进行测序;[0026]测定所述dsODN整合到所述第一细胞群体的基因组DNA中的位点的数目;使第二细胞群体与第二向导RNA和双链寡聚脱氧核苷酸dsODN接触,优选地其中所述dsODN长度在15到75nts之间,例如,15-50nts、50-75nts、30-35nts、60_65nts、或50_65nts的长度,其中所述dsODN的两条链对于所述细胞的基因组都是直系同源的;优选地,所述dsODN的5'末端是磷酸化的;以及还优选地,在两个3'末端和两个5'末端存在两个硫代磷酸酯连接;[0027]在所述第二细胞群体中表达或活化外源的Cas9工程化核酸酶,其时间足以使核酸酶在所述第二细胞群体的基因组DNA中诱导DSB,以及足以使细胞修复所述DSB,在一个或更多个DSB处整合dsODN;[0028]扩增来自所述第二细胞群体的、包含整合的dsODN的基因组DNA的部分;以及[0029]对来自所述第二细胞群体的所述基因组DNA的扩增的部分进行测序;[0030]测定所述dsODN整合到所述第二细胞群体的基因组DNA中的位点的数目;比较所述dsODN整合到所述第一细胞群体的基因组DNA中的位点的数目和所述dsODN整合到所述第二细胞群体的基因组DNA中的位点的数目;其中在更少的脱祀位点处整合dsODN是更为特异性的。所述方法可以对第三、第四、第五、第六或更多的细胞群体重复。"更少的"脱靶位点可能包括更少数量的DSB位点和或在一个或更多个单独位点处DSB的发生频率降低。[0031]本文还提供的是通过使用如本文描述的末端保护的dsODN将感兴趣的短dsDNA有效地整合到DSB的位点中的方法。[0032]在某些实施方式中,所述细胞是哺乳动物细胞。[0033]在某些实施方式中,其中所述工程化核酸酶是Cas9核酸酶,所述方法还包括在所述细胞中表达将Cas9核酸酶引导至基因组中的目标序列的向导RNA,例如,单向导(sing1eguide或tracrRNAcrRNA对。[0034]在某些实施方式中,dsODN是生物素化的,例如,包含共价附着于dsODN的生物素,和或包含随机的DNA条码或Cre或Lox位点。上述权利要求的任一项的方法,其中所述dsODN是生物素化的。[0035]在某些实施方式中,本文描述的方法包括将基因组gDNA剪切成片段;以及通过结合于生物素来分离包含dsODN的片段。[0036]在某些实施方式中,所述dsODN是钝末端的,或在5'末端具有1、2、3或4nts的突出;在5'末端被磷酸化;和或在3'末端被硫代磷酸酯化。[0037]在某些实施方式中,所述dsODN是钝末端的,在5'末端被磷酸化,以及在3'末端被硫代磷酸酯化。[0038]在某些实施方式中,所述dsODN含有随机DNA条码、Lox识别位点、限制酶识别位点和或标签tag序列。[0039]在某些实施方式中,所述方法包括将基因组gDNA剪切成片段;准备所述片段用于测序,例如,高通量测序,通过末端修复a_加尾连接测序衔接子,例如,单尾测序衔接子。[0040]在某些实施方式中,所述DSB是背景基因组DSB例如,在脆弱的位点)或由关键细胞蛋白质的小分子抑制物引起的DSB。[0041]除非另外定义,本文使用的所有技术和科学术语具有本发明所属领域普通技术人员通常理解的相同含义。本文描述了本发明中使用的方法和材料;也可以使用本领域已知的其他的、适合的方法和材料。所述材料、方法和实例仅仅是说明性的,而不意图作为限制性的。本文提及的所有出版物、专利申请、专利、序列、数据库条目和其他参考文献通过引用将它们完全合并。在冲突的情况下,本说明书,包括定义,是支配性的。[0042]根据以下的详细说明和附图,以及根据权利要求,本发明的其他特征和优点将是明显的。附图说明[0043]附图ΙΑ-B.CRISPR-Cas核酸酶介导的dsODN捕获的优化。(a显示了使用的短寡核苷酸标签的序列。使用的所有寡核苷酸都是5'磷酸化的。标签寡核苷酸还含有诊断性Ndel限制位点,其允许通过RFLP估计整合频率。(b底部的图显示了通过RFLP的短dsODN的整合%。具有5'和3'硫代磷酸酯连接的dsODN的整合率每个组中的左侧柱与仅有5'硫代磷酸酯连接的dsODN每个组中的中间柱)以及没有dsODN的对照(每个组中的右侧柱进行比较。[0044]附图2A-B.VEGF位点1整合的表征。(a显示了对VEGF位点1的RFLP分析,如在Qiaxcel毛细管电泳仪上分析的,表明带有Ndel限制位点的dsODN的成功的掺入。(b示出对预期的VEGF位点1目标位点处的dsODN整合的Sanger测序数据。dsODN序列是灰色突出显示的。革G向VEGFA位点1的向导RNACas9复合物识别的位点是粗体突出显示的,邻近的前间区邻近基序PAM序列是下划线的。在这个位点由Cas9诱导的预计的双链破裂的位置用小的黑色箭头表示。[0045]附图3.示例性的⑶IDE-seq方法的概览。[0046]附图4A-E.通过GUIDE-Seq方法发现的CRISPR-Cas脱靶裂解位点。对四个位点VEGF位点1-3和EMX1显示了数据。突出显示了目标位点序列的错配。小的实心黑色箭头用于指示预期的在靶位点,而小的虚线箭头用于标记在较早的研究Fu等人,2013中已经测出的已知的脱靶位点。[0047]附图5A-I.示例性的⑶IDE-Seq方法的设计、优化和应用。[0048]a示例性的GUIDE-Seq方法的示意性概述。[0049]b人类细胞中dsODN整合进入RGN诱导的DSB的优化。显示了通过RFLP分析测量的不同修饰的寡核苷酸的整合率。对照反应仅用RGN编码质粒即,没有dsODN转染。[0050]C基因组序列读取结果作图如何实现鉴定DSB位置的示意性说明。双向作图的读取结果或者作图至相同方向但由不同引物扩增的读取结果是GUIDE-seq分析中DSB的标志signatures。还参见附图1Α〇[0051]dRGN诱导的DSB的基于⑶IDE-Seq的鉴定。绘制在基因组上的⑶IDE-Seq读取结果的起始位点允许将DSB绘制在几个碱基对之内。显示了我们通过GUIDE-Seq评估的十个RNGs的在靶位点的绘制的读取结果。在所有情况中,显示了目标位点序列,在X轴上20bp前间区序列在左侧,PAM序列在右侧。注意到在所有情况中最高峰如何落在NGGPAM序列的5'边缘的3到4bps之内,即RGN裂解事件的预期位置。[0052]e对这项研究中分析的十个RGN通过⑶IDE-Seq鉴定的早先已知的和新的脱靶裂解位点的数量。4个RGN的所有早先已知的脱靶裂解都被GUIDE-seq鉴定出来。[0053]f对于这份报告的十个RGN,对人类基因组的在靶位点正交性(y-轴)对比通过GUIDE-Seq检测的脱靶位点总数的散点图。正交性被计算为相对于在靶位点带有1到6个错配的人类基因组中的位点的总数。[0054]g对于这份报告的十个RGN,在靶位点GC含量y-轴对比通过GUIDE-Seq检测的脱靶位点总数的散点图。[0055]h靶向EMX1的RGN的CRISPRCas9在靶和脱靶位点的染色体带图(chromosomeideogram。其余RGN的其他带图可以在附图13中找到。[0056]i对这项研究中检查的十个RGN通过⑶IDE-Seq鉴定的脱靶裂解位点的基因组位置。[0057]附图6A-J.十个RGN的GUIDE-Seq鉴定的脱靶位点的序列。对于每个RGN,在顶部行显示了预期的目标序列,裂解位点显示在下方,用颜色显示和突出了在靶位点的错配。在每个位点的右侧显示了GUIDE-Seq测序读取结果计数。在靶位点用方形标记,早先已知的脱靶位点用菱形标记。对靶向以下位点的RGN显示了数据:(aVEGFA位点1,(bVEGFA位点2,(cVEGFA位点3,(dEMXl,(eFANCF,(fHEK293位点1,(gHEK293位点2,(hHEK293位点3,⑴HEK293位点4,(jRNF2。靶向RNF2位点的RGN没有发现脱靶位点。[0058]附图7A-F.GUIDE-Seq裂解位点是真实的RGN脱靶突变位点。[0059]a在附图的上半部显示了用于确认GUIDE-Seq裂解位点处的插入-删除(indel突变的基于AMP的测序方法的示意性概述。对三个RGN在靶位点显示了绘制的插入-删除突变的直方图。删除显示在X-轴的上方,插入显示在下方。用点线显示了整体目标位点的边界即,前间区和PAM序列),前间区和PAM序列之间的边界用两者之间的虚线显示。预计RGN裂解在距前间区的5'边缘3到4bps发生。[0060]b-f对于靶向VEGFA位点1、VEGFA位点2、VEGFA位点3、EMX1和FANCF的RGN,通过GUIDE-Seq鉴定的裂解位点的插入-删除频率X-轴和⑶IDE-Seq测序读取结果计数y-轴)的散点图。[0061]附图8A-ERGN诱导的脱靶序列特征的分析[0062]a被裂解的带有一定数量错配的可能的RGN脱靶位点通过⑶IDE-Seq检测)的部分。[0063]b对带有一定数量错配的RGN脱靶裂解位点的⑶IDE-Seq读取结果计数(log-标度的标绘。[0064]c前间区内的错配位置对RGN脱靶位点的GUIDE-Seq读取结果计数的影响。碱基从1到20编号,20为邻近于PAM的碱基。[0065]d线性回归分析估计的摇摆wobble转换、非摇摆转换以及颠换错配的影响。[0066]e对于错配数量、错配类型、错配位置、PAM密度、表达水平和基因组位置基因间的外显子内含子的影响,通过独立的单变量分析解释的GUIDE-Seq读取结果计数变动的部分。[0067]附图9A-F.对于鉴定RGN脱靶位点,GUIDE-Seq与的计算机预测或ChIP-Seq方法的比较。[0068]a说明了对于九个RGN,通过MITCRISPRDesignTool与GUIDE-Seq预测的脱靶位点之间的重叠的文氏图。[0069]b说明了对于九个RGN,通过E-CRISP计算机预测程序与GUIDE-Seq预测的脱靶位点之间的重叠的文氏图。[0070]C显示了通过MITCRISPRDesignTool预测的、未预测的、或不认为是的,由GUIDE-Seq鉴定的真实RGN脱靶位点数量的直方图。MITCRISPRDesignTool预测的位点根据程序提供的分值分成五份。每个柱具有基于相对在靶位点的错配数目进一步分类的位点。凸起的位点是在gRNA-前间区DNA接触面处具有跳过的碱基位置的位点。[0071]d显示了通过E-CRISP计算机预测工具预测的、未预测的、或不认为是的,由GUIDE-Seq鉴定的真实RGN脱靶位点数量的直方图。位点按照c中描述的进行细分。[0072]e说明了通过ChIP-Seq鉴定的dCas9结合位点与⑶IDE-Seq鉴定的RGN脱靶裂解位点之间的重叠的文氏图。[0073]f通过⑶IDE-Seq鉴定的RGN脱靶位点与根据相对于预期的在靶位点在序列中的错配的数量来分类的通过ChIP-Seq鉴定的dCas9结合位点的直方图。描绘了GUIDE-Seq和ChIP-Seq错配的核密度估计Kerneldensityestimation。点线表示对每个位点类别的平均错配数量。[0074]附图1OA-FRGN诱导的大规模结构改变[0075]a用于检测转位的AMP策略的示意性的概述。其他细节在方法小节中。[0076]bRGN诱导的结构变异的Circos图。显示了五个RGN和细胞对照的数据。染色体按圆形排列,转位被显示为两个染色体位置之间的弧线。大于lkb长度的删除或倒转被显示为直线。不是在靶、脱靶或断点热点的位点被分类为"其他"。[0077]c在染色体6上的VEGFA位点1在靶位点与染色体17上的脱靶位点之间检测到的转位的实例。使用AMP检测出所有四种可能的相互易位。[0078]dAMP检测的VEGFA位点2中的两个脱靶位点之间大的删除和倒转的实例。[0079]e用五个RGN观察到的不同的RGN诱导的结构变异、以及独立于RGN的结构变异的总表。还显示了仅有Cas9、仅有dsODN寡聚物、以及仅有细胞的对照。[0080]f说明了U20S和HEK293细胞中断点热点的位置的染色体带图。染色体1和10的着丝粒区域处的两个热点重叠。[0081]附图11A-H.tru-gRNA向导的RGN的GUIDE-Seq分布[0082]a对通过匹配的全长gRNA和截短的gRNA导向至VEGFA位点1、VEGFA位点3和EMX1目标位点的RGN所鉴定的早先已知的和新的脱靶裂解位点的数量。注意全长gRNA向导的RGN的数据与附图le中呈现的相同,在此再次显示以易于比较。[0083]b-d显示了通过匹配的全长gRNA和截短的gRNA导向至VEGFA位点1、VEGFA位点3和EMX1目标位点的RGN的在靶和脱靶位点的染色体带图。注意全长gRNA向导的RGN的带图与附图lh和附图13A-B中呈现的相同,在此再次显示以易于比较。[0084]etru-gRNA向导的RGN所诱导的DSB的基于⑶IDE-Seq的鉴定。显示了我们通过GUIDESeq评估的tru-gRNA向导的三个RGN的在靶位点的绘制的读取结果。在所有情况中,显示了目标位点序列,在X轴上20bp前间区序列在左侧,PAM序列在右侧。如同全长gRNA向导的RGN-样,注意最高峰如何落在NGGPAM序列的5'边缘的3到4bps之内,即RGN裂解事件的预期位置。[0085]f-h对于tru-gRNA向导的RGN,通过⑶IDE-Seq鉴定的脱靶位点的序列。对于每个RGN,在顶部行显示了预期的目标序列,裂解位点显示在下方,用颜色显示和突出了在靶位点的错配。在每个位点的右侧显示了GUIDESeq测序读取结果计数。预期的在靶位点用方形标记,全长gRNA和tru-gRNA向导的RGN的早先已知的脱靶位点用暗灰色菱形标记,仅由tru-gRNA向导的RGN发现的早先已知的脱靶位点用浅灰色菱形标记。早先已知的脱靶位点是在FU等,NatBiotechnol32,279-2842014的较早的报道中显示了具有0.1%或更高的诱变频率的那些。对于由tru-gRNA导向至fVEGFA位点1、(gVEGFA位点3、以及hEMX1目标位点的RGN显示了数据。[0086]附图12.用于验证dsODN插入和插入-删除突变的⑶IDE-Seq和基于AMP的测序的详细示意性概述。两种方案的细节可以在方法小节中找到。[0087]附图13A-J.通过⑶IDE-Seq评估的所有十个RGN的CRISPRCas9在靶和脱靶位点的染色体带图。[0088]附图14.多因子线性回归模型来显示各因素对⑶IDE-Seq读取结果计数的独立影响[0089]附图15A-D.对早先被表征为脱靶裂解位点的七个ChIP-Seq结合位点绘制的插入-删除突变的直方图。对于每个位点,实验的和对照的样品并排显示。[0090]附图16A是显示了利用靶向EGFP的TALENs、ZFNs和RFNs的3种类型dsODN的整合频率的图形。所有dsODN都是5'磷酸化的。dsODN具有随机的5或3'-4-bp突出,或是钝端的,如所标明的。[0091]附图16B-C是显示了钝端的、5'-磷酸化的、34-bp双链寡聚脱氧核苷酸(dsODNOSQT685686在U20S细胞中2个内源目标位点CCR5和APC处进入TALENs诱导的双链破裂DSB的高效整合的图形。(16BRFLP分析显示在2个内源位点CCR5和APC处dsODN标签OSQT685686进入TALENs诱导的DSB的整合%。(16C在这两个内源目标位点处通过T7E1分析来测量的累积诱变频率。[0092]附图17A和17B是柱形图,显示了不同的dsODN末端保护的比较;这项实验中使用的dsODN是磷酸化的和钝端的,并且具有5'和3'硫代磷酸酯化修饰,或仅有3'硫代磷酸酯化修饰。17A,人类U20S细胞中的RFNs;17B,小鼠ES细胞中的Cas9。[0093]附图18A-B是显示了在小鼠ES细胞中不同浓度的3'硫代磷酸修饰寡聚物的实验的图形。18A,NanogsgRNACas9;18B,PhclsgRNACas9。dsODN是磷酸化和钝端的,并且具有5'和3'硫代磷酸酯化修饰,或仅有3'硫代磷酸酯化修饰。实验在人类U20S细胞中用二聚的RNA-向导的FokI核酸酶进行附图18A,或在小鼠ES细胞中用标准的Cas9进行附图18B。[0094]附图18C是显示了小鼠ES细胞中存在3'硫代磷酸酯化修饰的寡聚物时破坏率的T7E1分析的图形。[0095]附图19A-B显示了在U20S细胞中3个内源目标位点VEGFA3、EMX1和FANCF1处生物素化dsODN标签进入Cas9诱导的双链破裂DSB的高效整合。(19ARFLP分析显示了在U20S细胞中3个内源位点VEGFA3、EMX1和FANCF1处,生物素化的ds0DNoSQT12611262相比于标准的dsODNOSQT685686进入Cas9诱导的DSB的整合率%。(19BT7EI显示了在U20S细胞中3个内源位点VEGFA3、EMX1和FANCF1处,生物素化的dsODN〇SQT12611262相比于标准的dsODNOSQT685686的估计的诱变频率%。[0096]附图20A-B显示了更长的dsODN标签可以被优化而高效地整合于CRISPR-Cas9诱导的DSB的位点。(20ARFLP分析显示了当以75、50或25pmol转染时,60-bpds0DNoSQT12551256、oSQT12571258和〇SQT12591260的整合率%。在U20S细胞中的2个内源位点EMX1和FANCF1处测试。(20BT7EI显示了当以75、50或25pmol转染时,60-bpds0DNoSQT12551256、oSQT12571258和〇SQT12591260的估计的。在U20S细胞中的2个内源位点EMX1和FANCF1处测试。[0097]附图21是显示了对于利用不同的sgRNA的工程化的VQR和VRERSpCas9变体,通过GUIDE-Seq鉴定的脱靶裂解位点的数量的图形。[0098]附图22是概述了在脱靶位点处野生型和D1135ESpCas9变体之间由GUIDE-Seq检出的特异性方面的改变的图形。在没有D1135E的读取结果计数的位点上特异性的估计的倍率增加没有被绘出。[0099]附图23A-B是显示了通过限制性片断长度多态性分析估计的、在靶位点处GUIDE-Seq寡聚标签整合的平均频率的图形23A。误差线代表s.e.m.,n=4;23BGUIDE_Seq实验通过T7E1检测的在靶位点处的平均诱变频率。误差线代表s.e.m.,η=4。具体实施方式[0100]本文描述的通过测序评估的DSB的全基因组无偏鉴定GUIDE-Seq方法提供了高敏感性的、无偏的和全基因组的方法,用于鉴定活细胞中工程化的核酸酶裂解位点的位置,所述活细胞例如,其中非同源末端接合non-homologousend-joining,NHEJ修复途径是有活性的细胞。在某些实施方式中,所述方法依靠短的双链寡聚脱氧核苷酸dsODN捕获到核酸酶诱导的破裂中(一种推测的由NHEJ途径介导的过程),然后利用插入的dsODN序列来鉴定基因组插入物的位点,例如,使用基于PCR的深度测序方法,其中插入的dsODN序列被用于选择性扩增基因组插入的位点,用于高通量测序,或利用附着的标签如生物素,例如使用溶液杂交捕获来选择性地拉下包括了插入的dsODN的基因组片段。本文描述的是在培养的人类细胞中开发和验证GUIDE-Seq方法;本文描述的一般方法将在所有哺乳动物细胞中以及在NHEJ途径有活性或推测有活性的任何细胞类型或生物体中起作用。[0101]通过这种初步的测序过程鉴定的潜在的脱靶位点也可以分析仅表达核酸酶组分的细胞中的NHEJ修复的插入-删除突变特征。可利用扩增接着深度测序来进行的这些实验,将提供每种核酸酶诱导的脱靶突变频率的额外的确认和定量。[0102]双链寡聚脱氧核苷酸dsODN[0103]在本文描述的方法中,非天然发生的dsODN在细胞中表达。在本方法中,dsODN的两条链对于细胞的基因组都是直系同源的(即,不存在于细胞的基因组中,或互补于细胞的基因组中存在的序列,即,与细胞的基因组中存在的序列具有不超过10%、20%、30%、40%或50%的同一性)。^00_勺长度可以优选地在15到751^8之间,例如15-50的8、50-751^8、30-35nts、60-65nts、或50-65nts,或在15到50nts之间,例如20-40或30-35,例如32-34nts长。dsODN的每条链应当包括唯一的PCR引导序列(即,dsODN包括两个PCR引物结合位点,每条链上一个)。在某些实施方式中,所述dsODN包括限制酶识别位点,优选地,在细胞的基因组中相对罕见的位点。[0104]所述dsODN优选地是被修饰的,优选地,所述dsODN的5'末端是磷酸化的;以及还优选地,在两个3'末端和两个5'末端上存在两个硫代磷酸酯连接。在优选的实施方式中,所述dsODN是钝末端的。在某些实施方式中,所述dsODN包括5'或3'末端上1、2、3、4或更多个核苷酸突出的随机变种。[0105]所述dsODN还可以包括一个或更多个另外的修饰,例如本领域已知的或在PCTUS2011060493中描述的。例如,在某些实施方式中,所述dsODN是生物素化的。GUIDE-seqdsODN标签的生物素化的版本被用作底物,用于整合到基因组DSB的位点中。生物素可以位于所述dsODN的内部任何地方例如,修饰的胸腺嘧啶核苷残基Biotin-dT或使用生物素叠氮化物),但不在5'或3'末端上。如实施例4所示,可高效地整合这样的寡聚物。这提供了回收含有⑶IDE-SeqdsODN标签的片段的另外的方法。而在某些实施方式中,这些序列通过嵌套PCR来取回和鉴定,在这种方法中,通过利用生物素,例如,通过结合到链霉亲和素蛋白包被的磁性珠子,或利用溶液杂交捕获来将它们物理上地拉出;参见,例如,Gnirke等人,NatureBiotechnology27,182-1892009。基本的益处是取回两边的侧翼序列,这降低了对于为了鉴定脱靶裂解位点将序列作图到参考基因组上的依赖性。[0106]工程化核酸酶[0107]存在四种主要类型的工程化核酸酶:1巨核酸酶,2锌指核酸酶,3转录激活物效应物样核酸酶(TALEN,和成簇规则间隔短回文重复(CRISPRCasRNA-向导的核酸酶RGN。参见,例如,Gaj等人,TrendsBiotechnol.2013Jul;317:397-405。利用本领域已知的方法,核酸酶可以短暂地或稳定地在细胞中表达;通常,为了获得表达,编码蛋白质的序列被亚克隆到表达载体中,所述表达载体含有向导转录的启动子。适合的真核的表达系统是本领域公知的,例如,在Sambrook等人,MolecularCloning,ALaboratoryManual4thed.2013;Kriegler,GeneTransferandExpression:ALaboratoryManual2006;以及CurrentProtocolsinMolecularBiologyAusubel等人,eds.,2010中描述了。真核细胞和原核细胞的转化根据标准技术进行(参见,例如,上述参考文献,以及Morrison,1977,J.Bacteriol.132:349-351;Clark-Curtiss&Curtiss,MethodsinEnzymology101:347-362Wu等人,eds,1983。[0108]归巢巨核酸酶[0109]巨核酸酶是序列特异性的内切核酸酶,其来源于多种生物体,例如,细菌、酵母、藻类和植物细胞器。内源的巨核酸酶具有12到30个碱基对的识别位点;已经描述了具有18bp和24bp长度的巨核酸酶识别位点的定制的DNA结合位点,其都可以用于当前的方法和构建体中。参见,例如,Silva,G.,等人,CurrentGeneTherapy,11:11-27,(2011;Arnould等人,JournalofMolecularBiology,355:443-582006;Arnould等人,ProteinEngineeringDesign&Selection,24:27-312011;andStoddard,Q.Rev.Biophys.38,492005;Grizot等人,NucleicAcidsResearch,38:2006-182010。[0110]CRISPR-Cas核酸酶[0111]新近的工作展现了成簇的、规则间隔的短回文重复(CRISPRCRISPR-相关的Cas系统(Wiedenheft等人,Nature482,331_3382〇12;Horvath等人,Science327,167-1702010;Terns等人,CurrOpinMicrobiol14,321-3272011可以充当一种简单和高效的方法的基础,用于在细菌、酵母和人类细胞中,以及在完整生物体例如果蝇、斑马鱼和小鼠体内进行基因编辑Wang等人,Cell153,910-9182013;Shen等人,CellRes2013;Dicarlo等人,NucleicAcidsRes2013;Jiang等人,NatBiotechnol31,233-2392013;Jinek等人,Elife2,e004712013;Hwang等人,NatBiotechnol31,227-2292013;Cong等人,Science339,819-8232013;Mali等人,Science339,823-8262013c;Cho等人,NatBiotechnol31,230-2322013;Gratz等人,Geneticsl944:1029-352013。通过工程化的向导RNAgRNA例如单向导RNA或crRNAtracrRNA对的17-20个核苷酸,与感兴趣的目标基因组DNA序列的互补链之间的简单的碱基配对互补性,可以向导来自化脓性链球菌S.pyogenes的Cas9核酸酶(以下简称Cas9,所述感兴趣的目标基因组DNA序列位于前间区邻近基序PAM之后,例如与序列NGG或NAG匹配的PAMShen等人,CellRes2013;Dicarlo等人,NucleicAcidsRes2013;Jiang等人,NatBiotechnol31,233-2392013;Jinek等人,Elife2,e004712013;Hwang等人,NatBiotechnol31,227-2292013;Cong等人,Science339,819-8232013;Mali等人,Science339,823-8262013c;Cho等人,NatBiotechnol31,230-2322013;Jinek等人,Science337,816-8212012〇[0112]在某些实施方式中,当前的系统利用来自化脓性链球菌或Staphylococcusaureus的野生型或变体Cas9蛋白,作为在细菌中编码的,或是为在哺乳动物细胞中的表达而密码子优化的。向导RNA在细胞中与Cas9-起表达。向导RNA或核酸酶,或两者,在细胞中短暂地或稳定地表达。[0113]TAL效应物重复阵列[0114]通过结合宿主DNA和活化效应物特异性的宿主基因,黄单胞菌属Xanthomonas中的植物病原细菌的TAL效应物在疾病或触发防御中起到重要作用。特异性取决于不完全的、一般~33-35个氨基酸重复的效应物-可变数量。多态性主要存在于重复位置12和13处,其在本文中被称为重复可变双残基repeatvariable_diresidue,RVDJAL效应物的RVDs以直接、线性的方式相应于它们的目标位点中的核苷酸,一个RVD对一个核苷酸,具有一定的简并性并且没有明显的上下文相关性。在某些实施方式中,授予核苷酸特异性的多态性区域可以表示为三残基或三联体。[0115]每个DNA结合重复可以包括RVD,其决定目标DNA序列中碱基对的识别,其中每个DNA结合重复负责识别目标DNA序列中的一个碱基对。在某些实施方式中,RVD可以包含以下一种或更多种:识别C的HA;识别C的ND;识别C的HI;识别G的HN,识别G的NA;识别G或A的SN;识别T的YG;以及识别G的NK,和以下一种或更多种:识别C的HD;识别T的NG;识别A的NI,识别G或A的NN;识别A或C或G或T的NS;识别C或T的N*,其中*代表RVD的第二位置中的缺口;识别T的HG;识别T的H*,其中*代表RVD的第二位置中的缺口;以及识别T的IG。[0116]作为可以在染色体工程中促进同源重组例如,向植物中添加或增强对生物燃料或生物再生有用的性状的靶向的嵌合核酸酶,TALE蛋白在研究和生物技术中是有用的。作为例如转录因子,特别是用于需要高水平特异性的治疗性应用,例如作为非限制性实例,针对病原体例如,病毒的治疗剂,这些蛋白质也可能是有用的。[0117]产生工程化的TALE阵列的方法是本领域已知的,参见,例如,USSN61610,212和Reyon等人,NatureBiotechnology30,460-4652012中描述的基于快速连接的可自动化的固相高通量(FLASH系统;以及Bogdanove&Voytas,Science333,1843-18462011;Bogdanove等人,CurrOpinPlantBioll3,394-4012010;Scholze&Boch,J.CurrOpinMicrobiol2011;Boch等人,Science326,1509-15122009;Moscou&Bogdanove,Science326,15012009;Miller等人,NatBiotechnol29,143-1482011;Morbitzer等人,T.ProcNatlAcadSciUSA107,21617-216222010;Morbitzer等人,NucleicAcidsRes39,5790-57992011;Zhang等人,NatBiotechnol29,149-1532011;Geissler等人,PLoSONE6,el95092011;Weber等人,PLoSONE6,el97222011;Christian等人,Genetics186,757-7612010;Li等人,NucleicAcidsRes39,359-3722011;Mahfouz等人,ProcNatlAcadSciUSA108,2623-26282011;Mussolino等人,NucleicAcidsRes2011;Li等人,NucleicAcidsRes39,6315-63252011;Cermak等人,NucleicAcidsRes39,e822011;Wood等人,Science333,3072011;Hockemeye等人NatBiotechnol29,731-7342011;Tesson等人,NatBiotechnol29,695-6962011;Sander等人,NatBiotechnol29,697-6982011;Huang等人,NatBiotechnol29,699-7002011;和Zhang等人,NatBiotechnol29,149-1532011中描述的方法,所有这些通过引用完全合并在本文中。[0118]锌指[0119]锌指蛋白是DNA结合蛋白,其含有一个或更多个锌指,是独立折叠的含有锌的迷你结构域,其结构是本领域公知的,例如,在Mi1ler等人,1985,ΕΜΒ0J·,4:1609;Berg,1988,Proc.Natl.Acad.Sci.USA,85:99;Lee等人,1989,Science·245:635;以及Klug,1993,Gene,135:83中定义了。与DNA结合的锌指蛋白Zif268及其变体的晶体结构显示了半保守的相互作用模式,其中一般地,来自锌指的α螺旋的三个氨基酸接触DNA中的三个相邻的碱基对或"子位点"(Pavletich等人,1991,Science,252:809;Elrod-Erickson等人,1998,Structure,6:451。因而,Zif268的晶体结构表明,锌指DNA结合结构域可能以模块化的方式起作用,在锌指与DNA序列的三碱基对"子位点"之间存在一对一的相互作用。在天然发生的锌指转录因子中,多个锌指一般以串联阵列的方式连接在一起,实现连续DNA序列的序列特异性识别(Klug,1993,Gene135:83〇[0120]多项研究显示,通过使得涉及DNA结合的α螺旋位置处的氨基酸随机化,并利用选择方法如噬菌体展示来鉴定能够结合感兴趣的目标DNA位点的期望的变体,有可能人工地工程化单个锌指的DNA结合特征(Rebar等人,1994,Science,263:671;Choo等人,1994Proc.Natl.Acad.Sci.USA,91:11163;Jamieson等人,1994,Biochemistry33:5689;Wu等人,1995Proc.Natl.Acad.Sci.USA,92:344。这种重组的锌指蛋白可以融合到功能结构域,例如转录激活物、转录抑制物、甲基化结构域以及核酸酶,来调苄基因表达、改变DNA甲基化、以及向模式生物体、植物和人类细胞的基因组中导入有目标的改变Carroll,2008,GeneTher.,15:1463-68;Cathomen,2008,Mol.Ther.,16:1200-07;Wu等人,2007,Cell.Mol.LifeSci.,64:2933-44。[0121]工程化锌指阵列的一种现有的方法,称为"模块组装",主张将预选的锌指模块简单连接在一起成为阵列(Segal等人,2003,Biochemistry,42:2137-48;Beerli等人,2002,Nat·Biotechnol·,20:135-141;Mandell等人,2006,NucleicAcidsRes·,34:W516-523;Carroll等人,2006,Nat.Protoc.1:1329-41;Liu等人,2002,J.Biol.Chem.,277:3850-56;Bae等人,2003,Nat·Biotechnol·,21:275-280;Wright等人,2006,Nat·Protoc·,1:1637-52。虽然足够简单可被任何研究人员实现,新的报道显示这种方法的高失败率,特别是在锌指核酸酶的情境下(Ramirez等人,2008,Nat.Methods,5:374-375;Kim等人,2009,GenomeRes.19:1279-88,限制在于对于任何给定的目标基因,一般需要构建和基于细胞地测试非常大数量的锌指蛋白质Kim等人,2009,GenomeRes.19:1279-88。[0122]从随机化文库中鉴定锌指阵列的基于组合选择的方法已经显示了具有比模块组装更高的成功率(Maeder等人,2008,Mol.Cell,31:294-301;Joung等人,2010,Nat.Methods,7:91-92;Isalan等人,2001,Nat·Biotechnol·,19:656-660。在优选的实施方式中,所述锌指阵列是在W02011017293和W02004099366中描述的,或如其中所描述的产生的。其他适合的锌指DBDs是在美国专利N〇.6,511,808、6,013,453、6,007,988和6,503,717以及美国专利申请20020160940中描述的。[0123]细胞[0124]本文描述的方法可以用于能够修复基因组DNA中的DSB的任何细胞。真核细胞中的两种主要的DSB修复途径是同源重组HR和非同源末端接合NHEJ。优选地,所述方法在能够NHEJ的细胞中进行。检测NHEJ活性的方法是本领域已知的;例如,NHEJ典型和替代途径的综述参见Liu等人,NucleicAcidsRes.Jun1,2014;4210:6106-6127。[0125]测序[0126]如本文使用的,"测序"包括确定核酸的序列的任何方法。任何测序方法可以用于当前的方法中,包括链终止子Sanger测序和染料终止子测序。在优选的实施方式中,使用下一代测序NextGenerationSequencing,NGS,一种并行进行数千或数百万测序反应的高通量测序技术。虽然不同的NGS平台使用不同的分析化学作用,它们都从在大量模板上同时运行的大量测序反应中产生序列数据。一般地,使用扫描器采集序列数据,然后生物信息学地组合和分析。因而,并行地进行、读取、组合和分析测序反应;参见,例如,US20140162897,以及Voelkerding等人,ClinicalChem.,55:641-658,2009;和MacLean等人,NatureRev.Microbiol.,7:287-2962009。某些NGS方法需要模板扩增,某些不需要。需要扩增的方法包括焦磷酸测序化^〇8691^11^叫)(参见,例如美国专利6,210,89和6,258,568;由Roche商品化);SolexaIllumina平台(参见,例如,美国专利Νο·6,833,246、7,115,400和6,969,488;以及,支持寡核苷酸连接和检测(SOLiD平台(AppliedBiosystems;参见,例如,美国专利No.5,912,148和6,130,073。不需要扩增的方法,例如,单分子测序方法,包括纳米孔测序,HeliScope美国专利No·7,169,560;7,282,337;7,482,120;7,501,245;6,818,395;6,911,345;和7,501,245;通过合成的实时测序(参见,例如,美国专利No.7,329,492;利用零式波导ZMffs的单分子实时(SMRTDNA测序方法;以及其他方法,包括美国专利如8.7,170,050;7,302,146;7,313,308和7,476,503中描述的那些。参见,例如,US20130274147;US20140038831;Metzker,NatRevGenet111:31-462010。[0127]可选地,也可以使用基于杂交的测序方法或其他高通量方法,例如,微阵列分析、NANOSTRING、ILLUMINA或其他测序平台。[0128]实施例[0129]在以下实施例中进一步描述本发明,其不限制在权利要求中描述的本发明的范围。[0130]实施例1[0131]在初步实验中,优化了将dsODN盒整合到核酸酶诱导的双链破裂DSB中的过程。早先公开的实验展现了,在哺乳动物细胞中,在其5'末端带有两个硫代磷酸酯连接修饰的dsODN可以被捕获到锌指核酸酶(ZFN诱导的DSB中(Orlando等人,NucleicAcidsRes.2010Aug;3815:el52。然而,为了利用这种ssODNs的捕获来鉴定极低频率的DSB,优化了dsODN的特征来改善它捕获入这种破裂的比率。起初的工作集中于将dsODN捕获入来自化脓性链球菌(Streptococcuspyogenes的成簇规则间隔短回文重复CRISPRCasRNA-向导的核酸酶Cas9诱导的DSB中。已经报道了Cas9诱导具有钝末端的DSB,因而设计了钝末端的dsODN变体。优化实验显示,两个5'末端的磷酸化以及在两个3'末端导入两个硫代磷酸酯连接除了5'末端上的一个之外)导致dsODN捕获入Cas9诱导的DSB的比率实质上提高(附图1A-BAanger测序证实了dsODN成功地捕获入这种特别的DSB附图2A-B。[0132]已经确定的是dsODN可以有效地整合到Cas9诱导的DSB中,接下来的实验试图确定下一代深度测序方法是否可以用于捕获、扩增和鉴定哺乳动物细胞基因组中dsODN整合的位点。为此,利用34bpdsODN,其含有两个PCR引物结合位点(每条链一个);选择这些序列,因为它们各自对于人类基因组都是直系同源的。[0133]使用的dsODN的序列在表1中提供:[0134]表1[0135][0136]5Phos表示5'磷酸化。[0137]*表示相邻核苷酸之间的硫代磷酸酯连接。[0138]这种dsODN与编码Cas9的质粒以及四种不同的目标特异性gRNA的一种一起转染到人类U20S细胞中,每种目标特异性gRNA靶向一种不同的内源人类基因序列EMX1和VEGFA位点1、2和3。选择这四种特定的gRNA,因为早先已经鉴定了它们每一个的真实脱靶位点Fu等人,NatBiotechnol.2013;表1。转染如下进行:dsODN以各100uM的浓度在STE100mMTrisHcl,500mMNaCl,10mMEDTA中退火。对于U20S细胞,使用溶液SE和程序DN-100,用500ng的Cas9表达质粒、250nggRNA表达质粒以及lOOpmol的dsODN用于核染nucleofect2E5细胞。[0139]转染后三天收获基因组DNAAgencourtAmpureXP,利用基于PCR的限制性片断长度多态性RFLP分析,根据dsODN中编码的限制位点的存在,来验证dsODN已经被有效地整合到这些细胞中的在靶位点中。[0140]为了综合地鉴定转染的细胞的基因组中dsODN整合的位置,使用基于PCR的方法,其选择性地扩增这些插入位点并允许它们被下一代测序技术测序。这种策略的一般概述在附图3中显不。用CovarisAdaptiveFocusedAcousticAFA聚焦超声发生器将基因组DNA剪切成500bp的平均长度。剪切的gDNA进行末端修复Bnzymatics、A-加尾Enzymatics,半-功能性测序衔接子(US20130303461连接Enzymatics到剪切的DNA的末端。使用SolidPhaseReversibleImmobilizationSPRI磁珠清洗来清理这些酶学步骤的每一个步骤(AgencourtXP〇[0141]然后使用特异于dsODN的引物,与和测序衔接子退火的引物一起,扩增带有dsODN序列的DNA片段。由于在dsODN内存在两个可能的引物位点(如上所述每条链一个),如下进行两个独立的PCR反应来选择性扩增期望的序列。[0142]进行两轮嵌套PCR来产生目标测序文库。使用与整合dsODN互补的引物(引物A和与通用衔接子互补的引物(引物B进行第一轮PCR。使用与引物A互补的3'嵌套引物(引物C、与引物B互补的3'嵌套引物(引物D,以及与引物D互补的引物(引物E进行第二轮PCR,所述引物E添加流动-细胞结合序列和随机分子索引来产生准备测序的"完整"分子。SPRI磁珠用于清理每轮PCR。(AgencourtAmpureXP[0143]通过这种方法扩增含有dsODN的基因组序列既不取决于邻近插入点的侧翼序列,也不被邻近插入点的侧翼序列偏离,因为测序衔接子被连接到由基因组DNA的随机剪切所诱导的破裂上。进行另一轮PCR来在最靠近dsODN的末端添加下一代测序衔接子序列和索引条码,产生准备下一代测序的片段文库。这种一般方法在此被称为GUIDE-Seq,通过测序评估的DSB的全基因组无偏鉴定。[0144]利用GUIDE-Seq构建的文库的深度测序揭示了大范围的基因组座位,在存在四种共表达的gRNACas9核酸酶的每一种的情况下dsODN被插入其中。在分析粗深度测序数据时,据推测,插入物的真实位点可以被鉴定为两个方向上至少一个读取结果所覆盖的基因组座位。双方向上的读取结果是可能的,因为dsODN可能在两个方向上都被插入,同时因为使用了特异于在dsODN序列中一条或另一条链的引物进行扩增。鉴定出总共465个基因组座位满足所检查的四种gRNA的这个指标。对于这465个基因座中的36%,还鉴定出插入点的25bps之内的序列,其类似于所使用的gRNA的在靶位点,并带有相对于在靶位点的多达六个错配附图4A-E。这种方法还成功地发现了在此检查的所有四种gRNA的所有早先已知的真实脱革G位点(附图4中显示的所有早先已知的脱革E1位点也在Fu等人,NatBiotechnol.2013的表1中示出),以及许多其他的早先未知的脱靶位点。[0145]实施例2[0146]可定制的CRISPR-CasRNA向导的核酸酶RGN是健壮的、可定制的基因组编辑试剂,有着广泛的研究和潜在的临床应用然而,RGN在人类中的治疗应用将需要对它们的脱靶效应的完全了解,以最小化有害结果的风险。通过化脓性链球菌Cas9核酸酶的DNA裂解由可编程的~l〇〇nt向导RNAgRNA来向导。3,靶向由gRNA的5'末端的17-20nts介导,它们互补于"前间区"DNA位点,所述前间区DNA位点位于5'-NGG形式的前间区邻近基序PAM的后方。在前间区内Cas9诱导的DNA双链破裂DSB通过非同源末端接合NHEJ的修复可以诱导可变长度的插入删除突变(indels。我们团队及其他人早先显示了非预期的RGN诱导的插入-删除可能在脱靶裂解位点发生,其在前间区内多达五个位置不同,或带有可选择的PAM序列U。染色体转位可能产自在靶和脱靶RGN诱导的裂解事件的连接m。对于临床应用,鉴定极低频率的改变将是特别重要的,因为利用RGN的体外和体内治疗策略预期需要修饰非常大的细胞群体。在即使罕有的细胞克隆子集中诱导致癌转换例如,肿瘤抑制基因的失活突变或产瘤染色体转位的形成是特别关注的,因为这样的改变可能引起不利的临床结果。[0M7]可能在基因组的任何地方发生的插入-删除或更高级别的基因组重排的全面鉴定是一种不容易解决的挑战,令人遗憾的是,还没有描述出无偏的、全基因组的在活细胞中鉴定RGN诱导的脱靶突变的方法完整基因组重新测序已经用于尝试鉴定被编辑的单细胞克隆中的RNG脱靶改变但是测序非常大数量的基因组的高成本使得这种方法对于寻找细胞群体中的低频事件是不切实际的B。我们和其他人使用了聚焦深度测序来鉴定通过对在靶位点的序列相似性0、或通过从部分简并的结合位点文库体外选择§而鉴定出的可能的脱靶位点处的插入-删除突变。然而,这些途径制造了关于脱靶序列的性质的假说,因而可能错过基因组中其他地方的其他突变位点。ChIP-Seq还被用于鉴定与催化性灭失的Cas9dCas9复合的gRNA的脱靶结合位点,但是大部分已公开的工作表明,即使有的话,非常少数的这些位点是活性Cas9核酸酶裂解的脱靶位点1^。[0148]在此我们描述了一种通过测序评估的DSB的全基因组无偏鉴定GUIDE-Seq的新方法,它允许我们对活的人类细胞中十种不同的RGN产生首个全局的特异性景观。这些分布图揭示了对于单个的RGN,脱靶DSB的总数是广泛地变化的,提出了关于来自化脓性链球菌或其他物种的RGN的特异性应当基于大的调查而不是仅基于少数gRNA的概括性结论。我们的发现还扩展了可发生脱靶效应的序列的范围和性质。直接比较表明,GUIDE-Seq实质上性能超过了用于鉴定RGN脱靶位点的两种广泛使用的计算方法以及ChIP-Seq方法。出乎意料地,GUIDE-Seq也鉴定出独立于RGN的DNA断点热点,它们可能与RGN诱导的DSB-起参与更高级别的基因组改变,例如转位。最后,在直接比较中我们显示了截短gRNA的互补区域大大地改善了它们的全基因组脱靶DSB分布,证明了⑶IDE-Seq用于评估被设计以改进RGN特异性的进步的实用性。本文列出的实验提供了迄今为止描述过的评估RGN的特异性、以及评估可考虑用于治疗应用的对平台的任何改进的最苛刻的策略。[0149]方法[0150]这个实施例中使用以下的材料和方法。[0151]人类细胞培养和转染[0152]U20S和HEK293细胞在补充有10%FBS、2mMGlutaMaxLifeTechnologies和青霉素链霉素的AdvancedDMEMLifeTechnologies中在37°C、5%C02下培养。根据厂家的说明,在LonzaNucleofector4-D上在20μ1溶液SE中转染U20S细胞程序DN-100和HEK293细胞程序CM-137。通过利用Ndel的限制性片断长度多态性RFLP分析来评估dsODN整合率。如早先描述的,裂解产物通过Qiaxcel毛细管电泳仪(Qiagen运行和定量(Tsai等人,Nat·Biotechnol32,569-5762014。[0153]用于⑶IDE-seq的基因组DNA的分离和制备[0154]使用固相的可逆固定的磁珠AgencourtDNAdvance分离基因组DNA,用CovarisS200超声发生器剪切到500bp的平均长度,末端修复,A-加尾,然后连接到半功能衔接子,掺入8-nt随机分子索引。使用与寡聚标签互补的引物进行两轮嵌套锚定PCR,用于目标富集。示范性的GUIDE-Seq方案的完整细节可以在本文中找到。[0155]测序读取结果的加工与合并[0156]具有相同的前六个碱基序列以及相同的8-nt分子索引的读取结果被一起封箱,因为它们被认为来源于相同的原始的PCR前模板片段。通过选择每个位置的主要碱基,将这些读取结果合并成单个共同读取结果。在具有大于10%的不一致读取结果的位置上分派无调用no-call,N碱基。碱基质量分值被确定为在合并前读取结果之中最高的。合并的读取结果使用BWA-MEMLiandDurbin,Bioinformatics26,589-5952010绘制到人类基因组参照GrCh37上。[0157]脱靶裂解位点的鉴定[0158]作图质量多50的读取结果的起始作图位置进行平面化,靠近起始作图位置的区域使用l〇-bp滑动窗口来归组。带有整合的dsODN的基因组窗口使用以下指标之一来鉴定:1两个或更多个唯一分子索引的读取结果作图到参考序列中的相对的链,或2通过正向和反向引物扩增的两个或更多个唯一分子索引的读取结果。在推断的断点两侧侧翼的25bp参考序列对准到预期目标位点,调出具有与预期目标序列八个或更少错配的RGN脱靶位点。根据分子索引和SAMtools,通过常规的二重共有变体调用算法,调出这些位置中的SNPs和插入-删除,不同于参考序列的脱靶序列用相应的细胞特异性序列替换。[0159]基于AMP的测序[0160]对于GUIDE-Seq检出的DSB的AMP验证,如早先描述的对推断的双链断点侧翼的区域设计引物(Zheng,Z·等人AnchoredmultiplexPCRfortargetednext-generationsequencing.NatMed2014Nov10.doi:10.1038nm.37292014,添加8_nt分子索引。在可能时,我们设计侧翼于每个DSB的两个引物。[0161]AMP验证数据的分析[0162]利用Python分析平均质量分值30的读取结果中与⑶IDE-Seq推断的DSB位置重叠的插入、删除和整合。仅在处于预测的DSB位点Ι-bp之内时,Ι-bp插入-删除才被包括,以最小化引入来自PCR或测序错误的噪声。在合并的分子索引的读取结果的基础上计算整合和插入-删除频率。[0163]结构变化[0164]使用基于剪接性BWA-MEM比对的常规算法鉴定了转位、大的删除和倒转。归集在同一染色体上50碱基之内的候选融合断点,来容纳围绕Cas9裂解位点的可能的切除。用至少3个唯一地作图的空位读取结果(splitreads调出融合事件,这也是segemehl工具Hoffmann,Genomebiology,2014所使用的参数。维持作图链型(mappingstrandedness,用于鉴定两个牵涉DSB之间的互倒的融合物,以及用于确定删除或倒转。考虑到由单个Cas9裂解引起的大的插入-删除,在lkb染色体位置之内涉及融合物的DSB被丢弃。其余的融合DSB被分入四个类别:基于⑶IDE-Seq的"在祀"、"脱祀"或"背景",或"其他"。[0165]GUIDE-Seq和ChIP-Seq以及由计算机预测检出的位点比较[0166]我们使用MITCRISPR设计工具来鉴定所有十个RGN的潜在的脱靶位点。这个工具为每个可能的脱靶位点指派相应的百分位数。然后,为了可视化的目的,我们将这些百分位数归组到五分位中。由于E-CRISP工具不排列脱靶,我们仅仅发现了由E-CRISP正确预测的GUIDE-seq脱靶。为了这两种⑶IDE-Seq对比由计算机预测,我们还将计算机方法未预测的GUIDE-Seq结果分成错配数处在MIT工具最大4与E-CRISPR最大3的范围内的脱靶,以及错配数大于这些预测工具的阈值的脱靶。在比较⑶IDE-Seq脱靶和ChIP-Seq预测时,使用相同的技术来找到由ChIP-Seq正确预测的⑶IDE-Seq脱革巴。对于这些比较的每一项,所进行的每一个归组通过脱靶错配数再次细分,以更好地表征正确和不正确预测的RGN脱靶的性质。[0167]分析错配、DNA可接近性以及局部PAM密度对脱靶裂解率的影响[0168]使用线性回归模型,其拟合于四个或更少错配的潜在脱靶位点的估计裂解率,我们评估了错配位置、错配类型和DNA可接近性对特异性的影响。错配位置协变量被定义为PAM上游每五个不重叠的4-bp窗口内错配碱基的数目。错配类型协变量被定义为i产生摇摆配对wobblepairing目标T被C替代,目标G被A替代)的错配数,ii产生非摇摆的non-wobble嘌呤-嘧啶碱基配对(目标C被T替代,目标A被G替代的错配数,以及iii产生嘌呤-嘌呤或嘧啶-嘧啶配对的错配数。[0169]三种因子的每一个被用于独立的模型中,作为由l〇g2l+GUIDE-Seq读取结果计数估计的相对裂解率的预测子。为目标位点间的变异性调整效应大小估计。基于回归平方和SS:n2p=SSHiSSEFP+SSfgii,通过部分埃塔平方统计,评估由每个因子所解释的位点内裂解率变异性的比例。除了单因子模型之外,我们还拟合了包括全部三个因子、表达水平和ι-kb窗口中的PAM密度的组合线性回归模型,来评估它们对脱靶裂解概率的独立贡献。[0170]用于Guide-seq文库制备的示范性的试剂和设备保存在室温96孔平板磁台InvitrogenQubit劳光L十2.0LifeTechnologiesCovarisS-2集中超声波振荡器™InstrumentCovaris[0178]桌面离心机ThermoScientific桌面满旋机.ThermoScientific热循环仪EppendorfMiseqIllumina[0179]GUIDE-seq文库制备的示范性方案[0180]Y-衔接子制备[0181]通过使Miseq通用寡聚物与每个样品条码衔接子A01到A16,参见表3退火来制备Y-衔接子。衔接子还含有8-体NNWNNWNNN=A,C,T,或G;W=A或T分子索引。[0183]退火程序:95°C1秒;60°C1秒,缓慢坡降(约-2°C分钟)至4°C;保持在4°C。在-20°C下保存。[0184]输入定量和剪切[0185]1.通过Qubit对dsDNA定量,使用IXTE缓冲液使400ng达到120μ1的最终体积。[0186]2.根据用于CovarisS2的标准操作方案,将每个样品剪切为500bp的平均长度。[0187]3.根据厂家的方案使用120μ1AMPureXPSPRI珠子(IX比例进行清洗,在15μ1lxΤΕ缓冲液中洗脱。[0188]末端修复、A-加尾和连接[0189]末端修复[0190]4.向200μ1PCR试管或96孔板的反应孔中添加以下的个反应):无核酸酶H200:.5pLdNTP混合物,5mMΙ.ΟμΙ.[0191]一SLOW连接缓冲液,1ΟΧ2.5μϊ.末端-修复混合物低浓度)2.0μL[0193]末端修复热循环仪程序:12°C15分钟,37°C15分钟;72°C15分钟;4°C保持。[0194]衔接子连接[0195]5.向样品反应管或孔中按顺序添加以下试剂通过吸移管混合):[0197]衔接子连接热循环仪程序:16°C30分钟;22°C30分钟,4°C保持。[0198]6.0.9XSPRI清洗(22·95μ1AmpureXP珠子),在12yLIXTE缓冲液中洗脱。[0199]PCRs[0200]PCR1寡聚标签引物[发现]或大的引物池[深度测序验证][0201]7.制备以下主混合物:[0204]*对于发现,制备用于+Λ有义)和反义反应的独立的主混合物,以独立的PCR反应进行。[0205]*对于深度测序验证,可以制备一个主混合物。引物池应当标准化为30yL反应中30pmol的总数量。[0206]发现热循环仪程序降落式):[0207]95Γ5分钟,[0208]15个循环的[95°C30s,7rC-ΙΌ循环)2min,72°C30s],[0209]10个循环的[95°C30s,55°Cl分钟,72°C30s],[0210]72〇C5min,[0211]4°C保持[0212]验证热循环仪程序:[0213]95°C5分钟,[0214]14个循环的[951€308,20%坡降至65°:,651€511^11],[0215]72°C5min,[0216]4°C保持[0217]8.1.2XSPRI清洗36.0uL,在15yLIXTE缓冲液中洗脱。[0218]PCR2寡聚标签引物[发现]或大的引物池[深度测序验证][0219]9.制备以下主混合物:[0222]引物浓度应当遵循PCR1中描述的规范。[0223]*对于P7_#,为了在11lumina测序仪上良好的图像登记,在一个测序运行中应当使用至少4个例如,P701-P704或P705-P708。[0224]发现热循环仪程序降落式):[0225]与PCR1相同[0226]验证热循环仪程序:[0227]与PCR1相同[0228]10.0.7XSPRI清洗21.0yL,在30yLIXTE缓冲液中洗脱。[0229]通过qPCR的文库定量以及测序[0230]qPCR定量[0231]11.根据厂家的指导,使用用于IIlumina文库定量试剂盒的KapaBiosystems试剂盒为文库定量。[0232]标准化和测序[0233]12.利用对每个样品的qPCR运行给出的每yL分子数的平均数量估计,将文库的总套数标准化为1.2XΠΓ10个分子,除以要集中在一起测序的文库数目。这将给出每种样品的按分子的输入,以及每种样品的按体积的输入。[0234]在集中之后,使用Vacufuge将文库Speedvac干燥到10yL的终体积用于测序。[0235]根据Illumina的测序标准方案将文库变性并加载到Miseq上,供使用IlluminaMiseqReagentKitV2-300循环(2x150bp配对的末端)的测序,只是:[0236]1向MiseqReagent柱体位置13添加3yL的100μΜ定制测序引物Index1Index引物混合物)。向MiseqReagent柱体位置14添加3yL的100μΜ常规测序引物Read2Read2引物混合物)。[0237]2根据配对末端Nextera测序方案,用下列循环数"151|81161151"测序。[0238]以bcl或fastq格式将测序数据提交至相关的管线用于下游的生物信息学分析。[0239]表3GUIDE-Seq所需的通用引物[0243]*表示硫代磷酸酯连接修饰[0244]结果[0245]示范性的GUIDE-Seq方法的概述[0246]在某些实施方式中,⑶IDE-Seq由两个阶段组成(附图5B:在阶段I中,活的人类细胞的基因组中的DSB通过在这些破裂处整合钝的双链寡聚脱氧核苷酸dsODN被标签化。在阶段II中,利用无偏扩增和下一代测序,基因组DNA中的dsODN整合位点以核苷酸水平被精确作图。[0247]对于阶段I,我们优化了条件来在人类细胞中将钝的5'磷酸化的dsODN整合到RGN诱导的DSB中。在初步实验中,我们未能观察到这样的dsODN向RGN诱导的DSB中整合。使用被设计以在细胞中稳定寡聚物、在两条DNA链的5'末端带有两个硫代磷酸酯连接的dsODP#,我们仅观察到中度可检测的整合频率附图5B。然而,在两条链的3'末端添加硫代磷酸酯连接产生了健壮的整合效率(附图5B。这些整合率仅两到三倍地低于这些位点上单独的RGNBP,不存在dsODN时所诱导的插入-删除的频率。[0248]对于阶段II,我们开发了新的策略,其容许我们以无偏的方式选择性地扩增和测序带有整合的dsODN的那些片段附图5A。我们通过首先将"单尾"下一代测序衔接子连接到随机剪切的基因组DNA中而实现了这一点,所述基因组DNA来自转染了dsODN和编码RGN部件的质粒的细胞。然后我们进行一系列PCR反应,所述PCR反应由与dsODN特异性退火的一个引物以及与测序衔接子退火的另一个引物启动附图5A和附图12。由于测序衔接子仅是单尾的,这允许邻近于dsODN的序列的特异性单向扩增,而没有其他方法如线性扩增介导的LAM-PCR所固有的偏差_。我们将我们的策略称为单尾部衔接子标签STAT-PCR方法。通过使用与每个dsODN链退火的引物进行STAT-PCR反应,我们可以获得每个整合的标签的两侧的邻近基因组序列的读取结果附图5C。在扩增过程期间掺入随机的8bp分子条码附图12允许校正PCR偏差,从而允许从高通量测序获得独特测序读取结果的精确定量。[0249]人类细胞中CRISPRRGN的全基因组脱靶裂解全貌[0250]我们使用Cas9和靶向各种内源人类基因的十种不同的gRNA在U20S或HEK293人类细胞系中进行⑶IDE-Seq表1。通过分析dsODN整合位点(方法),我们能够鉴定十个RGN的每一个诱导的DSB的精确的基因组位置,作图至核苷酸水平(附图5D。对于这些基因组窗口的80%,我们能够鉴定是在靶位点或与在靶位点相关的重叠目标序列方法)。有趣的是,我们为每个RGN鉴定的脱靶位点的总数大范围地变动,从零到150附图5E,表明任何特定的RGN的全基因组程度的非期望裂解在极值上可能是相当大的或是最小的。在gRNA前间区序列相对于人类基因组的正交性(通过带有一个到六个错配的基因组位点的总数来测量的)与我们通过GUIDE-Seq观察到的脱靶位点的总数之间,我们没有观察到任何明显的相关性附图5F。在整个基因组上分散发现脱靶序列(附图5Gg和附图13A-J,落入外显子、内含子以及非编码的基因间区域(附图5H。在我们鉴定的脱靶序列中包括了四种RGN的所有早先已知的真实脱靶位点0附图6A-J。更重要的是,GUIDE-Seq鉴定出大量新的、早先未知的脱靶位点,它们定位于整个人类基因组附图5E、5G、6A-J和13A-J。[0251][0252]我们接下来测试了GUIDE-Seq鉴定出的每个脱靶位点的测序读取结果的数量在附图6A-J中显示是否代表了由单独的RGN即,不存在dsODN的情况下诱导的插入-删除的相对频率的代表。通过基于锚定的多通道PCRAMP的下一代测序对已表达核酸酶部件方法)的人类U20S细胞中五种RGN的这些位点进行检查,显示80%132个中的106个带有可变长度的RGN裂解的插入-删除特征,进一步支持了我们关于⑶IDE-Seq鉴定真实RGN脱靶位点的结论(附图7A。检出的插入-删除频率的范围从0.03%到60.1%。重要的是,对于所有五种RGN脱靶位点,我们观察到GUIDE-Seq读取结果计数与插入-删除突变频率之间的线性正相关性(附图7A-F。因而,我们得出结论,对于给定位点的GUIDE-Seq读取结果计数代表了该序列的RGN裂解效率的定量测量值。[0253]RGN诱导的脱靶序列特征的分析[0254]我们通过GUIDE-Seq对所有十个RGN鉴定出的脱靶位点的目视检查强调了RGN可以裂解的变体序列的多样性。这些位点可以带有前间区序列内的多达六个错配与早先的报道一致,其显示了带有达到7个错配的位点的体外裂解,非典型的PAMs早先描述的NAG和NGA序列^,但还有新的、NGI、NG^和N0序列)和处于gRNA前间区接触面处的1bp"膨隆"型错配M附图6A-J。前间区错配倾向于在目标位点的5'端发生,但也可以在某些3'末端位置找到,支持了基于位置预测错配效应没有简单规则4的观点。有趣的是,某些脱靶位点实际上具有比它们匹配的在靶位点更高的测序读取结果计数附图6A-D,6J,与我们早先的观察一致,即,脱靶突变频率在某些情况下可能高于预期的在靶位点的频率1。值得注意的是,四种RGN的许多早先已知的脱靶位点具有高的读取结果计数附图6A-D,表明早先的分析主要鉴定的是被最高效裂解的位点。[0255]我们关于所有十个RGN的GUIDE-Seq数据的定量分析允许我们定量不同的变量的贡献和影响,例如,错配数、位置、在靶脱靶位点裂解的类型。我们发现,带有一定数量的前间区错配、被RGN裂解的总基因组位点的部分随着错配数的提高而降低了(附图8A。此外,序列读取结果计数显示了随着错配数提高的一般性降低趋势(附图8B。一般地,与靠近3'端的错配相比,位于靠近目标位点的5'端的前间区错配倾向于与GUIDE-Seq读取结果计数方面更小的降低相关,然而相比距离5到8bps的错配,位于距离PAM1到4bp的错配令人惊讶地稍微更好地耐受附图8C。有趣的是,错配的性质还与对GUIDE-Seq读取结果计数的影响相关。摇摆错配经常在脱靶位点中发生,我们的分析表明,相比其他非摇摆错配,它们与对GUIDE-Seq读取结果计数更小的影响相关(附图8D。与这些结果一致,我们发现,在单变量回归分析中解释脱靶裂解的最大变异程度的单一因子是错配数、位置和类型。相比之下,其他因子例如近端PAM序列的密度、基因表达水平或基因组位置基因间的内含子的外显子的解释了GUIDE-Seq裂解读取结果计数变化中小得多的比例附图8E。考虑多个因子包括错配位置、错配类型、基因表达水平、近端PAM序列密度的组合线性回归模型得到了与单变量分析一致的结果(附图14。这种分析还允许我们独立地估计出,平均地并取决于它们的位置,每个额外的摇摆错配降低脱靶裂解率~2到3倍,而其他的非摇摆错配降低裂解率~3倍附图14。[0256]GUIDE-Seq与现有脱靶预测方法的比较[0257]已经确立了⑶IDE-Seq的有效性,我们接下来直接比较我们的新方法与两种流行的现有的用于预测脱革E突变位点计算方法:MITCRISPR设计工具@crispr.mit.edu和E-CRISP程序2e-crisp.orgE-CRISP。这两种程序都尝试基于关于错配数和位置的某些"规则"来鉴定可能的脱靶数量和位点,已经在早先的出版物中使用来鉴定脱靶位点。在我们的比较中使用了我们通过GUIDE-Seq表征的十种RGN,我们发现两种程序都未能鉴定出绝大多数实验上验证的脱靶位点(附图9A-B。这些位点中的许多被错过了,因为E-CRISP和MIT程序分别简单地不考虑带有超过3个和4个错配的脱靶附图9C-D。即使在被考虑的序列之中,这些程序也未能鉴定大部分的真实脱靶位点(附图9C-D,凸显了它们当前解释决定是否发生裂解的因素的能力有限。特别是,值得考虑的是,错过的位点包括仅有一个错配的那些(附图9C-D,而MIT程序给出的排序分值在它正确鉴定的位点中确实具有一定的预测效力。最后,重要的是注意到,两个程序都返回许多未被GUIDE-Seq鉴定出的"假阳性"位点(附图9A-B。我们推断,MIT和E-CRISP程序在鉴定真实RGN脱靶位点方面比我们的⑶IDE-Seq方法实质上表现得更低效。[0258]GUIDE-Seq与ChIP-Seq方法测定dCas9结合位点的比较[0259]我们还设法将⑶IDE-Seq与早先描述的ChIP-Seq方法鉴定RGN脱靶位点直接比较。我们通过⑶IDE-Seq评估的四种RGN使用了早先在无催化活性的Cas9dCas9的ChIP-Seq实验中被表征的gRNA,得到了脱靶结合位点大集合的鉴定结果I直接比较显示了在GUIDE-Seq鉴定的Cas9脱靶裂解位点与ChIP-Seq鉴定的dCas9脱靶结合位点之间非常少的重叠,在我们对四种gRNA鉴定的149个RGN诱导的脱靶裂解位点之中,仅三个是早先使用相同的gRNA通过早先公开的dCas9ChIP_Seq实验所鉴定出的(附图9E。这种缺少重叠可能是因为dCas9脱靶结合位点在基础上不同于Cas9脱靶裂解位点,我们的数据支持的假说显示,GUIDE-Seq鉴定的这四种gRNA的Cas9脱靶裂解位点平均带有比它们的ChIP-Seq鉴定出的结合位点更少得多的错配(附图9F,显示了非常少的dCas9结合位点的早先研究显示了存在活性Cas9的情况下插入-删除的证据Μ。虽然GUIDE-Seq未能鉴定出早先ChIP-Seq鉴定的、随后显示是Cas9的诱变靶点的四个脱靶位点,我们相信这是因为那些位点在更早的研究Μ中被不正确地鉴定为真实脱靶裂解位点。仔细分析来自该研究的测序数据表明,在那些位点中发现的绝大多数插入-删除突变可能由PCR或测序错误导致,而不是由RGN裂解活性导致(附图15A-D。结合起来,这些发现表明,对于鉴定真实脱靶裂解位点⑶IDE-Seq实质上比ChlP-Seq性能更好,并且提供了关于以下观点的实验支持,即,ChIP-Seq发现的极少数如果有)dCas9脱靶结合位点是实际的Cas9脱靶裂解位点。[0260]通过GUIDE-Seq鉴定人类细胞中独立于RGN的DSB热点[0261]我们的GUIDE-Seq实验还出乎意料地揭示了在我们的研究中使用的U20S和HEK293细胞中存在总共30种独特的独立于RGN的DSB热点(表2。在分析来自U20S和HEK293细胞的对照实验的基因组DNA时我们发现了这些位点,在对照实验中我们仅转染了dsODN而没有RGN编码质粒方法)。与精确地作图至具体碱基对位置的RGN诱导的DSB相比,独立于RGN的DSB具有更广泛地散布在出现它们的每个基因座中的dsODN整合模式方法)。这30个断点热点分布在许多染色体上,看起来存在于或接近着丝粒或端粒区域上(附图10F。有趣的是,仅少量的这些DSB两个是两种细胞系共同的,大多数看起来是细胞系特异性的U20S中25个,HEK293细胞中7个;附图10F和表2。据我们所知,⑶IDE-Seq是允许直接和无偏地鉴定活的人类细胞中的断点热点而无需潜在毒性的药物例如,DNA复制抑制剂如阿非迪霉素来揭示它们存在的第一种方法。[0262]表2人类U20S和HEK293细胞中独立于RGN的断点热点的概述[0264]RGNi秀导的和独立于RGN的DSB参与大规模基因组重排[0265]在分析被设计以鉴定RGN诱导的和独立于RGN的DSB处的插入-删除的下一代测序实验结果的过程中,我们还发现了这些破裂中的某一些可以参与转位、倒转和大的删除。所使用的AMP方法允许我们观察这些大规模的基因组改变,因为,对于每个所检查的DSB位点,这种方法仅使用了仅锚定于一个固定末端而不是一对侧翼的基因座特异性引物(附图IOA。因而,基于AMP的测序不仅鉴定出在DSB处是否发生插入-删除突变,它还可以检测DSB是否已经连接到其他序列。[0266]对于我们检查的五种RGN,AMP测序揭示了RGN诱导的在靶和脱靶DSB可以参与多种转位附图10B。在至少一个实例中,我们可以观察到由一对DSB引起的所有四种可能的转位事件(附图10C。当同一染色体上存在两个DSB时,我们还观察到大的删除和倒转(附图IOB。对于至少一个实例,我们同时观察到两个RGN诱导的破裂之间大的删除以及该同一间插序列的倒转(附图10D。重要的是,我们的结果还显示了RGN诱导的和独立于RGN的DSB之间的转位(以及删除或倒转)(附图10B,表明在评估RGN对细胞基因组的脱靶效应时需要考虑这两种类型的破裂之间的交互作用。虽然我们的数据表明这些大规模基因组重排的频率可能是极低的,在我们现有数据集的测序深度下精确的定量是不可能的。提高测序读取结果的数量将提高检测的敏感性并允许更好地定量这些重要的基因组改变。[0267]截短的gRNA向导的RGN的⑶IDE-Seq全貌[0268]我们团队的早先的研究已经显示,使用带有17或18nts的截短互补区的gRNA可以降低全长gRNA27向导的RGN的已知脱靶位点处的突变频率。然而,由于这种分析限于少量的已知脱靶位点,在我们较早的实验中,这些截短的gRNAtru-gRNA的全基因组特异性仍然是不确定的。我们使用⑶IDE-Seq来获得三种tru-gRNA向导的RGN的全基因组DSB分布,tru-gRNA的每一个都是我们上文分析的十种全长gRNA之一的更短的版本。[0269]我们的结果显示,在所有三种情况下,GUIDESeq鉴定出的脱靶位点的总数实质上随着tru-gRNA的使用而降低了(附图11A-DAUIDE-Seq读取结果的作图允许我们精确地鉴定在靶附图11E和脱靶位点(未显示)的裂解位置。如所预期的和我们用全长gRNA观察到的,在脱靶位点的列表中包括的是三种tru-gRNA向导的RGN的12个早先已知的脱靶位点中的10个附图11F-H。我们鉴定的脱靶位点的序列主要在前间区中具有一个或两个错配,但是某些位点具有多达四个附图11F-H。此外,某些位点具有NAG、NGA和NTG形式的可选择的PAM序列(附图11F-H。这些数据提供了全基因组尺度上的确认,即截短gRNA可以实质上降低RGN的脱靶效应,并且显示了⑶IDESeq如何用于评估RGN平台的特异性改进。[0270]讨论[0271]GUIDE-Seq提供了用于检测RGN诱导的DSB的无偏的、敏感的和全基因组的方法。所述方法是无偏的,因为它检测DSB而不构建关于脱靶位点的性质的假说例如,假定脱靶位点在序列上与在靶位点紧密相关)AUIDE-Seq鉴定出全基因组的脱靶位点,包括处于外显子、内含子和基因间区域之内的,并带有达到六个前间区错配和或新的错配的PAM位点,其超出了早先的研究中描述的可选择的NAG和NGA序列对于我们在这个实施例中检查的RGN,⑶IDE-Seq不仅成功地鉴定出所有早先已知的脱靶位点,而且还揭示了数百个新的位点。[0272]虽然当前缺乏用于全面鉴定人类细胞中所有RGN脱靶位点的实际的金标准方法,阻止了我们确定地了解GUIDE-Seq的敏感性,我们相信它很可能具有低的假阴性率,因为以下理由:首先,所有RGN诱导的钝末端的DSB应通过NHEJ获得钝端的dsODN,这一假说得到我们在GUIDE-Seq读取结果计数其测量dsODN摄取和存在RGN的情况下的插入-删除频率其测量DSB形成以及它们的诱变修复的比率之间观察到的强相关性的支持附图7B-F。我们注意到这些相关性包括显示了大范围的插入-删除诱变频率的超过130个位点。第二,使用早先鉴定的脱靶位点作为基准这是目前估量成功的唯一途径),GUIDE-Seq能够检测出显示了延伸低至0.12%的诱变频率范围的40个这些位点中的38个。所述方法检测出四种全长gRNA的全部28个早先已知的脱靶位点,以及三种tru-gRNA的12个早先已知的脱靶位点中的10个。未检出的两个脱靶位点之一显示了在我们的原始数据中捕获的证据,但是被我们的读取结果调用算法滤出了,因为所述测序读取结果仅是单向的并仅来源于一个引物(方法)。(这个位点缺乏双向的作图读取结果可能是由于脱靶位点一侧的重复区域,其使得它对精确地作图读取结果形成挑战。)另一个未检出的脱靶位点早先。[0273]值得注意的是,我们评估的RGN之一没有产生任何可检测的脱靶效应(在GUIDE-Seq方法的当前检测极限下),提出了一种隐秘的可能性,即某些gRNA可能诱导非常少的或者不诱导非期望的突变。[0274]虽然我们的验证实验显示⑶IDE-Seq可以敏感地检测频率低至0.1%的RGN诱变的脱靶位点,它的检测能力可以用某些简单的改变来进一步改进。使用下一代测序来检测插入-删除的策略受到平台的差错率的限制(一般~0.1%。相比之下,GUIDE-Seq利用测序来鉴定dsODN插入位点而不是插入-删除,因而不受差错率的限制,而是受测序深度的限制。例如,我们相信在我们的GUIDE-Seq实验中检出的、在我们的测序验证实验中没有发现插入-删除的少数位点实际上代表了可能具有低于0.1%的插入-删除突变频率的位点。与这相一致的是,我们注意到除了3个之外的所有这26个位点都具有低于100的GUIDE-Seq读取结果计数。结合在一起,这些观察表明,我们也许能够简单地通过提高测序读取结果的数量(以及通过降低用作扩增模板的基因组的数量)来提高GUIDE-Seq的敏感性。例如,使用产生1000倍以上的读取结果的测序平台将允许检测。[0275]我们的GUIDE-Seq实验所允许的直接比较显示了两种现有计算程序对于预测RGN脱靶位点的限制。这些程序不仅未能鉴定出GUIDE-Seq发现的真实脱靶位点,而且过度地调出了许多不显示裂解的位点。考虑到这些程序使用的参数是基于有关脱靶位点性质的更为限制性的假说,其不能解释我们的GUIDE-Seq实验鉴定出的更大数量的前间区错配和可选择的PAM序列,这并不是完全令人惊讶的。可能的是未来可以开发更好的预测程序,但为此将需要更大量的RGN的实验上测定的全基因组脱靶位点。在可以开发这样的程序之前,脱靶位点的鉴定将通过实验性的方法例如GUIDE-Seq来最有效地解决。[0276]我们的实验结果描述了dCas9的脱靶结合位点与Cas9的脱靶裂解位点之间的清晰区别。比较四种不同gRNA的dCas9ChIP_Seq和Cas9⑶IDE-Seq数据显示,在两组位点之间存在可忽略的直接重叠,两种类型的位点中错配的平均数目实际上是实质地不同的。此外,我们显示了即使早先报道被Cas9诱变的少量dCas9结合位点很可能不是真实的RGN诱导的裂解位点。综上所述,我们的结果显示,dCas9与被ChIP-Seq捕获的DNA位点的结合代表了与Cas9核酸酶裂解DNA位点不同的生物过程,与新近的研究的结果是一致的,其显示了具有前间区的gRNA的5'-末端的啮合是高效的裂解所必需的虽然ChIP-Seq分析无疑将在表征dCas9融合蛋白的全基因组结合方面具有作用,这一方法对于测定有催化活性的RGN的全基因组脱靶裂解位点是明显无效的。[0277]相比其他早先描述的用于鉴定细胞中的DSB位点的全基因组方法,⑶IDE-Seq具有几个重要的优点。近来描述的BLESS破裂标记、链霉亲和素蛋白上富集和下一代测序寡核苷酸标记方法是在固定的透性化细胞上原位进行的H。除了倾向与细胞固定相关的人工假象之外,BLESS将仅捕获在时间上单一时刻存在的破裂。相反,GUIDE-Seq是在活细胞上进行的,并且捕获更长时期数天发生的DSB,从而使得它成为更敏感和全面的分析。将整合缺陷慢病毒(IDLVDNA捕获到靠近DSB的区域内并通过LAM-PCR鉴定这些基因座,已经用于在人类细胞中鉴定工程化锌指核酸酶ZFNs@和转录激活物样效应物核酸酶TALENs2¾勺少量脱靶位点。然而,IDLV整合事件在数量上一般是低的,并且广泛分布在距实际脱靶DSB远至500bps的距离上_,使得它在精确绘制裂解事件的位置和推测实际脱靶位点的序列上都受到挑战。此外,LAM-PCR受到序列偏差和或测序读取结果的低效率的影响。总起来说,这些限制也可以解释通过IDLV的捕获明显不能检测更低频率的ZFN脱靶裂解位点钆相反,运用⑶IDE-Seq,dsODN被非常高效和精确地整合到DSB中,允许以单核苷酸的分辨率绘制破裂以及简单直接地鉴定核酸酶脱靶裂解位点。此外,与LAP-PCR相比,我们的STAT-PCR方法允许高效地、无偏地扩增和测序整合了dsODN的基因组DNA片段。我们注意到,STAT-PCR可能具有更为通用的实用性,超出了它在GUIDE-Seq中的用途;例如,它对于试图在全基因组尺度上绘制病毒的整合位点的研究是有用的。[0278]虽然GUIDE-Seq是高敏感性的,它的检测能力可以通过某些简单的改变进一步改进。使用下一代测序来检测插入-删除的策略受到平台的差错率的限制(一般~0.1%。相比之下,⑶IDE-Seq利用测序来鉴定dsODN插入位点而不是插入-删除,因而不受差错率的限制,而是受测序深度的限制。例如,我们相信在我们的GUIDE-Seq实验中检出的、在我们的测序验证实验中没有发现插入-删除的少数位点实际上代表了可能具有低于0.1%的插入-删除突变频率的位点。与这相一致的是,我们注意到除了3个之外的所有这26个位点都具有低于100的⑶IDE-Seq读取结果计数。综上所述,这些观察表明,我们也许能够简单地通过提高测序读取结果的数量(以及通过增加用作扩增模板的基因组的数量来提高GUIDE-Seq的敏感性。例如,使用产生更高1000倍读取结果的测序平台将允许检测诱变频率更低三个数量级(即,0.0001%的位点,我们预计随着技术继续进步将进一步降低。[0279]我们的实验的出乎意料的结果是认识到⑶IDE-Seq也可以鉴定在甚至没有RGN的情况下细胞中存在的断点热点。我们相信这些DSB不是⑶IDE-Seq的人工假象,因为我们基于AMP的测序实验不仅验证了dsODN的捕获,还验证了这些位点上插入-删除的形成。值得注意的是,在我们的研究中许多热点是两种细胞系的每一个所特有的,而某些热点看起来是两者共同的。确定哪些参数决定了某些热点为什么在一种细胞类型中是断点热点而在另一种细胞中不是,在未来的研究中将是令人感兴趣的。同时,由于我们的结果显示这些断点热点可以参与转位,细胞类型特异性的断点热点的存在可能有助于解释为什么某些基因组重排仅在特定的细胞类型中发生,而在其他细胞类型中不发生。据我们所知,GUIDE-Seq是被描述的第一种方法,其可以在活的人类细胞中鉴定断点热点而不需要添加抑制DNA复制的药物2。因而,我们预计它将为鉴定和研究这些破裂提供有用的工具。[0280]我们的工作建立了迄今为止描述过的最全面的定量性途径,用于鉴定RGN诱导的转位。GUIDE-Seq发现的RGN诱导的和独立于RGN的DSB位点的基于AMP的靶向测序可以发现涉及这两类位点的大规模的基因组重排,包括转位、删除和倒转,凸显了在鉴定大规模基因组重排时考虑这两类破裂的重要性。此外,推测起来,不是所有的RGN诱导的或独立于RGN的DSB都会参与大规模改变,了解为什么某些位点参与而其他位点不参与这些重排将成为进一步研究的重要领域。[0281]GUIDE-Seq还将提供重要的手段来评估全基因组尺度上RGN平台的特异性改进。在这份报告中,我们使用⑶IDE-Seq来显示实现截短的gRNA可以怎样降低基因组尺度上的脱靶效应,扩展了我们团队的较早的结果,即,这一方法可以降低匹配的全长gRNA的已知脱靶位点处的突变M。它还可能适应于评估来自其他细菌或古生菌的可选择的Cas9核酸酶的全基因组特异性,或产生5'突出的核酸酶例如二聚的ZFNs、TALENs和CRISPRRNA-向导的FokI核酸酶的全基因组特异性,或产生5'或3'突出的配对的Cas9切口酶M,M的全基因组特异性;然而将GUIDE-Seq扩展到检测这些其他类型的DSB无疑将需要对dsODN的额外修饰和优化,以确保它被高效捕获如这样的破裂中。所述方法还可以用于评估来自其他细菌或古生菌的可选择的Cas9核酸酶&的特异性。一个重要的警告是,在广泛地得出关于任何新的Cas9平台的特异性的结论之前需要检查大量的gRNA,因为我们发现在我们评估的十种gRNA的脱靶位点数量上有非常广大的变异性。[0282]我们利用GUIDE-Seq和基于AMP的测序的示范性方法建立了评估RGN诱导的脱靶突变和基因组重排的新的金标准。我们预计GUIDE-Seq可以扩展到在NHEJ有活性的、或所需的成分可以被有效导入的任何细胞中使用;例如,我们已经在人类K562和小鼠胚胎干细胞中实现了高效的dsODN整合数据未显示)。最重要的是,本文概述的策略可以用作严苛的临床前途径的一部分,用于客观地评估预期用于治疗用途的任何RGN的潜在脱靶效应,从而实质上改善这些试剂在临床上应用的前景。[0283]实施例3[0284]我们进行了其他实验来探索对可用于当前方法的某些实施方式中的dsODN的要求。[0285]以下的dsODN被用于实施例3的实验中:[0286][0287]5Phos表示5'磷酸化[0288]*表示硫代磷酸酯连接[0289]所有寡聚物在STE中退火。[0290]首先,评估了靶向EGFP的TALENs、ZFNs和RFNs的3种类型的dsODN的整合频率。2E5U20S-EGFP细胞用500ng每种TALEN单体(共lug、500ng每种ZFN单体(共lug或325ng多重gRNA质粒和975ngFokI-dCas9表达质粒和lOOpmol的dsODN核染。使用的三种dsODN是带有5'硫代磷酸酯连接的4-bp5'突出的,带有3'硫代磷酸酯连接的4-bp3'突出的,或带有5'和3'硫代磷酸酯连接的钝的。所有dsODN都是5'磷酸化的。用Ndel限制性片断长度多态性RFLP分析估计整合频率,使用毛细管电泳来定量;简要地,目标位点通过PCR从分离的基因组DNA中扩增。在37°C下用Ndel限制酶20U消化PCRs3小时,用1.8XAmpureXP纯化。用Qiaxcel毛细管电泳仪Qiagen运行和定量纯化的裂解产物。附图16A显示了5'磷酸化和3'硫代磷酸酯化的钝端dsODN具有最高的整合率。[0291]根据厂家的说明,在LonzaNucleofector4-D上将上文使用的相同的寡聚物SEQIDN0:1和2在20yLSolutionSELonza中转染到U20S细胞程序DN-100中。转染500ng的每种TALEN单体(CCR5°CTALI252TAL1301,APC为TAL22942295和lOOprno1的dsODN。附图16B-C显示了钝的5'-磷酸化的34-bp双链寡聚脱氧核苷酸(dsODNOSQT685686在U20S细胞中的2个内源目标位点CCR5和APC处向TALENs诱导的双链破裂DSB中高效整合的证据,如Ndel限制性片断长度多态性RFLP分析上文描述的)或T7E1分析所测定的(简要地,目标位点通过PCR从分离的基因组DNA中扩增)JCRs用1.8XAmpureXP纯化。根据以下方案杂交纯化的PCR产物200ng:95°C5分钟,以-2°Cs95-85°C,以-l°C10s85-25°C;保持在10°^Τ7核酸内切酶I10U添加到反应中,在37°C孵育15分钟。通过添加EDTA25mM终止反应,用1.8XAmpureXP纯化。用Qiaxcel毛细管电泳仪Qiagen运行和定量纯化的裂解产物。)[0292]进行其他实验,2E5U20S-EGFP细胞用325ng多重gRNA质粒和975ngFokI-dCas9表达质粒和lOOpmoldsODN核染。另外,3E5小鼠ES细胞用200ng单一gRNA质粒和600ngCas9表达质粒和lOOpmoldsODN核染。比较两种dsODN:1钝的、磷酸化的、5'和3'硫代磷酸修饰的,以及2钝的、磷酸化的、仅3'硫代磷酸修饰的。用Ndel限制性片断长度多态性RFLP分析估计整合频率,利用毛细管电泳定量。[0293]在人类U20S细胞中用二聚的RNA-向导的FokI核酸酶进行的实验(附图17A,或用标准Cas9在小鼠ES细胞中进行的实验(附图17B显示了仅带有3'硫代磷酸修饰的dsODN具有最高的整合率。[0294]在小鼠ES细胞中进行了其他实验来测试不同浓度的3'硫代磷酸修饰的寡聚物。3E5小鼠ES细胞用200ng单一gRNA质粒和600ngCas9表达质粒和如下所述数量变化的dsODN核染。这项实验中使用钝的、磷酸化的、仅3'硫代磷酸修饰的dsODN。在比较纯化的和未纯化的dsODN时,退火的寡聚物用SephadexG-25柱纯化。以1、2、5、10、25、50和lOOpmol的浓度测试dsODN。用NdeI限制性片断长度多态性RFLP分析估计整合频率,利用毛细管电泳定量。附图18A和18B中显示的结果表明,50pmol或lOOpmol提供了最好的活性。通过SephadexG-25柱纯化寡聚物不显著改善效率参见附图18A和18B。通过T7E1分析估计诱变频率,其显示了即使在存在3'修饰的dsODN的情况下一般破坏率是高的。[0295]还评估了dsODN的长度。附图20A-B显示了更长的(例如,60bpdsODN标签有效地整合到CRISPR-Cas9诱导的DSB的位点。通过允许生物信息学地过滤PCR扩增人工假象,这些更长的dsODN可以用于改善GUIDE-seq的精确性。这些序列可以作为不含有更长的标签中存在的序列的任何序列来识别。[0296][0297]*表示硫代磷酸酯连接[0298]这些实验显示了dsODN标签摄取的效率可以通过使用仅在3'末端修饰,而不是在5'和3'末端都修饰的寡聚物、更长的寡聚物来提高,以及高效的dsODN标签捕获在各种细胞系中存在,包括不是来自于转化的癌细胞系的细胞例如,小鼠ES细胞)。[0299]实施例4[0300]在这个实施例中,GUIDE-seqdsODN标签的生物素化的版本被用作整合到基因组DSB的位点中的底物。如实施例4中显示的,有可能有效地整合这样的寡聚物。使用获自IDTDNA的生物素化的dsODN如上所述进行实验。[0301][0302]iBiodT-生物素dT标签[0303]*表示硫代磷酸酯连接[0304]附图19A-B提供了U20S细胞中生物素化的dsODN标签在3个内源目标位点VEGFA3、EMX1和FANCF1处向Cas9诱导的双链破裂DSB中高效整合的证据。这一进步可以通过利用生物素与链霉亲和素蛋白的紧密结合亲和性来直接物理捕获标签化的片段。(ARFLP分析显示了与标准的dsODNOSQT685686相比,在U20S细胞中在3个内源位点VEGFA3、EMX1和FANCF1处生物素化的ds0DNoSQT12611262向Cas9诱导的DSB中的整合率%。(bT7EI显示了与标准的ds0DNoSQT685686相比,在U20S细胞中3个内源位点VEGFA3、EMX1和FANCF1处生物素化的dsODNOSQT12611262的估计的诱变频率%。[0305]假定生物素化在细胞中被保留,它可以用于物理地拉出包括了生物素化ssODNs的DNA片段,并对捕获的片段测序和作图。[0306]实施例5[0307]在这个实施例中,用变体Cas9蛋白使用了示范性的⑶IDE-Seq方法。[0308]变体化胺性链球菌(StreptococcuspyogenesCas9SpCas9和金黄葡萄球菌StaphylococcusaureusCas9SaCas9蛋白如USSN61127,634和62165,517中描述的产生,通过引用合并在本文中,以及如Kleinstiver等人,"EngineeredCRISPR-Cas9nucleaseswithalteredPAMspecificities'Nature2015doi:10.1038nature14592中描述的产生。如上所述评估脱祀效应。[0309]附图21显示了使用靶向EMX1、FANCF、RUNX1、VEGFA或ZNF629的sgRNA序列参见表4,对于包含D1135VR1335QT1337RVQR变体)或D1135VG1218RR1335ET1337RVRER变体处的突变的工程化的SpCas9变体,通过⑶IDE-Seq鉴定的脱靶裂解位点的数量。这表明GUIDE-Seq也可以用于剖绘Cas9的工程化版本的全基因组特异性。通过靶向含有NGA或NGCGPAMs的内源位点,GUIDE-Seq还用于确定人类细胞中VQR和VRERSpCas9变体的特异性分布。[0310][0311]附图22显示了使用本文描述的示范性的GUIDE-seq方法检测的,在脱靶位点处野生型与D1135ESpCas9变体之间特异性方面的改变AUIDE-Seq还用于确定3个内源人类细胞位点处野生型SpCas9与D1135E之间的读取结果计数差异。[0312]还使用野生型和工程化的Cas9D1135E变体在3个基因上进行了GUIDE-SeqdsODN标签整合^付图23A-B中显示的结果提供了⑶IDE-seq可用于剖绘工程化Cas9变体的额外的证据。[0313]参考文献[0314]1.Sander,J.D.&Joung,J.K.CRISPR-Cassystemsforediting,regulatingandtargetinggenomes.NatBiotechno132,347-3552014·[0315]2.Hsu,P.D.,Lander,E.S.&Zhang,F.DevelopmentandapplicationsofCRISPR-Cas9forgenomeengineering.Cell157,1262-12782014.[0316]3.Jinek,M.等人,Aprogrammabledual-RNA-guidedDNAendonucleaseinadaptivebacterialimmunity.Science337,816-8212012.[0317]4.Fu,Y·等人,High-frequencyoff-targetmutagenesisinducedbyCRISPR-Casnucleasesinhumancells.NatBiotechnol31,822-8262013.[0318]5·Hsu,P·D·等人,DNAtargetingspecificityofRNA-guidedCas9nucleases.NatBiotechnol31,827-8322013.[0319]6.Pattanayak,V.等人,High-throughputprofilingofoff-targetDNAcleavagerevealsRNA-programmedCas9nucleasespecificity.NatBiotechnol31,839-8432013.[0320]7·Cradick,T·J·,Fine,E·J·,Antico,C·J·&Bao,G·CRISPRCas9systemstargetingbeta-globinandCCR5geneshavesubstantialoff-targetactivity.NucleicAcidsRes41,9584-95922013.[0321]8.Cho,S.W.等人,Analysisofoff-targeteffectsofCRISPRCas-derivedRNA-guidedendonucleasesandnickases.GenomeRes24,132-1412014·[0322]9·Ghezraoui,H·等人,Chromosomaltranslocationsinhumancellsaregeneratedbycanonicalnonhomologousend-joining.MolCell55,829-8422014·[0323]10.Choi,P.S.&Meyerson,M.TargetedgenomicrearrangementsusingCRISPRCastechnology.NatCommun5,37282014.[0324]ll.Gostissa,M.等人,IgHclassswitchingexploitsageneralpropertyoftwoDNAbreakstobejoinedincisoverlongchromosomaldistances.ProcNatlAcadSciUSA111,2644-26492014.[0325]12.TsaijS.Q.&Joung,J.K.ffhatJschangedwithgenomeediting?CellStemCell15,3-42014.[0326]13.Marx,V.Geneediting:howtostayon-targetwithCRISPR.NatMethods11,1021-10262014.[0327]14.Veres,A.等人,Lowincidenceofoff-targetmutationsinindividualCRISPR_Cas9andTALENtargetedhumanstemcellclonesdetectedbywhole-genomesequencing.CellStemCell15,27-302014.[0328]15.Smith,C.等人,Whole-genomesequencinganalysisrevealshighspecificityofCRISPRCas9andTALEN-basedgenomeeditinginhumaniPSCs.CellStemCell15,12-132014.[0329]16.Duan,J.等人,Genome-wideidentificationofCRISPRCas9off_targetsinhumangenome.CellRes24,1009-10122014.[0330]17.Wu,X.等人,Genome-widebindingoftheCRISPRendonucleaseCas9inmammaliancells.NatBiotechnol32,670-6762014.[0331]18.Kuscu,C.,Arslan,S.,Singh,R.,Thorpe,J.&Adli,M.Genome-wideanalysisrevealscharacteristicsofoff-targetsitesboundbytheCas9endonuclease.NatBiotechnol32,677-6832014.[0332]19·Cencic,R.等人,ProtospacerAdjacentMotifPAM-DistalSequencesEngageCRISPRCas9DNATargetCleavage.PLoSOne9,el092132014.[0333]20.0rlando,S.J.等人,Zinc-fingernuclease-driventargetedintegrationintomammaliangenomesusingdonorswithlimitedchromosomalhomology.NucleicAcidsRes38,el522010.[0334]21·Schmidt,M.等人,High-resolutioninsertion-siteanalysisbylinearamplification-mediatedPCRLAM-PCR.NatMethods4,1051-10572007.[0335]22·Gabriel,R.等人,Anunbiasedgenome-wideanalysisofzinc-fingernucleasespecificity.NatBiotechnol29,816-8232011.[0336]23.Jiang,W.,Bikard,D.,Cox,D.,Zhang,F.&Marraffini,L.A.RNA-guidededitingofbacterialgenomesusingCRISPR-Cassystems.NatBiotechnol31,233-2392013.[0337]24.Lin,Y.等人,CRISPRCas9systemshaveoff-targetactivitywithinsertionsordeletionsbetweentargetDNAandguideRNAsequences.NucleicAcidsRes42,7473-74852014.[0338]25.Ran,F.A.等人,GenomeengineeringusingtheCRISPR_Cas9system.NatProtoc8,2281-23082013.[0339]26.Heigwer,F.,Kerr,G.&Boutros,M.E-CRISP:fastCRISPRtargetsiteidentification.NatMethods11,122-1232014.[0340]27·Crosetto,N·等人,Nucleotide-resolutionDNAdouble-strandbreakmappingbynext-generationsequencing.NatMethods10,361-3652013·[0341]28·Osborn,M.J·等人,TALEN-basedgenecorrectionforepidermolysisbullosa.MolTher21,1151-11592013.[0342]29·Sander,J·D·等人,Insilicoabstractionofzincfingernucleasecleavageprofilesrevealsanexpandedlandscapeofoff-targetsites.NucleicAcidsRes2013.[0343]30.Fu,Y.,Sander,J.D.,Reyon,D.,Cascio,V.M.&Joung,J.K.ImprovingCRISPR-CasnucleasespecificityusingtruncatedguideRNA.NatBiotechnol32,279-2842014.[0344]31.Tsai,S.Q.等人,DimericCRISPRRNA-guidedFokInucleasesforhighlyspecificgenomeediting.NatBiotechnol32,569-5762014·[0345]32.Guilinger,J.P.,Thompson,D.B.&Liu,D.R.FusionofcatalyticallyinactiveCas9toFokInucleaseimprovesthespecificityofgenomemodification.NatBiotechnol32,577-5822014.[0346]33.Mali,P.等人,CAS9transcriptionalactivatorsfortargetspecificityscreeningandpairednickasesforcooperativegenomeengineering.NatBiotechnol31,833-8382013.[0347]34.Ran,F.A.等人,DoublenickingbyRNA-guidedCRISPRCas9forenhancedgenomeeditingspecificity.Cell154,1380-13892013.[0348]35·Fonfara,I·等人,PhylogenyofCas9determinesfunctionalexchangeabilityofdual-RNAandCas9amongorthologoustypeIICRISPR-Cassystems.NucleicAcidsRes42,2577-25902014.[0349]其他实施方式[0350]要理解的是虽然已经连同其详细说明一起描述了本发明,以上的描述意图说明而不是限制本发明的范围,本发明的范围由附随的权利要求的范围所定义。其他方面、优点和改变在以下权利要求的范围之内。

权利要求:1.一种在细胞的基因组DNA中检测双链破裂DSB的方法,所述方法包括:使所述细胞与双链寡聚脱氧核苷酸dsODN接触,其中所述dsODN的长度优选地在15到50nts之间,其中所述dsODN的两条链对于所述细胞的基因组都是直系同源的;优选地,所述dsODN的5'末端是磷酸化的;以及还优选地,在两个3'末端上存在硫代磷酸酯连接,或在两个3'末端和两个5'末端上存在两个硫代磷酸酯连接;在所述细胞中表达或活化外源的工程化核酸酶,其时间足以使所述核酸酶在所述细胞的基因组DNA中诱导DSB,以及足以使所述细胞修复所述DSB,在一个或多个DSB处整合dsODN;扩增包含整合的dsODN的基因组DNA的部分;和对所述基因组DNA的扩增的部分进行测序,从而检测所述细胞的基因组DNA中的DSB。2.-种在细胞的基因组DNA中检测双链破裂DSB的方法,所述方法包括:使所述细胞与双链寡聚脱氧核苷酸dsODN接触,其中所述dsODN的长度优选地在50到75nts之间,其中所述dsODN的两条链对于所述细胞的基因组都是直系同源的;优选地,所述dsODN的5'末端是磷酸化的;以及还优选地,在两个3'末端上存在硫代磷酸酯连接,或在两个3'末端和两个5'末端上存在两个硫代磷酸酯连接;在所述细胞中表达或活化外源的工程化核酸酶,其时间足以使所述核酸酶在所述细胞的基因组DNA中诱导DSB,以及足以使所述细胞修复所述DSB,在一个或更多个DSB处整合dsODN;扩增包含整合的dsODN的基因组DNA的部分;和对所述基因组DNA的扩增的部分进行测序,从而检测所述细胞的基因组DNA中的DSB。3.根据权利要求1或2所述的方法,其中扩增基因组DNA的部分包括:使所述DNA片段化;使来自所述细胞的片段化的基因组DNA的末端与通用衔接子连接;使用与所述整合的dsODN互补的引物(引物A和与所述通用衔接子互补的引物(引物B在连接的DNA上进行第一轮聚合酶链式反应PCR;然后使用与引物A互补的3'嵌套引物(引物C、与引物B互补的3'嵌套引物(引物D和与引物D互补的引物(引物E进行第二轮PCR。4.根据权利要求3所述的方法,其中所述引物E包含一个或更多个的:纯化或结合序列;和或鉴定序列。5.根据权利要求1或2所述的方法,其中所述工程化核酸酶选自由巨核酸酶、锌指核酸酶、转录激活物效应物样核酸酶TALEN和成簇规则间隔短回文重复CRISPRCasRNA向导的核酸酶CRISPRCasRGN构成的组。6.根据权利要求1-5任一项所述的方法,其中所述DSB是脱靶DSB。7.根据权利要求1-5任一项所述的方法,其中所述DSB是由外源的工程化核酸酶诱导的。8.-种确定多个向导RNA的哪个是最为特异性的,即,诱导最少的脱靶DSB的方法,所述方法包括:使第一细胞群体与第一向导RNA和双链寡聚脱氧核苷酸dsODN接触,其中所述dsODN的长度优选地在15到50nts之间,其中所述dsODN的两条链对于所述细胞的基因组都是直系同源的;优选地,所述dsODN的5'末端是磷酸化的;以及还优选地,在两个3'末端上存在硫代磷酸酯连接,或在两个3'末端和两个5'末端上存在两个硫代磷酸酯连接;在所述第一细胞群体中表达或活化外源的Cas9工程化核酸酶,其时间足以使所述核酸酶在所述细胞的基因组DNA中诱导DSB,以及足以使所述细胞修复所述DSB,在一个或更多个DSB处整合dsODN;扩增来自所述第一细胞群体的包含整合的dsODN的基因组DNA的部分;以及对来自所述第一细胞群体的扩增的基因组DNA的部分进行测序;测定所述dsODN整合到所述第一细胞群体的基因组DNA中的位点的数目;使第二细胞群体与第二向导RNA和双链寡聚脱氧核苷酸dsODN接触,其中所述dsODN的长度优选地在15到50nts之间,其中所述dsODN的两条链对于所述细胞的基因组都是直系同源的;优选地,所述dsODN的5'末端是磷酸化的;以及还优选地,在两个3'末端上存在硫代磷酸酯连接,或在两个3'末端和两个5'末端上存在两个硫代磷酸酯连接;在所述第二细胞群体中表达或活化外源的Cas9工程化核酸酶,其时间足以使所述核酸酶在所述第二细胞群体的基因组DNA中诱导DSB,以及足以使所述细胞修复所述DSB,在一个或更多个DSB处整合dsODN;扩增来自所述第二细胞群体的包含整合的dsODN的基因组DNA的部分;以及对来自所述第二细胞群体的扩增的基因组DNA的部分进行测序;测定所述dsODN整合到所述第二细胞群体的基因组DNA中的位点的数目;比较所述dsODN整合到所述第一细胞群体的基因组DNA中的位点的数目与所述dsODN整合到所述第二细胞群体的基因组DNA中的位点的数目;其中dsODN在更少的(脱祀位点处整合是更为特异性的。9.一种确定多个向导RNA的哪个是最为特异性的,即,诱导最少的脱靶DSB的方法,所述方法包括:使第一细胞群体与第一向导RNA和双链寡聚脱氧核苷酸dsODN接触,其中所述dsODN的长度优选地在50到75nts之间,其中所述dsODN的两条链对于所述细胞的基因组都是直系同源的;优选地,所述dsODN的5'末端是磷酸化的;以及还优选地,在两个3'末端上存在硫代磷酸酯连接,或在两个3'末端和两个5'末端上存在两个硫代磷酸酯连接;在所述第一细胞群体中表达或活化外源的Cas9工程化核酸酶,其时间足以使所述核酸酶在所述细胞的基因组DNA中诱导DSB,以及足以使所述细胞修复所述DSB,在一个或更多个DSB处整合dsODN;扩增来自所述第一细胞群体的包含整合的dsODN的基因组DNA的部分;以及对来自所述第一细胞群体的扩增的基因组DNA的部分进行测序;测定所述dsODN整合到所述第一细胞群体的基因组DNA中的位点的数目;使第二细胞群体与第二向导RNA和双链寡聚脱氧核苷酸dsODN接触,其中所述dsODN的长度优选地在50到75nts之间,其中所述dsODN的两条链对于所述细胞的基因组都是直系同源的;优选地,所述dsODN的5'末端是磷酸化的;以及还优选地,在两个3'末端上存在硫代磷酸酯连接,或在两个3'末端和两个5'末端上存在两个硫代磷酸酯连接;在所述第二细胞群体中表达或活化外源的Cas9工程化核酸酶,时间足以使所述核酸酶在所述第二细胞群体的基因组DNA中诱导DSB,以及足以使所述细胞修复所述DSB,在一个或更多个DSB处整合dsODN;扩增来自所述第二细胞群体的包含整合的dsODN的基因组DNA的部分;以及对来自所述第二细胞群体的扩增的基因组DNA的部分进行测序;测定所述dsODN整合到所述第二细胞群体的基因组DNA中的位点的数目;比较所述dsODN整合到所述第一细胞群体的基因组DNA中的位点的数目与所述dsODN整合到所述第二细胞群体的基因组DNA中的位点的数目;其中dsODN在更少的(脱祀位点处整合是更为特异性的。10.根据权利要求1-9的任一项所述的方法,其中所述细胞是哺乳动物细胞。11.根据权利要求1-10的任一项所述的方法,其中所述工程化核酸酶是Cas9核酸酶,以及所述方法还包括在所述细胞中表达将所述Cas9核酸酶导向基因组中的目标序列的向导RNA〇12.根据上述权利要求的任一项所述的方法,其中所述dsODN的长度是30-35nts或60-65nts〇13.根据上述权利要求的任一项所述的方法,其中所述dsODN是生物素化的。14.根据权利要求13所述的方法,其中所述方法包括:将所述基因组gDNA剪切成片段;和通过与生物素结合来分离包含dsODN的片段。15.根据上述权利要求的任一项所述的方法,其中所述dsODN是钝末端的。16.根据上述权利要求的任一项所述的方法,其中所述dsODN在5'末端上具有1、2、3或4nts的突出。17.根据上述权利要求的任一项所述的方法,其中所述dsODN在5'末端上被磷酸化,在3'末端上被硫代磷酸酯化。18.根据上述权利要求的任一项所述的方法,其中所述dsODN含有随机化的DNA条码。19.根据上述权利要求的任一项所述的方法,所述方法包含:将所述基因组gDNA剪切成片段;和通过末端修复A-加尾连接单尾的测序衔接子来制备用于测序的片段。

百度查询: 通用医疗公司 通过测序评估的DSBs的全基因组无偏鉴定(GUIDE‑Seq)

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。