买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:加利福尼亚大学董事会
摘要:本公开提供CasY蛋白、编码所述CasY蛋白的核酸,以及包含所述CasY蛋白和或编码所述CasY蛋白的核酸的经修饰的宿主细胞。CasY蛋白可用于提供的各种应用中。本公开提供与所述CasY蛋白结合并提供针对所述CasY蛋白的序列特异性的CasY指导RNA,编码所述CasY指导RNA的核酸,以及包含所述CasY指导RNA和或编码所述CasY指导RNA的核酸的经修饰的宿主细胞。CasY指导RNA可用于提供的各种应用中。本公开提供鉴定CRISPRRNA指导的内切核酸酶的方法。
主权项:1.一种组合物,其包含:aCasY多肽或编码所述CasY多肽的核酸分子,其中所述CasY多肽由SEQIDNO:1-7中任一所示的氨基酸序列组成;以及bCasY指导RNA或一种或多种编码所述CasY指导RNA的DNA分子,其中所述CasY指导RNA包含与靶核酸中的核苷酸序列互补的核苷酸序列,并且其中所述CasY多肽与所述CasY指导RNA形成复合物并结合所述靶核酸。
全文数据:RNA指导的核酸修饰酶及其使用方法交叉引用本申请要求2016年9月30日提交的美国临时专利申请号62402,849的权益,所述申请以引用的方式整体并入本文。以引用的方式并入呈文本文件提供的序列表特此提供2017年9月28日创建的呈文本文件“BERK-343WO_SeqList_ST25.txt”的序列表并且所述序列表具有244KB的大小。文本文件的内容以引用方式整体并入本文。引言CRISPR-Cas系统是DNA测序时代之前科学界未知的途径的一个实例,现在被认为赋予细菌和古细菌针对噬菌体和病毒的获得性免疫力。过去十年的密集研究已揭示了此系统的生物化学性。CRISPR-Cas系统由Cas蛋白和CRISPR阵列组成,所述Cas蛋白参与外源DNA或RNA的获取、靶向和切割,所述CRISPR阵列包括将Cas蛋白引导至其靶标的侧接短间隔序列的正向重复序列。第2类CRISPR-Cas是精简型式,其中与RNA结合的单个Cas蛋白负责结合和切割靶向序列。这些最小系统的可编程性质使它们能够用作一种多功能技术,这种技术正在彻底变革基因组操纵领域。当前的CRISPR-Cas技术基于来自培养的细菌的系统,而使得未被分离的绝大多数生物体处于未开发状态。迄今为止,仅发现了少数第2类CRISPRCas系统。本领域需要另外的第2类CRISPRCas系统例如,Cas蛋白加指导RNA的组合。发明内容本公开提供RNA指导的内切核酸酶多肽,在本文中称为“CasY”多肽也称为“CasY蛋白”;编码CasY多肽的核酸;以及包含CasY多肽和或编码CasY多肽的核酸的经修饰的宿主细胞。CasY多肽可用于提供的各种应用中。本公开提供与CasY蛋白结合并提供针对CasY蛋白的序列特异性的指导RNA在本文中称为“CasY指导RNA”;编码CasY指导RNA的核酸;以及包含CasY指导RNA和或编码CasY指导RNA的核酸的经修饰的宿主细胞。CasY指导RNA可用于提供的各种应用中。本公开提供鉴定CRISPRRNA指导的内切核酸酶的方法。附图说明图1描绘天然存在的CasY蛋白序列的实例。图2描绘天然存在的CasY蛋白序列的比对。图3图a至图b描绘CasY的示意性结构域表示。还示出试图鉴定CasY的同源物的各种检索的结果。还描绘鉴定的含有CasY的CRISPR基因座的部分。图4描绘CasY和C2c3基因座的示意图。干扰蛋白以绿色示出,获取蛋白以红色示出。使用RNA结构折叠的重复序列在右侧示出,揭示在5'末端处的强发夹,从而表明CRISPR阵列通过CasY进行自我加工。图5图a至图d描绘为确定CasY的PAM序列而进行的实验CasY的PAM依赖性质粒干扰。图6图a至图b呈现天然存在的CasY指导RNA的‘重复'序列,以及与靶DNA杂交的示例性CasY指导RNA。从上到下,SEQIDNO:11-15和SEQIDNO:20图7图a至图b呈现来自非培养生物体的新鉴定的CRISPR-Cas系统。a,基于Hug等人的数据,所有细菌和古细菌中具有与没有已分离的代表的主要谱系的比例32。结果突出了这些领域中的大规模尚未研究的生物学。古细菌Cas9和新型CRISPR-CasY仅存在于没有已分离的代表的谱系中。b,新发现的CRISPR-Cas系统的基因座结构。图8图a至图b呈现ARMAN-1CRISPR阵列多样性和ARMAN-1Cas9PAM序列的鉴定。a,由15种不同的AMD样品重建的CRISPR阵列。白色方框表示重复序列,并且有色菱形表示间隔序列相同的间隔序列颜色相似;独特的间隔序列为黑色。突出显示阵列的保守区域右侧。最近获得的间隔序列左侧的多样性表明系统是活跃的。还包括来自读取数据的CRISPR片段的分析在图14中呈现。b,由AMD宏基因组数据重建的单个推定的病毒重叠群含有来自ARMAN-1CRISPR阵列的56个原间隔序列红色竖直条。c,序列分析揭示非靶链上的原间隔序列下游的保守‘NGG’PAM基序。图9图a至图d呈现示出CasX介导大肠杆菌E.coli中的可编程DNA干扰的数据。a,CasX质粒干扰测定图。用含有与CRISPR阵列中的序列匹配的间隔序列的质粒靶标或含有非匹配间隔序列的质粒非靶标转化表达最小CasX基因座的大肠杆菌。转化之后,对培养物进行铺板并定量菌落形成单位cfu。b,表达靶向间隔序列1sX.1的浮霉菌门PlanctomycetesCasX基因座并用指定的靶标转化的大肠杆菌的连续稀释sX1,CasX间隔序列1;sX2,CasX间隔序列2;NT,非靶标。c,δ变形菌门DeltaproteobacteriaCasX的质粒干扰。实验一式三份进行,并且示出平均值±标准差。d,在大肠杆菌中表达的浮霉菌门CasX基因座的PAM缺失测定。与对照文库相比缺失大于30倍的PAM序列用于生成WebLogo。图10图a至图c呈现示出CasX是一种双指导的CRISPR复合物的数据。a,环境RNA序列宏转录组数据到下图所示的CasXCRISPR基因座的映射红色箭头,推定的tracrRNA;白色方框,重复序列;绿色菱形,间隔序列。插图示出第一个重复序列和间隔序列的详细视图。b,CasX双链DNA干扰图。RNA加工的位点用黑色箭头指示。c,使用敲除CasX基因座的推定tracrRNA进行的质粒干扰测定的结果T,靶标;NT,非靶标。实验一式三份进行,并且示出平均值±标准差。图11图a至图c呈现示出大肠杆菌中CasY基因座的表达足以引起DNA干扰的数据。a,CasY基因座和相邻蛋白质的图。b,相对于对照文库CasY的缺失大于3倍的5′PAM序列的WebLogo。c,表达CasY.1并用含有指示PAM的靶标转化的大肠杆菌的质粒干扰。实验一式三份进行,并且示出平均值±标准差。图12图a至图b呈现在已知系统的环境中的新鉴定的CRISPR-Cas。a,通用Cas1蛋白的简化系统发育树。在楔形和分支上记录已知系统的CRISPR类型;新描述的系统以粗体显示。详细的Cas1系统发育在补充数据2中呈现。b,提出的由于II-B型与II-C型基因座之间的重组而产生古细菌II型系统的进化设想。图13呈现来自ARMAN-4的古细菌Cas9存在于具有简并CRISPR阵列的许多重叠群上。来自ARMAN-4的Cas9在16个不同的重叠群上以深红色突出显示。具有推定的结构域或功能的蛋白被标记,而假定蛋白未被标记。所述重叠群中的十五个含有两个简并的正向重复序列一个bp错配和一个单一保守间隔序列。剩余的重叠群仅含有一个正向重复序列。与ARMAN-1不同,在ARMAN-4中发现没有另外的Cas蛋白与Cas9相邻。图14呈现ARMAN-1CRISPR阵列的完整重建。包括参考组装序列以及由短DNA读取重建的阵列区段的CRISPR阵列的重建。绿色箭头指示重复序列,并且有色箭头指示CRISPR间隔序列相同的间隔序列颜色相同,而独特的间隔序列为黑色。在CRISPR系统中,间隔序列通常是单向添加的,因此左侧的各种各样的间隔序列归因于最近的获得。图15图a至图b示出ARMAN-1间隔序列映射到古细菌群落成员的基因组。a,来自ARMAN-1的原间隔序列红色箭头映射到ARMAN-2的基因组,所述ARMAN-2是来自同一环境的纳米古细菌。六个原间隔序列独特地映射到侧接两个长末端重复序列LTR的基因组的一部分,并且两个另外的原间隔序列在LTR内完美匹配蓝色和绿色。此区域可能是转座子,表明ARMAN-1的CRISPR-Cas系统在抑制此元件的可动化中起作用。b,原间隔序列还映射到热源体目Thermoplasmatales古细菌I-plasma,所述热源体目古细菌是在与ARMAN生物体相同的样品中发现的RichmondMine生态系统的另一个成员。原间隔序列在编码短假定蛋白的基因组区域内聚类,表明这也可能代表可动元件。图16图a至图e呈现预测的ARMAN-1crRNA和tracrRNA的二级结构。a,CRISPR重复序列和tracrRNA反重复序列以黑色描绘,而间隔序列衍生的序列以一系列绿色N示出。没有明确的终止信号可从基因座预测,因此基于它们的二级结构测试了三种不同的tracrRNA长度-分别为红色、蓝色和粉红色的69、104和179。b,工程化的对应于a中的双指导的单指导RNA。c,在tracrRNA的3'末端有两个不同的发夹75和122的ARMAN-4Cas9的双指导。d,工程化的对应于c中的双指导的单指导RNA。e,大肠杆菌体内靶向测定中的测试条件。图17图a至图b呈现体外生物化学研究的纯化方案。a,ARMAN-1AR1和ARMAN-4AR4Cas9在如补充材料中概述的多种条件下进行表达和纯化。在体外测试在蓝色方框中概述的蛋白质的切割活性。b,在10%SDS-PAGE凝胶上分离AR1-Cas9和AR4-Cas9纯化的级分。图18呈现与已知蛋白质相比的新鉴定的CRISPR-Cas系统。基于以下检索的CasX和CasY与已知蛋白质的相似性:1针对NCBI的非冗余NR蛋白质数据库的Blast检索,2针对所有已知蛋白质的HMM数据库的隐马尔科夫模型HMM检索和3使用HHpred的远同源性检索30。图19图a至图d呈现与CasX进行的编程的DNA干扰相关的数据。a,CasX2浮霉菌门和CasX1δ变形菌门的质粒干扰测定,上接图9图csX1,CasX间隔序列1;sX2,CasX间隔序列2;NT,非靶标。实验一式三份进行,并且示出平均值±标准差。b,表达CasX基因座并用指定靶标转化的大肠杆菌的连续稀释,上接图9图b。c,针对δ变形菌门CasX的PAM缺失测定,以及d,在大肠杆菌中表达的浮霉菌门CasX。与对照文库相比缺失大于指示的PAM缺失值阈值PDVT的PAM序列用于生成WebLogo。图20呈现Cas9同源物的进化树。Cas9蛋白的最大似然法系统发育树,示出先前描述的基于系统类型着色的系统:II-A为蓝色,II-B为绿色,并且II-C为紫色。古细菌Cas9与II-C型CRISPR-Cas系统以及来自非培养细菌的两种新描述的细菌Cas9聚类到一起。图21呈现针对来自ARMAN-1和ARMAN-4的Cas9测定的切割条件的表。定义如本文所使用“异源的”意指分别不存在于天然核酸或蛋白质中的核苷酸或多肽序列。例如,相对于CasY多肽,异源多肽包含来自除CasY多肽之外的蛋白质的氨基酸序列。在一些情况下,来自一个物种的CasY蛋白的一部分与来自不同物种的CasY蛋白的一部分融合。因此,可认为来自每个物种的CasY序列相对于彼此是异源的。作为另一个实例,CasY蛋白例如,dCasY蛋白可与来自非CasY蛋白例如,组蛋白脱乙酰酶的活性结构域融合,并且所述活性结构域的序列可被认为是异源多肽它与CasY蛋白是异源的。在本文中可互换使用的术语“多核苷酸”和“核酸”是指具有任何长度的核苷酸核糖核苷酸或脱氧核苷酸的聚合形式。因此,此术语包括但不限于单链、双链或多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂交体或包含嘌呤碱基和嘧啶碱基或其他天然的、化学或生物化学修饰的、非天然的或衍生的核苷酸碱基的聚合物。术语“多核苷酸”和“核酸”应理解为包括如可适用于所描述的实施方案的单链诸如有义链或反义链和双链多核苷酸。在本文中可互换使用的术语“多肽”、“肽”和“蛋白质”是指具有任何长度的氨基酸的聚合形式,其可包括遗传编码和非遗传编码的氨基酸、化学或生物化学修饰的或衍生的氨基酸以及具有修饰的肽骨架的多肽。所述术语包括:融合蛋白,其包括但不限于具有异源氨基酸序列的融合蛋白,具有异源和同源前导序列、具有或不具有N端甲硫氨酸残基的融合体;免疫标记蛋白;等。如本文所用,适用于核酸、蛋白质、细胞或生物体的术语“天然存在的”是指存在于自然界中的核酸、细胞、蛋白质或生物体。如本文所用,术语“分离的”意在描述处于与多核苷酸、多肽或细胞天然存在的环境不同的环境中的所述多核苷酸、多肽或细胞。分离的遗传修饰的宿主细胞可存在于遗传修饰的宿主细胞的混合群体中。如本文所用,术语“外源核酸”是指在自然界中不是正常或天然存在的核酸和或不是由给定细菌、生物体或细胞产生的核酸。如本文所用,术语“内源核酸”是指在自然界中正常存在的核酸和或由给定细菌、生物体或细胞产生的核酸。“内源核酸”也称为“天然核酸”或对于给定细菌、生物体或细胞“天然”的核酸。如本文所用,“重组”意指具体核酸DNA或RNA是克隆、限制和或连接步骤的各种组合的产物,所述步骤产生具有可与天然系统中存在的内源核酸区别开的结构编码序列或非编码序列的构建体。一般而言,编码结构编码序列的DNA序列可由cDNA片段和短寡核苷酸接头或由一系列合成寡核苷酸组装,以提供能够由包含在细胞中或无细胞转录和翻译系统中的重组转录单元表达的合成核酸。此类序列可以不被内部非翻译序列或内含子中断的开放阅读框形式提供,所述内部非翻译序列或内含子通常存在于真核基因中。包含相关序列的基因组DNA还可用于重组基因或转录单元的形成中。非翻译DNA的序列可存在于开放读码框的5'端或3'端,其中此类序列不干扰编码区的操作或表达,并且实际上可通过各种机制起到调节所需产物的产生的作用参见下文的“DNA调节序列”。因此,例如术语“重组”多核苷酸或“重组”核酸是指非天然存在的多核苷酸或核酸,例如通过人干预由序列的两个另外分开的区段的人工组合制成的多核苷酸或核酸。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分开区段例如,通过遗传工程化技术来完成。通常进行这种操作以用编码相同或保守氨基酸的冗余密码子替换密码子,同时通常引入或移除序列识别位点。可替代地,将具有所需功能的核酸区段连接在一起以产生所需的功能组合。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分开区段例如,通过遗传工程化技术来完成。类似地,术语“重组”多肽是指非天然存在的多肽,例如通过人干预由氨基酸序列的两个另外分开的区段的人工组合制成的多肽。因此,例如,包含异源氨基酸序列的多肽是重组的。“构建体”或“载体”意指重组核酸,一般是重组DNA,其是出于表达和或增殖一个或多个特定核苷酸序列的目的而生成的,或者用于构建其他重组核苷酸序列。在本文中可互换使用的术语“DNA调节序列”、“控制元件”和“调节元件”是指转录和翻译控制序列,诸如启动子、增强子、聚腺苷酸化信号、终止子、蛋白质降解信号等,所述转录和翻译控制序列在宿主细胞中提供和或调节编码序列的表达和或编码的多肽的产生。术语“转化”与“遗传修饰”在本文中可互换使用,并且是指在向细胞中引入新核酸即,对于所述细胞外源的DNA之后,在所述细胞中诱导的永久或瞬时的遗传变化。遗传变化“修饰”可通过向宿主细胞的基因组中引入新核酸或者通过作为游离基因元件的新核酸的瞬时的或稳定的维持来完成。当细胞为真核细胞时,永久的遗传变化一般通过向所述细胞的基因组中引入新DNA来完成。在原核细胞中,可将永久的变化引入染色体中或通过染色体外元件诸如质粒和表达载体引入染色体中,所述染色体外元件可含有一种或多种可选择标记以帮助它们在重组宿主细胞中的维持。遗传修饰的合适方法包括病毒感染、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射等。方法的选择一般取决于待转化的细胞类型和其中发生转化的环境即体外、离体或体内。这些方法的一般讨论可见于Ausubel等人,ShortProtocolsinMolecularBiology,第3版,Wiley&Sons,1995中。“可操作地连接”是指其中所述组分处于允许它们以其预期的方式起作用的关系的并置。例如,如果启动子影响编码序列的转录或表达,将启动子可操作地连接至所述编码序列。如本文所用,术语“异源启动子”和“异源控制区”是指通常与自然界中的特定核酸不相关的启动子和其他控制区。例如,“与编码区异源的转录控制区”是通常与自然界中的编码区不相关的转录控制区。如本文所用,“宿主细胞”指代体内或体外真核细胞、原核细胞或作为单细胞实体培养的来自多细胞生物体的细胞例如,细胞系,所述真核细胞或原核细胞可用作或已用作核酸例如,表达载体的受体,并且包括已通过核酸遗传修饰的原始细胞的子代。应理解由于天然、偶然或有意突变,单细胞的子代可不必在形态或在基因组或总DNA互补序列方面与原始亲本完全相同。“重组宿主细胞”也称为“遗传修饰的宿主细胞”是已向其中引入异源核酸例如,表达载体的宿主细胞。例如,主题原核宿主细胞是通过将异源核酸引入合适的原核宿主细胞中的遗传修饰的原核宿主细胞例如,细菌,所述异源核酸是例如对原核宿主细胞外源通常在自然界中不存在的外源核酸或通常在原核宿主细胞中不存在的重组核酸;并且主题真核宿主细胞是通过将异源核酸引入合适的真核宿主细胞中的遗传修饰的真核宿主细胞,所述异源核酸是例如对真核宿主细胞外源的外源核酸或通常在真核宿主细胞中不存在的重组核酸。术语“保守氨基酸取代”是指具有相似侧链的氨基酸残基的蛋白质中的可互换性。例如,具有脂肪族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成;具有脂肪族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成;具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成;具有芳香族侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成;具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成;并且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性保守氨基酸取代基团是:缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸和天冬酰胺-谷氨酰胺。多核苷酸或多肽与另一种多核苷酸或多肽具有一定的“序列同一性”百分比,这意味着当比对时碱基或氨基酸的百分数为相同的,并且当比较两个序列时处于相同的相对位置上。可以许多不同方式确定序列相似性。为了确定序列同一性,可使用包括可通过万维网ncbi.nlm.nih.govBLAST获得的BLAST在内的方法和计算机程序来比对序列。参见例如,Altschul等人1990,J.Mol.Biol.215:403-10。另一种比对算法是FASTA,可从美国威斯康星州麦迪逊市的一家OxfordMolecularGroup,Inc.的全资子公司的遗传计算组GCG程序包中获得。用于比对的其他技术描述于MethodsinEnzymology,第266卷:ComputerMethodsforMacromolecularSequenceAnalysis1996,Doolittle编,AcademicPress,Inc.,HarcourtBrace&Co.的一个部门,SanDiego,California,USA。特别感兴趣的是允许序列中存在缺口的比对程序。Smith-Waterman是允许序列比对中存在缺口的一种算法类型。参见Meth.Mol.Biol.70:173-1871997。另外,使用Needleman和Wunsch比对方法的GAP程序可用于比对序列。参见J.Mol.Biol.48:443-4531970。如本文所用,术语“治疗treatment、treating”等是指获得所需的药理学和或生理学效果。就完全或部分预防疾病或其症状而言,所述效果可以是预防性的,并且或者就部分或完全治愈疾病和或可归因于所述疾病的副作用而言,所述效果可以是治疗性的。如本文所用,“治疗”覆盖对哺乳动物例如,人类的疾病的任何治疗,并且包括:a在可能易患疾病但还未诊断患有所述疾病的受试者中预防疾病发生;b抑制疾病,即阻止其发展;和c缓解疾病,即引起疾病消退。术语“个体”、“受试者”、“宿主”和“患者”在本文中可互换使用,是指个体生物体,例如哺乳动物,包括但不限于鼠类、猿、人类、哺乳类农场动物、哺乳类运动动物和哺乳动物宠物。在进一步描述本发明之前,应理解本发明不限于所述的具体实施方案,因此,当然也可有所变化。还应理解,本文所用的术语仅出于描述具体实施方案的目的,并且不意图具有限制性,因为本发明的范围将仅受所附权利要求限制。在提供值的范围的情况下,应理解此范围的上限与下限之间的各介入值除非上下文另外清楚地指出,否则准确到下限的单位的十分之一,以及此所述范围内的任何其他所述值或介入值涵盖在本发明内。这些较小范围的上限和下限可独立地包括在较小的范围内,并且也涵盖在本发明内,从属于所述范围内的任何特定排除的限值。在所述范围包括所述限值中的一个或两个的情况下,排除那些所包括的限值中的任一个或两个的范围也包括在本发明中。除非另外定义,否则本文所用的所有技术和科学术语均具有与本发明所属领域中的普通技术人员通常所理解相同的含义。虽然与本文所述的那些相似或等同的任何方法和材料也可用于实践或测试本发明中,但是现在描述优选的方法和材料。本文提及的所有出版物以引用的方式并入本文,以结合所引用的出版物公开并描述方法和或材料。必须指出,如在本文和所附权利要求中所用,单数形式“一个a一种an”和“所述the”包括复数指示物,除非上下文另外清楚地指出。因此,例如,提及“CasY多肽”包括多个此类多肽,并且提及“指导RNA”包括提及本领域的技术人员已知的一种或多种指导RNA及其等效物,等。还应注意,权利要求可拟订成排除任何任选的要素。因而,这种陈述意图充当结合权利要求要素的叙述来使用诸如“仅仅”、“仅”等排他性术语或使用“否定”限制的前提基础。应理解,出于清晰目的而在单独的实施方案的上下文中所描述的本发明的某些特征也可在单个实施方案中组合提供。相反,为了简明,在单个实施方案的上下文中描述的本发明的各种特征也可分开地或以任一合适的子组合来提供。属于本发明的实施方案的所有组合确切地涵盖在本发明中并且在本文中公开如同每个和每一种组合均单独地和明确地公开一样。另外,各种实施方案及其要素的所有子组合也确切地涵盖在本发明中并且在本文中公开如同每个和每一种此类子组合均单独地和明确地在本文中公开一样。本文中讨论的出版物仅仅提供它们在本申请的提交日期之前的公开内容。本文中的任何内容均不应解释为承认由于先前发明而使本发明无权先于这些出版物。此外,所提供的出版日可能不同于可能需要独立确认的实际出版日期。具体实施方式本公开提供RNA指导的内切核酸酶多肽,在本文中称为“CasY”多肽也称为“CasY蛋白”;编码CasY多肽的核酸;以及包含CasY多肽和或编码CasY多肽的核酸的经修饰的宿主细胞。CasY多肽可用于提供的各种应用中。本公开提供与CasY蛋白结合并提供针对CasY蛋白的序列特异性的指导RNA在本文中称为“CasY指导RNA”;编码CasY指导RNA的核酸;以及包含CasY指导RNA和或编码CasY指导RNA的核酸的经修饰的宿主细胞。CasY指导RNA可用于提供的各种应用中。本公开提供鉴定CRISPRRNA指导的内切核酸酶的方法。组合物CRISPRCASY蛋白和指导RNACRISPRCas内切核酸酶例如,CasY蛋白与对应的指导RNA例如,CasY指导RNA相互作用结合以形成核糖核蛋白RNP复合物,其通过指导RNA与靶核酸分子内的靶序列之间的碱基配对来靶向靶核酸中的特定位点。指导RNA包括与靶核酸的序列靶位点互补的核苷酸序列指导序列。因此,CasY蛋白与CasY指导RNA形成复合物,并且指导RNA通过指导序列为RNP复合物提供序列特异性。复合物的CasY蛋白提供位点特异性活性。换言之,CasY蛋白质由于其与指导RNA的缔合而被指导到靶核酸序列例如,染色体序列或染色体外序列,例如游离基因序列、微环序列、线粒体序列、叶绿体序列等内的靶位点例如,稳定在靶位点。本公开提供包含CasY多肽和或编码CasY多肽的核酸的组合物例如,其中CasY多肽可以是天然存在的蛋白质、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等。本公开提供包含CasY指导RNA和或编码CasY指导RNA的核酸的组合物。本公开提供包含以下的组合物:aCasY多肽和或编码CasY多肽的核酸例如,其中CasY多肽可以是天然存在的蛋白质、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等和bCasY指导RNA和或编码CasY指导RNA的核酸。本公开提供一种核酸蛋白质复合物RNP复合物,其包含:a本公开的CasY多肽例如,其中CasY多肽可以是天然存在的蛋白质、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等;以及bCasY指导RNA。CasY蛋白CasY多肽此术语与术语“CasY蛋白”可互换使用可结合和或修饰例如,切割、切口、甲基化、脱甲基化等靶核酸和或与靶核酸相关联的多肽例如,组蛋白尾的甲基化或乙酰化例如,在一些情况下,CasY蛋白包括具有活性的融合配偶体,并且在一些情况下,CasY蛋白提供核酸酶活性。在一些情况下,CasY蛋白是天然存在的蛋白质例如,天然存在于原核细胞中。在其他情况下,CasY蛋白不是天然存在的多肽例如,CasY蛋白是变体CasY蛋白、嵌合蛋白等。确定给定蛋白质是否与CasY指导RNA相互作用的测定可以是测试蛋白质和核酸之间的结合的任何方便的结合测定。合适的结合测定例如,凝胶迁移测定对于本领域的普通技术人员而言是已知的例如,包括向靶核酸添加CasY指导RNA和蛋白质的测定。确定蛋白质是否具有活性例如,确定蛋白质是否具有切割靶核酸的核酸酶活性和或一些异源活性的测定可以是任何方便的测定例如,任何方便的测试核酸切割的核酸切割测定。合适的测定例如,切割测定对于本领域的普通技术人员而言是已知的。天然存在的CasY蛋白起内切核酸酶的作用,其在靶向双链DNAdsDNA中的特定序列处催化双链断裂。序列特异性由相关联的指导RNA提供,所述指导RNA与靶DNA内的靶序列杂交。天然存在的CasY指导RNA是crRNA,其中crRNA包含i与靶DNA中的靶序列杂交的指导序列和ii包含结合CasY蛋白的茎环发夹–dsRNA双链体的蛋白质结合区段。在一些实施方案中,主题方法和或组合物的CasY蛋白是或衍生自天然存在的野生型蛋白质。天然存在的CasY蛋白的实例描绘于图1中,并且如SEQIDNO:1-7所示。天然存在的CasY蛋白的实例描绘于图1中,并且如SEQIDNO:1-8所示。图2中呈现示例性天然存在的CasY蛋白的比对蛋白质标记为“Y1.”、“Y2.”、“Y3.”等。7个天然存在的CasYCRISPR基因座的部分DNA支架由测序数据组装如SEQIDNO:21-27所示。重要的是要注意,与先前鉴定的CRISPR-Cas内切核酸酶相比,这种新发现的蛋白质CasY较短,并且因此使用此蛋白质作为替代方案提供编码蛋白质的核苷酸序列相对较短的优点。例如,在其中需要编码CasY蛋白的核酸的情况下,例如在使用病毒载体例如,AAV载体的情况下,这可用于递送至诸如真核细胞的细胞例如,哺乳动物细胞、人细胞、小鼠细胞、体外、离体、体内用于研究和或临床应用。本文还指出,携带CasYCRISPR基因座的细菌存在于在低温例如,10℃-17℃下采集的环境样品中。因此,预期CasY能够在低温例如,10℃-14℃、10℃-17℃、10℃-20℃下良好地起作用例如,比迄今发现的其他Cas内切核酸酶更好。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1所示的CasY蛋白序列具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1所示的CasY蛋白序列具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1所示的CasY蛋白序列具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1所示的CasY蛋白序列具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:1所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:1所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代例如,1、2或3个氨基酸取代例如像,在以下所述的氨基酸位置处。在一些情况下,CasY蛋白包含与SEQIDNO:2所示的CasY蛋白序列具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:2所示的CasY蛋白序列具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:2所示的CasY蛋白序列具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:2所示的CasY蛋白序列具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:2所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:2所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代例如,1、2或3个氨基酸取代例如像,在以下所述的氨基酸位置处。在一些情况下,CasY蛋白包含与SEQIDNO:3所示的CasY蛋白序列具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:3所示的CasY蛋白序列具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:3所示的CasY蛋白序列具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:3所示的CasY蛋白序列具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:3所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:3所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代例如,1、2或3个氨基酸取代例如像,在以下所述的氨基酸位置处。在一些情况下,CasY蛋白包含与SEQIDNO:4所示的CasY蛋白序列具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:4所示的CasY蛋白序列具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:4所示的CasY蛋白序列具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:4所示的CasY蛋白序列具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:4所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:4所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代例如,1、2或3个氨基酸取代例如像,在以下所述的氨基酸位置处。在一些情况下,CasY蛋白包含与SEQIDNO:5所示的CasY蛋白序列具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:5所示的CasY蛋白序列具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:5所示的CasY蛋白序列具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:5所示的CasY蛋白序列具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:5所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:5所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代例如,1、2或3个氨基酸取代例如像,在以下所述的氨基酸位置处。在一些情况下,CasY蛋白包含与SEQIDNO:6所示的CasY蛋白序列具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:6所示的CasY蛋白序列具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:6所示的CasY蛋白序列具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:6所示的CasY蛋白序列具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:6所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:6所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代例如,1、2或3个氨基酸取代例如像,在以下所述的氨基酸位置处。在一些情况下,CasY蛋白包含与SEQIDNO:7所示的CasY蛋白序列具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:7所示的CasY蛋白序列具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:7所示的CasY蛋白序列具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:7所示的CasY蛋白序列具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:7所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:7所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代例如,1、2或3个氨基酸取代例如像,在以下所述的氨基酸位置处。在一些情况下,CasY蛋白包含与SEQIDNO:8所示的CasY蛋白序列具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:8所示的CasY蛋白序列具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:8所示的CasY蛋白序列具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:8所示的CasY蛋白序列具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:8所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:8所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代例如,1、2或3个氨基酸取代例如像,在以下所述的氨基酸位置处。在一些情况下,CasY蛋白包含与SEQIDNO:9所示的CasY蛋白序列具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:9所示的CasY蛋白序列具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:9所示的CasY蛋白序列具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:9所示的CasY蛋白序列具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:9所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:9所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代例如,1、2或3个氨基酸取代例如像,在以下所述的氨基酸位置处。在一些情况下,CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:1-4中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:1-4中的任一个所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代例如,1、2或3个氨基酸取代例如像,在以下所述的氨基酸位置处。在一些情况下,CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:1-5中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:1-5中的任一个所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代例如,1、2或3个氨基酸取代例如像,在以下所述的氨基酸位置处。在一些情况下,CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:1-7中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:1-7中的任一个所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代例如,1、2或3个氨基酸取代例如像,在以下所述的氨基酸位置处。在一些情况下,CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:1-8中的任一个所示的CasY蛋白序列的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:1-8中的任一个所示的CasY蛋白序列的氨基酸序列,不同的是所述序列包括降低蛋白质的天然存在的催化活性的氨基酸取代例如,1、2或3个氨基酸取代例如像,在以下所述的氨基酸位置处。CasY蛋白结构域图3中描绘CasY蛋白的结构域。如在图3的示意图中可看出氨基酸基于CasY1蛋白SEQIDNO:1编号,CasY蛋白包含长度大致800-1000个氨基酸例如,CasY1为约815个并且CasY5为980个的N末端结构域以及包含3个部分RuvC结构域RuvC-I、RuvC-II和RuvC-III,在本文中也称为亚结构域的C末端结构域,所述RuvC结构域相对于CasY蛋白的一级氨基酸序列是不连续的,但在产生蛋白质并折叠时就会形成RuvC结构域。因此,在一些情况下,主题组合物和或方法的CasY蛋白包含长度在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000、或800至950个氨基酸的具有N末端结构域的氨基酸序列例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域。在一些情况下,主题组合物和或方法的CasY蛋白包含长度在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000、或800至950个氨基酸的氨基酸序列例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,所述氨基酸序列在分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III的N末端。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-4中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1-4中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-4中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-4中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸1-812的SEQIDNO:1-4中的任一个的氨基酸序列的片段。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-5中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1-5中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-5中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-5中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸1-812的SEQIDNO:1-5中的任一个的氨基酸序列的片段。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-7中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1-7中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-7中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-7中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸1-812的SEQIDNO:1-7中的任一个的氨基酸序列的片段。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-8中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1-8中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-8中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-8中的任一个所示的CasY蛋白序列的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸1-812的SEQIDNO:1-8中的任一个的氨基酸序列的片段。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,CasY蛋白包含对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,CasY蛋白包含对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,CasY蛋白包含对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些情况下,CasY蛋白包含对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸1-812的氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括分开的RuvC结构域例如,3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III。在一些实施方案中,主题组合物和或方法的CasY蛋白的分开RuvC结构域包括RuvC-II与RuvC-III亚结构域之间的区域,其大于RuvC-III亚结构域。例如,在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间或者1与1.2之间。在一些实施方案中对于主题组合物和或方法的CasY蛋白,RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小。例如,在一些情况下,RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小。在一些实施方案中,RuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内。在一些情况下对于主题组合物和或方法的CasY蛋白,RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.3之间例如,1与1.2之间。在一些情况下对于主题组合物和或方法的CasY蛋白,RuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65、68或70个氨基酸。在一些情况下,RuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:iRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2;iiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;iiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间、1与1.2之间;ivRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小;vRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小;viRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内;viiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;viiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.2之间;ixRuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65个或至少70个氨基酸;xRuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;xiRuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度;或者xiiRuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有75%或更高的序列同一性例如,80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:iRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2;iiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;iiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间、1与1.2之间;ivRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小;vRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小;viRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内;viiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;viiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.2之间;ixRuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65个或至少70个氨基酸;xRuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;xiRuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度;或者xiiRuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有85%或更高的序列同一性例如,90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:iRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2;iiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;iiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间、1与1.2之间;ivRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小;vRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小;viRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内;viiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;viiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.2之间;ixRuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65个或至少70个氨基酸;xRuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;xiRuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度;或者xiiRuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:iRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2;iiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;iiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间、1与1.2之间;ivRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小;vRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小;viRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内;viiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;viiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.2之间;ixRuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65个或至少70个氨基酸;xRuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;xiRuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度;或者xiiRuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有75%或更高的序列同一性例如,80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:iRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2;iiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;iiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间、1与1.2之间;ivRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小;vRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小;viRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内;viiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;viiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.2之间;ixRuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65个或至少70个氨基酸;xRuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;xiRuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度;或者xiiRuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有85%或更高的序列同一性例如,90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:iRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2;iiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;iiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间、1与1.2之间;ivRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小;vRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小;viRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内;viiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;viiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.2之间;ixRuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65个或至少70个氨基酸;xRuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;xiRuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度;或者xiiRuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:iRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2;iiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;iiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间、1与1.2之间;ivRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小;vRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小;viRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内;viiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;viiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.2之间;ixRuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65个或至少70个氨基酸;xRuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;xiRuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度;或者xiiRuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有75%或更高的序列同一性例如,80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:iRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2;iiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;iiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间、1与1.2之间;ivRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小;vRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小;viRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内;viiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;viiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.2之间;ixRuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65个或至少70个氨基酸;xRuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;xiRuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度;或者xiiRuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有85%或更高的序列同一性例如,90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:iRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2;iiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;iiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间、1与1.2之间;ivRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小;vRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小;viRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内;viiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;viiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.2之间;ixRuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65个或至少70个氨基酸;xRuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;xiRuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度;或者xiiRuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:iRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2;iiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;iiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间、1与1.2之间;ivRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小;vRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小;viRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内;viiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;viiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.2之间;ixRuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65个或至少70个氨基酸;xRuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;xiRuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度;或者xiiRuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有75%或更高的序列同一性例如,80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:iRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2;iiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;iiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间、1与1.2之间;ivRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小;vRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小;viRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内;viiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;viiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.2之间;ixRuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65个或至少70个氨基酸;xRuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;xiRuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度;或者xiiRuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的N末端结构域例如,图3图a中描绘为CasY1的氨基酸1-812的结构域具有85%或更高的序列同一性例如,90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的第一氨基酸序列;以及在第一氨基酸序列的C末端的第二氨基酸序列,其包括3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III–其中:iRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2;iiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;iiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间、1与1.2之间;ivRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小;vRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小;viRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内;viiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;viiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.2之间;ixRuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65个或至少70个氨基酸;xRuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;xiRuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度;或者xiiRuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含具有N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域的第一氨基酸序列,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及第二氨基酸序列在第一氨基酸序列的C末端,其具有分开的RuvC结构域具有3个部分RuvC结构域-RuvC-I、RuvC-II和RuvC-III,其中:iRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比为1.1或更大例如,1.2;iiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;iiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.4之间、1与1.3之间、1与1.2之间;ivRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为2或更小例如,1.8或更小、1.7或更小、1.6或更小、1.5或更小或者1.4或更小;vRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比为1.5或更小例如,1.4或更小;viRuvC-II亚结构域的长度与RuvC-III亚结构域的长度之比在1至2例如,1.1至2、1.2至2、1至1.8、1.1至1.8、1.2至1.8、1至1.6、1.1至1.6、1.2至1.6、1至14、1.1至1.4或1.2至1.4的范围内;viiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1;viiiRuvC-II与RuvC-III亚结构域之间的区域长度与RuvC-III亚结构域的长度之比大于1并且在1与1.5之间例如,1与1.2之间;ixRuvC-II与RuvC-III亚结构域之间的区域长度为至少60个氨基酸例如,长度为至少65个或至少70个氨基酸;xRuvC-II与RuvC-III亚结构域之间的区域长度为至少65个氨基酸;xiRuvC-II与RuvC-III亚结构域之间的区域具有在60-110个氨基酸的范围内例如,在60-105、60-100、60-95、60-90、65-110、65-105、65-100、65-95或65-90个氨基酸的范围内的长度;或者xiiRuvC-II与RuvC-III亚结构域之间的区域具有在65-95个氨基酸的范围内的长度。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1所示的CasY蛋白序列的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1所示的CasY蛋白序列的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1所示的CasY蛋白序列的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1所示的CasY蛋白序列的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含具有SEQIDNO:1所示的CasY蛋白序列的氨基酸812-1125的氨基酸序列。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQIDNO:1-4所示的CasY蛋白序列中的任一个的氨基酸序列的片段。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQIDNO:1-5所示的CasY蛋白序列中的任一个的氨基酸序列的片段。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQIDNO:1-7所示的CasY蛋白序列中的任一个的氨基酸序列的片段。在一些情况下,主题组合物和或方法的CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。例如,在一些情况下,CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性的氨基酸序列。在一些情况下,CasY蛋白包含对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQIDNO:1-8所示的CasY蛋白序列中的任一个的氨基酸序列的片段。在一些情况下,主题组合物和或方法的CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。例如,在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-4所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其具有对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQIDNO:1-4所示的CasY蛋白序列中的任一个的氨基酸序列的片段。在一些情况下,主题组合物和或方法的CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。例如,在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-5所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其具有对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQIDNO:1-5所示的CasY蛋白序列中的任一个的氨基酸序列的片段。在一些情况下,主题组合物和或方法的CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。例如,在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-7所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其具有对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQIDNO:1-7所示的CasY蛋白序列中的任一个的氨基酸序列的片段。在一些情况下,主题组合物和或方法的CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有20%或更高的序列同一性例如,30%或更高、40%或更高、50%或更高、60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。例如,在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有50%或更高的序列同一性例如,60%或更高、70%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有80%或更高的序列同一性例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其与SEQIDNO:1-8所示的CasY蛋白序列中的任一个的C末端结构域例如,图3图a中描绘为CasY1的氨基酸812-1125的结构域具有90%或更高的序列同一性例如,95%或更高、97%或更高、98%或更高、99%或更高或100%的序列同一性。在一些情况下,CasY蛋白包含第一氨基酸序列N末端结构域例如,不包括任何融合的异源序列,诸如NLS和或具有催化活性的结构域,其具有在750至1050个氨基酸范围内例如,750至1025、750至1000、750至950、775至1050、775至1025、775至1000、775至950、800至1050、800至1025、800至1000或者800至950个氨基酸的长度;以及位于第一氨基酸序列的C末端的第二氨基酸序列,其具有对应于SEQIDNO:1所示的CasY蛋白序列的氨基酸812-1125的SEQIDNO:1-8所示的CasY蛋白序列中的任一个的氨基酸序列的片段。CasY变体当与对应的野生型CasY蛋白的氨基酸序列相比时,变体CasY蛋白具有至少一个氨基酸不同的氨基酸序列例如,具有缺失、插入、取代、融合。切割双链靶核酸的一条链但不切割另一条链的CasY蛋白在本文中被称为“切口酶”例如,“切口酶CasY”。基本上不具有核酸酶活性的CasY蛋白在本文中被称为死CasY蛋白“dCasY”需要注意的是,核酸酶活性可由异源多肽融合配偶体在嵌合CasY蛋白的情况下提供,这在下文更详细地描述。对于本文所述的任何CasY变体蛋白例如,切口酶CasY、dCasY、嵌合CasY,CasY变体可包括具有与上述相同参数例如,存在的结构域、同一性百分比等的CasY蛋白序列。变体–催化活性在一些情况下,CasY蛋白是变体CasY蛋白,例如相对于天然存在的催化活性序列突变的蛋白,并且在与对应的天然存在的序列相比时,表现出降低的切割活性例如,表现出90%或更低、80%或更低、70%或更低、60%或更低、50%或更低、40%或更低或者30%或更低的切割活性。在一些情况下,这种变体CasY蛋白是催化“死”蛋白基本上没有切割活性并且可被称为‘dCasY’。在一些情况下,变体CasY蛋白是切口酶仅切割双链靶核酸例如,双链靶DNA的一条链。如本文更详细描述的,在一些情况下,CasY蛋白在一些情况下,是具有野生型切割活性的CasY蛋白质并且在一些情况下,是具有降低的切割活性的变体CasY,例如dCasY或切口酶CasY与具有感兴趣的活性例如,感兴趣的催化活性的异源多肽融合缀合以形成融合蛋白嵌合CasY蛋白。在根据CasY1SEQIDNO:1编号时,CasY的催化残基包括D828、E914、D1074对于SEQIDNO:1,这些残基在图1中用下划线示出。参见,例如,图2图a和图b的比对。因此,在一些情况下,CasY蛋白具有降低的活性,并且一种或多种上述氨基酸或任何CasY蛋白的一种或多种对应的氨基酸发生突变例如,被丙氨酸取代。在一些情况下,变体CasY蛋白是催化‘死'蛋白无催化活性并且被称为‘dCasY'。dCasY蛋白可与提供活性的融合配偶体融合,并且在一些情况下,dCasY例如,没有提供催化活性的融合配偶体,但在真核细胞中表达时可具有NLS的dCasY可结合靶DNA并且可阻止RNA聚合酶从靶DNA翻译。在一些情况下,变体CasY蛋白是切口酶仅切割双链靶核酸例如,双链靶DNA的一条链。变体–嵌合CasY即,融合蛋白如上所指出,在一些情况下,CasY蛋白在一些情况下,是具有野生型切割活性的CasY蛋白质并且在一些情况下,是具有降低的切割活性的变体CasY,例如dCasY或切口酶CasY与具有感兴趣的活性例如,感兴趣的催化活性的异源多肽融合缀合以形成融合蛋白嵌合CasY蛋白。CasY蛋白可与之融合的异源多肽在本文中被称为“融合配偶体”。在一些情况下,融合配偶体可调节靶DNA的转录例如,抑制转录、增加转录。例如,在一些情况下,融合配偶体是抑制转录的蛋白质或来自蛋白质的结构域例如,转录阻遏物,一种通过转录抑制蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物诸如修饰组蛋白的乙酰化和或甲基化的那些组蛋白修饰物的募集等等起作用的蛋白质。在一些情况下,融合配偶体是增加转录的蛋白质或来自蛋白质的结构域例如,转录激活因子,一种通过转录激活蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物诸如修饰组蛋白的乙酰化和或甲基化的那些组蛋白修饰物的募集等等起作用的蛋白质。在一些情况下,嵌合CasY蛋白包括具有修饰靶核酸的酶活性例如,核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性的异源多肽。在一些情况下,嵌合CasY蛋白包括具有修饰与靶核酸相关联的多肽例如,组蛋白的酶活性例如,甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性的异源多肽。可用于增加转录的蛋白质或其片段的实例包括但不限于:转录激活因子,诸如VP16、VP64、VP48、VP160、p65亚结构域例如,来自NFkB以及EDLL的激活结构域和或TAL激活结构域例如,针对植物中的活性;组蛋白赖氨酸甲基转移酶,诸如SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1等;组蛋白赖氨酸脱甲基酶,诸如JHDM2ab、UTX、JMJD3等;组蛋白乙酰基转移酶,诸如GCN5、PCAF、CBP、p300、TAF1、TIP60PLIP、MOZMYST3、MORFMYST4、SRC1、ACTR、P160、CLOCK等;以及DNA脱甲基酶,诸如10-11易位TET双加氧酶1TET1CD、TET1、DME、DML1、DML2、ROS1等。可用于减少转录的蛋白质或其片段的实例包括但不限于:转录阻遏物,诸如Krüppel相关盒KRAB或SKD;KOX1阻遏结构域;MadmSIN3相互作用结构域SID;ERF阻遏物结构域ERD、SRDX阻遏结构域例如,针对植物中的阻遏等;组蛋白赖氨酸甲基转移酶,诸如Pr-SET78、SUV4-20H1、RIZ1等;组蛋白赖氨酸脱甲基酶,诸如JMJD2AJHDM3A、JMJD2B、JMJD2CGASC1、JMJD2D、JARID1ARBP2、JARID1BPLU-1、JARID1CSMCX、JARID1DSMCY等;组蛋白赖氨酸脱乙酰酶,诸如HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等;DNA甲基化酶,诸如HhaIDNAm5c-甲基转移酶M.HhaI、DNA甲基转移酶1DNMT1、DNA甲基转移酶3aDNMT3a、DNA甲基转移酶3bDNMT3b、METI、DRM3植物、ZMET2、CMT1、CMT2植物等;以及外周募集元件,诸如核纤层蛋白A、核纤层蛋白B等。在一些情况下,融合配偶体具有修饰靶核酸例如,ssRNA、dsRNA、ssDNA、dsDNA的酶活性。可由融合配偶体提供的酶活性的实例包括但不限于:核酸酶活性诸如由限制性酶例如,FokI核酸酶提供的活性,甲基转移酶活性诸如由甲基转移酶例如,HhaIDNAm5c-甲基转移酶M.HhaI、DNA甲基转移酶1DNMT1、DNA甲基转移酶3aDNMT3a、DNA甲基转移酶3bDNMT3b、METI、DRM3植物、ZMET2、CMT1、CMT2植物等提供的活性;脱甲基酶活性诸如由脱甲基酶例如,10-11易位TET双加氧酶1TET1CD、TET1、DME、DML1、DML2、ROS1等提供的活性,DNA修复活性,DNA损伤活性,脱氨基活性诸如由脱氨酶例如,胞嘧啶脱氨酶,诸如大鼠APOBEC1提供的活性,歧化酶活性,烷基化活性,脱嘌呤活性,氧化活性,嘧啶二聚体形成活性,整合酶活性诸如由整合酶和或解离酶例如,Gin转化酶,诸如Gin转化酶的过度活跃突变体,GinH106Y;人类免疫缺陷病毒1型整合酶IN;Tn3解离酶等提供的活性,转座酶活性,重组酶活性诸如由重组酶例如,Gin重组酶的催化结构域提供的活性,聚合酶活性,连接酶活性,解旋酶活性,光裂合酶活性和糖基化酶活性。在一些情况下,融合配偶体具有酶活性,其修饰与靶核酸例如,ssRNA、dsRNA、ssDNA、dsDNA相关联的蛋白质例如,组蛋白、RNA结合蛋白、DNA结合蛋白等。可由融合配偶体提供的酶活性修饰与靶核酸相关联的蛋白质的实例包括但不限于:甲基转移酶活性,诸如由组蛋白甲基转移酶HMT例如,花斑抑制因子3-9同源物1SUV39H1,也称为KMT1A、常染色体组蛋白赖氨酸甲基转移酶2G9A,也称为KMT1C和EHMT2、SUV39H2、ESETSETDB1等、SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1、DOT1L、Pr-SET78、SUV4-20H1、EZH2、RIZ1提供的活性,脱甲基酶活性诸如由组蛋白脱甲基酶例如,赖氨酸脱甲基酶1AKDM1A,也称为LSD1、JHDM2ab、JMJD2AJHDM3A、JMJD2B、JMJD2CGASC1、JMJD2D、JARID1ARBP2、JARID1BPLU-1、JARID1CSMCX、JARID1DSMCY、UTX、JMJD3等提供的活性,乙酰基转移酶活性诸如由组蛋白乙酰基转移酶例如,人类乙酰基转移酶p300、GCN5、PCAF、CBP、TAF1、TIP60PLIP、MOZMYST3、MORFMYST4、HBO1MYST2、HMOFMYST1、SRC1、ACTR、P160、CLOCK等的催化核心片段提供的活性,脱乙酰酶活性诸如由组蛋白脱乙酰酶例如,HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等提供的活性,激酶活性,磷酸酶活性,泛素连接酶活性,去泛素化活性,腺苷酸化活性,脱腺苷酸化活性,SUMO化活性,脱SUMO化活性,核糖基化活性,脱核糖基化活性,豆蔻酰化活性和脱豆蔻酰化活性。合适的融合配偶体的另外的实例是二氢叶酸还原酶DHFR去稳定化结构域例如,以生成化学可控的嵌合CasY蛋白和叶绿体转运肽。合适的叶绿体转运肽包括但不限于:MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRASEQIDNO:83、MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKSSEQIDNO:84、MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNCSEQIDNO:85、MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTACSEQIDNO:86、MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTACSEQIDNO:87、MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATACSEQIDNO:88、MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPHRFDRRCLSMVVSEQIDNO:89、MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQQRSVQRGSRRFPSVVVCSEQIDNO:90、MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQCSEQIDNO:91、MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVISRSAAAASEQIDNO:92,和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASSSEQIDNO:93。在一些情况下,本公开的CasY融合多肽包含:a本公开的CasY多肽;和b叶绿体转运肽。因此,例如,CRISPR-CasY复合物可靶向叶绿体。在一些情况下,这种靶向可通过N末端延伸的存在来实现,所述N末端延伸称为叶绿体转运肽CTP或质体转运肽。如果表达的多肽要在植物质体例如,叶绿体中区室化,则来自细菌来源的染色体转基因必须具有编码CTP序列的序列,所述CTP序列与编码表达的多肽的序列融合。因此,外源多肽到叶绿体的定位通常通过将编码CTP序列的多核苷酸序列与编码外源多肽的多核苷酸的5’区可操作地连接来实现。在易位到质体的过程中,在加工步骤中去除CTP。然而,加工效率可能受到CTP的氨基酸序列和肽的NH2末端附近的序列的影响。已经描述的用于靶向叶绿体的其他选择是玉米cab-m7信号序列美国专利号7,022,896、WO9741228、豌豆谷胱甘肽还原酶信号序列WO9741228和US2009029861中描述的CTP。在一些情况下,本公开的CasY融合多肽可包含:a本公开的CasY多肽;和b内体逃逸肽。在一些情况下,内体逃逸多肽包含氨基酸序列GLFXALLXLLXSLWXLLLXASEQIDNO:94,其中每个X独立地选自赖氨酸、组氨酸和精氨酸。在一些情况下,内体逃逸多肽包含氨基酸序列GLFHALLHLLHSLWHLLLHASEQIDNO:95。对于在与Cas9蛋白、锌指蛋白和或TALE蛋白融合的情况用于位点特异性靶核酸修饰、转录调节和或靶蛋白修饰,例如,组蛋白修饰中使用的一些上述融合配偶体和更多的实例,参见例如:Nomura等人,JAmChemSoc.2007年7月18日;12928:8676-7;Rivenbark等人,Epigenetics.2012年4月;74:350-60;NucleicAcidsRes.2016年7月8日;4412:5615-28;Gilbert等人,Cell.2013年7月18日;1542:442-51;Kearns等人,NatMethods.2015年5月;125:401-3;Mendenhall等人,NatBiotechnol.2013年12月;3112:1133-6;Hilton等人,NatBiotechnol.2015年5月;335:510-7;Gordley等人,ProcNatlAcadSciUSA.2009年3月31日;10613:5053-8;Akopian等人,ProcNatlAcadSciUSA.2003年7月22日;10015:8688-91;Tan等人,JVirol.2006年2月;804:1939-48;Tan等人,ProcNatlAcadSciUSA.2003年10月14日;10021:11997-2002;Papworth等人,ProcNatlAcadSciUSA.2003年2月18日;1004:1621-6;Sanjana等人,NatProtoc.2012年1月5日;71:171-92;Beerli等人,ProcNatlAcadSciUSA.1998年12月8日;9525:14628-33;Snowden等人,CurrBiol.2002年12月23日;1224:2159-66;Xu等人,Xu等人,CellDiscov.2016年5月3日;2:16009;Komor等人,Nature.2016年4月20日;5337603:420-4;Chaikind等人,NucleicAcidsRes.2016年8月11日;Choudhury等人,Oncotarget.2016年6月23日;Du等人,ColdSpringHarbProtoc.2016年1月4日;Pham等人,MethodsMolBiol.2016;1358:43-57;Balboa等人,StemCellReports.2015年9月8日;53:448-59;Hara等人,SciRep.2015年6月9日;5:11221;Piatek等人,PlantBiotechnolJ.2015年5月;134:578-89;Hu等人,NucleicAcidsRes.2014年4月;427:4375-90;Cheng等人,CellRes.2013年10月;2310:1163-71;以及Maeder等人,NatMethods.2013年10月;1010:977-9。另外适合的异源多肽包括但不限于直接和或间接提供靶核酸的增加的转录和或翻译的多肽例如,转录激活因子或其片段、募集转录激活因子的蛋白质或其片段、小分子药物反应性转录和或翻译调节因子、翻译调节蛋白等。实现增加或降低的转录的异源多肽的非限制性实例包括转录激活因子结构域和转录阻遏物结构域。在一些此类情况下,嵌合CasY多肽通过指导核酸指导RNA靶向靶核酸中的特定位置即,序列并且发挥基因座特异性调节的作用,诸如阻断RNA聚合酶与启动子所述启动子选择性抑制转录激活因子功能的结合和或修饰局部染色质状态例如,在使用融合序列时,修饰靶核酸或修饰与靶核酸相关联的多肽。在一些情况下,变化是瞬时的例如,转录阻遏或激活。在一些情况下,变化是可遗传的例如,在对靶核酸或与靶核酸相关联的蛋白质例如,核小体组蛋白进行表观遗传修饰时。当靶向ssRNA靶核酸时,使用的异源多肽的非限制性实例包括但不限于:剪接因子例如,RS结构域;蛋白质翻译组分例如,翻译起始因子、延伸因子和或释放因子;例如,eIF4G;RNA甲基化酶;RNA编辑酶例如,RNA脱氨酶,例如作用于RNA的腺苷脱氨酶ADAR,包括A至I和或C至U编辑酶;解旋酶;RNA结合蛋白等。应理解,异源多肽可包括整个蛋白质,或者在一些情况下,可包括蛋白质的片段例如,功能结构域。主题嵌合CasY多肽的异源多肽可以是能够与ssRNA出于本公开的目的,其包括分子内和或分子间二级结构,例如双链RNA双链体,诸如发夹、茎环等相互作用的任何结构域,无论是瞬时的还是不可逆的,直接的还是间接的,所述结构域包括但不限于选自由以下组成的组的效应结构域;内切核酸酶例如RNA酶III、CRR22DYW结构域、来自诸如SMG5和SMG6的蛋白质的Dicer和PINPilTN末端结构域;负责刺激RNA切割的蛋白质和蛋白质结构域例如CPSF、CstF、CFIm和CFIIm;外切核酸酶例如XRN-1或外切核酸酶T;脱腺苷酶例如HNT3;负责无义介导的RNA衰变的蛋白质和蛋白质结构域例如UPF1、UPF2、UPF3、UPF3b、RNPS1、Y14、DEK、REF2和SRm160;负责稳定RNA的蛋白质和蛋白质结构域例如PABP;负责阻遏翻译的蛋白质和蛋白质结构域例如Ago2和Ago4;负责刺激翻译的蛋白质和蛋白质结构域例如Staufen;负责例如能够调节翻译的蛋白质和蛋白质结构域例如翻译因子,诸如起始因子、延伸因子、释放因子等,例如eIF4G;负责RNA的聚腺苷酸化的蛋白质和蛋白质结构域例如PAP1、GLD-2和Star-PAP;负责RNA的聚尿苷酸化的蛋白质和蛋白质结构域例如CID1和末端尿苷酸转移酶;负责RNA定位的蛋白质和蛋白质结构域例如来自IMP1、ZBP1、She2p、She3p和Bicaudal-D;负责RNA的核保留的蛋白质和蛋白质结构域例如Rrp6;负责RNA的核输出的蛋白质和蛋白质结构域例如TAP、NXF1、THO、TREX、REF和Aly;负责阻遏RNA剪接的蛋白质和蛋白质结构域例如PTB、Sam68和hnRNPA1;负责刺激RNA剪接的蛋白质和蛋白质结构域例如富含丝氨酸精氨酸SR结构域;负责降低转录效率的蛋白质和蛋白质结构域例如FUSTLS;以及负责刺激转录的蛋白质和蛋白质结构域例如CDK7和HIVTat。可替代地,效应结构域可选自包括以下的组:内切核酸酶;能够刺激RNA切割的蛋白质和蛋白质结构域;外切核酸酶;脱腺苷酶;具有无义介导的RNA衰变活性的蛋白质和蛋白质结构域;能够稳定RNA的蛋白质和蛋白质结构域;能够阻遏翻译的蛋白质和蛋白质结构域;能够刺激翻译的蛋白质和蛋白质结构域;能够调节翻译的蛋白质和蛋白质结构域例如,翻译因子,诸如起始因子、延伸因子、释放因子等,例如eIF4G;能够进行RNA的聚腺苷酸化的蛋白质和蛋白质结构域;能够进行RNA的聚尿苷酸化的蛋白质和蛋白质结构域;具有RNA定位活性的蛋白质和蛋白质结构域;能够进行RNA的核保留的蛋白质和蛋白质结构域;具有RNA核输出活性的蛋白质和蛋白质结构域;能够阻遏RNA剪接的蛋白质和蛋白质结构域;能够刺激RNA剪接的蛋白质和蛋白质结构域;能够降低转录效率的蛋白质和蛋白质结构域;以及能够刺激转录的蛋白质和蛋白质结构域。另一种合适的异源多肽是PUFRNA结合结构域,其在WO2012068627中更详细地描述,所述文献以引用的方式整体并入本文。可作为嵌合CasY多肽的异源多肽整体或作为其片段使用的一些RNA剪接因子具有模块化结构,具有分开的序列特异性RNA结合模块和剪接效应结构域。例如,富含丝氨酸精氨酸SR的蛋白质家族的成员含有N末端RNA识别基序RRM,其结合前mRNA和C末端RS结构域中的外显子剪接增强子ESE,所述外显子剪接增强子促进外显子包含。作为另一个实例,hnRNP蛋白hnRNPA1通过其RRM结构域与外显子剪接沉默子ESS结合,并通过C末端富含甘氨酸的结构域抑制外显子包含。一些剪接因子可通过结合两个替代位点之间的调节序列来调节剪接位点ss的替代使用。例如,ASFSF2可识别ESE并有助于使用内含子近侧位点,而hnRNPA1可结合ESS并将剪接转到使用内含子远侧位点。此类因子的一个应用是生成调节内源基因特别是疾病相关基因的替代剪接的ESF。例如,Bcl-x前mRNA产生两种剪接同种型,其具有两个替代的5'剪接位点以编码具有相反功能的蛋白质。长剪接同种型Bcl-xL是在长寿命的有丝分裂后细胞中表达的有效凋亡抑制因子,并且在许多癌细胞中上调,从而保护细胞免于凋亡信号。短同种型Bcl-xS是促凋亡同种型,并且在具有高周转率的细胞例如,发育中的淋巴细胞中以高水平表达。两种Bcl-x剪接同种型之比由位于核心外显子区或外显子延伸区即,两个替代5’剪接位点之间中的多个元件调节。对于更多实例,参见WO2010075303,其特此以引用的方式整体并入。另外的合适的融合配偶体包括但不限于作为边界元件例如,CTCF的蛋白质或其片段、提供外周募集的蛋白质及其片段例如,核纤层蛋白A、核纤层蛋白B等、蛋白质对接元件例如,FKBPFRB、Pil1Aby1等。用于主题嵌合CasY多肽的各种另外的合适的异源多肽或其片段的实例包括但不限于在以下应用中描述的那些所述出版物与其他CRISPR内切核酸酶诸如Cas9有关,但是描述的融合配偶体也可与CasY一起使用:美国专利申请:WO2010075303、WO2012068627和WO2013155555,并且可见于例如以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述专利全部特此以引用的方式整体并入。在一些情况下,异源多肽融合配偶体提供亚细胞定位,即异源多肽含有亚细胞定位序列例如,用于靶向细胞核的核定位信号NLS、用于将融合蛋白保持在细胞核外的序列例如核输出序列NES、将融合蛋白保留在细胞质中的序列、用于靶向线粒体的线粒体定位信号、用于靶向叶绿体的叶绿体定位信号、ER保留信号等。在一些实施方案中,CasY融合多肽不包含NLS,使得蛋白质不靶向细胞核这可能是有利的,例如,在靶核酸是存在于胞质溶胶中的RNA时。在一些实施方案中,异源多肽可提供便于追踪和或纯化的标签即,异源多肽是可检测标记物例如,荧光蛋白,例如绿色荧光蛋白GFP、YFP、RFP、CFP、mCherry、tdTomato等;组氨酸标签,例如6XHis标签;血凝素HA标签;FLAG标签;Myc标签等。在一些情况下,CasY蛋白例如,野生型CasY蛋白、变体CasY蛋白、嵌合CasY蛋白、dCasY蛋白、其中CasY部分具有降低的核酸酶活性的嵌合CasY蛋白-诸如与融合配偶体融合的dCasY蛋白等包含融合到核定位信号NLS例如,在一些情况下,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS。因此,在一些情况下,CasY多肽包含一个或多个NLS例如,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS。在一些情况下,一个或多个NLS2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS位于N末端和或C末端处或附近例如,在50个氨基酸内。在一些情况下,一个或多个NLS2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS位于N末端处或附近例如,在50个氨基酸内。在一些情况下,一个或多个NLS2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS位于C末端处或附近例如,在50个氨基酸内。在一些情况下,一个或多个NLS3个或更多个、4个或更多个或者5个或更多个NLS位于N末端和C末端二者处或附近例如,在50个氨基酸内。在一些情况下,NLS位于N末端,并且NLS位于C末端。在一些情况下,CasY蛋白例如,野生型CasY蛋白、变体CasY蛋白、嵌合CasY蛋白、dCasY蛋白、其中CasY部分具有降低的核酸酶活性的嵌合CasY蛋白-诸如与融合配偶体融合的dCasY蛋白等包含融合到1与10个之间的NLS例如,1-9个、1-8个、1-7个、1-6个、1-5个、2-10个、2-9个、2-8个、2-7个、2-6个或2-5个NLS。在一些情况下,CasY蛋白例如,野生型CasY蛋白、变体CasY蛋白、嵌合CasY蛋白、dCasY蛋白、其中CasY部分具有降低的核酸酶活性的嵌合CasY蛋白-诸如与融合配偶体融合的dCasY蛋白等包含融合到2与5个之间的NLS例如,2-4个或2-3个NLS。NLS的非限制性实例包括衍生自以下的NLS序列:SV40病毒大T抗原的NLS,具有氨基酸序列PKKKRKVSEQIDNO:96;来自核质蛋白的NLS例如,具有序列KRPAATKKAGQAKKKKSEQIDNO:97的核质蛋白二分NLS;c-mycNLS,具有氨基酸序列PAAKRVKLDSEQIDNO:98或RQRRNELKRSPSEQIDNO:99;hRNPA1M9NLS,具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGYSEQIDNO:100;来自核输入蛋白αimportin-alpha的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNVSEQIDNO:101;肌瘤T蛋白的序列VSRKRPRPSEQIDNO:102和PPKKAREDSEQIDNO:103;人类p53的序列PQPKKKPLSEQIDNO:104;小鼠c-ablIV的序列SALIKKKKKMAPSEQIDNO:105;流感病毒NS1的序列DRLRRSEQIDNO:106和PKQKKRKSEQIDNO:107;肝炎病毒δ抗原的序列RKLKKKIKKLSEQIDNO:108;小鼠Mx1蛋白的序列REKKKFLKRRSEQIDNO:109;人类聚ADP-核糖聚合酶的序列KRKGDEVDGVDEVAKKKSKKSEQIDNO:110;以及类固醇激素受体人类糖皮质激素的序列RKCLQAGMNLEARKTKKSEQIDNO:111。一般来讲,NLS或多个NLS具有足够的强度来驱动CasY蛋白在真核细胞的细胞核中以可检测的量积累。可通过任何合适的技术执行细胞核中的积累的检测。例如,可检测标记可与CasY蛋白融合,使得细胞内的位置可被可视化。细胞核也可从细胞中分离,然后可通过任何合适的检测蛋白质的方法诸如免疫组织化学、蛋白质印迹或酶活性测定分析其内容物。也可间接确定细胞核中的积累。在一些情况下,CasY融合多肽包含“蛋白转导结构域”或PTD又称为CPP–细胞穿透肽,其是指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。附接到另一个分子所述分子可在小极性分子至大的高分子和或纳米颗粒的范围内的PTD促进分子横穿膜,例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器内。在一些实施方案中,PTD与多肽的氨基末端共价连接例如,与野生型CasY连接以生成融合蛋白,或与变体CasY蛋白诸如dCasY、切口酶CasY或嵌合CasY蛋白连接以生成融合蛋白。在一些实施方案中,PTD与多肽的羧基末端共价连接例如,与野生型CasY连接以生成融合蛋白,或与变体CasY蛋白诸如dCasY、切口酶CasY或嵌合CasY蛋白连接以生成融合蛋白。在一些情况下,PTD在合适的插入位点处内插在CasY融合多肽中即,不在CasY融合多肽的N末端或C末端。在一些情况下,主题CasY融合多肽包含缀合到、融合到一个或多个PTD例如,两个或更多个、三个或更多个、四个或更多个PTD。在一些情况下,PTD包含核定位信号NLS例如,在一些情况下,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS。因此,在一些情况下,CasY融合多肽包含一个或多个NLS例如,2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS。在一些实施方案中,PTD与核酸例如,CasY指导核酸、编码CasY指导核酸的多核苷酸、编码CasY融合多肽的多核苷酸、供体多核苷酸等共价连接。PTD的实例包括但不限于最小十一氨基酸多肽蛋白转导结构域对应于包含YGRKKRRQRRR;SEQIDNO:112的HIV-1TAT的残基47-57;包含足以引入细胞中的数量的精氨酸例如,3、4、5、6、7、8、9、10或10-50个精氨酸的聚精氨酸序列;VP22结构域Zender等人2002CancerGeneTher.96:489-96;果蝇触角足基因Antennapedia蛋白转导结构域Noguchi等人2003Diabetes527:1732-1737;截短的人类降钙素肽Trehin等人2004Pharm.Research21:1248-1256;聚赖氨酸Wender等人2000Proc.Natl.Acad.Sci.USA97:13003-13008;RRQRRTSKLMKRSEQIDNO:113;运输蛋白TransportanGWTLNSAGYLLGKINLKALAALAKKILSEQIDNO:114;KALAWEAKLAKALAKALAKHLAKALAKALKCEASEQIDNO:115;以及RQIKIWFQNRRMKWKKSEQIDNO:116。示例性PTD包括但不限于YGRKKRRQRRRSEQIDNO:117、RKKRRQRRRSEQIDNO:118;具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物;示例性PTD结构域氨基酸序列包括但不限于以下序列的任一个:YGRKKRRQRRRSEQIDNO:119;RKKRRQRRSEQIDNO:120;YARAAARQARASEQIDNO:121;THRLPRRRRRRSEQIDNO:122;以及GGRRARRRRRRSEQIDNO:123。在一些实施方案中,PTD是可激活的CPPACPPAguilera等人2009IntegrBiolCamb6月;15-6:371-381。ACPP包括通过可切割接头连接至匹配聚阴离子例如,Glu9或“E9”的聚阳离子CPP例如,Arg9或“R9”,这使净电荷减小至接近零并且从而抑制粘附和吸收到细胞中。当接头切割时,释放聚阴离子,局部暴露聚精氨酸和其固有的粘附性,从而“激活”ACPP以横穿膜。接头例如,用于融合配偶体在一些实施方案中,主题CasY蛋白可通过接头多肽例如,一个或多个接头多肽与融合配偶体融合。接头多肽可具有多种氨基酸序列中的任一种。蛋白质可通过间隔肽连接,通常具有柔性性质,但不排除其他化学键。合适的接头包括长度在4个氨基酸与40个氨基酸之间或者长度在4个氨基酸与25个氨基酸之间的多肽。这些接头可通过使用合成的编码接头的寡核苷酸以偶联蛋白质来产生,或者可由编码融合蛋白的核酸序列编码。可使用具有一定程度柔性的肽接头。连接肽实际上可具有任何氨基酸序列,应记住优选的接头将具有产生总体上柔性的肽的序列。小氨基酸诸如甘氨酸和丙氨酸的用途用于产生柔性肽。对于本领域技术人员来说,产生此类序列是常规的。多种不同的接头是可商购获得的并且被认为适用。接头多肽的实例包括甘氨酸聚合物Gn、甘氨酸-丝氨酸聚合物包括例如GSn、GSGGSnSEQIDNO:124、GGSGGSnSEQIDNO:125和GGGSnSEQIDNO:126,其中n是至少为1的整数、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物。示例性接头可包含氨基酸序列,其包括但不限于GGSGSEQIDNO:127、GGSGGSEQIDNO:128、GSGSGSEQIDNO:129、GSGGGSEQIDNO:130、GGGSGSEQIDNO:131、GSSSGSEQIDNO:132等。普通技术人员将认识到,与任何所需元件缀合的肽的设计可包括全部或部分柔性的接头,使得接头可包括柔性接头以及赋予较少柔性结构的一个或多个部分。可检测标记物在一些情况下,本公开的CasY多肽包含可检测标记物。可提供可检测信号的合适的可检测标记物和或部分可包括但不限于酶、放射性同位素、特异性结合对的成员、荧光团、荧光蛋白、量子点等。合适的荧光蛋白包括但不限于绿色荧光蛋白GFP或其变体、GFP的蓝色荧光变体BFP、GFP的青色荧光变体CFP、GFP的黄色荧光变体YFP、增强型GFPEGFP、增强型CFPECFP、增强型YFPEYFP、GFPS65T、Emerald、TopazTYFP、Venus、Citrine、mCitrine、GFPuv、去稳定化EGFPdEGFP、去稳定化ECFPdECFP、去稳定化EYFPdEYFP、mCFPm、Cerulean、T-Sapphire、CyPet、YPet、mKO、HcRed、t-HcRed、DsRed、DsRed2、DsRed-单体、J-Red、二聚体2、t-二聚体212、mRFP1、pocilloporin、海肾GFPRenillaGFP、MonsterGFP、paGFP、Kaede蛋白和点燃蛋白kindlingprotein、藻胆蛋白和藻胆蛋白缀合物包括B-藻红蛋白、R-藻红蛋白和别藻蓝蛋白。荧光蛋白的其他实例包括mHoneydew、mBanana、mOrange、dTomato、tdTomato、mTangerine、mStrawberry、mCherry、mGrape1、mRaspberry、mGrape2、mPlumShaner等人2005Nat.Methods2:905-909等等。如在例如Matz等人1999NatureBiotechnol.17:969-973中所述的来自珊瑚虫物种的多种荧光蛋白和有色蛋白中的任一种是适合使用的。合适的酶包括但不限于辣根过氧化物酶HRP、碱性磷酸酶AP、β-半乳糖苷酶GAL、葡萄糖-6-磷酸脱氢酶、β-N-乙酰氨基葡糖苷酶、β-葡糖醛酸糖苷酶、转化酶、黄嘌呤氧化酶、萤火虫荧光素酶、葡萄糖氧化酶GO等。原间隔序列相邻基序PAMCasY蛋白在由靶向DNA的RNA与靶DNA之间的互补性区域限定的靶序列处与靶DNA结合。与许多CRISPR内切核酸酶的情况一样,双链靶DNA的位点特异性结合和或切割发生在由以下二者确定的位置处:i指导RNA与靶DNA之间的碱基配对互补性;和ii靶DNA中的短基序[称为原间隔序列相邻基序PAM]。在一些实施方案中,CasY蛋白的PAM直接位于靶DNA的非互补链的靶序列的5’端互补链与指导RNA的指导序列杂交,而非互补链不直接与指导RNA杂交并且是非互补链的反向互补物。在一些实施方案中例如,当使用如本文所述的CasY1时,非互补链的PAM序列为5’-TA-3’并且在一些情况下为XTA,其中X是C、A或T。作为示例,参见图5和图7其中PAM是TA,或者是CTA如果认为PAM是XTA,其中X是C、A或T。在一些实施方案中例如,当使用如本文所述的CasY1时,非互补链的PAM序列为5’-TA-3’并且在一些情况下为HTA,其中H是C、A或T。作为示例,参见图5和图7其中PAM是TA,或者是CTA如果认为PAM是HTA,其中H是C、A或T。在一些情况下例如,当使用如本文所述的CasY2时,非互补链的PAM序列是靶标5’端的5’-YR-3’侧翼序列其中Y是T或C并且R是A或G。在一些情况下例如,当使用如本文所述的CasY2时,非互补链的PAM序列是5'-TR-3’例如,5'-DTR-3'其中R是A或G并且D是A、G或T。作为示例,参见图5d。在一些情况下,不同的CasY蛋白即,来自各种物种的CasY蛋白可有利地用于各种所提供的方法中以便利用不同CasY蛋白的各种酶特征例如,用于不同PAM序列偏好;用于增加的或降低的酶活性;用于增加的或降低的细胞毒性水平;用于改变NHEJ、同源定向修复、单链断裂、双链断裂等之间的平衡;利用短的总序列等。来自不同物种的CasY蛋白可能需要靶DNA中的不同PAM序列。因此,对于所选择的具体CasY蛋白,PAM序列要求可与以上所述的5’-TA-3’或XTA,HTA序列不同。用于鉴定适当的PAM序列的各种方法包括计算机模拟方法和或湿实验室方法wetlabmethods是本领域已知且常规的,并且可使用任何方便的方法。使用PAM缺失测定鉴定本文所述的TAXTA,HTAPAM序列例如,参见下文工作实例的图5。CasY指导RNA与CasY蛋白结合形成核糖核蛋白复合物RNP并将复合物靶向靶核酸例如,靶DNA内的特定位置的核酸分子在本文中称为“CasY指导RNA”或者仅称为“指导RNA”。应理解,在一些情况下,可制备杂交体DNARNA,使得CasY指导RNA除RNA碱基外还包含DNA碱基,但术语“CasY指导RNA”仍然用于涵盖本文的这种分子。可以说CasY指导RNA包含两个区段,即靶向区段和蛋白质结合区段。CasY指导RNA的靶向区段包含与靶核酸例如,靶ssRNA、靶ssDNA、双链靶DNA的互补链等内的特定序列靶位点互补并因此杂交的核苷酸序列指导序列。蛋白质结合区段或“蛋白质结合序列”与CasY多肽相互作用结合。主题CasY指导RNA的蛋白质结合区段包含彼此杂交以形成双链RNA双链体dsRNA双链体的两段互补核苷酸。靶核酸例如,基因组DNA的位点特异性结合和或切割可发生在CasY指导RNACasY指导RNA的指导序列与靶核酸之间的碱基配对互补性确定的位置例如,靶基因座的靶序列处。CasY指导RNA和CasY蛋白例如,融合CasY多肽形成复合物例如,通过非共价相互作用结合。CasY指导RNA通过包含靶向区段为复合物提供靶特异性,所述靶向区段包含指导序列与靶核酸序列互补的核苷酸序列。复合物的CasY蛋白提供位点特异性活性例如,由CasY蛋白提供的切割活性和或在嵌合CasY蛋白的情况下由融合配偶体提供的活性。换言之,CasY蛋白由于其与CasY指导RNA的缔合而被指导至靶核酸序列例如,靶序列。可修饰“指导序列”,也称为CasY指导RNA的“靶向序列”,使得CasY指导RNA可将CasY蛋白例如,天然存在的CasY蛋白、融合CasY多肽嵌合CasY等靶向任何所需的靶核酸的任何所需序列,除了例如,如本文所述可考虑PAM序列之外。因此,例如,CasY指导RNA可具有与真核细胞中的核酸中的序列互补例如,可与其杂交的指导序列,所述核酸例如,病毒核酸、真核核酸例如,真核染色体、染色体序列、真核RNA等等。CasY指导RNA的指导序列主题CasY指导RNA包含指导序列即,靶向序列,其是与靶核酸中的序列靶位点互补的核苷酸序列。换言之,CasY指导RNA的指导序列可通过杂交即,碱基配对以序列特异性方式与靶核酸例如,双链DNAdsDNA、单链DNAssDNA、单链RNAssRNA或双链RNAdsRNA相互作用。CasY指导RNA的指导序列可被修饰例如,通过遗传工程化设计成与靶核酸例如,真核靶核酸,例如基因组DNA内的任何所需靶序列杂交例如,当考虑PAM时,例如,当靶向dsDNA靶时。在一些实施方案中,指导序列与靶核酸的靶位点之间的互补性百分比为60%或更高例如,65%或更高、70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为80%或更高例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为90%或更高例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在靶核的酸靶位点最3'端的七个连续核苷酸上为100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个连续核苷酸上为60%或更高例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个连续核苷酸上为80%或更高例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个连续核苷酸上为90%或更高例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个连续核苷酸上为100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个例如,20个或更多个、21个或更多个、22个或更多个连续核苷酸上为60%或更高例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个例如,20个或更多个、21个或更多个、22个或更多个连续核苷酸上为80%或更高例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个例如,20个或更多个、21个或更多个、22个或更多个连续核苷酸上为90%或更高例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个例如,20个或更多个、21个或更多个、22个或更多个连续核苷酸上为100%。在一些实施方案中,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为60%或更高例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为80%或更高例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为90%或更高例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为100%。在一些实施方案中,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为60%或更高例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为80%或更高例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为90%或更高例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为100%。在一些情况下,指导序列具有在17-30个核苷酸nt例如,17-25个、17-22个、17-20个、19-30个、19-25个、19-22个、19-20个、20-30个、20-25个或20-22个nt的范围内的长度。在一些情况下,指导序列具有在17-25个核苷酸nt例如,17-22个、17-20个、19-25个、19-22个、19-20个、20-25个或20-22个nt的范围内的长度。在一些情况下,指导序列具有17或更多个nt例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个或者22个或更多个nt;19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等的长度。在一些情况下,指导序列具有19或更多个nt例如,20个或更多个、21个或更多个、或者22个或更多个nt;19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等的长度。在一些情况下,指导序列具有17个nt的长度。在一些情况下,指导序列具有18个nt的长度。在一些情况下,指导序列具有19个nt的长度。在一些情况下,指导序列具有20个nt的长度。在一些情况下,指导序列具有21个nt的长度。在一些情况下,指导序列具有22个nt的长度。在一些情况下,指导序列具有23个nt的长度。CasY指导RNA的蛋白质结合区段主题CasY指导RNA的蛋白质结合区段与CasX蛋白相互作用。CasY指导RNA通过上文提及的指导序列将结合的CasY蛋白指导至靶核酸内的特定核苷酸序列。CasY指导RNA的蛋白质结合区段包含两段核苷酸,它们彼此互补并杂交形成双链RNA双链体dsRNA双链体。因此,蛋白质结合区段包含dsRNA双链体。在一些情况下,dsRNA双链体区域包含5-25个碱基对bp的范围例如,5-22个、5-20个、5-18个、5-15个、5-12个、5-10个、5-8个、8-25个、8-22个、8-18个、8-15个、8-12个、12-25个、12-22个、12-18个、12-15个、13-25个、13-22个、13-18个、13-15个、14-25个、14-22个、14-18个、14-15个、15-25个、15-22个、15-18个、17-25个、17-22个或17-18个bp,例如5个bp、6个bp、7个bp、8个bp、9个bp、10个bp等。在一些情况下,dsRNA双链体区域包含6-15个碱基对bp的范围例如,6-12个、6-10个或6-8个bp,例如6个bp、7个bp、8个bp、9个bp、10个bp等。在一些情况下,双链体区域包含5个或更多个bp例如,6个或更多个、7个或更多个或8个或更多个bp。在一些情况下,双链体区域包含6个或更多个bp例如,7个或更多个或8个或更多个bp。在一些情况下,并非双链体区域的所有核苷酸都是成对的,并且因此双链体形成区域可包含凸起。本文中的术语“凸起”用于意指一段核苷酸其可以是一个核苷酸,其对双链双链体没有贡献,但是被有贡献的核苷酸围绕5'端和3'端,并且因此凸起被认为是双链体区域的一部分。在一些情况下,dsRNA包含1个或多个凸起例如,2个或更多个、3个或更多个、4个或更多个凸起。在一些情况下,dsRNA双链体包含2个或更多个凸起例如,3个或更多个、4个或更多个凸起。在一些情况下,dsRNA双链体包含1-5个凸起例如,1-4个、1-3个、2-5个、2-4个或2-3个凸起。因此,在一些情况下,彼此杂交形成dsRNA双链体的核苷酸段彼此具有70%-100%的互补性例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性。在一些情况下,彼此杂交形成dsRNA双链体的核苷酸段彼此具有70%-100%的互补性例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性。在一些情况下,彼此杂交形成dsRNA双链体的核苷酸段彼此具有85%-100%的互补性例如,90%-100%、95%-100%的互补性。在一些情况下,彼此杂交形成dsRNA双链体的核苷酸段彼此具有70%-95%的互补性例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性。换言之,在一些实施方案中,dsRNA双链体包含彼此具有70%-100%的互补性例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性的两段核苷酸。在一些情况下,dsRNA双链体包含彼此具有85%-100%的互补性例如,90%-100%、95%-100%的互补性的两段核苷酸。在一些情况下,dsRNA双链体包含彼此具有70%-95%的互补性例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性的两段核苷酸。主题CasY指导RNA的双链体区域可包含相对于天然存在的双链体区域的一个或多个1个、2个、3个、4个、5个等突变。例如,在一些情况下,可维持碱基对,同时对每个区段的碱基对有贡献的核苷酸可以是不同的。在一些情况下,与天然存在的CasY指导RNA的天然存在的双链体区域相比,主题CasY指导RNA的双链体区域包含更多配对的碱基、更少配对的碱基、更小的凸起、更大的凸起、更少的凸起、更多的凸起或其任何方便的组合。各种Cas9指导RNA的实例可在本领域中找到,并且在一些情况下,与引入Cas9指导RNA中的那些相似的变型也可引入本公开的CasY指导RNA中例如,对于dsRNA双链体区域的突变、5’或3’末端的延伸以用于增加的稳定性,以便提供与另一种蛋白质的相互作用等。例如,参见Jinek等人,Science.2012年8月17日;3376096:816-21;Chylinski等人,RNABiol.2013年5月;105:726-37;Ma等人,BiomedResInt.2013;2013:270805;Hou等人,ProcNatlAcadSciUSA.2013年9月24日;11039:15644-9;Jinek等人,Elife.2013;2:e00471;Pattanayak等人,NatBiotechnol.2013年9月;319:839-43;Qi等人,Cell.2013年2月28日;1525:1173-83;Wang等人,Cell.2013年5月9日;1534:910-8;Auer等人,GenomeRes.2013年10月31日;Chen等人,NucleicAcidsRes.2013年11月1日;4120:e19;Cheng等人,CellRes.2013年10月;2310:1163-71;Cho等人,Genetics.2013年11月;1953:1177-80;DiCarlo等人,NucleicAcidsRes.2013年4月;417:4336-43;Dickinson等人,NatMethods.2013年10月;1010:1028-34;Ebina等人,SciRep.2013;3:2510;Fujii等人,NucleicAcidsRes.2013年11月1日;4120:e187;Hu等人,CellRes.2013年11月;2311:1322-5;Jiang等人,NucleicAcidsRes.2013年11月1日;4120:e188;Larson等人,NatProtoc.2013年11月;811:2180-96;Mali等人,NatMethods.2013年10月;1010:957-63;Nakayama等人,Genesis.2013年12月;5112:835-43;Ran等人,NatProtoc.2013年11月;811:2281-308;Ran等人,Cell.2013年9月12日;1546:1380-9;Upadhyay等人,G3Bethesda.2013年12月9日;312:2233-8;Walsh等人,ProcNatlAcadSciUSA.2013年9月24日;11039:15514-5;Xie等人,MolPlant.2013年10月9日;Yang等人,Cell.2013年9月12日;1546:1370-9;Briner等人,MolCell.2014年10月23日;562:333-9;以及美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述专利全部特此以引用的方式整体并入。CasY指导RNA包含指导序列和杂交以形成蛋白质结合区段的dsRNA双链体的两段核苷酸“双链体形成区段”两者。给定的CasY指导RNA的特定序列可以是crRNA所存在于的物种的特征。本文提供合适的CasY指导RNA的实例。示例性指导RNA序列图6图a和图b中描绘的重复序列示例性CasY指导RNA的非指导序列部分来自CasY1-Y5的天然基因座。在一些情况下,主题CasY指导RNA包含例如,除指导序列之外crRNA序列CTCCGAAAGTATCGGGGATAAAGGCSEQIDNO:31[RNA是CUCCGAAAGUAUCGGGGAUAAAGGCSEQIDNO:11]例如,参见图6。在一些情况下,主题CasY指导RNA包含与crRNA序列CTCCGAAAGTATCGGGGATAAAGGCSEQIDNO:31[RNA是CUCCGAAAGUAUCGGGGAUAAAGGCSEQIDNO:11]具有80%或更高的同一性例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含与crRNA序列CTCCGAAAGTATCGGGGATAAAGGCSEQIDNO:31[RNA是CUCCGAAAGUAUCGGGGAUAAAGGCSEQIDNO:11]具有90%或更高的同一性例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含例如,除指导序列之外crRNA序列CACCGAAATTTGGAGAGGATAAGGCSEQIDNO:32[RNA是CACCGAAAUUUGGAGAGGAUAAGGCSEQIDNO:12]例如,参见图6。在一些情况下,主题CasY指导RNA包含与crRNA序列CACCGAAATTTGGAGAGGATAAGGCSEQIDNO:32[RNA是CACCGAAAUUUGGAGAGGAUAAGGCSEQIDNO:12]具有80%或更高的同一性例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含与crRNA序列CACCGAAATTTGGAGAGGATAAGGCSEQIDNO:32[RNA是CACCGAAAUUUGGAGAGGAUAAGGCSEQIDNO:12]具有90%或更高的同一性例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含例如,除指导序列之外crRNA序列CTCCGAATTATCGGGAGGATAAGGCSEQIDNO:33[RNA是CUCCGAAUUAUCGGGAGGAUAAGGCSEQIDNO:13]例如,参见图6。在一些情况下,主题CasY指导RNA包含与crRNA序列CTCCGAATTATCGGGAGGATAAGGCSEQIDNO:33[RNA是CUCCGAAUUAUCGGGAGGAUAAGGCSEQIDNO:13]具有80%或更高的同一性例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含与crRNA序列CTCCGAATTATCGGGAGGATAAGGCSEQIDNO:33[RNA是CUCCGAAUUAUCGGGAGGAUAAGGCSEQIDNO:13]具有90%或更高的同一性例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含例如,除指导序列之外crRNA序列CCCCGAATATAGGGGACAAAAAGGCSEQIDNO:34[RNA是CCCCGAAUAUAGGGGACAAAAAGGCSEQIDNO:14]例如,参见图6。在一些情况下,主题CasY指导RNA包含与crRNA序列CCCCGAATATAGGGGACAAAAAGGCSEQIDNO:34[RNA是CCCCGAAUAUAGGGGACAAAAAGGCSEQIDNO:14]具有80%或更高的同一性例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含与crRNA序列CCCCGAATATAGGGGACAAAAAGGCSEQIDNO:34[RNA是CCCCGAAUAUAGGGGACAAAAAGGCSEQIDNO:14]具有90%或更高的同一性例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含例如,除指导序列之外crRNA序列GTCTAGACATACAGGTGGAAAGGTGAGAGTAAAGACSEQIDNO:35[RNA是GUCUAGACAUACAGGUGGAAAGGUGAGAGUAAAGACSEQIDNO:15]例如,参见图6。在一些情况下,主题CasY指导RNA包含与crRNA序列GTCTAGACATACAGGTGGAAAGGTGAGAGTAAAGACSEQIDNO:35[RNA是GUCUAGACAUACAGGUGGAAAGGUGAGAGUAAAGACSEQIDNO:15]具有80%或更高的同一性例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含与crRNA序列GTCTAGACATACAGGTGGAAAGGTGAGAGTAAAGACSEQIDNO:35[RNA是GUCUAGACAUACAGGUGGAAAGGUGAGAGUAAAGACSEQIDNO:15]具有90%或更高的同一性例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含例如,除指导序列之外SEQIDNO:11-15中的任一个所示的crRNA序列。在一些情况下,主题CasY指导RNA包含与SEQIDNO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含与SEQIDNO:11-15中的任一个所示的crRNA序列具有90%或更高的同一性例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含例如,除指导序列之外SEQIDNO:11-14中的任一个所示的crRNA序列。在一些情况下,主题CasY指导RNA包含与SEQIDNO:11-14中的任一个所示的crRNA序列具有80%或更高的同一性例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含与SEQIDNO:11-14中的任一个所示的crRNA序列具有90%或更高的同一性例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。来自CasY18的天然基因座的重复序列示例性CasY指导RNA的非指导序列部分是CTCCGTGAATACGTGGGGTAAAGGCSEQIDNO:36[RNA是CUCCGUGAAUACGUGGGGUAAAGGCSEQIDNO:16]。在一些情况下,主题CasY指导RNA包含例如,除指导序列之外crRNA序列CTCCGTGAATACGTGGGGTAAAGGCSEQIDNO:36[RNA是CUCCGUGAAUACGUGGGGUAAAGGCSEQIDNO:16]。在一些情况下,主题CasY指导RNA包含与crRNA序列CTCCGTGAATACGTGGGGTAAAGGCSEQIDNO:36[RNA是CUCCGUGAAUACGUGGGGUAAAGGCSEQIDNO:16]具有80%或更高的同一性例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含与crRNA序列CTCCGTGAATACGTGGGGTAAAGGCSEQIDNO:36[RNA是CUCCGUGAAUACGUGGGGUAAAGGCSEQIDNO:16]具有90%或更高的同一性例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含例如,除指导序列之外SEQIDNO:11-16中的任一个所示的crRNA序列。在一些情况下,主题CasY指导RNA包含例如,除指导序列之外与SEQIDNO:11-16中的任一个所示的crRNA序列具有80%或更高的同一性例如,85%或更高、90%或更高、93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。在一些情况下,主题CasY指导RNA包含与SEQIDNO:11-16中的任一个所示的crRNA序列具有90%或更高的同一性例如,93%或更高、95%或更高、97%或更高、98%或更高或100%的同一性的核苷酸序列。CASY系统本公开提供一种CasY系统。本公开的CasY系统可包含:a本公开的CasY多肽和CasY指导RNA;b本公开的CasY多肽、CasY指导RNA和供体模板核酸;c本公开的CasY融合多肽和CasY指导RNA;d本公开的CasY融合多肽、CasY指导RNA和供体模板核酸;e编码本公开的CasY多肽的mRNA和CasY指导RNA;f编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸;g编码本公开的CasY融合多肽的mRNA和CasY指导RNA;h编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸;i重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;j重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;k重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;l重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;m包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;n包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;o包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;p包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;q重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者r重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者a到r中的一个的某一变型。核酸本公开提供一种或多种核酸,其包含以下中的一种或多种:供体多核苷酸序列、编码CasY多肽例如,野生型CasY蛋白、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等的核苷酸序列、CasY指导RNA和编码CasY指导RNA的核苷酸序列。本公开提供一种包含编码CasY融合多肽的核苷酸序列的核酸。本公开提供一种包含编码CasY多肽的核苷酸序列的重组表达载体。本公开提供一种包含编码CasY融合多肽的核苷酸序列的重组表达载体。本公开提供一种重组表达载体,其包含:a编码CasY多肽的核苷酸序列;和b编码一种或多种CasY指导RNA的核苷酸序列。本公开提供一种重组表达载体,其包含:a编码CasY融合多肽的核苷酸序列;和b编码一种或多种CasY指导RNA的核苷酸序列。在一些情况下,编码CasY蛋白的核苷酸序列和或编码CasY指导RNA的核苷酸序列可操作地连接到可在选择的细胞类型例如,原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、灵长类动物细胞、啮齿动物细胞、人细胞等中操作的启动子。在一些情况下,编码本公开的CasY多肽的核苷酸序列是密码子优化的。这种类型的优化可能需要编码CasY的核苷酸序列的突变以模拟预期的宿主生物体或细胞的密码子偏好同时编码相同蛋白质。因此,密码子可改变,但编码的蛋白质保持不变。例如,如果预期的靶细胞是人细胞,可使用人密码子优化的编码CasY的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是小鼠细胞,则可生成小鼠密码子优化的编码CasY的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是植物细胞,则可生成植物密码子优化的编码CasY的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是昆虫细胞,则可生成昆虫密码子优化的编码CasY的核苷酸序列。本公开提供一种或多种重组表达载体,其包含在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中:i供体模板核酸的核苷酸序列其中供体模板包含与靶核酸例如,靶基因组的靶序列具有同源性的核苷酸序列;ii编码CasY指导RNA的核苷酸序列,所述CasY指导RNA与靶向基因组的靶基因座的靶序列杂交例如,可操作地连接到可在靶细胞诸如真核细胞中操作的启动子;和iii编码CasY蛋白的核苷酸序列例如,可操作地连接到可在靶细胞诸如真核细胞中操作的启动子。本公开提供一种或多种重组表达载体,其包含在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中:i供体模板核酸的核苷酸序列其中供体模板包含与靶核酸例如,靶基因组的靶序列具有同源性的核苷酸序列;和ii编码CasY指导RNA的核苷酸序列,所述CasY指导RNA与靶向基因组的靶基因座的靶序列杂交例如,可操作地连接到可在靶细胞诸如真核细胞中操作的启动子。本公开提供一种或多种重组表达载体,其包含在一些情况下在不同的重组表达载体中,并且在一些情况下在相同的重组表达载体中:i编码CasY指导RNA的核苷酸序列,所述CasY指导RNA与靶向基因组的靶基因座的靶序列杂交例如,可操作地连接到可在靶细胞诸如真核细胞中操作的启动子;和ii编码CasY蛋白的核苷酸序列例如,可操作地连接到可在靶细胞诸如真核细胞中操作的启动子。合适的表达载体包括病毒表达载体例如,基于以下病毒的病毒载体:牛痘病毒;脊髓灰质炎病毒;腺病毒参见例如,Li等人,InvestOpthalmolVisSci35:25432549,1994;Borras等人,GeneTher6:515524,1999;Li和Davidson,PNAS92:77007704,1995;Sakamoto等人,HGeneTher5:10881097,1999;WO9412649、WO9303769;WO9319191;WO9428938;WO9511984和WO9500655;腺相关病毒AAV参见例如,Ali等人,HumGeneTher9:8186,1998;Flannery等人,PNAS94:69166921,1997;Bennett等人,InvestOpthalmolVisSci38:28572863,1997;Jomary等人,GeneTher4:683690,1997;Rolling等人,HumGeneTher10:641648,1999;Ali等人,HumMolGenet5:591594,1996;Srivastava的WO9309239,Samulski等人,J.Vir.198963:3822-3828;Mendelson等人,Virol.1988166:154-165;以及Flotte等人,PNAS199390:10613-10617;SV40;单纯疱疹病毒;人类免疫缺陷病毒参见例如,Miyoshi等人,PNAS94:1031923,1997;Takahashi等人,JVirol73:78127816,1999;逆转录病毒载体例如,鼠白血病病毒、脾坏死病毒和源自诸如劳斯肉瘤病毒、哈维肉瘤病毒的逆转录病毒的载体、禽白血病病毒、慢病毒、人类免疫缺陷病毒、骨髓增生肉瘤病毒以及乳腺肿瘤病毒等。在一些情况下,本公开的重组表达载体是重组腺相关病毒AAV载体。在一些情况下,本公开的重组表达载体是重组慢病毒载体。在一些情况下,本公开的重组表达载体是重组逆转录病毒载体。根据所用的宿主载体系统,可在表达载体中使用许多合适的转录和翻译控制元件中的任一种,包括组成型启动子和诱导型启动子、转录增强子元件、转录终止子等。在一些实施方案中,编码CasY指导RNA的核苷酸序列可操作地连接到控制元件,例如转录控制元件,诸如启动子。在一些实施方案中,编码CasY蛋白或CasY融合多肽的核苷酸序列可操作地连接到控制元件,例如转录控制元件,诸如启动子。转录控制元件可以是启动子。在一些情况下,启动子是组成型活性启动子。在一些情况下,启动子是可调节启动子。在一些情况下,启动子是诱导型启动子。在一些情况下,启动子是组织特异性启动子。在一些情况下,启动子是细胞类型特异性启动子。在一些情况下,转录控制元件例如,启动子在靶向细胞类型或靶向细胞群中是功能性的。例如,在一些情况下,转录控制元件在真核细胞例如,造血干细胞例如,动员的外周血mPBCD34+细胞、骨髓BMCD34+细胞等中可以是功能性的。真核启动子在真核细胞中是功能性的启动子的非限制性实例包括EF1α,来自巨细胞病毒CMV立即早期、单纯疱疹病毒HSV胸苷激酶、早期和晚期SV40、逆转录病毒的长末端重复序列LTR以及小鼠金属硫蛋白-I的那些启动子。选择适当的载体和启动子完全在本领域普通技术人员的水平之内。表达载体还可含有用于翻译起始的核糖体结合位点和转录终止子。表达载体还可包含用于扩增表达的适当序列。表达载体还可包含编码蛋白质标签例如,6xHis标签、血凝素标签、荧光蛋白等的核苷酸序列,所述蛋白质标签可融合到CasY蛋白,从而产生嵌合CasY多肽。在一些实施方案中,编码CasY指导RNA和或CasY融合多肽的核苷酸序列可操作地连接到诱导型启动子。在一些实施方案中,编码CasY指导RNA和或CasY融合蛋白的核苷酸序列可操作地连接到组成型启动子。启动子可以是组成型活性启动子即,在活性“ON”状态下组成型的启动子,它可以是诱导型启动子即,通过外界刺激例如存在特定温度、化合物或蛋白质控制其状态活性“ON”或非活性“OFF”的启动子,它可以是空间限制的启动子即,转录控制元件、增强子等例如,组织特异性启动子、细胞类型特异性启动子等,并且它可以是时间限制的启动子即,启动子在胚胎发育的特定阶段过程中或在生物过程例如,小鼠体内的毛囊周期的特定阶段过程中处于“ON”状态或“OFF”状态。合适的启动子可来源于病毒并且可因此称为病毒启动子,或它们可来源于任何生物,包括原核生物或真核生物。合适的启动子可用来通过任何RNA聚合酶例如,polI、polII、polIII驱动表达。示例性启动子包括但不限于SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复序列LTR启动子;腺病毒主要晚期启动子AdMLP;单纯疱疹病毒HSV启动子、巨细胞病毒CMV启动子诸如CMV立即早期启动子区CMVIE、劳斯肉瘤病毒RSV启动子、人类U6小核启动子U6Miyagishi等人,NatureBiotechnology20,497-5002002、增强的U6启动子例如,Xia等人,NucleicAcidsRes.2003年9月1日;3117、人类H1启动子H1等。在一些情况下,编码CasY指导RNA的核苷酸序列可操作地连接到在其控制下在真核细胞中可操作的启动子例如,U6启动子、增强的U6启动子、H1启动子等。如本领域的普通技术人员所理解的,当使用U6启动子例如,在真核细胞中或另一种PolIII启动子由核酸例如,表达载体表达RNA例如,指导RNA时,如果连续存在若干个T在RNA中编码U,则可能需要对RNA进行突变。这是因为DNA中的一串T例如,5个T可充当聚合酶IIIPolIII的终止子。因此,为了确保指导RNA在真核细胞中的转录,有时可能需要修饰编码指导RNA的序列以消除T的作用。在一些情况下,编码CasY蛋白例如,野生型CasY蛋白、切口酶CasY蛋白、dCasY蛋白、嵌合CasY蛋白等的核苷酸序列可操作地连接到在真核细胞中可操作的启动子例如,CMV启动子、EF1α启动子、雌激素受体调节的启动子等。诱导型启动子的实例包括但不限于T7RNA聚合酶启动子、T3RNA聚合酶启动子、异丙基-β-D-硫代吡喃半乳糖苷IPTG调节的启动子、乳糖诱导的启动子、热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等。因此,诱导型启动子可通过分子调节,所述分子包括但不限于强力霉素;雌激素和或雌激素类似物;IPTG等。适合使用的诱导型启动子包括本文所述或本领域的普通技术人员已知的任何诱导型启动子。诱导型启动子的实例包括但不限于化学生物化学调节的启动子和物理调节的启动子,诸如醇调节的启动子、四环素调节的启动子例如,无水四环素aTc-响应性启动子和其他四环素响应性启动子系统,其包括四环素阻遏物蛋白tetR、四环素操作序列tetO和四环素反式激活因子融合蛋白tTA、类固醇调节的启动子例如,基于大鼠糖皮质激素受体、人类雌激素受体、蛾蜕皮激素受体的启动子以及来自类固醇类视黄醇甲状腺受体超家族的启动子、金属调节的启动子例如,衍生自来自酵母、小鼠和人类的金属硫蛋白结合并螯合金属离子的蛋白质基因的启动子、发病原调节的启动子例如,由水杨酸、乙烯或苯并噻二唑BTH诱导的启动子、温度热诱导型启动子例如,热休克启动子和光调节的启动子例如,来自植物细胞的光响应性启动子。在一些情况下,启动子是空间限制的启动子即,细胞类型特异性启动子、组织特异性启动子等,使得在多细胞生物体中,启动子在特定细胞子集中是活性的即,“ON”。空间限制的启动子也可称为增强子、转录控制元件、控制序列等。可使用任何方便的空间限制的启动子,只要启动子在靶向宿主细胞例如,真核细胞;原核细胞中是功能性的即可。在一些情况下,启动子是可逆启动子。合适的可逆启动子,包括可逆诱导型启动子,是本领域已知的。此类可逆启动子可分离自并衍生自许多生物体,例如真核生物和原核生物。用于第二生物体的衍生自第一生物体例如,第一原核生物和第二真核生物、第一真核生物和第二原核生物等的可逆启动子的修饰是本领域熟知的。此类可逆启动子和基于此类可逆启动子但也包含另外的控制蛋白的系统包括但不限于醇调节的启动子例如,醇脱氢酶IalcA基因启动子、响应于醇反式激活因子蛋白AlcR的启动子等、四环素调节的启动子例如,启动子系统,包括Tet激活因子、TetON、TetOFF等、类固醇调节的启动子例如,大鼠糖皮质激素受体启动子系统、人类雌激素受体启动子系统、类维生素A启动子系统、甲状腺启动子系统、蜕皮激素启动子系统、米非司酮启动子系统等、金属调节的启动子例如,金属硫蛋白启动子系统等、发病机理相关的调节启动子例如,水杨酸调节启动子、乙烯调节启动子、苯并噻二唑调节启动子等、温度调节启动子例如,热休克诱导型启动子例如,HSP-70、HSP-90、大豆热休克启动子等、光调节启动子、合成诱导型启动子等。将核酸例如,包含供体多核苷酸序列的核酸、一种或多种编码CasY蛋白和或CasY指导RNA的核酸等引入宿主细胞中的方法是本领域已知的,并且可使用任何方便的方法来将核酸例如,表达构建体引入细胞中。合适的方法包括例如病毒感染、转染、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺PEI介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送等。将重组表达载体引入细胞中可在促进细胞存活的任何培养基中和任何培养条件下发生。将重组表达载体引入靶细胞中可在体内或离体进行。将重组表达载体引入靶细胞中可在体外进行。在一些实施方案中,CasY蛋白可作为RNA提供。RNA可通过直接化学合成提供,或者可在体外从DNA例如,编码CasY蛋白的DNA转录。一旦合成,可通过用于将核酸引入细胞中的任何熟知的技术例如,微注射、电穿孔、转染等将RNA引入细胞中。可使用开发良好的转染技术参见例如Angel和Yanik2010PLoSONE57:e11756;以及可从Qiagen商购获得的试剂、从Stemgent可商购获得的StemfectTMRNA转染试剂盒以及可从MirusBioLLC商购获得的转染试剂盒向细胞提供核酸。还参见Beumer等人2008PNAS10550:19821-19826。可直接向靶宿主细胞提供载体。换言之,使细胞与包含主题核酸的载体例如,具有供体模板序列并编码CasY指导RNA的重组表达载体;编码CasY蛋白的重组表达载体等接触,使得载体被细胞吸收。用于使细胞与作为质粒的核酸载体接触的方法包括电穿孔、氯化钙转染、微注射和脂质体转染是本领域中熟知的。对于病毒载体递送,可使细胞与包含主题病毒表达载体的病毒颗粒接触。逆转录病毒,例如慢病毒,适用于本公开的方法。通常使用的逆转录病毒载体是“缺陷型的”,即不能产生用于生产性感染所需要的病毒蛋白质。而且载体复制需要在包装细胞系中生长。为了生成包含感兴趣的核酸的病毒颗粒,通过包装细胞系将包含核酸的逆转录病毒核酸包装到病毒衣壳中。不同包装细胞系提供待并入衣壳中的不同包膜蛋白嗜亲性、双嗜性或嗜异性,此包膜蛋白决定病毒颗粒对细胞的特异性对鼠和大鼠的嗜亲性;对包括人类、狗和小鼠的大多数哺乳动物细胞类型的双嗜性;以及对除了鼠细胞之外的大多数哺乳动物细胞类型的嗜异性。适当的包装细胞系可用来确保细胞被包装的病毒颗粒靶向。将主题载体表达载体引入包装细胞系中以及采集由包装细胞系生成的病毒颗粒的方法是本领域中熟知的。还可通过直接微注射引入核酸例如,RNA的注射。用于向靶宿主细胞提供编码CasY指导RNA和或CasY多肽的核酸的载体可包括用于驱动感兴趣核酸的表达即,转录激活的合适的启动子。换言之,在一些情况下,感兴趣的核酸将可操作地连接到启动子。所述启动子可包括遍在活化型启动子,例如CMV-β-肌动蛋白启动子;或诱导型启动子,诸如在具体细胞群中有活性或对药物诸如四环素的存在有反应的启动子。通过转录激活,预期转录将在靶细胞中的基础水平以上增加10倍、100倍、更通常地1000倍。另外,用于向细胞提供编码CasY指导RNA和或CasY蛋白的核酸的载体可包含如下核酸序列,其在靶细胞中编码可选择标记以便鉴定已经吸收CasY指导RNA和或CasY蛋白的细胞。包含编码CasY多肽或CasY融合多肽的核苷酸序列的核酸在一些情况下是RNA。因此,可将CasY融合蛋白作为RNA引入细胞中。将RNA引入细胞中的方法是本领域中已知的并且可包括例如直接注射、转染或用于引入DNA的任何其他方法。相反,CasY蛋白可作为多肽向细胞提供。这种多肽可任选地融合到增加产物溶解度的多肽结构域。所述结构域可通过限定的蛋白酶切割位点例如,通过TEV蛋白酶切割的TEV序列连接到多肽。接头还可包括一个或多个柔性序列,例如1至10个甘氨酸残基。在一些实施方案中,融合蛋白的切割在维持产物溶解度的缓冲液中进行,例如在0.5至2M尿素存在下、在多肽和或增加溶解度的多核苷酸的存在下等进行。感兴趣的结构域包括核内体溶解结构域,例如流感HA结构域;和辅助产生的其他多肽,例如IF2结构域、GST结构域、GRPE结构域等。多肽可配制用于改进的稳定性。例如,肽可以是PEG化的,其中聚乙烯氧基提供在血流中的增加的寿命。另外或可替代地,本公开的CasY多肽可融合到多肽穿透结构域以促进被细胞吸收。许多穿透结构域是本领域中已知的并且可用于本公开的非整合多肽,其包括肽、肽模拟物和非肽运载体。例如,穿透肽可衍生自黑腹果蝇转录因子触角足基因称为穿透蛋白的第三α螺旋,所述第三α螺旋包含氨基酸序列RQIKIWFQNRRMKWKKSEQIDNO:133。作为另一个实例,穿透肽包含HIV-1tat碱性区域氨基酸序列,所述氨基酸序列可包括例如天然存在的tat蛋白的氨基酸49-57。其他穿透结构域包括聚精氨酸基序,例如HIV-1rev蛋白的氨基酸34-56的区域、九精氨酸、八精氨酸等。参见例如,Futaki等人2003CurrProteinPeptSci.2003年4月;42:87-9和446;以及Wender等人2000Proc.Natl.Acad.Sci.U.S.A2000年11月21日;9724:13003-8;公布的美国专利申请20030220334;20030083256;20030032593;和20030022831,本文以引用的方式特别并入了易位肽和拟肽的教义。九精氨酸R9序列是已表征的更有效的PTD之一Wender等人2000;Uemura等人2002。可选择进行融合的位点以便优化多肽的生物活性、分泌或结合特征。将通过常规实验确定最佳位点。本公开的CasY多肽可在体外或通过真核细胞或通过原核细胞产生,并且它可通过解折叠例如热变性、二硫苏糖醇还原等进一步加工,并且可使用本领域已知的方法进一步再折叠。不改变一级序列的感兴趣的修饰包括多肽的化学衍生化,例如酰化、乙酰化、羧化、酰胺化等。还包括糖基化的修饰,例如通过在其合成和加工过程中或在进一步加工步骤中修饰多肽的糖基化形式而进行的那些修饰;例如通过将多肽暴露于影响糖基化的酶诸如哺乳动物糖基化酶或脱糖基化酶而进行的那些修饰。还涵盖具有磷酸化氨基酸残基例如磷酸酪氨酸、磷酸丝氨酸或磷酸苏氨酸的序列。还适合包括在本公开的实施方案中的是核酸例如,编码CasY指导RNA、编码CasY融合蛋白等的核酸和蛋白质例如,衍生自野生型蛋白质或变体蛋白质的CasY融合蛋白,所述核酸和蛋白质已使用普通分子生物学技术和合成化学进行修饰,以便改进它们对蛋白水解降解的抗性,改变靶序列特异性,优化溶解特性,改变蛋白质活性例如,转录调节活性、酶活性等或使它们更合适。此类多肽的类似物包括含有除了天然存在的L-氨基酸之外的残基例如,D-氨基酸或非天然存在的合成氨基酸的那些多肽。D-氨基酸可取代一些或所有氨基酸残基。可使用如本领域已知的常规方法,通过体外合成制备本公开的CasY多肽。可使用各种商业合成装置,例如AppliedBiosystems,Inc.,Beckman等的自动合成仪。通过使用合成仪,天然存在的氨基酸可被非天然氨基酸取代。制备的具体顺序和方式将通过方便性、经济性、所需纯度等来确定。如果需要,可在合成过程中或在表达过程中将各种基团引入肽中,这允许连接到其他分子或表面。因此半胱氨酸可用来制备硫醚、用于连接到金属离子络合物的组氨酸、用于形成酰胺或酯的羧基、用于形成酰胺的氨基等。还可根据重组合成的常规方法分离和纯化本公开的CasY多肽。可由表达宿主制备裂解液,并且使用高效液相色谱法HPLC、排阻色谱法、凝胶电泳、亲和色谱法或其他纯化技术来纯化裂解液。大多数情况下,相对于与产物制备及其纯化的方法相关的污染物,所使用的组合物将包含所需产物的20重量%或更多、更通常地75重量%或更多、优选地95重量%,并且出于治疗目的通常为99.5重量%或更多。通常,百分数将基于总蛋白。因此,在一些情况下,本公开的CasY多肽或CasY融合多肽具有至少80%纯度、至少85%纯度、至少90%纯度、至少95%纯度、至少98%纯度或至少99%纯度例如,不含污染物、非CasY蛋白质或其他大分子等。为了诱导对靶核酸例如,基因组DNA的切割或任何所需的修饰,或对与靶核酸相关联的多肽的任何所需的修饰,向细胞提供本公开的CasY指导RNA和或CasY多肽和或供体模板序列,无论它们作为核酸还是多肽引入,持续约30分钟至约24小时,例如1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、5小时、6小时、7小时、8小时、12小时、16小时、18小时、20小时或约30分钟至约24小时的任何其他时间段,这可以约每天至约每4天的频率来重复,例如以每1.5天、每2天、每3天或约每天至约每四天的任何其他频率来重复。可向主题细胞提供一种或多种试剂一次或多次,例如一次、两次、三次或多于三次,并且在每次接触事件之后允许用一种或多种试剂孵育细胞一定时间量,例如16-24小时,在所述时间之后用新鲜培养基替代培养基并且进一步培养细胞。在其中向细胞提供两种或更多种不同靶向复合物例如,与相同或不同靶核酸内的不同序列互补的两种不同CasY指导RNA的情况下,可同时提供例如,作为两种多肽和或核酸或同时递送所述复合物。可替代地,它们可连续提供,例如首先提供靶向复合物,接着提供第二靶向复合物等,或反之亦然。为了改进DNA载体向靶细胞的递送,可例如通过使用脂质复合物lipoplex和聚合复合物polyplex保护DNA免受损伤,并且促进DNA进入细胞中。因此,在一些情况下,本公开的核酸例如,本公开的重组表达载体可用有组织的结构像胶束或脂质体中的脂质覆盖。当有组织的结构与DNA复合时,它被称为脂质复合物。存在三种类型的脂质,阴离子脂质带负电、中性脂质或阳离子脂质带正电。利用阳离子脂质的脂质复合物已被证明可用于基因转移。阳离子脂质由于其正电荷,与带负电的DNA天然复合。同样由于它们的电荷,它们与细胞膜相互作用。然后发生脂质复合物的内吞作用,并且将DNA释放到细胞质中。阳离子脂质还可防止细胞对DNA的降解。聚合物与DNA的复合物称为聚合复合物。大多数聚合复合物由阳离子聚合物组成,并且它们的产生由离子相互作用调节。聚合复合物与脂质复合物的作用方法之间的一个巨大差异是聚合复合物不能将其DNA负载释放到细胞质中,为此,必须发生与内体溶解剂溶解内吞作用期间产生的内体,诸如灭活的腺病毒的共转染。然而,并非总是如此;诸如聚乙烯亚胺的聚合物与壳聚糖和三甲基壳聚糖一样,都有自己的内体破坏方法。树枝状聚合物,一种球形的高度支化的大分子,也可用于遗传修饰干细胞。树枝状聚合物颗粒的表面可被官能化以改变其特性。具体地,可能构建阳离子树枝状聚合物即,具有正表面电荷的树枝状聚合物。当存在遗传物质诸如DNA质粒时,电荷互补性导致核酸与阳离子树枝状聚合物的暂时缔合。在到达其目的地时,树枝状聚合物-核酸复合物可通过内吞作用被吸收到细胞中。在一些情况下,本公开的核酸例如,表达载体包含感兴趣的指导序列的插入位点。例如,核酸可包含感兴趣的指导序列的插入位点,其中所述插入位点紧邻编码CasY指导RNA的部分的核苷酸序列,当指导序列被改变而与所需靶序列杂交例如,有助于指导RNA的CasY结合方面的序列,例如,有助于CasY指导RNA的一个或多个dsRNA双链体的序列-指导RNA的这个部分也可称为指导RNA的“支架”或“恒定区”时,CasY指导RNA的所述部分不会改变。因此,在一些情况下,主题核酸例如,表达载体包含编码CasY指导RNA的核苷酸序列,不同的是编码指导RNA的指导序列部分的部分是插入序列插入位点。插入位点是用于插入所需序列的任何核苷酸序列。用于各种技术的“插入位点”是本领域的普通技术人员已知的,并且可使用任何方便的插入位点。插入位点可用于操纵核酸序列的任何方法。例如,在一些情况下,插入位点是多克隆位点MCS例如,包含一个或多个限制性酶识别序列的位点,用于连接独立克隆的位点,用于基于克隆的重组例如,基于att位点的重组的位点,由基于CRISPRCas例如Cas9的技术识别的核苷酸序列等。插入位点可以是任何期望的长度,并且可取决于插入位点的类型例如,可取决于位点是否包含一个或多个限制性酶识别序列以及包含多少限制性酶识别序列,位点是否包括CRISPRCas蛋白的靶位点等。在一些情况下,主题核酸的插入位点长度为3个或更多个核苷酸nt例如,长度为5个或更多个、8个或更多个、10个或更多个、15个或更多个、17个或更多个、18个或更多个、19个或更多个、20个或更多个、或者25个或更多个、或者30个或更多个nt。在一些情况下,主题核酸的插入位点具有在2至50个核苷酸nt的范围内例如,2至40个nt、2至30个nt、2至25个nt、2至20个nt、5至50个个nt、5至40个nt、5至30个nt、5至25个nt、5至20个nt、10至50个nt、10至40个nt、10至30个nt、10至25个nt、10至20个nt、17至50个nt、17至40个nt、17至30个nt、17至25个nt的长度。在一些情况下,主题核酸的插入位点具有在5至40个nt的范围内的长度。核酸修饰在一些实施方案中,主题核酸例如,CasY指导RNA具有一个或多个修饰例如,碱基修饰、骨架修饰等以对核酸提供新的或增强的特征例如,改进的稳定性。核苷是碱基-糖组合。核苷的碱基部分通常是杂环碱基。此类杂环碱基的两个最常见类别是嘌呤和嘧啶。核苷酸是还包含共价连接到核苷的糖部分的磷酸酯基团的核苷。对于包含呋喃戊糖的那些核苷,磷酸酯基团可连接到糖的2’、3’或5’羟基部分。在形成寡核苷酸中,磷酸酯基团共价连接彼此相邻的核苷以形成线性聚合化合物。继而,此线性聚合化合物的各端可进一步连接以形成环状化合物,然而,线性化合物是合适的。另外,线性化合物可具有内部核苷酸碱基互补性并且因此可以为了产生完全或部分双链化合物的方式折叠。在寡核苷酸内,磷酸酯基团通常称为形成寡核苷酸的核苷间骨架。RNA和DNA的正常键或骨架是3’至5’的磷酸二酯键。合适的核酸修饰包括但不限于:2’O甲基修饰的核苷酸、2'氟修饰的核苷酸、锁核酸LNA修饰的核苷酸、肽核酸PNA修饰的核苷酸、具有硫代磷酸酯键的核苷酸和5'帽例如,7-甲基鸟苷酸帽m7G。下文描述另外的细节和另外的修饰。2'-O-甲基修饰的核苷酸也称为2'-O-甲基RNA是在tRNA和其他小RNA中发现的天然存在的RNA修饰,其作为转录后修饰而出现。可直接合成含有2'-O-甲基RNA的寡核苷酸。这种修饰增加RNA:RNA双链体的Tm,但仅导致RNA:DNA稳定性的微小变化。它对于单链核糖核酸酶的攻击是稳定的,并且对DNA酶的敏感性通常是DNA的5至10倍低。它通常用于反义寡核苷酸中,作为增加稳定性和对于靶信使的结合亲和力的手段。2'氟修饰的核苷酸例如,2'氟碱基具有氟修饰的核糖,其增加结合亲和力Tm并且与天然RNA相比还赋予一定程度的相对核酸酶抗性。这些修饰通常用于核酶和siRNA中以改进在血清或其他生物体液中的稳定性。LNA碱基具有对核糖骨架的修饰,其将碱基锁定在C3'-内部位置,这有利于RNAA型螺旋双链体几何结构。这种修饰显著增加Tm并且还具有非常强的核酸酶抗性。可将多个LNA插入置于寡核苷酸中的除了3'末端之外的任何位置。已经描述了从反义寡核苷酸到杂交探针到SNP检测和等位基因特异性PCR的应用。由于LNA赋予Tm的大量增加,它们还可引起引物二聚体形成以及自发夹的形成的增加。在一些情况下,引入单个寡核苷酸中的LNA的数量是10个碱基或更少。硫代磷酸酯PS键联即,硫代磷酸酯键用硫原子取代核酸例如,寡核苷酸的磷酸酯骨架中的非桥接氧。这种修饰使得核苷酸间键对核酸酶降解具有抗性。可在寡核苷酸的5'或3'末端的最后3-5个核苷酸之间引入硫代磷酸酯键联以抑制外切核酸酶降解。在寡核苷酸内例如,在整个寡核苷酸中包含硫代磷酸酯键联也可帮助减少内切核酸酶的攻击。在一些实施方案中,主题核酸具有一个或多个核苷酸,所述核苷酸是2'-O-甲基修饰的核苷酸。在一些实施方案中,主题核酸例如,dsRNA、siNA等具有一个或多个2'氟修饰的核苷酸。在一些实施方案中,主题核酸例如,dsRNA、siNA等具有一个或多个LNA碱基。在一些实施方案中,主题核酸例如,dsRNA、siNA等具有通过硫代磷酸酯键联连接的一个或多个核苷酸即,主题核酸具有一个或多个硫代磷酸酯键。在一些实施方案中,主题核酸例如,dsRNA、siNA等具有5'帽例如,7-甲基鸟苷酸帽m7G。在一些实施方案中,主题核酸例如,dsRNA、siNA等具有修饰的核苷酸的组合。例如,除具有一个或多个具有其他修饰的核苷酸例如,2'-O-甲基核苷酸和或2'氟修饰的核苷酸和或LNA碱基和或硫代磷酸酯键之外,主题核酸例如,dsRNA、siNA等可具有5'帽例如,7-甲基鸟苷酸帽m7G。修饰的骨架和修饰的核苷间键含有修饰的合适的核酸例如,CasY指导RNA的实例包括含有修饰的骨架或非天然的核苷间键的核酸。具有修饰的骨架的核酸包括在骨架中保留磷原子的那些核酸和在骨架中不具有磷原子的那些核酸。其中含有磷原子的合适的经修饰的寡核苷酸骨架包括例如,硫代磷酸酯,手性硫代磷酸酯,二硫代磷酸酯,磷酸三酯,氨基烷基磷酸三酯,甲基和其他烷基磷酸酯包括3'-亚烷基磷酸酯、5'-亚烷基磷酸酯和手性磷酸酯,次膦酸酯,氨基磷酸酯包括3'-氨基氨基磷酸酯和氨基烷基氨基磷酸酯,二氨基磷酸酯,硫羰氨基磷酸酯,硫羰烷基磷酸酯,硫羰烷基磷酸三酯,具有正常3'-5'键的硒代磷酸酯和硼代磷酸酯,这些的2'-5'连接类似物以及具有反极性的那些寡核苷酸骨架,其中一个或多个核苷酸间键为3'至3'、5'至5'或2'至2'键。具有反极性的合适的寡核苷酸在最3'核苷酸间键处包含单个3'至3'键,即可为碱性核碱基丢失或其被羟基替代的单个反转核苷残基。还包括各种盐例如像钾或钠、混合盐和游离酸形式。在一些实施方案中,主题核酸包含一个或多个硫代磷酸酯和或杂原子核苷间键,具体地是-CH2-NH-O-CH2-、-CH2-NCH3-O-CH2-称为亚甲基甲基亚氨基或MMI骨架、-CH2-O-NCH3-CH2-、-CH2-NCH3-NCH3-CH2-和-O-NCH3-CH2-CH2-其中天然磷酸二酯核苷酸间键表示为-O-P=OOH-O-CH2-。MMI型核苷间键公开于上文提及的美国专利号5,489,677中,所述专利的公开内容以引用的方式整体并入本文。合适的酰胺核苷间键公开于美国专利号5,602,240中,所述专利的公开内容以引用的方式整体并入本文。还合适的是具有吗啉代骨架结构的核酸,如例如美国专利号5,034,506中所述。例如,在一些实施方案中,主题核酸包含替代核糖环的6元吗啉代环。在这些实施方案的一些中,二氨基磷酸酯或其他非磷酸二酯核苷间键替代磷酸二酯键。其中不包含磷原子的合适的经修饰的多核苷酸骨架具有通过短链烷基或环烷基核苷间键、混合杂原子和烷基或环烷基核苷间键或一个或多个短链杂原子或杂环核苷间键形成的骨架。这些包括:具有吗啉代键部分地由核苷的糖部分形成的那些骨架;硅氧烷骨架;硫化物、亚砜和砜骨架;甲酰乙酰基和硫代甲酰乙酰基骨架;亚甲基甲酰乙酰基和硫代甲酰乙酰基骨架;核糖乙酰基riboacetyl骨架;含烯烃的骨架;氨基磺酸酯骨架;亚甲基亚胺基和亚甲基肼基骨架;磺酸酯和磺酰胺骨架;酰氨骨架;以及具有混合的N、O、S和CH2组成部分的其他骨架。模拟物主题核酸可以是核酸模拟物。当对多核苷酸应用术语“模拟物”时意图包括其中仅呋喃糖环或呋喃糖环和核苷酸间键被非呋喃糖基团替代的多核苷酸,仅呋喃糖环替代在本领域中又称为糖替代。杂环碱基部分或修饰的杂环碱基部分维持与适当的靶核酸的杂交。一种这样的核酸已显示出具有优良杂交特性的多核苷酸模拟物称为肽核酸PNA。在PNA中,多核苷酸的糖骨架被含酰胺的骨架替代,具体地被氨基乙基甘氨酸骨架替代。核苷酸被保留下来并且直接或间接结合骨架的酰胺部分的氮杂氮原子。已报道具有优良杂交特性的一种多核苷酸模拟物是肽核酸PNA。PNA化合物中的骨架是给予PNA含酰胺骨架的两个或更多个连接的氨基乙基甘氨酸单元。杂环碱基部分直接或间接结合骨架的酰胺部分的氮杂氮原子。描述PNA化合物制备的代表性美国专利包括但不限于:美国专利号5,539,082;5,714,331;和5,719,262,所述专利的公开内容以引用的方式整体并入本文。已研究的另一类多核苷酸模拟物基于具有附着到吗啉代环的杂环碱基的连接吗啉代单元吗啉代核酸。已报道许多连接基团连接吗啉代核酸中的吗啉代单体单元。已选择一类连接基团来得到非离子型低聚化合物。基于非离子型吗啉代的低聚化合物不太可能与细胞蛋白质有不期望的相互作用。基于吗啉代的多核苷酸是不太可能与细胞蛋白质形成不期望的相互作用的寡核苷酸的非离子型模拟物DwaineA.Braasch和DavidR.Corey,Biochemistry,2002,4114,4503-4510。基于吗啉代的多核苷酸公开于美国专利号5,034,506中,所述专利的公开内容以引用的方式整体并入本文。已制备了吗啉代类多核苷酸内的多种化合物,所述化合物具有连接单体亚单元的多种不同的连接基团。另一类多核苷酸模拟物称为环己烯基核酸CeNA。通常存在于DNARNA分子中的呋喃糖环被环己烯基环替代。已制备了CeNADMT保护的亚磷酰胺单体并且用于根据经典亚磷酰胺化学性质的低聚化合物合成。已制备并且研究了完全修饰的CeNA低聚化合物和具有用CeNA修饰的特异性位置的寡核苷酸参见Wang等人,J.Am.Chem.Soc.,2000,122,8595-8602,其公开内容以引用的方式整体并入本文。一般来讲,CeNA单体引入DNA链中增加了DNARNA杂交体的稳定性。CeNA寡腺苷酸与RNA和DNA互补序列形成具有与天然复合物相似的稳定性的复合物。通过NMR和圆二色性示出将CeNA结构引入天然核酸结构中的研究以继续进行简单的构象调整。另一种修饰包括锁定核酸LNA,其中2'-羟基连接到糖环的4'碳原子从而形成2'-C、4'-C-氧基亚甲基键,从而形成双环糖部分。所述键可以是亚甲基-CH2-,桥联2’氧原子和4’碳原子的基团,其中n为1或2Singh等人,Chem.Commun.,1998,4,455-456,其公开内容以引用的方式整体并入本文。LNA和LNA类似物显现出与互补DNA和RNA具有非常高的双链体热稳定性Tm=+3℃至+10℃、朝向3'-核酸外切降解的稳定性和良好的溶解特性。已经描述了含有LNA的有效且无毒的反义寡核苷酸例如Wahlestedt等人,Proc.Natl.Acad.Sci.U.S.A.,2000,97,5633-5638,其公开内容以引用的方式整体并入本文。已描述了LNA单体腺嘌呤、胞嘧啶、鸟嘌呤、5-甲基-胞嘧啶、胸腺嘧啶和尿嘧啶的合成和制备连同其低聚化以及核酸识别特性例如,Koshkin等人,Tetrahedron,1998,54,3607-3630,其公开内容以引用的方式整体并入本文。LNA及其制备也描述于WO9839352和WO9914226以及美国申请20120165514、20100216983、20090041809、20060117410、20040014959、20020094555和20020086998中,所述专利的公开内容以引用的方式整体并入本文。修饰的糖部分主题核酸还可包含一个或多个取代的糖部分。合适的多核苷酸包含选自以下的糖取代基团:OH;F;O-、S-或N-烷基;O-、S-或N-烯基;O-、S-或N-炔基;或O-烷基-O-烷基,其中烷基、烯基和炔基可以是取代或未取代的C1至C10烷基或C2至C10烯基和炔基。特别合适的是:OCH2nOmCH3、OCH2nOCH3、OCH2nNH2、OCH2nCH3、OCH2nONH2和OCH2nONCH2nCH32,其中n和m为1至约10。其他合适的多核苷酸包含选自以下的糖取代基团:C1至C10低级烷基、取代的低级烷基、烯基、炔基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH3、OCN、Cl、Br、CN、CF3、OCF3、SOCH3、SO2CH3、ONO2、NO2、N3、NH2、杂环烷基、杂环烷芳基、氨基烷氨基、聚烷氨基、取代的硅烷基、RNA切割基团、报告基团、嵌入剂、改进寡核苷酸的药物代谢动力学特性的基团、或改进寡核苷酸的药效动力学特性的基团,以及其他具有相似特性的取代基。合适的修饰包括2’-甲氧基乙氧基2'-O-CH2CH2OCH3,又称为2'-O-2-甲氧基乙基或2'-MOEMartin等人,Helv.Chim.Acta,1995,78,486-504,其公开内容以引用的方式整体并入本文,即烷氧基烷氧基基团。另外合适的修饰包括2’-二甲基氨基氧基乙氧基,即OCH22ONCH32基团,又称为2'-DMAOE,如在下文的实施例中所述;和2’-二甲基氨基乙氧基乙氧基在本领域中又称为2'-O-二甲基-氨基-乙氧基-乙基或2'-DMAEOE,即2'-O-CH2-O-CH2-NCH32。其他合适的糖取代基团包括甲氧基-O-CH3、氨基丙氧基--OCH2CH2CH2NH2、烯丙基-CH2-CH=CH2、-O-烯丙基--O--CH2—CH=CH2和氟F。2’-糖取代基团可处于阿拉伯糖上位或核糖下位。合适的2'-阿拉伯糖修饰是2'-F。还可在低聚化合物上的其他位置上做出相似的修饰,具体地在3'末端核苷上或在2'-5'连接的寡核苷酸中的糖的3'位置以及5'末端核苷酸的5'位置。低聚化合物还可具有替代呋喃戊糖的糖模拟物,诸如环丁基部分。碱基修饰和取代主题核酸还可包括核碱基在本领域中常常简称为“碱基”修饰或取代。如本文所用,“未修饰”或“天然”核碱基包括嘌呤碱基腺嘌呤A和鸟嘌呤G以及嘧啶碱基胸腺嘧啶T、胞嘧啶C和尿嘧啶U。修饰的核碱基包括其他合成和天然的核碱基,诸如5-甲基胞嘧啶5-me-C、5-羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和鸟嘌呤的6-甲基衍生物和其他烷基衍生物、腺嘌呤和鸟嘌呤的2-丙基衍生物和其他烷基衍生物、2-硫尿嘧啶、2-硫胸腺嘧啶和2-硫胞嘧啶、5-卤代尿嘧啶和胞嘧啶、5-丙炔基-C=C-CH3尿嘧啶和胞嘧啶以及嘧啶碱基的其他炔基衍生物、6-偶氮基尿嘧啶、胞嘧啶和胸腺嘧啶、5-尿嘧啶假尿嘧啶、4-硫尿嘧啶、8-卤代基、8-氨基、8-巯基、8-硫烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤、5-卤代基具体为5-溴代基、5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶、7-甲基鸟嘌呤和7-甲基腺嘌呤、2-F-腺嘌呤、2-氨基-腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-脱氮鸟嘌呤和7-脱氮腺嘌呤以及3-脱氮鸟嘌呤和3-脱氮腺嘌呤。另外的经修饰的核碱基包括三环嘧啶,诸如吩噁嗪胞苷1H-嘧啶并5,4-b1,4苯并噁嗪-23H-酮、吩噻嗪胞苷1H-嘧啶并5,4-b1,4苯并噻嗪-23H-酮、G-夹诸如取代的吩噁嗪胞苷例如9-2-氨基乙氧基-H-嘧啶并5,4-b1,4苯并噁嗪-23H-酮、咔唑胞苷2H-嘧啶并4,5-b吲哚-2-酮、吡啶并吲哚胞苷H-吡啶并3',2':4,5吡咯并2,3-d嘧啶-2-酮。杂环碱基部分还可包括其中嘌呤或嘧啶碱基被其他杂环替代的那些碱基,例如7-脱氮腺嘌呤、7-脱氮鸟苷、2-氨基吡啶和2-吡啶酮。另外的核碱基包括公开于美国专利号3,687,808中的那些、公开于TheConciseEncyclopediaOfPolymerScienceAndEngineering,第858-859页,Kroschwitz,J.I.编JohnWiley&Sons,1990中的那些、由Englisch等人,AngewandteChemie,InternationalEdition,1991,30,613公开的那些以及由Sanghvi,Y.S.,第15章,AntisenseResearchandApplications,第289-302页,Crooke,S.T.和Lebleu,B.编,CRCPress,1993公开的那些,其公开内容以引用的方式整体并入本文。这些核碱基中的某些可用于增加低聚化合物的结合亲和力。这些包括5-取代的嘧啶,6-氮杂嘧啶以及N-2、N-6和O-6取代的嘌呤,包括2-氨基丙基腺嘌呤、5-丙炔基尿嘧啶和5-丙炔基胞嘧啶。5-甲基胞嘧啶取代已显示出使核酸双链体稳定性增加0.6℃-1.2℃Sanghvi等人编,AntisenseResearchandApplications,CRCPress,BocaRaton,1993,第276-278页;其公开内容以引用的方式整体并入本文并且例如当与2'-O-甲氧基乙基糖修饰组合时是适合的碱基取代。缀合物主题核酸的另一种可能的修饰涉及将增强寡核苷酸的活性、细胞分布或细胞吸收的一个或多个部分或缀合物化学连接到多核苷酸。这些部分或缀合物可包括共价结合到诸如伯羟基或仲羟基的官能团的缀合物基团。缀合物基团包括但不限于嵌入剂、报道分子、多胺、聚酰胺、聚乙二醇、聚醚、增强低聚物的药效动力学特性的基团以及增强低聚物药物代谢动力学特性的基团。合适的缀合物基团包括但不限于胆固醇、脂质、磷脂、生物素、吩嗪、叶酸酯、菲啶、蒽醌、吖啶、荧光素、罗丹明、香豆素以及染料。增强药效动力学特性的基团包括改进吸收、增强对降解的抗性和或加强与靶核酸的序列特异性杂交的基团。增强药物代谢动力学特性的基团包括改进主题核酸的吸收、分布、代谢或排泄的基团。缀合物部分包括但不限于脂质部分,诸如胆固醇部分Letsinger等人,Proc.Natl.Acad.Sci.USA,1989,86,6553-6556,胆酸Manoharan等人,Bioorg.Med.Chem.Let.,1994,4,1053-1060,硫醚例如己基-S-三苯甲基硫醇Manoharan等人,Ann.N.Y.Acad.Sci.,1992,660,306-309;Manoharan等人,Bioorg.Med.Chem.Let.,1993,3,2765-2770,巯基胆固醇Oberhauser等人,Nucl.AcidsRes.,1992,20,533-538,脂族链例如十二烷二醇或十一烷基残基Saison-Behmoaras等人,EMBOJ.,1991,10,1111-1118;Kabanov等人,FEBSLett.,1990,259,327-330;Svinarchuk等人,Biochimie,1993,75,49-54,磷脂例如二-十六烷基-外消旋-甘油或三乙铵1,2-二-O-十六烷基-外消旋-甘油-3-H-磷酸酯Manoharan等人,TetrahedronLett.,1995,36,3651-3654;Shea等人,Nucl.AcidsRes.,1990,18,3777-3783,多胺或聚乙二醇链Manoharan等人,Nucleosides&Nucleotides,1995,14,969-973,或金刚烷乙酸Manoharan等人,TetrahedronLett.,1995,36,3651-3654,棕榈基部分Mishra等人,Biochim.Biophys.Acta,1995,1264,229-237,或十八烷基胺或己基氨基-羰基-羟基胆固醇部分Crooke等人,J.Pharmacol.Exp.Ther.,1996,277,923-937。缀合物可包括“蛋白转导结构域”或PTD又称为CPP–细胞穿透肽,其可指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。附接到另一个分子所述分子可在小极性分子至大的高分子和或纳米颗粒的范围内的PTD促进分子横穿膜,例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器例如,细胞核内。在一些实施方案中,PTD与外源多核苷酸的3’末端共价连接。在一些实施方案中,PTD与外源多核苷酸的5’末端共价连接。示例性PTD包括但不限于最小十一氨基酸多肽蛋白转导结构域对应于包含YGRKKRRQRRR;SEQIDNO:112的HIV-1TAT的残基47-57;包含足以引入细胞中的数量的精氨酸例如,3、4、5、6、7、8、9、10或10-50个精氨酸的聚精氨酸序列;VP22结构域Zender等人2002CancerGeneTher.96:489-96;果蝇触角足基因Antennapedia蛋白转导结构域Noguchi等人2003Diabetes527:1732-1737;截短的人类降钙素肽Trehin等人2004Pharm.Research21:1248-1256;聚赖氨酸Wender等人2000Proc.Natl.Acad.Sci.USA97:13003-13008;RRQRRTSKLMKRSEQIDNO:113;运输蛋白GWTLNSAGYLLGKINLKALAALAKKILSEQIDNO:114;KALAWEAKLAKALAKALAKHLAKALAKALKCEASEQIDNO:115;和RQIKIWFQNRRMKWKKSEQIDNO:116。示例性PTD包括但不限于YGRKKRRQRRRSEQIDNO:117、RKKRRQRRRSEQIDNO:118;具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物;示例性PTD结构域氨基酸序列包括但不限于以下序列的任一个:YGRKKRRQRRRSEQIDNO:119;RKKRRQRRSEQIDNO:120;YARAAARQARASEQIDNO:121;THRLPRRRRRRSEQIDNO:122;以及GGRRARRRRRRSEQIDNO:123。在一些实施方案中,PTD是可激活的CPPACPPAguilera等人2009IntegrBiolCamb6月;15-6:371-381。ACPP包括通过可切割接头连接至匹配聚阴离子例如,Glu9或“E9”的聚阳离子CPP例如,Arg9或“R9”,这使净电荷减小至接近零并且从而抑制粘附和吸收到细胞中。当接头切割时,释放聚阴离子,局部暴露聚精氨酸和其固有的粘附性,从而“激活”ACPP以横穿膜。将组分引入靶细胞中CasY指导RNA或包含编码CasY指导RNA的核苷酸序列的核酸和或本公开的CasY多肽或包含编码CasY多肽的核苷酸序列的核酸和或本公开的CasY融合多肽或者包含编码本公开的CasY融合多肽的核苷酸序列的核酸和或供体多核苷酸供体模板可通过多种熟知的方法引入宿主细胞中。可使用多种化合物和方法中的任一种将本公开的CasY系统递送到靶细胞例如,其中CasY系统包含:a本公开的CasY多肽和CasY指导RNA;b本公开的CasY多肽、CasY指导RNA和供体模板核酸;c本公开的CasY融合多肽和CasY指导RNA;d本公开的CasY融合多肽、CasY指导RNA和供体模板核酸;e编码本公开的CasY多肽的mRNA和CasY指导RNA;f编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸;g编码本公开的CasY融合多肽的mRNA和CasY指导RNA;h编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸;i重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;j重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;k重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;l重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;m包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;n包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;o包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;p包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;q重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者r重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者a到r中的一个的某一变型。作为非限制性实例,本公开的CasY系统可与脂质组合。作为另一个非限制性实例,本公开的CasY系统可与颗粒组合或配制成颗粒。将核酸引入到宿主细胞中的方法是本领域中已知的,并且可使用任何方便的方法来将主题核酸例如,表达构建体载体引入到靶细胞例如,原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、人细胞等中。适合的方法包括例如病毒感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺PEI介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送参见例如,Panyam等人AdvDrugDelivRev.2012年9月13日。pii:S0169-409X1200283-9.doi:10.1016j.addr.2012.09.023等。在一些情况下,本公开的CasY多肽作为编码CasY多肽的核酸例如,mRNA、DNA、质粒、表达载体、病毒载体等提供。在一些情况下,本公开的CasY多肽直接作为蛋白质例如,不与相关联的指导RNA一起或与相关联的指导RNA一起,即作为核糖核蛋白复合物提供。可通过任何方便的方法将本公开的CasY多肽引入细胞中提供至细胞;此类方法是本领域的普通技术人员已知的。作为说明性实例,可将本公开的CasY多肽直接注射到细胞中例如,与或不与CasY指导RNA或编码CasY指导RNA的核酸一起,并且与或不与供体多核苷酸一起。作为另一个实例,可将本公开的CasY多肽和CasY指导RNA的预先形成的复合物RNP引入细胞例如,真核细胞中例如,通过注射、通过核转染;通过缀合到一种或多种组分的蛋白转导结构域PTD,例如缀合到CasY蛋白、缀合到指导RNA、缀合到本公开的CasY多肽和指导RNA;等。在一些情况下,本公开的CasY融合多肽例如,与融合配偶体融合的dCasY、与融合配偶体融合的切口酶CasY等作为编码CasY融合多肽的核酸例如,mRNA、DNA、质粒、表达载体、病毒载体等提供。在一些情况下,本公开的CasY融合多肽直接作为蛋白质例如,不与相关联的指导RNA一起或与相关联的指导RNA一起,即作为核糖核蛋白复合物提供。可通过任何方便的方法将本公开的CasY融合多肽引入细胞中提供至细胞;此类方法是本领域的普通技术人员已知的。作为说明性实例,可将本公开的CasY融合多肽直接注射到细胞中例如,与或不与编码CasY指导RNA的核酸一起,并且与或不与供体多核苷酸一起。作为另一个实例,可将本公开的CasY融合多肽和CasY指导RNA的预先形成的复合物RNP引入细胞中例如,通过注射、通过核转染;通过缀合到一种或多种组分的蛋白转导结构域PTD,例如缀合到CasY融合蛋白、缀合到指导RNA、缀合到本公开的CasY融合多肽和指导RNA;等。在一些情况下,将核酸例如,CasY指导RNA;包含编码本公开的CasY多肽的核苷酸序列的核酸等递送到颗粒中的细胞例如,靶宿主细胞和或多肽例如,CasY多肽;CasY融合多肽,或与颗粒缔合。在一些情况下,本公开的CasY系统被递送到颗粒中的细胞,或与颗粒缔合。术语“颗粒”和“纳米颗粒”可适当地互换使用。包含编码本公开的CasY多肽的核苷酸序列和或CasY指导RNA的重组表达载体、包含编码本公开的CasY多肽的核苷酸序列的mRNA以及指导RNA可使用颗粒或脂质包膜同时递送;例如,CasY多肽和CasY指导RNA,例如作为复合物例如,核糖核蛋白RNP复合物可通过颗粒递送,例如通过包含脂质或类脂质以及亲水聚合物例如,阳离子脂质和亲水聚合物的递送颗粒递送,例如,其中阳离子脂质包括1,2-二油酰基-3-三甲基铵-丙烷DOTAP或1,2-二十四烷酰基-sn-甘油基-3-磷酸胆碱DMPC并且或者其中亲水性聚合物包含乙二醇或聚乙二醇PEG;并且或者其中颗粒还包含胆固醇例如,来自制剂1的颗粒=DOTAP100、DMPC0、PEG0、胆固醇0;制剂编号2=DOTAP90、DMPC0、PEG10、胆固醇0;制剂编号3=DOTAP90、DMPC0、PEG5、胆固醇5。例如,可使用多步骤方法形成颗粒,其中将CasY多肽和CasY指导RNA例如以1:1的摩尔比、例如在室温下、例如持续30分钟、例如在无菌无核酸酶的1x磷酸盐缓冲盐水PBS中混合在一起;并且适用于制剂的DOTAP、DMPC、PEG和胆固醇单独地溶于乙醇例如,100%乙醇,并且将两种溶液混合在一起以形成含有复合物的颗粒。本公开的CasY多肽或包含编码本公开的CasY多肽的核苷酸序列的mRNA;或包含编码本公开的CasY多肽的核苷酸序列的重组表达载体和或CasY指导RNA或核酸,诸如一种或多种编码CasY指导RNA的表达载体可使用颗粒或脂质包膜同时递送。例如,可使用具有由磷脂双层壳包封的聚β-氨基酯PBAE核的可生物降解的核壳结构的纳米颗粒。在一些情况下,使用基于自组装生物粘附聚合物的颗粒纳米颗粒;此类颗粒纳米颗粒可应用于肽的口服递送、肽的静脉内递送和肽的鼻内递送,例如递送到脑。还考虑了其他实施方案,诸如疏水药物的口服吸收和眼部递送。可使用分子包膜技术,其涉及受保护并递送至疾病部位的工程化聚合物包膜。可使用约5mgkg的剂量,使用单剂量或多剂量,这取决于各种因素,例如靶组织。类脂质化合物例如,如美国专利申请20110293703中所述也可用于多核苷酸的施用,并且可用于递送本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统例如,其中CasY系统包含:a本公开的CasY多肽和CasY指导RNA;b本公开的CasY多肽、CasY指导RNA和供体模板核酸;c本公开的CasY融合多肽和CasY指导RNA;d本公开的CasY融合多肽、CasY指导RNA和供体模板核酸;e编码本公开的CasY多肽的mRNA和CasY指导RNA;f编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸;g编码本公开的CasY融合多肽的mRNA和CasY指导RNA;h编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸;i重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;j重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;k重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;l重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;m包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;n包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;o包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;p包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;q重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者r重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者a到r中的一个的某一变型。在一方面,氨基醇类脂质化合物与待递送到细胞或受试者的药剂组合以形成微颗粒、纳米颗粒、脂质体或胶束。氨基醇类脂质化合物可以与其他氨基醇类脂质化合物、聚合物合成的或天然的、表面活性剂、胆固醇、碳水化合物、蛋白质、脂质等组合以形成颗粒。然后可任选地将这些颗粒与药物赋形剂组合以形成药物组合物。聚β-氨基醇PBAA可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。美国专利公开号20130302401涉及使用组合聚合制备的一类聚β-氨基醇PBAA。可使用基于糖的颗粒,例如,如参考WO2014118272以引用的方式并入本文和Nair,JK等人,2014,JournaloftheAmericanChemicalSociety13649,16958-16961所述的GalNAc,可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。在一些情况下,使用脂质纳米颗粒LNP将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。带负电的聚合物诸如RNA可在低pH值例如,pH4下装载到LNP中,其中可电离的脂质显示正电荷。然而,在生理pH值下,LNP表现出与较长的循环时间相容的低表面电荷。已经关注了四种可电离的阳离子脂质,即1,2-二亚油基-3-二甲基铵-丙烷DLinDAP、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷DLinDMA、1,2-二亚油基氧基-酮-N,N-二甲基-3-氨基丙烷DLinKDMA和1,2-二亚油基-4-2-二甲基氨基乙基-[1,3]-二氧戊环DLinKC2-DMA。LNP的制备描述于例如Rosin等人2011MolecularTherapy19:1286-2200中。可使用阳离子脂质1,2-二亚油基-3-二甲基铵-丙烷DLinDAP、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷DLinDMA、1,2-二亚油基氧基酮-N,N-二甲基-3-氨基丙烷DLinK-DMA、1,2-二亚油基-4-2-二甲基氨基乙基-[1,3]-二氧戊环DLinKC2-DMA、3-o-[2'’-甲氧基聚乙二醇2000琥珀酰基]-1,2-二肉豆蔻酰基-sn-乙二醇PEG-S-DMG和R-3-[.ω.-甲氧基-聚乙二醇2000氨基甲酰基]-1,2-二肉豆蔻酰氧基丙基-3-胺PEG-C-DOMG。核酸例如,CasY指导RNA;本公开的核酸等可包封在含有DLinDAP、DLinDMA、DLinK-DMA和DLinKC2-DMA阳离子脂质:DSPC:CHOL:PEGS-DMG或PEG-C-DOMG的摩尔比为40:10:40:10的LNP中。在一些情况下,并入0.2%SP-DiOC18。球形核酸SNATM构建体和其他纳米颗粒特别是金纳米颗粒可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞.。参见例如,Cutler等人,J.Am.Chem.Soc.2011133:9254-9257,Hao等人,Small.20117:3158-3162,Zhang等人,ACSNano.20115:6962-6970,Cutler等人,J.Am.Chem.Soc.2012134:1376-1391,Young等人,NanoLett.201212:3867-71,Zheng等人,Proc.Natl.Acad.Sci.USA.2012109:11975-80,Mirkin,Nanomedicine20127:635-638Zhang等人,J.Am.Chem.Soc.2012134:16488-1691,Weintraub,Nature2013495:S14-S16,Choi等人,Proc.Natl.Acad.Sci.USA.201311019:7625-7630,Jensen等人,Sci.Transl.Med.5,209ra1522013和Mirkin等人,Small,10:186-192。具有RNA的自组装纳米颗粒可用聚乙烯亚胺PEI构建,所述聚乙烯亚胺PEI用附接在聚乙二醇PEG远侧端部处的Arg-Gly-AspRGD肽配体PEG化。一般来讲,“纳米颗粒”是指具有小于1000nm的直径的任何颗粒。在一些情况下,适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有500nm或更小,例如,25nm至35nm、35nm至50nm、50nm至75nm、75nm至100nm、100nm至150nm、150nm至200nm、200nm至300nm、300nm至400nm或400nm至500nm的直径。在一些情况下,适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有25nm至200nm的直径。在一些情况下,适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有100nm或更小的直径。在一些情况下,适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒具有35nm至60nm的直径。适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞的纳米颗粒可以不同的形式提供,例如,作为固体纳米颗粒例如,金属诸如银、金、铁、钛、非金属、基于脂质的固体、聚合物、纳米颗粒的悬浮液或其组合提供。可制备金属、介电和半导体纳米颗粒,以及混合结构例如,核壳纳米颗粒。由半导体材料制成的纳米颗粒也可标记为量子点,如果它们足够小通常低于10nm,则发生电子能级的量子化。此类纳米级颗粒在生物医学应用中用作药物运载体或成像剂,并且可适用于本公开中的相似目的。半固体和软纳米颗粒也适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。具有半固体性质的原型纳米颗粒是脂质体。在一些情况下,使用外泌体将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。外泌体是内源性纳米囊泡,其运输RNA和蛋白质,并且可将RNA递送到脑和其他靶器官。在一些情况下,使用脂质体将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。脂质体是球形囊泡结构,其由围绕内部水性隔室的单层或多层脂质双层和相对不可渗透的外部亲脂性磷脂双层构成。脂质体可由若干种不同类型的脂质制成;然而,磷脂最常用于生成脂质体。尽管当脂质膜与水性溶液混合时,脂质体形成是自发的,但是也可通过使用匀化器、超声波破碎仪或挤出装置以摇动的形式施加力来加速脂质体的形成。可将若干种其他添加剂添加到脂质体中以便改变它们的结构和特性。例如,可将胆固醇或鞘磷脂添加到脂质体混合物中,以便帮助稳定脂质体结构并防止脂质体内部物质的泄漏。脂质体制剂可主要由以下组成:天然磷脂和脂质,诸如1,2-二硬脂酰基-sn-甘油基-3-磷脂酰胆碱DSPC、鞘磷脂、卵磷脂酰胆碱和单唾液酸神经节苷脂。稳定的核酸-脂质颗粒SNALP可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。SNALP制剂可含有2:40:10:48摩尔百分比的脂质3-N-[甲氧基聚乙二醇2000氨基甲酰基]-1,2-二肉豆蔻酰氧基-丙胺PEG-C-DMA、1,2-二亚油基氧基-N,N-二甲基-3-氨基丙烷DLinDMA、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱DSPC和胆固醇。可通过使用25:1的脂质siRNA比和4840102摩尔比的胆固醇D-Lin-DMADSPCPEG-C-DMA配制D-Lin-DMA和PEG-C-DMA以及二硬脂酰基磷脂酰胆碱DSPC、胆固醇和siRNA来制备SNALP脂质体。所得的SNALP脂质体的尺寸可以是约80-100nm。SNALP可包含合成胆固醇Sigma-Aldrich,StLouis,Mo.,USA、二棕榈酰磷脂酰胆碱AvantiPolarLipids,Alabaster,Ala.,USA、3-N-[w-甲氧基聚乙二醇2000氨基甲酰基]-1,2-二肉豆蔻酰氧基丙胺和阳离子1,2-二亚油基氧基-3-N,N二甲基氨基丙烷。SNALP可包含合成胆固醇Sigma-Aldrich、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱DSPC;AvantiPolarLipidsInc.、PEG-cDMA和1,2-二亚油氧基-3-N;N-二甲基氨基丙烷DLinDMA。其他阳离子脂质,诸如氨基脂质2,2-二亚油基-4-二甲基氨基乙基-[1,3]-二氧戊环DLin-KC2-DMA可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。可考虑具有以下脂质组成的预成形的囊泡:摩尔比分别为40104010的并且FVIIsiRNA总脂质比为大约0.05ww的氨基脂质、二硬脂酰磷脂酰胆碱DSPC、胆固醇和R-2,3-双十八烷氧基丙基-1-甲氧基聚乙二醇2000丙基氨基甲酸酯PEG-脂质。为了确保在70-90nm范围内的窄粒径分布和0.11.+-.0.04n=56的低多分散指数,可在添加指导RNA之前将颗粒通过80nm膜挤出最高达三次。可使用含有高效氨基脂质16的颗粒,其中四种脂质组分16、DSPC、胆固醇和PEG-脂质的摩尔比501038.51.5可进一步优化以增强体内活性。脂质可用本公开的CasY系统或其一种或多种组分或编码其的核酸配制以形成脂质纳米颗粒LNP。合适的脂质包括但不限于DLin-KC2-DMA4、C12-200和糖脂,二硬脂酰磷脂酰胆碱、胆固醇和PEG-DMG可用本公开的CasY系统或其组分使用自发的囊泡形成过程配制。组分摩尔比可以是约501038.51.5DLin-KC2-DMA或C12-200二硬脂酰磷脂酰胆碱胆固醇PEG-DMG。本公开的CasY系统或其组分可包封在PLGA微球中递送,所述微球诸如在美国公布申请20130252281和20130245107和20130244279中进一步描述的微球。超电荷蛋白可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。超电荷蛋白是一类工程化或天然存在的蛋白质,其具有异常高的正或负净理论电荷。超负电荷蛋白和超正电荷蛋白均表现出耐受热或化学诱导的聚集的能力。超正电荷蛋白也能够穿透哺乳动物细胞。使物质与这些蛋白质诸如质粒DNA、RNA或其他蛋白质缔合可实现这些大分子在体外和体内向哺乳动物细胞的功能性递送。细胞穿透肽CPP可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞。CPP通常具有以下氨基酸组成,其含有高相对丰度的带正电荷的氨基酸诸如赖氨酸或精氨酸,或者具有含有极性带电荷氨基酸和非极性疏水氨基酸的交替模式的序列。可植入装置可用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸例如,CasY指导RNA、编码CasY指导RNA的核酸、编码CasY多肽的核酸、供体模板等或本公开的CasY系统递送到靶细胞例如,体内靶细胞,其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等。适用于将本公开的CasY多肽、本公开的CasY融合多肽、本公开的RNP、本公开的核酸或本公开的CasY系统递送到靶细胞例如,体内靶细胞,其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等的可植入装置可包括容器例如,储库、基质等,其包含CasY多肽、CasY融合多肽、RNP或CasY系统或其组分,例如,本公开的核酸。合适的可植入装置可包括例如用作装置主体的聚合物基底诸如基质,并且在一些情况下包括另外的支架材料诸如金属或另外的聚合物,以及增强可见性和成像的材料。可植入递送装置可有利于在局部和长时间内提供释放,其中待递送的多肽和或核酸直接释放至靶位点,例如细胞外基质ECM、肿瘤周围的脉管系统、病变组织等。合适的可植入递送装置包括适用于递送到腔诸如腹腔和或其中药物递送系统未锚定或附接的任何其他类型的施用的装置,所述装置包括生物稳定的和或可降解的和或生物可吸收的聚合物基底,其可以例如任选地是基质。在一些情况下,合适的可植入药物递送装置包含可降解聚合物,其中主要释放机制是整体侵蚀。在一些情况下,合适的可植入药物递送装置包含不可降解或缓慢降解的聚合物,其中主要释放机制是扩散而不是整体侵蚀,使得外部部分起到膜的功能并且其内部部分用作药物储库,实际上,所述药物储库长时间内例如约一周至约几个月不会受到周围环境的影响。也可任选地使用具有不同释放机制的不同聚合物的组合。在总释放期的有效期内,浓度梯度可保持有效恒定,并且因此扩散速率是有效恒定的称为“零模式”扩散。术语“恒定”意指扩散速率维持高于治疗有效性的下阈值,但其仍然任选地以初始突发为特征和或可波动,例如增加和降低到某一程度。扩散速率可长时间这样维持,并且可认为扩散速率恒定到某一水平以优化治疗有效期,例如有效的沉默期。在一些情况下,可植入递送系统被设计成保护基于核苷酸的治疗剂免于降解,无论是化学性质还是由于受试者体内酶和其他因素的攻击的降解。可选择装置的植入位点或靶位点,用于获得最大的治疗功效。例如,递送装置可植入在肿瘤环境内或附近,或者与肿瘤相关联的血液供给内或附近。靶位置可以是,例如:1大脑退化位点,像在基底神经节、白质和灰质处的帕金森病或阿尔茨海默病中;2脊柱,如在肌萎缩侧索硬化症ALS的情况下;3子宫颈;4活动性和慢性炎症关节;5真皮,如在牛皮癣的情况下;7交感神经和感觉神经位点,用于镇痛作用;7骨;8急性或慢性感染位点;9阴道内;10内耳-听觉系统、内耳迷路、前庭系统;11气管内;12心内;冠状动脉、心外膜;13泌尿道或膀胱;14胆系统;15实质组织,包括但不限于肾、肝、脾;16淋巴结;17唾液腺;18牙龈;19关节内到关节中;20眼内;21脑组织;22脑室;23腔,包括腹腔例如但不限于卵巢癌;24食管内;和25直肠内;和26到脉管系统中。插入方法诸如植入可任选地已经用于其他类型的组织植入和或用于插入和或用于组织取样,任选地无需修改,或者可替代地仅在此类方法中任选地进行非主要修改。此类方法任选地包括但不限于短距离放射治疗方法、活组织检查、使用和或不使用超声的内窥镜检查诸如进入脑组织的立体定位方法、腹腔镜检查包括用腹腔镜植入关节、腹部器官、膀胱壁和体腔中。经修饰的宿主细胞本公开提供一种经修饰的细胞,其包含本公开的CasY多肽和或包含编码本公开的CasY多肽的核苷酸序列的核酸。本公开提供一种经修饰的细胞,其包含本公开的CasY多肽,其中所述经修饰的细胞是通常不包含本公开的CasY多肽的细胞。本公开提供一种经修饰的细胞例如,经遗传修饰的细胞,其包含核酸,所述核酸包含编码本公开的CasY多肽的核苷酸序列。本公开提供一种用mRNA遗传修饰的经遗传修饰细胞,所述mRNA包含编码本公开的CasY多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的经遗传修饰细胞,所述重组表达载体包含编码本公开的CasY多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的经遗传修饰细胞,所述重组表达载体包含:a编码本公开的CasY多肽的核苷酸序列;和b编码本公开的CasY指导RNA的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的经遗传修饰细胞,所述重组表达载体包含:a编码本公开的CasY多肽的核苷酸序列;b编码本公开的CasY指导RNA的核苷酸序列;和c编码供体模板的核苷酸序列。用作本公开的CasY多肽和或包含编码本公开的CasY多肽和或本公开的CasY指导RNA的核苷酸序列的核酸的受体的细胞可以是多种细胞中的任一种,其包括例如体外细胞;体内细胞;离体细胞;原代细胞;癌细胞;动物细胞;植物细胞;藻类细胞;真菌细胞等。用作本公开的CasY多肽和或包含编码本公开的CasY多肽和或本公开的CasY指导RNA的核苷酸序列的核酸的受体的细胞被称为“宿主细胞”或“靶细胞”。宿主细胞或靶细胞可以是本公开的CasY系统的受体。宿主细胞或靶细胞可以是本公开的CasYRNP的受体。宿主细胞或靶细胞可以是本公开的CasY系统的单一组分的受体。细胞靶细胞的非限制性实例包括:原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米corn、玉米maize、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞、藻类细胞例如,布朗葡萄藻Botryococcusbraunii、莱茵衣藻Chlamydomonasreinhardtii、海洋富油微拟球藻Nannochloropsisgaditana、蛋白核小球藻Chlorellapyrenoidosa、展枝马尾藻Sargassumpatens、C.agardh等、海藻例如巨藻kelp、真菌细胞例如,酵母细胞,来自蘑菇的细胞、动物细胞、来自无脊椎动物例如,果蝇、刺胞动物、棘皮动物、线虫等的细胞、来自脊椎动物例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物的细胞、来自哺乳动物例如,有蹄类动物例如,猪、牛、山羊、绵羊;啮齿动物例如,大鼠、小鼠;非人灵长类动物;人类;猫科动物例如,猫;犬例如,狗等的细胞等。在一些情况下,细胞是不来源于天然生物体的细胞例如,细胞可以是合成的细胞;也称为人造细胞。细胞可以是体外细胞例如,建立的培养细胞系。细胞可以是离体细胞来自个体的培养细胞。细胞可以是体内细胞例如,个体中的细胞。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物例如,体外细胞培养物中的细胞。细胞可以是细胞集合中的一种。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。合适的细胞包括干细胞例如胚胎干ES细胞、诱导多能干iPS细胞;生殖细胞例如,卵母细胞、精子、卵原细胞、精原细胞等;体细胞,例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。在一些情况下,细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下,免疫细胞是T细胞、B细胞、单核细胞、天然杀伤细胞、树突细胞或巨噬细胞。在一些情况下,免疫细胞是细胞毒性T细胞。在一些情况下,免疫细胞是辅助性T细胞。在一些情况下,免疫细胞是调节T细胞Treg。在一些情况下,细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。成体干细胞驻留在分化组织中,但保留自我更新的特性和产生多种细胞类型的能力,通常是干细胞所存在于的组织中的典型细胞类型。许多体细胞干细胞的实例是本领域的技术人员已知的,包括肌肉干细胞;造血干细胞;上皮干细胞;神经干细胞;间充质干细胞;乳腺干细胞;肠干细胞;中胚层干细胞;内皮干细胞;嗅干细胞;神经嵴干细胞等。感兴趣的干细胞包括哺乳动物干细胞,其中术语“哺乳动物”是指被分类为哺乳动物的任何动物,包括人类;非人灵长类动物;家畜和农场动物;以及动物园、实验室、运动或宠物动物,诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下,干细胞是人干细胞。在一些情况下,干细胞是啮齿动物例如,小鼠;大鼠干细胞。在一些情况下,干细胞是非人灵长类动物干细胞。干细胞可表达一种或多种干细胞标记,例如SOX9、KRT19、KRT7、LGR5、CA9、FXYD2、CDH6、CLDN18、TSPAN8、BPIFB1、OLFM4、CDH17和PPARGC1A。在一些实施方案中,干细胞是造血干细胞HSC。HSC是中胚层衍生的细胞,其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。HSC的特征在于CD34+和CD3-。HSC可在体内重新生成红细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外,可诱导HSC经历至少一些自我更新的细胞分裂,并且可诱导HSC分化成与体内所见相同的谱系。因此,可诱导HSC分化成红细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。在其他实施方案中,干细胞是神经干细胞NSC。神经干细胞NSC能够分化成神经元和神经胶质细胞包括少突胶质细胞和星形胶质细胞。神经干细胞是能够进行多次分裂的多能干细胞,并且在特定条件下可产生作为神经干细胞的子细胞,或者可以是成神经细胞或成胶质细胞的神经祖细胞,例如,分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得NSC的方法是本领域中已知的。在其他实施方案中,干细胞是间充质干细胞MSC。MSC最初衍生自胚胎中胚层并从成人骨髓中分离,可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离MSC的方法是本领域中已知的;并且可使用任何已知的方法来获得MSC。参见例如,美国专利号5,736,396,其描述了人类MSC的分离。在一些情况下,细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。在一些情况下,细胞是植物细胞。例如,细胞可以是主要农业植物的细胞,例如大麦、豆类干食用、油菜、玉米、棉花皮玛棉、棉花陆地棉、亚麻籽、干草苜蓿、干草非苜蓿、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵油、向日葵非油、甘薯、烟草白肋烟、烟草烤烟、番茄、小麦硬质小麦、小麦春小麦、小麦冬小麦等。作为另一个实例,细胞是蔬菜作物的细胞,所述蔬菜作物包括但不限于例如,苜蓿芽、芦荟叶、葛根arrowroot、慈菇arrowhead、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝芜菁、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶仙人掌果、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟crosne、大白菜、中国芹菜、中国韭菜、菜心、菊花叶茼蒿tungho、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜daikon、蒲公英嫩叶、芋头dasheen、daumue豌豆尖、donqua冬瓜、茄子、菊苣endive、莴苣、琴头蕨、田地水芹、苦苣、盖菜芥菜、gailon、良姜暹罗、泰国姜、大蒜、姜根、牛蒡gobo、嫩叶、汉诺威沙拉用绿叶hanoversaladgreen、huauzontle、洋姜jerusalemartichoke、豆薯、羽衣甘蓝kale嫩叶、大头菜kohlrabi、羊腿藜quilete、生菜贝比生菜bibb、生菜波士顿生菜boston、生菜波士顿红生菜bostonred、生菜绿叶、生菜冰山生菜iceberg、生菜红毛菜lollarossa、生菜绿橡树叶、生菜红橡树叶、生菜加工生菜、生菜红叶、生菜罗马生菜romaine、生菜红罗马生菜rubyromaine、生菜俄罗斯红芥末、linkok、白萝卜lobok、长豆、莲藕、野苣mache、龙舌兰龙舌兰agave叶、黄肉芋malanga、混和生菜mesculinmix、京水菜mizuna、moap光滑丝瓜、moo、moqua有绒毛的南瓜、蘑菇、芥末、山药nagaimo、秋葵、通菜、洋葱嫩叶、opo长南瓜、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒铃铛型、辣椒、南瓜pumpkin、菊苣radicchio、萝卜芽、萝卜radish、青芸苔、青芸苔、大黄、罗马生菜babyred、芜菁甘蓝rutabaga、盐角草海豆、丝瓜角形脊状丝瓜、菠菜、南瓜squash、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿taro、芋艿叶、芋艿芽、塌棵菜、tepeguaje葫芦guaje、红瓜tindora、粘果酸浆tomatillo、番茄、番茄樱桃型、番茄葡萄型、番茄李子型、姜黄、芜菁茎嫩叶、芜菁turnip、荸荠、薯蓣yampi、山药名称、油菜yuchoy、木薯yuca木薯等。在一些情况下,细胞是节肢动物细胞。例如,细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞:例如,有螯肢亚门Chelicerata、多足亚门Myriapodia、Hexipodia、蛛形纲Arachnida、昆虫纲Insecta、石蛃目Archaeognatha、缨尾目Thysanura、古翅下纲Palaeoptera、蜉蝣目Ephemeroptera、蜻蜓目Odonata、差翅亚目Anisoptera、束翅亚目Zygoptera、新翅亚纲Neoptera、外翅总目Exopterygota、襀翅目Plecoptera、纺足目Embioptera、直翅目Orthoptera、缺翅目Zoraptera、革翅目Dermaptera、网翅目Dictyoptera、蛩蠊目Notoptera、蛩蠊科Grylloblattidae、螳科Mantophasmatidae、竹节虫目Phasmatodea、蜚蠊目Blattaria、等翅目Isoptera、螳螂目Mantodea、Parapneuroptera、啮虫目Psocoptera、缨翅目Thysanoptera、虱毛目Phthiraptera、半翅目Hemiptera、内翅类Endopterygota或全变态类Holometabola、膜翅目Hymenoptera、鞘翅目Coleoptera、捻翅目Strepsiptera、蛇蛉目Raphidioptera、广翅目Megaloptera、脉翅目Neuroptera、长翅目Mecoptera、蚤目Siphonaptera、双翅目Diptera、毛翅目Trichoptera或鳞翅目Lepidoptera。在一些情况下,细胞是昆虫细胞。例如,在一些情况下,细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。试剂盒本公开提供一种试剂盒,其包含本公开的CasY系统或本公开的CasY系统的组分。本公开的试剂盒可包含:a本公开的CasY多肽和CasY指导RNA;b本公开的CasY多肽、CasY指导RNA和供体模板核酸;c本公开的CasY融合多肽和CasY指导RNA;d本公开的CasY融合多肽、CasY指导RNA和供体模板核酸;e编码本公开的CasY多肽的mRNA和CasY指导RNA;f编码本公开的CasY多肽的mRNA、CasY指导RNA和供体模板核酸;g编码本公开的CasY融合多肽的mRNA和CasY指导RNA;h编码本公开的CasY融合多肽的mRNA、CasY指导RNA和供体模板核酸;i重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;j重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;k重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列和编码CasY指导RNA的核苷酸序列;l重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码CasY指导RNA的核苷酸序列和编码供体模板核酸的核苷酸序列;m包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;n包含编码本公开的CasY多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;o包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体;p包含编码本公开的CasY融合多肽的核苷酸序列的第一重组表达载体和包含编码CasY指导RNA的核苷酸序列的第二重组表达载体,以及供体模板核酸;q重组表达载体,其包含编码本公开的CasY多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者r重组表达载体,其包含编码本公开的CasY融合多肽的核苷酸序列、编码第一CasY指导RNA的核苷酸序列和编码第二CasY指导RNA的核苷酸序列;或者a到r中的一个的某一变型。本公开的试剂盒可包含:a如上所述的本公开的CasY系统的组分,或者可包含本公开的CasY系统;和b一种或多种另外的试剂,例如,i缓冲液;ii蛋白酶抑制剂;iii核酸酶抑制剂;iv开发或可视化可检测标签所需的试剂;v阳性和或阴性对照靶DNA;vi阳性和或阴性对照CasY指导RNA等。本公开的试剂盒可包含:a如上所述的本公开的CasY系统的组分,或者可包含本公开的CasY系统;和b治疗剂。本公开的试剂盒可包含重组表达载体,其包含:a用于插入核酸的插入位点,所述核酸包含编码CasY指导RNA的一部分的核苷酸序列,所述CasY指导RNA的一部分与靶核酸中的靶核苷酸序列杂交;和b编码CasY指导RNA的CasY结合部分的核苷酸序列。本公开的试剂盒可包含重组表达载体,其包含:a用于插入核酸的插入位点,所述核酸包含编码CasY指导RNA的一部分的核苷酸序列,所述CasY指导RNA的一部分与靶核酸中的靶核苷酸序列杂交;b编码CasY指导RNA的CasY结合部分的核苷酸序列;和c编码本公开的CasY多肽的核苷酸序列。实用性本公开的CasY多肽或本公开的CasY融合多肽可用于多种方法例如,与CasY指导RNA组合,并且在一些情况下还与供体模板组合。例如,本公开的CasY多肽可用于i修饰例如切割,例如切口;甲基化等靶核酸DNA或RNA;单链或双链;ii调节靶核酸的转录;iii标记靶核酸;iv结合靶核酸例如,用于分离、标记、成像、追踪等的目的;v修饰与靶核酸相关联的多肽例如,组蛋白等。因此,本公开提供一种修饰靶核酸的方法。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触:a本公开的CasY多肽;和b一种或多种例如,两种CasY指导RNA。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触:a本公开的CasY多肽;bCasY指导RNA;和c供体核酸例如,供体模板。在一些情况下,接触步骤在体外细胞中进行。在一些情况下,接触步骤在体内细胞中进行。在一些情况下,接触步骤在离体细胞中进行。因为使用CasY多肽的方法包括将CasY多肽与靶核酸中的特定区域结合通过相关联的CasY指导RNA靶向靶核酸中的特定区域,所述方法在本文中通常称为结合方法例如,结合靶核酸的方法。然而,应理解在一些情况下,虽然结合方法可能无非是导致靶核酸的结合,但在其他情况下,所述方法可具有不同的最终结果例如,所述方法可导致靶核酸的修饰例如切割甲基化等,靶核酸转录的调节;靶核酸翻译的调节;基因组编辑;与靶核酸相关联的蛋白质的调节;靶核酸的分离等。对于合适的方法的实例,参见例如,Jinek等人,Science.2012年8月17日;3376096:816-21;Chylinski等人,RNABiol.2013年5月;105:726-37;Ma等人,BiomedResInt.2013;2013:270805;Hou等人,ProcNatlAcadSciUSA.2013年9月24日;11039:15644-9;Jinek等人,Elife.2013;2:e00471;Pattanayak等人,NatBiotechnol.2013年9月;319:839-43;Qi等人,Cell.2013年2月28日;1525:1173-83;Wang等人,Cell.2013年5月9日;1534:910-8;Auer等人,GenomeRes.2013年10月31日;Chen等人,NucleicAcidsRes.2013年11月1日;4120:e19;Cheng等人,CellRes.2013年10月;2310:1163-71;Cho等人,Genetics.2013年11月;1953:1177-80;DiCarlo等人,NucleicAcidsRes.2013年4月;417:4336-43;Dickinson等人,NatMethods.2013年10月;1010:1028-34;Ebina等人,SciRep.2013;3:2510;Fujii等人,NucleicAcidsRes.2013年11月1日;4120:e187;Hu等人,CellRes.2013年11月;2311:1322-5;Jiang等人,NucleicAcidsRes.2013年11月1日;4120:e188;Larson等人,NatProtoc.2013年11月;811:2180-96;Mali等人,NatMethods.2013年10月;1010:957-63;Nakayama等人,Genesis.2013年12月;5112:835-43;Ran等人,NatProtoc.2013年11月;811:2281-308;Ran等人,Cell.2013年9月12日;1546:1380-9;Upadhyay等人,G3Bethesda.2013年12月9日;312:2233-8;Walsh等人,ProcNatlAcadSciUSA.2013年9月24日;11039:15514-5;Xie等人,MolPlant.2013年10月9日;Yang等人,Cell.2013年9月12日;1546:1370-9;以及美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述专利各自均特此以引用的方式整体并入。例如,本公开提供但不限于切割靶核酸的方法;编辑靶核酸的方法;调节靶核酸转录的方法;分离靶核酸的方法、结合靶核酸的方法、对靶核酸成像的方法、修饰靶核酸的方法等。如本文所用,术语短语“使靶核酸,例如,与CasY多肽或与CasY融合多肽等接触”,涵盖用于接触靶核酸的所有方法。例如,可将CasY多肽作为蛋白质、RNA编码CasY多肽或DNA编码CasY多肽提供给细胞;而CasY指导RNA可作为指导RNA或编码指导RNA的核酸提供。因此,当例如在细胞中例如,在体外细胞内部、在体内细胞内部、在离体细胞内部执行方法时,包括接触靶核酸的方法涵盖将处于其活性最终状态例如,呈CasY多肽的一种或多种蛋白质形式;呈CasY融合多肽的蛋白质形式;在一些情况下呈指导RNA的RNA形式的任何或所有组分引入细胞中,并且还涵盖将编码一种或多种组分的一种或多种核酸例如,一种或多种包含编码CasY多肽或CasY融合多肽的一种或多种核苷酸序列的核酸、一种或多种包含编码一种或多种指导RNA的一种或多种核苷酸序列的核酸、包含编码供体模板的核苷酸序列的核酸等引入细胞中。因为所述方法也可在体外细胞外部执行,所以包括接触靶核酸的方法除非另外指明涵盖在体外细胞外部、体外细胞内部、体内细胞内部、离体细胞内部接触等。在一些情况下,本公开的用于修饰靶核酸的方法包括将CasY基因座例如,包含编码CasY多肽的核苷酸序列以及包围编码CasY的核苷酸序列的长度为约1千碱基kb至5kb的核苷酸序列的核酸从包含CasY基因座的细胞例如,在一些情况下,在其天然状态它在自然界中出现的状态下包含CasY基因座的细胞引入靶细胞中,其中所述靶细胞通常在其天然状态下不包含CasY基因座。然而,可修饰编码针对所编码的一个或多个crRNA的指导序列的一个或多个间隔序列,使得靶向感兴趣的一个或多个靶序列。因此,例如,在一些情况下,本公开的用于修饰靶核酸的方法包括将CasY基因座例如,从源细胞例如,在一些情况下,在其天然状态它在自然界中出现的状态下包含CasY基因座的细胞获得的核酸引入靶细胞中,其中所述核酸具有长度为100个核苷酸nt至5kb例如,长度为100nt至500nt、500nt至1kb、1kb至1.5kb、1.5kb至2kb、2kb至2.5kb、2.5kb至3kb、3kb至3.5kb、3.5kb至4kb或4kb至5kb的长度并且包含编码CasY多肽的核苷酸序列。如上所述,在一些此类情况下,可修饰编码针对所编码的一个或多个crRNA的指导序列的一个或多个间隔序列,使得靶向感兴趣的一个或多个靶序列。在一些情况下,所述方法包括将以下物质引入靶细胞中:iCasY基因座;和ii供体DNA模板。在一些情况下,靶核酸在体外在无细胞组合物中。在一些情况下,靶核酸存在于靶细胞中。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是原核细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是真核细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是哺乳动物细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是植物细胞。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的CasY多肽或本公开的CasY融合多肽接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与CasY多肽和CasY指导RNA接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与CasY多肽、第一CasY指导RNA和第二CasY指导RNA接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的CasY多肽和CasY指导RNA和供体DNA模板接触。感兴趣的靶核酸和靶细胞当与CasY指导RNA结合时,本公开的CasY多肽或本公开的CasY融合多肽可结合靶核酸,并且在一些情况下,可结合并修饰靶核酸。靶核酸可以是任何核酸例如,DNA、RNA,可以是双链或单链的,可以是任何类型的核酸例如,染色体基因组DNA、衍生自染色体、染色体DNA、质粒、病毒、细胞外、细胞内、线粒体、叶绿体、线性、环状等并且可来自任何生物体例如,只要CasY指导RNA包含与靶核酸中的靶序列杂交的核苷酸序列,使得靶核酸可被靶向即可。靶核酸可以是DNA或RNA。靶核酸可以是双链的例如,dsDNA、dsRNA或单链的例如,ssRNA、ssDNA。在一些情况下,靶核酸是单链的。在一些情况下,靶核酸是单链RNAssRNA。在一些情况下,靶ssRNA例如,靶细胞ssRNA、病毒ssRNA等选自:mRNA、rRNA、tRNA、非编码RNAncRNA、长非编码RNAlncRNA和微小RNAmiRNA。在一些情况下,靶核酸是单链DNAssDNA例如,病毒DNA。如上所指出,在一些情况下,靶核酸是单链的。靶核酸可位于任何地方,例如,体外细胞外部、体外细胞内部、体内细胞内部、离体细胞内部。合适的靶细胞其可包含靶核酸,诸如基因组DNA包括但不限于:细菌细胞;古细菌细胞;单细胞真核生物体的细胞;植物细胞;藻类细胞,例如,布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、C.agardh等;真菌细胞例如,酵母细胞;动物细胞;来自无脊椎动物例如,果蝇、刺胞动物、棘皮动物、线虫等的细胞;昆虫例如,蚊子;蜜蜂;农业害虫等的细胞;蛛形纲动物例如,蜘蛛;蜱等的细胞;来自脊椎动物例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物的细胞;来自哺乳动物的细胞例如,来自啮齿动物的细胞;来自人类的细胞;非人哺乳动物的细胞;啮齿动物例如,小鼠、大鼠的细胞;兔形目动物例如,兔的细胞;有蹄类动物例如,牛、马、骆驼、美洲驼、骆马绵羊、山羊等的细胞;海洋哺乳动物例如,鲸鱼、海豹、象海豹、海豚、海狮等的细胞等。任何类型的细胞都可以是感兴趣的例如干细胞、例如胚胎干ES细胞、诱导多能干iPS细胞、生殖细胞例如,卵母细胞、精子、卵原细胞、精原细胞等、成体干细胞、体细胞例如,成纤维细胞、造血细胞、神经元、肌肉细胞、骨细胞、肝细胞、胰腺细胞;在任何阶段下胚胎的体外或体内胚胎细胞例如,1个细胞、2个细胞、4个细胞、8个细胞等阶段斑马鱼胚胎等。细胞可来自已建立的细胞系或它们可以是原代细胞,其中“原代细胞”、“原代细胞系”和“原代培养物”在本文中可互换使用,是指衍生自受试者并且允许培养物在体外生长有限次数的传代即,分裂的细胞和细胞培养物。例如,原代培养物是可传代0次、1次、2次、4次、5次、10次或15次但不足以通过转折期的次数的培养物。通常,原代细胞系在体外维持少于10代。靶细胞可以是单细胞生物体并且或者可在培养物中生长。如果细胞为原代细胞,它们可通过任何方便方法从个体收获。例如,白细胞可通过血浆分离置换法、白细胞血浆分离置换法、密度梯度分离等方便地收获,而来自组织诸如皮肤、肌肉、骨髓、脾脏、肝脏、胰腺、肺、肠、胃等的细胞可通过活组织检查方便地收获。在上述申请的一些中,主题方法可用于在体内和或离体和或体外的有丝分裂细胞或有丝分裂后细胞中诱导靶核酸切割、靶核酸修饰和或结合靶核酸例如,用于可视化,用于采集和或分析等例如,以破坏由靶向mRNA编码的蛋白质的产生,以切割或以其他方式修饰靶DNA,以遗传修饰靶细胞等。因为指导RNA通过与靶核酸杂交来提供特异性,所以所公开的方法中感兴趣的有丝分裂细胞和或有丝分裂后细胞可包括来自任何生物体的细胞例如,细菌细胞;古细菌细胞;单细胞真核生物体的细胞;植物细胞;藻类细胞,例如布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、C.agardh等;真菌细胞例如,酵母细胞;动物细胞;来自无脊椎动物例如,果蝇、刺胞动物、棘皮动物、线虫等的细胞;来自脊椎动物例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物的细胞;来自哺乳动物的细胞;来自啮齿动物的细胞;来自人类的细胞等。在一些情况下,可将主题CasY蛋白和或编码蛋白质的核酸,诸如DNA和或RNA和或CasY指导RNA和或编码指导RNA的DNA和或供体模板和或RNP引入个体即,靶细胞可在体内例如,哺乳动物、大鼠、小鼠、猪、灵长类动物、非人灵长类动物、人类中。在一些情况下,这种施用可例如通过编辑靶向细胞的基因组用于治疗和或预防疾病的目的。植物细胞包括单子叶植物细胞和双子叶植物细胞。细胞可以是根细胞、叶细胞、木质部细胞、韧皮部细胞、形成层细胞、顶端分生组织细胞、实质细胞、厚角组织细胞、厚壁组织细胞等。植物细胞包括农作物的细胞,诸如小麦、玉米、大米、高粱、小米、大豆等的细胞。植物细胞包括农业水果和坚果植物的细胞,例如产生杏、橙子、柠檬、苹果、李子、梨、杏仁等的植物的细胞。靶细胞的其他实例在上文标题为“修饰的细胞”的部分中列出。细胞靶细胞的非限制性实例包括:原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米corn、玉米maize、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞、藻类细胞例如,布朗葡萄藻Botryococcusbraunii、莱茵衣藻Chlamydomonasreinhardtii、海洋富油微拟球藻Nannochloropsisgaditana、蛋白核小球藻Chlorellapyrenoidosa、展枝马尾藻Sargassumpatens、C.agardh等、海藻例如巨藻kelp、真菌细胞例如,酵母细胞,来自蘑菇的细胞、动物细胞、来自无脊椎动物例如,果蝇、刺胞动物、棘皮动物、线虫等的细胞、来自脊椎动物例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物的细胞、来自哺乳动物例如,有蹄类动物例如,猪、牛、山羊、绵羊;啮齿动物例如,大鼠、小鼠;非人灵长类动物;人类;猫科动物例如,猫;犬例如,狗等的细胞等。在一些情况下,细胞是不来源于天然生物体的细胞例如,细胞可以是合成的细胞;也称为人造细胞。细胞可以是体外细胞例如,建立的培养细胞系。细胞可以是离体细胞来自个体的培养细胞。细胞可以是体内细胞例如,个体中的细胞。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物例如,体外细胞培养物中的细胞。细胞可以是细胞集合中的一种。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。合适的细胞包括干细胞例如胚胎干ES细胞、诱导多能干iPS细胞;生殖细胞例如,卵母细胞、精子、卵原细胞、精原细胞等;体细胞,例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。在一些情况下,细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下,免疫细胞是T细胞、B细胞、单核细胞、天然杀伤细胞、树突细胞或巨噬细胞。在一些情况下,免疫细胞是细胞毒性T细胞。在一些情况下,免疫细胞是辅助性T细胞。在一些情况下,免疫细胞是调节T细胞Treg。在一些情况下,细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。成体干细胞驻留在分化组织中,但保留自我更新的特性和产生多种细胞类型的能力,通常是干细胞所存在于的组织中的典型细胞类型。许多体细胞干细胞的实例是本领域的技术人员已知的,包括肌肉干细胞;造血干细胞;上皮干细胞;神经干细胞;间充质干细胞;乳腺干细胞;肠干细胞;中胚层干细胞;内皮干细胞;嗅干细胞;神经嵴干细胞等。感兴趣的干细胞包括哺乳动物干细胞,其中术语“哺乳动物”是指被分类为哺乳动物的任何动物,包括人类;非人灵长类动物;家畜和农场动物;以及动物园、实验室、运动或宠物动物,诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下,干细胞是人干细胞。在一些情况下,干细胞是啮齿动物例如,小鼠;大鼠干细胞。在一些情况下,干细胞是非人灵长类动物干细胞。干细胞可表达一种或多种干细胞标记,例如SOX9、KRT19、KRT7、LGR5、CA9、FXYD2、CDH6、CLDN18、TSPAN8、BPIFB1、OLFM4、CDH17和PPARGC1A。在一些实施方案中,干细胞是造血干细胞HSC。HSC是中胚层衍生的细胞,其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。HSC的特征在于CD34+和CD3-。HSC可在体内重新生成红细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外,可诱导HSC经历至少一些自我更新的细胞分裂,并且可诱导HSC分化成与体内所见相同的谱系。因此,可诱导HSC分化成红细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。在其他实施方案中,干细胞是神经干细胞NSC。神经干细胞NSC能够分化成神经元和神经胶质细胞包括少突胶质细胞和星形胶质细胞。神经干细胞是能够进行多次分裂的多能干细胞,并且在特定条件下可产生作为神经干细胞的子细胞,或者可以是成神经细胞或成胶质细胞的神经祖细胞,例如,分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得NSC的方法是本领域中已知的。在其他实施方案中,干细胞是间充质干细胞MSC。MSC最初衍生自胚胎中胚层并从成人骨髓中分离,可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离MSC的方法是本领域中已知的;并且可使用任何已知的方法来获得MSC。参见例如,美国专利号5,736,396,其描述了人类MSC的分离。在一些情况下,细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。在一些情况下,细胞是植物细胞。例如,细胞可以是主要农业植物的细胞,例如大麦、豆类干食用、油菜、玉米、棉花皮玛棉、棉花陆地棉、亚麻籽、干草苜蓿、干草非苜蓿、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵油、向日葵非油、甘薯、烟草白肋烟、烟草烤烟、番茄、小麦硬质小麦、小麦春小麦、小麦冬小麦等。作为另一个实例,细胞是蔬菜作物的细胞,所述蔬菜作物包括但不限于例如,苜蓿芽、芦荟叶、葛根arrowroot、慈菇arrowhead、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝芜菁、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶仙人掌果、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟crosne、大白菜、中国芹菜、中国韭菜、菜心、菊花叶茼蒿tungho、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜daikon、蒲公英嫩叶、芋头dasheen、daumue豌豆尖、donqua冬瓜、茄子、菊苣endive、莴苣、琴头蕨、田地水芹、苦苣、盖菜芥菜、gailon、良姜暹罗、泰国姜、大蒜、姜根、牛蒡gobo、嫩叶、汉诺威沙拉用绿叶hanoversaladgreen、huauzontle、洋姜jerusalemartichoke、豆薯、羽衣甘蓝kale嫩叶、大头菜kohlrabi、羊腿藜quilete、生菜贝比生菜bibb、生菜波士顿生菜boston、生菜波士顿红生菜bostonred、生菜绿叶、生菜冰山生菜iceberg、生菜红毛菜lollarossa、生菜绿橡树叶、生菜红橡树叶、生菜加工生菜、生菜红叶、生菜罗马生菜romaine、生菜红罗马生菜rubyromaine、生菜俄罗斯红芥末、linkok、白萝卜lobok、长豆、莲藕、野苣mache、龙舌兰龙舌兰agave叶、黄肉芋malanga、混和生菜mesculinmix、京水菜mizuna、moap光滑丝瓜、moo、moqua有绒毛的南瓜、蘑菇、芥末、山药nagaimo、秋葵、通菜、洋葱嫩叶、opo长南瓜、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒铃铛型、辣椒、南瓜pumpkin、菊苣radicchio、萝卜芽、萝卜radish、青芸苔、青芸苔、大黄、罗马生菜babyred、芜菁甘蓝rutabaga、盐角草海豆、丝瓜角形脊状丝瓜、菠菜、南瓜squash、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿taro、芋艿叶、芋艿芽、塌棵菜、tepeguaje葫芦guaje、红瓜tindora、粘果酸浆tomatillo、番茄、番茄樱桃型、番茄葡萄型、番茄李子型、姜黄、芜菁茎嫩叶、芜菁turnip、荸荠、薯蓣yampi、山药名称、油菜yuchoy、木薯yuca木薯等。在一些情况下,细胞是节肢动物细胞。例如,细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞:例如,有螯肢亚门、多足亚门、Hexipodia、蛛形纲、昆虫纲、石蛃目、缨尾目、古翅下纲、蜉蝣目、蜻蜓目、差翅亚目、束翅亚目、新翅亚纲、外翅总目、襀翅目、纺足目、直翅目、缺翅目、革翅目、网翅目、蛩蠊目、蛩蠊科、螳科、竹节虫目、蜚蠊目、等翅目、螳螂目、Parapneuroptera、啮虫目、缨翅目、虱毛目、半翅目、内翅类或全变态类、膜翅目、鞘翅目、捻翅目、蛇蛉目、广翅目、脉翅目、长翅目、蚤目、双翅目、毛翅目或鳞翅目。在一些情况下,细胞是昆虫细胞。例如,在一些情况下,细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。将组分引入靶细胞中可通过多种熟知的方法中的任一种将Cas9指导RNA或包含编码Cas9指导RNA的核苷酸序列的核酸和或Cas9融合多肽或包含编码Cas9融合多肽的核苷酸序列的核酸和或供体多核苷酸引入宿主细胞中。将核酸引入细胞中的方法是本领域中已知的,并且可使用任何方便的方法来将核酸例如,表达构建体引入靶细胞例如,真核细胞、人细胞、干细胞、祖细胞等中。合适的方法在本文其他地方更详细地描述并且包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺PEI介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送参见例如,Panyam等人AdvDrugDelivRev.2012年9月13日。pii:S0169-409X1200283-9.doi:10.1016j.addr.2012.09.023等。可使用已知方法诸如核转染,将任何或所有组分作为组合物例如,包括CasY多肽、CasY指导RNA、供体多核苷酸等的任何方便的组合引入细胞中。供体多核苷酸供体模板在CasY指导RNA的指导下,CasY蛋白在一些情况下在双链DNAdsDNA靶核酸内生成位点特异性双链断裂DSB或单链断裂SSB例如,当CasY蛋白是切口酶变体时,其通过非同源末端连接NHEJ或同源定向重组HDR修复。在一些情况下,接触靶DNA与CasY蛋白和CasY指导RNA接触在允许非同源末端连接或同源定向修复的条件下发生。因此,在一些情况下,主题方法包括使靶DNA与供体多核苷酸接触例如,通过将供体多核苷酸引入细胞中,其中将供体多核苷酸、供体多核苷酸的部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的部分整合到靶DNA中。在一些情况下,所述方法不包括使细胞与供体多核苷酸接触,并且修饰靶DNA使得靶DNA内的核苷酸缺失。在一些情况下,CasY指导RNA或编码CasY指导RNA的DNA和CasY蛋白或编码CasY蛋白的核酸,诸如RNA或DNA,例如,一种或多种表达载体与供体多核苷酸序列共同施用例如,与靶核酸接触、施用到细胞等,所述供体多核苷酸序列包括与靶DNA序列同源的至少一个区段,主题方法可用来将核酸物质添加即插入或替代到靶DNA序列例如以“敲入”编码蛋白质、siRNA、miRNA的核酸等,添加标签例如,6xHis、荧光蛋白例如,绿色荧光蛋白;黄色荧光蛋白等、血凝素HA、FLAG等,将调节序列添加到基因例如启动子、聚腺苷酸化信号、内部核糖体进入序列IRES、2A肽、起始密码子、终止密码子、剪接信号、定位信号等,修饰核酸序列例如,引入突变、通过引入正确的序列去除致病突变等。因此,包含CasY指导RNA和CasY蛋白的复合物可用于任何体外或体内应用中,在所述应用中希望以位点特异性即“靶向的”方式修饰DNA,例如基因敲除、基因敲入、基因编辑、基因标签等,例如,如在例如治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂的基因疗法,农业中遗传修饰的生物体的生产,出于治疗、诊断或研究目的通过细胞进行的大规模蛋白质生产,iPS细胞诱导,生物研究,用于缺失或替代的病原体基因的靶向等中所使用的。在其中希望将多核苷酸序列插入靶序列被切割的基因组中的应用中,还可向细胞提供供体多核苷酸包含供体序列的核酸。“供体序列”或“供体多核苷酸”或“供体模板”意指在CasY蛋白切割的位点处插入的核酸序列例如,在dsDNA切割之后、对靶DNA进行切口之后、对靶DNA进行双切口之后等。供体多核苷酸可与靶位点处的基因组序列含有足够的同源性例如与侧接靶位点的核苷酸序列,例如在靶位点的约50个或更少的碱基内例如约30个碱基内、约15个碱基内、约10个碱基内、约5个碱基内或直接侧接靶位点的核苷酸序列,具有70%、80%、85%、90%、95%或100%同源性,以支持所述供体多核苷酸与和其具有同源性的基因组序列之间的同源定向修复。在供体与基因组序列之间具有序列同源性的大约25、50、100或200个核苷酸或多于200个核苷酸或10与200之间任何整数值的核苷酸或更多可支持同源定向修复。供体多核苷酸可具有任何长度,例如10个核苷酸或更多、50个核苷酸或更多、100个核苷酸或更多、250个核苷酸或更多、500个核苷酸或更多、1000个核苷酸或更多、5000个核苷酸或更多等。供体序列通常不与它替代的基因组序列相同。而且,供体序列相对于基因组序列可含有至少一个或多个单个碱基变化、插入、缺失、反转或重排,只要存在足够同源性以支持同源定向修复即可例如,用于基因校正,例如,以转化致病碱基对或非致病碱基对。在一些实施方案中,供体序列包含侧接两个同源区域的非同源序列,以使得靶DNA区域与两个侧接序列之间的同源定向修复导致在靶区域处插入非同源序列。供体序列还可包含载体骨架,所述载体骨架含有不与感兴趣的DNA区域同源并且不意图插入到感兴趣的DNA区域中的序列。通常,供体序列的一个或多个同源区将与希望与其重组的基因组序列具有至少50%的序列同一性。在某些实施方案中,存在60%、70%、80%、90%、95%、98%、99%或99.9%的序列同一性。根据供体多核苷酸的长度,可存在1%与100%之间的任何值的序列同一性。供体序列与基因组序列相比可包含某些序列差异,例如限制位点、核苷酸多态性、可选择标记例如,抗药基因、荧光蛋白、酶等等,所述序列差异可用来评价供体序列在切割位点处的成功插入或在一些情况下可用于其他目的例如,表示靶向基因组基因座处的表达。在一些情况下,如果位于编码区中,此类核苷酸序列差异将不会改变氨基酸序列,或将产生沉默氨基酸变化即,不影响蛋白质结构或功能的变化。可替代地,这些序列差异可包括侧接重组序列,诸如FLP、loxP序列等,所述侧接重组序列可在去除标记序列之后的时间里激活。在一些情况下,供体序列作为单链DNA提供给细胞。在一些情况下,供体序列作为双链DNA提供给细胞。它可以线性或环状形式引入细胞中。如果以线性形式引入,供体序列的末端可通过任何方便的方法来保护例如,免受核酸外切降解,并且此类方法是本领域的技术人员已知的。例如,可将一个或多个双脱氧核苷酸残基添加到线性分子的3’端,并且或者可将自身互补寡核苷酸连接到一个或两个末端。参见例如,Chang等人1987Proc.Natl.AcadSciUSA84:4959-4963;Nehls等人1996Science272:886-889。用于保护外源多核苷酸免受降解的另外方法包括但不限于添加一个或多个末端氨基和使用修饰的核苷酸间键,例如像硫代磷酸酯、氨基磷酸酯和O-甲基核糖或脱氧核糖残基。作为保护线性供体序列的末端的替代方案,可在同源区外部包括额外长度的序列,所述序列可在不影响重组的情况下降解。可将供体序列作为载体分子的一部分引入细胞中,所述载体分子具有另外的序列,例如像复制起点、启动子和编码抗生素耐药性的基因。此外,供体序列可作为裸核酸、作为与药剂诸如脂质体或泊洛沙姆复合的核酸引入,或者可通过病毒例如,腺病毒AAV来递送,如本文其他地方对于编码CasY指导RNA和或CasY融合多肽和或供体多核苷酸的核酸所述。转基因非人生物体如上所述,在一些情况下,本公开的核酸例如,重组表达载体例如,包含编码本公开的CasY多肽的核苷酸序列的核酸;包含编码本公开的CasY融合多肽的核苷酸序列的核酸等用作转基因以生成转基因非人生物体,其产生本公开的CasY多肽或CasY融合多肽。本公开提供一种转基因非人生物体,其包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列。转基因非人动物本公开提供一种转基因非人动物,所述动物包含转基因,其包含含有编码CasY多肽或CasY融合多肽的核苷酸序列的核酸。在一些实施方案中,转基因非人动物的基因组包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列。在一些情况下,转基因非人动物对于遗传修饰是纯合的。在一些情况下,转基因非人动物对于遗传修饰是杂合的。在一些实施方案中,转基因非人动物是脊椎动物,例如鱼类例如,鲑鱼、鳟鱼、斑马鱼、金鱼、河豚、洞穴鱼等、两栖动物青蛙、蝾螈、火蜥蜴等、鸟类例如,鸡、火鸡等、爬行动物例如,蛇、蜥蜴等、非人哺乳动物例如,有蹄类动物,例如猪、牛、山羊、绵羊等;兔形目动物例如,兔;啮齿动物例如,大鼠、小鼠;非人灵长类动物等等。在一些情况下,转基因非人动物是无脊椎动物。在一些情况下,转基因非人动物是昆虫例如,蚊子;农业害虫等。在一些情况下,转基因非人动物是蛛形纲动物。编码本公开的CasY多肽或CasY融合多肽的核苷酸序列可在未知启动子例如,当核酸随机整合到宿主细胞基因组中时的控制之下即,可操作地连接或可在已知启动子的控制之下即,可操作地连接。合适的已知启动子可以是任何已知启动子并且包括组成型活性启动子例如,CMV启动子、诱导型启动子例如,热休克启动子、四环素调节的启动子、类固醇调节的启动子、金属调节的启动子、雌激素受体调节的启动子等、空间限制的和或时间限制的启动子例如,组织特异性启动子、细胞类型特异性启动子等等。转基因植物如上所述,在一些情况下,本公开的核酸例如,重组表达载体例如,包含编码本公开的CasY多肽的核苷酸序列的核酸;包含编码本公开的CasY融合多肽的核苷酸序列的核酸等用作转基因以生成转基因植物,其产生本公开的CasY多肽或CasY融合多肽。本公开提供一种转基因植物,其包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列。在一些实施方案中,转基因植物的基因组包含主题核酸。在一些实施方案中,转基因植物对于遗传修饰是纯合的。在一些实施方案中,转基因植物对于遗传修饰是杂合的。将外源核酸引入植物细胞中的方法是本领域中熟知的。如上所定义,此类植物细胞被认为是“转化的”。合适的方法包括病毒感染诸如双链DNA病毒、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射、碳化硅晶须技术、土壤杆菌属介导的转化等。方法的选择通常根据待转化的细胞类型和在其下发生转化的环境即体外、离体或体内。基于土壤细菌根瘤土壤杆菌Agrobacteriumtumefaciens的转化方法特别可用于将外源核酸分子引入维管植物中。土壤杆菌属Agrobacterium的野生型形式含有Ti肿瘤诱导质粒,其引导在宿主植物上生长的致瘤冠瘿的产生。Ti质粒的肿瘤诱导T-DNA区向植物基因组的转移需要Ti质粒编码毒力基因以及T-DNA边缘序列,所述T-DNA边缘序列是描绘待转移区域的一系列正向DNA重复序列。基于土壤杆菌属的载体是Ti质粒的修饰形式,其中肿瘤诱导功能被待引入植物宿主中的感兴趣的核酸序列替代。土壤杆菌属介导的转化通常采用共合体载体或二元载体系统,其中Ti质粒的组分在辅助载体所述辅助载体永久存在于土壤杆菌属宿主中并且携带毒力基因与穿梭载体所述穿梭载体含有被T-DNA序列限定的感兴趣的基因之间分配。多种二元载体是本领域中熟知的并且是可例如从ClontechPaloAlto,Calif.商购获得的。例如用培养的植物细胞或创伤组织诸如叶组织、根外植体、下胚轴体、茎块或块茎共同培养土壤杆菌属的方法也是本领域中熟知的。参见例如,Glick和Thompson编,MethodsinPlantMolecularBiologyandBiotechnology,BocaRaton,Fla.:CRCPress1993。微粒介导的转化还可用来产生主题转基因植物。首先由Klein等人Nature327:70-731987描述的这种方法依赖于微粒,诸如金或钨,所述微粒通过用氯化钙、亚精胺或聚乙二醇沉淀涂覆有所需的核酸分子。微粒颗粒使用诸如BIOLISTICPD-1000Biorad;HerculesCalif.的装置在高速下被加速到被子植物组织中。可将本公开的核酸例如,包含编码本公开的CasY多肽或CasY融合多肽的核苷酸序列的核酸例如,重组表达载体以使得核酸能够例如通过体内或离体方案进入一种或多种植物细胞的方式引入植物中。“体内”意指向植物的活体施用核酸,例如渗透。“离体”意指在植物外部修饰细胞或外植体并且然后使此类细胞或器官再生为植物。已描述了适用于稳定转化植物细胞或建立转基因植物的多种载体,包括描述于Weissbach和Weissbach,1989MethodsforPlantMolecularBiologyAcademicPress以及Gelvin等人,1990PlantMolecularBiologyManual,KluwerAcademicPublishers中的那些载体。具体实例包括衍生自根瘤土壤杆菌的Ti质粒的那些,以及由Herrera-Estrella等人1983Nature303:209、Bevan1984NuclAcidRes.12:8711-8721、Klee1985BioTechnolo3:637-642公开的那些。可替代地,非Ti载体可用来通过使用游离DNA递送技术将DNA转移到植物和细胞中。通过使用这些方法,可产生转基因植物,诸如小麦、大米Christou1991BioTechnology9:957-9和4462和玉米Gordon-Kamm1990PlantCell2:603-618。未成熟胚也可以是通过使用粒子枪的直接DNA递送技术Weeks等人1993PlantPhysiol102:1077-1084;Vasil1993BioTechnolo10:667-674;Wan和Lemeaux1994PlantPhysiol104:37-48和土壤杆菌属介导的DNA转移Ishida等人1996NatureBiotech14:745-750的单子叶植物的良好靶组织。用于将DNA引入叶绿体中的示例性方法是生物弹轰击、原生质体的聚乙二醇转化和微注射Danieli等人Nat.Biotechnol16:345-348,1998;Staub等人Nat.Biotechnol18:333-338,2000;O’Neill等人PlantJ.3:729-738,1993;Knoblauch等人Nat.Biotechnol17:906-909;美国专利号5,451,513、5,545,817、5,545,818和5,576,198;国际申请号WO9516783;以及Boynton等人,MethodsinEnzymology217:510-5361993、Svab等人,Proc.Natl.Acad.Sci.USA90:913-9171993和McBride等人,Proc.Natl.Acad.Sci.USA91:7301-73051994。适用于生物弹轰击、原生质体聚乙二醇转化以及微注射的方法的任何载体将适用作用于叶绿体转化的靶向载体。任何双链DNA载体可用作转化载体,尤其当引入方法没有使用土壤杆菌属时。可遗传修饰的植物包括谷物、饲料作物、水果、蔬菜、油籽作物、棕榈、林业植物以及葡萄藤。可修饰的植物的具体实例如下:玉米、香蕉、花生、红豌豆、向日葵、番茄、芸苔、烟草、小麦、大麦、燕麦、土豆、大豆、棉花、康乃馨、高粱、羽扇豆以及大米。本公开提供转化的植物细胞,含有转化的植物细胞的组织、植物和产品。主题转化细胞以及包含所述转化细胞的组织和产品的特征为存在整合到基因组中的主题核酸和通过本公开的CasY多肽或CasY融合多肽的植物细胞来产生。本发明的重组植物细胞可作为重组细胞群或作为组织、种子、全株植物、茎、果实、叶、根、花、茎、块茎、谷物、动物饲料、植田等使用。编码本公开的CasY多肽或CasY融合多肽的核苷酸序列可在未知启动子例如,当核酸随机整合到宿主细胞基因组中时的控制之下即,可操作地连接或可在已知启动子的控制之下即,可操作地连接。合适的已知启动子可以是任何已知的启动子并且包括组成型活性启动子、诱导型启动子、空间限制的和或时间限制的启动子等。鉴定CRISPRRNA指导的内切核酸酶的方法提供鉴定CRISPRRNA指导的内切核酸酶的方法。例如,在一些实施方案中,这种方法包括在多个宏基因组核苷酸序列中检测编码Cas1多肽的核苷酸序列的步骤。Cas1蛋白是本领域已知的并且存在于第2类CRISPR系统的CRISPR基因座附近,那些CRISPR系统包括充当内切核酸酶的单效应蛋白,并且不需要为了适当地发挥作用而与蛋白质复合物相互作用。虽然Cas1蛋白本身参与将新的靶序列获取到CRISPR基因座中,并且因此不是通过此方法鉴定的希望的效应蛋白,但是CRISPR基因座附近存在Cas1蛋白指示存在于基因座附近的至少一种其他Cas蛋白可能是效应蛋白RNA指导的内切核酸酶。如本文所用,术语“宏基因组学”意指对从样品例如,环境样品,诸如含有未知量的原核生物细菌古细菌并且可能含有从未发现和或表征的原核生物的样品中的多种微生物回收的核酸的平行分析。可通过任何方便的方法从这种样品回收核酸,并且通常从整个样品一起回收核酸,使得在分析之前不知道任何给定的核酸分子来自哪种微生物。在一些实施方案中,样品含有未知的混合物和或量的微生物。然后可对核酸进行测序以产生多个宏基因组序列。在一些情况下,鉴定CRISPRRNA指导的内切核酸酶的主题方法包括分离样品例如,环境样品的步骤。在一些情况下,鉴定CRISPRRNA指导的内切核酸酶的主题方法包括从样品分离核酸和或测定样品以从样品生成多个宏基因组核苷酸序列的步骤。一旦鉴定出Cas1蛋白,鉴定CRISPRRNA指导的内切核酸酶的主题方法就可包括检测编码Cas1的核苷酸序列附近的CRISPR阵列重复序列-间隔序列-重复序列阵列的步骤。所述方法然后可包括将包含所检测的CRISPR阵列的CRISPR基因座克隆例如,从衍生多个宏基因组核苷酸序列的核酸样品到表达载体中以生成重组CRISPR基因座表达载体的步骤。然后可通过测定重组CRISPR基因座表达载体切割靶核酸的能力来测试CRISPR基因座的功能。可使用任何方便的测定。在一些实施方案中,所述测定步骤包括将重组CRISPR基因座表达载体和靶核酸引入细胞例如,异源宿主细胞,例如大肠杆菌细胞中。例如,参考下文工作实例的PAM缺失测定图5。在一些情况下,测定步骤包括将质粒文库引入宿主细胞例如,大肠杆菌细胞群中,其中所述文库的每个质粒具有4至10个例如,5至10个、5至8个、6至10个、6至8个、5个、6个、7个、8个靶序列5’和或3’端随机化的核苷酸。宿主细胞可已经含有待测试的重组CRISPR基因座表达载体,或者可在文库之后引入重组CRISPR基因座表达载体。具有功能性并且因此包含功能性CRISPRRNA指导的内切核酸酶的仅测试CRISPR基因座将产生切割具有靶序列的质粒的能力。包含靶序列5’和3’端随机化序列的原因是在实验开始时可能不知道所需内切核酸酶所需要的PAM序列。如果表达载体可切割靶核酸例如,具有适当靶序列和PAM诸如匹配CRISPR阵列的至少一个间隔序列的靶序列的靶核酸,那么CRISPR基因座就包含编码候选CRISPRRNA指导的内切核酸酶的核苷酸序列。因此,然后可鉴定来自CRISPR基因座的编码CRISPRRNA指导的内切核酸酶的开放阅读框。在一些情况下,希望鉴定先前未知的CRISPRRNA指导的内切核酸酶,并且因此在一些情况下,鉴定的多肽与已知的CRISPRRNA指导的内切核酸酶多肽的氨基酸序列具有小于20%的氨基酸序列同一性例如,小于15%、小于10%、小于5%的氨基酸序列同一性。本公开的非限制性方面的实例上文所述的本发明主题的方面包括实施方案可单独有益或与一个或多个其他方面或实施方案组合地有益。在不限制前述描述的情况下,以下提供本公开的编号为1-123的某些非限制性方面。对于本领域技术人员在阅读本公开内容时将显而易见的是,每个单独编号的方面可与前面或后面的任何单独编号的方面一起使用或组合。这意图为所有此类方面的组合提供支持,并且不限于下文明确提供的方面的组合:方面1.一种组合物,其包含:aCasY多肽或编码所述CasY多肽的核酸分子;以及bCasY指导RNA或一种或多种编码所述CasY指导RNA的DNA分子。2.如1所述的组合物,其中所述CasY多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列或SEQIDNO:1-8中的任一个所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。3.如1或2所述的组合物,其中所述CasY指导RNA包含与SEQIDNO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。4.如1或2所述的组合物,其中所述CasY多肽与NLS序列融合。5.如1-4中任一项所述的组合物,其中所述组合物包含脂质。6.如1-4中任一项所述的组合物,其中a和b在脂质体内。7.如1-4中任一项所述的组合物,其中a和b在颗粒内。8.如1-7中任一项所述的组合物,其包含以下中的一种或多种:缓冲液、核酸酶抑制剂和蛋白酶抑制剂。9.如1-8中任一项所述的组合物,其中所述CasY多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列或SEQIDNO:1-8中的任一个所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。10.如1-9中任一项所述的组合物,其中所述CasY多肽是切口酶,其仅能切割双链靶核酸分子的一条链。11.如1-9中任一项所述的组合物,其中所述CasY多肽是无催化活性的CasY多肽dCasY。12.如10或11所述的组合物,其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQIDNO:1的D672、E769和D935。13.如1-12中任一项所述的组合物,其还包含DNA供体模板。14.一种CasY融合多肽,其包含:与异源多肽融合的CasY多肽。15.如14所述的CasY融合多肽,其中所述CasY融合多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列或SEQIDNO:1-8中的任一个所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。16.如14所述的CasY融合多肽,其中所述CasY融合多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列或SEQIDNO:1-8中的任一个所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。17.如14-16中任一项所述的CasY融合多肽,其中所述CasY多肽是切口酶,其仅能切割双链靶核酸分子的一条链。18.如14-17中任一项所述的CasY融合多肽,其中所述CasY多肽是无催化活性的CasY多肽dCasY。19.如17或18所述的CasY融合多肽,其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQIDNO:1的D672、E769和D935。20.如14-19中任一项所述的CasY融合多肽,其中所述异源多肽与所述CasY多肽的N末端和或C末端融合。21.如14-20中任一项所述的CasY融合多肽,其包含NLS。22.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽是靶向多肽,其提供与靶细胞或靶细胞类型上的细胞表面部分的结合。23.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽表现出修饰靶DNA的酶活性。24.如23所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。25.如24所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。26.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。27.如26所述的CasY融合多肽,其中所述异源多肽表现出组蛋白修饰活性。28.如26或27所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性例如,来自O-GlcNAc转移酶和脱糖基化活性。29.如28所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。30.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽是内体逃逸多肽。31.如30所述的CasY融合多肽,其中所述内体逃逸多肽包含选自以下的氨基酸序列:GLFXALLXLLXSLWXLLLXASEQIDNO:94和GLFHALLHLLHSLWHLLLHASEQIDNO:95,其中每个X独立地选自赖氨酸、组氨酸和精氨酸。32.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽是叶绿体转运肽。33.如32所述的CasY融合多肽,其中所述叶绿体转运肽包含选自以下的氨基酸序列:MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRASEQIDNO:83、MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKSSEQIDNO:84、MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNCSEQIDNO:85、MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTACSEQIDNO:86、MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTACSEQIDNO:87、MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATACSEQIDNO:88、MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPHRFDRRCLSMVVSEQIDNO:89、MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQQRSVQRGSRRFPSVVVCSEQIDNO:90、MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQCSEQIDNO:91、MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVISRSAAAASEQIDNO:92,和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASSSEQIDNO:93。34.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽是增加或减少转录的蛋白质。35.如34所述的CasY融合多肽,其中异源多肽是转录阻遏物结构域。36.如34所述CasY融合多肽,其中所述异源多肽是转录激活结构域。37.如14-21中任一项所述的CasY融合多肽,其中所述异源多肽是蛋白质结合结构域。38.一种核酸分子,其编码如14-37中任一项所述的CasY融合多肽。39.如38所述的核酸分子,其中编码所述CasY融合多肽的所述核苷酸序列可操作地连接到启动子。40.如39所述的核酸分子,其中所述启动子在真核细胞中是功能性的。41.如40所述的核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。42.如39-41中任一项所述的核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。43.如38-42中任一项所述的核酸分子,其中所述DNA分子是重组表达载体。44.如43所述的核酸分子,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。45.如39所述的核酸分子,其中所述启动子在原核细胞中是功能性的。46.如38所述的核酸分子,其中所述核酸分子是mRNA。47.一种或多种核酸分子,其编码:aCasY指导RNA;以及bCasY多肽。48.如47所述的一种或多种核酸分子,其中所述CasY融合多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列或SEQIDNO:1-8中的任一个所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。49.如47所述的一种或多种核酸分子,其中所述CasY融合多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列或SEQIDNO:1-8中的任一个所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。50.如47-49中任一项所述的一种或多种核酸分子,其中所述CasY指导RNA包含与SEQIDNO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。51.如47-50中任一项所述的一种或多种核酸分子,其中所述CasY多肽与NLS序列融合。52.如47-51中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述CasY指导RNA的核苷酸序列,所述核苷酸序列可操作地连接到启动子。53.如47-52中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述CasY多肽的核苷酸序列,所述核苷酸序列可操作地连接到启动子。54.如52或53所述的一种或多种核酸分子,其中可操作地连接到编码所述CasY指导RNA的所述核苷酸序列的所述启动子和或可操作地连接到编码所述CasY多肽的所述核苷酸序列的所述启动子在真核细胞中是功能性的。55.如54所述的一种或多种核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。56.如53-55中任一项所述的一种或多种核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。57.如47-56中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子是一种或多种重组表达载体。58.如57所述的一种或多种核酸分子,其中所述一种或多种重组表达载体选自:一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。59.如53所述的一种或多种核酸分子,其中所述启动子在原核细胞中是功能性的。60.一种真核细胞,其包含以下中的一种或多种:aCasY多肽或编码所述CasY多肽的核酸分子,bCasY融合多肽或编码所述CasY融合多肽的核酸分子,以及cCasY指导RNA或编码所述CasY指导RNA的核酸分子。61.如60所述的真核细胞,其包含编码所述CasY多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。62.如60或61所述的真核细胞,其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、节肢动物细胞、真菌细胞、鸟细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。63.一种细胞,其包含CasY融合多肽或编码所述CasY融合多肽的核酸分子。64.如63所述的细胞,其中所述细胞是原核细胞。65.如63或64所述的细胞,其包含编码所述CasY融合多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。66.一种修饰靶核酸的方法,所述方法包括使所述靶核酸与以下物质接触:aCasY多肽;以及bCasY指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列,其中所述接触导致通过所述CasY多肽对所述靶核酸的修饰。67.如66所述的方法,其中所述修饰是对所述靶核酸的切割。68.如66或67所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。69.如66-68中任一项所述的方法,其中所述接触在体外在细胞外部发生。70.如66-68中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。71.如66-68中任一项所述的方法,其中所述接触在体内在细胞内部发生。72.如70或71所述的方法,其中所述细胞是真核细胞。73.如72所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。74.如70或71所述的方法,其中所述细胞是原核细胞。75.如66-74中任一项所述的方法,其中所述接触导致基因组编辑。76.如66-75中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:a所述CasY多肽或编码所述CasY多肽的核酸分子,以及b所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。77.如76所述的方法,其中所述接触还包括:将DNA供体模板引入所述细胞中。78.如66-77中任一项所述的方法,其中所述CasY指导RNA包含与SEQIDNO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。79.如66-78中任一项所述的方法,其中所述CasY多肽与NLS序列融合。80.一种调节从靶DNA的转录、修饰靶核酸或修饰与靶核酸相关联的蛋白质的方法,所述方法包括使所述靶核酸与以下物质接触:aCasY融合多肽,其包含与异源多肽融合的CasY多肽;以及bCasY指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列。81.如80所述的方法,其中所述CasY指导RNA包含与SEQIDNO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。82.如80或81所述的方法,其中所述CasY融合多肽包含NLS序列。83.如80-82中任一项所述的方法,其中所述修饰不是对所述靶核酸的切割。84.如80-83中任一项所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。85.如80-84中任一项所述的方法,其中所述接触在体外在细胞外部发生。86.如80-84中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。87.如80-84中任一项所述的方法,其中所述接触在体内在细胞内部发生。88.如86或87所述的方法,其中所述细胞是真核细胞。89.如88所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。90.如86或87所述的方法,其中所述细胞是原核细胞。91.如80-90中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:a所述CasY融合多肽或编码所述CasY融合多肽的核酸分子,以及b所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。92.如80-91中任一项所述的方法,其中所述CasY多肽是无催化活性的CasY多肽dCasY。93.如80-92中任一项所述的方法,其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQIDNO:1的D672、E769和D935。94.如80-93中任一项所述的方法,其中所述异源多肽表现出修饰靶DNA的酶活性。95.如94所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。96.如95的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。97.如80-93中任一项所述的方法,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。98.如97所述的方法,其中所述异源多肽表现出组蛋白修饰活性。99.如97或98所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性例如,来自O-GlcNAc转移酶和脱糖基化活性。100.如99所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。101.如80-93中任一项所述的方法,其中所述异源多肽是增加或减少转录的蛋白质。102.如101所述的方法,其中所述异源多肽是转录阻遏物结构域。103.如101所述的方法,其中所述异源多肽是转录激活结构域。104.如80-93中任一项所述的方法,其中所述异源多肽是蛋白质结合结构域。105.一种转基因的多细胞非人生物体,其基因组包含转基因,所述转基因包含编码以下中的一种或多种的核苷酸序列:aCasY多肽,bCasY融合多肽,以及cCasY指导RNA。106.如105所述的转基因的多细胞非人生物体,其中所述CasY融合多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列或SEQIDNO:1-8中的任一个所示的氨基酸序列具有50%或更高的氨基酸序列同一性的氨基酸序列。107.如105所述的转基因的多细胞非人生物体,其中所述CasY融合多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列或SEQIDNO:1-8中的任一个所示的氨基酸序列具有85%或更高的氨基酸序列同一性的氨基酸序列。108.如105-107中任一项所述的转基因的多细胞非人生物体,其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼类、爬行动物、两栖动物、有蹄类动物、鸟类、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。109.一种系统,其包含:aCasY多肽和CasY指导RNA;bCasY多肽、CasY指导RNA和DNA供体模板;cCasY融合多肽和CasY指导RNA;dCasY融合多肽、CasY指导RNA和DNA供体模板;e编码CasY多肽的mRNA和CasY指导RNA;f编码CasY多肽的mRNA、CasY指导RNA和DNA供体模板;g编码CasY融合多肽的mRNA和CasY指导RNA;h编码CasY融合多肽的mRNA、CasY指导RNA和DNA供体模板;i一种或多种重组表达载体,其包含:i编码CasY多肽的核苷酸序列,和ii编码CasY指导RNA的核苷酸序列;j一种或多种重组表达载体,其包含:i编码CasY多肽的核苷酸序列、ii编码CasY指导RNA的核苷酸序列,和iiiDNA供体模板;k一种或多种重组表达载体,其包含:i编码CasY融合多肽的核苷酸序列,和ii编码CasY指导RNA的核苷酸序列;以及l一种或多种重组表达载体,其包含:i编码CasY融合多肽的核苷酸序列、ii编码CasY指导RNA的核苷酸序列,和DNA供体模板。110.如109所述的CasY系统,其中所述CasY融合多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列或SEQIDNO:1-8中的任一个所示的氨基酸序列具有50%或更高的氨基酸序列同一性的氨基酸序列。111.如109所述的CasY系统,其中所述CasY融合多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列或SEQIDNO:1-8中的任一个所示的氨基酸序列具有85%或更高的氨基酸序列同一性的氨基酸序列。112.如109-111中任一项所述的CasY系统,其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。113.如109-111中任一项所述的CasY系统,其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。114.一种试剂盒,其包含如109-113中任一项所述的CasY系统。115.如114所述的试剂盒,其中所述试剂盒的组分在同一容器中。116.如114所述的试剂盒,其中所述试剂盒的组分在单独的容器中。117.一种无菌容器,其包含如109-116中任一项所述的CasY系统。118.如117所述的无菌容器,其中所述容器是注射器。119.一种可植入装置,其包含如109-116中任一项所述的CasY系统。120.如119所述的可植入装置,其中所述CasY系统在基质内。121.如119所述的可植入装置,其中所述CasY系统在储库中。122.一种鉴定CRISPRRNA指导的内切核酸酶的方法,所述方法包括:在多个宏基因组核苷酸序列中检测编码Cas1多肽的核苷酸序列;检测所述编码Cas1的核苷酸序列附近的CRISPR阵列;将包含所检测的CRISPR阵列的CRISPR基因座从衍生所述多个宏基因组核苷酸序列的核酸样品克隆到表达载体中以生成重组CRISPR基因座表达载体;测定所述重组CRISPR基因座表达载体的切割靶核酸的能力,其中具有切割靶核酸的能力的CRISPR基因座包含编码CRISPRRNA指导的内切核酸酶的核苷酸序列。在所述CRISPR基因座中鉴定编码多肽的开放阅读框,所述多肽与已知的CRISPRRNA指导的内切核酸酶多肽的氨基酸序列具有小于20%的氨基酸序列同一性。123.如122所述的方法,其中所述测定包括将所述重组CRISPR基因座表达载体和靶核酸引入细胞中。实施例提出以下实施例以便向本领域的普通技术人员提供如何制备和使用本发明的完全公开和描述,并且并非意图限制本发明人看待其发明的范围,也非意图表示以下实验是执行的全部或仅有的实验。已经努力确保关于所用数值例如量、温度等的精确性,但一些实验误差和偏差应加以说明。除非另外指示,否则份为重量份,分子量为重均分子量,温度以摄氏度计,并且压力在大气压下或接近大气压。可使用标准缩写,例如,bp,碱基对;kb,千碱基;pl,皮升;s或sec,秒;min,分钟;h或hr,小时;aa,氨基酸;kb,千碱基;bp,碱基对;nt,核苷酸;i.m.,肌内的肌内地;i.p.,腹膜内的腹膜内地;s.c.,皮下的皮下地等。实施例1本文所述的工作包括分析来自地下水、沉积物和酸性矿山排水的微生物群落的宏基因组样品。鉴定了在培养生物体中未表示的新的2类CRISPR-Cas系统。图3.CasY结构域和相似性检索。图a从使用HHpred的与AcCpf1的远同源性比对中推断的CasY的示意性结构域表示。保守的催化残基用蛋白质上方的红色条标记。CasY含有在C末端区域的分开的RuvC结构域RuvC-I、RuvC-II和RuvC-III,并且含有大的新型N末端结构域。在示意图下方示出基于以下检索的最高命中:1BLAST检索NCBINR数据库,包括模型和环境蛋白质中的所有蛋白质。2基于使用所有Cas蛋白构建的模型的序型隐马尔科夫模型HMM检索,在Makarova等人NatRevMicrobiol.2015年11月;1311:722-36以及Shmakov等人MolCell.2015年11月5日;603:385-97中所述。3基于HHpred的远同源性检索。命中基于其重要性进行颜色编码,并提供命中范围和E值。值得注意的是,CasY只有局部命中。CasY的812个N末端氨基酸仅具有一个非常微小的局部命中。结合起来,这些发现指示CasY是一种新的Cas蛋白。图b由序列数据构建不同的含CasY的CRISPR基因座支架。实施例2图4.CasY和C2c3基因座图的示意图。干扰蛋白以绿色示出,获取蛋白以红色示出。使用RNA结构折叠的重复序列在右侧示出,揭示在5'末端处的强发夹,从而表明CRISPR阵列通过CasY进行自我加工.。图5图a至图dCasY的PAM依赖性质粒干扰。图a用CasY进行PAM缺失测定。用具有靶序列5'或3'端随机化的7个核苷酸的质粒文库转化含有CasYCRISPR基因座的大肠杆菌。选择靶质粒并合并转化体。扩增随机区域并准备用于深度测序。鉴定缺失的序列并用于生成PAM标识。图bCasY.1的生成的PAM标识示出对含有靶标5'端的5’-TA-3’侧翼序列的序列的强烈偏好。未检测到3’PAM。图c直接测定四种不同的PAM以验证由PAM缺失测定确定的PAM。图dCasY.2的生成的PAM标识示出对含有靶标5’端的5’-YR-3’和或5’-TR-3’例如,5’-DTR-3’分别为较低阈值和较高阈值侧翼序列的偏好其中Y是T或C;R是A或G;并且D是A、G或T。未检测到3’PAM。图6.图a来自天然存在的CasY指导RNA的‘重复'序列针对CasY基因座Y1-Y6。图bCasYRNA指导的DNA切割图。CasY蛋白与重复序列区域中的crRNACasY指导RNA结合黑色,重复序列;红色,间隔序列。指导RNA的指导序列与含有正确的原间隔序列相邻基序PAM的靶序列蓝色的碱基配对导致靶DNA的双链切割。实施例3:来自非培养微生物的新CRISPR-Cas系统CRISPR-Cas适应性免疫系统通过提供能够进行位点特异性DNA切割的可编程酶,彻底变革了基因组工程。然而,当前的CRISPR-Cas技术仅基于来自培养的细菌的系统,而使得来自未被分离的生物体的绝大多数酶处于尚未开发状态。本文提供的数据示出,使用不依赖于培养的基因组解析的宏基因组学,鉴定新的CRISPR-Cas系统,包括在古细菌生物域中首次报道的Cas9。这种不同的Cas9酶在研究很少的纳米古细菌中作为活性CRISPR-Cas系统的一部分被发现。在细菌中,发现了两个先前未知的系统,CRISPR-CasX和CRISPR-CasY,它们属于目前鉴定的最简化的系统。值得注意的是,所有需要的功能性组分都是通过宏基因组学鉴定的,这允许在大肠杆菌中验证稳健的RNA指导的DNA干扰活性。本文的数据示出,环境微生物群落的查询与活细胞中的实验组合,能够获得前所未有的基因组多样性,所述基因组的内容将扩展基于微生物的生物技术的所有组成部分。结果分析了来自地下水、沉积物和酸性矿山排水微生物群落的兆级别Terabase-scale宏基因组数据集,寻找未在培养生物体中表示的2类CRISPR-Cas系统。鉴定了古细菌域中的第一种Cas9蛋白,并且在非培养细菌中发现了两种新的CRISPR-Cas系统,CRISPR-CasX和CRISPR-CasY图7。值得注意的是,古细菌Cas9和CasY两者都是仅在来自没有已知的分离代表的谱系的生物体的基因组中编码的。首次鉴定古细菌Cas9CRISPR-Cas9的特征之一是假定其仅存在于细菌域中。因此,在酸性矿山排水AMD宏基因组数据集中发现在纳米古细菌ARMAN-1CandidatusMicrarchaeumacidiphilumARMAN-1和ARMAN-4CandidatusParvarchaeumacidiphilumARMAN-4的基因组中编码的Cas9蛋白是令人惊讶的。这些发现将含Cas9的CRISPR系统的出现扩展到另一个生物域。ARMAN-4cas9基因在相同基因组环境中的16个不同样品中被发现,但没有其他相邻的cas基因尽管位于若干个DNA序列重叠群25kbp的中心,并且只有一个相邻的CRISPR重复序列-间隔序列单元图13。缺乏典型的CRISPR阵列和编码通用CRISPR整合酶的cas1,指出了无法获得新间隔序列的系统。没有鉴定间隔序列的靶标,但考虑到基因座在若干年内采集的样品中的保守性,此时不能排除基因座在“单靶标”CRISPR-Cas系统中的功能。相反,从15个不同样品中回收的ARMAN-1中的CRISPR-Cas基因座包括与cas1、cas2、cas4和cas9基因相邻的大型CRISPR阵列。重建了许多替代的ARMAN-1CRISPR阵列,其具有很大程度保守的末端可能由最老的间隔序列组成和其中已经并入许多不同的间隔序列的可变区域图8a和图14。基于间隔序列内容的这种高变性,这些数据示出了ARMAN-1CRISPR-Cas9系统在取样群体中是有活性的。值得注意的是,ARMAN-1CRISPR-Cas9系统中56个推定的间隔序列靶标原间隔序列位于单个10kbp的基因组片段上,所述片段很可能是ARMAN-1病毒,因为它编码高密度的短假定蛋白图8b。实际上,低温电子断层扫描重建通常鉴定附着到ARMAN细胞的病毒颗粒。ARMAN-1原间隔序列也衍生自ARMAN-2另一种纳米古细菌基因组中的推定转座子和热源体目古细菌基因组中的推定可动元件,其包括来自同一生态系统的I-plasma的可动元件图15。在ARMAN与热源体目细胞之间观察到直接的细胞质“桥”,这意味着它们之间存在密切关系。因此,ARMAN-1CRISPR-Cas9可防御这些生物体之间的转座子传播,这一作用使人联想到piRNA介导的对真核生殖系中的转座的防御。活性DNA靶向CRISPR-Cas系统使用位于靶序列之后的2至4bp原间隔序列相邻基序PAM来区分自身与非自身。检查与基因组靶序列相邻的序列确实在ARMAN-1中揭示出强烈的‘NGG’PAM偏好图8c。Cas9还使用两种单独的转录物,CRISPRRNAcrRNA和反式激活CRISPRRNAtracrRNA,用于RNA指导的DNA切割。在ARMAN-1和ARMAN-4CRISPR-Cas9系统二者附近鉴定出推定tracrRNA图16。先前,有人提出II型CRISPR系统由于缺乏宿主因子RNA酶III而不存在于古细菌中,RNA酶III负责crRNA-tracrRNA指导复合物的成熟。值得注意的是,在ARMAN-1基因组中未鉴定出RNA酶III同源物估计完成率为95%,并且未预测出CRISPR阵列的内部启动子,这表明了尚未确定的指导RNA的产生机制。测试从大肠杆菌和酵母二者中纯化的ARMAN-1和ARMAN-4Cas9蛋白的切割活性的生化实验以及体内大肠杆菌靶向测定未揭示出任何可检测的活性参见图21和图17。CRISPR-CasX是一种新的双RNA指导的CRISPR系统除Cas9之外,仅发现并通过实验验证了三个2类Cas效应蛋白家族:Cpf1、C2c1和C2c2。已经提出了另一种仅在小DNA片段上鉴定的基因c2c3,其也编码这种蛋白质家族。在地下水和沉积物样品中反复回收的两种细菌的基因组中发现了一种新类型的2类CRISPR-Cas系统。此系统在属于不同门δ变形菌门和浮霉菌门的两种生物体中的高度保守性表明最近的跨门转移。这种新描述的系统包括Cas1、Cas2、Cas4和未表征的~980aa蛋白质,其在本文中称为CasX。与每个CasX相关联的CRISPR阵列具有高度相似的37个碱基对的重复序列、33-34个碱基对的间隔序列以及Cas操纵子与CRISPR阵列之间的推定tracrRNA图7b。BLAST检索仅揭示出与转座酶的弱相似性e值1×10-4,其中相似性限于CasXC末端的特定区域。远同源性检测和蛋白质建模鉴定了CasXC末端附近的RuvC结构域,其结构使人联想到V型CRISPR-Cas系统中发现的结构图18。CasX蛋白的其余部分630个N末端氨基酸与任何已知蛋白质均未示出可检测的相似性,这表明这是一种新型2类效应物。tracrRNA和单独的Cas1、Cas2和Cas4蛋白的组合在V型系统中是独特的。此外,CasX比任何已知的V型蛋白小得多:980个aa,与Cpf1、C2c1和C2c3的大于1,200个aa的典型尺寸相比。接下来,人们想知道,尽管CasX具有较小的尺寸和非经典的基因座内容,但CasX能够进行类似于Cas9和Cpf1酶的RNA指导的DNA靶向。为了测试这种可能性,合成了编码最小CRISPR-CasX基因座的质粒,其包括casX、短重复序列-间隔序列阵列和插入的非编码区。当在大肠杆菌中表达时,这种最小基因座阻断了带有通过宏基因组分析鉴定的靶序列的质粒的转化图9a至图9c、图19。此外,仅在微型基因座中的间隔序列与质粒靶标中的原间隔序列匹配时才发生转化干扰。为了鉴定CasX的PAM序列,使用含有与靶位点相邻的5′或3′随机化序列的质粒在大肠杆菌中重复转化测定。此分析揭示出对直接位于原间隔序列的5′端的序列‘TTCN’的严格偏好图9d。未观察到3′PAM偏好图19。与此发现一致,‘TTCA’是在环境样品中鉴定的推定δ变形菌门CRISPR-CasX原间隔序列的上游发现的序列。值得注意的是,两个CRISPR-CasX基因座共享相同的PAM序列,与它们高度的CasX蛋白同源性一致。在V型CRISPR基因座中存在单RNA和双RNA指导系统的实例。环境宏转录组数据用于确定CasX是否需要用于DNA靶向活性的tracrRNA。此分析揭示出,具有与CRISPR重复序列互补的序列的非编码RNA转录物在Cas2开放阅读框与CRISPR阵列之间编码图10。转录组学图谱还表明CRISPRRNAcrRNA被加工成包括22个nt的重复序列和20个nt的相邻间隔序列,与CRISPR-Cas9系统中发生的crRNA加工相似图10a。此外,鉴定出2个nt的3′突出端,与RNA酶III介导的crRNA-tracrRNA双链体加工一致图10b。为了确定CasX活性对推定tracrRNA的依赖性,从上述最小的CRISPR-CasX基因座中删除此区域,并重复质粒干扰测定。从CasX质粒中删除推定tracrRNA编码序列消除了在其存在下观察到的稳健转化干扰图10c。总之,这些结果将CasX建立为新的功能性DNA靶向的双RNA指导的CRISPR酶。CRISPR-CasY,一种仅在缺乏分离株的细菌谱系中发现的系统鉴定了在某些潜在门类辐射CPR细菌的基因组中编码的另一种新的2类Cas蛋白。这些细菌通常具有较小的细胞尺寸基于低温TEM数据和通过过滤的富集、非常小的基因组和有限的生物合成能力,这指示它们最可能是共生体。新的~1,200个aa的Cas蛋白,在本文中称为CasY,似乎是最小CRISPR-Cas系统的一部分,所述最小CRISPR-Cas系统至多包括Cas1和CRISPR阵列图11a。大多数CRISPR阵列具有17-19个nt的非常短的间隔序列,但是缺少Cas1的一个系统CasY.5具有更长的间隔序列27-29个nt。鉴定的CasY蛋白的六个实例与公共数据库中的任何蛋白质没有显著的序列相似性。使用由已公布的Cas蛋白3,4构建的序型模型HMM的敏感检索指示,六个CasY蛋白中的四个与C2c3在与RuvC结构域重叠的C末端区域和N末端的小区域~45个aa中具有局部相似性e值为4×10-11–3×10-18参见图18。C2c3是推定的V型Cas效应物,其在短重叠群上鉴定,没有分类学从属关系,并且尚未通过实验验证。与CasY一样,C2c3被发现位于阵列之后,所述阵列具有短间隔序列和Cas1,但没有其他Cas蛋白。值得注意的是,尽管与其他CasY蛋白共享显著的序列相似性最佳Blast命中:e值为6×10-85、7×10-75,但在本研究中鉴定的两种CasY蛋白与C2c3没有显著的相似性。鉴于CRISPR-CasY与任何经实验验证的CRISPR基因座的低同源性,接下来想知道此系统是否赋予RNA指导的DNA干扰,但由于间隔序列长度短,不存在关于针对此类活性可能需要的可能PAM基序的可靠信息。为解决此问题,用缩短的CRISPR阵列合成整个CRISPR-CasY.1基因座,并在质粒载体上将所述基因座引入大肠杆菌中。然后使用靶质粒在转化测定中攻击这些细胞,所述靶质粒具有与阵列中的间隔序列匹配的序列,并且所述序列含有相邻的随机化5′或3′区域,以鉴定可能的PAM。对转化体的分析揭示了含有与靶向序列直接相邻的5′TA的序列的缺失图11b。使用此鉴定的PAM序列,针对含有单个PAM的质粒测试CasY.1基因座。仅在含有鉴定的5′TAPAM序列的靶标存在下证明了质粒干扰图11c。因此,这些数据示出,CRISPR-CasY具有DNA干扰活性。讨论鉴定并表征来自非培养细菌和古细菌的基因组中的新的2类CRISPR-Cas适应性免疫系统。Cas1图12a的进化分析其对于活性CRISPR基因座是通用的表明,在此所述的古细菌Cas9系统不明显属于任何现有的II型亚型。Cas1系统发育以及cas4的存在将其与II-B型系统聚类到一起,但Cas9的序列更类似于II-C型蛋白图20。因此,古细菌II型系统可作为II-C和II-B型系统的融合体出现图12b。同样,Cas1系统发育分析指示来自CRISPR-CasX系统的Cas1远离任何其他已知的V型系统。V型系统已表明是转座子与来自原始I型系统的适配模块Cas1–Cas2的融合的结果。因此假设CRISPR-CasX系统在与产生前述V型系统的事件不同的融合事件之后出现。引人注目的是,CRISPR-CasY和推定C2c3系统两者似乎都缺乏Cas2,其是一种被认为对于将DNA整合到CRISPR基因座中必需的蛋白质。鉴于所有CRISPR-Cas系统都被认为是含有Cas1和Cas2二者的原始I型系统的后代,CRISPR-CasY和C2c3系统可能具有与其他CRISPR-Cas系统不同的祖先,或者可替代地,Cas2可能在其进化历史中丢失了。本文所述的古细菌中的Cas9和细菌中的两个先前未知的CRISPR-Cas系统的发现使用了从复杂的天然微生物群落获得的大量的DNA和RNA序列数据集。在CasX和CasY的情况下,基因组内容对于从未组装的序列信息中预测不明显的功能是至关重要的。此外,通过分析宏基因组数据指导的功能测试,发现了推定tracrRNA的鉴定以及靶向病毒序列。有趣的是,迄今鉴定的一些最紧凑的CRISPR-Cas基因座是在具有非常小的基因组的生物体中发现的。小基因组尺寸的结果是这些生物体出于基本代谢需求可能依赖于其他群落成员,并且因此它们基本上仍然在传统的基于培养的方法的范围之外。干扰所需的蛋白质的有限数量使得这些最小系统对于开发新的基因组编辑工具特别有价值。重要的是,本文示出,与CRISPR-Cas系统相关的宏基因组发现不限于计算机模拟观察,而是可被引入可测试其功能的实验环境中。鉴于几乎所有存在生命的环境现在都可通过基因组解析的宏基因组方法进行探测,预计本文所述的组合计算机实验方法将极大地扩展已知CRISPR-Cas系统的多样性,从而提供生物研究和临床应用的新技术。方法宏基因组学和宏转录组学分析了来自三个不同地点的宏基因组样品:1在2006年与2010年之间从RichmondMine,IronMountain,California采集的酸性矿山排水AMD样品,2在2007年与2013年之间从毗邻Rifle,Colorado附近的ColoradoRiver的RifleIntegratedFieldResearchIFRC地点采集的地下水和沉积物样品。3在2009年和2014年从位于犹他州科罗拉多高原的冷CO2驱动的间歇泉CrystalGeyser采集的地下水。对于AMD数据,Denef和Banfield2012以及Miller等人2011报道了DNA提取方法和短读测序。对于Rifle数据,Anantharaman等人2016和Brown等人2015描述了DNA和RNA提取以及测序、组装和重建的基因组。对于来自CrystalGeyser的样品,方法遵循Probst等人2016和Emerson等人2015描述的那些方法。简而言之,使用PowerSoilDNA分离试剂盒MoBioLaboratoriesInc.,Carlsbad,CA,USA从样品中提取DNA。如Brown等人2015所述,从六个2011Rifle地下水样品中采集的0.2μm滤液中提取RNA。在IlluminaHiSeq2000平台上对DNA进行测序,并在5500XLSOLiD平台上对宏转录组cDNA进行测序。对于新报道的CrystalGeyser数据和AMD数据的再分析,使用IDBA-UD组装序列。使用Bowtie2进行DNA和RNAcDNA读取映射,其分别用于确定测序覆盖度和基因表达。使用Prodigal在组装的支架上预测开放阅读框ORF。使用涌现自组织映射ESOM,使用ABAWACA、ABAWACA2https:github.comCK7Maxbin2和四核苷酸频率的组合,基于差异覆盖丰度模式对来自CrystalGeyser数据集的支架进行分级。使用%GC含量、分类学从属关系和基因组完整性手动整理基因组。使用ra2.pyhttps:github.comchristophertbrown校正支架错误。CRISPR-Cas计算分析使用隐马尔科夫模型HMM序型扫描来自各种样品的组装重叠群的已知Cas蛋白,所述序型使用HMMer套件基于Makarova等人和Shmakov等人的比对来构建。使用CrisprFinder软件的本地版本鉴定CRISPR阵列。如果与cas1基因相邻的10个ORF中的一个编码大于800个aa的未表征蛋白,并且在相同重叠群上未鉴定出已知的cas干扰基因,则进一步分析包含Cas1和CRISPR阵列两者的基因座。将这些大蛋白质作为潜在的2类Cas效应物进一步分析。基于使用MCL的序列相似性,将潜在的效应物聚类到蛋白质家族。通过构建代表这些家族中的每一个的HMM并使用它们在宏基因组数据集中检索相似的Cas蛋白,来扩展这些蛋白质家族。为了确保蛋白质家族确实是新的,使用针对NCBI的非冗余nr和宏基因组env_nr蛋白质数据库的BLAST以及针对UniProt知识库的HMM检索来检索已知同源物。只有没有全长命中的蛋白质蛋白质长度的25%才被认为是新型蛋白质。使用来自HH-套件HH-suite的HHpred进行推定的Cas蛋白的远同源性检索。基于与解析的晶体结构的比较以及由JPred4预测的二级结构,使用高分HHpred命中来推断结构域架构。HMM数据库,包括新发现的Cas蛋白,可见于补充数据1。使用CrisprFinder由组装的数据确定间隔序列。CRASS用于在相关样品的短DNA读取中定位另外的间隔序列。然后通过针对与间隔序列具有≤1个错配的命中的相关宏基因组组装的BLAST检索使用“-taskblastn-short”鉴定间隔序列靶标原间隔序列。将属于含有相关重复序列的重叠群的命中过滤掉以避免将CRISPR阵列鉴定为原间隔序列。通过比对侧接原间隔序列的区域并使用WebLogo可视化来鉴定原间隔序列相邻基序PAM。使用mFold预测RNA结构。通过手动比对来自组装数据的间隔序列、重复序列和侧翼序列来分析CRISPR阵列多样性。使用Geneious9.1进行手动比对和重叠群可视化。对于新鉴定的系统的Cas1和Cas9蛋白的系统发育分析,与来自Makarova等人和Shmakov等人的蛋白质一起使用。通过使用CD-HIT将具有≥90%同一性的蛋白质聚类在一起来编译非冗余组。使用MAFFT生成比对,并且使用以PROTGAMMALG作为替代模型的RAxML和100个自举取样构建最大似然系统发育。Cas1树使用通向casposons的分支做根。使用FigTree1.4.1http:tree.bio.ed.ac.uksoftwarefigtree和iTOLv3对树进行可视化。生成异源质粒通过去除与CasX的获得相关联的蛋白质并减小CasX和CasY二者的CRISPR阵列的大小,将宏基因组重叠群制成最小CRISPR干扰质粒。最小基因座合成为GblocksIntegratedDNATechnology并使用Gibson组装进行组装。PAM缺失测定如前所述,经过修改进行PAM缺失测定。将含有随机化PAM序列的质粒文库通过用引物对含有具有7个nt的随机化PAM区的靶标的DNA寡核苷酸进行退火来组装,并用Klenow片段NEB来延伸。将双链DNA用EcoRI和NcoI消化,并连接到pUC19骨架中。将连接的文库转化到DH5α中,并且收获108个细胞,并且提取并纯化所述质粒。将200ng合并的文库转化到携带CRISPR基因座或没有基因座的对照质粒的电感受态大肠杆菌中。在25℃下将转化的细胞铺板在含有羧苄青霉素100mgL-1和氯霉素30mgL-1的选择性培养基上30小时。提取质粒DNA,并用衔接子扩增PAM序列以用于Illumina测序。提取7个nt的PAM区并计算每个7个nt序列的PAM频率。使用缺失高于指定阈值的PAM序列来生成WebLogo。质粒干扰将从宏基因组序列分析或PAM缺失测定中鉴定的推定靶标克隆到pUC19质粒中。将10ng靶质粒转化到含有CRISPR基因座质粒的电感受态大肠杆菌NEB稳定的中。将细胞在25℃下恢复2小时,并将适当的稀释液铺板在选择性培养基上。将平板在25℃下孵育,并计数菌落形成单位。所有的质粒干扰实验一式三份进行,并且每个平行测定独立制备电感受态细胞。ARMAN-Cas9蛋白表达和纯化来自ARMAN-1AR1和ARMAN-4AR4的Cas9的表达构建体由对大肠杆菌进行密码子优化的gBlocksIntegratedDNATechnologies组装而成。将组装的基因克隆到基于pET的表达载体中,作为N末端His6-MBP或His6融合蛋白。将表达载体转化到BL21DE3大肠杆菌细胞中,并在37℃下在LB肉汤中生长。对于蛋白质表达,将细胞在对数中期期间用0.4mMIPTG异丙基β-D-1-硫代吡喃半乳糖苷诱导,并在16℃下孵育过夜。所有后续步骤均在4℃下进行。将细胞沉淀重悬于裂解缓冲液50mMTris-HClpH8、500mMNaCl、1mMTCEP、10mM咪唑0.5%TritonX-100中并补充有完全蛋白酶抑制剂混合物Roche,然后通过超声处理裂解。将裂解液通过在15000g下离心40分钟澄清,并分批施加到SuperflowNi-NTA琼脂糖Qiagen。将树脂用洗涤缓冲液A50mMTris-HClpH8、500mMNaCl、1mMTCEP、10mM咪唑充分洗涤,然后用5倍柱体积的洗涤缓冲液B50mMTris-HClpH8、1MNaCl、1mMTCEP、10mM咪唑洗涤。用洗脱缓冲液50mMTris-HClpH8、500mMNaCl、1mMTCEP、300mM咪唑从Ni-NTA树脂上洗脱蛋白质。在针对洗涤缓冲液A过夜透析期间,通过TEV蛋白酶除去His6-MBP标签。通过第二个Ni-NTA琼脂糖柱从亲和标签上取出切割的Cas9。将蛋白质透析到IEX缓冲液A50mMTris-HClpH7.5、300mMNaCl、1mMTCEP、5%甘油中,然后施加到5mL肝素HiTrap柱GELifeSciences。以线性NaCl0.3-1.5M梯度洗脱Cas9。将级分合并并用30kDa旋转浓缩器ThermoFisher进行浓缩。适用时,将Cas9在Superdex200pg柱GELifeSciences上通过尺寸排阻色谱法进一步纯化,并储存在IEX缓冲液A中以用于随后的切割测定。对于酵母表达,将AR1-Cas9克隆到Gal110His6-MBPTEVUra酿酒酵母表达载体Addgene质粒#48305中。将载体转化到BY4741URA3菌株中,并使培养物在30℃下在培养基中生长。在~0.6的OD600下,用2%wv半乳糖诱导蛋白质表达,并在16℃下孵育过夜。如上进行蛋白质纯化。RNA体外转录和寡核苷酸纯化如前所述65,使用含有T7启动子序列的合成DNA模板进行体外转录反应。通过变性PAGE纯化所有体外转录的指导RNA和靶RNA或DNA。通过在95℃孵育1分钟,将双链靶RNA和DNA在20mMTrisHClpH7.5和100mMNaCl中杂交,然后缓慢冷却至室温。通过天然PAGE纯化杂交体。体外切割测定使用T4多核苷酸激酶NEB和[γ-32P]ATPPerkin-Elmer将纯化的DNA和RNA寡核苷酸在1xPNK缓冲液中在37℃下进行放射标记30分钟。将PNK在65℃下加热灭活20分钟,并使用illustraMicrospinG-25柱GELifeSciences从标记反应中去除游离ATP。将CrRNA和tracrRNA以等摩尔量在1x重折叠缓冲液50mMTrisHClpH7.5、300mMNaCl、1mMTCEP、5%甘油中混合,并在70℃下孵育5分钟,并且然后缓慢冷却至室温。将反应补充至1mM最终金属浓度,并且随后在50℃下加热5分钟。缓慢冷却至室温后,将重折叠的指导物置于冰上。除非针对缓冲液、盐浓度说明,否则将Cas9与等摩尔量的指导物在37℃下在1x切割缓冲液50mMTrisHClpH7.5、300mMNaCl、1mMTCEP、5%甘油、5mM二价金属中重构10分钟。切割反应在具有放射标记的靶标的10x过量Cas9指导复合物的1x切割缓冲液中在37℃或指定温度下进行。在等体积的补充有50mMEDTA的凝胶上样缓冲液中淬灭反应。将切割产物在10%变性PAGE上分离并通过磷光成像可视化。体内大肠杆菌干扰测定如先前公布的66,进行AR1-Cas9和AR4-Cas9的大肠杆菌转化测定。简而言之,用指导RNA转化的大肠杆菌被制成电感受态。然后用9fmol编码野生型或无催化活性的Cas9dCas9的质粒转化细胞。将稀释系列的恢复细胞铺板在具有选择性抗生素的LB平板上。在37℃下16小时后对菌落进行计数。表1.有关鉴定CRISPR-Cas系统的生物体和基因组位置的详细信息,以及重建间隔序列的数量和平均长度和重复序列长度的信息NA,不可用。由16个样品重建ARMAN-1间隔序列。虽然本发明已经参考其特定实施方案进行描述,但是本领域技术人员应理解,可在不脱离本发明的真实精神和范围的情况下进行各种改变并且可进行等同物替换。另外,为了使特定情况、材料、物质组成、方法、一个或多个方法步骤适应本发明的目的、精神和范围,可进行许多修改。所有此类修改意图处于所附权利要求的范围内。序列表Doudna,JenniferABurstein,DavidBanfield,JillianFHarrington,LucasBRNA指导的核酸修饰酶及其使用方法BERK-343WOUS62402,8492016-09-30134PatentIn3.5版11125PRT未知Unknown合成序列1MetArgLysLysLeuPheLysGlyTyrIleLeuHisAsnLysArgLeu151015ValTyrThrGlyLysAlaAlaIleArgSerIleLysTyrProLeuVal202530AlaProAsnLysThrAlaLeuAsnAsnLeuSerGluLysIleIleTyr354045AspTyrGluHisLeuPheGlyProLeuAsnValAlaSerTyrAlaArg505560AsnSerAsnArgTyrSerLeuValAspPheTrpIleAspSerLeuArg65707580AlaGlyValIleTrpGlnSerLysSerThrSerLeuIleAspLeuIle859095SerLysLeuGluGlySerLysSerProSerGluLysIlePheGluGln100105110IleAspPheGluLeuLysAsnLysLeuAspLysGluGlnPheLysAsp115120125IleIleLeuLeuAsnThrGlyIleArgSerSerSerAsnValArgSer130135140LeuArgGlyArgPheLeuLysCysPheLysGluGluPheArgAspThr145150155160GluGluValIleAlaCysValAspLysTrpSerLysAspLeuIleVal165170175GluGlyLysSerIleLeuValSerLysGlnPheLeuTyrTrpGluGlu180185190GluPheGlyIleLysIlePheProHisPheLysAspAsnHisAspLeu195200205ProLysLeuThrPhePheValGluProSerLeuGluPheSerProHis210215220LeuProLeuAlaAsnCysLeuGluArgLeuLysLysPheAspIleSer225230235240ArgGluSerLeuLeuGlyLeuAspAsnAsnPheSerAlaPheSerAsn245250255TyrPheAsnGluLeuPheAsnLeuLeuSerArgGlyGluIleLysLys260265270IleValThrAlaValLeuAlaValSerLysSerTrpGluAsnGluPro275280285GluLeuGluLysArgLeuHisPheLeuSerGluLysAlaLysLeuLeu290295300GlyTyrProLysLeuThrSerSerTrpAlaAspTyrArgMetIleIle305310315320GlyGlyLysIleLysSerTrpHisSerAsnTyrThrGluGlnLeuIle325330335LysValArgGluAspLeuLysLysHisGlnIleAlaLeuAspLysLeu340345350GlnGluAspLeuLysLysValValAspSerSerLeuArgGluGlnIle355360365GluAlaGlnArgGluAlaLeuLeuProLeuLeuAspThrMetLeuLys370375380GluLysAspPheSerAspAspLeuGluLeuTyrArgPheIleLeuSer385390395400AspPheLysSerLeuLeuAsnGlySerTyrGlnArgTyrIleGlnThr405410415GluGluGluArgLysGluAspArgAspValThrLysLysTyrLysAsp420425430LeuTyrSerAsnLeuArgAsnIleProArgPhePheGlyGluSerLys435440445LysGluGlnPheAsnLysPheIleAsnLysSerLeuProThrIleAsp450455460ValGlyLeuLysIleLeuGluAspIleArgAsnAlaLeuGluThrVal465470475480SerValArgLysProProSerIleThrGluGluTyrValThrLysGln485490495LeuGluLysLeuSerArgLysTyrLysIleAsnAlaPheAsnSerAsn500505510ArgPheLysGlnIleThrGluGlnValLeuArgLysTyrAsnAsnGly515520525GluLeuProLysIleSerGluValPheTyrArgTyrProArgGluSer530535540HisValAlaIleArgIleLeuProValLysIleSerAsnProArgLys545550555560AspIleSerTyrLeuLeuAspLysTyrGlnIleSerProAspTrpLys565570575AsnSerAsnProGlyGluValValAspLeuIleGluIleTyrLysLeu580585590ThrLeuGlyTrpLeuLeuSerCysAsnLysAspPheSerMetAspPhe595600605SerSerTyrAspLeuLysLeuPheProGluAlaAlaSerLeuIleLys610615620AsnPheGlySerCysLeuSerGlyTyrTyrLeuSerLysMetIlePhe625630635640AsnCysIleThrSerGluIleLysGlyMetIleThrLeuTyrThrArg645650655AspLysPheValValArgTyrValThrGlnMetIleGlySerAsnGln660665670LysPheProLeuLeuCysLeuValGlyGluLysGlnThrLysAsnPhe675680685SerArgAsnTrpGlyValLeuIleGluGluLysGlyAspLeuGlyGlu690695700GluLysAsnGlnGluLysCysLeuIlePheLysAspLysThrAspPhe705710715720AlaLysAlaLysGluValGluIlePheLysAsnAsnIleTrpArgIle725730735ArgThrSerLysTyrGlnIleGlnPheLeuAsnArgLeuPheLysLys740745750ThrLysGluTrpAspLeuMetAsnLeuValLeuSerGluProSerLeu755760765ValLeuGluGluGluTrpGlyValSerTrpAspLysAspLysLeuLeu770775780ProLeuLeuLysLysGluLysSerCysGluGluArgLeuTyrTyrSer785790795800LeuProLeuAsnLeuValProAlaThrAspTyrLysGluGlnSerAla805810815GluIleGluGlnArgAsnThrTyrLeuGlyLeuAspValGlyGluPhe820825830GlyValAlaTyrAlaValValArgIleValArgAspArgIleGluLeu835840845LeuSerTrpGlyPheLeuLysAspProAlaLeuArgLysIleArgGlu850855860ArgValGlnAspMetLysLysLysGlnValMetAlaValPheSerSer865870875880SerSerThrAlaValAlaArgValArgGluMetAlaIleHisSerLeu885890895ArgAsnGlnIleHisSerIleAlaLeuAlaTyrLysAlaLysIleIle900905910TyrGluIleSerIleSerAsnPheGluThrGlyGlyAsnArgMetAla915920925LysIleTyrArgSerIleLysValSerAspValTyrArgGluSerGly930935940AlaAspThrLeuValSerGluMetIleTrpGlyLysLysAsnLysGln945950955960MetGlyAsnHisIleSerSerTyrAlaThrSerTyrThrCysCysAsn965970975CysAlaArgThrProPheGluLeuValIleAspAsnAspLysGluTyr980985990GluLysGlyGlyAspGluPheIlePheAsnValGlyAspGluLysLys99510001005ValArgGlyPheLeuGlnLysSerLeuLeuGlyLysThrIleLys101010151020GlyLysGluValLeuLysSerIleLysGluTyrAlaArgProPro102510301035IleArgGluValLeuLeuGluGlyGluAspValGluGlnLeuLeu104010451050LysArgArgGlyAsnSerTyrIleTyrArgCysProPheCysGly105510601065TyrLysThrAspAlaAspIleGlnAlaAlaLeuAsnIleAlaCys107010751080ArgGlyTyrIleSerAspAsnAlaLysAspAlaValLysGluGly108510901095GluArgLysLeuAspTyrIleLeuGluValArgLysLeuTrpGlu110011051110LysAsnGlyAlaValLeuArgSerAlaLysPheLeu11151120112521226PRT未知Unknown合成序列2MetGlnLysValArgLysThrLeuSerGluValHisLysAsnProTyr151015GlyThrLysValArgAsnAlaLysThrGlyTyrSerLeuGlnIleGlu202530ArgLeuSerTyrThrGlyLysGluGlyMetArgSerPheLysIlePro354045LeuGluAsnLysAsnLysGluValPheAspGluPheValLysLysIle505560ArgAsnAspTyrIleSerGlnValGlyLeuLeuAsnLeuSerAspTrp65707580TyrGluHisTyrGlnGluLysGlnGluHisTyrSerLeuAlaAspPhe859095TrpLeuAspSerLeuArgAlaGlyValIlePheAlaHisLysGluThr100105110GluIleLysAsnLeuIleSerLysIleArgGlyAspLysSerIleVal115120125AspLysPheAsnAlaSerIleLysLysLysHisAlaAspLeuTyrAla130135140LeuValAspIleLysAlaLeuTyrAspPheLeuThrSerAspAlaArg145150155160ArgGlyLeuLysThrGluGluGluPhePheAsnSerLysArgAsnThr165170175LeuPheProLysPheArgLysLysAspAsnLysAlaValAspLeuTrp180185190ValLysLysPheIleGlyLeuAspAsnLysAspLysLeuAsnPheThr195200205LysLysPheIleGlyPheAspProAsnProGlnIleLysTyrAspHis210215220ThrPhePhePheHisGlnAspIleAsnPheAspLeuGluArgIleThr225230235240ThrProLysGluLeuIleSerThrTyrLysLysPheLeuGlyLysAsn245250255LysAspLeuTyrGlySerAspGluThrThrGluAspGlnLeuLysMet260265270ValLeuGlyPheHisAsnAsnHisGlyAlaPheSerLysTyrPheAsn275280285AlaSerLeuGluAlaPheArgGlyArgAspAsnSerLeuValGluGln290295300IleIleAsnAsnSerProTyrTrpAsnSerHisArgLysGluLeuGlu305310315320LysArgIleIlePheLeuGlnValGlnSerLysLysIleLysGluThr325330335GluLeuGlyLysProHisGluTyrLeuAlaSerPheGlyGlyLysPhe340345350GluSerTrpValSerAsnTyrLeuArgGlnGluGluGluValLysArg355360365GlnLeuPheGlyTyrGluGluAsnLysLysGlyGlnLysLysPheIle370375380ValGlyAsnLysGlnGluLeuAspLysIleIleArgGlyThrAspGlu385390395400TyrGluIleLysAlaIleSerLysGluThrIleGlyLeuThrGlnLys405410415CysLeuLysLeuLeuGluGlnLeuLysAspSerValAspAspTyrThr420425430LeuSerLeuTyrArgGlnLeuIleValGluLeuArgIleArgLeuAsn435440445ValGluPheGlnGluThrTyrProGluLeuIleGlyLysSerGluLys450455460AspLysGluLysAspAlaLysAsnLysArgAlaAspLysArgTyrPro465470475480GlnIlePheLysAspIleLysLeuIleProAsnPheLeuGlyGluThr485490495LysGlnMetValTyrLysLysPheIleArgSerAlaAspIleLeuTyr500505510GluGlyIleAsnPheIleAspGlnIleAspLysGlnIleThrGlnAsn515520525LeuLeuProCysPheLysAsnAspLysGluArgIleGluPheThrGlu530535540LysGlnPheGluThrLeuArgArgLysTyrTyrLeuMetAsnSerSer545550555560ArgPheHisHisValIleGluGlyIleIleAsnAsnArgLysLeuIle565570575GluMetLysLysArgGluAsnSerGluLeuLysThrPheSerAspSer580585590LysPheValLeuSerLysLeuPheLeuLysLysGlyLysLysTyrGlu595600605AsnGluValTyrTyrThrPheTyrIleAsnProLysAlaArgAspGln610615620ArgArgIleLysIleValLeuAspIleAsnGlyAsnAsnSerValGly625630635640IleLeuGlnAspLeuValGlnLysLeuLysProLysTrpAspAspIle645650655IleLysLysAsnAspMetGlyGluLeuIleAspAlaIleGluIleGlu660665670LysValArgLeuGlyIleLeuIleAlaLeuTyrCysGluHisLysPhe675680685LysIleLysLysGluLeuLeuSerLeuAspLeuPheAlaSerAlaTyr690695700GlnTyrLeuGluLeuGluAspAspProGluGluLeuSerGlyThrAsn705710715720LeuGlyArgPheLeuGlnSerLeuValCysSerGluIleLysGlyAla725730735IleAsnLysIleSerArgThrGluTyrIleGluArgTyrThrValGln740745750ProMetAsnThrGluLysAsnTyrProLeuLeuIleAsnLysGluGly755760765LysAlaThrTrpHisIleAlaAlaLysAspAspLeuSerLysLysLys770775780GlyGlyGlyThrValAlaMetAsnGlnLysIleGlyLysAsnPhePhe785790795800GlyLysGlnAspTyrLysThrValPheMetLeuGlnAspLysArgPhe805810815AspLeuLeuThrSerLysTyrHisLeuGlnPheLeuSerLysThrLeu820825830AspThrGlyGlyGlySerTrpTrpLysAsnLysAsnIleAspLeuAsn835840845LeuSerSerTyrSerPheIlePheGluGlnLysValLysValGluTrp850855860AspLeuThrAsnLeuAspHisProIleLysIleLysProSerGluAsn865870875880SerAspAspArgArgLeuPheValSerIleProPheValIleLysPro885890895LysGlnThrLysArgLysAspLeuGlnThrArgValAsnTyrMetGly900905910IleAspIleGlyGluTyrGlyLeuAlaTrpThrIleIleAsnIleAsp915920925LeuLysAsnLysLysIleAsnLysIleSerLysGlnGlyPheIleTyr930935940GluProLeuThrHisLysValArgAspTyrValAlaThrIleLysAsp945950955960AsnGlnValArgGlyThrPheGlyMetProAspThrLysLeuAlaArg965970975LeuArgGluAsnAlaIleThrSerLeuArgAsnGlnValHisAspIle980985990AlaMetArgTyrAspAlaLysProValTyrGluPheGluIleSerAsn99510001005PheGluThrGlySerAsnLysValLysValIleTyrAspSerVal101010151020LysArgAlaAspIleGlyArgGlyGlnAsnAsnThrGluAlaAsp102510301035AsnThrGluValAsnLeuValTrpGlyLysThrSerLysGlnPhe104010451050GlySerGlnIleGlyAlaTyrAlaThrSerTyrIleCysSerPhe105510601065CysGlyTyrSerProTyrTyrGluPheGluAsnSerLysSerGly107010751080AspGluGluGlyAlaArgAspAsnLeuTyrGlnMetLysLysLeu108510901095SerArgProSerLeuGluAspPheLeuGlnGlyAsnProValTyr110011051110LysThrPheArgAspPheAspLysTyrLysAsnAspGlnArgLeu111511201125GlnLysThrGlyAspLysAspGlyGluTrpLysThrHisArgGly113011351140AsnThrAlaIleTyrAlaCysGlnLysCysArgHisIleSerAsp114511501155AlaAspIleGlnAlaSerTyrTrpIleAlaLeuLysGlnValVal116011651170ArgAspPheTyrLysAspLysGluMetAspGlyAspLeuIleGln117511801185GlyAspAsnLysAspLysArgLysValAsnGluLeuAsnArgLeu119011951200IleGlyValHisLysAspValProIleIleAsnLysAsnLeuIle120512101215ThrSerLeuAspIleAsnLeuLeu1220122531160PRT未知Unknown合成序列3MetLysAlaLysLysSerPheTyrAsnGlnLysArgLysPheGlyLys151015ArgGlyTyrArgLeuHisAspGluArgIleAlaTyrSerGlyGlyIle202530GlySerMetArgSerIleLysTyrGluLeuLysAspSerTyrGlyIle354045AlaGlyLeuArgAsnArgIleAlaAspAlaThrIleSerAspAsnLys505560TrpLeuTyrGlyAsnIleAsnLeuAsnAspTyrLeuGluTrpArgSer65707580SerLysThrAspLysGlnIleGluAspGlyAspArgGluSerSerLeu859095LeuGlyPheTrpLeuGluAlaLeuArgLeuGlyPheValPheSerLys100105110GlnSerHisAlaProAsnAspPheAsnGluThrAlaLeuGlnAspLeu115120125PheGluThrLeuAspAspAspLeuLysHisValLeuAspArgLysLys130135140TrpCysAspPheIleLysIleGlyThrProLysThrAsnAspGlnGly145150155160ArgLeuLysLysGlnIleLysAsnLeuLeuLysGlyAsnLysArgGlu165170175GluIleGluLysThrLeuAsnGluSerAspAspGluLeuLysGluLys180185190IleAsnArgIleAlaAspValPheAlaLysAsnLysSerAspLysTyr195200205ThrIlePheLysLeuAspLysProAsnThrGluLysTyrProArgIle210215220AsnAspValGlnValAlaPhePheCysHisProAspPheGluGluIle225230235240ThrGluArgAspArgThrLysThrLeuAspLeuIleIleAsnArgPhe245250255AsnLysArgTyrGluIleThrGluAsnLysLysAspAspLysThrSer260265270AsnArgMetAlaLeuTyrSerLeuAsnGlnGlyTyrIleProArgVal275280285LeuAsnAspLeuPheLeuPheValLysAspAsnGluAspAspPheSer290295300GlnPheLeuSerAspLeuGluAsnPhePheSerPheSerAsnGluGln305310315320IleLysIleIleLysGluArgLeuLysLysLeuLysLysTyrAlaGlu325330335ProIleProGlyLysProGlnLeuAlaAspLysTrpAspAspTyrAla340345350SerAspPheGlyGlyLysLeuGluSerTrpTyrSerAsnArgIleGlu355360365LysLeuLysLysIleProGluSerValSerAspLeuArgAsnAsnLeu370375380GluLysIleArgAsnValLeuLysLysGlnAsnAsnAlaSerLysIle385390395400LeuGluLeuSerGlnLysIleIleGluTyrIleArgAspTyrGlyVal405410415SerPheGluLysProGluIleIleLysPheSerTrpIleAsnLysThr420425430LysAspGlyGlnLysLysValPheTyrValAlaLysMetAlaAspArg435440445GluPheIleGluLysLeuAspLeuTrpMetAlaAspLeuArgSerGln450455460LeuAsnGluTyrAsnGlnAspAsnLysValSerPheLysLysLysGly465470475480LysLysIleGluGluLeuGlyValLeuAspPheAlaLeuAsnLysAla485490495LysLysAsnLysSerThrLysAsnGluAsnGlyTrpGlnGlnLysLeu500505510SerGluSerIleGlnSerAlaProLeuPhePheGlyGluGlyAsnArg515520525ValArgAsnGluGluValTyrAsnLeuLysAspLeuLeuPheSerGlu530535540IleLysAsnValGluAsnIleLeuMetSerSerGluAlaGluAspLeu545550555560LysAsnIleLysIleGluTyrLysGluAspGlyAlaLysLysGlyAsn565570575TyrValLeuAsnValLeuAlaArgPheTyrAlaArgPheAsnGluAsp580585590GlyTyrGlyGlyTrpAsnLysValLysThrValLeuGluAsnIleAla595600605ArgGluAlaGlyThrAspPheSerLysTyrGlyAsnAsnAsnAsnArg610615620AsnAlaGlyArgPheTyrLeuAsnGlyArgGluArgGlnValPheThr625630635640LeuIleLysPheGluLysSerIleThrValGluLysIleLeuGluLeu645650655ValLysLeuProSerLeuLeuAspGluAlaTyrArgAspLeuValAsn660665670GluAsnLysAsnHisLysLeuArgAspValIleGlnLeuSerLysThr675680685IleMetAlaLeuValLeuSerHisSerAspLysGluLysGlnIleGly690695700GlyAsnTyrIleHisSerLysLeuSerGlyTyrAsnAlaLeuIleSer705710715720LysArgAspPheIleSerArgTyrSerValGlnThrThrAsnGlyThr725730735GlnCysLysLeuAlaIleGlyLysGlyLysSerLysLysGlyAsnGlu740745750IleAspArgTyrPheTyrAlaPheGlnPhePheLysAsnAspAspSer755760765LysIleAsnLeuLysValIleLysAsnAsnSerHisLysAsnIleAsp770775780PheAsnAspAsnGluAsnLysIleAsnAlaLeuGlnValTyrSerSer785790795800AsnTyrGlnIleGlnPheLeuAspTrpPhePheGluLysHisGlnGly805810815LysLysThrSerLeuGluValGlyGlySerPheThrIleAlaGluLys820825830SerLeuThrIleAspTrpSerGlySerAsnProArgValGlyPheLys835840845ArgSerAspThrGluGluLysArgValPheValSerGlnProPheThr850855860LeuIleProAspAspGluAspLysGluArgArgLysGluArgMetIle865870875880LysThrLysAsnArgPheIleGlyIleAspIleGlyGluTyrGlyLeu885890895AlaTrpSerLeuIleGluValAspAsnGlyAspLysAsnAsnArgGly900905910IleArgGlnLeuGluSerGlyPheIleThrAspAsnGlnGlnGlnVal915920925LeuLysLysAsnValLysSerTrpArgGlnAsnGlnIleArgGlnThr930935940PheThrSerProAspThrLysIleAlaArgLeuArgGluSerLeuIle945950955960GlySerTyrLysAsnGlnLeuGluSerLeuMetValAlaLysLysAla965970975AsnLeuSerPheGluTyrGluValSerGlyPheGluValGlyGlyLys980985990ArgValAlaLysIleTyrAspSerIleLysArgGlySerValArgLys99510001005LysAspAsnAsnSerGlnAsnAspGlnSerTrpGlyLysLysGly101010151020IleAsnGluTrpSerPheGluThrThrAlaAlaGlyThrSerGln102510301035PheCysThrHisCysLysArgTrpSerSerLeuAlaIleValAsp104010451050IleGluGluTyrGluLeuLysAspTyrAsnAspAsnLeuPheLys105510601065ValLysIleAsnAspGlyGluValArgLeuLeuGlyLysLysGly107010751080TrpArgSerGlyGluLysIleLysGlyLysGluLeuPheGlyPro108510901095ValLysAspAlaMetArgProAsnValAspGlyLeuGlyMetLys110011051110IleValLysArgLysTyrLeuLysLeuAspLeuArgAspTrpVal111511201125SerArgTyrGlyAsnMetAlaIlePheIleCysProTyrValAsp113011351140CysHisHisIleSerHisAlaAspLysGlnAlaAlaPheAsnIle114511501155AlaVal116041210PRT未知Unknown合成序列4MetSerLysArgHisProArgIleSerGlyValLysGlyTyrArgLeu151015HisAlaGlnArgLeuGluTyrThrGlyLysSerGlyAlaMetArgThr202530IleLysTyrProLeuTyrSerSerProSerGlyGlyArgThrValPro354045ArgGluIleValSerAlaIleAsnAspAspTyrValGlyLeuTyrGly505560LeuSerAsnPheAspAspLeuTyrAsnAlaGluLysArgAsnGluGlu65707580LysValTyrSerValLeuAspPheTrpTyrAspCysValGlnTyrGly859095AlaValPheSerTyrThrAlaProGlyLeuLeuLysAsnValAlaGlu100105110ValArgGlyGlySerTyrGluLeuThrLysThrLeuLysGlySerHis115120125LeuTyrAspGluLeuGlnIleAspLysValIleLysPheLeuAsnLys130135140LysGluIleSerArgAlaAsnGlySerLeuAspLysLeuLysLysAsp145150155160IleIleAspCysPheLysAlaGluTyrArgGluArgHisLysAspGln165170175CysAsnLysLeuAlaAspAspIleLysAsnAlaLysLysAspAlaGly180185190AlaSerLeuGlyGluArgGlnLysLysLeuPheArgAspPhePheGly195200205IleSerGluGlnSerGluAsnAspLysProSerPheThrAsnProLeu210215220AsnLeuThrCysCysLeuLeuProPheAspThrValAsnAsnAsnArg225230235240AsnArgGlyGluValLeuPheAsnLysLeuLysGluTyrAlaGlnLys245250255LeuAspLysAsnGluGlySerLeuGluMetTrpGluTyrIleGlyIle260265270GlyAsnSerGlyThrAlaPheSerAsnPheLeuGlyGluGlyPheLeu275280285GlyArgLeuArgGluAsnLysIleThrGluLeuLysLysAlaMetMet290295300AspIleThrAspAlaTrpArgGlyGlnGluGlnGluGluGluLeuGlu305310315320LysArgLeuArgIleLeuAlaAlaLeuThrIleLysLeuArgGluPro325330335LysPheAspAsnHisTrpGlyGlyTyrArgSerAspIleAsnGlyLys340345350LeuSerSerTrpLeuGlnAsnTyrIleAsnGlnThrValLysIleLys355360365GluAspLeuLysGlyHisLysLysAspLeuLysLysAlaLysGluMet370375380IleAsnArgPheGlyGluSerAspThrLysGluGluAlaValValSer385390395400SerLeuLeuGluSerIleGluLysIleValProAspAspSerAlaAsp405410415AspGluLysProAspIleProAlaIleAlaIleTyrArgArgPheLeu420425430SerAspGlyArgLeuThrLeuAsnArgPheValGlnArgGluAspVal435440445GlnGluAlaLeuIleLysGluArgLeuGluAlaGluLysLysLysLys450455460ProLysLysArgLysLysLysSerAspAlaGluAspGluLysGluThr465470475480IleAspPheLysGluLeuPheProHisLeuAlaLysProLeuLysLeu485490495ValProAsnPheTyrGlyAspSerLysArgGluLeuTyrLysLysTyr500505510LysAsnAlaAlaIleTyrThrAspAlaLeuTrpLysAlaValGluLys515520525IleTyrLysSerAlaPheSerSerSerLeuLysAsnSerPhePheAsp530535540ThrAspPheAspLysAspPhePheIleLysArgLeuGlnLysIlePhe545550555560SerValTyrArgArgPheAsnThrAspLysTrpLysProIleValLys565570575AsnSerPheAlaProTyrCysAspIleValSerLeuAlaGluAsnGlu580585590ValLeuTyrLysProLysGlnSerArgSerArgLysSerAlaAlaIle595600605AspLysAsnArgValArgLeuProSerThrGluAsnIleAlaLysAla610615620GlyIleAlaLeuAlaArgGluLeuSerValAlaGlyPheAspTrpLys625630635640AspLeuLeuLysLysGluGluHisGluGluTyrIleAspLeuIleGlu645650655LeuHisLysThrAlaLeuAlaLeuLeuLeuAlaValThrGluThrGln660665670LeuAspIleSerAlaLeuAspPheValGluAsnGlyThrValLysAsp675680685PheMetLysThrArgAspGlyAsnLeuValLeuGluGlyArgPheLeu690695700GluMetPheSerGlnSerIleValPheSerGluLeuArgGlyLeuAla705710715720GlyLeuMetSerArgLysGluPheIleThrArgSerAlaIleGlnThr725730735MetAsnGlyLysGlnAlaGluLeuLeuTyrIleProHisGluPheGln740745750SerAlaLysIleThrThrProLysGluMetSerArgAlaPheLeuAsp755760765LeuAlaProAlaGluPheAlaThrSerLeuGluProGluSerLeuSer770775780GluLysSerLeuLeuLysLeuLysGlnMetArgTyrTyrProHisTyr785790795800PheGlyTyrGluLeuThrArgThrGlyGlnGlyIleAspGlyGlyVal805810815AlaGluAsnAlaLeuArgLeuGluLysSerProValLysLysArgGlu820825830IleLysCysLysGlnTyrLysThrLeuGlyArgGlyGlnAsnLysIle835840845ValLeuTyrValArgSerSerTyrTyrGlnThrGlnPheLeuGluTrp850855860PheLeuHisArgProLysAsnValGlnThrAspValAlaValSerGly865870875880SerPheLeuIleAspGluLysLysValLysThrArgTrpAsnTyrAsp885890895AlaLeuThrValAlaLeuGluProValSerGlySerGluArgValPhe900905910ValSerGlnProPheThrIlePheProGluLysSerAlaGluGluGlu915920925GlyGlnArgTyrLeuGlyIleAspIleGlyGluTyrGlyIleAlaTyr930935940ThrAlaLeuGluIleThrGlyAspSerAlaLysIleLeuAspGlnAsn945950955960PheIleSerAspProGlnLeuLysThrLeuArgGluGluValLysGly965970975LeuLysLeuAspGlnArgArgGlyThrPheAlaMetProSerThrLys980985990IleAlaArgIleArgGluSerLeuValHisSerLeuArgAsnArgIle99510001005HisHisLeuAlaLeuLysHisLysAlaLysIleValTyrGluLeu101010151020GluValSerArgPheGluGluGlyLysGlnLysIleLysLysVal102510301035TyrAlaThrLeuLysLysAlaAspValTyrSerGluIleAspAla104010451050AspLysAsnLeuGlnThrThrValTrpGlyLysLeuAlaValAla105510601065SerGluIleSerAlaSerTyrThrSerGlnPheCysGlyAlaCys107010751080LysLysLeuTrpArgAlaGluMetGlnValAspGluThrIleThr108510901095ThrGlnGluLeuIleGlyThrValArgValIleLysGlyGlyThr110011051110LeuIleAspAlaIleLysAspPheMetArgProProIlePheAsp111511201125GluAsnAspThrProPheProLysTyrArgAspPheCysAspLys113011351140HisHisIleSerLysLysMetArgGlyAsnSerCysLeuPheIle114511501155CysProPheCysArgAlaAsnAlaAspAlaAspIleGlnAlaSer116011651170GlnThrIleAlaLeuLeuArgTyrValLysGluGluLysLysVal117511801185GluAspTyrPheGluArgPheArgLysLeuLysAsnIleLysVal119011951200LeuGlyGlnMetLysLysIle1205121051287PRT未知Unknown合成序列5MetLysArgIleLeuAsnSerLeuLysValAlaAlaLeuArgLeuLeu151015PheArgGlyLysGlySerGluLeuValLysThrValLysTyrProLeu202530ValSerProValGlnGlyAlaValGluGluLeuAlaGluAlaIleArg354045HisAspAsnLeuHisLeuPheGlyGlnLysGluIleValAspLeuMet505560GluLysAspGluGlyThrGlnValTyrSerValValAspPheTrpLeu65707580AspThrLeuArgLeuGlyMetPhePheSerProSerAlaAsnAlaLeu859095LysIleThrLeuGlyLysPheAsnSerAspGlnValSerProPheArg100105110LysValLeuGluGlnSerProPhePheLeuAlaGlyArgLeuLysVal115120125GluProAlaGluArgIleLeuSerValGluIleArgLysIleGlyLys130135140ArgGluAsnArgValGluAsnTyrAlaAlaAspValGluThrCysPhe145150155160IleGlyGlnLeuSerSerAspGluLysGlnSerIleGlnLysLeuAla165170175AsnAspIleTrpAspSerLysAspHisGluGluGlnArgMetLeuLys180185190AlaAspPhePheAlaIleProLeuIleLysAspProLysAlaValThr195200205GluGluAspProGluAsnGluThrAlaGlyLysGlnLysProLeuGlu210215220LeuCysValCysLeuValProGluLeuTyrThrArgGlyPheGlySer225230235240IleAlaAspPheLeuValGlnArgLeuThrLeuLeuArgAspLysMet245250255SerThrAspThrAlaGluAspCysLeuGluTyrValGlyIleGluGlu260265270GluLysGlyAsnGlyMetAsnSerLeuLeuGlyThrPheLeuLysAsn275280285LeuGlnGlyAspGlyPheGluGlnIlePheGlnPheMetLeuGlySer290295300TyrValGlyTrpGlnGlyLysGluAspValLeuArgGluArgLeuAsp305310315320LeuLeuAlaGluLysValLysArgLeuProLysProLysPheAlaGly325330335GluTrpSerGlyHisArgMetPheLeuHisGlyGlnLeuLysSerTrp340345350SerSerAsnPhePheArgLeuPheAsnGluThrArgGluLeuLeuGlu355360365SerIleLysSerAspIleGlnHisAlaThrMetLeuIleSerTyrVal370375380GluGluLysGlyGlyTyrHisProGlnLeuLeuSerGlnTyrArgLys385390395400LeuMetGluGlnLeuProAlaLeuArgThrLysValLeuAspProGlu405410415IleGluMetThrHisMetSerGluAlaValArgSerTyrIleMetIle420425430HisLysSerValAlaGlyPheLeuProAspLeuLeuGluSerLeuAsp435440445ArgAspLysAspArgGluPheLeuLeuSerIlePheProArgIlePro450455460LysIleAspLysLysThrLysGluIleValAlaTrpGluLeuProGly465470475480GluProGluGluGlyTyrLeuPheThrAlaAsnAsnLeuPheArgAsn485490495PheLeuGluAsnProLysHisValProArgPheMetAlaGluArgIle500505510ProGluAspTrpThrArgLeuArgSerAlaProValTrpPheAspGly515520525MetValLysGlnTrpGlnLysValValAsnGlnLeuValGluSerPro530535540GlyAlaLeuTyrGlnPheAsnGluSerPheLeuArgGlnArgLeuGln545550555560AlaMetLeuThrValTyrLysArgAspLeuGlnThrGluLysPheLeu565570575LysLeuLeuAlaAspValCysArgProLeuValAspPhePheGlyLeu580585590GlyGlyAsnAspIleIlePheLysSerCysGlnAspProArgLysGln595600605TrpGlnThrValIleProLeuSerValProAlaAspValTyrThrAla610615620CysGluGlyLeuAlaIleArgLeuArgGluThrLeuGlyPheGluTrp625630635640LysAsnLeuLysGlyHisGluArgGluAspPheLeuArgLeuHisGln645650655LeuLeuGlyAsnLeuLeuPheTrpIleArgAspAlaLysLeuValVal660665670LysLeuGluAspTrpMetAsnAsnProCysValGlnGluTyrValGlu675680685AlaArgLysAlaIleAspLeuProLeuGluIlePheGlyPheGluVal690695700ProIlePheLeuAsnGlyTyrLeuPheSerGluLeuArgGlnLeuGlu705710715720LeuLeuLeuArgArgLysSerValMetThrSerTyrSerValLysThr725730735ThrGlySerProAsnArgLeuPheGlnLeuValTyrLeuProLeuAsn740745750ProSerAspProGluLysLysAsnSerAsnAsnPheGlnGluArgLeu755760765AspThrProThrGlyLeuSerArgArgPheLeuAspLeuThrLeuAsp770775780AlaPheAlaGlyLysLeuLeuThrAspProValThrGlnGluLeuLys785790795800ThrMetAlaGlyPheTyrAspHisLeuPheGlyPheLysLeuProCys805810815LysLeuAlaAlaMetSerAsnHisProGlySerSerSerLysMetVal820825830ValLeuAlaLysProLysLysGlyValAlaSerAsnIleGlyPheGlu835840845ProIleProAspProAlaHisProValPheArgValArgSerSerTrp850855860ProGluLeuLysTyrLeuGluGlyLeuLeuTyrLeuProGluAspThr865870875880ProLeuThrIleGluLeuAlaGluThrSerValSerCysGlnSerVal885890895SerSerValAlaPheAspLeuLysAsnLeuThrThrIleLeuGlyArg900905910ValGlyGluPheArgValThrAlaAspGlnProPheLysLeuThrPro915920925IleIleProGluLysGluGluSerPheIleGlyLysThrTyrLeuGly930935940LeuAspAlaGlyGluArgSerGlyValGlyPheAlaIleValThrVal945950955960AspGlyAspGlyTyrGluValGlnArgLeuGlyValHisGluAspThr965970975GlnLeuMetAlaLeuGlnGlnValAlaSerLysSerLeuLysGluPro980985990ValPheGlnProLeuArgLysGlyThrPheArgGlnGlnGluArgIle99510001005ArgLysSerLeuArgGlyCysTyrTrpAsnPheTyrHisAlaLeu101010151020MetIleLysTyrArgAlaLysValValHisGluGluSerValGly102510301035SerSerGlyLeuValGlyGlnTrpLeuArgAlaPheGlnLysAsp104010451050LeuLysLysAlaAspValLeuProLysLysGlyGlyLysAsnGly105510601065ValAspLysLysLysArgGluSerSerAlaGlnAspThrLeuTrp107010751080GlyGlyAlaPheSerLysLysGluGluGlnGlnIleAlaPheGlu108510901095ValGlnAlaAlaGlySerSerGlnPheCysLeuLysCysGlyTrp110011051110TrpPheGlnLeuGlyMetArgGluValAsnArgValGlnGluSer111511201125GlyValValLeuAspTrpAsnArgSerIleValThrPheLeuIle113011351140GluSerSerGlyGluLysValTyrGlyPheSerProGlnGlnLeu114511501155GluLysGlyPheArgProAspIleGluThrPheLysLysMetVal116011651170ArgAspPheMetArgProProMetPheAspArgLysGlyArgPro117511801185AlaAlaAlaTyrGluArgPheValLeuGlyArgArgHisArgArg119011951200TyrArgPheAspLysValPheGluGluArgPheGlyArgSerAla120512101215LeuPheIleCysProArgValGlyCysGlyAsnPheAspHisSer122012251230SerGluGlnSerAlaValValLeuAlaLeuIleGlyTyrIleAla123512401245AspLysGluGlyMetSerGlyLysLysLeuValTyrValArgLeu125012551260AlaGluLeuMetAlaGluTrpLysLeuLysLysLeuGluArgSer126512701275ArgValGluGluGlnSerSerAlaGln1280128561192PRT未知Unknown合成序列6MetAlaGluSerLysGlnMetGlnCysArgLysCysGlyAlaSerMet151015LysTyrGluValIleGlyLeuGlyLysLysSerCysArgTyrMetCys202530ProAspCysGlyAsnHisThrSerAlaArgLysIleGlnAsnLysLys354045LysArgAspLysLysTyrGlySerAlaSerLysAlaGlnSerGlnArg505560IleAlaValAlaGlyAlaLeuTyrProAspLysLysValGlnThrIle65707580LysThrTyrLysTyrProAlaAspLeuAsnGlyGluValHisAspSer859095GlyValAlaGluLysIleAlaGlnAlaIleGlnGluAspGluIleGly100105110LeuLeuGlyProSerSerGluTyrAlaCysTrpIleAlaSerGlnLys115120125GlnSerGluProTyrSerValValAspPheTrpPheAspAlaValCys130135140AlaGlyGlyValPheAlaTyrSerGlyAlaArgLeuLeuSerThrVal145150155160LeuGlnLeuSerGlyGluGluSerValLeuArgAlaAlaLeuAlaSer165170175SerProPheValAspAspIleAsnLeuAlaGlnAlaGluLysPheLeu180185190AlaValSerArgArgThrGlyGlnAspLysLeuGlyLysArgIleGly195200205GluCysPheAlaGluGlyArgLeuGluAlaLeuGlyIleLysAspArg210215220MetArgGluPheValGlnAlaIleAspValAlaGlnThrAlaGlyGln225230235240ArgPheAlaAlaLysLeuLysIlePheGlyIleSerGlnMetProGlu245250255AlaLysGlnTrpAsnAsnAspSerGlyLeuThrValCysIleLeuPro260265270AspTyrTyrValProGluGluAsnArgAlaAspGlnLeuValValLeu275280285LeuArgArgLeuArgGluIleAlaTyrCysMetGlyIleGluAspGlu290295300AlaGlyPheGluHisLeuGlyIleAspProGlyAlaLeuSerAsnPhe305310315320SerAsnGlyAsnProLysArgGlyPheLeuGlyArgLeuLeuAsnAsn325330335AspIleIleAlaLeuAlaAsnAsnMetSerAlaMetThrProTyrTrp340345350GluGlyArgLysGlyGluLeuIleGluArgLeuAlaTrpLeuLysHis355360365ArgAlaGluGlyLeuTyrLeuLysGluProHisPheGlyAsnSerTrp370375380AlaAspHisArgSerArgIlePheSerArgIleAlaGlyTrpLeuSer385390395400GlyCysAlaGlyLysLeuLysIleAlaLysAspGlnIleSerGlyVal405410415ArgThrAspLeuPheLeuLeuLysArgLeuLeuAspAlaValProGln420425430SerAlaProSerProAspPheIleAlaSerIleSerAlaLeuAspArg435440445PheLeuGluAlaAlaGluSerSerGlnAspProAlaGluGlnValArg450455460AlaLeuTyrAlaPheHisLeuAsnAlaProAlaValArgSerIleAla465470475480AsnLysAlaValGlnArgSerAspSerGlnGluTrpLeuIleLysGlu485490495LeuAspAlaValAspHisLeuGluPheAsnLysAlaPheProPhePhe500505510SerAspThrGlyLysLysLysLysLysGlyAlaAsnSerAsnGlyAla515520525ProSerGluGluGluTyrThrGluThrGluSerIleGlnGlnProGlu530535540AspAlaGluGlnGluValAsnGlyGlnGluGlyAsnGlyAlaSerLys545550555560AsnGlnLysLysPheGlnArgIleProArgPhePheGlyGluGlySer565570575ArgSerGluTyrArgIleLeuThrGluAlaProGlnTyrPheAspMet580585590PheCysAsnAsnMetArgAlaIlePheMetGlnLeuGluSerGlnPro595600605ArgLysAlaProArgAspPheLysCysPheLeuGlnAsnArgLeuGln610615620LysLeuTyrLysGlnThrPheLeuAsnAlaArgSerAsnLysCysArg625630635640AlaLeuLeuGluSerValLeuIleSerTrpGlyGluPheTyrThrTyr645650655GlyAlaAsnGluLysLysPheArgLeuArgHisGluAlaSerGluArg660665670SerSerAspProAspTyrValValGlnGlnAlaLeuGluIleAlaArg675680685ArgLeuPheLeuPheGlyPheGluTrpArgAspCysSerAlaGlyGlu690695700ArgValAspLeuValGluIleHisLysLysAlaIleSerPheLeuLeu705710715720AlaIleThrGlnAlaGluValSerValGlySerTyrAsnTrpLeuGly725730735AsnSerThrValSerArgTyrLeuSerValAlaGlyThrAspThrLeu740745750TyrGlyThrGlnLeuGluGluPheLeuAsnAlaThrValLeuSerGln755760765MetArgGlyLeuAlaIleArgLeuSerSerGlnGluLeuLysAspGly770775780PheAspValGlnLeuGluSerSerCysGlnAspAsnLeuGlnHisLeu785790795800LeuValTyrArgAlaSerArgAspLeuAlaAlaCysLysArgAlaThr805810815CysProAlaGluLeuAspProLysIleLeuValLeuProValGlyAla820825830PheIleAlaSerValMetLysMetIleGluArgGlyAspGluProLeu835840845AlaGlyAlaTyrLeuArgHisArgProHisSerPheGlyTrpGlnIle850855860ArgValArgGlyValAlaGluValGlyMetAspGlnGlyThrAlaLeu865870875880AlaPheGlnLysProThrGluSerGluProPheLysIleLysProPhe885890895SerAlaGlnTyrGlyProValLeuTrpLeuAsnSerSerSerTyrSer900905910GlnSerGlnTyrLeuAspGlyPheLeuSerGlnProLysAsnTrpSer915920925MetArgValLeuProGlnAlaGlySerValArgValGluGlnArgVal930935940AlaLeuIleTrpAsnLeuGlnAlaGlyLysMetArgLeuGluArgSer945950955960GlyAlaArgAlaPhePheMetProValProPheSerPheArgProSer965970975GlySerGlyAspGluAlaValLeuAlaProAsnArgTyrLeuGlyLeu980985990PheProHisSerGlyGlyIleGluTyrAlaValValAspValLeuAsp99510001005SerAlaGlyPheLysIleLeuGluArgGlyThrIleAlaValAsn101010151020GlyPheSerGlnLysArgGlyGluArgGlnGluGluAlaHisArg102510301035GluLysGlnArgArgGlyIleSerAspIleGlyArgLysLysPro104010451050ValGlnAlaGluValAspAlaAlaAsnGluLeuHisArgLysTyr105510601065ThrAspValAlaThrArgLeuGlyCysArgIleValValGlnTrp107010751080AlaProGlnProLysProGlyThrAlaProThrAlaGlnThrVal108510901095TyrAlaArgAlaValArgThrGluAlaProArgSerGlyAsnGln110011051110GluAspHisAlaArgMetLysSerSerTrpGlyTyrThrTrpGly111511201125ThrTyrTrpGluLysArgLysProGluAspIleLeuGlyIleSer113011351140ThrGlnValTyrTrpThrGlyGlyIleGlyGluSerCysProAla114511501155ValAlaValAlaLeuLeuGlyHisIleArgAlaThrSerThrGln116011651170ThrGluTrpGluLysGluGluValValPheGlyArgLeuLysLys117511801185PhePheProSer119071192PRT未知Unknown合成序列7MetAlaGluSerLysGlnMetGlnCysArgLysCysGlyAlaSerMet151015LysTyrGluValIleGlyLeuGlyLysLysSerCysArgTyrMetCys202530ProAspCysGlyAsnHisThrSerAlaArgLysIleGlnAsnLysLys354045LysArgAspLysLysTyrGlySerAlaSerLysAlaGlnSerGlnArg505560IleAlaValAlaGlyAlaLeuTyrProAspLysLysValGlnThrIle65707580LysThrTyrLysTyrProAlaAspLeuAsnGlyGluValHisAspArg859095GlyValAlaGluLysIleGluGlnAlaIleGlnGluAspGluIleGly100105110LeuLeuGlyProSerSerGluTyrAlaCysTrpIleAlaSerGlnLys115120125GlnSerGluProTyrSerValValAspPheTrpPheAspAlaValCys130135140AlaGlyGlyValPheAlaTyrSerGlyAlaArgLeuLeuSerThrVal145150155160LeuGlnLeuSerGlyGluGluSerValLeuArgAlaAlaLeuAlaSer165170175SerProPheValAspAspIleAsnLeuAlaGlnAlaGluLysPheLeu180185190AlaValSerArgArgThrGlyGlnAspLysLeuGlyLysArgIleGly195200205GluCysPheAlaGluGlyArgLeuGluAlaLeuGlyIleLysAspArg210215220MetArgGluPheValGlnAlaIleAspValAlaGlnThrAlaGlyGln225230235240ArgPheAlaAlaLysLeuLysIlePheGlyIleSerGlnMetProGlu245250255AlaLysGlnTrpAsnAsnAspSerGlyLeuThrValCysIleLeuPro260265270AspTyrTyrValProGluGluAsnArgAlaAspGlnLeuValValLeu275280285LeuArgArgLeuArgGluIleAlaTyrCysMetGlyIleGluAspGlu290295300AlaGlyPheGluHisLeuGlyIleAspProGlyAlaLeuSerAsnPhe305310315320SerAsnGlyAsnProLysArgGlyPheLeuGlyArgLeuLeuAsnAsn325330335AspIleIleAlaLeuAlaAsnAsnMetSerAlaMetThrProTyrTrp340345350GluGlyArgLysGlyGluLeuIleGluArgLeuAlaTrpLeuLysHis355360365ArgAlaGluGlyLeuTyrLeuLysGluProHisPheGlyAsnSerTrp370375380AlaAspHisArgSerArgIlePheSerArgIleAlaGlyTrpLeuSer385390395400GlyCysAlaGlyLysLeuLysIleAlaLysAspGlnIleSerGlyVal405410415ArgThrAspLeuPheLeuLeuLysArgLeuLeuAspAlaValProGln420425430SerAlaProSerProAspPheIleAlaSerIleSerAlaLeuAspArg435440445PheLeuGluAlaAlaGluSerSerGlnAspProAlaGluGlnValArg450455460AlaLeuTyrAlaPheHisLeuAsnAlaProAlaValArgSerIleAla465470475480AsnLysAlaValGlnArgSerAspSerGlnGluTrpLeuIleLysGlu485490495LeuAspAlaValAspHisLeuGluPheAsnLysAlaPheProPhePhe500505510SerAspThrGlyLysLysLysLysLysGlyAlaAsnSerAsnGlyAla515520525ProSerGluGluGluTyrThrGluThrGluSerIleGlnGlnProGlu530535540AspAlaGluGlnGluValAsnGlyGlnGluGlyAsnGlyAlaSerLys545550555560AsnGlnLysLysPheGlnArgIleProArgPhePheGlyGluGlySer565570575ArgSerGluTyrArgIleLeuThrGluAlaProGlnTyrPheAspMet580585590PheCysAsnAsnMetArgAlaIlePheMetGlnLeuGluSerGlnPro595600605ArgLysAlaProArgAspPheLysCysPheLeuGlnAsnArgLeuGln610615620LysLeuTyrLysGlnThrPheLeuAsnAlaArgSerAsnLysCysArg625630635640AlaLeuLeuGluSerValLeuIleSerTrpGlyGluPheTyrThrTyr645650655GlyAlaAsnGluLysLysPheArgLeuArgHisGluAlaSerGluArg660665670SerSerAspProAspTyrValValGlnGlnAlaLeuGluIleAlaArg675680685ArgLeuPheLeuPheGlyPheGluTrpArgAspCysSerAlaGlyGlu690695700ArgValAspLeuValGluIleHisLysLysAlaIleSerPheLeuLeu705710715720AlaIleThrGlnAlaGluValSerValGlySerTyrAsnTrpLeuGly725730735AsnSerThrValSerArgTyrLeuSerValAlaGlyThrAspThrLeu740745750TyrGlyThrGlnLeuGluGluPheLeuAsnAlaThrValLeuSerGln755760765MetArgGlyLeuAlaIleArgLeuSerSerGlnGluLeuLysAspGly770775780PheAspValGlnLeuGluSerSerCysGlnAspAsnLeuGlnHisLeu785790795800LeuValTyrArgAlaSerArgAspLeuAlaAlaCysLysArgAlaThr805810815CysProAlaGluLeuAspProLysIleLeuValLeuProAlaGlyAla820825830PheIleAlaSerValMetLysMetIleGluArgGlyAspGluProLeu835840845AlaGlyAlaTyrLeuArgHisArgProHisSerPheGlyTrpGlnIle850855860ArgValArgGlyValAlaGluValGlyMetAspGlnGlyThrAlaLeu865870875880AlaPheGlnLysProThrGluSerGluProPheLysIleLysProPhe885890895SerAlaGlnTyrGlyProValLeuTrpLeuAsnSerSerSerTyrSer900905910GlnSerGlnTyrLeuAspGlyPheLeuSerGlnProLysAsnTrpSer915920925MetArgValLeuProGlnAlaGlySerValArgValGluGlnArgVal930935940AlaLeuIleTrpAsnLeuGlnAlaGlyLysMetArgLeuGluArgSer945950955960GlyAlaArgAlaPhePheMetProValProPheSerPheArgProSer965970975GlySerGlyAspGluAlaValLeuAlaProAsnArgTyrLeuGlyLeu980985990PheProHisSerGlyGlyIleGluTyrAlaValValAspValLeuAsp99510001005SerAlaGlyPheLysIleLeuGluArgGlyThrIleAlaValAsn101010151020GlyPheSerGlnLysArgGlyGluArgGlnGluGluAlaHisArg102510301035GluLysGlnArgArgGlyIleSerAspIleGlyArgLysLysPro104010451050ValGlnAlaGluValAspAlaAlaAsnGluLeuHisArgLysTyr105510601065ThrAspValAlaThrArgLeuGlyCysArgIleValValGlnTrp107010751080AlaProGlnProLysProGlyThrAlaProThrAlaGlnThrVal108510901095TyrAlaArgAlaValArgThrGluAlaProArgSerGlyAsnGln110011051110GluAspHisAlaArgMetLysSerSerTrpGlyTyrThrTrpSer111511201125ThrTyrTrpGluLysArgLysProGluAspIleLeuGlyIleSer113011351140ThrGlnValTyrTrpThrGlyGlyIleGlyGluSerCysProAla114511501155ValAlaValAlaLeuLeuGlyHisIleArgAlaThrSerThrGln116011651170ThrGluTrpGluLysGluGluValValPheGlyArgLeuLysLys117511801185PhePheProSer119081193PRT未知Unknown合成序列8MetLysArgIleAlaLysPheArgHisAspLysProValLysArgGlu151015AlaTrpSerLysGlyTyrArgValHisLysAsnArgIleIleAsnLys202530ValThrArgSerIleLysTyrProLeuValValLysAspGluTrpLys354045LysArgLeuIleAspAspAlaAlaHisAspTyrArgTrpLeuValGly505560ProIleAsnTyrSerAspTrpCysArgAspProAsnGlnTyrSerIle65707580LeuGluPheTrpIleAspPheLeuCysValGlyGlyValPheGlnSer859095SerHisSerAsnIleCysArgLeuAlaIleGlnLeuSerGlyGlySer100105110ValPheGluGlnGluTrpLysAspLeuSerProPheValArgAlaAsn115120125LeuIleGlnGlyIleLysProAlaGluPheIleGlyPheLeuThrAla130135140GluPheArgSerSerSerAsnProLysAsnPheIleSerLysPhePhe145150155160GluGlySerAsnGluAspLeuGluSerLeuThrAsnGluPheAlaSer165170175IleValAspPheIleLysAlaLysAspIleSerLeuLeuArgLysSer180185190LeuProSerCysLysLysIleAlaProAsnLeuTrpGluLysAlaVal195200205GlySerHisSerThrAsnGluLeuLeuLysLeuLeuThrLysTyrThr210215220ArgValMetLeuValAlaGluProSerHisSerAspArgValPheSer225230235240GlnThrValLeuGlnSerAsnAspGlnAspAspProGluLeuThrGly245250255ProLeuProSerHisLysValGlyLysAlaSerTyrLeuPheIlePro260265270GluPheIleArgGluValAsnLeuAspLysIleSerLysLeuAspLeu275280285SerAlaLysSerLysLeuAlaValGluGlnValLysLysLeuSerGlu290295300LeuThrSerAspPheLysGlnIleGluAsnGlnSerGluAlaTyrPhe305310315320GlyLeuSerThrSerPheAsnGluLeuSerAsnPheLeuGlyIleLeu325330335IleArgThrLeuArgAsnAlaProGluAlaIleLeuLysAspGlnIle340345350AlaLeuCysAlaProLeuAspLysAspIleLeuLysIleThrLeuAsp355360365TrpLeuCysAspArgAlaGlnAlaLeuProGluAsnProArgPheGlu370375380ThrAsnTrpAlaGluTyrArgSerTyrLeuGlyGlyLysIleLysSer385390395400TrpPheSerAsnTyrGluAsnPhePheGluIleProGlnAlaAlaSer405410415SerGlnGlnAsnAsnAsnArgGluLysLysLeuGlyAsnArgSerAla420425430IleArgAlaLeuAsnLeuLysLysGluAlaPheGluLysAlaArgGlu435440445ThrPheLysGlyAspLysGlyThrLeuGluLysIleAspLeuAlaTyr450455460ArgLeuLeuGlySerIleSerProGluValLeuGlnCysAspGluGly465470475480LeuLysLeuTyrGlnGlnPheAsnAspGluLeuLeuValLeuAsnGlu485490495ThrIleAsnGlnLysPheGlnAspAlaLysArgAspIleLysAlaLys500505510LysGluLysGluSerPheGluLysLeuGlnArgAsnLeuSerSerPro515520525LeuProArgIleProGluPhePheGlyGluArgAlaLysLysGlyTyr530535540GlnLysAlaArgValSerProLysLeuAlaArgHisLeuLeuGluCys545550555560LeuAsnAspTrpLeuAlaArgPheAlaLysValGluGluSerAlaPhe565570575SerGluLysGluPheGlnArgIleLeuAspTrpLeuArgThrSerAsp580585590PheLeuProValPheIleArgLysSerLysAspProProSerTrpLeu595600605ArgTyrIleAlaArgValAlaThrGlyLysTyrTyrPheTrpValSer610615620GluTyrSerArgLysArgValGlnIleIleAspLysProIleAlaGln625630635640AsnProLeuLysGluLeuIleSerTrpPheLeuLeuAsnLysAspAla645650655PheSerArgAspAsnGluLeuPheLysGlyLeuSerSerLysMetVal660665670ThrLeuAlaArgIleMetAlaGlyIleLeuArgAspArgGlyGluGly675680685LeuLysGluLeuGlnAlaMetThrSerLysLeuAspAsnIleGlyLeu690695700LeuHisProSerPheSerValProValThrAspSerLeuLysAspAla705710715720AlaPheTyrArgAlaPhePheSerGluLeuGluGlyLeuLeuAsnIle725730735GlyArgSerArgLeuIleIleGluArgIleThrLeuGlnSerGlnGln740745750SerLysAsnLysLysThrArgArgProLeuMetProGluProPheIle755760765AsnGluAspLysGluValPheLeuAlaPheProLysPheGluThrLys770775780AsnLysValLysGlyThrArgValValTyrAsnSerProAspGluVal785790795800AsnTrpLeuLeuSerProIleArgSerSerLysGlyGlnLeuSerPhe805810815MetPheArgCysLeuSerGluAspAlaLysIleMetThrThrSerGly820825830GlyCysSerTyrIleValGluPheLysLysLeuLeuGluAlaGlnGlu835840845GluValLeuSerIleHisAspCysAspIleIleProArgAlaPheVal850855860SerIleProPheThrLeuGluArgGluSerGluGluThrLysProAsp865870875880TrpLysProAsnArgPheMetGlyValAspIleGlyGluTyrAlaVal885890895AlaTyrCysValIleGluLysGlyThrAspSerIleGluIleLeuAsp900905910CysGlyIleValArgAsnGlyAlaHisArgValLeuLysGluLysVal915920925AspArgLeuLysArgArgGlnArgSerMetThrPheGlyAlaMetAsp930935940ThrSerIleAlaAlaAlaArgGluSerLeuValGlyAsnTyrArgAsn945950955960ArgLeuHisAlaIleAlaLeuLysHisGlyAlaLysLeuValTyrGlu965970975TyrGluValSerAlaPheGluSerGlyGlyAsnArgIleLysLysVal980985990TyrGluThrLeuLysLysSerAspCysThrGlyGluThrGluAlaAsp99510001005LysAsnAlaArgLysHisIleTrpGlyGluThrAsnAlaValGly101010151020AspGlnIleGlyAlaGlyTrpThrSerGlnThrCysAlaLysCys102510301035GlyArgSerPheGlyAlaAspLeuLysAlaGlyAsnPheGlyVal104010451050AlaValProValProGluLysValGluAspSerLysGlyHisTyr105510601065AlaTyrHisGluPheProPheGluAspGlyLeuLysValArgGly107010751080PheLeuLysProAsnLysIleIleSerAspGlnLysGluLeuAla108510901095LysAlaValHisAlaTyrMetArgProProLeuValAlaLeuGly110011051110LysArgLysLeuProLysAsnAlaArgTyrArgArgGlyAsnSer111511201125SerLeuPheArgCysProPheSerAspCysGlyPheThrAlaAsp113011351140AlaAspIleGlnAlaAlaTyrAsnIleAlaValLysGlnLeuTyr114511501155LysProLysLysGlyTyrProLysGluArgLysTrpGlnAspPhe116011651170ValIleLeuLysProLysGluProSerLysLeuPheAspLysGln117511801185PheTyrArgProAsn119094PRT人工序列ArtificialSequence合成序列9AlaAlaAlaAla1104PRT人工序列ArtificialSequence合成序列10AlaAlaAlaAla11125RNA人工序列Artificialsequence合成序列11cuccgaaaguaucggggauaaaggc251225RNA人工序列Artificialsequence合成序列12caccgaaauuuggagaggauaaggc251325RNA人工序列Artificialsequence合成序列13cuccgaauuaucgggaggauaaggc251425RNA人工序列Artificialsequence合成序列14ccccgaauauaggggacaaaaaggc251536RNA人工序列Artificialsequence合成序列15gucuagacauacagguggaaaggugagaguaaagac361625RNA人工序列Artificialsequence合成序列16cuccgugaauacgugggguaaaggc251710RNA人工序列Artificialsequence合成序列17aaaaaaaaaa101810RNA人工序列Artificialsequence合成序列18aaaaaaaaaa101910RNA人工序列Artificialsequence合成序列19aaaaaaaaaa102043RNA人工序列Artificialsequence合成序列20cuccgaaaguaucggggauaaaggcaucaauaccaaacucugg43216430DNA人工序列Artificialsequence合成序列21ttaaaaggacagtttctaatagcatataatcattatagcattacatacggaaaactactt60caaatttgcggcagatcggattttgctggcccagagatatattttccttctttgttaaaa120gcggatttatggcaagggcagagccagtttttatttttatcttcccattcaacgatgcat180ccaagatgtgggcaaattggagagagttttaaaatttctcctttttcatttttgtatacg240gcaactttctttccttctatctcaacaatttttcctgtgttgttttttaaattgtctaaa300gtacccgaagttttcataaagcgccccttcataaaaagataaggaaaaagaaatatttgt360tttaataatgttaacatatagcttgttgaattataacatttatccgagaggtggtctaac420ttatgcaacttattgattcttactttaggagaatagttctactctaggcgtatagagaac480ttttgttgaaaggtttttgcaatatctctactttctggccaaaaatcggtttttcccgcg540aatctgccgtatagtttgtatcctgctttaacaggtctgcctccgctaggttttcccggg600aaaggtactataaatctcttatttcctaagagataagagcgcaaaccgagaattaagcca660tgatagagttcctgaaaagtagcagtttggcgagttgctgcaacataaatttctgtatcc720atgaaatcctttaggttttccattgtatagggaagtgttttactttcatccccaccgttt780tcttgtatctcttttattgtattaaaggcgactccgtcgataaaacctctatatggttcc840atcaaatcgtagattagagaggggtaatctgaaggtgtgtgggtgtatccgtgaaaagga900ctaaaatgatggtaaaccacccaacgcaagataataccgctaacaaattttgaagaagca960tctaaaacattacagataaaattaccttttgatcgtcgcctatctttaggatatcccaaa1020gacttgtagaaatgttcccaatatcttttggcatgccacgattccactccaactatagac1080tccacggacgataagccctgcagttcctgcgttggggctgggattaaccattccatggat1140ttgaatttagcgtaaatcaatcttttcgttatatatgcgcgtttcttttcattttgtctg1200aatagaatctgttttgttagtaaatcttctctattagatgttgtagaaggaacgatccaa1260acaccgcggggcatatttcgtcgatgtattgttaaaggaatgccccaagcactgcatttt1320tctagaaattcttgttctagcggacaaacgctaccataaaacatgatagagtgaatctct1380ggaaaggacaaatccagctcaccacctttgtaagagaatttaacactctttcccgataag1440tctatggattttacatagggtaaccagataaattgtttacgcttggcgaaatatctcctc1500atttcgtattggatatatgtctcaaattatgctatatttaaggtacattttcaagcggtt1560tttagctcgtttacattttaatatcaacaaaatcggggagaagtctccgaaagtatcggg1620gataaaggcatcaataccaaactctggctccgaaagtatcggggataaaggcattcccaa1680tatctcattactccgaaagtatcggggataaaggctcctcccgtatctgtcaactccgaa1740agtatcggggataaaggcttaaaaaggaataccccactccgaaagtatcggggataaagg1800cttgtactccacatccgctactccgaaagtatcggggataaaggcactgaaacttgaatt1860gtactccgaaagtatcggggataaaggcatcttgcgactttctcttctccgaaagtatcg1920gggataaaggctcttcggttggtacgggttctccgaaagtatcggggataaaggcttatg1980gcagtatcgcatactccgaaagtatcggggataaaggcttcataagtacgcctaaactcc2040gaaagtatcggggataaaggcagatgaggctatacttaactccgaaagtatcggggataa2100aggcacaaacataaagggaaaactccgaaagtatcggggataaaggcataaatctggtga2160acttactccgaaagtatcggggataaaggctactgttattgttgtacactccgaaagtat2220cggggataaaggcataactagcgttcccattctccgaaagtatcaaaataaaaagggttt2280ccagtttttaactaaactttagccttccaccctttcctgattttgttgataattaataat2340gcgcaaaaaattgtttaagggttacattttacataataagaggcttgtatatacaggtaa2400agctgcaatacgttctattaaatatccattagtcgctccaaataaaacagccttaaacaa2460tttatcagaaaagataatttatgattatgagcatttattcggacctttaaatgtggctag2520ctatgcaagaaattcaaacaggtacagccttgtggatttttggatagatagcttgcgagc2580aggtgtaatttggcaaagcaaaagtacttcgctaattgatttgataagtaagctagaagg2640atctaaatccccatcagaaaagatatttgaacaaatagattttgagctaaaaaataagtt2700ggataaagagcaattcaaagatattattcttcttaatacaggaattcgttctagcagtaa2760tgttcgcagtttgagggggcgctttctaaagtgttttaaagaggaatttagagataccga2820agaggttatcgcctgtgtagataaatggagcaaggaccttatcgtagagggtaaaagtat2880actagtgagtaaacagtttctttattgggaagaagagtttggtattaaaatttttcctca2940ttttaaagataatcacgatttaccaaaactaactttttttgtggagccttccttggaatt3000tagtccgcacctccctttagccaactgtcttgagcgtttgaaaaaattcgatatttcgcg3060tgaaagtttgctcgggttagacaataatttttcggccttttctaattatttcaatgagct3120ttttaacttattgtccaggggggagattaaaaagattgtaacagctgtccttgctgtttc3180taaatcgtgggagaatgagccagaattggaaaagcgcttacattttttgagtgagaaggc3240aaagttattagggtaccctaagcttacttcttcgtgggcggattatagaatgattattgg3300cggaaaaattaaatcttggcattctaactataccgaacaattaataaaagttagagagga3360cttaaagaaacatcaaatcgcccttgataaattacaggaagatttaaaaaaagtagtaga3420tagctctttaagagaacaaatagaagctcaacgagaagctttgcttcctttgcttgatac3480catgttaaaagaaaaagatttttccgatgatttagagctttacagatttatcttgtcaga3540ttttaagagtttgttaaatgggtcttatcaaagatatattcaaacagaagaggagagaaa3600ggaggacagagatgttaccaaaaaatataaagatttatatagtaatttgcgcaacatacc3660tagattttttggggaaagtaaaaaggaacaattcaataaatttataaataaatctctccc3720gaccatagatgttggtttaaaaatacttgaggatattcgtaatgctctagaaactgtaag3780tgttcgcaaacccccttcaataacagaagagtatgtaacaaagcaacttgagaagttaag3840tagaaagtacaaaattaacgcctttaattcaaacagatttaaacaaataactgaacaggt3900gctcagaaaatataataacggagaactaccaaagatctcggaggttttttatagataccc3960gagagaatctcatgtggctataagaatattacctgttaaaataagcaatccaagaaagga4020tatatcttatcttctcgacaaatatcaaattagccccgactggaaaaacagtaacccagg4080agaagttgtagatttgatagagatatataaattgacattgggttggctcttgagttgtaa4140caaggatttttcgatggatttttcatcgtatgacttgaaactcttcccagaagccgcttc4200cctcataaaaaattttggctcttgcttgagtggttactatttaagcaaaatgatatttaa4260ttgcataaccagtgaaataaaggggatgattactttatatactagagacaagtttgttgt4320tagatatgttacacaaatgataggtagcaatcagaaatttcctttgttatgtttggtggg4380agagaaacagactaaaaacttttctcgcaactggggtgtattgatagaagagaagggaga4440tttgggggaggaaaaaaaccaggaaaaatgtttgatatttaaggataaaacagattttgc4500taaagctaaagaagtagaaatttttaaaaataatatttggcgtatcagaacctctaagta4560ccaaatccaatttttgaataggctttttaagaaaaccaaagaatgggatttaatgaatct4620tgtattgagcgagcctagcttagtattggaggaggaatggggtgtttcgtgggataaaga4680taaacttttacctttactgaagaaagaaaaatcttgcgaagaaagattatattactcact4740tccccttaacttggtgcctgccacagattataaggagcaatctgcagaaatagagcaaag4800gaatacatatttgggtttggatgttggagaatttggtgttgcctatgcagtggtaagaat4860agtaagggacagaatagagcttctgtcctggggattccttaaggacccagctcttcgaaa4920aataagagagcgtgtacaggatatgaagaaaaagcaggtaatggcagtattttctagctc4980ttccacagctgtcgcgcgagtacgagaaatggctatacactctttaagaaatcaaattca5040tagcattgctttggcgtataaagcaaagataatttatgagatatctataagcaattttga5100gacaggtggtaatagaatggctaaaatataccgatctataaaggtttcagatgtttatag5160ggagagtggtgcggataccctagtttcagagatgatctggggcaaaaagaataagcaaat5220gggaaaccatatatcttcctatgcgacaagttacacttgttgcaattgtgcaagaacccc5280ttttgaacttgttatagataatgacaaggaatatgaaaagggaggcgacgaatttatttt5340taatgttggcgatgaaaagaaggtaagggggtttttacaaaagagtctgttaggaaaaac5400aattaaagggaaggaagtgttgaagtctataaaagagtacgcaaggccgcctataaggga5460agtcttgcttgaaggagaagatgtagagcagttgttgaagaggagaggaaatagctatat5520ttatagatgccctttttgtggatataaaactgatgcggatattcaagcggcgttgaatat5580agcttgtaggggatatatttcggataacgcaaaggatgctgtgaaggaaggagaaagaaa5640attagattacattttggaagttagaaaattgtgggagaagaatggagctgttttgagaag5700cgccaaatttttatagttatattggatatatcttttcaaaaaatctgaattggtctagga5760ccgcggaatcctatggtaatttctacgtccagaatgtagcgccatgccattagaccagtc5820cccgaattaaacatcgccgaacttcttggtgatgttatggcaaagagaatgcgacagcgc5880ctattcattgagcaagatatggaaagtattcctccagggcaaacaatggttttgaatatg5940ggggagcctgttgtgggaacggaatttacacatcggcggaatattaatgggaaagagtgc6000gttttattttttgcagttgaactttttaaagacgacagcgcgtagtcagtacatcttcgg6060cccatcttaatcttccattggggttattaagactgcccactttagcagcaagatttttaa6120ggtgactccttaattctttctcgtgcggagttagatctatttttccaaaatctttatccg6180catggtttaggaatatttgtatagagtctaggggaatttccttaccgatgtcccccgctg6240cggtaacaactctgtaaagatccatctttattgaatttaatataaactgtctgtcttttt6300tcatatttctaaatgcttttttgttaattcaaataacctacccctcacattcttatcgta6360tatctcatatgtatacttacctagtgcaggtttgtaatttctcatagccatatattcaac6420ttcttttgaa64302213819DNA人工序列Artificialsequence合成序列22ctctttttcttgactatggtcatcgcttagcttggcggggacgtttgatctttgcttcta60gtttaatcctttttctgtccttgttgtttttaatgaattaccctctaatttggggtttat120tagctttgagtttattggctttagtgattctaacttggtggaaaaaggcttggactaaat180ggttgttagtcccactgataatttttctgctggctggcactctagcgatttttgcttcaa240aacctattttagctaaaccaatttttgatctaaatcaaagtttgaaaattaatagttttg300attcgcgacctaatttagatagcactgctcaagtgactaaagccagtttgaaagctcatc360cctttttaggttttggtccaaatcgtttttggcgagcttggactctttataagccaaaat420tatttaatcaatcagtaatctggtcagttgattatcgtctggcttatggttttattccaa480caatgttagtaactcaaggtggcctcggttttctggcttggttaattctgataatttcta540gttttatttatctttatcatttattcaaacaaagttcagtagaagatttttccacgataa600ttttattgagtctaagttttatttatctctggttaaatttactcattcttaatcctaatt660ttgttatcctctctctggcttttgggtgcttggggtggttgttagtttttaatcataaaa720tttctaatcagctttcttggcacattaaattagatacgtttctaaaaagtttagtggcaa780aactaggtcttagtattattttgggttttttatttttaatcattattttgtcactgctta840attatagttctttgatcttatttcatcggggtctttcatctttggatcggggggattttt900ccgccaccgaaaaaaattggcgtttagctagtcgtttgagtcctcagacagtttataatc960gttctttggctgatcttaaactgcgtcagattaatcaacttctgacgactcctaattctg1020attctcaaaaaactttagccgagttttcccgtttttatggtgagtcaattggatttggct1080tgactgctcgtgaccaagatccttttgattatttaaattggttaattttaggtcaagttt1140atgaagctgggattccgcttaaaattaaaggggccgatattcaagctcggaaaatttatc1200aagaagtgcttagattaaacccggtttggccagtcatttggctaaatttggctcgagtgg1260aattaggctctgatcaccctgatttagcgcgagaagatttacttaaagctttggaattaa1320aagccgattattccgatgctctgttagctttagccgaattagattatagtcaaggtcgat1380tatcaaaagctttagcgggagctaaggtggcagttctgaaagaaccaaataatttgggag1440cttggttttcccttggttttttccagtatcaaattggacattatgatgaagctgtcattt1500ctttagaaaaagtcttaacctttaatcaaaattcagctgatactaaatattttcttggtt1560taagtttagctgaacttgatcgaacgactgaggcgattgacctatttcaatctttagttc1620gggctaatcccgacaatcaagagcttaaaaatattttaactaatctcaaagctggtcgaa1680cagctttagcgccaccagagaccaaaaccaaaacaaaataataattcatggtgtctaaaa1740ttactcgcttacttcaaaaagaatttaccaatcttcaccaagcagcttttttgttggcta1800cttcggccttgctgtctcaatttttgggtttgtggcgggatcgtttattagcctctggtt1860ttggagctagtcatcaattagatatttattatacggcttttcgcttaccggatttaattt1920acgtttcggtggcttcttttgtttcgatcacggtccatattcctttgattattaataaga1980tggaaactggtggtaaaccggcggtggaaaaatttctcaattcagtgctgacagtttttt2040taattgggatggtttcagtttccgcgttattatttatttttatgccctggttatcgaaaa2100ttaccgctcccgggttttcttcagttgatcaacaaaccttagtcaccttatctcgaattt2160tattgttgtctcccttattgttgggtttgtctaatctcttgggaggagccactcaagctt2220ttcgtaaatttgccgcctatgcctttagtcctattttttataatttgggaattatttttg2280ggattttctttttctatcctttgcttggtttgccgggcttagtctggggagtaattctcg2340gtgcagtcttacatttatcaattcaattgccagttttaagtcaattaggtttacgtcttc2400gtttatcgagattaattaattggccggaaatgagaaaagtgatgctcatatccctaccgc2460gaactattaccttatcggctaatcaactatctttattagttttagtggctttagcttcgt2520ttttgcccaaagggtcaatttcggtttttaatttttcgctcaatcttcaatcagtccccc2580tgtcgattatcggagtttcttattcggtggcggcttttcccgtcttggccaaattttttg2640tcgctggtcaacacaaagaatttgctggtgaaattatcgccgccattcgacatattattt2700tttggtctgctccagtggtcgttttgtttattgttttacgagctcaaatcgtccgggtga2760ttttaggttcaggacgttttgattggtcggccactcgattgacggcagcttgtttggcga2820ttttttctgtgtcagtgattgctcaaagtttgattttagttttagtccgagcttactatg2880ccgctggggaaaccaaaactcccttgatcattaattccttatcatctttgggaacaatta2940ttttggctttaattttatggcaactgttcaaagtttggccggcctttcatctgattttgg3000aacaaattctaagattgaaagatttaccagggacaattattttagtcttacctctcgctt3060tttcgattggagcgattatcaatgtttttgttttatggtgggctttcgaacgacgctttg3120ctatcggaatttggcgcaatttagaggtagttagtcttcagtctttagtcgcttctttat3180ttggtggctttgtggcctataacttactaaatgtctttagtctgtattataaattagata3240ctttttggtcaatctttgagcagggatttttagccggtattttgggcttaattgcctgga3300tttcggtcttaattcttttgaaaagtgaagaattggctgaattgggacgttctctgtcag3360cccgagtctggaaagttgtccctattgtcccagaacgagaagaactgtaggatgggaaag3420tctttatatggatttaaaacactatcgtaatttttctattattgctcaccccagtagaac3480agccaagctgtctacggggcaagtattgatcataaattagtcttatggatttaaaacact3540atcgtaatttttctattattgcccatatagatcatgggaagagtactttgtctgatcggc3600ttttagatttgacagggacaattgaaaagcgaaaaatgcgagaacaagtccttgattcga3660tggagttagaacgtgaacgaggaataaccatcaaaatgcaaccagtccgaatgaattata3720aattggctggtgaagattatattctgaatctaattgatactccgggtcatattgattttt3780cttatgaagtgtctcgttcgcttcaagcagtggaaggggtcttgcttttggttgacgcca3840ctcaaggggtccaagctcaaacttttactgttttagcgatggctcaagaattgggtttaa3900cgattattcccgttttaaacaaaattgatttaccaattgctcgaacagctgaagtcaaac3960aagagattgttaatctattaaaatgtcagcccgaagatattatggcggtttctggcaaaa4020ccggtgaaggagtagataaattattaattgagattattaaaaaaattcctagtccaattt4080cagaaataaaagttgttaaaccttgccgagcgctggtatttgattttgaatattctattc4140ataaaggagtggtggtctatgttcgagttttagatggcgaaattactcccgctgatcaac4200taaactttgtcgcttctggtgaaaaattttcggttttagaattaggttattttcgacctc4260aagctgaaccacaaaaaaaattacaggcgggtgacattggttatttagtcactggaatta4320aaaaaccaggcaatgctaaagtgggggatacgattaccactttagtgagtcctcttccag4380ctgtaccgggctatatgactcctcgaccggtggtctgggcttctctttatccagctagcc4440aagatgattttgctctactcaagcaatccctcgaacgattaaatcttcaagatgccgctc4500tgtcttttgaagaggaaagctcgggtgctttgggacgaggttttagagctggttttctgg4560gaatgcttcatttggaaatcattagcgaacgattgaagcgagaattttctttaaatttaa4620ttgtgacgacaccgagtattagttatcgtctaattaatactcggaccaaagaagaagtca4680ggattttctctcctcacctttttccacttgaaatcaaggattatgaaatttacgaatctt4740gggtagcggttagaattattagtcccgccgattatcttagtccgattattcaattacttc4800atgaacacgaagcggaagtaatgactatggaaacttttagttctagtcgcaccgctttgt4860ctatcctcatgcctttacgagaattgatgcgtaatttttttgatagtttaaaaagtgtct4920cttctggctttgcttctttttcttatgaattagccgaagaacgtctcgctgatgtctctc4980gcttggatattttaattaatggtgaaataattccggctttttcgcgaattgtttcgcgtc5040gacgaatcgaaaaggatgcttcggaaatggctgaacgtttagagggtttgattcccaaac5100aattgattacgattaaaatccaagttcaaggtttagggcgaattttggcggcgcgttcaa5160tttccgctctacgaaaagatgtcactgactatctctatggcggcgatattactcgaaaaa5220tgaaattacgagaaaagcagaaaaaaggcaagaaaaaaatgcaacagctgggtaaggtaa5280atatcccccaagaagtttttctaaagatgatgcgaaatgcggactagcgcggactggacg5340cagactaatgcgaatttaccctatggagtagcttgctatactccatagggtaaacgcaga5400tagtcacaaacaagacactgatcagatcagcgtttttttagcattgatcggcgttttatc5460taaacaagaaggggagagagtaaagggcgaccatacttaaaataacaagaataccaactg5520tcgctgagatgatttgaaagatttttttgtgtttgctctgaaataacattagttgtagta5580taaggctgtgaccagattttatcaagtcgaaaaacattttaagtggctaaatgttctctt5640tcttattgtcactttaatcttggtgatttttttggctcgaggggtttggcgagtttataa5700tcagagtcgttttgctaattctaattatcttttgactaaagatcgtcttactaaattaga5760agacagacaaaaacaaattactgatcgtctagaaaaattatcaaccgatcgtggtttaga5820agaagaatttagaaataatttttcagtcgtgcgaccaggggaaaaaatgattttaattgt5880cgatagtattgaaacagctactgatacagccactactagtgaggctagtctttgggggac5940tttaaaagccttattattaagtcgttaattaaaaaagcgagattggttcagcttgccctc6000ttaaatttcttgtgcaaatatgcgggtatggtttagtttgccctttaaaattttttgtcc6060gaacatgcgagtatggtttagtggtagaatgcgaccttcccaaggttgagacgcgagttc6120gattctcgctactcgcacaaaaaactttttagggtgaatagaatgcgacccccgaagaac6180agcaaagctgtctacggggcaggcttcccaagcataagacgctggttcgattcccgcatt6240tcgcacaattggccgattaaaatagtattttatttttttatgtcctccacctttaaacga6300actatcgaaaattttacttgtgctcattgtggagcggaggtgattggtaatggttatact6360gatcactgtcctaaatgcctctggggcctccatgtagatgatttcccgggagatcgagct6420aatccttgtttgggcttaatgaagccgattggagtggatttagcgaagggagattatact6480ttaagctatcaatgtgaaaaatgtcacatcattaaaactaataaaactgctccggacgat6540gaacttaacaagtacttgaccggtatgttataattgttaaataagttaaatttaaaatat6600aaaatgaagaaagttaccatttattccactcccacttgtggttattgtaaaattgctaaa6660caattctttaaagataagggaattgattttacagagattgatgtcactactgatttagct6720gggcgacaggccttagaacaaaaaattggccgaattacgggtgtgccagtaattacgatt6780gacgaagaagccgtcgtgggttttgatcaagctcatattgcgaagatgttagggatttaa6840actagtgacaatttaccccgccttctgccagccggtagaggatgggtttttttggtaatt6900tgctaacaacaaacaaggagtctattatgaagattaagtttttgcctctgtagttcccgc6960cataatccttaaataaatttaggattatggcgggcgggaaacaagccggttaacgctctc7020atagttcaaaggatagaactgtctcgtcctaagagaccaatctccgttcgagtcggagtg7080agagcacagattaaaaaacattgactagagtcctacttgccagcctaagatttgctttag7140taaagttttggcgggagggaaagatgtaggttcgattcctaccagaggcacaattcgtaa7200cttggtcaaatcattttcaaaacaaatgataccacacacagaggagaggatatggggcac7260agccttcgtcagtttgataactcaaggaaacaaatctaaaaataaaacttcaccgatgtt7320atcatttggaagccatctgcttttcgtgcgtatttgaaacatttttggcaacactccaga7380aatcggtagggccggccgtccttccatatagtttgtaaccaacttttactggtcggccac7440cgtttggttttcctggaattggtacgatgaattgtcgcgatattccctgtaagtatgatc7500gtaacgataatacagacccgtgtaataattcttgaaaagttactatctgacgagtagtgt7560tggtataaagatttgagtcgagataatcttcaacggcgattatacaccttgccagaaaat7620ccttttcttcaaccttttccgatttagcttgctgtattgtattgaatacaattttttcaa7680tatttcctctataaggttccattagatcgtaaactaaagaaggataatctgtcggaatgt7740ggagaaatccatgataggggctcattcggtggtaaattatataacgcagtgtaataccgc7800ttattaattttgaaaccgcgtccaaaatagattttatcgtatttgcccctcctctgcgtg7860aatatccactgtatccgagtattttataatattttttccaatatacctttgcatgctgtg7920cctcaatgtttaccatttgtttaatagaatatcttttaccgtcaaataacattggatatg7980aaaccagccaactcatacttttgaatttggcttgtaaaatcttcttggcaatgtggacac8040gtttcttctcattatttctaaatgagatttgcttacttaagatatcatctttggccgagg8100tttttacgcttggagtaatccatacggcattactcattgttcttcggtgtagacatatag8160gaacgccatattttgcgcaaagttgtaaaaaattttcacttaaatcacaagttccaccat8220aaagcataatcgaaagaatgtttttaatgtttgcggtatatttgccacctttatattgaa8280aagttacaatatttttctttacttctatttggaaggtgtagggtagccataagggtatct8340ttttattcttgctaatagacatgttttttgatattattaccctagaaagagttaggtttt8400gaatacaaaatctaacttatattttgtattttgtcaagtaaaataaagagaaaagagaga8460acctcaccgaaatttggagaggataaggcaagacaacacacatcttgcaccgaaatttgg8520agaggataaggcataccgctctggctttgaacaccgaaatttggagaggataaggcaata8580ttcaaaatatctagcaccgaaatttggagaggataaggctcaatctttttatagcctaca8640ccgaaatttggagaggataaggcaactcaacataaagggtgcaccgaaatttggagagga8700taaggcggatcgagataagtcgaacaccgaaatttggagaggataaggcgctaacaaaat8760taccacccaccgaaatttggagaggataaggcaaaccagcagggacttcacaccgaaatt8820tggagaggataaggcacaattgtcatgtttattcaccgaaatttggagaggataaggctc8880gtttatgttagcgaccacaccgaaatttggagaggataaggcaagaaacaataaccgcag8940aacaccgaaatttggagaggataaggccaattataatatagcctgcaccgaaatttggag9000aggataaggcaagatactgttccaataacaccgaaatttggagaggataaggcaaattat9060cataatccattcaccgaaatttggagaggataaggcatggcttgtttttgtaatcaccga9120aatttggagaggataaggcacagggagaaattgcgaacaccgaaatttggagaggataag9180gcgtttggcaataagtctcgcaccgaaatttggagaggataaggcatgggtcaatccaac9240ccgtcaccgaaatttggagaggatgatgggtttggttcaaaaattctaagaatctgcttt9300attttcttcacttcacctacacggtctttcgtctcgttccttctagtaacacgagacctc9360gcctttccgaccgttctctttgtctctttattttatctgacagaatatgcaaaaagtaag9420aaaaactttatcagaggtacataaaaatccttatggtacaaaagtccgtaatgcaaagac9480tggctactcactacagatagagaggctttcgtatactggaaaagaggggatgagaagttt9540taagattccactcgaaaataaaaataaagaagtttttgatgaattcgtaaaaaagatcag9600gaatgattatatcagtcaggttgggttgctcaatctttctgattggtatgaacattatca9660ggagaaacaagaacattattctttggcggatttttggttagatagtttgagggccggagt9720gatttttgcgcacaaagaaactgagataaagaatcttatctctaagatacgtggtgataa9780atcgattgttgataaatttaatgcaagtataaagaaaaaacacgccgatctttatgccct9840tgtcgatataaaagctctctacgattttcttacctccgacgcaagaaggggattaaagac9900cgaagaagaattttttaactcaaaaaggaataccttgtttccgaaatttagaaaaaaaga9960taacaaagccgtcgacctttgggtcaaaaaatttattgggctggataataaagacaaatt10020aaattttaccaaaaagtttatcggtttcgatccaaatcctcagattaaatatgaccatac10080tttcttctttcatcaagacattaattttgatctagagagaatcacgactccgaaggaact10140tatttcgacttataagaaattcttaggaaaaaataaggatctatacggttctgatgaaac10200aacggaagatcaacttaaaatggtattaggttttcataataatcacggcgctttttctaa10260gtatttcaacgcgagcttggaagcttttagggggagagacaactccttggttgaacaaat10320aattaataattctccttactggaatagccatcggaaagaattggaaaagagaatcatttt10380tttgcaagttcagtctaaaaaaataaaagagaccgaactgggaaagcctcacgagtatct10440tgcgagttttggcgggaagtttgaatcttgggtttcaaactatttacgtcaggaagaaga10500ggtcaaacgtcaactttttggttatgaggagaataaaaaaggccagaaaaaatttatcgt10560gggcaacaaacaagagctagataaaatcatcagagggacagatgagtatgagattaaagc10620gatttctaaggaaaccattggacttactcagaaatgtttaaaattacttgaacaactaaa10680agatagtgtcgatgattatacacttagcctatatcggcaactcatagtcgaattgagaat10740cagactgaatgttgaattccaagaaacttatccggaattaatcggtaagagtgagaaaga10800taaagaaaaagatgcgaaaaataaacgggcagacaagcgttacccgcaaatttttaagga10860tataaaattaatccccaattttctcggtgaaacgaaacaaatggtatataagaaatttat10920tcgttccgctgacatcctttatgaaggaataaattttatcgaccagatcgataaacagat10980tactcaaaatttgttgccttgttttaagaacgacaaggaacggattgaatttaccgaaaa11040acaatttgaaactttacggcgaaaatactatctgatgaatagttcccgttttcaccatgt11100tattgaaggaataatcaataataggaaacttattgaaatgaaaaagagagaaaatagcga11160gttgaaaactttctccgatagtaagtttgttttatctaagctttttcttaaaaaaggcaa11220aaaatatgaaaatgaggtctattatactttttatataaatccgaaagctcgtgaccagcg11280acggataaaaattgttcttgatataaatgggaacaattcagtcggaattttacaagatct11340tgtccaaaagttgaaaccaaaatgggacgacatcataaagaaaaatgatatgggagaatt11400aatcgatgcaatcgagattgagaaagtccggctcggcatcttgatagcgttatactgtga11460gcataaattcaaaattaaaaaagaactcttgtcattagatttgtttgccagtgcctatca11520atatctagaattggaagatgaccctgaagaactttctgggacaaacctaggtcggttttt11580acaatccttggtctgctccgaaattaaaggtgcgattaataaaataagcaggacagaata11640tatagagcggtatactgtccagccgatgaatacggagaaaaactatcctttactcatcaa11700taaggagggaaaagccacttggcatattgctgctaaggatgacttgtccaagaagaaggg11760tgggggcactgtcgctatgaatcaaaaaatcggcaagaatttttttgggaaacaagatta11820taaaactgtgtttatgcttcaggataagcggtttgatctactaacctcaaagtatcactt11880gcagtttttatctaaaactcttgatactggtggagggtcttggtggaaaaacaaaaatat11940tgatttaaatttaagctcttattctttcattttcgaacaaaaagtaaaagtcgaatggga12000tttaaccaatcttgaccatcctataaagattaagcctagcgagaacagtgatgatagaag12060gcttttcgtatccattccttttgttattaaaccgaaacagacaaaaagaaaggatttgca12120aactcgagtcaattatatggggattgatatcggagaatatggtttggcttggacaattat12180taatattgatttaaagaataaaaaaataaataagatttcaaaacaaggtttcatctatga12240gccgttgacacataaagtgcgcgattatgttgctaccattaaagataatcaggttagagg12300aacttttggcatgcctgatacgaaactagccagattgcgagaaaatgccattaccagctt12360gcgcaatcaagtgcatgatattgctatgcgctatgacgccaaaccggtatatgaatttga12420aatttccaattttgaaacggggtctaataaagtgaaagtaatttatgattcggttaagcg12480agctgatatcggccgaggccagaataataccgaagcagacaatactgaggttaatcttgt12540ctgggggaagacaagcaaacaatttggcagtcaaatcggcgcttatgcgacaagttacat12600ctgttcattttgtggttattctccatattatgaatttgaaaattctaagtcgggagatga12660agaaggggctagagataatctatatcagatgaagaaattgagtcgcccctctcttgaaga12720tttcctccaaggaaatccggtttataagacatttagggattttgataagtataaaaacga12780tcaacggttgcaaaagacgggtgataaagatggtgaatggaaaacacacagagggaatac12840tgcaatatacgcctgtcaaaagtgtagacatatctctgatgcggatatccaagcatcata12900ttggattgctttgaagcaagttgtaagagatttttataaagacaaagagatggatggtga12960tttgattcaaggagataataaagacaagagaaaagtaaacgagcttaatagacttattgg13020agtacataaagatgtgcctataataaataaaaatttaataacatcactcgacataaactt13080actatagagttctcttcattggattgaaaatagatccgattcctaccagagacaccaaat13140aaatttaaaattaaaaattacctgccaaaatttcgttcaacgaaacttaagcaggcaaga13200aaatttaaaattaaatccgctggtgggcggataaagtcaaaaattgaaaatatattaaat13260tgacaatatgttctttattagagtgcgatgtttgaatacctcggggcttcgaatcagtag13320attcgtggcttggccataaatccacaggtattcaaacacgcgatgtgttttgtatggccg13380ggtgggccatacctattctaacaaaacaaccatggtgtttggcgtgcctaatacctcatc13440ggctctgccgtgaggataggacacgcaacttgttttattatgatataatgaaaggtagaa13500attgtcattttgtaatggaacagtaaaaaagaggtgccggtgatgaacaaaagagtgact13560aaaggagacatcaggatttacctgatgatgtggaagggtgctattatgaccgtctgtgtc13620gcgagtctggttggcatcatccttggtccagtctatcttttgatcatttttccgttgaag13680aaaatgatcagaaggtattcgatcgatttttcggatttgctcaaaggtctttgatgactt13740ttaggcaagaagattgtttgttagctctctaccgcaaggaggagggctttttcttttttt13800taaattaatttacctttca138192334045DNA人工序列Artificialsequence合成序列尚未归类的特征29562..29573n是a、c、g或t23atgttccctcttcttttcgttgcctctgaataagatttgcttactcaagatatcttcctt60agaagacgtctttatgcttggggtaatccagatcgcggtactcatcgttctgcgatggat120gcaaacaggaacactatatttagtgcatagttgcaagaaatcctcctttaaatcacaggt180gccgccataaagcattatcgataagatgtttttgacgtcagcagaatagacacctccttt240gtaatggaaagttatcttatcttttttcacctctattgcggaagtataagggaaccatag300ggggattcttctgttgttatttttcatgttttgatatataattacactagatatgggcac360atttcaggagtaaaatctaacccattttttgtattttgtcaaataaaataaaggtaaagg420agagaacctctccgaattatcgggaggataaggcagcgtctgataattcttcctccgaat480tatcgggaggataaggcaagactggtaaactctagctccgaattatcgggaggataaggc540acagtaacaacatacgggctccgaattatcgggaggataaggcaaactaaccgttgctct600actccgaattatcgggaggataaggcaaagcgtttaaagccgacactccgaattatcggg660aggataaggcaaacgccctataacgcaatctccgaattatcgggaggataaggcgtagtt720agtggataatttactccgaattatcgggaggataaggcgacgctgacgataaactgctcc780gaattatcgggaggataaggcacaaacatttcctcgacatctccgaattatcgggaggat840aaggcataattactcgctcgacactccgaattatcgggaggataaggcaaaatcatatcg900ttcttgctccgaattatcgggaggataaggcaccccgacaaaattaagcctccgaattat960cgggaggataagtatggatatttccacaatcttgaaagaaagatttgttagcctttaatc1020cattctcctttccctttattttatctgacaacatatgaaagctaaaaaaagtttttataa1080tcaaaagcggaagttcggtaaaagaggttatcgtcttcacgatgaacgtatcgcgtattc1140aggagggattggatcgatgcgatctattaaatatgaattgaaggattcgtatggaattgc1200tgggcttcgtaatcgaatcgctgacgcaactatttctgataataagtggctgtacgggaa1260tataaatctaaatgattatttagagtggcgatcttcaaagactgacaaacagattgaaga1320cggagaccgagaatcatcactcctgggtttttggctggaagcgttacgactgggattcgt1380gttttcaaaacaatctcatgctccgaatgattttaacgagaccgctctacaagatttgtt1440tgaaactcttgatgatgatttgaaacatgttcttgataggaaaaaatggtgtgactttat1500caagataggaacacctaagacaaatgaccaaggtcgtttaaaaaaacaaatcaagaattt1560gttaaaaggaaacaagagagaggaaattgaaaaaactctcaatgaatcagacgatgaatt1620gaaagagaaaataaacagaattgccgatgtttttgcaaaaaataagtctgataaatacac1680aattttcaaattagataaacccaatacggaaaaataccccagaatcaacgatgttcaggt1740ggcgtttttttgtcatcccgattttgaggaaattacagaacgagatagaacaaagactct1800agatctgatcattaatcggtttaataagagatatgaaattaccgaaaataaaaaagatga1860caaaacttcaaacaggatggccttgtattccttgaaccagggctatattcctcgcgtcct1920gaatgatttattcttgtttgtcaaagacaatgaggatgattttagtcagtttttatctga1980tttggagaatttcttctctttttccaacgaacaaattaaaataataaaggaaaggttaaa2040aaaacttaaaaaatatgctgaaccaattcccggaaagccgcaacttgctgataaatggga2100cgattatgcttctgattttggcggtaaattggaaagctggtactccaatcgaatagagaa2160attaaagaagattccggaaagcgtttccgatctgcggaataatttggaaaagatacgcaa2220tgttttaaaaaaacaaaataatgcatctaaaatcctggagttatctcaaaagatcattga2280atacatcagagattatggagtttcttttgaaaagccggagataattaagttcagctggat2340aaataagacgaaggatggtcagaaaaaagttttctatgttgcgaaaatggcggatagaga2400attcatagaaaagcttgatttatggatggctgatttacgcagtcaattaaatgaatacaa2460tcaagataataaagtttctttcaaaaagaaaggtaaaaaaatagaagagctcggtgtctt2520ggattttgctcttaataaagcgaaaaaaaataaaagtacaaaaaatgaaaatggctggca2580acaaaaattgtcagaatctattcaatctgccccgttattttttggcgaagggaatcgtgt2640acgaaatgaagaagtttataatttgaaggaccttctgttttcagaaatcaagaatgttga2700aaatattttaatgagctcggaagcggaagacttaaaaaatataaaaattgaatataaaga2760agatggcgcgaaaaaagggaactatgtcttgaatgtcttggctagattttacgcgagatt2820caatgaggatggctatggtggttggaacaaagtaaaaaccgttttggaaaatattgcccg2880agaggcggggactgatttttcaaaatatggaaataataacaatagaaatgccggcagatt2940ttatctaaacggccgcgaacgacaagtttttactctaatcaagtttgaaaaaagtatcac3000ggtggaaaaaatacttgaattggtaaaattacctagcctacttgatgaagcgtatagaga3060tttagtcaacgaaaataaaaatcataaattacgcgacgtaattcaattgagcaagacaat3120tatggctctggttttatctcattctgataaagaaaaacaaattggaggaaattatatcca3180tagtaaattgagcggatacaatgcgcttatttcaaagcgagattttatctcgcggtatag3240cgtgcaaacgaccaacggaactcaatgtaaattagccataggaaaaggcaaaagcaaaaa3300aggtaatgaaattgacaggtatttctacgcttttcaattttttaagaatgacgacagcaa3360aattaatttaaaggtaatcaaaaataattcgcataaaaacatcgatttcaacgacaatga3420aaataaaattaacgcattgcaagtgtattcatcaaactatcagattcaattcttagactg3480gttttttgaaaaacatcaagggaagaaaacatcgctcgaggtcggcggatcttttaccat3540cgccgaaaagagtttgacaatagactggtcggggagtaatccgagagtcggttttaaaag3600aagcgacacggaagaaaagagggtttttgtctcgcaaccatttacattaataccagacga3660tgaagacaaagagcgtcgtaaagaaagaatgataaagacgaaaaaccgttttatcggtat3720cgatatcggtgaatatggtctggcttggagtctaatcgaagtggacaatggagataaaaa3780taatagaggaattagacaacttgagagcggttttattacagacaatcagcagcaagtctt3840aaagaaaaacgtaaaatcctggaggcaaaaccaaattcgtcaaacgtttacttcaccaga3900cacaaaaattgctcgtcttcgtgaaagtttgatcggaagttacaaaaatcaactggaaag3960tctgatggttgctaaaaaagcaaatcttagttttgaatacgaagtttccgggtttgaagt4020tgggggaaagagggttgcaaaaatatacgatagtataaagcgtgggtcggtgcgtaaaaa4080ggataataactcacaaaatgatcaaagttggggtaaaaagggaattaatgagtggtcatt4140cgagacgacggctgccggaacatcgcaattttgtactcattgcaagcggtggagcagttt4200agcgatagtagatattgaagaatatgaattaaaagattacaacgataatttatttaaggt4260aaaaattaatgatggtgaagttcgtctccttggtaagaaaggttggagatccggcgaaaa4320gatcaaagggaaagaattatttggtcccgtcaaagacgcaatgcgcccaaatgttgacgg4380actagggatgaaaattgtaaaaagaaaatatctaaaacttgatctccgcgattgggtttc4440aagatatgggaatatggctattttcatctgtccttatgtcgattgccaccatatctctca4500tgcggataaacaagctgcttttaatattgccgtgcgagggtatttgaaaagcgttaatcc4560tgacagagcaataaaacacggagataaaggtttgtctagggactttttgtgccaagaaga4620gggtaagcttaattttgaacaaatagggttattatgaatctaaaaatagtcgtgatcaac4680aaactcaatcatttgaaaaatttttatcgtcgccatccaaagaaaatcctttggttgggg4740gtgccattgctattgcttatcgggttgggggcttgggcttatactcggaggactcaaccc4800gagttcgaaacagaggtggtgaagttgggcgaggtggccgatgtggtgagcgatactggt4860ttggtgacggccgagaatgatctcactctctcgttcgagacgggcggggtcgttcgcacg4920gttaaggttaccgaaggtgacgcggtttatcgaggacagacgttagtctcgctggatgcc4980agtttgaaggcggcggaagtggcgagcgcgcgcgccacgttggccgctcaagaagccaaa5040ttggctgaactggtggcgggcccgaccaagctagatttagcttcggccaagacgaaactc5100gagaacgcccgcaagaccttgctgaccgccgacctgcaagcgtacttcgccggtccttca5160gccgattatgcggcttcttcattcacttatacggcgccgacggttttggggacttacaat5220tccgatcaagagggcgaatacgtgcttgagttatatcaatcaggcgcgccgtcgggctac5280tcggtggagtactccggtttggagacggggattatggagggcgccgaaggacgagccgag5340cccttgggccggcgcggtctctatctccaattcccggagaacttcattcgggcgccagag5400gtaatttggcgcgtgcctatccccaacaccaagtccgcttcttatgctactaaccggcgc5460gcctacgaacaggctcaagccgattacgacctgaaagtggctggcactcgcgccgaacaa5520attgtcgccgccgaagcccaagcgcgccaagcccgcgccaccctccaatcggcgcaggcc5580tcgctgtccaagctctcccttacggcgccggtggccggtttggtgaagtccgttccggtt5640accgtaggggagacggttaccgttggttcaccagctgtggcgttggtctcggatcataat5700tattacgtgaccctctatgtgccggaggctgagatggccaacttgacggtcggcgacttg5760gccgagatccggctcaaggccttccccgatcgcgtcttccgcgccaccgtggggagtgtg5820gccccggcggccgaagatcgtgatggcgtggcttcgtttaaagttaaattatatttccaa5880gaatccgatccccaaattagagtggggatgtcggctgacgtcgaccttgaggcgcttaag5940aagaccgacgtcatggtggtgcccgggcgggcggtggtgcgctctaatgggcgaatcttt6000gtccgggtttggagcaataagaccgtcgaggaacgctcggtggagattggtctgcgtggc6060tctgatggctcggtggagattgtctcgggactctcggtgggcgaagaggtgattactttt6120atccgtgacgaggagttggatcgcttggcggactaattccctttcggcgtttatggcttt6180acttgaactcgaccaagttactaaatcttattatagcgacgatctcaccactcagatctt6240gcgcgggatttcgtttaccattaatgaaggcgaattcgtctcgattatgggcccgtccgg6300ttcgggcaaatcaaccctcttgcacgttctcggattcttggctgatcgcaccgccggtac6360ttaccgcttcaacggcaagcaatttgccgaacataccgatgaggagatcgcgcgggtacg6420caatgaagaaatggggttcgtcttccagactttcaacttacttggtcgtaataccgtctt6480cgaaaatgtgcgcttgccgctcatctactcgcgcgtgcccgaaggagagtggccggcctt6540ggttgatcaggctatcgcccaagttaagcttgatcatcggcgcgactatgcctgctccaa6600gctctccggcggcgagcaacaacgcgtcgccatcgctcgcgccttggtcaaccgacccaa6660cgtcctcttcgccgacgaaccgaccggcaacttagactccgcttcggggggagcggtgat6720ggatactttacaacacttgcatgaagattctggtcagacggtgatcttaatcactcacga6780gacctataccgccgagcatgctcagcggatcatcaagattttggatggccgggtcgaagc6840cgatttcagacttgagaccagacgacgcgccagcgagggttatcataagtagttcgattt6900aatttatcctgagggtaatcgaaggactcaccacaagtaaaatgcaacgttacaaattta6960gcttcctttcggccttggaggcgatcaaaaccaatcgtacgcgctctatcctcaccactt7020tggggatcgttattggggtggcggcgatcattgtgattatgtcgttgggcgccggcgccc7080agagtttaattttaaatgagatcaatcagatgggggccgagacggtcatcgtgttgccgg7140gtgagatcactgatgccgcggcggttttctcggactcactgacgcaacgtgacctggccg7200cggtgaaggttaagtccaatgtgcccaatttggcgcgcgccgcgccggcggtcatcgtcc7260caggcaagaccacttatagaggtacgacttatacccccgccatgattatcggcactgaag7320cggaattcttcggtgaggtttttaatatttaccctaaggtgggcacaatctatgatcaag7380atgatatcgagacagcggcgcgggtggcgattattggcgacaaggttaagaccgagcttt7440ttggcgcttctgacgcggtgggcgagcggatcgatatcaagggcaagcaattccgcgtgg7500tgggggtgtatccaacgacggggcaaaaaggacctttcgatatcgacggcttggtgatga7560ttccgcacaccaccgcccagacttatctcttaggcactaactattatcatcgccttatga7620ctcaagccgacagttcggacaatgtcgagaaattggcacacgacatcaccgcgaccctgc7680gggagactcatggtctttatcctggtgatgacgacgacttctcggtggtaactcaacaag7740cgctggtggatcaaatttcgatcattatcaacattctcacggccttcttggcggccgtgg7800tggcgatctccttggtggtgggcggtatcggcgtgatgaatattatgctcgtgtcggtga7860ccgaacgcactaaagagattggtttgcgcaaggcgctcggggcgacccgctcggccatta7920tgacgcaatttctctttgaggcgattgcgctgaccttgtttgggggcgtgctggggatca7980tgatcggcgcctcgctctcgctcgtgctctcggggattctcacttacgccgtggggctca8040attggtccttccacttccccattagcgccgcgatgctcggggtcacggtctcggcggcgg8100tcggactggtgtttggcctctatccggcgcgtcgcgccgccgccaaagacccaatcgaag8160cgttgcggtatgaatagaaccggggaggtttgacgtgactattgattagtgttagactat8220tgaaggaagttaatttgattttttgttcgaaacaaagaaaaaaagaaggaggttaccatg8280tcggataaaatcgtgagattgcctcaccttaaagtttggcaacgagatcggtgttggtgg8340ggacaattactcttcactgatcgctcgatgagcgaagagttcaacggcaagttcttggcc8400ttggtcgctctgcttgaagcccaagagcgaaaaagtgttgttaatgaagacatcctcgat8460ctacttgatcagattgggaaatccccattgtcggagacagattgtcttcggctacgacgt8520gacggtcatgataaggtagatgtggttctggttaaaattatgagaaattgggtccgcgac8580tcggctcaaaatgagcgacgtgaatttgagctcgtaagttttaaaaccaccattatgtcc8640aaacaggcggcgaaagccaccttcaactgaaatttttctcgcctgcgaatctccaagcag8700accggtccgagcacgtgttgctcgggccctttatttttaataaatatttgcccgaggatt8760gttttctcaaattctcttttttctttaagtcggggtttttggactgaaacggaagagttg8820taatctagaaactcactttttttggatggtttttcaacaaatagctgttacaatagaaga8880gtggaaaaataaaatgagttgttttaaaccaggtacgggtaatcgaaagctcagcacaat8940tccgggttttaccttgattgaaatcttggtggtggttgccattatcggtattttgtcggg9000aataatttcgaataatttaaggggtgctaaaattaaagcccgagaagcctcggcccttca9060aaatgcgcggcaattagatttggcggtatcgctttttgaaatagataaaggttattatcc9120gggaaccctgggggttgagacaaatcaagatgaccaaacgactggttggaaagaaggacc9180aggaaccctgcacgacgatctggttcccaaatatatttctaaattacccacgagtgatga9240gataaagtttatttatcttgccgatgaaccatgtcccaacgaccagacgaaaccttgtcg9300agctaagatagttatcgatactgaccaaattgtcgatggtgacggagggacacccccacc9360acccccaccacccccaccaccagctaaggtgattgttccggacttggttaataaaaccga9420agccgaagccctcggggccatctcggcggctaatttagcagtaggcttcaatgatgatgg9480gtgtagtgatatggtttcttctggttatgttttttctcaatcgttgacggccggtgctag9540tgttgatgaaggtacggcgattaatattgttgtttctgccggagggtgtatttctccgcc9600accggtcgggtcgatccctatctcaagttgtggcacaataataactcaacctggagatta9660ccatctggccctggtggaggagaccgagttgaatcaaactaattccgggatctgtattta9720tgttaacaatgttgataatgttaatttagactgtcagaatataaagataaagggtaccga9780taccacagagtcatcgaaacaatatggcgtaattgtcggtaattcgtctggggtggccgt9840taaaaattgtctgattgaaaacgtcggcaccggaattagggtatattcgtctgataacat9900ctcgattgaaaacaatcgactgtcaaacttaggcagggaagggatgtatcttaaagataa9960ttcagatgtgattattcgaaataatcagctgaccaacgccggtgcaagagcgattgctat10020ttatcgagaatgggcgagtcttatttccggttacgctgttgataataacaccatcaaggg10080ggggtcctatggtattacgttcgggcatctgtttaccgacagtcgtcctcccggtgagat10140taaagagatcgttataaacggcaataatttatatgatattgtcactacggctctatcctt10200aaatttagtcgagaacctctcaatcattaataattacatttatgacccgaaaatattcct10260ccaaatagacgattctaaaaatttactcatagacaacaacttcggccaaaatatcacctg10320ggacatgtttatcggctattcagataatgtaaccttttctaacaataagcttaagagcgc10380ttcggcgactaaatcggtggttttagtttggatgtttagggttaataacttagatttctc10440tcgcaacgaaattgaaggctacaatcgtaatttgttaaaacttgacgatagttatgattt10500ctcgatcaaaaataatattttcaatagccgggttggtgtttatgaaggggtgattttggg10560taaaggttttctcggtgtatctggtgaagtttctgaaaatgatttttacggcggtggcga10620gggcgtctctttagctttagatatttatcataattcggccaaccgtctggcgatctttaa10680taataattttattgattatttgggggcgtcgttaagatatgattctagttttttggattt10740aggagctaattattatggtacaaccgactgtgccttattgcgggcgacaacttggcccga10800ctgggtgataataccaccttcttctggtttacccagtcctttgctttacttggattcgtt10860ttggcctaaagggaacgttcaaacttgcaattaatttaggctaaactgcgagtgaggtgt10920ttttcttgatatttagattaaaaagtgatataagtataaaagagaaaggaggttctgatg10980tctcaaatgggtattgcccacgcgctcttttacaagcgaggggattgtctccaagctcgg11040atcgttttcggcgacggtcgcttgagcgaagagttcagctcccgtctcgaagggatggag11100attctgacaaaatctcgtcaggataagctcatttctcatcaagagatgacctctctggcg11160ttggaatttgcggaatcgactttgccggcgagaactccgtcggcggaaattgttgacggc11220cttctgatggcgatgaagcttgacctttgaaagctttatcaaaaccgctctccggctgat11280ctcggggcggtttttttgtttaaatttaaagggatggagttatttcgagcgggggatgcg11340atgcttctgatgagtgaagttggcgttgaagtttgacttgaagttttgattgttcggccc11400gcccgatttctgaaacttgaagactgacggggtgcggaaaccggcgttgcccggttgttg11460ctgtttgttttgtttgctccgattggtgtttttcatatcctttaattataaatcgaagtt11520ggattatggcaagcagtaagataaacgtcctaattgtgacgtgattgacagaaaagataa11580aacaatgtaggatagatttcggatcctgaaccttcaactctcctcaacagaatcaacaga11640aaggaagacagaatgaagaagatgcttgtcttgttgtccgcgtttgtcttgaccatcgcc11700gagctggcttcggccggatcgttctctgacccgttcgatgcccttgattcggcttgggtg11760accgatcggttcgagccggccggattctccagcgtcgtcttcgacggcgacaatcggttg11820gagattgcgattagcgcgaccgactcggaggctaatcgtccggccgggttcactagtggg11880ttttataacacgcaaggccgtcaacgagatgccttgatggcggaaccttgggtcatctcc11940ggcgatctttacttgtcgctggatatgctcttgggcgacaatttgcgccggactgatctc12000tgggcgcgaacttcggacggtccggaggctaatgcgcaatacccgattatcgggatgcgt12060cggtttgacccgcttgatcccttcaacccgctggcgggtgatattgcctcaacttggcga12120gtctgggattcggacacggtcgacggttgggtcaatttggccacgccgatggtggctggt12180tggaacacgctttcgattgagagtgacggtctatcatatctctatcggatcaacggggtt12240gaggtctatgaggacctcaccatcagcgctttcgcgaccgatctgaccacggtctttctc12300caaggttataacttcggcggtgactacgaagtctattgggacaatgtctctgccgccacc12360ttggctccggtgcccgagccggccacgatcttgcttttaatgctgggggccggcgtggtg12420gcgattcgtcgtcatttcgcgaaacaacaataactaacttgagaggttagggtccgccaa12480cccgttcgctgtcgcgagcgggtttttttattggcgagaagttaaggggtgatgtttagt12540tgaccaaggtaatagcgaagggtgtagagccaatcctcgtcttcttcgccggcttccagt12600ttttgtttcagaagccattcgagataaccgcgatcggtcttggccacttcggcgagcgtt12660cggtctttatgcttgccaaaaccgaattttttgaagagtgacggacgagacgagatctca12720atcattttggcgagcgtttcttcgtcggagagttcgcgcgaacccaagagcgagccgtcg12780ccggctttcaatttttgccataaccgattaaacagcgcttcggtcaccaaaacatcgccc12840acggcgtcatgagcggtgccatcaagatccaagtcgagataataacgcaagaattgcaga12900ttgtattccggaatcaccccttcggtatccagttcgcgagccaagcgcagggtgcagata12960tattgcggcactttgactccttcggcggccaagatagcgatgtcgaatttggcattgtgc13020gccaccaacacgtgatcagcgagaagggtttccagctcgcgacggaaggcgctctcggcg13080aagggttctttgtcggccaccagcttattggtgatgtgagtgatactcatcgacttaacc13140gagatggggactggcggcttgaagtaggcggtgcgagtggtggttttggttttgtagcag13200acctgacaaaggcgatctttggtcacgtcgttgccggtggtttcggtatctaagaataag13260atttccatggtcggttaagcggccggttggtcggtcgaatcaaccttaacgttttggata13320attacgggcgtgacggggcgatcgttttggtcagtggcgacttggccgatctggtttaca13380atttcttgtccaacagttacccgaccgaagatggtgtagttattgggtagcggataatct13440tcgagcatgataaagaattgactgccgttggtattgggaccggcgttggccatcgccaac13500acgccttgccggtagccggcctggtatgacggagtggccggatcgagctcgtcggcgaat13560tggtaaccggggccgccggtaccgcaggggccggtggcggggactttggcggattcaggt13620gaacagttcgggtcgccgccttggatcataaaacccttgatcactcgatggaaggtgaga13680ccgttgtaataaccggctcgggccagcttgataaagttggcaaccgtgttgggggcgtct13740ttttcgtagagaacgagggtaatctcgccaagattggtttgcaaggtgatttggttaggc13800atagttgaggtggtcagtcccgagcttgctcgcggtgagttcgtcgaatccgtcgaggtg13860gcttgagattgataaatgttacttgttaaatcggcaggattgggcgctctctgatttaac13920ttttgccaaccaaaaagtccagccaggccgagtaaaataataagaactaaaatcacctgt13980ttgttcatgggaattgagaaacgggttaaagatgggctgataattgtgaattataacaat14040aaccgttagagtaaggcaatgaagagtgaagaaccggaagattatcggctaggttggcgg14100cccttcttgggttgccaagtggatctctctcagcgaccgttgattccgcgcgaggagacg14160gaattctgggttgatcaagcaatcaaggaacttaaaccagaatcaaccgccggcaaacaa14220gtcttggacttgtttgccggttccggttgcatcggcttggcggtgcttgagcactgtccg14280ggcgtggcggtgactttcggcgaaagggaggaaaaattttgtgggcagattcggaagaac14340ctcaagttaaacccgccagccagatttgatttcccgccagaccttcgggcggcctctcaa14400ggtctggcgggtggaaggaccatggcctctcaaggtctggcgggtgaaaggaccatggcc14460tctcaaggtctggcggggcgaattagagtcgagtcgtcgggaaaggttgtccaaaccgac14520attttttccaaaatcaaagggcagtttgattttattttcgccaacccgccttatgtcgcg14580accagaagaagtcgggttcaagcctcggtgcgcgactgggagccggccggagcgctcttt14640gccggccccgacggtttggcggtgattcgaccgtttttggttgaagcgaaaaaacgtttg14700cacccgggtggccggatttatttggaattcggttacggccaaaaaggcgctctggaagag14760ttattgcggcaaaacggatataaaggttggtcgtttcggcgcgaccagtttggccgctgg14820cgttgggtcgtgatacaatagcggtatcaaaagttaattttttaattctaaaattttatg14880acagacaaaaacaaagctttcattctctggttcaatgatttgacaattggcgacgtcggt14940ttggttggcggcaagaacgccgctttgggcgaaatggtcaacaacctggttccgcttgga15000gttaatgtgccgaatggtttcgcgattacggcgcacgcttacgcctacttcttagacaag15060acaggcttaaaacagaggattaaggaaattttgaccgatctcaatactcacaatatcaac15120gatttgcaaaaacgcggcgcccaagtccgcgccgcgattattaaagaagaattgccggaa15180gaactgcaagtggagattatcaacgcttatcgcaagcttagcgccaactatcacagccag15240gccgtggatgtggcggtgcggtcttccgccacggccgaggatttgcccggggcctcgttt15300gccggtcaacaagaaacttatcttaatgtcgccagcgaaaaggagttgatgttgtcggtg15360cgcaagtgcttcgcctcgctctttaccaatcgcgccatctcttatcgggttgataagggt15420ttctcaatgtttgatgttttgctttcggtcggggtacagaagatggtgcgcagcgatttg15480gccgcggccggcgtgatgttttcggtcgacaccgaaaccggtttcgataaggtggtggtg15540atcaacggtgcctacggtttgggcgagatggtggtcttgggcaaagtcactcccgatgaa15600ttcgtggtcttcaagccgtcgctggagcgcggttatcaggcgattctctccaagacgctt15660ggtcgcaaggacgtgaagttggtttacggcgccaagggcaccaaacaggtgtcggtgccg15720gccaaagaggtgaaccgtttttgtctcaaagacgaggaggtttccaaactggccgcttgg15780ggcctgaccattgagaaatatttttccggcaaacacaatcgctatcaaccgatggatatg15840gagtgggccaaggacggcaagaccggcgaactctttattgttcaagctcgccccgagacg15900gtccacgccgaagccgacaagaatgtttacgaagagcatattttgaaagagaaaggcaag15960gagttggttcgtggcaacgccatcggcgccaagatcactgccggcaaagtgcgcctgatc16020aagagcgccaaccagatgaacaccttcaagccgggcgagatcttggttaccgagatcacc16080gatccggattgggaaccgattatgaagatcgcggcggcgattatcaccgagaagggcggg16140cggaccagtcatgcggccattgtctcgcgtgagcttggagtgccctccatcgtgggcacg16200ggcaacgccaccaaggtgctaaaaaacggccagctggtgaccgtggattgttcctccggc16260aaagaaggagtggtttacgaaggcaagcttgcctttgagaaaaaagaacatcgtctaacc16320gctaccgccaagacgcgcaccaaggtaatggtcaatatcggttcacccgacgatgccttc16380cgcaatttctatttgcccgtttccggggtcggtttaggtcggttggaatttatcattaat16440tcttacatcaaggttcaccccaacgcgctcttggattacaaagagcttaaggccagtcgc16500gatccgcgcgccaagaaggcggttaaggcgattgatgagttgacggttgaatacaaaaac16560aagaccgattattacgtcggcgaattggccgaaggggttgccaaaatcgcggccaccttc16620tacccgcacgacgtgattatccgtttctccgatttcaagaccaacgagtaccgcactctg16680atcggcggcgatctctacgagccggaagaggagaacccgatgatcggttggcgcggcgct16740tcgcgttattatgatcccaatttccgtcgcgctttcgccttggaatgtcgcgctctctac16800caagtgcgtagcgagatgggcctttccaacgtgatcccgatgattcccttctgtcgcacg16860gcggaagaaggccggcaagtggtggagattatgaccgaagccggtctggaccgtcaggct16920gacccttcgctcaagatttatgtgatgtgcgagattccttccaacgtggtggaggccgat16980gcctttttggaagtcttcgacgggatgtcgatcggttccaacgacctgacccagctgatg17040cttggtttggatcgcgattccaacttgatcagccatatcgccaacgagaatcatccggcc17100gtcaagaagatgattgaggtggcgattaaagcttgtcgggccaagggcaagtatatcggc17160atttgcggtcaggcgccgtccgattatccggagtttgccgattttttggtgcagaacggg17220atcgggagcatctcgctcaatcccgattcggtgattaagaccttacccgtgattgaggcg17280gccgaagagaagtatccccaaagataataaaaatatgaaaatcgctttttttgaattgga17340gacttgggaaaaaaaatacttgcaagagcgaactctgcccggcgaggtcgtttttatcga17400cggaccgttggatgagaccaagttgccggagcaaaacgatttcgacgccatttcggtttt17460tgttaattccattgtcggcgacaaagtgttgggacattttcccaatctccagttgattgc17520cacccgctcgaccggttatgatcattttgacctgccaacttgcgccgctcggggggtcaa17580ggtggccaacgtgccgagttacggcgaagataccgtggccgagtacgccttcgccttaat17640gctcactctctcgcgcaagatttgcgagagttatgagcgtattcgcgagaccggcagttt17700cgatctcaccggcctgcgcggctttgatctgaagggcaagaccttgggggtgatcggcac17760tggtcggatcggcaaaaacgcgatcgagatcgcgcggggcttcaatatgaatatcgtcgc17820ttacgacaaatttcccgacccggtttatgccgaaaagatgggctatcgttatctgtctct17880ggacgaggtgctggccacggccgatatcttgaccttgcacgtgccctacctgccggagaa17940tcatcatttgatcaatgccgaaacgctggccaaaatgaagtcgggggcttacctgatcaa18000caccgctcgcggtggcttgattgacaccgcggctctgctcgtggcgcttaagtcggggca18060aattgccggagccggtttggacgtgctcgaagaggagggcgtaatcaaagatgaggtcaa18120tttcttaaccaacggtcgcttggatcaaggcgatctgaagacggtgctcggcaatcatat18180tttgattgatttgcccaacgtgatcattactccgcataatgccttcaacacttgggaggc18240gctgaagcgcattttagacaccaccgtggcgaatctggtggcttttgaagctggaatgcc18300gcaaaatttgatcagtggcgattaaggcggtttattgacgttttaccttgataacggtac18360aataaggtcagattccgttcggggtgagtggaaaaacgtcggttctagacaacggaagga18420gattttatggcccagaagtctgccactgaaattgtttgagctcgtctgtctgcgtgaccg18480acgagcttgtgttttgtttaaataaaaagatggctgaattcaatttcaaaatcgaaaaga18540aaattgccggccgtctcggccgagcgggaacaataatgacgcctcacggagacatctcca18600ctccggcgtttatcaccgtggggaccaaggccaccgtcaaggcgctctcgccggagcaag18660taatggcctccggttcaccggcggcgttggccaatacttaccacctcctcttggagccgg18720gcgcggaagcggtggcgcgggctggcggtttgcatcgctatatgaattggccggggccgc18780tgattaccgattcgggcggcttccaggtcttctcgctcggcgcggcttatgacgagggcg18840ggatcaataaattcctcaagccgggcctaccctcgcggaccgcaccgaagcgaccttcgg18900aagaaggtccgcgggagccgaagccggccaagattgacgaagacggagtgacgtttcgtt18960cgcctttggatggcgccgaacaccgcctgacgccggagagctcgattcaaattcaacatc19020aacttggcgccgatattatttttgctttcgacgaatgcacggcgcccacggccgattacg19080tttatcagaaggaagccatgaatcgcactcaccgctgggccgagcggagtttggctgaac19140acgagcggctaacccaggctaagactcgggaaaatgcttctaaaaaagtcctcggtcctc19200ttcaggcttcgcttgaggccagactttttgataagcattttcccgagtcttattcggcct19260tgttcggcatcgtccaaggcggccgcttccaagacttgagggaggcgagcgccaaattta19320ttgccagcttgcctttcgccggttttgggattggcggttccttcgataagaccgatatgg19380gcacggcggtcgggtgggtcaatgcgatcttgccgaccgacaaaccgcgccacctgctgg19440ggattggcgaaccggaggatatgtttgaggcggtggcgcaaggggccgacactttcgatt19500gtgtcactccaacgcgcttggcgcgccatgccactttattgacggcgaccggccggctca19560atattttgaatgccgctcaccgtgacgatccgacatcgatcgaagccgattgtgactgtt19620acgcctgccaaaattattcgcgcgcttacttggctcaccttttccgcgccggtgagattt19680ttggcgccactttggccacgattcacaatttgcgctttatgaatcgtctgtcggagcaaa19740tgcgcgccgcgattttggccgagcgatttttggagttcaaggccgagtggctagccaaat19800atcaaagatgaagaaacccccctcaaccccaaaactttttcgtttggaaagcgccttcgc19860gccggccggcgatcaaccggcagcgattaaggcgctgaccgaaggtctggcacgcaatct19920tcgtcatcaaaccttgttgggggtgaccggttcgggcaaaacttttaccatggcgggagt19980gattgccgcttacaacaagccgaccttggtgattgcccataataaaactttggcggccca20040attggcgcaggagtatcgaagttttttccccgaccacgcggtgcattactttgtttctta20100ttacgattattatcaaccggaggcttacgtggcggccagcgacacttatatcgagaaaga20160cgccagcatcaacgaagagatcgaacggcttcgtcacgcctctaccgaagcgcttctgac20220gcggcgcgacgtgatcattgtcgcttcggtgtcgtgcatctacggtttgggcagtccgga20280ggaatacgccaaaagttttatcaattttaatcttggcgggaaaattgaacgccaagcctt20340gattgagaaactggtcagtctttattatgagcgaatcaacgccgatctctcgcccggcac20400ctttcgcgccatcggcaattctgtggagattatgccgcccggtcaacgagagatcatcaa20460tctcaagttgaccggggaccaccttgccgaaattttgatcgttgacgctgtttcgcgccg20520agtggtgaaccagccgggcgagatttcaatttatccggctaagcactttatcaccagcgc20580cgacgaacgccagcgcgccatcgctttgattaagaccgagttggctgagaggttgaaaga20640gttggttgccgccggcaagaatctggaggccgaacgcctgaagcgccgcaccaattacga20700tttggcgatgatcaaagaaatcggctactgcaatggcattgagaattattcacgccacct20760ctcggggcgggcggcgggcgaggcgccggccaccttgcttgattattttcctaagacttc20820tttcggtcggcccgattttttgaccatcattgatgagtctcacgtaacggtgccgcagct20880tggcgggatgtttgccggcgacgagaaccggaagaaaaatttggtggcctatggttttcg20940tctgcccagcgctctggacaatcgcccgctcaagtttcccgagtttgaagcccgaattgg21000tcccactatctataccagcgccaccccgggcaaatacgagcttgaagccagtaatcccca21060aaaaggcgggcagatcatcgaacagattatccggcccaccggcctggtggatccggcaat21120tgaaattaaaccgatcgtttcgaccgcgcgctatctcgggcaaatccaggattttatcgc21180cgaggtgaaaaaagaaattgctcaaggtcggcgggctatcgccacgaccttaaccaaacg21240gatggccgaagatttgagcgagtatttgaaaggtgaggggattaaggccgaatatttgca21300cagcgagatcaaaacgttggagcggatcaaaatcctcaccgacttccgccgcggcgagtt21360cgactgcttggtcggcgttaatctcttgcgcgaaggtttggatctgcccgaagtgtcgct21420gatcggcattttggatgctgataaggagggcttcttgcggtcggaagtggcgttgatcca21480gaccattggccgggcggcgcgcaatttggccggccgggtgattctctacgcggagacgat21540aaccgactcgatgaagcgggcgatggatgagacggcgcgccggcggaccaaacaactggc21600ttacaatcagcaacatggcattacgccggtttcaatcgtgaagaagattaaagacatcac21660cgacagtttggctaaagatcggcaacaatcggttaccgctctcttggcaatagatgaaga21720gctttatggtaaaaacaagaaaaaattaatcagggagaaggtcaagcaaatgagcgaagc21780ggtcaagaacctcgatttcgaaaccgccgctctcctccgcgacgaaatcaagatcttgga21840aaacgtcaagactaaggccaaatgatatcggaggatgatgttggcgtgacatcccgccga21900caatttttatcccaattcatacacgaccgtgcacggatagggatgattaggaagtctgag21960gcaggttgaaaaattttctcaaccaacgatcattttcgatttgggtgacttccagatata22020aaatttcatttccgattcggtaattggctttaatcatcgcgacaatttcgcggcaatcat22080aaggcgaaacccagacgctgttttgcaatctgactaagccaaggtggtgtaaccaacgac22140gaagtttgtctcgggtgcttcgcttccattccttaatatcaaagatgatgattcgatatt22200tgcggtcccatttggacggtttttttatggtcaacttctttaactggtattctcttaatc22260tcgcttgaccttttttagttaaacgaacaattttttgattttgatgattggtttgaatct22320caagcaacccttggttcttcattttctctattaccgtattggtgtaatattttttctttg22380attgttgtccgggcaaatattttagcagttgaacgcagttgggggccaacaaggtaaaag22440caatcaccccggtgataccgatgatacttaaaataagctcttgataatccgctttgtcta22500ttcgtgacatataccttattataaacggtcgtataagataagggaagatagaaaagatag22560gaaaagagggaatccctcaaagcttttttgtttgggtcggatgtgttataatcgctaggt22620tccctatgggccggcccacggggggtttcggcgtcatccggaataagattaagaaatttt22680tatggatcagaaacatcaggataaaatcaaaatcaaaggggcgcggacgcacaacctgaa22740gaatatcagtttggagattccgcgcgatcaactcacggtgattaccggtttatcgggctc22800gggcaagtctagcttggctttcgacactatttttgccgaaggccagcgacgctatattga22860gtcactttcagcttacgcgcgccaatttttgaaacaattacccaaaccggaggtggacga22920gatctctggtctctcgccggcgattgccattgaccagaaatcgcgttcgcacaatccgcg22980ctcaaccgtggcgaccgtgaccgagatctacgattatctgcgcgtgctctacgcgcggat23040cggccggccgcactgtccggtgtgtggagtggcgattgagaaactctcgctggaggaaat23100cgtgaatttcgccaaagagaaaattgccgtcagtcatcggggtaaaaaaaatctcaagat23160ttcaattaccgcgcccttggtgcgcggacggaaaggggagtattatcagctcctctacga23220tttactggacaagggttacctcgaagtgttggtggacggtcaaacttatcaactgcgcga23280acgcatcgtaatgaccaagaccaagaagcatgatattgacgccgtggtcgacatgattga23340ttggagcgatcagggcgaggttgtcgcggccggccagcgtttggccgaggcggtggaacg23400ggcgctcaaagagtcggacggtctagtgaagattgtgattgataacgagaacttcctgct23460ttcctccaaattttcttgccccaacgatggcttctcttttcccgagattgaaccgcgact23520cttctccttcaattcgccttacggcgcttgtcccacttgtcacggtattggcaccaagca23580cctcttcggtggcgaaccttgcgatacttgccaaggggctcgcctgcgtcgggaggcctt23640ggaggtgagaattggcggcaaaaacattatggaagcggtgtcgctctcaattgccgacgc23700ggccagctttttcgacaagctgaagttgaccccgaaagagaaaacaatttccgaggtgct23760gtggcgcgagatcaaggcgcgattgaagtttttgctcgatgtgggtttggattacgtgga23820gttgaatcgccgcgccgacacgctctcgggcggtgaggcccaacgcatccgcctggcttc23880gcagttggggtcgcgtttggtcggcacgctctacgtgcttgatgaacccacgattggttt23940gcatgctcgcgataacgccaaactgattaagactttgcttgagttgcgcgatttgggcaa24000caccattgtggtggtggagcacgacgaagacacaatttttgcctctgattatttggtgga24060tatcggccctggggccggggtgcacgggggcaaggtggtggccgccggtccaaccgagaa24120atttttaaccagcaagaagaacgattataattctttgacgattgattaccttcggggcga24180caagactatcgctttgccggaaaaacggcgaggaaaccagaagggcgcgctgaaaattcg24240cgggggcaaaatttttaacatcaagaatctcaatgtggacctgccgctctcgcgcttggt24300ggcgattaccggcgtgtcgggttcgggcaaatcctctttcgtctacgaaattctttataa24360aaatttgcaggccaaactggagcgtcgttatcgcaccaacaccttgtttaattgtcggga24420atttggcggaacggaatacttgagccgagtggtcttagtggatcagtcaccgatcggtcg24480gaccccgcgctccaatccggccacttataccggcgccttcaccttcatccgggaactttt24540tgcggcttcggctctggcccgggcgcgcggctggaagccgtctcgcttctccttcaacgt24600ggctggcggccggtgcgaggcctgccaaggtaacggcgaagtggcggtggagatgcattt24660cttacctaccatctttgttccttgcgatgtttgcggcggcaaacgctacgagaaggaaac24720tctggaagcgctctataaaggaaaaaatatttacgaagtgttgcagatgacggtggaaga24780agcctttagttttttcgaagatattccggccatcttcgaccggctcaaaacgttgaacga24840agtcggtttgggttatttggaattgggtcaatcggccaccaccctctcgggaggcgaggc24900ccaacgggtcaaaatctccactgaactttatcggccgtttaccgaacgcacgatttatat24960cttggacgaaccaacggtcggattgcattacgaagatgttaaaaacctaaacgaaatttt25020gcaaaaattggtgaccaaaggcaataccgtggtggtgattgagcataatttggaagtggt25080caagagcgccgattacgtgattgatctcgggcccgccggcggcaaagacggcggcgagtt25140ggtggcggtcggaacgccggaagaattggcctacgctcctggctcccataccgggaaata25200tctcaagcgtctgttgaaacaacaataattaaagttgaaagatggaaagccgggagctta25260aaaaatatcaattgcccgatgggcccggggtctacttcttcaagcagggccggcgaatcc25320tttatgtgggcaaagccacgtcgctcaaggatcgggtgcgcagttattttgccggtgatt25380tgggcgaaacgcgcggaccaaaaattgagcggatgcttgagttggccaaccgcgtggact25440ggcaaaccacggactcggtgttggaagcgctcttgctggagtcggccttgatcaagaaac25500atcaaccgccctataacaccagagaaaaagatgacaagagctactggttcgtggtgatta25560ctcacgaaccttttccccgagtattgttgtgtcggggccggcaattgtcgaacggttcat25620tctctcttgcgcttaaaatcaaaaaaattttcggcccttttccccgttcaagcgaaatca25680aggccgccttgctcgtgatccgaaaaatttttccttatcgcgaccgttgtcaactggcgg25740tggccggccgaccctgttttaatcgtcagctcggactctgccccggggtgtgcaccggcg25800aaattaaccaaaccgattatcggcggctgattgccaacattgaacgcttgtttgccgggc25860gtaaaagggaattgctcgttcgtctggaacgcgccatgaaacgagcggccagaactcaac25920gtttcgaagcggcgggtcaaattcgcaatcaaattttcgccctcaaacatattcaagatt25980tggcgttgttgaaatcaagccccaaccgcctcaagggaaaatccgttcggatcgaggctt26040acgatgtggctcattggcaaggcgaggccgcggtgggagccatggcggtttggcaagacg26100gagagttggatcgaagtcagttccgccaattcaaacttcgggcgacaacgccgggggacg26160atttggccgggttgcgcgaaatcttgactcgacgtctgggtcatcgggagtggcccgagc26220cctctctggtggtggtggatggagaccagcgacaggtcgccacggcccaagtcgcattgg26280ctcgtcaaggtcttgactggccggtagtcggagtgaccaaagaccgtcatcaccgcgccg26340tcgctttggcgggcaatcttgaggcagagagttttgaccgtcaagccgtgattgaagtca26400acgacgcggctcatcgcgtggccattgctcatcatcgccgacgtttgcgtttgggtcggt26460aaggtcagggcttatcccttggagcgctcttccgaaatatggtaaaataaaggtcggata26520atcaactttatgttttggtctgacttagtcgcaaagttgcccaccgagccctcggtttgg26580attgccgcgttgggtttgtttggggtcgcctttttccttggttatttttggcaggatcaa26640tcgaccaggacgagatggcaggtcaagcaggagatgttgaagaaccagcagattattgaa26700ctggaaaaagtcaaccagaacttggcggccaaaaatcgtgaactctatgccaaagaattg26760gagctgaccatcgccaacaaacatctccaagcgctggaagcagccaaatccaaatttatc26820gccgtgaccactcaccaattgcgcacgccgctctcggctgtgaagtggacgctggatttg26880gcggccaaaggtcaattgggcaaggtcgacgaagagcaaaaaagtttcttaaacaaaggc26940ttgattagtgtcaaccgggttattgccatcgtgaacgaactcttgcgcgtggactcggtg27000gagaccgatcaagtcgtctattgtttccaacccgtcaattttatcaagctgttcgacgaa27060gtgttgtttgaattcgaagtgcaggccaagagcaaaggggtgaaactctcggtgcgtcgg27120ccggagactgacctgcctccaattgatttggatgaaaccaagattaaaatggtgatggaa27180aatcttttcgacaacgccattaaatacacgccggtgggcggtctggtggaagtggttgtc27240tccgacaagcgtctcaaccgcgccgaaggggcgattgaggtgacggtgcgcgattccggc27300atcggcatcccgagcgaggaaaagaacaacattttccaaaaatttttccgcgcgaccaac27360gcgatcaaggccgagcccgacggttccggtctcggtctctttatcgctcacgatattgtg27420actcggcataatggctcaatgtggtttgagccggccgcgggcggaggcacgatttttacc27480ttcactttaccgattcatcagaagacgctataattttaaagactcttatcaatttaatct27540taaaagacaatggacaagaaaaaaatcctaatcgtggaggacgacgagttcctccgttcc27600ctcaacgccaagaagctggagagcgagggttatgccgttagtgtgtcgcccgacgggacc27660agcgcgatcgaattgattcctgaagaattgcccgacttggtgtttctggatcttctgttg27720ccgggcggcaaagacggtttcgatgttttaacggcgatcaaggccgacgaaaaaaccaag27780aatattccggtcgtggttttctccaatctcggccaagccgaggatatcaagaaggctaag27840gacttgggcgcgattgactttttgatcaaagccaactttacccttgacgacgtggtgacg27900aaaattaaagaaattttgaaataaaacaaatcaatggcgcccattcgagtcggtatcttg27960cgcggtggcatcggatccgagtatgaagtttcgcttcgaaccggcgccggtgttttgcgc28020cacttgccgggcgacaagtatcagccggtggatattttgctgtctcgagacggggcgtgg28080tatgccggcggtttgcgcgccacccccgagcgggcggtacggggagtcgatgtgatcttc28140aacgccttgcacggcgagttcggcgaagacggtcaagcgcaacaactgcttgattatctg28200ttcaagccctatactggttccggcgcggtcgccagcgctctggggatggataagcctcga28260gccaaagagctcttccggcaggctggtctgcgggtgcccaacggcgcggtgcttcggcga28320gcggatcgtcccgaggaaaccgatgccgaggcggtggcttacgatgtcttcaaaaaaatt28380ccgccgccttggatcgtgaagccggccagcggtggctcctcggtggatctccggctggcg28440cgccattaccccgagttagtggcggcggtggccgccggccttaagcagaacgatcgaatc28500ttggttgaggaatacgtgcgcggtcaagaagccacggtgggggtcgtcgatcgtctgcgc28560ggccgcgatcattatccgttgttgccggttgagattgtcacgctgccagacaaggtcttg28620tttgattacgaagcgaagtacggcggccaaaccaaagaaatttgccccggccgctttcgg28680ccggaagacaagcttgagttggaacgtcaagccgttttgattcatcaacaattaggcctg28740cgtcactattctcgttccgattttatcatctcgcctcgcggtatctacgtgctggaagtc28800aacactttgcccggcctgaccgaagagtctctggtgcccaaggcgctggccgctgccggc28860atcgcttacccgcagtttttggatcacttggtgaccttggcgttagaacgacgctgaatt28920tgaaggacaaaaaagccccgcgagagaagatgcagtgatctcaagggggcaagaggaggg28980gatgaaaggtatgaaggaactaccaatgaaggggatggaactgggacaaaagaacaaatt29040aggtggcagagccttcagtgccactcgaaagctctgccggttagggtgtaaaggtcgagc29100gagcgacctatcttcaggttatcataaggtgtgattttttgcaagggcggagggattatc29160ttggtggtgttattataatagcatttgctcgaacttattttcaagacaaaatgaaggact29220gaacgccccgccacccgcctcgcggacttggcggacaccagaaacaaaaaattttcttaa29280cattttccgatttggcgcgaggaagaatttctcttaaatggaaaagaaaattttgtttct29340ggtgttctgtcctcaaggtctcgggcagttggcggggcttcagaaattcggacagaaaat29400taaaaagtgtcatcccccccaaaccccaaccactttttaattttctgattcctacaatgt29460ttcgtttggtggtgttattttagcatttgctcgaacttatttccaagaaaaaatgaaaga29520ctagcgttccccgcgcgctgaagcgcctctgtgcaaagcacnnnnnnnnnnnnggggatt29580ttgaattttgtccgcgcggaggcagggtctgggagggaatccgcgcgggctttatttttt29640tgaatttttttggcgtagagcttgtataaaatacaattatatggtataaaaatagtaaga29700gaaagtcatcgtggctttctcaaaaccgctcattgacaactaaaaaaggaggatccaatg29760attatttcattcagtgggccctccggtatcggtaagggcttcatcaaagaacgactatta29820cagctttatccagacatccaagaattggtgtggtatacaactcgcaccttgcgaccaaac29880gaacaagggtcaaacagaattcaagtttcactttccgagtttaaccagtcggttgaactt29940ggcaagcttactttagtgcaagatctttttggtcatcgttatggtctaaaaaaagaagat30000ctcgtaacgagttcgggtatcaagttgactgagttgcatccagcaaatctagtggaagca30060ctcaaaatcaacccgaagatttttgcaattggtcttgtaacttctgatttatcactactt30120cgtaaaagacttactgttgtgagaaagacggaaagcgaagcagagatagagaaaagagtt30180acgaaagctaaaagcgagatcgagataattctacaacacaggtctttttatgcttccgtg30240attgaaattacagaagctgaagaagatcaagtgttcaacaaggttcatgcaatattgcaa30300tcacaaatcaaaccgaaaggaggaaaaaatgaaactagaaacacaagttggtagtctgaa30360gttgcacacaccgttgttgctggcttcaggttacattaccgaaacaccagagttctttct30420gagagctcaaccctacggctgttcgggtatcgttacccgatcacttaaacaaaatgttcc30480agcggaacgatcacggattacatctccacgctatgcagtctttggtaatgacagcatgct30540taactgcgagtggggaaatgaaagaccgtggacggattggcgagatcatggagtgcaaca30600ggtcaaagcaattggttgtctaatcatcatttcgctttcggggcgagatttggatagctg30660ttgtaatttgattcgtgcattcgataagatcggtgttgatgcctacgaaatcaacatctc30720atgttcgcattctggagcactgcatgggaatctgaatgttgatgtgcttcacctagaaca30780actgatgaaaagagtgcgtaacattacgacgactccaatctggatcaagttgtcgtattc30840aaacctgctgttctcaatggcaaaacaagccgaagagtttagagcagatgcgatagtgtg30900cacaaatagcatcggtccaggaatgttgatcgacaccaaaaccgctaaaccgaaactcgg30960aatcaagggcggaggcggtggaatgacgggaaaagcaattttcccgatcgctctatggtg31020tgtgcatcagctttcaaaaaccgtgagtatccctgttgtcggttgtggtggaattttcac31080cgcagacgatgtaattcaaatgctcatggcaggtgctagtgcagttcaactctacacagc31140tcctgcgctgaaaggtcctacggtctttagacgagtaaaggctggactacaaaggtttct31200cgatgagaatccgaagtatgcttcagtcaaagacctcgttggacttacgctcgacaaaac31260aggtgagcataagttttcttcacctcgtccagtcgtgattgaagaaaagtgcacaggatg31320tggaatctgtattcaatcctgtgcatttgacgccctgtcaatggttcgtagtgctgatag31380caaagcactggcggtcattgccgataactgcatctcatgcaacgcttgcgttggagtatg31440tcctccgaaattcgacgctatcaaagcatcattctaggaggtaatacagaaatgaaaaaa31500aacacatacatcatcgcggttcactgcaatgcgtgtcgaaccctactgtatcgttacaaa31560aaagaaggtggtggacatctcctcaagtgttatgccgacatgataatgtcggattacact31620aaaggcgatctaaggtgtccttcttgcggtcaagagtttgctcgacatgcaatcatccac31680aatcgctcagcacataagataatccgagggagagtctttgtgaagggtcatcatggataa31740catcatcacaacgggtggtttgattcaatcagaccacccgttatttttttattttagttc31800aaatctgtttttgaaataattagatgtatagtttttataatcaaaaatctcattagattc31860tttatttagtttttctacatattcaaaaaattgttttttatcaaaaatatcaagactaag31920ttctttacaaacatttgcaattcctttaaccaattcatcgccattttcattaccagaggc31980cattttttctgcttcgtaataataactatgtcccggtacttctaccaatgcaaattcaat32040atccttatattcatatactttactttttctaacacaaagcatacctttaccaaatccaag32100ttcgccgaaaatttcaaccaacgtgtcaaaatcgccttgtttagtgaaaaccgagagctc32160tttacgttgctcatttcctccccattcgccaattttaagaataatttcaggaattccatt32220ggtcactcgcaatcgtatatctttttttctatgttctacccctccctctagaaaagttga32280ataatcaatcaatactctatttttctctgatttcttttttccactactgtcaaaaaattt32340taccagattctcaaattctccttttgataaaggtcctcgtatttcaatttctatattttc32400atccatatttattgattttttaggtttataaatagttgctttattatcatggtcgcataa32460ctaccagtaggtaagtaaaaggaaagtgtaattttcattttatttttatgaagatcgtca32520gactctaaatcatgagcatacatattagtggcgaccaagagatttctcttgttcagtttt32580ggttttgctaaaaaattttctggaattagttcaaaccctccagcttcacaaatatgtgga32640cattgaaatacagcatttgttggcaaatataatttgccaacatttttgaatataaatttt32700ttacttttagtatttttctctatcaacaaagatgcctgtgtattccacagaaaactatta32760tatgcggacacaaaaaaagaaactttttttggattcatgacatcaaaaacctttttgtag32820tctgagatatcttttgcttttagttcagctccttgcgtaatattatttgtaatttttagt32880tgttcataagcctgtttccaattatcttctactattgccttaccaatcagatgagtatta32940taggggccaccaggcattccaaatctttgattgtcatagtaatttataaaataaagttgt33000ttgtgattgtggacataatttgaaagattatctgcaatcgtagaatttaaatttcttacc33060actattttaaaagcatttccgtgtaaagccctttcttttattggtttttccccatgaccc33120attacaaacttaatttttgaaaattgatttttaaatttgtgtttcttgttaaatactatg33180atatctttttctttcaagatttttttgatggaaataagttgttcggtaatagcatcctca33240tcttttaatccttggctacatacatcctcaaatgaaagtttaaaaaatagctttatttgt33300tctaaggcttcaaatgttgtaaatccagatttttgtagccaaatataagtaaacttacgt33360ttaccttttgatataaatgatggcataagagagacctccgtcatctgaaagtcttcgttt33420atgtgttttattttataatcctcatatttatccataatataaataatttaacataaataa33480ccttatttgtaaataattcgccaaaaaatcccaaaaaacaaaagcccgcgcggattccct33540cccagaccctgcctccgcgcggacaaaattcaaaatccccgccgaatttcaaaaacatta33600gtctcggttttgcgaacccttctcccagaaaatagtttttgcaaaaccgagtccatattt33660gcatttctgcacctcgcctcattctcccagattattagtggcgaggggcagggcgtttcc33720ccgcacttctgcttcagcagaagctctgtgctttgcacagaggcgcttcagcgcgcgggg33780aacgctagtctttcattttttcttggaaataagttcgagcaaatgctaaaataacaccac33840caaacgaaacttgttcggaattaagaaagcggagcgattttgcgggagccaaaatcgcgc33900tatcatttttttcaaaaccctttccgcctacggcggaagcggtgaattcccaaagttccc33960cccaattgaaatcatgaaagacctcaaaccaaaatattttctctacgcgaggaaatcaac34020agaggatgatgaccaccaaataatg340452411142DNA人工序列Artificialsequence合成序列尚未归类的特征6655..6659n是a、c、g或t24catcttcatttgtatgcgtatcagagagatcaaaaactatgttatcaatgatggcgcggt60atggttcaatgagatcgaaggcgagagcggggtaatcagtcgtctcgtgcaggaacccat120ggaagggagagaggtgatggtagtgaatccatcggagaaaaattcctattaaaaattttg180acatcgcattcagcgcgttgctggccgggtttttaccgcgcctcatgaaggctgaatgtc240cgagcttcttgaaatatgcgctccaatagcgctggctgtggagcgcttcgtgattgcgca300gttcctgaatggtcatggtgcgggagagtttttttgcaggaggaacgataagccacgcca360tgctgttgaattttgcgtttagaatttgccgcgcgatatactttttgatgcgcaaatcag420agcgctttacaagttgttgagaaagcaggtcatttccatctgcacggttactggcggtaa480tccagactgtattggttaaatttctcctatgaataatgataggaattttatgacgcgctg540tgaattcaagtgtgctcggggctaagggagggctatctccgtaaatcatgatggagagga600gcttggcaggattgcaggttacttcgcctcctttatacttaatgtgaatatttttccctt660tgacttcaaatgtttcaacataaggcgcccaaagaggtattttttgcgagtatgttttca720tgttatagaataaagtgagtattgaaatataaaactttatatggtaatgtaagacacata780attttgcaagatgtgttgcaaaaaagcgattttttgaggggtcgccccgaatatagggga840caaaaaggctagcatacttttttggaaccccgaatataggggacaaaaaggcttatgagc900tgaaaaagatccccgaatataggggacaaaaaggcacgccgctttcgcgttcaaccccga960atataggggacaaaaaggcaattaccgcataaatcatccccgaatataggggacaaaaag1020gcaacatgacccaccctcctccccgaatataggggacaaaaaggctatgagacttctgaa1080atccccccgaatataggggacaaaaaggcttaagccccatgctttctccccgaatatagg1140ggacaaaaaggctgaagtacgcaatctgcaaccccgaatataggggacaaaaaggcatgc1200tgtttgtatcttcaccccgaatataggggacaaaaaggcaaggatattcaagcgcacccc1260ccgaatataggggacaaaaaggcttaccacacaacttattgaccccgaatataggggaca1320aaaaggctgtgagcgatgtaaaccaccccgaatataggagacaaaaaggcgcgtggtcaa1380tgctcgtgccccgaatataggggacaaaaaggcctttagcttcatttaagattttaggta1440tttccggacagcggcttgaccgcatcgtcctcgccttttcctaaaatcgcccctcttaaa1500tcgcttgccttacagacgcatgtataaagatattttgaagattaagttatcgcatacttt1560atgagtaagcgacatcctagaattagcggcgtaaaagggtaccgtttgcatgcgcaacgg1620ctggaatataccggcaaaagtggggcaatgcgaacgattaaatatcctctttattcatct1680ccgagcggtggaagaacggttccgcgcgagatagtttcagcaatcaatgatgattatgta1740gggctgtacggtttgagtaattttgacgatctgtataatgcggaaaagcgcaacgaagaa1800aaggtctactcggttttagatttttggtacgactgcgtccaatacggcgcggttttttcg1860tatacagcgccgggtcttttgaaaaatgttgccgaagttcgcgggggaagctacgaactt1920acaaaaacgcttaaagggagccatttatatgatgaattgcaaattgataaagtaattaaa1980tttttgaataaaaaagaaatttcgcgagcaaacggatcgcttgataaactgaagaaagac2040atcattgattgcttcaaagcagaatatcgggaacgacataaagatcaatgcaataaactg2100gctgatgatattaaaaatgcaaaaaaagacgcgggagcttctttaggggagcgtcaaaaa2160aaattatttcgcgatttttttggaatttcagagcagtctgaaaatgataaaccgtctttt2220actaatccgctaaacttaacctgctgtttattgccttttgacacagtgaataacaacaga2280aaccgcggcgaagttttgtttaacaagctcaaggaatatgctcaaaaattggataaaaac2340gaagggtcgcttgaaatgtgggaatatattggcatcgggaacagcggcactgccttttct2400aattttttaggagaagggtttttgggcagattgcgcgagaataaaattacagagctgaaa2460aaagccatgatggatattacagatgcatggcgtgggcaggaacaggaagaagagttagaa2520aaacgtctgcggatacttgccgcgcttaccataaaattgcgcgagccgaaatttgacaac2580cactggggagggtatcgcagtgatataaacggcaaattatctagctggcttcagaattac2640ataaatcaaacagtcaaaatcaaagaggacttaaagggacacaaaaaggacctgaaaaaa2700gcgaaagagatgataaataggtttggggaaagcgacacaaaggaagaggcggttgtttca2760tctttgcttgaaagcattgaaaaaattgttcctgatgatagcgctgatgacgagaaaccc2820gatattccagctattgctatctatcgccgctttctttcggatggacgattaacattgaat2880cgctttgtccaaagagaagatgtgcaagaggcgctgataaaagaaagattggaagcggag2940aaaaagaaaaaaccgaaaaagcgaaaaaagaaaagtgacgctgaagatgaaaaagaaaca3000attgacttcaaggagttatttcctcatcttgccaaaccattaaaattggtgccaaacttt3060tacggcgacagtaagcgtgagctgtacaagaaatataagaacgccgctatttatacagat3120gctctgtggaaagcagtggaaaaaatatacaaaagcgcgttctcgtcgtctctaaaaaat3180tcattttttgatacagattttgataaagatttttttattaagcggcttcagaaaattttt3240tcggtttatcgtcggtttaatacagacaaatggaaaccgattgtgaaaaactctttcgcg3300ccctattgcgacatcgtctcacttgcggagaatgaagttttgtataaaccgaaacagtcg3360cgcagtagaaaatctgccgcgattgataaaaacagagtgcgtctcccttccactgaaaat3420atcgcaaaagctggcattgccctcgcgcgggagctttcagtcgcaggatttgactggaaa3480gatttgttaaaaaaagaggagcatgaagaatacattgatctcatagaattgcacaaaacc3540gcgcttgcgcttcttcttgccgtaacagaaacacagcttgacataagcgcgttggatttt3600gtagaaaatgggacggtcaaggattttatgaaaacgcgggacggcaatctggttttggaa3660gggcgtttccttgaaatgttctcgcagtcaattgtgttttcagaattgcgcgggcttgcg3720ggtttaatgagccgcaaggaatttatcactcgctccgcgattcaaactatgaacggcaaa3780caggcggagcttctctacattccgcatgaattccaatcggcaaaaattacaacgccaaag3840gaaatgagcagggcgtttcttgaccttgcgcccgcggaatttgctacatcgcttgagcca3900gaatcgctttcggagaagtcattattgaaattgaagcagatgcggtactatccgcattat3960tttggatatgagcttacgcgaacaggacaggggattgatggtggagtcgcggaaaatgcg4020ttacgacttgagaagtcgccagtaaaaaaacgagagataaaatgcaaacagtataaaact4080ttgggacgcggacaaaataaaatagtgttatatgtccgcagttcttattatcagacgcaa4140tttttggaatggtttttgcatcggccgaaaaacgttcaaaccgatgttgcggttagcggt4200tcgtttcttatcgacgaaaagaaagtaaaaactcgctggaattatgacgcgcttacagtc4260gcgcttgaaccagtttccggaagcgagcgggtctttgtctcacagccgtttactattttt4320ccggaaaaaagcgcagaggaagaaggacagaggtatcttggcatagacatcggcgaatac4380ggcattgcgtatactgcgcttgagataactggcgacagtgcaaagattcttgatcaaaat4440tttatttcagacccccagcttaaaactctgcgcgaggaggtcaaaggattaaaacttgac4500caaaggcgcgggacatttgccatgccaagcacgaaaatcgcccgcatccgcgaaagcctt4560gtgcatagtttgcggaaccgcatacatcatcttgcgttaaagcacaaagcaaagattgtg4620tatgaattggaagtgtcgcgttttgaagagggaaagcaaaaaattaagaaagtctacgct4680acgttaaaaaaagcggatgtgtattcagaaattgacgcggataaaaatttacaaacgaca4740gtatggggaaaattggccgttgcaagcgaaatcagcgcaagctatacaagccagttttgt4800ggtgcgtgtaaaaaattgtggcgggcggaaatgcaggttgacgaaacaattacaacccaa4860gaactaatcggcacagttagagtcataaaagggggcactcttattgacgcgataaaggat4920tttatgcgcccgccgatttttgacgaaaatgacactccatttccaaaatatagagacttt4980tgcgacaagcatcacatttccaaaaaaatgcgtggaaacagctgtttgttcatttgtcca5040ttctgccgcgcaaacgcggatgctgatattcaagcaagccaaacaattgcgcttttaagg5100tatgttaaggaagagaaaaaggtagaggactactttgaacgatttagaaagctaaaaaac5160attaaagtgctcggacagatgaagaaaatatgatagacgttgtttttacaccatcgctat5220tgactaggtgatctttacgtcagaaccccatcagaaattccttaaactcctcaaacttgt5280ttgaaagcgggagaacctgtttttgtttgtgtagaagctttttgagatcagcggggagag5340gtatttttttgccgatgagtggttccactattgcgttgaatttcactggatgcgcggtct5400caagaaaaatgccgagagtatttttctttttattttgagcacaatattttttgaggccta5460aataggcaaccgcgccgtgcggatctgcactatagccacagcggttatacagttcagaaa5520ttgccccgcgcgtttcagcgtcagtaaacgatgcgccgaaaatatctttttgcatttcag5580cgcgttcatcatgatacagagtgcgcatacgcgcgaagttactcggatttccgatatcca5640tggcatttgaaattgttcgtattgacggttttggaatgaacggctcaccgcataaatatc5700gcgggacgacatcattgctgtttgtggcggcgatgaattgtctcacaggaagccccattt5760tttttgcaatgagccctgcggtgaggttgccaaaatttccgcacggcactgaaaatacaa5820gcggcgggcatacagcgaacgagcgagcttgcgcttgggcatacgcgtaaaaataataga5880atgtctgcgaaataagccgcgcgatattgattgaatttgcagaggcaaggcgcaatgttc5940gggcaagctcccgatcggcaaatgcttgttttacgagggtttggcagtcgtcaaacgtgc6000cgtttatctcaagcgccgtgatgtttttgcctaagccagtaatctgtttttcctgaatag6060cacttactccgtcttttgggtatagaattataatgtgcacgcgctcactttgaaaaaagc6120tgtgcgccactgccgcgccggtgtctccgcttgttgcggcaagaatggttaaacatctgt6180cgtcattttccaaaaaataacacatcaattccgccatgaatcgcgcgccaaaatctttaa6240acgagagtgtttggccgtgaaaaagttcaagtacagcgagcgtttcatttaaaaacacaa6300gaggcgcgtcaaatgtgagagatttttcaataatgcggttgatgtcttgttttggaattt6360tagggaaccacaactcgcttgtttcccgcgcaatatctttgagggattttttggcaatgc6420ttttgaaaaatgatgaagagagccggggaatttcaagcggcatgaacaggccgccatccg6480gcgcgagcggggaaaagagaccatgtttaaaggaaaaaattttattgtttctatttgtgc6540ttttaagcttcatggcaggtttgtataaaattctctgctgaaaattcgggcgaccgtagt6600ctgtgataggggatggttgcgtgcgcgtattgtttatagcgattggtgcgatagnnnnnc6660agttttgggtaacatcgcgcgagcgcagagcgattgttttcgttattccgcttttcaaac6720atattcccccacagcacgggctttggatcgcgaaggtactgttcaaacatttctttgcgt6780acttttgccggcgtgtataaatataccacacgcgtatattttttgagcagattgcataat6840gcggggtcaacataaataacactccctgtcgtgtcaataactgtgcgacaatcaagtttt6900cttttttgtattaaaccgataatttttcgtataacgctacgctcgcaacgcaaataatgg6960ctttgattcgcgttgtattgggactcgtatggctggccaagccatcgcgatacatcttga7020atgcccttatagccgtgctttttaagcaaggaagcaagctttttttcaattaaatcgtca7080cagcagatatgcgcgtacccaaagcgcgcaagctgttgcgcccagtatgattttcccgcg7140cctgacatgccgataagcgcgattggtttttcttgcacactatatatgttcataaacgca7200ctgccttaaaaatatctgaaaaaactcctgcggatgtcacctctgcgcctgctcctttgc7260ctcgtacgataagcggtgtttcatggtaatgatcggtggtaaatgaaaatatattgtcgc7320tcccgcggagcccggcaaacggatgattagaggcaacttctttaagaaacatttttgcct7380tgccattttctatttcagcaacaaagcgaagcactgcgccgcgtgcgatcgcgcgttgtt7440tttttgcttcaaattgggcgtcgtaccgttcaagtgtttttaaaaattctttaacggttt7500ccttttttctgccttgcggaatgagctgttctatttcaacatccgcgcattccatgggga7560gagcgcactctcttgcaacaatcaccaattttcgcgccgcgtccatgccgtttaagtcgt7620ttcgcggatctggttccgtgtaaccgagcttctgcgcctcgcgcaccgctttgctcaatg7680ttgtatttccctcaaatgagttaaagatatagcttagcgttccagaaacgattgctgaaa7740ttttttctacgcggtcgccgcagagcatgaaatctcgtatggtggaaagcacaggaagcc7800ctgccccgacggttgtttcatataaaaaccgcgtatggttttgagaggcgagtagtttta7860aatttttatagaatttaaaattggatgaaaggccttttttattcggcgttacaatggcaa7920tgcgctctgcaagtatggtgttatagagggcgggaatttcttcgctcgcggtgcagtcca7980caaacacggcgtttggaaggcgcattgccttcatgccggcgacaaattgagcaagatcag8040ctttttgtccgcgcgtgttaagctcttctttccagccagaaagcgtgccgaggtgttccc8100caagaaccattttcttggtgttgacgatgcctgcaactttgagcgcaataccctcctctg8160ccaaaagccgctctctttgagcattgattttcgtaagaagcgcagatccgataagcccgc8220ttcccgcgagaaacacgtgaatgttttgtggtgccataggtataaaaaaaccgctccaga8280catgtgggtaatgtccggagcggaagaagttataatgcgccttgtttttatttttaactc8340ttcacaaccaaacatcacccgccttttgcggtaatagtggtgatgatggtagtgatgcta8400ttttgacgcataagaatttttttgactctcatagtatagcacaagtaaaattttttgcgc8460aaggttttggtgagttgatagagttttgaggttgatatctaattgtcaagaaacggggat8520aatgtgcacacattatcacaacagattgaatatatgcgggttttgtgaaataatggcatt8580atatatcttgatgaacctcaccaaactcgccaattttttctttgaacttggcatgatgaa8640acgggaaaagcatcagggttttgctattgcgggcgtgcatcacgacatggggtctttagc8700ggatcatacgtgtcgcgcggctttaattggcgcaattttagcggaaatggaaggcgcgga8760cgtgaataaagttgccatgatggtgcttttgcacgatataccggaaacgcgcattgggga8820tcatcataaagttgcggcgcggtatttggatacgaaaaaagtggaacgcgctattttttt8880agaacaaattcagtttctgcctgatcctttgcaaaaaaaatggctcgcgctctacgacga8940aaaagcaaagagaagcactaaagagggtattgtcgcaaaagacgcggactggcttgaact9000ggcgatttccgcgcgtgaatacatacacatcggctataaagatttgcagttgtgggttga9060taatgttcggagcgcgcttgaaactgaatccgccaaaaaacttcttgcagaaatagaaaa9120acaaggcacctacgactgggcccgcggtttagaaaagatgacatatcagaaattatcgtg9180atctgcaattttttgctataattataaaaaagtttcattccaacatctaacgcaacattg9240aggaaaaacttcaatgcaatgatgagtattgtgaaaaagttgggaccagctctctttccc9300attttgcaggatatgcgtctctcgtatcaggtgcatggaaaggagtaaaaaaatacacgc9360cgcttgcaaatttagaagacgtacggaatagagccgttgcgattagaaaagaagcagaca9420aagaaaagccagatagtttagagattgatcgtattttaacggattttatgaatgcggagc9480taaaggaattatggaataccatagataaacgtattgttgatgcggcgaaaaagtttatac9540aaaacttcaaagatcatcccgaagacgcgaggagagcgaaggtggagagttggggactag9600aagaatggaaaagagatttagaacggatagtcaaaaccccaattaatcaaatgatggggg9660acgcatcatttgtgattaacagaggagtggatcagtatcgtgcgcgcgatatggcgaaaa9720ttatgggtaagataagtgttttttatcaaccccttgtgtgggagaaggcgtcataaccca9780tgagaattatcacaaaattctctgcttcatatacaccatcgctccgtaaagccccgagga9840atcgcagagctttgatttttgaatcggcggaaaggacgggaacaggggttgatttgattt9900cttgacacgctgtgagttgggcagtagagtagtaagaaagtaatatttttttatattcat9960gaacactaagataatacaaaaagctacatctcgggggaaaattacgcttccaggacagtg10020gcgtaaaaagtttcctacgaaccaatatcttgttgaagtggaagaagatttgcttaagat10080taagccttttgaagtggacacggcggggcaattagaagaacaagtaaaagtgttgaattg10140tgtcaatagatttgagggacttgcgataaaaggaagaaaatttgctaaaaagagaggaat10200taaaatggacgatgttttaaaagatgattaaagcagtacttgatacgaatattttaattt10260ccgcacttttttggaaaggcaccccatatattattgtgcaggatggattagagggtgtgt10320ttgaaatggttacttcaaaagcaataatgagtgaaacgaaagagaagttgattcaaaaat10380ttgaattttctgttgaagatactctaagatacttggaactcttggtttgtaagtcgttcg10440ttgtatcaccgatggtacagcataatgtggtgaaaaatgatagtactgataataaaattc10500ttgagtgtgcggtaagcgccaacgcagattatattgtgacaggagataaacatctactaa10560atatcaagcattatcaagggatcactattctcactgcacgcagatttgatgagatacttg10620aaaatgaacggagtagaatgagaagaaataagcgatagggacagaataacttggatccaa10680ccttctaacgcaacagcgttaagaatgaattaattgattgaaaacctcgtatggtgtttg10740aaagtcgagtgtttttctcggtcggccattcaggagatgttgcgctcgtttcacttcgta10800ccgcgataccttggtaaagttggttcctttcggaaaaaattgtctgatgagtccattggt10860gttttcgttcgtgcctcgttcccatggactccggggatgggcgaagtagactttgactcc10920ggtcagattcgtgaataatttgtggctggccatttcccgcccttggtcgtatgtcatcgt10980cagtctcatttgtttcggcaattttttcacttccttggcaaacgctttggccacatcttc11040ggcagatttgcttttcacggggataaggatagtcgtgcgggtcgtgcgctcaaccagagt11100gccaagagccgaacgattgttctttccaacaatgagatcgcc111422513879DNA人工序列Artificialsequence合成序列25tttccaccgccgctcaatcagtctagacatacaggtggaaaggtgagagtaaagacgtga60caaccttctcatcctcttcaaagtctagacatacaggtggaaaggtgagagtaaagacaa120accgtgccacactaaaccgatgagtctagacatacaggtggaaaggtgagagtaaagact180caagtaactacctgttctttcacaagtctagacctgcaggtggtaaggtgagagtaaaga240cttttatcctcctctctatgcttctgagtctagacatttaggtggaaaggtgagagtaaa300gacttgtggagatccatgaacttcggcagtctagacctgcaggtggaaaggtgagagtaa360agacgtccttcacacgatcttcctctgttagtctaggcctgcaggtggaaaggtgagagt420aaagacgcataagcgtaattgaagctctctccggtccagaccttgtcgcgcttgtgttgc480gacaaaggcggagtccgcaataagttctttttacaatgttttttccataaaaccgataca540atcaagtatcggttttgctttttttatgaaaatatgttatgctatgtgctcaaataaaaa600tatcaataaaatagcgtttttttgataatttatcgctaaaattatacataatcacgcaac660attgccattctcacacaggagaaaagtcatggcagaaagcaagcagatgcaatgccgcaa720gtgcggcgcaagcatgaagtatgaagtaattggattgggcaagaagtcatgcagatatat780gtgcccagattgcggcaatcacaccagcgcgcgcaagattcagaacaagaaaaagcgcga840caaaaagtatggatccgcaagcaaagcgcagagccagaggatagctgtggctggcgcgct900ttatccagacaaaaaagtgcagaccataaagacctacaaatacccagcggatcttaatgg960cgaagttcatgacagcggcgtcgcagagaagattgcgcaggcgattcaggaagatgagat1020cggcctgcttggcccgtccagcgaatacgcttgctggattgcttcacaaaaacagagcga1080gccgtattcagttgtagatttttggtttgacgcggtgtgcgcaggcggagtattcgcgta1140ttctggcgcgcgcctgctttccacagtcctccagttgagtggcgaggaaagcgttttgcg1200cgctgctttagcatctagcccgtttgtagatgacattaatttggcgcaagcggaaaagtt1260cctagccgttagccggcgcacaggccaagataagctaggcaagcgcattggagaatgttt1320tgcggaaggccggcttgaagcgcttggcatcaaagatcgcatgcgcgaattcgtgcaagc1380gattgatgtggcccaaaccgcgggccagcggttcgcggccaagctaaagatattcggcat1440cagtcagatgcctgaagccaagcaatggaacaatgattccgggctcactgtatgtatttt1500gccggattattatgtcccggaagaaaaccgcgcggaccagctggttgttttgcttcggcg1560cttacgcgagatcgcgtattgcatgggaattgaggatgaagcaggatttgagcatctagg1620cattgaccctggtgctctttccaatttttccaatggcaatccaaagcgaggatttctcgg1680ccgcctgctcaataatgacattatagcgctggcaaacaacatgtcagccatgacgccgta1740ttgggaaggcagaaaaggcgagttgattgagcgccttgcatggcttaaacatcgcgctga1800aggattgtatttgaaagagccacatttcggcaactcctgggcagaccaccgcagcaggat1860tttcagtcgcattgcgggctggctttccggatgcgcgggcaagctcaagattgccaagga1920tcagatttcaggcgtgcgtacggatttgtttctgctcaagcgccttctggatgcggtacc1980gcaaagcgcgccgtcgccggactttattgcttccatcagcgcgctggatcggtttttgga2040agcggcagaaagcagccaggatccggcagaacaggtacgcgctttgtacgcgtttcatct2100gaacgcgcctgcggtccgatccatcgccaacaaggcggtacagaggtctgattcccagga2160gtggcttatcaaggaactggatgctgtagatcaccttgaattcaacaaagcatttccgtt2220tttttcggatacaggaaagaaaaagaagaaaggagcgaatagcaacggagcgccttctga2280agaagaatacacggaaacagaatccattcaacaaccagaagatgcagagcaggaagtgaa2340tggtcaagaaggaaatggcgcttcaaagaaccagaaaaagtttcagcgcattcctcgatt2400tttcggggaagggtcaaggagtgagtatcgaattttaacagaagcgccgcaatattttga2460catgttctgcaataatatgcgcgcgatctttatgcagctagagagtcagccgcgcaaggc2520gcctcgtgatttcaaatgctttctgcagaatcgtttgcagaagctttacaagcaaacctt2580tctcaatgctcgcagtaataaatgccgcgcgcttctggaatccgtccttatttcatgggg2640agaattttatacttatggcgcgaatgaaaagaagtttcgtctgcgccatgaagcgagcga2700gcgcagctcggatccggactatgtggttcagcaggcattggaaatcgcgcgccggctttt2760cttgttcggatttgagtggcgcgattgctctgctggagagcgcgtggatttggttgaaat2820ccacaaaaaagcaatctcatttttgcttgcaatcactcaggccgaggtttcagttggttc2880ctataactggcttgggaatagcaccgtgagccggtatctttcggttgctggcacagacac2940attgtacggcactcaactggaggagtttttgaacgccacagtgctttcacagatgcgtgg3000gctggcgattcggctttcatctcaggagttaaaagacggatttgatgttcagttggagag3060ttcgtgccaggacaatctccagcatctgctggtgtatcgcgcttcgcgcgacttggctgc3120gtgcaaacgcgctacatgcccggctgaattggatccgaaaattcttgttctgccggttgg3180tgcgtttatcgcgagcgtaatgaaaatgattgagcgtggcgatgaaccattagcaggcgc3240gtatttgcgtcatcggccgcattcattcggctggcagatacgggttcgtggagtggcgga3300agtaggcatggatcagggcacagcgctagcattccagaagccgactgaatcagagccgtt3360taaaataaagccgttttccgctcaatacggcccagtactttggcttaattcttcatccta3420tagccagagccagtatctggatggatttttaagccagccaaagaattggtctatgcgggt3480gctacctcaagccggatcagtgcgcgtggaacagcgcgttgctctgatatggaatttgca3540ggcaggcaagatgcggctggagcgctctggagcgcgcgcgtttttcatgccagtgccatt3600cagcttcaggccgtctggttcaggagatgaagcagtattggcgccgaatcggtacttggg3660actttttccgcattccggaggaatagaatacgcggtggtggatgtattagattccgcggg3720tttcaaaattcttgagcgcggtacgattgcggtaaatggcttttcccagaagcgcggcga3780acgccaagaggaggcacacagagaaaaacagagacgcggaatttctgatataggccgcaa3840gaagccggtgcaagctgaagttgacgcagccaatgaattgcaccgcaaatacaccgatgt3900tgccactcgtttagggtgcagaattgtggttcagtgggcgccccagccaaagccgggcac3960agcgccgaccgcgcaaacagtatacgcgcgcgcagtgcggaccgaagcgccgcgatctgg4020aaatcaagaggatcatgctcgtatgaaatcctcttggggatatacctggggcacctattg4080ggagaagcgcaaaccagaggatattttgggcatctcaacccaagtatactggaccggcgg4140tataggcgagtcatgtcccgcagtcgcggttgcgcttttggggcacattagggcaacatc4200cactcaaactgaatgggaaaaagaggaggttgtattcggtcgactgaagaagttctttcc4260aagctagacgatctttttaaaaactgggctgctggctatcgtatggtcagtagctcttat4320ttttttacttgatatatggtattatctcaataatatgcatctcttcatagatacaacaga4380aaaagaatcatttgatattgctttgattgatgatgagcgcgttatcaaaaagaagcgaat4440caaatcaatccgccaacattcggaaaagcttttgaaatcaattgacgcgcttttgttgtc4500cgcaaaatcatctctgaaagatatacaaggcatcatcgcggtaaaaggccctgggtcatt4560tacctcattgcgcattggaatcgcgacagccaacgcgttggcattcgctttgggagtggg4620gattgctggagttgacaaaacagatgagtggagtaagattgtttcttcagcagatttgat4680ctttaaaaagcaaaaaaagaacttaaatatcgtcatacccgaatacggcagagagccgga4740cattacctaaataggagggtttagaaatgttattgctcattttgattctcacaatagttt4800tgagcatcattcttttgtgcttttgcgcgtttattctctgcataatcacagaagatggca4860gggaaatgcttttgatgtttggaataggcaaatgccacttgaattattaaagtggctttt4920ttatttgtacaaaaacagtgtcagagcgccgattcggcgctctgacactgttttacaaac4980cctcaccccaaccctctcccgaatacaggagagggaatttttatactgtgcataacttgt5040gcgcaaatagtgcctagataagggttgcgtaaaattacaagagtggtgtataatatcatc5100atagtggtgaggagtggggataagtggtggagaacctcatcaataatagataccaatgtt5160cataggagaatacaaacatactattgataccaaaggaagaatggcaatacctgccaaatt5220tcggcaggatttgaaaaagggcgcaatcgtaacaaaaggattggataattgcctttttgt5280atacactcaagatgaatggaaaaaactcgtggacaagctatctaatcttccaatctcaca5340gcagaaaagccgggcatttgccagattaatgctagcaggagcaatggacgtgcaaattga5400ctcccaaggcagaattcttataccagaatatcttcgcaaattcgcgtcaatcaagaaaga5460caccataatagcagggctttacagtcggcttgaaatatgggattcaaaagaatgggaaaa5520atacaaatcagccactgaaaagataagcacaaaaatagctgaagagctcacgctctaggc5580caaaaacaaaaataaaattcaaaacaatcacgagatccttcgactccgcgagtacgcttc5640gctcagagcctgccccgagtattccgaggggatgacggttgaaattcggatggcataata5700attttatttttggagctggtcttttagtagctccattttttatcccatgagcaaatcaga5760acacataccagtattattaaacgaagtaattgaaggtcttgacttgtcctctaatgatac5820agtaatagacgccacagtaggcggagcaggacacgcgcaagctattttagaaaaaaccgc5880gccatcaggcaagcttcttggaattgattgggacgcgaaagcaatcgagcgcgcgcgaga5940acatctaaaaagatttagcaaccgaattatattaaaaacaggaaattacacagatataaa6000acaacttctctatgaatcaggaattaataaggttaatgctatattattggacttgggctt6060atctcttgatcaactcaaagattcctctagaggatttagcttccaatctgaaggaccatt6120ggacatgaggttttctgaccagatggacacaacagcttttgatattgtgaacacctggcc6180agagaatgatctggtacaaatctttcaagaatacggtgaagagaggcgcgctgcacgtgc6240agcacgcaatatcgccactgcgcgcagtcacgcgccaatcaacaccgcaaaagatctggc6300agaattagttatgcgcggggccggaaggcgaggcaaggttcatcccgctacccgcatatt6360ccaggccctgcgcattgctacaaatcatgaattagacaatgtcaaacaagcattgcctaa6420tatgattgatatgctttcttcagaaggaagattagcagttatcacattccattccttaga6480agaccgcattgtgaagcagtatttcaagccattggctaaagaggaaaatccgcgcattaa6540gctcatcaataagaaagtaataaagccaagccgagaggagcaagtgaaaaatccagcatc6600cagaagcgcgaaattgagaatcgtggaaaagatttaatcattccaaaaacaaaaatagca6660tcacatgacaacatattcgcacaaaaaaacgccgtatctgtggcacgcattttcaatatt6720gctgattttagtattagtggttacttatttagtacagataaacagccaagcagaaacatc6780ttactctattaaaggattagaagaaaaaaagcaagaattgaatagtattatagaagataa6840agaacttgaagcagtttcagcgcgatctttaaatggaatcgcgcttaaggcaaaagaaat6900gaatttgcaggatccaaaggatgttacattcataaaaataggattaagcacagttgccgt6960gagcgaagagctttctccataacatgacttcatattcatcatcaaaaaagagcaattcag7020ctacgcgcgcgaaattcataattggcgcggtttttatttttggcgttattttgatttacc7080gcttagctgatttacagcttatcaatactcaagaaattcaggcatctgccgcgcgccagc7140agtcaacagtgcgcatccttccagctgaacgaggcaagattttttacaaggagagaatag7200gtgatgaagaatttccagtcgcgactaatagatcatataaccaggtattcattattccaa7260aagacatacaggatccaatcaaagccgcggaaaagctattgcctttggttgagccatatg7320ggcttgatgaagaaacattattattccgattaagcaagcaaaatgacatttacgagccat7380tagcgcataaattaacagatgaagagcttgagccatttattgggcttgatttaattgggc7440ttgaatcagaagatgaaaaagctaggttttacccggacgctgatttgctcgcgcatataa7500ctgggtttgtcggggtttcagaacaaggcaaggttggtcaatatgggcttgagggatttt7560ttgaaaatgagctcaaaggaaaggacgggcttattgagggcaaaacagatatatttggca7620ggcttatacaaacaggaactttaaaacgcacccaaggcgagccaggagatgatttattat7680taaccatacagcgcactttgcaggcatatgtgtgcagaaaattagatgaaaaaattgagc7740aaataagagctgctggcggatcagtaataattgtgaacccagatactggcgctattctcg7800cgatgtgctcttcaccatcatttgatccgaataattataatcaagttgaagatattagcg7860tatacatgaatccagcagtgagctcaagctatgagccaggatcaattttcaagccattta7920caatggccgcggcaattaatgagaaagcagttactagcgatacaacatatattgatgagg7980gagtggaagagatcggcaaatacaaaatccgcaattctgacaacaaagcgcacggggaag8040ttaatatggtaactgttttagatgaatcattgaatactggcgcgatttttgtccagcgtc8100agattggaaatgagaagttcaaagattatgttgaaaaattcggatttggcagaacaacag8160atattgaattaggaaatgaggtttctggaaatatttcttcattgtataaggatggagata8220tttacgcggcaactggctcgtttggccaaggaattactgttacgcctattcagatggtaa8280tggcatatgcggcgattgctaatggaggaaaattaatgcagccatatcttattgctcagc8340gacaaagacaggataaaactattgtaactgagccagttcaaattgatgagccgatttcag8400tgcaggcctcaactattatatctggaatgttggtgagcgtggtgcgtgctgggcacgcta8460tatctgctggagtggaaggatattatattgccggcaaaactggaaccgcgcaggtcgcgg8520aaggcggagggtatggaagcaagaccattcattcatttgccgggtttgggcctgttgatg8580agccagtgtttgcaatgcttgtgaaattagattatcctcaatacggcgcatgggcagcta8640atactgcggctcctttgtttggcgaattagccaaatttatactacaatactatgaaatac8700ctcctgatgaggcgatataaataaaatatgaaaaaaataataattacaattttacaaact8760ctggccaaaagagttatttacaaatataagcccaaagtggtggctattactggctcagtc8820ggaaaaaccgcgactaaggaggcagtgtttgctgtattgaataagaaattgcaagtgcgc8880aagaatgaaggcaattttaacacggaaatcgggttgcctttgacaatcattggcttgcaa8940aaatcaccaggcaaaaatccattcaaatggcttgcagtgtacgcgcgcgctattggcctt9000ttaatctttaggattgattatccaaaagttttggttcttgaaatgggcgctgataagcca9060ggagatattgctgaattaataagtattgctaagccagacattggcataattaccgcgatt9120agcgctgttcatacagagcagtttaatagtattgctggcgttgtgcgtgaaaaaggaaag9180ctctttcgcgttgttgaaaaggatggttggattatcgtgaataacgaccgatctgaagtt9240tatgatatcgcgcaaaagtgcgacgcgaaaaaagtatatattgggcagtgcgctgaatta9300tctgataacacccctttttcagtatgcgcgtccgagatttcagtgagcatgtcagaagct9360caagaaaccggcattgctggcacttcatttaagcttcatactgatggaaaggttattccg9420gttttgatgaaaggaattattggggagcattggacatatcctgccatgtacgcggcagct9480gttgcgcgcattcttggggttcatatggttgatgttactgagggtttgcgcgagattaat9540cctcaatcaggaaggatgcgagttttagctggcattaaaaaaacaattttaattgatgat9600acttataattcttcgccaaacgcggctaagagcgcggttgatactttagcgttattgcgt9660attggaagggagaaatattgcgtgtttggggatatgttggagcttggttctatatctgaa9720gaagagcatcaaaaattaggcatgcttgtcgcgcgcgaggggattgattatctgatttgc9780gttggcgagcgcgcgcgcgacattgcgcggggcgctataaaagcaaagatgccgaaggat9840catgtgtttgaatttgataatactaaagatgctgggctctttatccaaaagcgtttggag9900caaggggatatggttctgattaaaggttcgcaaggcgtgcgcatggagcgcgtgaccaaa9960gagattatggcgcatccggaaaaatcaaaagaacttcttgtgcggcaaagtaaagaatgg10020ttgagtaaggcctagtgcgtatttttgataatttcctccacttcttccgcattttctgca10080tccatcaatttcacgcgcaattgctttgccccatcccagccagaaacataggccttgaaa10140tgttttttcattacagcgaatgatttgtgtttgataagtttttcgtagagtttggcgtgc10200tctattaaaacgcgcaatttgttatctttgctgggatagaaaacggagaaaacggtgtca10260agagtcgttttctgtaaaaaacgactcctgacaccgttttctttgaagaaccacggattg10320ccgaaaattgcgcggccgatcataacgccatcaacaccggtctcccgggctttttgatgc10380gcatcgtctaaatacgaaacatctccattcccgataataagcgtcttgggcgcgattttg10440tctcgcatctgaataacgcttttagccaaatgccatttagcaggaacgcgggacatttct10500tttctagtgcgccagtgaatcgtcaaagccgcaatgtctgtcttcagaagaataggaatc10560caggtatcaatttcatttttcgtatatccaatgcgcgttttaacagaaattggcaatttt10620ggcgcgccttttttggctgcagcaatcaaagcgcgcgctaaatcagggtttttcatcaaa10680ccagccccagcgccttgcttttcaactttccggtccgggcatcccatgttaatatctaat10740ccatcaaaacccaaatcctgaattatgcgagctgtttttttcatattatctggatttgct10800gtaaatacttgcgcgacaataggccgctctttcgcggaaaatttaagatttttaagaatt10860tcatctttgtcgccaagagcaatgccatccgcggacacgaattcagtccacattacatct10920ggcttgccatactttgcgataatccgcctaaaagccgcgtctgtcacgtcagacatagga10980gccaaacagaagaatggttttttgagttgttgccaaaaattattcatgtcatcttgcgct11040tatttgtcatcccgaggcttaattatatatttttagaaaataggatgtggtaaacggatt11100atataagtgtaatagtaatgccacacaagccgagaggatctcgtctttaagagctcgaga11160tgacaatacaaggcgagagaatctcgcgactaataactatgcttattatcaaataaatcc11220ttccaatcagaattgaatttgtttataagcaacaccttatttctgtggcttagttttttt11280agcttcttttcgcgctcaatagcatacgagatattgtcaaagtgttcataatacaccagt11340ttatcagtattgtattttgaagtaaaccctggtatttttttatttttatgttcccaaatt11400cttctggataatgaattgcatactccggtataaaataccgtatgtcgtatgtttgttgtt11460atatatacataaaagttatattgattttgtcttggcatgtttttgtttcataagatcctc11520tcggcctgcaaggatttttgttttggactccatgattcgtttaccacatattcgatatta11580tgtagtattgtaaggtctcgggatgacaggtaaaaggcatgggaatggcatctaaatctc11640ctcctttttctcatgcacataattcatccattcctcaatcacttttataaacgccttgaa11700cggagcctctataataaaatccaacgcaaaaatgaaaatgttaatttgcgcgaaccgcgt11760ggacatccatttgccagcatgcagaatcggaattgtaaaaaacgcccataagccccggat11820aaatccttgctttgggggcaggacaatcatttcctgatttgactggcggatgcggtacgc11880gaataaggaaacaaacgagaggaacaagagaaagataaaaatgccgataaacgtgaaatt11940cagcgcgatcaaaatataaatcatcaaaccgaacgaaatgccaaatagcattccgtacaa12000caaagtaaacaccgcgcgcaggaaaaagctacgcttgctagatttgcgcatctgaataat12060ttcgccttgattttggataatatgatttatgccacttatcatttgattggtgttttcttc12120atcaggcagtttagttgagagtgcgataagcgcgagcaaggcaggcggaaaaattaaatt12180aatagccaaaggcatataatcaattttgtgaatcaataaataatcaacaggaatttccag12240aaccacggctaataaaaatttagtaattaccaaataaataatacttcgcttaatgcctcg12300gtgtaaagaagcgcgggatttttcgtactgcttttggcagatggcgcgcaccctttgctc12360aaattcatgcccggtgttcatatcagaccaggcttttcctggatcctgcgcaatcgcgtc12420ttgcaaaatagtgaaatatccaacgtatttcctgaacaaaggagcgagtttttcttttat12480aggcgagtttaaatcttgcgttattgtagagtgtatttcattcaaatgctctcctatttc12540ccgtataagatcgtgatttgcgcgcgtccattctggataataggtcaatagcaaatgata12600tccaatagtgtcattgtcgtttttatatagaattcggctagtggctatataaatctgctt12660caaacgttctcgatcattaatttcatcctcaattctaacgcgctcctgaagatattcata12720catggcattgattgacgcgtgcattacatatggtggcataaggaattcgtcaatttccgt12780tgctgctatgccagagagccaaaatgaaagagaagaagaatcattgatatcttttatagg12840agcgtgaccaagcaaggtgaaatatttttcaaatataatatcaagttcttttatttttcg12900ttcagggatagtattgttcggaaggtaccgcgcgtggataagttctgaaattagattttc12960tgagatattatttttatggcctgatgaaatcattctacgcaaaatgcgctcaatcgcgtt13020tctgcggattaaatgttcttctttatattcaaccgcgttgcgcatgcgctcgtatataaa13080agttgcctgtccagcgcgggtggttatggagatttttggttcggtcgggtctgtatcttt13140tgagcgcgcttcttccctggccgcgcgcacgattcgctggattgtttctggtatttgcat13200ttctttatactagctgattttgcttgttttttcaattgttttataaaaaaagtgcccgga13260atgcaaattgcgcattccgggcttggggagacagggcaggggatgccctgtttggggctt13320actgccggtcggtcagatcacgggctactaccgccgcaatcctcgccaccgcccaggcag13380taacgagacgactctttttttacctgattgacgaccgtaccgtcgagcaggacgttatcg13440ccgagcagattcgctgtattgatgtccgtagccgcggtagccgcgatagtcgtggtcgtc13500gtcgtggtttccgtagtggctgtgccgaccgcgctgttttcgccgccctcttttgtcatc13560cgaatgacatcatcgccattcagagtcgtttcctcgctgaccgggttgttggtcccgcag13620ccgatcattccgatcagggcgaccagcgcgatacagaagaaaatcatgaaatacttcatc13680gggtgctcctttttatgaggtttttggaaaacgatatcacgctttgtattattcacctcc13740cttccaaagcaagcgcaatatcggtcttttttactattttaagaacggacgagcatctta13800tactattttaaaaataatgtcaagagtgttaacaaatacaaaaaattgactcatataaaa13860acggtgtcaggagtcgttt13879267532DNA人工序列Artificialsequence合成序列尚未归类的特征2669..2692n是a、c、g或t26tacctaatcctgggcgtctttggtgtattatgcacttgcggttagaatacacccgaacat60aattgacaaagaccataaaatgtcttattatccttttagaaaaatcgtgttcatttataa120tatatacataccccaattccaaggatttcttgactggcagcgggcttggtatcctgcgaa180acacagccagtttgggaaacctgggtctttatttttaaagacacaggaattcccgcgtct240tttgccttggaacaccaaccacctattgcgccttttttctcattttagcaaaagtggctg300tctagaccttcaggtggaaaggtgagagtaaagacattgggcctgcacgattcatgggcc360ggtctagaccttcaggtggaaaggtgagagtaaagactctaccgcgtccagcactatctt420ggtccgtctagacatttagatggaaaggcgagagtaaagatgcgcgaaagacggctacat480tgttccacaaggcagaaaggattagccgcctactgcttgaacatccgcagtatttaaccc540attttcccaaaggaggaaaatcatgggtacgcagattatcaagcggatagaccttgactg600gcagtcaagttttccgcacgccaagatgctggtgaatcaggaagcatcatttaaccacat660tgcagagtccggactcacggcgctcatagaagcgccgaccggatccggaaaaaccgcgac720tggctatacctttctttcggccatagcccttcgcgcgcgcaagagtccgcaatttaaggg780ccggctcgtgtatgttgctccgaataaagcattagtcgggcaggtgcagaacatgcatcc840agatgtgaaagtcgcgcttggtcgcaacgagcatacatgctcgtattacgatggaattca900tcaagcagacgaagtgccgtgttcgtttttggttcgctccggccggtgtggccactatgt960gaatcaagaaaccggcgcaacacttgaatttggagctgaaccatgttcgtattatcagca1020aatctatgaggcaaagcgcggcatcggaattctggcatgcactgacgcgttttggctgtt1080cacgcatttgtttaatccaaagcagtggcctcagcccatgggtttggtattggacgaggt1140tgaccgcttggctgatattgttcgcaggtgcttgtcatacgaaatttctgattggcgcat1200tgagcgcgccattaatttgcttgaaaaagtcggttcagttcaggtgcagtatctctcgtc1260ttttttgcgcaccttgaatcgggtggtatcaaaaaagccggccctggagcccattttgct1320ggatgatgaggagattcgccaactgtttgaaaaagtggggcgcatcagcgcggatgtcat1380caaatccgatttggacgccgcgattgcgagcaacaaggttgaccctatggctgagcgcga1440aatccttaagcagatagaaacactttgctttgacatcagccggtatgtgcggagtttggg1500atacgcgcttccgaatcgcagaggcaagggtgatgaacgcaagcgcgatgctcctctttc1560gtacgcgtacgcgtatcataaatccgagcgcgacgctggggcgcatgtgcagaacaaagt1620tgtggtgtgttcctattgggtgcggcctcttatccgcaagctctttggaaagaacacgct1680cgcgtattcagcgtttgtcggggataaaacgattttggattatgaggctggagttgattt1740tccattaatctctctgcggtcccaatttccggcgagcaatgcgcgattgtatgtgccgag1800cgattctccaaatttggcatataatgagcaggatgtcggtgacatggctaagactttgcg1860ccatattgccatatcaactcggcggtttgccgagcgcggctttcgttctctcttgctgac1920tgtttcaaatagagagcgtgaattgctgtacgtcgcgtgcgcggaactgaaagggctgga1980tgctataagttatggcagtggcgttactgcgcgcgcggccgcggatagattcaaagaagg2040agaaggggacgctcttattggcgttttgtcgcattatggcactgggctggatttgccagg2100caagattgctaacattgtttttctcctgcggccgaattttcctccaccaaaagatcctat2160ggcacagtttgagattcgccgggccgagcgcatcaaaaagtcgcattggcccgtgtggta2220ctggcgcgcgtaccgagaggctctgaatgcccagggacgcccgatacgaagcgccgatga2280caaaggggtcgcgttctttatctcccagcaattcaagaagcgtttattcaacattttgcc2340ggagcatcttgagagcgcatatcggagccgcctcacatgggaccagtgcgagaaagacgc2400gctgaaactgtttgaggaataggggtattatttcgttgtttttatggcccggatggtgtt2460ttttatacatcatccgggtttttatgttgatttgatgcgataatcatgatttttgcgtgg2520tattgacaaacattataaaaaacgctattatccgcgtacaaaacctataaatcgttcatt2580tataatatatacataccccaattccaaggatttcttgactggcagcgggcttggtatcct2640gcgaaacacagccagtttgggaaacctgnnnnnnnnnnnnnnnnnnnnnnnngccagttt2700gggaaacctgggtctttatttttaaagacacaggaattcccgcgtcttttgccttggaac2760accaaccacctattgcgtctttttcgctcattttagcaaaagtggctgtctagacataca2820ggtggaaaggtgagagtaaagacatggcctgaatagcgtcctcgtcctcgtctagacata2880caggtggaaaggtgagagtaaagaccggagcactcatcctctcactctattttgtctaga2940catacaggtggaaaggtgagagtaaagacaaaccgtgccacactaaaccgatgagtctag3000acatacaggtggaaaggtgagagtaaagactcaagtaactacctgttctttcacaagtct3060agacatacaggtggaaaggtgagagtaaagactcaagtaactacctgttctttcacaagt3120ctagacctgcaggtggtaaggtgagagtaaagactcaagtaactacctgttctttcacaa3180gtctagacctgcaggtggtaaggtgagagtaaagacttttatcctcctctctatgcttct3240gagtctagacatttaggtggaaaggtgagagtaaagacttgtggagatccatgaacttcg3300gcagtctagacctgcaggtggaaaggtgagagtaaagacgtccttcacacgatcttcctc3360tgttagtctaggcctgcaggtggaaaggtgagagtaaagacgcataagcgtaattgaagc3420tctctccggtccagaccttgtcgcgcttgtgttgcgacaaaggcggagtccgcaataagt3480tctttttacaatgttttttccataaaaccgatacaatcaagtatcggttttgcttttttt3540atgaaaatatgttatgctatgtgctcaaataaaaatatcaataaaatagcgtttttttga3600taatttatcgctaaaattatacataatcacgcaacattgccattctcacacaggagaaaa3660gtcatggcagaaagcaagcagatgcaatgccgcaagtgcggcgcaagcatgaagtatgaa3720gtaattggattgggcaagaagtcatgcagatatatgtgcccagattgcggcaatcacacc3780agcgcgcgcaagattcagaacaagaaaaagcgcgacaaaaagtatggatccgcaagcaaa3840gcgcagagccagaggatagctgtggctggcgcgctttatccagacaaaaaagtgcagacc3900ataaagacctacaaatacccagcggatctgaatggcgaagttcatgacagaggcgtcgca3960gagaagattgagcaggcgattcaggaagatgagatcggcctgcttggcccgtccagcgaa4020tacgcttgctggattgcttcacaaaaacaaagcgagccgtattcagttgtagatttttgg4080tttgacgcggtgtgcgcaggcggagtattcgcgtattctggcgcgcgcctgctttccaca4140gtcctccagttgagtggcgaggaaagcgttttgcgcgctgctttagcatctagcccgttt4200gtagatgacattaatttggcgcaagcggaaaagttcctagccgttagccggcgcacaggc4260caagataagctaggcaagcgcattggagaatgtttcgcggaaggccggcttgaagcgctt4320ggcatcaaagatcgcatgcgcgaattcgtgcaagcgattgatgtggcccaaaccgcgggc4380cagcggttcgcggccaagctaaagatattcggcatcagtcagatgcctgaagccaagcaa4440tggaacaatgattccgggctcactgtatgtattttgccggattattatgtcccggaagaa4500aaccgcgcggaccagctggttgttttgcttcggcgcttacgcgagatcgcgtattgcatg4560ggaattgaggatgaagcaggatttgagcatctaggcattgaccctggcgctctttccaat4620ttttccaatggcaatccaaagcgaggatttctcggccgcctgctcaataatgacattata4680gcgctggcaaacaacatgtcagccatgacgccgtattgggaaggcagaaaaggcgagttg4740attgagcgccttgcatggcttaaacatcgcgctgaaggattgtatttgaaagagccacat4800ttcggcaactcctgggcagaccaccgcagcaggattttcagtcgcattgcgggctggctt4860tccggatgcgcgggcaagctcaagattgccaaggatcagatttcaggcgtgcgtacggat4920ttgtttctgctcaagcgccttctggatgcggtaccgcaaagcgcgccgtcgccggacttt4980attgcttccatcagcgcgctggatcggtttttggaagcggcagaaagcagccaggatccg5040gcagaacaggtacgcgctttgtacgcgtttcatctgaacgcgcctgcggtccgatccatc5100gccaacaaggcggtacagaggtctgattcccaggagtggcttatcaaggaactggatgct5160gtagatcaccttgaattcaacaaagcatttccgtttttttcggatacaggaaagaaaaag5220aagaaaggagcgaatagcaacggagcgccttctgaagaagaatacacggaaacagaatcc5280attcaacaaccagaagatgcagagcaggaagtgaatggtcaagaaggaaatggcgcttca5340aagaaccagaaaaagtttcagcgcattcctcgatttttcggggaagggtcaaggagtgag5400tatcgaattttaacagaagcgccgcaatattttgacatgttctgcaataatatgcgcgcg5460atctttatgcagctagagagtcagccgcgcaaggcgcctcgtgatttcaaatgctttctg5520cagaatcgtttgcagaagctttacaagcaaacctttctcaatgctcgcagtaataaatgc5580cgcgcgcttctggaatccgtccttatttcatggggagaattttatacttatggcgcgaat5640gaaaagaagtttcgtctgcgccatgaagcgagcgagcgcagctcggatccggactatgtg5700gttcagcaggcattggaaatcgcgcgccggcttttcttgttcggatttgagtggcgcgat5760tgctctgctggagagcgcgtggatttggttgaaatccacaaaaaagcaatctcatttttg5820cttgcaatcactcaggccgaggtttcagttggttcctataactggcttgggaatagcacc5880gtgagccggtatctttcggttgctggcacagacacattgtacggcactcaactggaggag5940tttttgaacgccacagtgctttcacagatgcgtgggctggcgattcggctttcatctcag6000gagttaaaagacggatttgatgttcagttggagagttcgtgccaggacaatctccagcat6060ctgctggtgtatcgcgcttcgcgcgacttggctgcgtgcaaacgcgctacatgcccggct6120gaattggatccgaaaattcttgttctgccggctggtgcgtttatcgcgagcgtaatgaaa6180atgattgagcgtggcgatgaaccattagcaggcgcgtatttgcgtcatcggccgcattca6240ttcggctggcagatacgggttcgtggagtggcggaagtaggcatggatcagggcacagcg6300ctagcattccagaagccgactgaatcagagccgtttaaaataaagccgttttccgctcaa6360tacggcccagtactttggcttaattcttcatcctatagccagagccagtatctggatgga6420tttttaagccagccaaagaattggtctatgcgggtgctacctcaagccggatcagtgcgc6480gtggaacagcgcgttgctctgatatggaatttgcaggcaggcaagatgcggctggagcgc6540tctggagcgcgcgcgtttttcatgccagtgccattcagcttcaggccgtctggttcagga6600gatgaagcagtattggcgccgaatcggtacttgggactttttccgcattccggaggaata6660gaatacgcggtggtggatgtattagattccgcgggtttcaaaattcttgagcgcggtacg6720attgcggtaaatggcttttcccagaagcgcggcgaacgccaagaggaggcacacagagaa6780aaacagagacgcggaatttctgatataggccgcaagaagccggtgcaagctgaagttgac6840gcagccaatgaattgcaccgcaaatacaccgatgttgccactcgtttagggtgcagaatt6900gtggttcagtgggcgccccagccaaagccgggcacagcgccgaccgcgcaaacagtatac6960gcgcgcgcagtgcggaccgaagcgccgcgatctggaaatcaagaggatcatgctcgtatg7020aaatcctcttggggatatacctggagcacctattgggagaagcgcaaaccagaggatatt7080ttgggcatctcaacccaagtatactggaccggcggtataggcgagtcatgtcccgcagtc7140gcggttgcgcttttggggcacattagggcaacatccactcaaactgaatgggaaaaagag7200gaggttgtattcggtcgactgaagaagttctttccaagctagacgatctttttaaaaact7260gggctgctggctatcgtatggtcagtagctcttatttttttacttgatatatggtattat7320ctcaataatatgcatctcttcatagatacaacagaaaaagaatcatttgatattgctttg7380attgatgatgagcgcgttatcaaaaagaagcgaatcaaatcaatccgccaacattcggaa7440aagcttttgaaatcaattgacgcgcttttgttgtccgcaaaatcatctctgaaagatata7500caaggcatcatcgcggtaaaaggccctgggtc75322716262DNA人工序列Artificialsequence合成序列27cggaaaggcggcccagaaacgggttgaccaaattttgtgttcagtggtgatgatggcgat60gycgatgtcgctgcttacgcgggcgttgtgcaggccgatggagtcggaaatcagaatggc120ctggacgtgggggagggtggccagccagcgcaggtaatgatgccgtttgcgcagtttggt180ttcggtgaggccgtagcgggccaggcgcagggggacgaggtgggagcggtttttgaggtg240ataaaagccatcggtgtgagtgatgtgtgggtgagtggcgagggcggcagtgagttcggc300gggcgtggtggtgtgttgccacagccagcgctggagttcaccggcggtcagcggaaattc360catgaggtcaaagtagctcatggtggcggtgatggcgtgctcgagttgggggcgacaagc420gggtttcatgctcctattatagcagattttcagagttggatttttgctgttttttcttgg480ccggagtacccgtttttttattgtttgaaaaatcagggcttaaaaattttaggtgagagt540ctttttgctatatccaagaagaaattttgccatattttttggtcaatttttattttcatt600cttggtaggtcttttaattcggtcacttttaatagttggcttcccatttgtactgggtcg660atgtgccagtcaaattttatcttggccttttttatcagatcatcgaatgtccattctttt720ttttggagaatacaatacaggtctataaaatcccgtgaacgtggtttttgatacatggta780aatactttgttgacggcaatgtctaacaggctgtcaattttcagaccgtttgttttcaag840cccttttgtataatcggaaaggggtagtaggtaaattccgttttgataacatccttgtcg900atatggataaaaaacagattccggttgaagctctgctgaaaatctatctttttaaatttt960acctttttctgtatttttttgagtatagtaaaaatatccgtagaatcgaattctttttcc1020gaaaagaaatccaaatcttcggataaccgatgatgcagataaaattctgcgagagcggtg1080ccaccggaaagataaaatttttcccggatgagtttttcttgtgatagctgctgaaggaga1140gcgctttggttggttgtcaggattgttggccccataggagaaaagataaaaattttttct1200tacctgggtcgaggtccagcctatcccagtactttttcagttgacttcgcttgatttttt1260ttccacccaagccaaaatttaccatctgttcgagtttccagatagtgtatttttctttat1320ttttttttagctctgtgaggtcaatattccaattgtacatggctgtattttagcatatag1380cagcttaaatttcaattttattttagccaaaatagtagaatggtggcggtgttagatgaa1440tatttcgtagttgtcttttgatatcacctggaattttgcgtcttggtaggcatcgctgaa1500tgcctttggcgctcgggctgattttttcccccatttgaattcaaatgccctgagttttcc1560atttttttcttccaagtaatcaatttctgccttttggtgcgtgcgccagaaatatctgtt1620taccgaattttcagtattttccaattttttcattctttctacgaggagaaaattttccca1680gagccccccgacatcttcgcgtaaggagagaggattgagattattaatgagtgcgttgcg1740aatgccgagatcatagaagtaaattttccgcagttttttgagttcgttgcgaatgtttcg1800actgtatggtttcaaagtaaaaacaatgaaagccttctcaagaatgcctatataattagc1860cacggttttttgatcgatattgagcaggttggacagttcccggtaggaaacttctttacc1920tatctggagtgccagcgcctgcaggagtttgtcgagtacttcaggattgcggatgttctg1980aaatgccagaatgtctttatataaataacttctggtgatattgcgcagcaattcctcagc2040ttccgatgatttgaggacaatttccggatacataccgaaaatcattctttgttccagtgt2100tcttttttcttcctgtatattctgtatctgcctgagttcttccagtgaaaagggatagag2160gataaattcatattttcttcctgtgagcggctcaacgatctgattagcgagatcaaaaga2220agatgatccggtggcgataatctgcatttccggaaagttgtcaacaagtagtttcagtgt2280cagtccgatattttttactctttgcgcctcgtcaaggaagataatgtttgcatctcccag2340ataggccttgagttcggtcgaagttttgtcggtaagagcggtgcgaacgtccggttcatc2400acagttgaggtagcgagaggtgtggctcgcaagcttttcctcaagggctttgaggatagt2460tgtcttacctacctgtctggcgccatagataataataaccttttttttgaaaaggtgttt2520ttcaataataggctgaaggtctctgctaatccgcatagtatatatgatttagatgattat2580actcctctcattatatattaaaatgcggatttagtcaatgcattctactataaatgcttt2640atattagccaaaatgtcagaaaattgatatttttgaccatttttactatatttcggacac2700cttattttggttctcgattcatgtatcactgcccgctgtaggttgcgggccaatttttaa2760aggagaattttatgatgcctgttgtgctctttataaaatcgttttttttgattttccata2820gttctctcttgtagggacttgaaataaaatgttttttatactactataggcctagttcct2880taacaatattttgcttactttaaagcgaaaataggtaaggcacacctataccataaggat2940ttaaagactctttggcgacagctttccaccgaccctgagtagttaaagactgacgtatca3000tgtcataacaccaacatttctagatataaagacgcgacagctttcaggcgataccgacgt3060ttctagacataaagactttggataaaccataatgcaccgacgttcctcgatataaagacc3120cgttgtggtcccaaaattcaccgacattttaagaggtaaagacaagtgcacctgagtcgc3180tgcaccgacattcccgatataaagactgtcgctcaaccccaaaacaccgacattcccgat3240ataaagactcgccctagatcttcttgcaccgactgtataaggaataaagacgtccgacca3300cgtgcaccacaccgactcgtgtgaacctaaagactcaccgccgcactaccctcaccgact3360atatcaaacctaaagattggtaacttgtttgtctgacaccgactgtatcagagataaaga3420ctgttttccatgcgttgcgcaccgacgttcctagatataaagactatcattatcggggaa3480accgccgactgtactagatataaagacccgtcgctttgtttgaacgccgacattcttaag3540aaataaagacgtggtaagagtagtgtttcaccgacattcctttatgtaaagacaatgaat3600agtctttttcacaccgactgtgaatgtatgaaatctaaagacctgaaagtgcaatgcaaa3660tgctgacagtgttagtctaaagacaaagtaggaatcaggatccgccgactaaataaaact3720taaagacaagccagatatccaggccacaccgacgtccctagatgtaaagactagtgactc3780catgctatgcaccgacattccgaggcctaaagacagagaggctaacatttgtgcaccgac3840ccttcaagaggtaaagacatagggaacacgctgaatcaccgacgttcctaggtatacaga3900cgaaatgcaatgaaaaacgtcaccgacatttcaagacgtaaagacccaagaatctttgcc3960cgtccccgacattccaagacgtaaagactagccaaaacctccagacccccgacattccaa4020gacataaagacaagcgctccaacatgtgtcaccgacattattccgccccagcatcgatca4080ttttgacttggaaagagacattcttctttccaagtttttattttgagcaaaatttgactt4140tttattggttatcctttattactatgggtgcttagtgcatcgaaaggtgggctaagcaca4200acaaaagtgttctttttatcttaaacttgaggttttagacctcatcaacccaaaaagggt4260gtaacatcatgaaacatcagaaacatcaagaaaatgcagtctctgacgaaacatctaacc4320cttccgccgagccatggatttttgattttgagaaatggtggccctacgatacgtatccca4380ccatgcatcataatcaatccgaggctttcaaattaattcgaagtgtcctacggaaagaag4440gtgtgggtaaaaccatccttgaacttcctaccggatctgggaagacggtcattgggatcg4500tgtatctccttactttgcatcacaagatgcaggaaggcgagattcctacagctccgctgt4560tttacatcgtgcctaataaggcgctggtaaagcaggtgtgtgaaatgttcccagatatca4620cctttggtgtgtatggccggaatgaatatgattgtctgtattaccagccgaaagaaacgt4680ttacagccgatcagattccctgtttggttctaccatgcaagcatcgggtgaaccaggatg4740atggaactacgcaagaatctggtgctgagccatgtccgtattatttggtgaagtataagg4800cgaagcagctgactcagaaggctcgaatcattgtctgtaccgcttctttttatcttttca4860ctcaactcattcatgagtggccgctgcctggaggactggttattgacgaaacggatgagc4920tggctgaaatttttcggcgggcgctctccacgaaagtcagtgattggcacctgagtcagt4980gcgtcacgatgatgcggcaaagtgggatggatggtgaagcggatctcatgcagaaatttt5040atgacgccgtggttagaattgtcggagtcaagtctcctcaaaagcctacgcttttgaaga5100aacacgaaatcagtgagctcctcgaggtagttcctcagttcgacaccagaaaactgaaaa5160ggcgtataaatgccctcatcaaagacggaaagattgatgcagagaattcgcgtgaagtgc5220tgaatcagctgactgtggttgccaatgatctgaaacgatacgccgtttcgcttgcctatg5280ccttgcctgagggtgaccgtagggcccttaattacctctatgcatattatgaaggaccgg5340atgatcttccagggaagaagaaagttcggtgtgtcattaatatctgcaattggtacatgc5400cgcctctcattaggcggattctctcgcctcggaccctggcatatacagccactatcggtg5460agtatagtgactttgcctacgataccggaattgaaggttcgttttataccatgaactctg5520attttccggtggagaactcccgtatcttcatgcccgatgacgttgccaacttggctgtga5580aatcggtcaaaccaggcgacaaagatcggatgatgcgtctgattgctaagtcagctcgtg5640aatttgcggatcaaggtcatcggagtctggtggtggtcatttccaatgaggagcgttcaa5700ggtttctggaaattgttgaagaatacagtctcaaaatgctcacctatggaaatggtgttt5760cggcgcgcgaggctattgcaaggtttcaggctggtgaaggggaggtgtttgtgggaacgg5820cagccaactgttctcatggcctgaacttcgataagcagactgctccggtgattttttttc5880tgcggcctggttatccggtgcagggagatccactcgcagatttcgaagaagagcggatgg5940gaaataagaggtggggtgtttggacctggcgggttatgcggcagttacttcaggtgcgtg6000gccggaatatccgcagtccggaggatttgggagttattttcctgatgtcaggccagttta6060aacgtttcgcagggaaggcgattccggggtggcttatcaaagcctatatctccggcaaga6120aattcagggcctgtgtgtcagaggccaaaaagctcctgaaaaagtcttaattaagccaaa6180aaaattgtttttttgtctctgtccttgacaatataattgaactttgctaagttagggtcc6240cctgttagaggaaacagcagcaaagggaagtctgagcgcgagaggccttagtctttagag6300ttcttaataagaacttttctgggcccaaagtgcgctttagtctttattccctgagctctg6360tctactttgatggggcctttttttattcaaatttttttattttcgctacgtcttgacaaa6420aatatagatgtatactatatttcgcccgaggtaataaagaaaatagcggtaaagctataa6480gattttattatttcatttataagaactttgaaaaccgacattatcaaaaaccatgcaaag6540ccctttagatgagggcaggaggttgaaaaaatgaagagaattctgaacagtctgaaagtt6600gctgccttgagacttctgtttcgaggcaaaggttctgaattagtgaagacagtcaaatat6660ccattggtttccccggttcaaggcgcggttgaagaacttgctgaagcaattcggcacgac6720aacctgcacctttttgggcagaaggaaatagtggatcttatggagaaagacgaaggaacc6780caggtgtattcggttgtggatttttggttggataccctgcgtttagggatgtttttctca6840ccatcagcgaatgcgttgaaaatcacgctgggaaaattcaattctgatcaggtttcacct6900tttcgtaaggttttggagcagtcacctttttttcttgcgggtcgcttgaaggttgaacct6960gcggaaaggatactttctgttgaaatcagaaagattggtaaaagagaaaacagagttgag7020aactatgccgccgatgtggagacatgcttcattggtcagctttcttcagatgagaaacag7080agtatccagaagctggcaaatgatatctgggatagcaaggatcatgaggaacagagaatg7140ttgaaggcggatttttttgctatacctcttataaaagaccccaaagctgtcacagaagaa7200gatcctgaaaatgaaacggcgggaaaacagaaaccgcttgaattatgtgtttgtcttgtt7260cctgagttgtatacccgaggtttcggctccattgctgattttctggttcagcgacttacc7320ttgctgcgtgacaaaatgagtaccgacacggcggaagattgcctcgagtatgttggcatt7380gaggaagaaaaaggcaatggaatgaattccttgctcggcacttttttgaagaacctgcag7440ggtgatggttttgaacagatttttcagtttatgcttgggtcttatgttggctggcagggg7500aaggaagatgtactgcgcgaacgattggatttgctggccgaaaaagtcaaaagattacca7560aagccaaaatttgccggagaatggagtggtcatcgtatgtttctccatggtcagctgaaa7620agctggtcgtcgaatttcttccgtctttttaatgagacgcgggaacttctggaaagtatc7680aagagtgatattcaacatgccaccatgctcattagctatgtggaagagaaaggaggctat7740catccacagctgttgagtcagtatcggaagttaatggaacaattaccggcgttgcggact7800aaggttttggatcctgagattgagatgacgcatatgtccgaggctgttcgaagttacatt7860atgatacacaagtctgtagcgggatttctgccggatttactcgagtctttggatcgagat7920aaggatagggaatttttgctttccatctttcctcgtattccaaagatagataagaagacg7980aaagagatcgttgcatgggagctaccgggcgagccagaggaaggctatttgttcacagca8040aacaaccttttccggaattttcttgagaatccgaaacatgtgccacgatttatggcagag8100aggattcccgaggattggacgcgtttgcgctcggcccctgtgtggtttgatgggatggtg8160aagcaatggcagaaggtggtgaatcagttggttgaatctccaggcgccctttatcagttc8220aatgaaagttttttgcgtcaaagactgcaagcaatgcttacggtctataagcgggatctc8280cagactgagaagtttctgaagctgctggctgatgtctgtcgtccactcgttgattttttc8340ggacttggaggaaatgatattatcttcaagtcatgtcaggatccaagaaagcaatggcag8400actgttattccactcagtgtcccagcggatgtttatacagcatgtgaaggcttggctatt8460cgtctccgcgaaactcttggattcgaatggaaaaatctgaaaggacacgagcgggaagat8520tttttacggctgcatcagttgctgggaaatctgctgttctggatcagggatgcgaaactt8580gtcgtgaagctggaagactggatgaacaatccttgtgttcaggagtatgtggaagcacga8640aaagccattgatcttcccttggagattttcggatttgaggtgccgatttttctcaatggc8700tatctcttttcggaactgcgccagctggaattgttgctgaggcgtaagtcggtgatgacg8760tcttacagcgtcaaaacgacaggctcgccaaataggctcttccagttggtttacctacct8820ctaaacccttcagatccggaaaagaaaaattccaacaactttcaggagcgcctcgataca8880cctaccggtttgtcgcgtcgttttctggatcttacgctggatgcatttgctggcaaactc8940ttgacggatccggtaactcaggaactgaagacgatggccggtttttacgatcatctcttt9000ggcttcaagttgccgtgtaaactggcggcgatgagtaaccatccaggatcctcttccaaa9060atggtggttctggcaaaaccaaagaagggtgttgctagtaacatcggctttgaacctatt9120cccgatcctgctcatcctgtgttccgggtgagaagttcctggccggagttgaagtacctg9180gaggggttgttgtatcttcccgaagatacaccactgaccattgaactggcggaaacgtcg9240gtcagttgtcagtctgtgagttcagtcgctttcgatttgaagaatctgacgactatcttg9300ggtcgtgttggtgaattcagggtgacggcagatcaacctttcaagctgacgcccattatt9360cctgagaaagaggaatccttcatcgggaagacctacctcggtcttgatgctggagagcga9420tctggcgttggtttcgcgattgtgacggttgacggcgatgggtatgaggtgcagaggttg9480ggtgtgcatgaagatactcagcttatggcgcttcagcaagtcgccagcaagtctcttaag9540gagccggttttccagccactccgtaagggcacatttcgtcagcaggagcgcattcgcaaa9600agcctccgcggttgctactggaatttctatcatgcattgatgatcaagtaccgagctaaa9660gttgtgcatgaggaatcggtgggttcatccggtctggtggggcagtggctgcgtgcattt9720cagaaggatctcaaaaaggctgatgttctgcccaagaagggtggaaaaaatggtgtagac9780aaaaaaaagagagaaagcagcgctcaggataccttatggggaggagctttctcgaagaag9840gaagagcagcagatagcctttgaggttcaggcagctggatcaagccagttttgtctgaag9900tgtggttggtggtttcagttggggatgcgggaagtaaatcgtgtgcaggagagtggcgtg9960gtgctggactggaaccggtccattgtaaccttcctcatcgaatcctcaggagaaaaggta10020tatggtttcagtcctcagcaactggaaaaaggctttcgtcctgacatcgaaacgttcaaa10080aaaatggtaagggattttatgagaccccccatgtttgatcgcaaaggtcggccggccgcg10140gcgtatgaaagattcgtactgggacgtcgtcaccgtcgttatcgctttgataaagttttt10200gaagagagatttggtcgcagtgctcttttcatctgcccgcgggtcgggtgtgggaatttc10260gatcactccagtgagcagtcagccgttgtccttgcccttattggttacattgctgataag10320gaagggatgagtggtaagaagcttgtttatgtgaggctggctgaacttatggctgagtgg10380aagctgaagaaactggagagatcaagggtggaagaacagagctcggcacaataatttgag10440aagtaaaatagttttttagattcagtttcgcaaaggaggtgatttggttctttgaagaga10500ggtgtcattatatgtggcatctcttttcattttgagagattttttctaaaaataaaactt10560ggaaagaaatagttctttccaagtcaaaatgatcgattttaaggaatgtcggtgaagtga10620tttatgaacaaatgtctttatatttcatatggtcggtgtaagtacgaatgcgagttgcct10680ttaggtttttaccgtcggtaatccacattattcacttggtctttaggcttcatagcgtcg10740gtattctttttatatatgcaagtctttacattgaggaacgtcgatgttcaaaccagatgt10800gtttgtctttatacctcggaatgtcggtgaagtgatttatgaacaaagtctttaattttt10860acacagtcggtggctttccgagcaagagtagtctttatatttagaacagtcggcgtcggc10920agtgctttttataagtctttgtatctcatgtagtcggtgcattgtctttgcaactgggtc10980tttatctcttaatatggtcggtggaaactcttgtgggaatctttatctcaagaaaagtcg11040gtgtcgcctgaaagctgtcgcgtctttaggtctcatgcagtcggtgtcggtcaaaagctc11100gcttgtctttatattttatacagtcggtgtaaaggtgagctggctgagtctttatccctc11160ttaaagtcggtgcaagaagtatggcggtatgtctttacttgtcgttaggtcggtgttcat11220ccgtctctagggtgtctttatctttatgaatgtcggtgtaggtccaaacgatgtatgtct11280tacatcaggaattcaggaatgtcggggttactaatatgcaatggagtctttatgtctggg11340aacgtcgttattttactcttgcgagattgtctttactcaggaagtcggagctcgattgat11400tgacattgcgtcttttagataccatactgtcggtgtggacggctcgcctgatggtcttta11460ccttttatacggtcggtgggttgctgggcgcttcagtctttacgtttcatgcggtcggtg11520tcattctcatgccctacgtctttatctctaagaatgtcggtggagcgacttaggtgcact11580ggtctttatgtttagaaatgtcggtgtgattacaggtatcaaatgtctttagctctggga11640aggtcggtatcgatccaaagatccggggttttaaattgttgtcaatgaactaggcacata11700gtaatataaaaaacattttattacaagcccccctcctttttgtttggcgcccaacaaaaa11760aaatcgcccaaaagagcagcttttcgggcgcggcgcctccatatatagcgcaccaaacta11820tttcaacgccctggccaaatacctccccgtgtgactcttttttaccttggccacatcacg11880cggcgtaccttcggccaccagcaaaccaccgtgattgccaccttccggacccagatcaat11940cacccagtccgaagatttaataacttccaaattgtgttcaataatcaatagactgttgcc12000cttatccaccagcttgctcagcacgtgcagcaaccgtttcacatcatcaaaatgcaaacc12060cgtcgtcggctcatccaaaatatacaacgtctttcccgtcgagcgccgtgacaattccgt12120cgccagcttcacacgctgcgcttcaccaccactcagcgtcgtcgcattctgtcccagctg12180aatatagcccaaacccacttcaaacagcgtcttcaacttttcatgaataatcggaatatt12240gctgaaaaatttcgtcgcatcttcgaccgtcatgttcagtacctcggaaatatttttccc12300cttgtaatgaatttccaaagcctgctcgttgtagcggcggcctttgcattcgtcgcaatc12360cacatacacgtccggcaggaagtgcatctcaattttggtcacaccatcgccctgacaggc12420ttcgcagcggccacccttcacattgaaactgaaacgcccggccttgtagccgcgcatctt12480cgcttccggcacctgcgtgaacagatcgcgaatgtaggtaaacacgccggtgtaggtggc12540ggcgttggagcggggagtacggccgatcggcgactgatcaatatcaatcaccttatcgag12600atattccagtccgcgcagctctttgtgtttgccgggaatatccttggcattatgaaaatg12660ttgtgacaacgcgcgggcgagaatatcggtcatcaacgtcgatttgccgctgccggaaac12720gccggtgatgcacactaattttcccagcggaatgcgcacgttgatattttgtaggttgtg12780ggcggtggcaccgcggatttcaatatatttgccgttgccgcggcggtacttgtgcggcgc12840ttcaatgaattttttgccgctcagatattgaccggtcaatgacgctttatttttaataat12900ttcctgaggtgtgccaagggcaacaatttcgccaccgtgtttgccggcaccaggccccac12960gtcaataacataatcagcggagcgaatcgtttcttcatcgtgctcgacgacgatcacggt13020attgcctaattcgcgcagcgctttgagtgtgtctatgagtttggagttgtcgcgttggtg13080caagccaatgctgggttcatcgaggatatagataacgccgaccaaagatgaaccgatttg13140cgtggccagacgaatgcgttgcgcttcaccgccgcttaaagtcgaagcagcgcgatctaa13200agtcaaataatccagacctacattatgtaaaaaagtcaggcgttcgcggatttctttcat13260gatctgatgcgaaattttggcttcgcgtacggacatgacgtagacattattttttgccat13320gctgttgccgccggagttggcaccacctttgccggccgcgtttttggcgccagcaccctt13380cgcgccagcacccgcaccaccaaccacaaacccctcaaaaaatgcctgcgcttcttcaat13440gctcaaccccgtcgtgtcagaaatggatttgccgcgaatcgttacggccagtgcaatttt13500gttcaaccgtttcccgtgacacgtcggacaatcaaagacgcgcatgtagcgttcgatttc13560cgagcggatatattccgactcggtttctttgtagcgccgttccaaattcggtatcacgcc13620ttcatacgtcgtcacaaattcacggattttggatgtcgagttcatgccgctgttgacgtc13680gaaagattcttcgccggtgccgtaaaacaccagcttcagttgcgcggcggtcattttttt13740caccggttcgtccaaagaaaaaccgtatttggccgccactgtcgccagaatccgcagcat13800ccagccctgattcgaagacgtgcgtgaccagggtctgatggcaccctgattgatgctcaa13860atttttattgggaatgatcagttcagcgtcgacttcgagcttggtgcccaatccagtgca13920ttccacgcaggcgccgtgcgggctgttaaacgaaaacaggcgcggttcaatttccggcag13980gttgatgccgcagcgcggacaggcgaagtgctgactgaacagctgatctttttcgctggt14040actgtcgtgcacaatcaccataccatcacccaaatccaaggcggtttccagagattcgtg14100caagcggctgcggtttttgcgcagctctttgtcaacaaccaagcgatctacaacaacatc14160aatggtatgtttctttttcttatcgaggacgagatcgagtgcttcttcgatgctcatcat14220attcccgttgacgcgcacgcgcacaaaaccggctttgcgcgtttcttcaaagacgtgttt14280gtgttcaccttttttgtcgcggataatttgcgcgatgagcataaatttcgtatccgcttt14340caggcgcagaatttgttcgaggatttgttcggtggtttgtttgctgactttatcaccgca14400gttggggcagtgtggttggccgatgcgggcgtagagcaaacgcaggtaatcgtaaatttc14460ggtgacggtgccgacggtggatcggggattgtgggatgtggttttttgatcgatggagat14520ggcgggcgagaggccttcaatgctgtcgacgtcaggcttgtccatcaggccgaggaattg14580gcgggcgtaggaagacaggctttcgacgtagcggcgctgaccttcggcatagatcgtatc14640aaaagccagggaagattttcccgagccggacaggccggtgatgacgacgagctggtcacg14700ggggatgtccaggctgatatttttcaggttgtggacgcgggcgcctttgatgatgatcga14760attttcacctgccataattgatcgttatgagacaacaaaaatttttagagcaaagcccgt14820aacctgctttcgaggcagaattttcaaaatactgccgaggcgaaggaaaaaattttgagg14880aatactgttagtatttcgagaaattttttacaagccgcaggcggattttgaaaattatga14940tccggaatgaggttgcgggttttactctagacgaacttccgccagtctactacttttttt15000tgcgtaagtcaaccgtttgtgggcggggctgattcggttttgtggtggtttcgggagcag15060catagatgtagcggaaaattcaaaaaactggtataatattgctacaacctatacaaacaa15120aagcgtaaaaatcatgcatttttcacgtttcggattttatttccgtaaccgacgcatggt15180agaacgtttcttcgttctattttgtgctattttttctgctgtcctggttttgtcgcttgt15240tgccctggtgctggtggctgacaaaattaatatcaatcccattgtgcacatcttgtttcg15300tttttttcagcgaccctttgtcagtgcgctgattctgtcttttttcgtcacaacccttct15360ttacgccgtttttgttctggtgcatccagtgcagcatcataccgtgtattggcagcgtca15420ttcgcagcgatatcatattcgcaagaaatcccatattcaccgcagattgcgtcacattcc15480cgcgcagacatcacataagctgttggcgctcagttcactttttgttgtggttaaaattgt15540ttttgtcagttttgcctccggttttttaccgcatgatgttttggcacagaccgttgatcc15600gagcggacagaaaagtcagtcggtgttggtggcggcgttttatgtccaggtgcttgattc15660cgatgatttgtatatttggatttttatgttgggccttttgccgctggcggttctgatttt15720tttcatcgtttttcgttcgcatatttttccgcataagaattttcattatgagagcgcaca15780tctggatacgaatattgtcacttttgcggcccggaagaaggcggagcagcggcgcaaaaa15840gccatcacctccggccggtattgtacctttgcatgatgcataacctatgaattctgtttt15900gcagaaaaaattagctggtctgccgcatcaacccggcgtctatgtgtataaagacgcacg15960gggtgatgttttgtacgtggggaaggccaaagatttggcgaagcgcgtgcgatcgtattg16020gcagtcgggtcgctcgctggtgccggacaaagctttgatggtgagtcaggcggctgatat16080cgatatcacggtggtgagttcggaaacggaagcttttttgctcgaagcgagtttcattaa16140aaaataccggccgcggtttaatattattttgaaagatgataaaagtttttcgtatattaa16200ggtgacgttgcgggaagaatttccgagggtgctggtggtgcggcgcgtgacgcgcgatgg16260ca162622810DNA人工序列Artificialsequence合成序列28aaaaaaaaaa102910DNA人工序列Artificialsequence合成序列29aaaaaaaaaa103010DNA人工序列Artificialsequence合成序列30aaaaaaaaaa103125DNA人工序列Artificialsequence合成序列31ctccgaaagtatcggggataaaggc253225DNA人工序列Artificialsequence合成序列32caccgaaatttggagaggataaggc253325DNA人工序列Artificialsequence合成序列33ctccgaattatcgggaggataaggc253425DNA人工序列Artificialsequence合成序列34ccccgaatataggggacaaaaaggc253536DNA人工序列Artificialsequence合成序列35gtctagacatacaggtggaaaggtgagagtaaagac363625DNA人工序列Artificialsequence合成序列36ctccgtgaatacgtggggtaaaggc253710RNA人工序列Artificialsequence合成序列37aaaaaaaaaa103810RNA人工序列Artificialsequence合成序列38aaaaaaaaaa103910RNA人工序列Artificialsequence合成序列39aaaaaaaaaa104010RNA人工序列Artificialsequence合成序列40aaaaaaaaaa104110RNA人工序列Artificialsequence合成序列41aaaaaaaaaa104210RNA人工序列Artificialsequence合成序列42aaaaaaaaaa104310RNA人工序列Artificialsequence合成序列43aaaaaaaaaa104410RNA人工序列Artificialsequence合成序列44aaaaaaaaaa104510RNA人工序列Artificialsequence合成序列45aaaaaaaaaa104610RNA人工序列Artificialsequence合成序列46aaaaaaaaaa104710RNA人工序列Artificialsequence合成序列47aaaaaaaaaa104810RNA人工序列Artificialsequence合成序列48aaaaaaaaaa104910RNA人工序列Artificialsequence合成序列49aaaaaaaaaa105010RNA人工序列Artificialsequence合成序列50aaaaaaaaaa105110RNA人工序列Artificialsequence合成序列51aaaaaaaaaa105210RNA人工序列Artificialsequence合成序列52aaaaaaaaaa105310RNA人工序列Artificialsequence合成序列53aaaaaaaaaa105410RNA人工序列Artificialsequence合成序列54aaaaaaaaaa105510RNA人工序列Artificialsequence合成序列55aaaaaaaaaa105610RNA人工序列Artificialsequence合成序列56aaaaaaaaaa105710RNA人工序列Artificialsequence合成序列57aaaaaaaaaa105810RNA人工序列Artificialsequence合成序列58aaaaaaaaaa105910RNA人工序列Artificialsequence合成序列59aaaaaaaaaa106010RNA人工序列Artificialsequence合成序列60aaaaaaaaaa106110RNA人工序列Artificialsequence合成序列61aaaaaaaaaa106210RNA人工序列Artificialsequence合成序列62aaaaaaaaaa106310RNA人工序列Artificialsequence合成序列63aaaaaaaaaa106410RNA人工序列Artificialsequence合成序列64aaaaaaaaaa106510RNA人工序列Artificialsequence合成序列65aaaaaaaaaa106610RNA人工序列Artificialsequence合成序列66aaaaaaaaaa106710RNA人工序列Artificialsequence合成序列67aaaaaaaaaa106810RNA人工序列Artificialsequence合成序列68aaaaaaaaaa106910RNA人工序列Artificialsequence合成序列69aaaaaaaaaa107010RNA人工序列Artificialsequence合成序列70aaaaaaaaaa107110RNA未知Unknown合成序列71aaaaaaaaaa107210RNA未知Unknown合成序列72aaaaaaaaaa107310RNA人工序列Artificialsequence合成序列73aaaaaaaaaa107410RNA人工序列Artificialsequence合成序列74aaaaaaaaaa107510RNA人工序列Artificialsequence合成序列75aaaaaaaaaa107610RNA人工序列Artificialsequence合成序列76aaaaaaaaaa107710RNA人工序列Artificialsequence合成序列77aaaaaaaaaa107810RNA人工序列Artificialsequence合成序列78aaaaaaaaaa107910RNA人工序列Artificialsequence合成序列79aaaaaaaaaa108010RNA人工序列Artificialsequence合成序列80aaaaaaaaaa108110RNA人工序列Artificialsequence合成序列81aaaaaaaaaa108210RNA人工序列Artificialsequence合成序列82aaaaaaaaaa108384PRT人工序列ArtificialSequence合成序列83MetAlaSerMetIleSerSerSerAlaValThrThrValSerArgAla151015SerArgGlyGlnSerAlaAlaMetAlaProPheGlyGlyLeuLysSer202530MetThrGlyPheProValArgLysValAsnThrAspIleThrSerIle354045ThrSerAsnGlyGlyArgValLysCysMetGlnValTrpProProIle505560GlyLysLysLysPheGluThrLeuSerTyrLeuProProLeuThrArg65707580AspSerArgAla8457PRT人工序列ArtificialSequence合成序列84MetAlaSerMetIleSerSerSerAlaValThrThrValSerArgAla151015SerArgGlyGlnSerAlaAlaMetAlaProPheGlyGlyLeuLysSer202530MetThrGlyPheProValArgLysValAsnThrAspIleThrSerIle354045ThrSerAsnGlyGlyArgValLysSer50558585PRT人工序列ArtificialSequence合成序列85MetAlaSerSerMetLeuSerSerAlaThrMetValAlaSerProAla151015GlnAlaThrMetValAlaProPheAsnGlyLeuLysSerSerAlaAla202530PheProAlaThrArgLysAlaAsnAsnAspIleThrSerIleThrSer354045AsnGlyGlyArgValAsnCysMetGlnValTrpProProIleGluLys505560LysLysPheGluThrLeuSerTyrLeuProAspLeuThrAspSerGly65707580GlyArgValAsnCys858676PRT人工序列ArtificialSequence合成序列86MetAlaGlnValSerArgIleCysAsnGlyValGlnAsnProSerLeu151015IleSerAsnLeuSerLysSerSerGlnArgLysSerProLeuSerVal202530SerLeuLysThrGlnGlnHisProArgAlaTyrProIleSerSerSer354045TrpGlyLeuLysLysSerGlyMetThrLeuIleGlySerGluLeuArg505560ProLeuLysValMetSerSerValSerThrAlaCys6570758776PRT人工序列ArtificialSequence合成序列87MetAlaGlnValSerArgIleCysAsnGlyValTrpAsnProSerLeu151015IleSerAsnLeuSerLysSerSerGlnArgLysSerProLeuSerVal202530SerLeuLysThrGlnGlnHisProArgAlaTyrProIleSerSerSer354045TrpGlyLeuLysLysSerGlyMetThrLeuIleGlySerGluLeuArg505560ProLeuLysValMetSerSerValSerThrAlaCys6570758872PRT人工序列ArtificialSequence合成序列88MetAlaGlnIleAsnAsnMetAlaGlnGlyIleGlnThrLeuAsnPro151015AsnSerAsnPheHisLysProGlnValProLysSerSerSerPheLeu202530ValPheGlySerLysLysLeuLysAsnSerAlaAsnSerMetLeuVal354045LeuLysLysAspSerIlePheMetGlnLeuPheCysSerPheArgIle505560SerAlaSerValAlaThrAlaCys65708969PRT人工序列ArtificialSequence合成序列89MetAlaAlaLeuValThrSerGlnLeuAlaThrSerGlyThrValLeu151015SerValThrAspArgPheArgArgProGlyPheGlnGlyLeuArgPro202530ArgAsnProAlaAspAlaAlaLeuGlyMetArgThrValGlyAlaSer354045AlaAlaProLysGlnSerArgLysProHisArgPheAspArgArgCys505560LeuSerMetValVal659077PRT人工序列ArtificialSequence合成序列90MetAlaAlaLeuThrThrSerGlnLeuAlaThrSerAlaThrGlyPhe151015GlyIleAlaAspArgSerAlaProSerSerLeuLeuArgHisGlyPhe202530GlnGlyLeuLysProArgSerProAlaGlyGlyAspAlaThrSerLeu354045SerValThrThrSerAlaArgAlaThrProLysGlnGlnArgSerVal505560GlnArgGlySerArgArgPheProSerValValValCys6570759157PRT人工序列ArtificialSequence合成序列91MetAlaSerSerValLeuSerSerAlaAlaValAlaThrArgSerAsn151015ValAlaGlnAlaAsnMetValAlaProPheThrGlyLeuLysSerAla202530AlaSerPheProValSerArgLysGlnAsnLeuAspIleThrSerIle354045AlaSerAsnGlyGlyArgValGlnCys50559265PRT人工序列ArtificialSequence合成序列92MetGluSerLeuAlaAlaThrSerValPheAlaProSerArgValAla151015ValProAlaAlaArgAlaLeuValArgAlaGlyThrValValProThr202530ArgArgThrSerSerThrSerGlyThrSerGlyValLysCysSerAla354045AlaValThrProGlnAlaSerProValIleSerArgSerAlaAlaAla505560Ala659372PRT人工序列ArtificialSequence合成序列93MetGlyAlaAlaAlaThrSerMetGlnSerLeuLysPheSerAsnArg151015LeuValProProSerArgArgLeuSerProValProAsnAsnValThr202530CysAsnAsnLeuProLysSerAlaAlaProValArgThrValLysCys354045CysAlaSerSerTrpAsnSerThrIleAsnGlyAlaAlaAlaThrThr505560AsnGlyAlaSerAlaAlaSerSer65709420PRT人工序列ArtificialSequence合成序列尚未归类的特征4..4Xaa可以是任何天然存在的氨基酸尚未归类的特征8..8Xaa可以是任何天然存在的氨基酸尚未归类的特征11..11Xaa可以是任何天然存在的氨基酸尚未归类的特征15..15Xaa可以是任何天然存在的氨基酸尚未归类的特征19..19Xaa可以是任何天然存在的氨基酸94GlyLeuPheXaaAlaLeuLeuXaaLeuLeuXaaSerLeuTrpXaaLeu151015LeuLeuXaaAla209520PRT人工序列ArtificialSequence合成序列95GlyLeuPheHisAlaLeuLeuHisLeuLeuHisSerLeuTrpHisLeu151015LeuLeuHisAla20967PRT人工序列ArtificialSequence合成序列96ProLysLysLysArgLysVal159716PRT人工序列ArtificialSequence合成序列97LysArgProAlaAlaThrLysLysAlaGlyGlnAlaLysLysLysLys151015989PRT人工序列ArtificialSequence合成序列98ProAlaAlaLysArgValLysLeuAsp159911PRT人工序列ArtificialSequence合成序列99ArgGlnArgArgAsnGluLeuLysArgSerPro151010038PRT人工序列ArtificialSequence合成序列100AsnGlnSerSerAsnPheGlyProMetLysGlyGlyAsnPheGlyGly151015ArgSerSerGlyProTyrGlyGlyGlyGlyGlnTyrPheAlaLysPro202530ArgAsnGlnGlyGlyTyr3510142PRT人工序列ArtificialSequence合成序列101ArgMetArgIleGlxPheLysAsnLysGlyLysAspThrAlaGluLeu151015ArgArgArgArgValGluValSerValGluLeuArgLysAlaLysLys202530AspGluGlnIleLeuLysArgArgAsnVal35401028PRT人工序列ArtificialSequence合成序列102ValSerArgLysArgProArgPro151038PRT人工序列ArtificialSequence合成序列103ProProLysLysAlaArgGluAsp151048PRT人工序列ArtificialSequence合成序列104ProGlnProLysLysLysProLeu1510512PRT人工序列ArtificialSequence合成序列105SerAlaLeuIleLysLysLysLysLysMetAlaPro15101065PRT人工序列ArtificialSequence合成序列106AspArgLeuArgArg151077PRT人工序列ArtificialSequence合成序列107ProLysGlnLysLysArgLys1510810PRT人工序列ArtificialSequence合成序列108ArgLysLeuLysLysLysIleLysLysLeu151010910PRT人工序列ArtificialSequence合成序列109ArgGluLysLysLysPheLeuLysArgArg151011020PRT人工序列ArtificialSequence合成序列110LysArgLysGlyAspGluValAspGlyValAspGluValAlaLysLys151015LysSerLysLys2011117PRT人工序列ArtificialSequence合成序列111ArgLysCysLeuGlnAlaGlyMetAsnLeuGluAlaArgLysThrLys151015Lys11211PRT人工序列ArtificialSequence合成序列112TyrGlyArgLysLysArgArgGlnArgArgArg151011312PRT人工序列ArtificialSequence合成序列113ArgArgGlnArgArgThrSerLysLeuMetLysArg151011427PRT人工序列ArtificialSequence合成序列114GlyTrpThrLeuAsnSerAlaGlyTyrLeuLeuGlyLysIleAsnLeu151015LysAlaLeuAlaAlaLeuAlaLysLysIleLeu202511533PRT人工序列ArtificialSequence合成序列115LysAlaLeuAlaTrpGluAlaLysLeuAlaLysAlaLeuAlaLysAla151015LeuAlaLysHisLeuAlaLysAlaLeuAlaLysAlaLeuLysCysGlu202530Ala11616PRT人工序列ArtificialSequence合成序列116ArgGlnIleLysIleTrpPheGlnAsnArgArgMetLysTrpLysLys15101511711PRT人工序列ArtificialSequence合成序列117TyrGlyArgLysLysArgArgGlnArgArgArg15101189PRT人工序列ArtificialSequence合成序列118ArgLysLysArgArgGlnArgArgArg1511911PRT人工序列ArtificialSequence合成序列119TyrGlyArgLysLysArgArgGlnArgArgArg15101208PRT人工序列ArtificialSequence合成序列120ArgLysLysArgArgGlnArgArg1512111PRT人工序列ArtificialSequence合成序列121TyrAlaArgAlaAlaAlaArgGlnAlaArgAla151012211PRT人工序列ArtificialSequence合成序列122ThrHisArgLeuProArgArgArgArgArgArg151012311PRT人工序列ArtificialSequence合成序列123GlyGlyArgArgAlaArgArgArgArgArgArg15101245PRT人工序列ArtificialSequence合成序列124GlySerGlyGlySer151256PRT人工序列ArtificialSequence合成序列125GlyGlySerGlyGlySer151264PRT人工序列ArtificialSequence合成序列126GlyGlyGlySer11274PRT人工序列ArtificialSequence合成序列127GlyGlySerGly11285PRT人工序列ArtificialSequence合成序列128GlyGlySerGlyGly151295PRT人工序列ArtificialSequence合成序列129GlySerGlySerGly151305PRT人工序列ArtificialSequence合成序列130GlySerGlyGlyGly151315PRT人工序列ArtificialSequence合成序列131GlyGlyGlySerGly151325PRT人工序列ArtificialSequence合成序列132GlySerSerSerGly1513316PRT人工序列ArtificialSequence合成序列133ArgGlnIleLysIleTrpPheGlnAsnArgArgMetLysTrpLysLys15101513411PRT人工序列ArtificialSequence合成序列134TyrGlyArgLysLysArgArgGlnArgArgArg1510
权利要求:1.一种组合物,其包含:aCasY多肽或编码所述CasY多肽的核酸分子;以及bCasY指导RNA或一种或多种编码所述CasY指导RNA的DNA分子。2.如权利要求1所述的组合物,其中所述CasY多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。3.如权利要求1或权利要求2所述的组合物,其中所述CasY指导RNA包含与SEQIDNO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。4.如权利要求1或权利要求2所述的组合物,其中所述CasY多肽与NLS序列融合。5.如权利要求1-4中任一项所述的组合物,其中所述组合物包含脂质。6.如权利要求1-4中任一项所述的组合物,其中a和b在脂质体内。7.如权利要求1-4中任一项所述的组合物,其中a和b在颗粒内。8.如权利要求1-7中任一项所述的组合物,其包含以下中的一种或多种:缓冲液、核酸酶抑制剂和蛋白酶抑制剂。9.如权利要求1-8中任一项所述的组合物,其中所述CasY多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。10.如权利要求1-9中任一项所述的组合物,其中所述CasY多肽是切口酶,其仅能切割双链靶核酸分子的一条链。11.如权利要求1-9中任一项所述的组合物,其中所述CasY多肽是无催化活性的CasY多肽dCasY。12.如权利要求10或权利要求11所述的组合物,其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQIDNO:1的D672、E769和D935。13.如权利要求1-12中任一项所述的组合物,其还包含DNA供体模板。14.一种CasY融合多肽,其包含:与异源多肽融合的CasY多肽。15.如权利要求14所述的CasY融合多肽,其中所述CasY多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。16.如权利要求14所述的CasY融合多肽,其中所述CasY多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。17.如权利要求14-16中任一项所述的CasY融合多肽,其中所述CasY多肽是切口酶,其仅能切割双链靶核酸分子的一条链。18.如权利要求14-17中任一项所述的CasY融合多肽,其中所述CasY多肽是无催化活性的CasY多肽dCasY。19.如权利要求17或权利要求18所述的CasY融合多肽,其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQIDNO:1的D672、E769和D935。20.如权利要求14-19中任一项所述的CasY融合多肽,其中所述异源多肽与所述CasY多肽的N末端和或C末端融合。21.如权利要求14-20中任一项所述的CasY融合多肽,其包含NLS。22.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽是靶向多肽,其提供与靶细胞或靶细胞类型上的细胞表面部分的结合。23.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽表现出修饰靶DNA的酶活性。24.如权利要求23所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。25.如权利要求24所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。26.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。27.如权利要求26所述的CasY融合多肽,其中所述异源多肽表现出组蛋白修饰活性。28.如权利要求26或权利要求27所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性例如,来自O-GlcNAc转移酶和脱糖基化活性。29.如权利要求28所述的CasY融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。30.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽是内体逃逸多肽。31.如权利要求30所述的CasY融合多肽,其中所述内体逃逸多肽包含选自以下的氨基酸序列:GLFXALLXLLXSLWXLLLXASEQIDNO:94和GLFHALLHLLHSLWHLLLHASEQIDNO:95,其中每个X独立地选自赖氨酸、组氨酸和精氨酸。32.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽是叶绿体转运肽。33.如权利要求32所述的CasY融合多肽,其中所述叶绿体转运肽包含选自以下的氨基酸序列:MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKCMQVWPPIGKKKFETLSYLPPLTRDSRASEQIDNO:83、MASMISSSAVTTVSRASRGQSAAMAPFGGLKSMTGFPVRKVNTDITSITSNGGRVKSSEQIDNO:84、MASSMLSSATMVASPAQATMVAPFNGLKSSAAFPATRKANNDITSITSNGGRVNCMQVWPPIEKKKFETLSYLPDLTDSGGRVNCSEQIDNO:85、MAQVSRICNGVQNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTACSEQIDNO:86、MAQVSRICNGVWNPSLISNLSKSSQRKSPLSVSLKTQQHPRAYPISSSWGLKKSGMTLIGSELRPLKVMSSVSTACSEQIDNO:87、MAQINNMAQGIQTLNPNSNFHKPQVPKSSSFLVFGSKKLKNSANSMLVLKKDSIFMQLFCSFRISASVATACSEQIDNO:88、MAALVTSQLATSGTVLSVTDRFRRPGFQGLRPRNPADAALGMRTVGASAAPKQSRKPHRFDRRCLSMVVSEQIDNO:89、MAALTTSQLATSATGFGIADRSAPSSLLRHGFQGLKPRSPAGGDATSLSVTTSARATPKQQRSVQRGSRRFPSVVVCSEQIDNO:90、MASSVLSSAAVATRSNVAQANMVAPFTGLKSAASFPVSRKQNLDITSIASNGGRVQCSEQIDNO:91、MESLAATSVFAPSRVAVPAARALVRAGTVVPTRRTSSTSGTSGVKCSAAVTPQASPVISRSAAAASEQIDNO:92,和MGAAATSMQSLKFSNRLVPPSRRLSPVPNNVTCNNLPKSAAPVRTVKCCASSWNSTINGAAATTNGASAASSSEQIDNO:93。34.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽是增加或减少转录的蛋白质。35.如权利要求34所述的CasY融合多肽,其中所述异源多肽是转录阻遏物结构域。36.如权利要求34所述CasY融合多肽,其中所述异源多肽是转录激活结构域。37.如权利要求14-21中任一项所述的CasY融合多肽,其中所述异源多肽是蛋白质结合结构域。38.一种核酸分子,其编码如权利要求14-37中任一项所述的CasY融合多肽。39.如权利要求38所述的核酸分子,其中编码所述CasY融合多肽的所述核苷酸序列可操作地连接到启动子。40.如权利要求39所述的核酸分子,其中所述启动子在真核细胞中是功能性的。41.如权利要求40所述的核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。42.如权利要求39-41中任一项所述的核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。43.如权利要求38-42中任一项所述的核酸分子,其中所述DNA分子是重组表达载体。44.如权利要求43所述的核酸分子,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。45.如权利要求39所述的核酸分子,其中所述启动子在原核细胞中是功能性的。46.如权利要求38所述的核酸分子,其中所述核酸分子是mRNA。47.一种或多种核酸分子,其编码:aCasY指导RNA;以及bCasY多肽。48.如权利要求47所述的一种或多种核酸分子,其中所述CasY多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列具有50%或更高的同一性的氨基酸序列。49.如权利要求47所述的一种或多种核酸分子,其中所述CasY多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列具有85%或更高的同一性的氨基酸序列。50.如权利要求47-49中任一项所述的一种或多种核酸分子,其中所述CasY指导RNA包含与SEQIDNO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。51.如权利要求47-50中任一项所述的一种或多种核酸分子,其中所述CasY多肽与NLS序列融合。52.如权利要求47-51中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述CasY指导RNA的核苷酸序列,所述核苷酸序列可操作地连接到启动子。53.如权利要求47-52中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子包含编码所述CasY多肽的核苷酸序列,所述核苷酸序列可操作地连接到启动子。54.如权利要求52或权利要求53所述的一种或多种核酸分子,其中可操作地连接到编码所述CasY指导RNA的所述核苷酸序列的所述启动子和或可操作地连接到编码所述CasY多肽的所述核苷酸序列的所述启动子在真核细胞中是功能性的。55.如权利要求54所述的一种或多种核酸分子,其中所述启动子在以下中的一种或多种中是功能性的:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、苍蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。56.如权利要求53-55中任一项所述的一种或多种核酸分子,其中所述启动子是以下中的一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。57.如权利要求47-56中任一项所述的一种或多种核酸分子,其中所述一种或多种核酸分子是一种或多种重组表达载体。58.如权利要求57所述的一种或多种核酸分子,其中所述一种或多种重组表达载体选自:一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。59.如权利要求53所述的一种或多种核酸分子,其中所述启动子在原核细胞中是功能性的。60.一种真核细胞,其包含以下中的一种或多种:aCasY多肽或编码所述CasY多肽的核酸分子,bCasY融合多肽或编码所述CasY融合多肽的核酸分子,以及cCasY指导RNA或编码所述CasY指导RNA的核酸分子。61.如权利要求60所述的真核细胞,其包含编码所述CasY多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。62.如权利要求60或权利要求61所述的真核细胞,其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、节肢动物细胞、真菌细胞、鸟细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。63.一种细胞,其包含CasY融合多肽或编码所述CasY融合多肽的核酸分子。64.如权利要求63所述的细胞,其中所述细胞是原核细胞。65.如权利要求63或权利要求64所述的细胞,其包含编码所述CasY融合多肽的核酸分子,其中所述核酸分子整合到所述细胞的基因组DNA中。66.一种修饰靶核酸的方法,所述方法包括使所述靶核酸与以下物质接触:aCasY多肽;以及bCasY指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列,其中所述接触导致通过所述CasY多肽对所述靶核酸的修饰。67.如权利要求66所述的方法,其中所述修饰是对所述靶核酸的切割。68.如权利要求66或权利要求67所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。69.如权利要求66-68中任一项所述的方法,其中所述接触在体外在细胞外部发生。70.如权利要求66-68中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。71.如权利要求66-68中任一项所述的方法,其中所述接触在体内在细胞内部发生。72.如权利要求70或权利要求71所述的方法,其中所述细胞是真核细胞。73.如权利要求72所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。74.如权利要求70或权利要求71所述的方法,其中所述细胞是原核细胞。75.如权利要求66-74中任一项所述的方法,其中所述接触导致基因组编辑。76.如权利要求66-75中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:a所述CasY多肽或编码所述CasY多肽的核酸分子,以及b所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。77.如权利要求76所述的方法,其中所述接触还包括:将DNA供体模板引入所述细胞中。78.如权利要求66-77中任一项所述的方法,其中所述CasY指导RNA包含与SEQIDNO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。79.如权利要求66-78中任一项所述的方法,其中所述CasY多肽与NLS序列融合。80.一种调节从靶DNA的转录、修饰靶核酸或修饰与靶核酸相关联的蛋白质的方法,所述方法包括使所述靶核酸与以下物质接触:aCasY融合多肽,其包含与异源多肽融合的CasY多肽;以及bCasY指导RNA,其包含与所述靶核酸的靶序列杂交的指导序列。81.如权利要求80所述的方法,其中所述CasY指导RNA包含与SEQIDNO:11-15中的任一个所示的crRNA序列具有80%或更高的同一性的核苷酸序列。82.如权利要求80或权利要求81所述的方法,其中所述CasY融合多肽包含NLS序列。83.如权利要求80-82中任一项所述的方法,其中所述修饰不是对所述靶核酸的切割。84.如权利要求80-83中任一项所述的方法,其中所述靶核酸选自:双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。85.如权利要求80-84中任一项所述的方法,其中所述接触在体外在细胞外部发生。86.如权利要求80-84中任一项所述的方法,其中所述接触在培养物中在细胞内部发生。87.如权利要求80-84中任一项所述的方法,其中所述接触在体内在细胞内部发生。88.如权利要求86或权利要求87所述的方法,其中所述细胞是真核细胞。89.如权利要求88所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。90.如权利要求86或权利要求87所述的方法,其中所述细胞是原核细胞。91.如权利要求80-90中任一项所述的方法,其中所述接触包括:将以下物质引入细胞中:a所述CasY融合多肽或编码所述CasY融合多肽的核酸分子,以及b所述CasY指导RNA或编码所述CasY指导RNA的核酸分子。92.如权利要求80-91中任一项所述的方法,其中所述CasY多肽是无催化活性的CasY多肽dCasY。93.如权利要求80-92中任一项所述的方法,其中所述CasY多肽在对应于选自以下的位置的位置处包含一个或多个突变:SEQIDNO:1的D672、E769和D935。94.如权利要求80-93中任一项所述的方法,其中所述异源多肽表现出修饰靶DNA的酶活性。95.如权利要求94所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。96.如权利要求95所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。97.如权利要求80-93中任一项所述的方法,其中所述异源多肽表现出修饰与靶核酸相关联的靶多肽的酶活性。98.如权利要求97所述的方法,其中所述异源多肽表现出组蛋白修饰活性。99.如权利要求97或权利要求98所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性例如,来自O-GlcNAc转移酶和脱糖基化活性。100.如权利要求99所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰基转移酶活性和脱乙酰酶活性。101.如权利要求80-93中任一项所述的方法,其中所述异源多肽是增加或减少转录的蛋白质。102.如权利要求101所述的方法,其中所述异源多肽是转录阻遏物结构域。103.如权利要求101所述的方法,其中所述异源多肽是转录激活结构域。104.如权利要求80-93中任一项所述的方法,其中所述异源多肽是蛋白质结合结构域。105.一种转基因的多细胞非人生物体,其基因组包含转基因,所述转基因包含编码以下中的一种或多种的核苷酸序列:aCasY多肽,bCasY融合多肽,以及cCasY指导RNA。106.如权利要求105所述的转基因的多细胞非人生物体,其中所述CasY多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列具有50%或更高的氨基酸序列同一性的氨基酸序列。107.如权利要求105所述的转基因的多细胞非人生物体,其中所述CasY多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列具有85%或更高的氨基酸序列同一性的氨基酸序列。108.如权利要求105-107中任一项所述的转基因的多细胞非人生物体,其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生虫、蠕虫、刺胞动物、脊椎动物、鱼类、爬行动物、两栖动物、有蹄类动物、鸟类、猪、马、绵羊、啮齿动物、小鼠、大鼠或非人灵长类动物。109.一种系统,其包含:aCasY多肽和CasY指导RNA;bCasY多肽、CasY指导RNA和DNA供体模板;cCasY融合多肽和CasY指导RNA;dCasY融合多肽、CasY指导RNA和DNA供体模板;e编码CasY多肽的mRNA和CasY指导RNA;f编码CasY多肽的mRNA、CasY指导RNA和DNA供体模板;g编码CasY融合多肽的mRNA和CasY指导RNA;h编码CasY融合多肽的mRNA、CasY指导RNA和DNA供体模板;i一种或多种重组表达载体,其包含:i编码CasY多肽的核苷酸序列,和ii编码CasY指导RNA的核苷酸序列;j一种或多种重组表达载体,其包含:i编码CasY多肽的核苷酸序列、ii编码CasY指导RNA的核苷酸序列,和iiiDNA供体模板;k一种或多种重组表达载体,其包含:i编码CasY融合多肽的核苷酸序列,和ii编码CasY指导RNA的核苷酸序列;以及l一种或多种重组表达载体,其包含:i编码CasY融合多肽的核苷酸序列、ii编码CasY指导RNA的核苷酸序列,和DNA供体模板。110.如权利要求109所述的CasY系统,其中所述CasY多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列具有50%或更高的氨基酸序列同一性的氨基酸序列。111.如权利要求109所述的CasY系统,其中所述CasY多肽包含与SEQIDNO:1或SEQIDNO:2所示的氨基酸序列具有85%或更高的氨基酸序列同一性的氨基酸序列。112.如权利要求109-111中任一项所述的CasY系统,其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。113.如权利要求109-111中任一项所述的CasY系统,其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。114.一种试剂盒,其包含如权利要求109-113中任一项所述的CasY系统。115.如权利要求114所述的试剂盒,其中所述试剂盒的组分在同一容器中。116.如权利要求114所述的试剂盒,其中所述试剂盒的组分在单独的容器中。117.一种无菌容器,其包含如权利要求109-116中任一项所述的CasY系统。118.如权利要求117所述的无菌容器,其中所述容器是注射器。119.一种可植入装置,其包含如权利要求109-116中任一项所述的CasY系统。120.如权利要求119所述的可植入装置,其中所述CasY系统在基质内。121.如权利要求119所述的可植入装置,其中所述CasY系统在储库中。122.一种鉴定CRISPRRNA指导的内切核酸酶的方法,所述方法包括:在多个宏基因组核苷酸序列中检测编码Cas1多肽的核苷酸序列;检测所述编码Cas1的核苷酸序列附近的CRISPR阵列;将包含所检测的CRISPR阵列的CRISPR基因座从衍生所述多个宏基因组核苷酸序列的核酸样品克隆到表达载体中以生成重组CRISPR基因座表达载体;测定所述重组CRISPR基因座表达载体的切割靶核酸的能力,其中具有切割靶核酸的能力的CRISPR基因座包含编码CRISPRRNA指导的内切核酸酶的核苷酸序列。在所述CRISPR基因座中鉴定编码多肽的开放阅读框,所述多肽与已知的CRISPRRNA指导的内切核酸酶多肽的氨基酸序列具有小于20%的氨基酸序列同一性。123.如权利要求122所述的方法,其中所述测定包括将所述重组CRISPR基因座表达载体和靶核酸引入细胞中。
百度查询: 加利福尼亚大学董事会 RNA指导的核酸修饰酶及其使用方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。