WO2021155607A1

WO2021155607A1 - 经改造的胞嘧啶碱基编辑器及其应用

Info

Publication number: WO2021155607A1
Application number: PCT/CN2020/074561
Authority: WO
Inventors: 杨辉; 左二伟
Original assignee: Huigene Therapeutics Co Ltd
Current assignee: Huigene Therapeutics Co Ltd
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2021-08-12
Anticipated expiration: 2022-08-07

Abstract

一种经改造的胞嘧啶碱基编辑器及其应用。该经改造的胞嘧啶碱基编辑器的靶向编辑效率、保真度得以显著提高。

Description

经改造的胞嘧啶碱基编辑器及其应用

技术领域

本发明属于生物技术领域，更具体地，本发明涉及一种经改造的胞嘧啶碱基编辑器及其应用。

背景技术

碱基编辑已被广泛应用于进行有针对性的碱基编辑，在纠正致病突变方面具有很大的潜力。

CRISPR/Cas和base editors介导的基因编辑方法已经开发出来，并为治疗致病性突变引起的遗传疾病带来了很大的希望。基于CRISPR/Cas基因编辑或者碱基编辑的临床应用需要综合性分析脱靶效应，减少有害突变的风险。尽管本领域中开发了多种方法来检测全基因组的基因编辑细胞的离靶活性，包括高通量全基因组易位测序(HTGTS)，全基因组，双链断裂的无偏差识别(GUIDE-seq)和通过循环测序在体外报告切割效率(CIRCLE-seq)。然而，这些方法都不能有效地检测单核苷酸变异(SNV)。至今本领域还没有一种有效的方法来检测SNV。

并且，CRISPR/Cas在应用时，缺陷在于同源介导修复的低编辑效率。本领域人员利用16aa长的XTEN接头(XTEN linker)将胞苷脱氨酶APOBEC1与dCas9连接在一起，从而构建出第一代碱基编辑器(BE1)。为了增加体内编辑效率，第二代碱基编辑器(BE2)系统除了将胞苷脱氨酶与dCas9连接在一起之外，还将碱基切除修复抑制剂UGI与dCas9融合在一起，从而将编辑效率提高三倍，最高达到20％左右。

为了将碱基编辑效率提高，本领域人员将dCas9换为Cas9n来模拟错配修复，从而构建出第三代碱基编辑器(BE3)。BE3在非互补DNA链上产生切口，细胞使用含尿嘧啶(U)的DNA链作为模板来进行修复，从而复制这种碱基编辑。在人细胞系的多种靶基因中，这种BE3系统使得碱基编辑效率发生显著性地提高，它的平均indel(insertion-deletion)发生率仅为1.1％。对这些测试的靶基因而言，这些数字是对Cas9介导的HDR的巨大改进；平均的HDR介导的编辑频率仅为0.5％，并且相比于之前的单碱基编辑，更多的indel被观察到。在多次细胞分裂中，CRISPR碱基编辑持续存在，说明这种方法产生稳定的碱基编辑。但是，这种BE3系统也会遭受脱靶编辑的影响。

然而，先前的研究已经证明胞嘧啶碱基编辑器(CBE)具有DNA和RNA脱靶效应。减少不必要的DNA和RNA脱靶效应对于科学研究以及治疗应用有重要意义。

发明内容

本发明的目的在于提供一种经改造的胞嘧啶碱基编辑器及其应用。

在本发明的第一方面，提供一种提高胞嘧啶碱基编辑器靶向编辑效率或保真度的方法，包括：在胞嘧啶碱基编辑器中，对其中的胞嘧啶脱氨酶进行改造，所述的胞嘧啶脱氨酶包括APOBEC1或其同源物，所述的改造包括对该胞嘧啶脱氨酶的相应于APOBEC1第90位Trp(W)和第126位Arg(R)的氨基酸进行突变，且将该胞嘧啶碱基编辑器与核定位序列连接。

在一个优选例中，所述的胞嘧啶碱基编辑器为BE3基因编辑器系统。

在另一优选例中，所述APOBEC1同源物包括选自下组的酶：AID，APOBEC3G，APOBECA3A，CDA1。

在另一优选例中，所述的突变为对所述胞嘧啶脱氨酶的相应于APOBEC1第90位Trp突变为Tyr(Y)；和/或，将第126位Arg突变为Glu(E)。

在另一优选例中，该胞嘧啶碱基编辑器的N端和/或C端连接核定位序列。较佳地在胞嘧啶碱基编辑器中UGI的C端或在胞嘧啶脱氨酶的N端。

在本发明的另一方面，提供一种经改造的胞嘧啶脱氨酶，所述胞嘧啶脱氨酶包括APOBEC1或其同源物，该胞嘧啶脱氨酶中相应于APOBEC1第90位Trp(W)和第126位Arg(R)的氨基酸存在突变。

在另一优选例中，所述的突变为所述胞嘧啶脱氨酶的相应于APOBEC1第90位Trp突变为Tyr(Y)；和/或，第126位Arg突变为Glu(E)。

在本发明的另一方面，提供一种胞嘧啶碱基编辑器，其包含所述的经改造的胞嘧啶脱氨酶。

在另一优选例中，该胞嘧啶碱基编辑器还与核定位序列连接；较佳地，N端和/或C端与核定位序列连接。

在另一优选例中，所述的胞嘧啶碱基编辑器与核定位序列之间，还包括连接序列，如标签序列(更具体如Flag标签)。

在本发明的另一发明，提供分离的多核苷酸，其编码所述的经改造的胞嘧啶脱氨酶或所述的胞嘧啶碱基编辑器。

在另一优选例中，所述胞嘧啶碱基编辑器具有SEQ ID NO:2所示的核苷酸序列。

在本发明的另方面，提供一种重组表达载体，其包含所述的多核苷酸。

在本发明的另方面，提供一种遗传工程化的宿主细胞，它含有所述的载体，或基因组中整合有所述的多核苷酸。

在另一优选例中，所述的编辑器为BE3碱基编辑器。

在发明的另一方面，提供所述的胞嘧啶碱基编辑器的用途，用于进行基因编辑，降低脱靶效应、提高靶向编辑效率或提高靶向编辑的保真度。

在发明的另一方面，提供一种进行基因编辑的方法，包括以所述的胞嘧啶碱基编辑器介导基因编辑。

在另一优选例中，将编码所述的胞嘧啶碱基编辑器的核酸序列以及sgRNA共同注射受体，从而进行基因编辑。

在另一优选例中，所述的受体包括：体细胞或生殖细胞。

在另一优选例中，所述的生殖细胞包括胚胎细胞或受精卵。

在发明的另一方面，提供一种用于进行基因编辑的试剂或试剂盒，其中包括所述的经改造的胞嘧啶脱氨酶；或其中包括所述的胞嘧啶碱基编辑器。

本发明的其它方面由于本文的公开内容，对本领域的技术人员而言是显而易见的。

附图说明

图1、胞嘧啶碱基编辑器(CBE)变体的靶向编辑效率。a.各种rAPOBEC1变体中预测的rAPOBEC1结构。突变的残基被突出显示并标记在结构上。b.hAPOBEC3G和rAPOBEC1之间的序列比对。氨基酸，相同的残基；+，常见的取代基。绿色三角形表示APOBEC3G疏水活性区的残基，黄色星形表示ssDNA结合区的残基。c.APOBEC3G的晶体结构。d.不同CBE变体的靶向编辑效率和indel频率。每组有n＝3个生物重复。绿色和黄色分别表示螺旋结构和环结构中的残基。紫色三角形表示随后对其进行脱靶检测的变体。

图2、CBEs变体的DNA和RNA脱靶活性。a.检测到的脱靶SNVs总数的比较。Cre组n＝2，BE3组n＝6，BE3 ^R126E组n＝10，BE3 ^R132E组n＝3，YE1-BE3组n＝8，FE1-BE3组n＝3。与Cre组对比，通过进行双尾学生t检验计算获得图上的P值。b.Cre、BE3和4个CBE变体处理组的突变类型分布。c.转染后36小时检测到的RNA脱靶SNVs总数的比较。每组3个重复。与GFP组相比，采用双尾学生t检验计算各栏以上P值。d.GFP、BE3和4个CBE变体处理组突变类型的分布。

图3、BE3-FNLS或BE3-hA3A变体的活性。a.BE3-FNLS或BE3-hA3A在各个靶点的靶向效率。靶位点相关序列和引物的序列见表6。b.检测到的脱靶SNVs总数的比较。Cre组n＝2，BE3组n＝6，YE1-BE3组n＝5，BE3-hA3A ^Y130F组n＝3，YE1-BE3-FNLS组n＝3。与Cre组比较计算各组P值。c.转染后36 h检测到的RNA脱靶SNVs总数的比较。每组3个重复。与GFP组比较计算各组P值。d.窗口内编辑效率和窗口外编辑效率的比较。编辑窗口，5-7位碱基。e.各突变体在每个位点的indels分布。P值采用双尾学生t检验。

图4、BE3和BE3变体在不同靶位点的靶向编辑。a.不同版本CBE变体在额外11个靶位点的靶向编辑效率和indels频率。b.CBE变体的靶向效率比较。c.CBE变体间的indel频率比较。d.每个靶点工程化BE3变体的靶上效率。e.CBE变体在靶位点每个C处编辑效率的比较。f.CBE变体的窗口内编辑效率和窗口外编辑效率比较。编辑窗口：5-7 位碱基。每组n＝3个生物学重复。P值采用双侧t检验。靶位点序列及引物的序列见表6。

图5、BE3和BE3变体的胚胎发育率。a用sgRNA-D检测BE3和BE3变体的囊胚率。b用其它sgRNAs检测BE3-hA3A和BE3-FNLS的囊胚率。每组n＝3个生物学重复。

图6、CBE变体靶向编辑效率及非靶向SNVs的编辑效率。a.WGS数据中BE3和CBE变异的靶向编辑效率。b.CBE变异体处理组与Cre或BE3组之间C-to-T和G-to-A转换的比较。P值采用双侧t检验。*P<0.05,**P<0.01,***P<0.001.

图7、通过WGS数据在每个胚胎中检测到的SNVs的维恩图。a.在经BE3 ^R126E处理的胚胎中鉴定出的SNVs。b.在经BE3 ^R132E处理的胚胎中鉴定出的SNVs。c.在经YE1-BE3处理的胚胎中鉴定出的SNVs。d.在FE1-BE3处理的胚胎中鉴定出的SNVs。

图8、CBE变体的非目标SNVs特性。本发明人的分析检测到的SNVs与Cas-OFFinder和CRISPOR预测的目标外位点之间的重叠。

图9、转染36小时后BE3变体RNA脱靶效率。

图10、转染72小时后CBE变体的RNA脱靶效率检测。a.转染72小时后检测到的RNA非靶向SNVs总数的比较。GFP组n＝6，BE3组n＝9，BE3 ^R126E组n＝7，YE1-BE3组n＝2。通过与GFP组学生t检验比较，计算各组P值。b.GFP、BE3和BE3变体处理组的突变类型分布。c.转染72小时后BE3变体RNA的脱靶效率。

图11、BE3-FNLS的靶向编辑效率和脱靶。a.CBE变体靶向效率的比较。b.CBE变体在靶位点的每个C处编辑效率的比较。c.BE3-hA3A ^Y130F和YE1-BE3-FNLS处理的胚胎中发现的SNVs。d.从本发明人的分析中检测到的SNVs与Cas-OFFinder和CRISPOR预测的脱靶位点之间的重叠。e.BE3-hA3AY130F和YE1-BE3-FNLS处理胚胎的DNA非靶向SNVs突变类型分布。f.BE3-hA3AY130F和YE1-BE3-FNLS处理胚胎的RNA非靶向SNVs突变类型分布。g.APOBEC1在BE3和BE3-FNLS中的表达水平。h.转染36小时后BE3和BE3-FNLS的RNA的脱靶辑率。每组n＝3个生物学重复。P值采用双侧t检验。

图12、BE3和BE3变异体在指示的脱靶位点的活性。a.BE3变体的sgRNA依赖性脱靶效应。b.BE3变体在指定的脱靶位点的编辑频率。P值采用双侧t检验，与YE1-BE3-FNLS组比较。与YE1-BE3-FNLS组相比，红星表示编辑频率增加，绿星表示编辑频率降低。*P<0.05，**P<0.01，**P<0.001。用脂质体3000将表达BE3、BE3 ^R126E、BE3 ^R132E、YE1-BE3、FE1-BE3、BE3-hA3A、BE3-hA3A ^Y130F、BE3-FNLS、YE1-BE3-FNLS和sgRNAs的质粒转染HEK293T细胞。转染后3天，提取基因组DNA，通过PCR扩增，并通过高通量DNA测序分析在靶位点的编辑效率，以及这些sgRNAs的前十个预测的脱靶位点。靶位点序列和引物的序列见表4。每个单元格表示通过C到T编辑的读数占总读数的百分比。每组n＝3个生物学重复。

图13、YE1-BE3-FNLS质粒示意图。

具体实施方式

本发明中，本发明人通过二细胞胚胎注射全基因组脱靶分析(Genome-wide Off-target analysis by Two-cell embryo Injection,GOTI)以及RNA-Seq测序来分析多个CBE变异体的DNA和RNA的脱靶效应，经过深入分析，改造了胞嘧啶碱基编辑器，该胞嘧啶碱基编辑器的靶向编辑效率、保真度得以显著性提高。

所述的胞嘧啶碱基编辑器中，包括胞嘧啶脱氨酶。所述胞嘧啶脱氨酶包括APOBEC1或其同源物。所述APOBEC1同源物包括与APOBEC1发挥相同或接近功能的酶，或与APOBEC1具有基本上相同或基本上接近的结构域的酶，或与APOBEC1来自不同的物种但在各自物种中发挥同样作用的酶。例如，所述的APOBEC1同源物包括但不限于选自下组的酶：AID，APOBEC3G，APOBECA3A，CDA1。

本发明首先提供了一种经改造的胞嘧啶脱氨酶，该胞嘧啶脱氨酶中相应于APOBEC1第90位Trp(W)和第126位Arg(R)的氨基酸存在突变，且该胞嘧啶脱氨酶与核定位序列连接。较佳地，所述的突变为所述胞嘧啶脱氨酶的相应于APOBEC1第90位Trp突变为Tyr(Y)；和/或，第126位Arg突变为Glu(E)。

在本发明的优选方式中，在所述的胞嘧啶脱氨酶与核定位序列之间，还通过连接序列连接，所述的连接序列可以是任何不影响两者的功能的连接序列，例如可以是标签序列或一些本领域已知的柔性连接序列。合适的标签可以被用于本发明中。例如，所述的标签可以是FLAG，HA，HA1，c-Myc，Poly-His，Poly-Arg，Strep-TagII，AU1，EE，T7，4A6，ε，B，gE或Ty1。

本发明的经改造的胞嘧啶脱氨酶(经改造的酶)可以是重组蛋白、天然蛋白、合成蛋白，优选重组蛋白。本发明的蛋白可以是天然纯化的产物，或是化学合成的产物，或使用重组技术从原核或真核宿主(例如，细菌、酵母、高等植物、昆虫和哺乳动物细胞)中产生。

本发明还包括所述经改造的酶的片段、衍生物和类似物。如本文所用，术语“片段”、“衍生物”和“类似物”是指基本上保持本发明的经改造的酶相同的生物学功能或活性的蛋白。本发明的蛋白片段、衍生物或类似物可以是(i)有一个或多个保守或非保守性氨基酸残基(优选保守性氨基酸残基)被取代的蛋白，而这样的取代的氨基酸残基可以是也可以不是由遗传密码编码的，或(ii)在一个或多个氨基酸残基中具有取代基团的蛋白，或(iii)附加的氨基酸序列融合到此蛋白序列而形成的蛋白(如前导序列或分泌序列或用来纯化此蛋白的序列或蛋白原序列，或融合蛋白)。根据本文的定义这些片段、衍生物和类似物属于本领域熟练技术人员公知的范围。然而，所述的经改造的酶及其片段、衍生物和类似物的氨基酸序列中，肯定存在本发明上面所述的保守突变，也即相应于APOBEC1第90位Trp(W)和第126位Arg(R)的氨基酸存在所述突变，且也连接有所述的核定位序列。

在本发明中，术语“经改造的酶”还包括(但并不限于)：若干个(通常为1-20个，更佳地1-10个，还更佳如1-8个、1-5个、1-3个、或1-2个)氨基酸的缺失、插入和/或取代，以及在C末端和/或N末端添加或缺失一个或数个(通常为20个以内，较佳地为10个以内，更佳地为5个以内)氨基酸。例如，在本领域中，用性能相近或相似的氨基酸进行取代时，通常不会改变蛋白质的功能。又比如，在C末端和/或N末端添加一个或数个氨基酸通常也不会改变蛋白质的功能。该术语还包括经改造的酶的活性片段和活性衍生物。但是在这些变异形式中，肯定存在本发明上面所述的保守突变，也即相应于APOBEC1第90位Trp(W)和第126位Arg(R)的氨基酸存在所述突变，且也连接有所述的核定位序列。

在本发明中，术语“经改造的酶”还包括(但并不限于)：与所述的经改造的酶的氨基酸序列具有80％以上，较佳地85％以上，更佳地90％以上，进一步更佳地95％以上，如98％以上、99％以上序列相同性的保留其蛋白活性的衍生的蛋白。同样地，这些衍生的蛋白中，肯定存在本发明上面所述的保守突变，也即相应于APOBEC1第90位Trp(W)和第126位Arg(R)的氨基酸存在所述突变，且也连接有所述的核定位序列。

本发明还提供了编码本发明经改造的酶或其保守性变异蛋白的多核苷酸序列。

本发明的多核苷酸可以是DNA形式或RNA形式。DNA形式包括cDNA、基因组DNA或人工合成的DNA。DNA可以是单链的或是双链的。DNA可以是编码链或非编码链。

编码所述突变体的成熟蛋白的多核苷酸包括：只编码成熟蛋白的编码序列；成熟蛋白的编码序列和各种附加编码序列；成熟蛋白的编码序列(和任选的附加编码序列)以及非编码序列。

“编码蛋白的多核苷酸”可以是包括编码此蛋白的多核苷酸，也可以是还包括附加编码和/或非编码序列的多核苷酸。

本发明的经改造的酶核苷酸全长序列或其片段通常可以用PCR扩增法、重组法或人工合成的方法获得。对于PCR扩增法，可根据本发明所公开的有关核苷酸序列，尤其是开放阅读框序列来设计引物，并用市售的cDNA库或按本领域技术人员已知的常规方法所制备的cDNA库作为模板，扩增而得有关序列。当序列较长时，常常需要进行两次或多次PCR扩增，然后再将各次扩增出的片段按正确次序拼接在一起。

一旦获得了有关的序列，就可以用重组法来大批量地获得有关序列。这通常是将其克隆入载体，再转入细胞，然后通过常规方法从增殖后的宿主细胞中分离得到有关序列。

此外，还可用人工合成的方法来合成有关序列，尤其是片段长度较短时。通常，通过先合成多个小片段，然后再进行连接可获得序列很长的片段。目前，已经可以完全通过化学合成来得到编码本发明蛋白(或其片段，或其衍生物)的DNA序列。然后可将该DNA序列引入本领域中已知的各种现有的DNA分子(或如载体)和细胞中。此外，还可通过化学合成将突变引入本发明蛋白序列中。

本发明也涉及包含本发明的多核苷酸的载体，以及用本发明的载体或经改造的酶编码序列经基因工程产生的宿主细胞，以及经重组技术产生本发明所述蛋白的方法。

通过常规的重组DNA技术，可利用本发明的多聚核苷酸序列来表达或生产重组的经改造的酶。一般来说有以下步骤：(1).用本发明的编码经改造的酶的多核苷酸，或用含有该多核苷酸的重组表达载体转化或转导合适的宿主细胞；(2).在合适的培养基中培养的宿主细胞；(3).从培养基或细胞中分离、纯化蛋白质。

本发明中，还提供了含有所述经改造的酶或其多核苷酸序列的胞嘧啶碱基编辑器。在本发明的优选方式中，所述的胞嘧啶碱基编辑器为BE3碱基编辑器。所述的胞嘧啶碱基编辑器的其它组成元件是本领域技术人员已知的。

本发明中，所述经改造的酶多核苷酸序列或所述胞嘧啶碱基编辑器多核苷酸序列可插入到重组表达载体中。术语“重组表达载体”指本领域熟知的细菌质粒、噬菌体、酵母质粒、植物细胞病毒、哺乳动物细胞病毒或其他载体。总之，只要能在宿主体内复制和稳定，任何质粒和载体都可以用。表达载体的一个重要特征是通常含有复制起点、启动子、标记基因和翻译控制元件。

本领域的技术人员熟知的方法能用于构建含有所述经改造的酶多核苷酸序列或所述胞嘧啶碱基编辑器多核苷酸序列和合适的转录/翻译控制信号的表达载体。这些方法包括体外重组DNA技术、DNA合成技术、体内重组技术等。所述的DNA序列可有效连接到表达载体中的适当启动子上，以指导mRNA合成。表达载体还包括翻译起始用的核糖体结合位点和转录终止子。表达载体优选地包含一个或多个选择性标记基因，以提供用于选择转化的宿主细胞的表型性状。

包含上述的适当DNA序列以及适当启动子或者控制序列的载体，可以用于转化适当的宿主细胞后受体细胞。

本发明还提供了一种进行基因编辑的方法，包括以本发明所述的胞嘧啶碱基编辑器介导基因编辑。除了采用本发明所述的胞嘧啶碱基编辑器进行基因编辑以外，其它方面的基因编辑试剂可以运用本领域已知的，例如sgRNA可以采用本领域已知的方式进行设计。

本发明中中，适用的基因编辑的对象没有特别的限制，可以是体细胞或生殖细胞，可以是动物细胞或人细胞。

尽管胞嘧啶碱基编辑器(CBE)作为强大的基因编辑器有着广阔的前景，但DNA和RNA的脱靶效应限制了其在科学和医学上的应用。在本发明的具体实施方式中，本发明人详细筛选了20多个合理设计的CBE突变体，并使用GOTI和RNA-Seq分别分析了DNA和RNA的脱靶效应。预测的DNA结合位点的残基突变显著降低了脱靶效应，在某些情况下降低到与未经编辑的对照组相当的水平。本发明获得的CBE变体YE1-BE3-FNLS，该突变体在保持极高的靶向编辑效率的同时，具有非常低的脱靶效率和bystander编辑。本发明中，本发明人不仅鉴定了能够特异性影响RNA以及DNA脱靶活性以及缩小碱基编辑窗口的多个残基，还引入了一种高保真同时高编辑效率的CBE变体，从而扩展了这些强大工具在实验室和临床上的应用。

本发明的具体实施方式中，本发明人根据先前多个研究的发现筛选了几十个rAPOBEC1突变，结果发现BE3 ^R132E、YE1-BE3和FE1-BE3变异显著降低了DNA和RNA的脱靶效应，同时保持了它们的靶向编辑活性。有趣的是，本发明人观察到DNA/RNA脱靶效应降低的变体(BE3 ^R132E、YE1-BE3、FE1-BE3和YE1-BE3-FNLS)也都有缩小的碱基编辑窗口。Rees等人报道称，位于活性窗口外但位于ssDNA R-环区域内的碱基仍然可以被编辑，尽管效率较低，特别是如果它们位于rAPOBEC1的有利编辑基序中。这些可能有助于解释这些结果。

考虑到rAPOBEC1和hAPOBEC3A都被认为只有一个催化域，本发明人在预测DNA结合基序中引入的突变可能产生的影响。然而，鉴于已知的BEs编辑DNA和RNA的能力，rAPOBEC1可能采用不同的结合模式来适应ssDNA和RNA。这突出了碱基编辑研究人员评估碱基编辑对DNA和RNA脱靶效应的必要性。本发明人推测，这种结合模式的异质性可能有助于解释本发明人所发现的有些CBE变体既保留了较高的DNA脱靶效应，同时又显著降低RNA脱靶效应(反之亦然)的现象。

特别地，本发明人推测R132E影响rAPOBEC1与DNA和RNA的相互作用，而R126E主要影响其DNA结合能力，Y130F主要影响其RNA结合能力。考虑到YE1-BE3-FNLS变异同时含有R126E突变和位于rAPOBEC1疏水区的W90残基处的酪氨酸替代，该残基被认为参与了rAPOBEC1与ssDNA/RNA的结合，本发明人初步推测W90Y突变有助于解释YE1-BE3-FNLS的高保真度可能源于rAPOBEC1-RNA相互作用的改变这一现象。

值得注意的是，本发明人筛选的较理想的变体YE1-BE3-FNLS同时具有最高的靶向编辑效率和最低水平的indels和bystander编辑。先前的一项研究表明，编辑窗口中的多个Cs可能会增加编辑期间发生indels的概率。与BE3-FNLS相比，YE1-BE3-FNLS显著缩小了基本编辑窗口，从而减少了多个Cs的分布，这可能可以解释indel频率显著降低的现象。总之，本发明人的工作举例说明了如何通过生物-洞察力驱动的工程，将胞嘧啶基编辑的脱靶效应减至最小，从而将这些强大的基因编辑工具用于研究和治疗应用。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件如J.萨姆布鲁克等编著，分子克隆实验指南，第三版，科学出版社，2002中所述的条件，或按照制造厂商所建议的条件。

材料与方法

GOTI方法

将Cas9/BE3等基因编辑工具的mRNA和sgRNA的混合物注射到2细胞阶段胚胎的一个卵裂球中，该胚胎来自于野生型雌性小鼠X Ai9雄性小鼠。Cre的作用产生嵌合胚胎，其中注射的细胞被tdTomato(红色)标记，tdTomato阳性表示发生了编辑，tdTomato阴性表示未编辑。通过FACS在E14.5从嵌合胚胎中分离tdTomato阳性细胞和tdTomato阴性细胞，并分别用于WGS分析。通过使用三种算法(用于SNV分析的Mutect2，Lofreq和Strelka，以及用于indel分析的Mutect2，Scalpel和Strelka)比较tdTomato+细胞和tdTomato-细胞来鉴定脱靶SNV和indel。

动物护理

杂合子Ai9(全名B6.Cg-Gt(ROSA)26Sortm9(CAG-td-Tomato)Hze/J；JAX株007909)雄性小鼠和雌性C57BL/6小鼠(4周龄)交配进行胚胎采集。ICR雌性被用作受体。动物的使用和护理遵循中国科学院上海生物研究所生物医学研究伦理委员会的指导方针。

突变体构建

野生型APOBEC1蛋白序列如SEQ ID NO:1所示：

(1)胞嘧啶碱基编辑器3(BE3，rAPOBEC1-nCas9-UGI)，包括Apobec1以及Sp nCas9酶、UGI酶，其中Apobec1与Sp nCas9酶之间、Sp nCas9酶与UGI酶之间，分别通过16AA(序列为SGSETPGTSESATPES)和4AA(序列为SGGS)两段肽进行连接，其中rAPOBEC1为重组APOBEC1。

BE3 ^R126E：上段(1)的BE3，其中rAPOBEC1序列第126位由R突变为E。

BE3 ^R128E：(1)的BE3，其中rAPOBEC1序列第128位由R突变为E。

BE3 ^R132E：(1)的BE3，其中rAPOBEC1序列第132位由R突变为E。

YE1-BE3：(1)的BE3，其中rAPOBEC1序列第90位W突变为Y(W90Y)，第第126位由R突变为E(R126E)。

FE1-BE3：(1)的BE3，其中rAPOBEC1序列第90位W突变为F(W90F)，第126位由R突变为E(R126E)。

BE3-hA3A：使用人的APOBECA3A(human APOBECA3A)取代BE3上的apobec1，构建的新的BE3编辑工具

BE3-hA3A ^Y130F：在human APOBECA3A中突变Y130为F。

BE3-FNLS：(1)的BE3，其中rAPOBEC1序列的N端连接Flag标签和NLS核定位序列(序列为：PKKKRKV)，碱基编辑器的C端也存在一个NLS。

YE1-BE3-FNLS：对于BE3-FNLS，其中rAPOBEC1序列第90位W突变为Y(W90Y)，第126位由R突变为E(R126E)。其示意图如图13。

突变后的YE1-BE3序列为(SEQ ID NO:223)：

所述突变体的插入到pCMV-BE3质粒中，获得CBE突变体质粒。

突变碱基编辑器mRNA和sgRNA的获得)

在碱基编辑器编码区加入T7启动子，用引物F和R(表2中base editor IVT F和base editor IVT R等)对质粒(YE1-BE3,BE3-FNLS,YE1-BE3-FNLS,hA3A-BE3)进行PCR扩增，纯化T7碱基编辑器PCR产物作为转录模板，用mMESSAGE-mMACHINE T7-ULTRA-kit(Life Technologies)试剂盒体外转录(In Vitro Transcription，IVT)。通过px330的PCR扩增，在sgRNA模板中加入T7启动子。用MEGA-shortscript T7试剂盒(Life Technologies)纯化T7-sgRNA-PCR产物作为IVT的模板。通过PCR扩增，在Cre体外转录模板中加入T7启动子。纯化T7 Cre-PCR产物作为体外转录模板，用mMESSAGE mMACHINE T7 ULTRA kit(Life Technologies)体外转录。用MEGA-clear试剂盒(Life Technologies)纯化Cas9 mRNA、Cre mRNA和sgRNAs，并用无RNase的水洗脱。

表1、sgRNA序列

表2、引物

其中，IVT为体外转录，Tyr-C，靶向Tyr基因代码为C的sgRNA，Tyr-D，靶向Tyr基因代码为D的sgRNA，Tyr-F，靶向Tyr基因代码为F的sgRNA。

获得上述mRNA和sgRNA后，基因编辑步骤为：将mRNA和sgRNA混合后，使用显微注射仪，注射到小鼠2-cell阶段胚胎的一个卵裂球中。

囊胚率计算

超排卵雌性C57BL/6小鼠(4周龄)与雄性C57BL/6小鼠交配，注射hCG后24小时采集输卵管受精胚胎。在含有5μg/ml细胞松弛素B(CB)的M2培养基中，用FemtoJet微型注射器(Eppendorf)在恒定流量条件下将Cas9 mRNA和sgRNA混合注入受精卵胞浆。注入的胚胎在37℃、5％CO ₂的空气中在KSOM中培养至囊胚期。

2-细胞胚胎注射、胚胎培养和胚胎移植

将超排卵C57BL/6雌性小鼠(4周龄)与杂合子Ai9小鼠(全称B6.Cg-Gt(ROSA)26Sortm9(CAG-td-Tomato)Hze/J；JAX株007909)雄性交配，在注射hCG后23小时采集输卵管受精胚胎。对于2细胞编辑，将BE3 mRNA(50 ng/μl)或BE3变体mRNA(50 ng/μl)的混合物，sgRNA(50ng/μl)和Cre mRNA(2ng/μl)分别注入hCG注射后48h的2-细胞胚卵裂球细胞浆中，在含有5μg/ml细胞松弛素B(CB)的M2培养液中，用FemtoJet微注射器(Eppendorf)在恒定流量下进行注射。注入的胚胎在含氨基酸的KSOM培养基中于37℃、5％CO2的培养箱中培养2小时，然后在0.5dpc的条件下移植到ICR假孕雌鼠的输卵管中。

克隆

用NEBuilder-HiFi-DNA组装主混合物(新英格兰生物实验室)对BE3进行定点突变。简单地说，本发明人用一个含有期望点突变的引物通过PCR扩增合适的载体质粒。 pCMV-BE3 variants-polyA-pCMV-mCherry-polyA是通过NEBuilder-HiFi的DNA组装，将PCR扩增的pCMV-mCherry polyA与经消化的pCMV-BE3变异体主干结合产生的。将PCR扩增的U6-sgRNA与经消化的pCMV-EGFP-polyA骨架结合，经NEBuilder-HiFi-DNA组装得到pCMV-EGFP-polyA-U6-sgRNA。

细胞培养、转染与FACS

HEK293T细胞在含10％胎牛血清(FBS)的DMEM和含5％CO2的37℃湿化培养箱中培养。pCMV-BE3(WT/BE3变体)-polyA-pCMV-mCherry polyA和pCMV-EGFP-polyA-U6-sgRNA表达质粒使用脂质体3000(ThermoFisher Scientific)按照说明书共转染。转染后36或72小时，用磷酸盐缓冲液(PBS)清洗细胞，用0.05％胰蛋白酶EDTA进行胰蛋白酶化。细胞悬液经40μm细胞过滤器过滤，流式细胞仪分离EGFP/mCherry阳性细胞。

RNA测序

收集约500000个细胞(前5％EGFP/mCheery信号)，根据标准方案提取RNA。为了构建文库，用随机六聚体或寡核苷酸(dT)引物将mRNAs片段化并转化为cDNA。将cDNA的5′端和3′端分别与接头连接，并用PCR方法对连接正确的cDNA片段进行富集和扩增。用生物分析仪测定文库的浓度。在Illumina HiSeq平台上进行测序。

DNA扩增子的深度测序

72小时后取转染细胞，流式细胞仪(FACS)对EGFP+/mCherry+细胞进行分选。根据说明书使用天根基因DNA提取试剂盒(TIANGEN)提取基因组DNA。利用靶序列两侧的基因特异性引物(表3和4)通过PCR扩增目的基因组位点。ExTaq(TAKARA)在95℃下激活3分钟，然后进行34个周期的PCR(在95℃下持续30秒，62℃持续30秒，72℃持续1分钟)，最后在72℃下延长5分钟。使用通用DNA纯化试剂盒(TIANGEN)按照说明纯化DNA扩增子。将扩增子连接到接头，并在Illumina HiSeq-Xten平台上进行测序。

表3、用于对靶位点进行深度测序的引物

On-target site	On-target sequence(SEQ ID NO：)	Forward primer(SEQ ID NO：)	Reverse primer(SEQ ID NO：)
EMX1 site 1	tgcccctccctccctggcccagg(14)	ccagcttctgccgtttgtact(48)	aactcgtagagtcccatgtctg(82)
DNMT3B site 2	agagccccccctcaaagagaggg(15)	gatggctgtttgtcttgtggc(49)	tataaaccctgtgtgctgctt(83)
EMX1 site 2	gagtccgagcagaagaagaaggg(16)	gttccagaaccggaggacaa(50)	attgcttgtccctctgtca(84)
FANCF site 1	ggaatcccttctgcagcacctgg(17)	tcccaggtgctgacgtaggta(51)	atcatctcgcacgtggttc(85)
HEK293 site 1	gaacacaaagcatagactgcggg(18)	gctaactgtgacagcatgtgg(52)	caccaacttacacacagtga(86)
HEK293 site 2	ggcccagactgagcacgtgatgg(19)	ttctgcttctccagccctggc(53)	ttcatgcaggtgctgaaagcca(87)
HEK293 site 3	ggcactgcggctggaggtggggg(20)	cagagggtccaaagcaggat(54)	tcaacccgaacggagacac(88)
RNF2 site 1	gtcatcttagtcattacctgagg(21)	cggaactcaaccattaagca(55)	gttgccttcaaacctgctc(89)
EMX1 site 3	gtattcacctgaaagtgtgcagg(22)	cttgactgatatctccaggc(56)	taggggaagttggaggaggga(90)c

PPP1R12C site 1	ggcactcgggggcgagaggaggg(23)	gctcaaagtggtccggactc(57)	ttaccatccctccctcgact(91)
PDCD1 site 1	gcgtgacttccacatgagcgtgg(24)	acaccaaccaccagggttt(58)	cctcacgtagaaggaagag(92)
PPP1R12C site 2	gactcacccaggagtgcgttagg(25)	tcagtctccctttccttcc(59)	ggctacctagatatcgcca(93)
PPP1R12C site 3	gagctcactgaacgctggcatgg(26)	ccttcattcctgcccttct(60)	agcgacctgctatttccct(94)
EMX1 site 4	gttagacccatgggagcagctgg(27)	tgatctctcctctagaaactcg(61)	gcccgtgtcattaagagagag(95)
EMX1 site 5	agagcctgatgggaagactgagg(28)	tgatctctcctctagaaactcg(62)	gcccgtgtcattaagagagag(96)
EMX1 site 6	gtagcctcagtcttcccatcagg(29)	tgatctctcctctagaaactcg(63)	gcccgtgtcattaagagagag(97)
DNMT3B site 3	aagtcctcctactactgccctgg(30)	tgacatcatcctactggggca(64)	aaagagccgttccctataca(98)
DNMT3B site 4	agtctccacacaggtgctgttgg(31)	tgacatcatcctactggggca(65)	aaagagccgttccctataca(99)
DNMT3B site 5	tgtcccccatcctgccccagagg(32)	tgacatcatcctactggggca(66)	aaagagccgttccctataca(100)
EMX1 site 7	tcacctgggccagggagggaggg(33)	tgacatcatcctactggggca(67)	aaagagccgttccctataca(101)
FANCF site 2	gggaccccgccaccgtgcgccgg(34)	tgggttctctctatagcca(68)	ctcacgtcacagtatgtct(102)
FANCF site 3	cgccgtctccaaggtgaaagcgg(35)	tgggttctctctatagcca(69)	ctcacgtcacagtatgtct(103)
FANCF site 4	acgcctctctgcaatgctattgg(36)	tgggttctctctatagcca(70)	ctcacgtcacagtatgtct(104)
HEK293 site 4	gacgccctctggaggaagcaggg(37)	aattgatgaatcagtgctgg(71)	tttctcttgggcaatatggggt(105)
HEK293 site 5	cagctcctgcaccgggatactgg(38)	aattgatgaatcagtgctgg(72)	tttctcttgggcaatatggggt(106)
PPP1R12C site 4	ctgacctgcattctctcccctgg(39)	gtgatgatgcaggcctaca(73)	caccccacttccgaattgg(107)
PPP1R12C site 5	aggcccaggggagagaatgcagg(40)	gtgatgatgcaggcctaca(74)	caccccacttccgaattgg(108)
PPP1R12C site 6	gaagccagtagagctcaaagtgg(41)	gtgatgatgcaggcctaca(75)	caccccacttccgaattgg(109)
PPP1R12C site 7	tgccgtctctctcctgagtccgg(42)	gtgatgatgcaggcctaca(76)	caccccacttccgaattgg(110)
CTNNB1 site 1	gctccttctctgagtggtaaagg(43)	accattcttccactgattcag(77)t	ctcatctaatgtctcagggaa(111)
FANCF site 5	aagttcgctaatcccggaactgg(44)	atttcgcggatgttccaatcag(78)	gggcgcgacaaaaggcagcaaa(112)
SRPK3 site 1	cgtcgccgatcttcacagggtgg(45)	ttctgggctccgacgacgaggaa(79)	atctcatccacagctgtctccg(113)
FANCF site 6	gtaacgagctgcatccccgaggg(46)	atttcgcggatgttccaatcag80	gggcgcgacaaaaggcagcaaa(114)
PPP1R12C site 8	ggggctcaacatcggaagagggg(47)	tttgccaccctatgctgacac(81)	cagaaggagaaggaaaagggaa(115)

表4、用于脱靶效应深度测序的引物

Site	On-target sequence(SEQ ID NO：)	Primer 1(SEQ ID NO：)	Primer 2(SEQ ID NO：)
EMX1 site 2-On-target	GAGTCCGAGCAGAAGAAGAAGGG(116)
EMX1 site 2-Off-target-1	GAGTTAGAGCAGAAGAAGAAAGG(117)	TTTCTGAGGGCTGCTACCTG(155)	GCCCCTCTAATACAATGGG(189)
EMX1 site 2-Off-target-2	GAGTCTAAGCAGAAGAAGAAGAG(118)	CTCAATGTGCTTCAACCCATC(156)	ACAGAGCGAGACTCCGTCT(190)
EMX1 site 2-Off-target-3	GAGTCCTAGCAGGAGAAGAAGAG(119)	CAGACTCAGTAAAGCCTGGA(157)	TAGGCTGGAGTGCAGTGGTG(191)
EMX1 site 2-Off-target-4	GAGTCCGGGAAGGAGAAGAAAGG(120)	TCTGCCTCTGACGACGAGCAA(158)	GAGAAAGGCAAACAGGAGG(192)
EMX1 site 2-Off-target-5	AAGTCCGAGGAGAGGAAGAAAGG(121)	TTCATGGAGGGGCACAGAAG(159)	GCCCTTCCAAACTAGAAGTT(193)
EMX1 site 2-Off-target-6	GAATCCAAGCAGGAGAAGAAGGA(122)	GAAACCGAATTATGGATGGG(160)	CTCTTAGAAATGGCATTGGG(194)
EMX1 site 2-Off-target-7	ACGTCTGAGCAGAAGAAGAATGG(123)	TCGTCTTCCTGCAGAGGTTC(161)	ACTCCCATCTTCCTCCCTA(195)

FANCF site 1-On-target	GGAATCCCTTCTGCAGCACCTGG(124)
FANCF site 1-Off-target-1	GGAACCCCGTCTGCAGCACCAGG(125)	GTCTTAGTCGCCTTAGCACT(162)	ATGTGCTCTGATTTCCGTG(196)
FANCF site 1-Off-target-2	GGAGTCCCTCCTACAGCACCAGG(126)	CATCCCGAACACAGTGACAG(163)	AGATGGAAGAATGAGCAGG(197)
FANCF site 1-Off-target-3	AGAGGCCCCTCTGCAGCACCAGG(127)	AGGACTCAGGCAGGAGTTAG(164)	TGCGGGGTGTGGATGATTT(198)
FANCF site 1-Off-target-4	ACCATCCCTCCTGCAGCACCAGG(128)	TAGAGTGGCATGCAACCTAG(165)	AATGTGCTGGGTCTCTCCT(199)
FANCF site 1-Off-target-5	TGAATCCCATCTCCAGCACCAGG(129)	CAGAAACACTGGAGACCCTC(166)	GATGAAGAAACTGAGGCACA(200)
FANCF site 1-Off-target-6	GGAGTCCCTCCTACAGCACCAGG(130)	CCGAACACAGTGACAGAAGG(167)	GCCCAGTGAGACCAGTTTG(201)
FANCF site 1-Off-target-7	GGAGTCCCTCCTGCAGCACCTGA(131)	GGAAAATTGCTTGTCGCAGC(168)	CCCCTCTGACGGTAATAAT(202)
HEK293 site 1-On-target	GAACACAAAGCATAGACTGCGGG(132)
HEK293 site 1-Off-target-1	GAACACAATGCATAGATTGCCGG(133)	CATATTTAATGCTCCCACACC(169)	AGCCACATTGTAGACAATGAAGCC(203)
HEK293 site 1-Off-target-2	AAACATAAAGCATAGACTGCAAA(134)	CAGAATAGTGGGACTATGCC(170)	TCACCCTCCTCCTCTCACT(204)
HEK293 site 1-Off-target-3	TCAGGGTGAGCATAGACTGCCGG(135)	AGATAGGACAGGTGAGGCCT(171)	GGCAGGGATGAAAGGTGTC(205)
HEK293 site 1-Off-target-4	TGAAGTGTTGCATAGACTGCAGG(136)	ACCCCTCATGCAAATCCTAAC(172)	TGGGTGGCTAGACTCAGAG(206)
HEK293 site 1-Off-target-5	GGAGAGAGAGCATAGACTGCTGG(137)	TCTGTACCTGCTGGGCATCCA(173)	GAACATCACTCCCATCACG(207)
HEK293 site 1-Off-target-6	CCAAACAAAACATAGACTGCTGG(138)	GGGTAAGACTCTACCCAGGA(174)	TTAATAGCAGTGTGGTGGG(208)
HEK293 site 2-On-target	GGCCCAGACTGAGCACGTGATGG(139)
HEK293 site 2-Off-target-1	CACCCAGACTGAGCACGTGCTGG(140)	GACAAGAGCATTAACTGCACC(175)	CTCTTCTTCCGAGTGGTGG(209)
HEK293 site 2-Off-target-2	GACACAGACTGGGCACGTGAGGG(141)	GTGGAGTCAGCCTCGATTAC(176)	GATTAGGGTTGCCAAGAGA(210)
HEK293 site 2-Off-target-3	AGCTCAGACTGAGCAAGTGAGGG(142)	TTCAGTCCAGACATCAGCCA(177)	GGCGATGAGTAAGAGTGATGTG(211)
HEK293 site 2-Off-target-4	AGACCAGACTGAGCAAGAGAGGG(143)	actttggaaggtcgaagcggca(178)	TGCATGGTTCATCTCCCCTA(212)
HEK293 site 2-Off-target-5	GAGCCAGAATGAGCACGTGAGGG(144)	GGAAATTGCGAGCAGAGGCT(179)	CTGGGGTCTCTTTCTGCCTC(213)
HEK293 site 2-Off-target-6	CAGGAAGCTGGAGCACGTGAGGG(145)	CATCCCTTGTCTCTCTTAGG(180)	TACACGTTCCACCCCTCCAACC(214)
HEK293 site 2-Off-target-7	AAGGCTGAGGGAGCACGTGAAGG(146)	AGTACAAGCTGATTACATCC(181)	GGTGGAGACAGAAAATGAGG(215)
HEK293 site 2-Off-target-8	GTCAGGGGAAGAGCACGTGACGG(147)	ACTGCAGCCTGGCCCTAAAC(182)	CTACCTCCAAGCCACCAAAC(216)
HEK293 site 2-Off-target-9	GTTGTGAACTGAGCACGTGAGGG(148)	CATTTCCTGTCAGATCACGG(183)	TCAAATGCTCCACCCGCCTCA(217)
HEK293 site 2-Off-target-10	ATATTTGCTGGAGCACGTGAAGG(149)	TCTGAAGCTATGCGCTGGAG(184)	TCAGAACCCCAATACCCCTC(218)
HEK293 site 3-On-target	GGCACTGCGGCTGGAGGTGGGGG(150)
HEK293 site 3-Off-target-1	TGCACTGCGGCCGGAGGAGGTGG(151)	TGGGCTCACTGCTCTCCAGAGT(185)	AGGAAGGGTACTGGGGAGT(219)
HEK293 site 3-Off-target-2	GGCTCTGCGGCTGGAGGGGGTGG(152)	CAAGTGCTCCCCAATCCTGA(186)	TGGTGAAGAGGATGGGGTGA(220)

HEK293 site 3-Off-target-4	GGCACTGCTACTGGGGGTGGTGG(153)	CCGTTGCTTGTCAGCATCCT(187)	ACTGCTCCCTCTGTTCTCAT(221)
HEK293 site 3-Off-target-6	GGCACTGGGGTTGGAGGYGGGGG(154)	CCATGGCAAACTCTCCACCA(188)	GTCATTTCAGTGGCAGCGGA(222)

GOTI的FACS

为了分离小鼠胚胎细胞，制备的组织在37℃的5ml胰蛋白酶EDTA(0.05％)孵育液中酶解30min，加入5ml DMEM培养基和10％胎牛血清(FBS)停止消化。然后用1毫升移液管将胎儿组织均匀化30-40次。将细胞悬浮液离心6min(800rpm)，然后在含有10％FBS的DMEM培养基中重新悬浮颗粒。最后，用40μm的细胞过滤器过滤细胞悬液，用流式细胞仪分离tdtomato ⁺/tdtomato ^-细胞。通过第二轮流式细胞术和荧光显微镜分析，发现样品纯度大于95％。

全基因组测序和RNA序列数据分析

用DNeasy血液和组织试剂盒(目录号69504，Qiagen)按照说明从细胞中提取基因组DNA。全基因组测序由Illumina HiSeq X 10进行，平均覆盖率为50倍。BWA(v0.7.12)用于将合格的测序读数映射到参考基因组(mm10)。然后使用Picard工具(v2.3.0)对映射的BAM文件进行排序和标记。为了高置信度地鉴定全基因组的新发SNVs，本发明人进行了单核苷酸变异，分别使用默认参数的Mutect2(v3.5)、Lofreq(v2.1.2)和Strelka(v2.7.1)三种算法。同时，分别使用Mutect2(v3.5)、Scalpel(v0.5.3)和Strelka(v2.7.1)检测全基因组从头索引，利用默认参数。三种SNVs或indel算法的重叠被认为是真正的突变。所有的测序数据都保存在NCBI序列读取档案(SRA)中。

使用两个先前报告的算法，即Cas offender(http://www.rgenome.net/Cas-officer/)和CRISPOR(http://CRISPOR.tefor.net/)预测目标位点的潜在脱靶位点。SNVs和indels用annovar(2016-02-01版)使用RefSeq数据库进行注释。

RNA序列数据分析采用FastQC(v0.11.3)和Trimmomatic(v0.36)进行质量控制。合格的读数使用STAR(v2.5.2b)，在默认参数的2通模式下被映射到参考基因组(集成GRCh38)。然后应用Picard工具(v2.3.0)对映射的BAM文件的重复项进行排序和标记。优化后的BAM文件分别进行了跨接头连接的拆分读取、本地重新对齐、基础重新校准和使用GATK(v3.5)中的SplitNCigarReads、IndelRealigner、BaseRecalivator和单倍型调用工具进行的变体调用。

结构预测

从UniProt(https://www.UniProt.org/)检索大鼠APOBEC1和人APOBEC3G的氨基酸序列，用NCBI-blastp(https://blast.NCBI.nlm.nih.gov/blast.cgi？程序＝blastp&PAGE_TYPE＝BlastSearch&LINK_LOC＝blasthome)。根据已知结构蛋白质的一致序列和二级结构信息，由蛋白质结构预测服务器(PS)对rAPOBEC1的结构进行预测。 APOBEC3G的晶体结构是从PDB(http://www.rcsb.org/3d-view/3IQS)下载的，并使用PyMOL(v2.3.2)呈现。

统计分析

本发明采用R版本3.5.1(http://www.R-project.org/)进行统计分析。所有试验均为双侧，P<0.05认为差异有显著性。

实施例1、APOBEC1突变体及其效果

本发明人将各种突变引入重组APOBEC1(rAPOBEC1)，以期望影响DNA或RNA活性(图1a)。具体而言，变异体包括rAPOBEC1亮氨酸富集的N端或C端的删除或突变(Del32、R33A、K34A、Del34、Del77、Del116、Del169、Del182、P190A和P191A)，以及预测的rAPOBEC1催化活性位点的突变(H61A、H61R、V62A、E63A、E63Q、C93S、C96S)。本发明人经过对APOBEC3G的结构研究，预测rAPOBEC1的R126位点(对应APOBEC3G的R320位点)与ssDNA的磷酸酯骨架相互作用(图1b、c)，并且R126E突变体可保留靶编辑活性。R128和R132接近R126，本发明人还引入了R128E和R132E突变(图1a-c)。本发明人还研究了rAPOBEC1疏水性结构域的活性位点的点突变组合(W90A，W90F，W90Y)的影响，这些突变可以缩小碱基编辑窗口的宽度。

本发明人将用CBE突变体质粒转染HEK293T细胞来分析其编辑活性和脱靶效应。通过在10个基因组靶位点上的检测，从23个突变体中筛到7个可以保留其靶向活性的突变体，包括R33A、K34A、V62A、W90F+R126E、W90Y+R126E、R126E和R132E，其中4个突变体(W90F+R126E、W90Y+R126E、R126E、R132E)的插入缺失(indels)突变效率没有增加(图1d，图4和表5)。此外，这些实验表明，W90F+R126E、W90Y+R126E和R132E变体的编辑窗口变窄，图4)。

表5、CBE变体与BE3之间的靶向效率和indel率的P值

接下来，本发明人通过GOTI来评估其中具有高DNA靶向效率突变体BE3 ^R126E、BE3 ^R132E、BE3 ^W90Y+R126E(YE1-BE37)和BE3 ^W90F+R126E(FE1-BE37)(表6)的DNA脱靶活性。首先，需要注意的是，Ai9小鼠的胚胎发育过程没有受到任何这些变体的有害影响(图5)。通过全基因组测序评估这些变体的靶向效率(图6)。与野生型BE3处理的胚胎相比，BE3 ^R126E、BE3 ^R132E、YE1-BE3或FE1-BE3处理的胚胎中的DNA非靶向SNVs数量显著减少：BE3 ^R126E处理的胚胎中的DNA非靶向SNV从283±32减少到28±6，BE3 ^R132E处理的胚胎中的DNA非靶向SNV为47±8，YE1-BE3处理的胚胎中的DNA非靶向SNV为12±2，FE1-BE3处理的DNA非靶向SNV为27±19。

表6、HiSeq×10测序汇总

重要的是，注射四种CBE变体的胚胎与未编辑的对照胚胎之间的SNV数量没有显著差异(平均14个SNV，接近自发突变率)(图2a，图7和表7)。此外，和野生型BE3相比，CBE变体表现出显著减少的突变，并且这些CBE变体组中检测到的SNV与使用Cas-Offender和CRISPOR软件分析的脱靶位点都不重叠(图2b，图6和8)。这些发现表明，这些CBE变体可产生较少的sgRNA非依赖性的DNA脱靶。

表7、来自不同算法的非目标SNV

本发明人还使用RNA-seq来评估这些变体在其所转染HEK293T细胞转录组上的脱靶效应。与野生型BE3相比，有三种变体BE3 ^R132E、YE1-BE3和FE1-BE3在转染后36h显示出明显减少的RNA脱靶编辑(图2c和2d)。相比之下，BE3 ^R126E变异株的RNA脱靶编辑在转染后36h没有下降，但在转染后72h有显著下降。与转染GFP的对照细胞组相比，野生型BE3和BE3 ^R126E组的SNVs数量显著增加，然而BE3 ^R132E、YE1-BE3或FE1-BE3组SNVs数目没有增加(图2c、2d，图9和10)。总之，这些结果表明BE3 ^R132E、YE1-BE3和FE1-BE3变体是高保真的碱基编辑器，与BE3相比，它们的DNA脱靶和RNA脱靶效应都显著降低。

尽管前述三种BE3变体(BE3 ^R132E、YE1-BE3和FE1-BE3变体)可以显著降低脱靶效应，但它们的靶向编辑效率不如BE3-hA3A(图3a和图11)。BE3(hA3AY130F)是在humanAPOBECA3A突变Y130转变为F，可以观测到这一突变显著减少脱靶SNV的数量。本发明人使用GOTI分析BE3-hA3A的脱靶效应，然而发现BE3-hA3A对胚胎是明显有毒的(图5)。

本发明人试图进一步获得既具有高靶效率又具有高保真度的碱基编辑器，将Y130F突变引入BE3-hA3A中，发现BE3-hA3A ^Y130F编辑器有很高的靶向编辑效率(图3a)，但它仍然产生大量的DNA脱靶SNVs(409±86)(图3b和图11)。

接下来，本发明人在BE3-FNLS编辑器的基础上，构建了一个高保真变体YE1-BE，该变体的C端和N端增添了一个核定位信号肽，且本发明人对DNA序列进行了人类细胞中表达的密码子优化。该密码子优化的DNA序列为(SEQ ID NO:2)：

除了这种新的YE1-BE3-FNLS变体外，本发明人在HEK293T细胞的21个靶点上测试了BE3、YE1-BE3、BE3-hA3A、BE3-hA3A ^Y130F和BE3-FNLS的靶向编辑效率和bystander编辑。YE1-BE3-FNLS靶向效率最高，为70.7±5.2％(图3d)。值得注意的是，YE1-BE3-FNLS在被检测的变体中的indels水平最低，为0.8±0.2％，其它bystander编辑的数量也是最低，为0.6±0.4％(图3d-e)。此外，与BE3相比，YE1-BE3-FNLS也显著降低了DNA和RNA的脱靶活性，达到了与未经编辑的对照组相当的水平(图3b-c)。考虑到GOTI方法是用来分析基因编辑蛋白的sgRNA非依赖的脱靶效应，本发明人还需要检测YE1-BE3-FNLS的sgRNA依赖性的脱靶效应。与其他BE3变体处理的细胞相比，转染YE1-BE3-FNLS的细胞中sgRNA依赖的脱靶效应没有显著差异(图12)。因此，这种新的碱基编辑器突变体符合本发明人的双重标准，即高的靶向编辑效率与高保真度。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

一种提高胞嘧啶碱基编辑器靶向编辑效率或保真度的方法，包括：在胞嘧啶碱基编辑器中，对其中的胞嘧啶脱氨酶进行改造，所述的胞嘧啶脱氨酶包括APOBEC1或其同源物，所述的改造包括对该胞嘧啶脱氨酶的相应于APOBEC1第90位Trp(W)和第126位Arg(R)的氨基酸进行突变，且将该胞嘧啶碱基编辑器与核定位序列连接。
如权利要求1所述的方法，其特征在于，所述的胞嘧啶碱基编辑器为BE3基因编辑器系统。
如权利要求1所述的方法，其特征在于，所述APOBEC1同源物包括选自下组的酶：AID，APOBEC3G，APOBECA3A，CDA1。
如权利要求1所述的方法，其特征在于，所述的突变为对所述胞嘧啶脱氨酶的相应于APOBEC1第90位Trp突变为Tyr(Y)；和/或，将第126位Arg突变为Glu(E)。
如权利要求1所述的方法，其特征在于，该胞嘧啶碱基编辑器的N端和/或C端连接核定位序列。
一种经改造的胞嘧啶脱氨酶，所述胞嘧啶脱氨酶包括APOBEC1或其同源物，该胞嘧啶脱氨酶中相应于APOBEC1第90位Trp(W)和第126位Arg(R)的氨基酸存在突变。
如权利要求6所述的经改造的胞嘧啶脱氨酶，其特征在于，所述APOBEC1同源物包括选自下组的酶：AID，APOBEC3G，APOBECA3A，CDA1。
如权利要求6所述的经改造的胞嘧啶脱氨酶，其特征在于，所述的突变为所述胞嘧啶脱氨酶的相应于APOBEC1第90位Trp突变为Tyr(Y)；和/或，第126位Arg突变为Glu(E)。
一种胞嘧啶碱基编辑器，其包含权利要求6-8任一所述的经改造的胞嘧啶脱氨酶。
如权利要求9所述的胞嘧啶碱基编辑器，其特征在于，该胞嘧啶碱基编辑器还与核定位序列连接；较佳地，N端和/或C端与核定位序列连接。
如权利要求10所述的胞嘧啶碱基编辑器，其特征在于，所述的胞嘧啶碱基编辑器与核定位序列之间，还包括连接序列，如标签序列(更具体如Flag标签)。
分离的多核苷酸，其编码权利要求6-8任一所述的经改造的胞嘧啶脱氨酶或权利要求9-11任一所述的胞嘧啶碱基编辑器。
如权利要求12所述的多核苷酸，其特征在于，所述胞嘧啶碱基编辑器具有SEQ ID NO:2所示的核苷酸序列。
一种重组表达载体，其包含权利要求12或13所述的多核苷酸。
一种遗传工程化的宿主细胞，它含有权利要求14所述的载体，或基因组中整合有权利要求12或13所述的多核苷酸。
如权利要求14所述的胞嘧啶碱基编辑器，其特征在于，所述的编辑器为BE3碱基编辑器。
权利要求9-11任一所述的胞嘧啶碱基编辑器的用途，用于进行基因编辑，降低脱靶效应、提高靶向编辑效率或提高靶向编辑的保真度。
一种进行基因编辑的方法，包括以权利要求9-11任一所述的胞嘧啶碱基编辑器介导基因编辑。
如权利要求18所述的方法，其特征在于，将编码所述的胞嘧啶碱基编辑器的核酸序列以及sgRNA共同注射受体，从而进行基因编辑。
如权利要求19所述的方法，其特征在于，所述的受体包括：体细胞或生殖细胞。
如权利要求20所述的方法，其特征在于，所述的生殖细胞包括胚胎细胞或受精卵。
一种用于进行基因编辑的试剂或试剂盒，其中包括权利要求6-8任一所述的经改造的胞嘧啶脱氨酶；或其中包括权利要求9-11任一所述的胞嘧啶碱基编辑器。