WO2023030534A1

WO2023030534A1 - 改进的引导编辑系统

Info

Publication number: WO2023030534A1
Application number: PCT/CN2022/117258
Authority: WO
Inventors: 高彩霞; 宗媛
Original assignee: Suzhou QI Biodesign Biotechnology Co Ltd
Current assignee: Suzhou QI Biodesign Biotechnology Co Ltd
Priority date: 2021-09-06
Filing date: 2022-09-06
Publication date: 2023-03-09
Anticipated expiration: 2024-03-06
Also published as: JP2024532544A; EP4400594A1; KR20240049838A; US20240368609A1; EP4400594A4; CN116555224A

Abstract

提供了一种改进的引导编辑系统，以及通过该系统进行基因编辑的方法。

Description

改进的引导编辑系统

技术领域

本发明涉及基因工程领域。具体而言，本发明涉及一种改进的引导编辑系统，以及通过该系统进行基因编辑的方法。

发明背景

许多重要的疾病和农艺性状都决定于基因组的序列。通过对基因组特定序列进行定向的改变，能够赋予生物体新的可遗传的性状，从而为疾病治疗和育种改良提供可能。目前，通过基因组编辑技术(例如CRISPR/Cas技术)可以实现对特定序列进行编辑，进而激活细胞的修复途径对损伤处进行修复。引导编辑系统(Prime Editing，PE)是一种基于CRISPR/Cas技术的可以精确修改靶位点序列的系统，该系统由两部分构成：1)具有非靶标链缺刻活性的Cas9核酸酶(Cas9-H840A)和逆转录酶(reverse transcriptase，RT)构成的融合蛋白；2)3’端带有RT模板(RT template)和游离单链的结合区(Primer binding site，PBS)的pegRNA。该系统的工作原理是通过PBS结合Cas9-H840A所产生的游离单链，引导融合蛋白结合至指定位点，并依照给定的RT模板逆转录出含有指定突变的单链DNA序列，经过细胞的修复，可以在基因组中实现位于靶位点处的DNA序列的任意变化。

目前研究表明，PE编辑效率整体较低，需要进行多方面的优化。通过改造M-MLV蛋白或者融合其他相关蛋白从而增加PE蛋白的稳定性或表达量是一种提高PE编辑效率的有效途径。

发明简述

本发明涉及通过i)对逆转录酶进行点突或者删除其多余结构域如RNase H结构域；ii)将逆转录酶与核衣壳蛋白NC融合；或i)和ii)两者的组合来提高引导编辑效率。

本发明至少包含以下实施方案：

实施方案1.一种用于靶向性修饰植物基因组的引导编辑系统，其包含：

i)引导编辑融合蛋白和/或含有编码所述引导编辑融合蛋白的核苷酸序列的表达构建体，其中所述引导编辑融合蛋白包含CRISPR切口酶和逆转录酶；和/或

ii)至少一种pegRNA和/或含有编码所述至少一种pegRNA的核苷酸序列的表达构建体，

其中所述至少一种pegRNA从5’至3’方向包含引导序列、支架序列、反转录(RT)模板序列和引物结合位点(PBS)序列，

其中所述至少一种pegRNA能够与所述融合蛋白形成复合物并将所述融合蛋白靶向基因组中的靶序列，导致所述靶序列内的切口。

实施方案2.实施方案1的系统，其中所述CRISPR切口酶是Cas9切口酶，例如包含SEQ ID NO:2所示氨基酸序列。

实施方案3.实施方案1或2的系统，其中所述逆转录酶是M-MLV逆转录酶或其功能性变体。

实施方案4.实施方案1-3中任一项的系统，其中所述逆转录酶

(a)包含选自F155Y、F155V、F156Y、D524N、N200C中任一种的突变，所述氨基酸位置参考SEQ ID NO:3；

(b)connection序列被缺失；和/或

(c)RNase H结构域被突变或缺失。

实施方案5.实施方案4的系统，其中所述逆转录酶包含SEQ ID NO:9-15中任一项所述的序列。

实施方案6.实施方案1-5中任一项的系统，其中在所述融合蛋白中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体在N端或C端与核衣壳蛋白(NC)、水解酶(PR)或整合酶(IN)直接地或通过接头融合。

实施方案7.实施方案6的系统，所述核衣壳蛋白(NC)包含如SEQ ID NO:6所示的氨基酸序列，或所述水解酶(PR)包含如SEQ ID NO:7所示的氨基酸序列，或所述整合酶(IN)包含如SEQ ID NO:8所示的氨基酸序列。

实施方案8.实施方案6或7的系统，其中所述逆转录酶在N端与核衣壳蛋白(NC)直接地或通过接头融合，优选地，所述RNase H结构域被缺失的M-MLV逆转录酶的功能性变体在N端与核衣壳蛋白(NC)直接地或通过接头融合。

实施方案9.实施方案1-8中任一项的系统，其中pegRNA中的引导序列被设置为与靶序列具有充分序列相同性，从而能够通过碱基配对与靶序列的互补链结合，实现序列特异性靶向。

实施方案10.实施方案1-9中任一项的系统，其中所述pegRNA的支架序列包含SEQ ID NO:17所述序列。

实施方案11.实施方案1-10中任一项的系统，其中所述引物结合序列被设置为与所述靶序列的至少一部分互补，优选地，所述引物结合序列与所述切口导致的3’游离单链的至少一部分互补，特别是与所述3’游离单链的3’末端的核苷酸序列互补。

实施方案12.实施方案1-11中任一项的系统，其中所述引物结合序列的Tm(解链温度)为大约18℃-52℃，优选大约24℃-36℃，更优选大约28℃-32℃，更优选大约30℃。

实施方案13.实施方案1-12中任一项的系统，其中，所述RT模板序列被设置为对应于切口下游的序列，并包含期望的修饰，所述修饰包括一或多个核苷酸的取代、缺失和/或添加。

实施方案14.实施方案1-13中任一项的系统，其中所述引导编辑融合蛋白包含SEQ ID NO:19所示氨基酸序列。

15.一种产生经遗传修饰的细胞的方法，包括将权利要求1-14中任一项的引导编辑系统导入至少一个所述细胞，由此导致所述至少一个细胞的基因组中靶序列的修饰。

附图简述

图1示出了经修饰的不同PPE构建体。

图2示出了通过流式细胞分析获得的利用BFP-GFP报告系统筛选的不同构建体在水稻原生质体中的编辑效率。

图3示出了将筛选出的具有提高的编辑效率的构建体PPE-NCv1、PPE-NCv2和PPE-ΔRNase H与pegRNA共转化至水稻原生质体细胞中后，通过扩增子测序分析得到的引导编辑系统对不同内源测试位点的编辑效率。

图4示出了将PPE-NCv1、PPE-ΔRNase H和同时融合NC和删除RNase H的组合处理的构建体ePPE分别与pegRNA共转化至水稻原生质体细胞中后，通过扩增子测序分析得到的引导编辑系统对不同内源测试位点的编辑效率。

图5示出了具有提高的编辑效率的PPE蛋白在水稻原生质体中的表达量。

图6示出ePPE蛋白可有效提高大于15bp片段删除或插入的编辑效率。

图7示出ePPE蛋白可有效拓宽引导编辑系统范围。

图8示出ePPE在水稻愈伤中的编辑效率。

图9示出ePPE创制抗除草剂水稻植物。

图10示出ePE在猪细胞中的编辑。

图11示出ePPE在大多数水稻内源测试位点中不会显著增加脱靶编辑效率，通过扩增子测序分析得到的引导编辑系统对不同内源测试位点及预测的内源脱靶位点的编辑效率。

图12示出ePPE与碱基编辑在编辑位点实现功能的互补。

图13示出ePPE结合dual-pegRNA strategy策略、epegRNAs策略相结合进一步提高引导编辑效率。

发明详述

一、定义

在本发明中，除非另有说明，否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且，本文中所用的蛋白质和核酸化学、分子生物学、细胞和组织培养、微生物学、免疫学相关术语和实验室操作步骤均为相应领域内广泛使用的术语和常规步骤。例如，本发明中使用的标准重组DNA和分子克隆技术为本领域技术人员熟知，并且在如下文献中有更全面的描述：Sambrook，J.，Fritsch，E.F.和Maniatis，T.，Molecular Cloning：A Laboratory Manual；Cold Spring Harbor Laboratory Press：Cold Spring Harbor，1989(下文称为“Sambrook”)。同时，为了更好地理解本发明，下面提供相关术语的定义和解释。

如本文所用，术语“和/或”涵盖由该术语连接的项目的所有组合，应视作各个组合已经单独地在本文列出。例如，“A和/或B”涵盖了“A”、“A和B”以及“B”。例如，“A、B和/或C”涵盖“A”、“B”、“C”、“A和B”、“A和C”、“B和C”以及“A和B和C”。

“包含”一词在本文中用于描述蛋白质或核酸的序列时，所述蛋白质或核酸可以是由所述序列组成，或者在所述蛋白质或核酸的一端或两端可以具有额外的氨基酸或核苷酸，但仍然具有本发明所述的活性。此外，本领域技术人员清楚多肽N端由起始密码子编码的甲硫氨酸在某些实际情况下(例如在特定表达系统表达时)会被保留，但不实质影响多肽的功能。因此，本申请说明书和权利要求书中在描述具体的多肽氨基酸序列时，尽管其可能不包含N端由起始密码子编码的甲硫氨酸，然而此时也涵盖包含该甲硫氨酸的序列，相应地，其编码核苷酸序列也可以包含起始密码子；反之亦然。

“基因组”如本文所用不仅涵盖存在于细胞核中的染色体DNA，而且还包括存在于细胞的亚细胞组分(如线粒体、质体)中的细胞器DNA。

如本文所用，“生物体”包括适于基因组编辑的任何生物体，优选真核生物。生物体的实例包括但不限于，哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物包括单子叶植物和双子叶植物，例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。

“经遗传修饰的生物体”意指在其基因组内包含外源多核苷酸或包含经修饰的基因或表达调控序列的生物体。例如外源多核苷酸能够稳定地整合进生物体的基因组中，并遗传连续的世代。外源多核苷酸可单独地或作为重组DNA构建体的部分整合进基因组中。经修饰的基因或表达调控序列为在生物体基因组中所述基因或表达调控序列包含一个或多个脱氧核苷酸取代、缺失和添加。

“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链RNA或DNA聚合物，任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代：“A”为腺苷或脱氧腺苷(分别对应RNA或DNA)，“C”表示胞苷或脱氧胞苷，“G”表示鸟苷或脱氧鸟苷，“U”表示尿苷，“T”表示脱氧胸苷，“R”表示嘌呤(A或G)，“Y”表示嘧啶(C或T)，“K”表示G或T，“H”表示A或C或T，“D”表示A、T或G，“I”表示肌苷，并且“N”表示任何核苷酸。

“多肽”、“肽”、和“蛋白”在本发明中可互换使用，指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物，以及适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白”还可包括修饰形式，包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。

如本发明所用，“表达构建体”是指适于感兴趣的核苷酸序列在生物体中表达的载体如重组载体。“表达”指功能产物的产生。例如，核苷酸序列的表达可指核苷酸序列的转录(如转录生成mRNA或功能RNA)和/或RNA翻译成前体或成熟蛋白质。

本发明的“表达构建体”可以是线性的核酸片段、环状质粒、病毒载体，或者，在一些实施方式中，可以是能够翻译的RNA(如mRNA)，例如是体外转录生成的RNA。

本发明的“表达构建体”可包含不同来源的调控序列和感兴趣的核苷酸序列，或相同来源但以不同于通常天然存在的方式排列的调控序列和感兴趣的核苷酸序列。

“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方式中，启动子是能够控制细胞中基因转录的启动子，无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。

启动子的实例包括但不限于聚合酶(pol)I、pol II或pol III启动子。pol I启动子的实例包括鸡RNA pol I启动子。pol II启动子的实例包括但不限于巨细胞病毒立即早期(CMV)启动子、劳斯肉瘤病毒长末端重复(RSV-LTR)启动子和猿猴病毒40(SV40)立即早期启动子。pol III启动子的实例包括U6和H1启动子。可以使用诱导型启动子如金属硫蛋白启动子。启动子的其他实例包括T7噬菌体启动子、T3噬菌体启动子、β-半乳糖苷酶启动子和Sp6噬菌体启动子。当用于植物时，启动子可以是花椰菜花叶病毒35S启动子、玉米Ubi-1启动子、小麦U6启动子、水稻U3启动子、玉米U3启动子、水稻肌动蛋白启动子。

将核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞，使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。“稳定转化”指将外源核苷酸序列导入基因组中，导致外源基因稳定遗传。一旦稳定转化，外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。“瞬时转化”指将核酸分子或蛋白质导入细胞中，执行功能而没有外源基因稳定遗传。瞬时转化中，外源核酸序列不整合进基因组中。

“性状”指细胞或生物体的生理的、形态的、生化的或物理的特征。

二、改进的引导编辑系统

在一方面，本发明涉及一种用于靶向性修饰生物体基因组DNA序列的引导编辑系统，其包含：

其中所述至少一种pegRNA从5’至3’方向包含引导序列、支架(scaffold)序列、逆转录(RT)模板序列和引物结合位点(PBS)序列。

在一些实施方案中，引导编辑融合蛋白中的所述CRISPR切口酶和所述逆转录酶通过接头相连。

在一些实施方案中，所述至少一种pegRNA能够与所述融合蛋白形成复合物并将所述融合蛋白靶向基因组中的靶序列，导致所述靶序列内的切口。

在一方面，本发明涉及一种引导编辑融合蛋白，其中所述引导编辑融合蛋白包含CRISPR切口酶和逆转录酶。

在一方面，本发明涉及本发明的引导编辑融合蛋白在靶向性修饰生物体基因组DNA序列中的用途。

在一些实施方案中，所述生物体是植物。

如本文所用，“引导编辑系统”是指用于对细胞内基因组进行基于逆转录的基因组编辑所需的成分的组合。其中所述系统的各个成分，例如引导编辑融合蛋白、gRNA等可以各自独立地存在，或者可以以任意的组合作为组合物的形式存在。

如本文所用，“靶序列”是指基因组中由5’或3’侧翼的PAM(前间区序列邻近基序)序列所表征的长度大约20个核苷酸的序列。通常而言，PAM是CRISPR核酸酶或其变体与向导RNA形成的复合物识别靶序列所必需的。例如，对于Cas9核酸酶及其变体，其靶序列在3’末端紧邻PAM，例如5’-NGG-3’。基于PAM的存在，本领域技术人员可以容易地确定基因组中可用于靶向的靶序列。而且取决于PAM的位置，靶序列可以位于基因组DNA分子的任一条链上。对于Cas9或其衍生物例如Cas9切口酶而言，靶序列优选20个核苷酸。

在一些实施方案中，融合蛋白中的所述CRISPR切口酶(nickase)能够在基因组DNA中靶序列内形成切口(nick)。在一些实施方案中，所述CRISPR切口酶是Cas9切口酶。

在一些实施方案中，所述Cas9切口酶衍生自化脓链球菌(S.pyogenes)的SpCas9，且相对于野生型SpCas9至少包含氨基酸取代H840A。示例性的野生型SpCas9包含SEQ ID NO:1所示氨基酸序列。在一些实施方案中，所述Cas9切口酶包含SEQ ID NO:2所示氨基酸序列。在一些实施方案中，所述融合蛋白中的Cas9切口酶能够在靶序列的PAM的-3位核苷酸(PAM序列5’端的第一个核苷酸为+1位)和-4位核苷酸之间形成切口。

在一些实施方案中，所述Cas9切口酶是能够识别改变的PAM序列的Cas9切口酶变体。本领域已知许多能够识别改变的PAM序列的Cas9切口酶变体。在一些实施方案中，所述Cas9切口酶是识别PAM序列5’-NG-3’的Cas9变体。在一些实施方案中，识别PAM序列5’-NG-3’的Cas9切口酶变体相对于野生型Cas9包含以下氨基酸取代H840A、R1335V、L1111R、D1135V、G1218R、E1219F、A1322R、T1337R，其中氨基酸编号参照SEQ ID NO:1。

本发明所述Cas9切口酶形成的切口能够导致靶序列形成具有3’末端的游离单链(3’游离单链)和具有5’末端的游离单链(5’游离单链)。

在一些实施方案中，本发明的融合蛋白中的所述逆转录酶可以衍生自不同来源。在一些实施方案中，所述逆转录酶是来源于病毒的逆转录酶。例如，在一些实施方案中，所述逆转录酶是M-MLV逆转录酶或其功能性变体。示例性的野生型M-MLV逆转录酶序列如SEQ ID NO:3所示。

在一些实施方案中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体

(a)包含在第155位、156位、200位和/或524位处的突变，例如包含选自F155Y、F155V、F156Y、D524N、N200C中任一种或其组合的突变，所述氨基酸位置参考SEQ ID NO:3；

(b)connection序列被缺失；和/或

(c)RNase H结构域被突变或缺失。

在一些优选实施方案中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体包含选自D524N突变，所述氨基酸位置参考SEQ ID NO:3。

在一些优选实施方案中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体的RNase H结构域被缺失。

在一些实施方案中，所述connection序列包含如SEQ ID NO:4所示的氨基酸序列。

在一些实施方案中，所述RNase H结构域包含如SEQ ID NO:5所示的氨基酸序列。

在一些实施方案中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体包含SEQ ID NO:9-15中任一项所述的序列。

在一些实施方案中，在所述融合蛋白中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体在N端或C端与核衣壳蛋白(NC)、水解酶(PR)或整合酶(IN)直接地或通过接头融合。所述核衣壳蛋白(NC)、水解酶(PR)或整合酶(IN)例如是来自M-MLV。

在一些实施方案中，所述核衣壳蛋白(NC)包含如SEQ ID NO:6所示的氨基酸序列。

在一些实施方案中，所述水解酶(PR)包含如SEQ ID NO:7所示的氨基酸序列。

在一些实施方案中，所述整合酶(IN)包含如SEQ ID NO:8所示的氨基酸序列。

在一些优选实施方案中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体在N端与核衣壳蛋白(NC)直接地或通过接头融合。

在一些优选实施方案中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体在C端与核衣壳蛋白(NC)直接地或通过接头融合。

如本文所用，“接头”可以是长1-50个(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或20-25个、25-50个)或更多个氨基酸、无二级以上结构的非功能性氨基酸序列。例如，所述接头可以是柔性接头，例如GGGGS、GS、GAP、(GGGGS)x 3、GGS和(GGS)x7等。例如，可以是SEQ ID NO:16所示接头。

在一些实施方案中，融合蛋白中的所述CRISPR切口酶位于所述逆转录酶的N端。在一些实施方案中，融合蛋白中的所述CRISPR切口酶位于所述逆转录酶的C端。

在本发明的一些实施方案中，本发明的融合蛋白还可以包含核定位序列(NLS)。一般而言，所述融合蛋白中的一个或多个NLS应具有足够的强度，以便在细胞的核中驱动所述融合蛋白以可实现其碱基编辑功能的量积聚。一般而言，核定位活性的强度由所述融合蛋白中NLS的数目、位置、所使用的一个或多个特定的NLS、或这些因素的组合决定。

在一些实施方案中，所述融合蛋白包含SEQ ID NO:19所示的氨基酸序列。

本发明的至少一种pegRNA中的引导序列(也称种子序列或spacer序列)被设置为与靶序列具有充分的序列相同性(优选100％相同性)，从而能够通过碱基配对与靶序列的互补链结合，实现序列特异性靶向。

本领域已知多种适合用于基于CRISPR核酸酶(例如Cas9)的基因组编辑的gRNA的支架(scaffold)序列，这些可以用于本发明的pegRNA中。在一些具体实施方案中，所述gRNA的支架序列示于SEQ ID NO:17。

在一些实施方式中，所述引物结合序列被设置为与所述靶序列的至少一部分互补(优选与所述靶序列的至少一部分完全配对)，优选地，所述引物结合序列与靶序列所在DNA链中由切口导致的3’游离单链的至少一部分互补(优选与所3’游离单链的至少一部分完全配对)，特别是与所述3’游离单链的3’末端的核苷酸序列互补(优选完全配对)。当所述链的3’游离单链与所述引物结合序列通过碱基配对结合时，所述3’游离单链能够作为引物，以与所述引物结合序列紧邻的反转录(RT)模板序列作为模板，在融合蛋白中的逆转录酶的作用下进行反转录，延伸出对应于所述反转录(RT)模板序列的DNA序列。

所述引物结合序列取决于所使用的CRISPR切口酶在靶序列中形成的游离单链的长度，然而，其应当具有确保特异性结合的最少长度。在一些实施方案中，所述引物结合序列长度可以为4-20个核苷酸，例如长度为4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个核苷酸。

在一些实施方案中，所述引物结合序列被设置为具有不超过大约52℃的Tm(解链温度)。在一些实施方案中，所述引物结合序列的Tm(解链温度)为大约18℃-52℃，优选大约24℃-36℃，更优选大约28℃-32℃，更优选大约30℃。

计算核酸序列的Tm的方法为本领域公知，例如可以使用Oligo Analysis Tool在线分析工具计算。示例性的计算公式为Tm＝N _G:C*4+N _A:T*2，其中N _G:C是序列中G和C碱基的数目，N _A:T是序列中A和T碱基的数目。可以通过选择合适的PBS的长度来获得合适的Tm。或者，可以通过选择合适的靶序列来获得具有合适的Tm的PBS序列。

在一些实施方式中，所述RT模板序列可以是任意序列。通过上述反转录，其序列信息可以被整合进靶序列所在的DNA链(也即包含靶序列PAM的链)，再通过细胞的DNA修复作用，形成包含所述RT模板序列信息的DNA双链。在一些实施方案中，所述RT模板序列包含期望的修饰。例如，所述期望修饰包括一或多个核苷酸的取代、缺失和/或添加。例如，所述修饰包括一个或多个选自以下的取代：C至T取代、C至G取代、C至A取代、G至T取代、G至C取代、G至A取代、A至T取代、A至G取代、A至C取代、T至C取代、T至G取代、T至A取代；和/或包括一个或多个核苷酸的缺失，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸缺失；和/或包括一个或多个核苷酸的插入，例如1个至大约100个或更多个，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸插入。

在一些实施方式中，所述RT模板序列被设置为对应于靶序列切口下游的序列(例如，与靶序列切口下游的序列的至少一部分互补)，并且包含期望的修饰。所述期望修饰包括一或多个核苷酸的取代、缺失和/或添加。例如，所述修饰包括一个或多个选自以下的取代：C至T取代、C至G取代、C至A取代、G至T取代、G至C取代、G至A取代、A至T取代、A至G取代、A至C取代、T至C取代、T至G取代、T至A取代；和/或包括一个或多个核苷酸的缺失，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸缺失；和/或包括一个或多个核苷酸的插入，例如1个至大约100个或更多个，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸插入。

在一些实施方式中，所述RT模板序列长度可以为大约1-300个或更多个核苷酸，例如长度为1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个、大约125个、大约150个、大约175个、大约200个、大约225个、大约250个、大约275个、大约300个核苷酸或更多个多核苷酸。优选地，所述RT模板序列长度为7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23个核苷酸。

在一些实施方案中，所述引导编辑系统还包括切口gRNA(nicking gRNA，用于产生额外切口)和/或含有编码所述切口gRNA的核苷酸序列的表达构建体，所述切口gRNA包含引导序列和支架(scaffold)序列。在一些优选实施方案中，所述切口gRNA不包含反转录(RT)模板序列和引物结合位点(PBS)序列。

本发明的切口gRNA中的引导序列(也称种子序列或spacer序列)被设置为与基因组中切口靶序列具有充分序列相同性(优选100％相同性)，从而能够将本发明所述融合蛋白靶向所述切口靶序列，并导致所述切口靶序列内的切口，所述切口靶序列与pegRNA靶向的靶序列(pegRNA靶序列)位于基因组DNA的相对链上。在一些实施方案中，所述切口RNA形成的切口和所述pegRNA形成的切口相距大约1个-大约300个或更多个核苷酸，例如相距1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个、大约125个、大约150个、大约175个、大约200个、大约225个、大约250个、大约275个、大约300个核苷酸或更多个核苷酸。在一些实施方案中，所述切口RNA形成的切口位于所述pegRNA形成的上游或下游(所述上游或下游均参照pegRNA靶序列所在的DNA链)。在一些实施方案中，所述切口gRNA中的引导序列与pegRNA靶序列在编辑事件发生后的相对链(经修饰)具有充分序列相同性(优选100％相同性)，从而所述切口gRNA仅靶向在pegRNA诱导的靶序列靶向及修改完成后才产生的切口靶序列。在一些实施方案中，所述切口靶序列的PAM位于所述pegRNA靶序列的互补序列内。

在一些实施方案中，所述的pegRNA和/或切口gRNA可以使用自加工系统对其序列进行精确加工。在一些具体实施方案中，所述pegRNA和/或切口gRNA的5’端连接至第一核酶的3’端，所述第一核酶被设计为在所述pegRNA和/或切口gRNA的5’端切割所述融合物；和/或所述pegRNA和/或切口gRNA的3’端连接至第二核酶的5’端，所述第二核酶被设计为在所述pegRNA和/或切口gRNA的3’端切割所述融合物。所述第一或第二核酶的设计属于本领域技术人员的能力范围内。例如，可以参见Gao et al.,JIPB,Apr,2014；Vol 56,Issue 4,343-349。精确加工gRNA的方法例如可以参见WO 2018/149418。

在一些实施方案中，所述引导编辑系统包含至少一对pegRNA和/或含有编码所述至少一对pegRNA的核苷酸序列的表达构建体。在一些实施方案中，所述pegRNA对中的两种pegRNA被设置为靶向基因组DNA的相同链上的不同靶序列。在一些实施方案中，所述pegRNA对中的两种pegRNA被设置为靶向基因组DNA的不同链上的靶序列。在一些实施方案中，所述pegRNA对中的一种pegRNA的靶序列的PAM位于有义链，而另一种pegRNA的PAM位于反义链。在一些实施方案中，所述两种pegRNA的诱导的切口分别位于待修饰位点的两侧。在一些实施方案中，针对有义链的pegRNA诱导的切口位于待修饰位点的上游(5’方向)，针对反义链的pegRNA诱导的切口位于待修饰位点的下游(3’方向)。所述上游或下游相对于有义链而言。在一些实施方案中，所述两种pegRNA的诱导的切口相距大约1个-大约300个或更多个核苷酸，例如相距1-15个核苷酸。

在一些实施方案中，所述pegRNA对中的两种pegRNA被设置为导入相同的期望的修饰。举例而言，其中一种pegRNA被设置为在有义链导入A至G的取代，而另一种pegRNA则被设置为在反义链相应位置相应地导入T至C的取代。再举例而言，其中一种pegRNA被设置为在有义链导入两个核苷酸的缺失，另一种pegRNA则被设置为在反义链相应位置同样导入两个核苷酸的缺失。其它类型的修饰可以此类推。可以通过设计合适的RT模板序列来使分别靶向两条不同链的pegRNA实现相同的期望修饰。

在一些优选实施方案中，本发明所述pegRNA是epegRNA。epegRNA的构建可参考James W.Nelson et al.,Engineered pegRNAs improve prime editing efficiency.Nature Biotechnology volume 40,402–410(2022)，该文献通过引用并入本文。在一些实施方案中，所述epegRNA是带有3’-tevopreQ1-8nt linker修饰的epegRNA。

为了在不同生物体获得有效表达，在本发明的一些实施方式中，编码所述融合蛋白的核苷酸序列针对其基因组待进行修饰的生物体物种进行密码子优化。

密码子优化是指通过用在宿主细胞的基因中更频繁地或者最频繁地使用的密码子代替天然序列的至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50个或更多个密码子同时维持该天然氨基酸序列而修饰核酸序列以便增强在感兴趣宿主细胞中的表达的方法。不同的物种对于特定氨基酸的某些密码子展示出特定的偏好。密码子偏好性(在生物之间的密码子使用的差异)经常与信使RNA(mRNA)的翻译效率相关，而该翻译效率则被认为依赖于被翻译的密码子的性质和特定的转运RNA(tRNA)分子的可用性。细胞内选定的tRNA的优势一般反映了最频繁用于肽合成的密码子。因此，可以将基因定制为基于密码子优化在给定生物中的最佳基因表达。密码子利用率表可以容易地获得，例如在www.kazusa.orjp/codon/上可获得的密码子使用数据库(“Codon Usage Database”)中，并且这些表可以通过不同的方式调整适用。参见，Nakamura Y.等，“Codon usage tabulated from the international DNA sequence databases:status for the year2000.Nucl.Acids Res.，28:292(2000)。

三、修饰细胞基因组中靶序列的方法

另一方面，本发明提供了一种产生经遗传修饰的细胞的方法，包括将本发明的引导编辑系统导入至少一个所述细胞，由此导致所述至少一个细胞的基因组中靶序列的修饰。所述修饰包括一或多个核苷酸的取代、缺失和/或添加。例如，所述修饰包括一个或多个选自以下的取代：C至T取代、C至G取代、C至A取代、G至T取代、G至C取代、G至A取代、A至T取代、A至G取代、A至C取代、T至C取代、T至G取代、T至A取代；和/或包括一个或多个核苷酸的缺失，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸缺失；和/或包括一个或多个核苷酸的插入，例如1个至大约100个或更多个，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸插入

在另一方面，本发明还提一种产生经遗传修饰的细胞的方法，包括将本发明的引导编辑系统导入所述细胞。

在另一方面，本发明还提供经遗传修饰的生物体，其包含通过本发明的方法产生的经遗传修饰的细胞或其后代细胞。

在本发明中，待进行修饰的靶序列可以位于基因组的任何位置，例如位于功能基因如蛋白编码基因内，或者例如可以位于基因表达调控区如启动子区或增强子区，从而实现对所述基因功能修饰或对基因表达的修饰。可以通过T7EI、PCR/RE或测序方法检测所述细胞靶序列中的修饰。

在本发明的方法中，所述引导编辑系统可以通过本领域技术人员熟知的各种方法导入细胞。

可用于将本发明的引导编辑系统导入细胞的方法包括但不限于：磷酸钙转染、原生质融合、电穿孔、脂质体转染、微注射、病毒感染(如杆状病毒、痘苗病毒、腺病毒、腺相关病毒、慢病毒和其他病毒)、基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化。

可以通过本发明的方法进行基因编辑的细胞可以来自例如，哺乳动物如人、小鼠、大鼠、猴、犬、猪、羊、牛、猫；家禽如鸡、鸭、鹅；植物，包括单子叶植物和双子叶植物，例如水稻、玉米、小麦、高粱、大麦、大豆、花生、拟南芥等。

在一些实施方式中，本发明的方法在体外进行。例如，所述细胞是分离的细胞，或在分离的组织或器官中的细胞。

在另一些实施方式中，本发明的方法还可以在体内进行。例如，所述细胞是生物体内的细胞，可以通过例如病毒或土壤农杆菌介导的方法将本发明的系统体内导入所述细胞。

四、产生经遗传修饰的植物的方法

另一方面，本发明提供了一种产生经遗传修饰的植物的方法，包括将本发明的引导编辑系统导入至少一个所述植物，由此导致所述至少一个植物的基因组中的修饰。所述修饰包括一或多个核苷酸的取代、缺失和/或添加。例如，所述修饰包括一个或多个选自以下的取代：C至T取代、C至G取代、C至A取代、G至T取代、G至C取代、G至A取代、A至T取代、A至G取代、A至C取代、T至C取代、T至G取代、T至A取代；和/或包括一个或多个核苷酸的缺失，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸缺失；和/或包括一个或多个核苷酸的插入，例如1个至大约100个或更多个，例如1个至大约100个或更多个，例如1个、2个、3个、4个、5个、大约10个、大约20个、大约30个、大约40个、大约50个、大约75个、大约100个的核苷酸插入。

在一些实施方案中，所述方法还包括从所述至少一个植物筛选具有期望的修饰的植物。

在本发明的方法中，所述引导编辑系统可以本领域技术人员熟知的各种方法导入植物。可用于将本发明的引导编辑系统导入植物的方法包括但不限于：基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化、植物病毒介导的转化、花粉管通道法和子房注射法。优选地，通过瞬时转化将所述基因组编辑系统导入植物。

在本发明的方法中，只需在植物细胞中导入或产生所述引导编辑融合蛋白和gRNA即可实现对基因组的修饰，并且所述修饰可以稳定遗传，无需将编码所述编辑系统的组分的外源多核苷酸稳定转化植物。这样避免了稳定存在的(持续产生的)编辑系统的潜在脱靶作用，也避免外源核苷酸序列在植物基因组中的整合，从而具有更高生物安全性。

在一些优选实施方式中，所述导入在不存在选择压力下进行，从而避免外源核苷酸序列在植物基因组中的整合。

在一些实施方式中，所述导入包括将本发明的引导编辑系统转化至分离的植物细胞或组织，然后使所述经转化的植物细胞或组织再生为完整植物。优选地，在不存在选择压力下进行所述再生，也即是，在组织培养过程中不使用任何针对表达载体上携带的选择基因的选择剂。不使用选择剂可以提高植物的再生效率，获得不含外源核苷酸序列的经修饰的植物。

在另一些实施方式中，可以将本发明的引导编辑系统转化至完整植物上的特定部位，例如叶片、茎尖、花粉管、幼穗或下胚轴。这特别适合于难以进行组织培养再生的植物的转化。

在本发明的一些实施方式中，直接将体外表达的蛋白质和/或体外转录的RNA分子(例如，所述表达构建体是体外转录的RNA分子)转化至所述植物。所述蛋白质和/或RNA分子能够在植物细胞中实现基因组编辑，随后被细胞降解，避免了外源核苷酸序列在植物基因组中的整合。

因此，在一些实施方式中，使用本发明的方法对植物进行遗传修饰和育种可以获得其基因组无外源多核苷酸整合的植物，即非转基因(transgene-free)的经修饰的植物。

一些实施方案中，所述方法还包括在升高的温度下培养已经导入所述引导编辑系统的植物细胞、组织或完整植物，所述升高的温度例如是37℃。

在本发明的一些实施方式中，其中所述被修饰的基因组区域与植物性状如农艺性状相关，由此所述修饰取代导致所述植物相对于野生型植物具有改变的(优选改善的)性状，例如农艺性状。

在一些实施方式中，所述方法还包括筛选具有期望的修饰和/或期望的性状如农艺性状的植物的步骤。

在本发明的一些实施方式中，所述方法还包括获得所述经遗传修饰的植物的后代。优选地，所述经遗传修饰的植物或其后代具有期望的修饰和/或期望的性状如农艺性状。

在另一方面，本发明还提供了经遗传修饰的植物或其后代或其部分，其中所述植物通过本发明上述的方法获得。在一些实施方式中，所述经遗传修饰的植物或其后代或其部分是非转基因的。优选地，所述经遗传修饰的植物或其后代具有期望的遗传修饰和/或期望的性状如农艺性状。

在另一方面，本发明还提供了一种植物育种方法，包括将通过本发明上述的方法获得的经遗传修饰的第一植物与不含有所述修饰的第二植物杂交，从而将所述修饰导入第二植物。优选地，所述经遗传修饰的第一植物具有期望的性状如农艺性状。

“农艺性状”特别是指作物植物的可测量的指标参数，包括但不限于：叶片绿色、籽粒产量、生长速率、总生物量或积累速率、成熟时的鲜重、成熟时的干重、果实产量、种子产量、植物总氮含量、果实氮含量、种子氮含量、植物营养组织氮含量、植物总游离氨基酸含量、果实游离氨基酸含量、种子游离氨基酸含量、植物营养组织游离氨基酸含量、植物总蛋白含量、果实蛋白含量、种子蛋白含量、植物营养组织蛋白质含量、除草剂的抗性抗旱性、氮的吸收、根的倒伏、收获指数、茎的倒伏、株高、穗高、穗长、抗病性、抗寒性、抗盐性和分蘖数等。

五、试剂盒

本发明还包括用于本发明的方法的试剂盒，该试剂盒至少包括本发明的引导编辑融合蛋白或所述引导编辑融合蛋白的表达构建体。该试剂盒还可以包含用于制备pegRNA的表达构建体及相关试剂。该试剂盒还可以包含用于将所述引导编辑系统导入生物体或生物体细胞的试剂。试剂盒一般包括表明试剂盒内容物的预期用途和/或使用方法的标签。术语标签包括在试剂盒上或与试剂盒一起提供的或以其他方式随试剂盒提供的任何书面的或记录的材料。

实施例

材料与方法

1、载体构建

将编码PPE(SEQ ID NO:18)的基因片段通过PCR在M-MLV逆转录酶的相应位点进行点突变或删除相应片段，分别得到编码PPE-F155Y、PPE-F155V、PPE-F156Y、PPE-D524N、PPE-N200C、PPE-ΔRNase H、PPE-ΔRNase H-ΔConnection的基因片段，之后经过Gibson法连接，获得相应终载体。包含F155Y、F155V、F156Y、D524N、N200C的M-MLV逆转录酶序列分别如SEQ ID NO:9-13所示。M-MLV逆转录酶ΔRNase H的序列如SEQ ID NO:14所示。M-MLV逆转录酶ΔRNase H-ΔConnection的序列如SEQ ID NO:15所示。

此外，将编码核衣壳蛋白NC(SEQ ID NO:6)、水解酶PR(SEQ ID NO:7)或整合酶IN(SEQ ID NO:8)的基因片段经过植物密码子优化后，分别融合至编码PPE中M-MLV基因片段的5'端或3'端，之后经过Gibson法构建，获得相应终载体。同样，将编码核衣壳蛋白NC的基因片段经过植物密码子优化后融合至编码PPE-ΔRNase H的M-MLV逆转录酶ΔRNase H基因片段的5'端，获得PPE-ΔRNase H-NC(enhanced PPE，ePPE，氨基酸序列如SEQ ID NO:19所示)，之后经过Gibson法构建，获得相应终载体。具体载体如图1所示。

使用Gibson法将pegRNA片段(包括RT模板及PBS序列)构建至OsU3启动子启动的载体上，获得适用于水稻的OsU3-pegRNA构建体。

2、原生质体分离和转化

本发明中使用的原生质体来自于水稻中花11品种。

2.1水稻苗培养

水稻品种为中花11，种子先用75％乙醇漂洗1分钟，再用4％次氯酸钠处理30分钟，无菌水洗涤5次以上。放在M6培养基上培养3-4周，26℃，避光处理。

2.2原生质体分离

(1)剪下水稻茎秆，用刀片将其中间部分切成0.5-1mm的丝，放入0.6M的Mannitol溶液中避光处理10min，再用滤网过滤，将其放入50mL酶解液(0.45μm滤膜过滤)中，抽真空(压强约15Kpa)30min，取出后放置于摇床(10rpm)上室温酶解5h；

(2)加30-50mL W5稀释酶解产物，用75μm尼龙滤膜过滤酶解液于圆底离心管中(50mL)；

(3)23℃，250g(rcf)，升3降3，离心3min，弃上清；

(4)用20mL W5轻轻悬起细胞，重复步骤(3)

(5)加适量MMG悬浮，待转化。

2.3原生质体转化

(1)分别加所需转化载体各10μg于2mL离心管，混匀后，用去尖的枪头吸取200μL原生质体，轻弹混匀，加入220μL PEG4000溶液，轻弹混匀，室温避光诱导转化20-30min；

(2)加880μL W5轻轻颠倒混匀，250g(rcf)，升3降3，离心3min，弃上清；

(3)加1mL WI溶液，轻轻颠倒混匀，轻轻转至转移到流式管中，室温暗处培养40小时左右。

3、流式细胞分析

采用FACSAria III(BD Biosciences)仪器进行路试细胞分析，具体流程如下：

(1)检查鞘液桶和乙醇桶是否有充足的液体以及废液桶是否倾倒干净。开启稳压电源，仪器开机，打开荧光开关，打开BD FACSDiva Software软件，进入开机流程。

(2)断开气路和液路连接至鞘液桶上，确认闭合喷嘴在流动检测池相应位置，进行开机检测。

(3)更换合适孔径喷嘴，设置软件模式与实际喷嘴相符，开启激光，启动液流。

(4)选择新建程序，建立合适的实验方案。

(5)选择密度图，画两张散点图，一张为FSC/SSC散点图，一张为GFP/PE-Texas Red散点图。

(6)对FSC/SSC电压进行调整，使点分布于散点图中心位置附近。对FL1电压进行调整，使对照组原生质体群体分布于散点图中心位置附近，实验组原生质体群体(如转化GFP荧光蛋白的原生质体)分布于GFP荧光通道信号更强的位置。可以通过进一步调节补偿使两个群体之间的差异更显著。

(7)通过对照组确定门的界限，保证实验组原生质体群体位于界限范围之内且对照组原生质体群体位于界限范围之外。

(8)点击需分选的细胞群体，选择left sort，根据实验需要及目标细胞比例对分析条件及模式进行设置。

(9)依次上样读取度数，保存数据。

(10)关闭液流，更换闭合喷嘴，用FACS clean液体与无菌水清洗流动检测池，关闭软件及仪器，关闭稳压电源，释放仪器压力。

4、原生质体DNA提取与扩增子测序分析

4.1原生质体DNA提取

收集原生质体于2mL离心管中，利用CTAB法提取原生质体DNA(～30μL)，并利用NanoDrop超微量分光光度计测定其浓度(30-60ng/μL)，-20℃保存。

4.2扩增子测序分析

(1)利用基因组引物对原生质体DNA模板进行PCR扩增。20μL扩增体系包含4μL 5×Fastpfu buffer，1.6μL dNTPs(2.5mM)，0.4μL Forward primer(10μM)，0.4μL Reverse primer(10μM)，0.4μL FastPfu polymerase(2.5U/μL)，以及2μL DNA template(～60ng)。扩增条件：95℃预变性5min；95℃变性30s，50-64℃退火30s，72℃延伸30s，35个循环；72℃充分延伸5min，12℃保存；

(2)上述扩增产物稀释10倍，取1μL作为第二轮PCR扩增模板，扩增引物为含有Barcode的测序引物。50μL扩增体系包含10μL 5×Fastpfu buffer，4μL dNTPs(2.5mM)，1μL Forward primer(10μM)，1μL Reverse primer(10μM)，1μL FastPfu polymerase(2.5U/μL)，以及1μL DNA template。扩增条件如上，扩增循环数为35个循环。

(3)PCR产物于2％琼脂糖凝胶电泳分离，并利用AxyPrep DNA Gel Extraction kit对目的片段进行胶回收，回收产物利用NanoDrop超微量分光光度计进行定量分析；分别取100ng回收产物进行混合，并送生工生物工程有限公司进行扩增子测序文库构建及扩增子测序分析。

(4)待测序完成后，按测序引物对原始数据进行拆分，以WT作为对照，在3次重复试验的不同基因靶向位点上对产物的编辑类型及编辑效率进行比较和分析。

5.原生质体蛋白提取及蛋白免疫印迹(Western-Blot)

5.1原生质体蛋白质提取

(1)将培养48小时后的原生质体样品取出，颠倒混匀，12,000rpm离心8分

钟，弃掉上清液，加入50μL现配的蛋白提取液，涡旋振荡，使其混匀。

(2)将上一步骤中1.5mL的离心管在冰上静置30分钟，再次涡旋振荡混匀。

(3)低温离心机12,000rpm，4℃离心15分钟。

(4)用移液器取上清液，转移至一个新的1.5mL离心管中。

(5)从上述离心管中吸取2μL到新的1.5mL离心管中，加入18μL的双蒸水稀释。

(6)在上述体系中加入1mL Bradford 1×Dye Reagent，并充分振荡混匀后静置5分钟，用Eppendorf Biophotometer plus核酸蛋白测定仪对蛋白浓度进行初步测定。

(7)用蛋白提取缓冲液调整不同样品的浓度，加上样缓冲液10μL，振荡混匀，100℃金属浴5分钟使其变性。

(8)12,000rpm离心1分钟，用移液器吸取取上清液，使用SDS-PAGE胶电泳。

5.2蛋白免疫印迹(Western-Blot)

(1)配制8％的下层分离胶和5％的上层浓缩胶，上样，120V电泳1.5小时。

(2)提前剪好NC膜与滤纸，使用转膜缓冲液将其充分浸泡。

(3)本研究使用半干法进行转膜操作，将浸泡的滤纸，浸泡的NC膜，电泳完毕的SDS-PAGE胶，浸泡的滤纸从下到上放置。利用50mL圆底离心管来回滚动压实，尽量去除干净气泡。

(4)设置电流恒定为200mA，转膜1小时。

(5)将NC膜放入TBST缓冲液中，洗去转膜缓冲液，这一步骤约室温摇床上摇动5分钟。

(6)倒掉缓冲液，加入适量5％的脱脂牛奶(TBST配制)，在室温摇床慢速摇动孵育2小时，进行封闭。

(7)将封闭液倒掉，在新的5％脱脂牛奶中加入适当稀释比例的一抗，放于4℃摇床低转速过夜孵育。

(8)将一抗倒掉，使用TBST缓冲液洗涤NC膜3次，每次5分钟。

(9)加入含有稀释过的对应二抗的牛奶，室温孵育小时。

(10)将二抗倒掉，使用TBST缓冲液洗涤NC膜3次，每次5分钟，将NC膜封于特定的塑料袋中。

(11)将显色液A和显色液B(Tiangen)等量混匀，加入到上述塑料袋，孵育3分钟。

(12)排净塑料袋的显色液，放置于暗夹中，在暗室进行显影，显影时间根据蛋白丰度进行调整。

实施例1.使用报告系统筛选不同构建体

为了将上述多个改造快速且直观地筛选出效率有提升的构建体，在水稻原生质体中利用BFP-GFP报告系统进行初步筛选。通过流式细胞分析，结果如图2所示，表明PPE-ΔRNase H、PPE-NCv1和PPE-NCv2编辑效率相对原始PPE具有改善。因此选择这三个构建体进行后续内源靶点测试。

实施例2.不同PPE蛋白改造可提高引导编辑系统的编辑效率

为了测试上述筛选出的构建体对引导编辑系统的影响，对水稻16个内源靶点进行了测试。将这些构建体与pegRNA共转化至水稻原生质体细胞中，通过扩增子测序分析对引导编辑系统的编辑效率进行分析。结果如图3所示，表明在大多数测试位点中，PPE-NCv1，PPE-NCv2，PPE-ΔRNase H相对于PPE均有不同程度的效率的提升，其中PPE-NCv1提升幅度最高，PPE-NCv2和PPE-ΔRNase H次之。

实施例3.不同PPE蛋白改造的结合可进一步提高引导编辑系统的编辑效率

为了测试同时融合NC和删除RNase H(ePPE)是否可以进一步提升引导编辑系统效率。选取了12个位点进行测试，将这些构建体与pegRNA共转化至水稻原生质体细胞中，通过扩增子测序分析对引导编辑系统的编辑效率进行分析。结果如图4所示，表明在大部分位点中，ePPE(PPE-NCv1+ΔRNase H)编辑效率最高，效率从高到低依次为ePPE>PPE-NCv1>PPE-ΔRNase H>PPE。

实施例4.不同PPE蛋白改造后的蛋白表达量的测试

为了测试上述改造后PPE蛋白相比原始PPE蛋白是否在蛋白表达量上有所提高进而提升了其引导编辑效率，将相应蛋白转化水稻原生质体，提取原生质体蛋白后进行Western-Blot，结果如图5所示，表明PPE-NCv1、PPE-NCv2、PPE-ΔRNase H、ePPE蛋白的表达量明显高于原始PPE蛋白表达量，且ePPE的蛋白表达量最高，与其引导编辑效率高低相对应。

实施例5.ePPE蛋白可有效提高大于15bp片段删除或插入的编辑效率

为了测试ePPE相比较于原始PPE蛋白除了对碱基替换或少数几个碱基删除或插入有效果外，还测试了该系统对稍大片段的插入或删除的效率。选取了18个位点进行测试，将这些构建体与pegRNA共转化至水稻原生质体细胞中，通过扩增子测序分析对引导编辑系统的编辑效率进行分析。结果如图6所示，表明所测试位点中，ePPE编辑效率最高，可有效实现18-34bp的插入及15-90bp的片段删除。

实施例6.ePPE蛋白可有效拓宽引导编辑系统范围

为了测试ePPE融合SpG核酸酶时相比较于原始PPE蛋白对其他PAM的靶向效果。选取了4个位点的NGC、NGA和NGG PAM进行测试，将这些构建体与pegRNA共转化至水稻原生质体细胞中，通过扩增子测序分析对引导编辑系统的编辑效率进行分析。结果如图7所示，所测试位点中ePPE编辑效率可有效拓宽引导编辑效果。

实施例7.ePPE在水稻愈伤中的编辑效率

为了进一步测试ePPE在稳定转化水稻愈伤中的突变效率。选取水稻的四个靶点进行测试。经过对抗性愈伤的鉴定，结果如图8所示，ePPE在愈伤中的编辑效率与其在原生质体中的测试效率一致，均比对照的PPE辑效率高，且编辑效率最高可达31.5％。

实施例8.ePPE创制抗除草剂水稻植物

通过靶向水稻OsALS基因的W548位点，将其突变为W548M，发现ePPE介导的突变效率为11.3％,PPE介导的效率只有0.6％。对杂合的突变体进行抗除草剂测试，发现其能够对烟嘧磺隆和甲咪唑烟酸，以及两者叠加都能产生很好的抗性，具体见图9。

实施例9.ePE在猪细胞中的编辑

为了测试ePPE在其他物种中的编辑效率，选取猪细胞的3个靶点进行测试(命名为ePE)。结果如图10所示，ePE相对于原始的PE处理的确有不同程度的效率提升。

实施例10.ePPE蛋白在引导编辑中的脱靶现象

为了确定ePPE是否显著增加了脱靶编辑的效率，分别检测了ePPE对pegRNA错配的耐受性以及与被测内源位点存在1-3个错配的潜在基因组脱靶位点的编辑效率。通过扩增子测序分析对引导编辑系统在内源靶点及潜在脱靶位点的编辑效率进行分析，结果如图11所示，相比于PPE，ePPE在大部分位点没有显著提高脱靶编辑的现象。

实施例11 ePPE与碱基编辑的对比

为了对比ePPE在引入碱基突变的编辑类型时与常用的碱基编辑器的编辑效率，选取7个水稻内源靶点将ePPE分别与A3A-PBE和PABE8e进行对比。扩增子测序分析结果如图12所示，受到PAM的限制，在不计入其他编辑位置的C或A时，引导编辑在精准编辑目标位点时具备更强的编辑优势，ePPE与碱基编辑实现功能的互补，在植物基因组编辑中实现更加灵活的应用。

实施例12 ePPE与pegRNA优化策略相结合进一步提高引导编辑效率

为了进一步提高植物引导编辑效率，将ePPE蛋白与dual-pegRNA策略、epegRNAs策略相结合。结果如图13所示，通过对不同epegRNAs的评估最终选择构建带有3’-tevopreQ1-8nt linker修饰的dual-pegRNA与PPE和ePPE共同转化原生质体，结合dual-pegRNA策略和epegRNAs策略的引导编辑效率存在进一步提高，ePPE-dual-epegRNA的组合相比于PPE-dual-pegRNA高出7.9倍。

序列表

>野生型SpCas9氨基酸序列(SEQ ID NO:1)

>nCas9(H840A)氨基酸序列(SEQ ID NO:2)

>野生型M-MLV-RT氨基酸序列(SEQ ID NO.3)

>M-MLV-RT-connection(SEQ ID NO.4)

>RT-RNase H (SEQ ID NO. 5)

>NC (SEQ ID NO. 6)

>PR (SEQ ID NO. 7)

>IN (SEQ ID NO. 8)

>M-MLV-RT-F155Y (SEQ ID NO. 9)

>M-MLV-RT-F155V (SEQ ID NO. 10)

>M-MLV-RT-F156Y (SEQ ID NO. 11)

>M-MLV-RT-D524N (SEQ ID NO. 12)

>M-MLV-RT-N200C (SEQ ID NO. 13)

>M-MLV-RT-ΔRNase H(SEQ ID NO.14)

>M-MLV-RT-ΔRNase H-ΔConnection(SEQ ID NO.15)

>接头序列(SEQ ID NO:16)

>gRNA支架(SEQ ID NO:17)

>PPE(SEQ ID NO:18)

>ePPE (SEQ ID NO: 19)

Claims

一种用于靶向性修饰植物基因组的引导编辑系统，其包含：

i)引导编辑融合蛋白和/或含有编码所述引导编辑融合蛋白的核苷酸序列的表达构建体，其中所述引导编辑融合蛋白包含CRISPR切口酶和逆转录酶；和/或

ii)至少一种pegRNA和/或含有编码所述至少一种pegRNA的核苷酸序列的表达构建体，

其中所述至少一种pegRNA从5’至3’方向包含引导序列、支架序列、反转录(RT)模板序列和引物结合位点(PBS)序列，

其中所述至少一种pegRNA能够与所述融合蛋白形成复合物并将所述融合蛋白靶向基因组中的靶序列，导致所述靶序列内的切口。
权利要求1的系统，其中所述CRISPR切口酶是Cas9切口酶，例如包含SEQ ID NO:2所示氨基酸序列。
权利要求1或2的系统，其中所述逆转录酶是M-MLV逆转录酶或其功能性变体。
权利要求1-3中任一项的系统，其中所述逆转录酶

(a)包含选自F155Y、F155V、F156Y、D524N、D200C中任一种的突变，所述氨基酸位置参考SEQ ID NO:3；

(b)connection序列被缺失；和/或

(c)RNase H结构域被突变或缺失。
权利要求4的系统，其中所述逆转录酶包含SEQ ID NO:9-15中任一项所述的序列。
权利要求1-5中任一项的系统，其中在所述融合蛋白中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体在N端或C端与核衣壳蛋白(NC)、水解酶(PR)或整合酶(IN)直接地或通过接头融合。
权利要求6的系统，所述核衣壳蛋白(NC)包含如SEQ ID NO:6所示的氨基酸序列，或所述水解酶(PR)包含如SEQ ID NO:7所示的氨基酸序列，或所述整合酶(IN)包含如SEQ ID NO:8所示的氨基酸序列。
权利要求6或7的系统，其中所述逆转录酶在N端与核衣壳蛋白(NC)直接地或通过接头融合，优选地，所述RNase H结构域被缺失的M-MLV逆转录酶的功能性变体在N端与核衣壳蛋白(NC)直接地或通过接头融合。
权利要求1-8中任一项的系统，其中pegRNA中的引导序列被设置为与靶序列具有充分序列相同性，从而能够通过碱基配对与靶序列的互补链结合，实现序列特异性靶向。
权利要求1-9中任一项的系统，其中所述pegRNA的支架序列包含SEQ ID NO:18所述序列。
权利要求1-10中任一项的系统，其中所述引物结合序列被设置为与所述靶序列的至少一部分互补，优选地，所述引物结合序列与所述切口导致的3’游离单链的至少一部分互补，特别是与所述3’游离单链的3’末端的核苷酸序列互补。
权利要求1-11中任一项的系统，其中所述引物结合序列的Tm(解链温度)为大约18℃-52℃，优选大约24℃-36℃，更优选大约28℃-32℃，更优选大约30℃。
权利要求1-12中任一项的系统，其中，所述RT模板序列被设置为对应于切口下游的序列，并包含期望的修饰，所述修饰包括一或多个核苷酸的取代、缺失和/或添加。
权利要求1-13中任一项的系统，其中所述引导编辑融合蛋白包含SEQ ID NO:19所示氨基酸序列。
一种产生经遗传修饰的细胞的方法，包括将权利要求1-14中任一项的引导编辑系统导入至少一个所述细胞，由此导致所述至少一个细胞的基因组中靶序列的修饰。