WO2023078384A1

WO2023078384A1 - 分离的Cas13蛋白及其应用

Info

Publication number: WO2023078384A1
Application number: PCT/CN2022/129825
Authority: WO
Inventors: 梁峻彬; 梁兴祥; 孙阳; 徐辉; 彭志琴; 司凯威; 皇甫德胜
Original assignee: Zhejiang Synsorbio Technology Co Ltd; Guangzhou Reforgene Medicine Co Ltd
Current assignee: Zhejiang Synsorbio Technology Co Ltd; Guangzhou Reforgene Medicine Co Ltd
Priority date: 2021-11-05
Filing date: 2022-11-04
Publication date: 2023-05-11
Anticipated expiration: 2024-05-05
Also published as: CN116083398B; EP4428232A4; US20240279630A1; CN116083398A; CN118510892A; EP4428232A1

Abstract

本发明公开了一种分离的Cas13蛋白及其应用。所述分离的Cas13蛋白的氨基酸序列包含与SEQ ID NO:1-7、SEQ ID NO:60任一项所示序列具有≥50％序列同一性的序列。该Cas13蛋白为Cas13酶，具有核酸内切酶活性，可用于CRISPR/Cas系统，实现对靶核酸的靶向和修饰，丰富了CRISPR-Cas编辑系统可用酶和体系。

Description

分离的Cas13蛋白及其应用

本申请要求申请日为2021/11/5的中国专利申请2021113061499和申请日为2022/5/13的中国专利申请2022105188261的优先权。本申请引用上述中国专利申请的全文。

技术领域

本发明涉及基因编辑技术领域，特别是涉及一种分离的Cas13蛋白及其应用。

背景技术

CRISPR-Cas13是基于细菌免疫系统的RNA靶向和编辑系统，可保护其免受病毒侵袭。该系统与CRISPR-Cas9系统基本类似，但与靶向DNA的CRISPR-Cas9系统不同，Cas13蛋白可靶向切割RNA。

CRISPR-Cas13是CRISPR-Cas系统中的第二大类的第VI型，它包含单一的效应蛋白质Cas13，与CRISPR RNA(crRNA)组装时可形成一个由crRNA引导的RNA靶向效应复合物。许多Cas13蛋白具有两类不同的核糖核酸酶活性，一类是RNase负责的pre-crRNA预处理形成成熟的VI型干扰复合物；而另一类RNase活性由两个较高等真核生物和原核生物核苷酸结合(Higher eukaryotes and prokaryotes nuceotide-binding，HEPN)结构域提供。HEPN结构域能够帮助切割RNA，例如ssRNA，且当靶RNA中存在折叠结构时，Cas13一般优先在非碱基配对的ssRNA区域进行剪切。

目前CRISPR-Cas13根据系统发育可分为多个亚型(A、B、C和D)。

本领域一直在致力于寻找新的Cas13蛋白。虽然截至目前已发现成千上万个Cas13蛋白，但其中具有活性的蛋白却并不多。例如，其中大部分Cas13蛋白未报道RNA靶向或修饰活性。有文献指出，Cas13一旦通过靶标识别而激活后，会不加选择地切割RNA并诱导休眠或细胞死亡。

开发具有RNA靶向/修饰活性的Cas13蛋白目前仍是一个难题。

发明内容

基于此，有必要针对上述问题，提供一种分离的Cas13蛋白，该Cas13蛋白具有结合、靶向和/或修饰靶RNA的活性。

本发明公开了分离的Cas13蛋白，所述Cas13蛋白的氨基酸序列包含与SEQ ID NO:1-SEQ ID NO:7、SEQ ID NO:60任一项所示序列具有≥50％序列同一性的序列。

上述Cas13蛋白，是发明人在众多蛋白中经过反复筛选、尝试后得到，其具有可与 gRNA形成复合物、与gRNA形成复合物并结合靶核酸、被gRNA引导至靶核酸和/或靶向或修饰靶核酸等活性。

可以理解的，上述Cas13蛋白的氨基酸序列也可以包含与SEQ ID NO:1-SEQ ID NO:7、SEQ ID NO:60任一项所示序列具有≥50％、≥60％、≥70％、≥75％、≥80％、≥85％、≥90％、≥92％、≥95％、≥96％、≥97％、≥98％、≥99％、≥99.5％或100％的序列同一性的序列，即上述序列所示氨基酸序列仅为所述Cas13蛋白的氨基酸序列的一部分，该Cas13蛋白还可包含其它功能或非功能结构域。上述Cas13蛋白的氨基酸序列也可以是与SEQ ID NO:1-SEQ ID NO:7、SEQ ID NO:60任一项所示序列具有≥50％、≥60％、≥70％、≥75％、≥80％、≥85％、≥90％、≥92％、≥95％、≥96％、≥97％、≥98％、≥99％、≥99.5％或100％的序列同一性的序列，即上述序列所示氨基酸序列构成的蛋白即为所述Cas13蛋白。

在其中一些实施例中，所述Cas13蛋白可与gRNA形成复合物。

在其中一些实施例中，所述Cas13蛋白可被gRNA引导至靶核酸。可以理解的，当Cas13蛋白被gRNA引导至靶核酸之后，可选地，可以靶向或修饰所述靶核酸，也可以不靶向且也不修饰所述靶核酸。例如，在一些情况下，所述Cas13蛋白被所述gRNA引导至靶核酸后，可以不靶向且不修饰所述靶核酸(例如不切割所述靶核酸)，本领域技术人员可以仅利用其识别所述靶核酸的能力，如使靶核酸被结合但不被切割。在一些情况下，Cas13蛋白被gRNA引导至靶核酸后，可以靶向或修饰所述靶核酸(例如切割所述靶核酸)，例如切割靶mRNA并因此降低翻译水平。

在其中一些实施例中，所述Cas13蛋白可被gRNA引导至靶核酸，并靶向或修饰所述靶核酸。

可以理解的，当该Cas13蛋白靶向靶核酸时，可以产生以下的一种或多种活性：切割一种或多种靶核酸，可视化或检测一种或多种靶核酸，标记一种或多种靶核酸，运输一种或多种靶核酸，掩蔽一种或多种靶核酸，结合一种或多种靶核酸，提高靶核酸对应基因的转录和/或翻译水平，和降低靶核酸对应基因的转录和/或翻译水平。

在其中一些实施例中，所述靶向所述靶核酸是切割所述靶核酸或结合所述靶核酸。

在其中一些实施例中，所述靶向所述靶核酸是结合所述靶核酸。所述结合可以是gRNA指导序列与靶序列碱基互补配对所导致的结合。

在其中一些实施例中，所述靶向所述靶核酸是切割所述靶核酸。

在其中一些实施例中，所述靶核酸是RNA。在其中一些实施例中，所述RNA任选自mRNA、miRNA、rRNA、tRNA、snRNA和结构RNA。所述Cas13蛋白可以被gRNA引导至所述靶核酸，然后可选地切割或不切割该靶核酸。

在其中一些实施例中，所述靶核酸是mRNA。在一些情况下，当靶核酸是mRNA时，所述Cas13蛋白可以被gRNA引导至所述靶核酸，然后可选地切割或不切割靶核酸。

在其中一些实施例中，所述靶核酸是PTBP1(Polypyrimidine Tract Binding Protein 1)mRNA、AQp1(Aquaporin 1)mRNA、VEGFA(Vascular Endothelial Growth Factor A)mRNA、VEGFR1(Vascular endothelial growth factor receptor 1)mRNA或VEGFR2(Vascular endothelial growth factor receptor-2)mRNA。

在其中一些实施例中，所述靶核酸是PTBP1(Polypyrimidine Tract Binding Protein 1)mRNA或AQp1(Aquaporin 1)mRNA。也即用于敲低AQp1 mRNA水平，从而减少房水生成，使眼压降低，用于治疗青光眼等疾病；或者用于敲低PTBP1 mRNA水平，从而实现脑部星形胶质细胞向神经元的转分化，用于治疗帕金森氏症等疾病。在其中一些实施例中，所述靶核酸是VEGFA mRNA、VEGFR1 mRNA或VEGFR2 mRNA，通过敲低mRNA水平可以用于治疗年龄相关性黄斑变性(AMD)。

应理解，在此前的发展中，人们已经发现了很多基因/蛋白调控靶点与人畜/植物疾病、动植物性状等等具有相关性，基于本发明所建立的CRISPR系统对于此类靶点的结合、靶向或修饰均是可行的。

在其中一些实施例中，所述Cas13蛋白来源于：与具有包含SEQ ID NO:1-SEQ ID NO:7、SEQ ID NO:60任一项所示序列的氨基酸序列的蛋白来源相同的界(Kingdom)、门(Phylum)、纲(Class)、目(Order)、科(Family)、属(Genus)或种(Species)。

其中，包含SEQ ID NO:1所示序列的蛋白对应为Cas13m.1，包含SEQ ID NO:2所示序列的蛋白对应为Cas13m.2，包含SEQ ID NO:3所示序列的蛋白对应为Cas13m.3，包含SEQ ID NO:4所示序列的蛋白对应为Cas13m.4，包含SEQ ID NO:5所示序列的蛋白对应为Cas13m.5，包含SEQ ID NO:6所示序列的蛋白对应为CasRfg.1，包含SEQ ID NO:7所示序列的蛋白对应为CasRfg.2，包含SEQ ID NO:60所示序列的蛋白对应为Cas13m.6。

在其中一些实施例中，Cas13m.1蛋白来源于噬纤维菌目(Cytophagales bacterium)，Cas13m.2蛋白来源于包含CNGB数据库中编号CNA0011077所示基因组的细菌，Cas13m.3蛋白来源于拟杆菌门(Bacteroidetes bacterium)，Cas13m.4蛋白来源于包含CNGB数据库中编号CNA0007373所示基因组的细菌，Cas13m.5蛋白来源于拟杆菌门(Bacteroidetes bacterium)，Cas13m.6蛋白来源于普雷沃氏菌科(Prevotellaceae bacterium)，CasRfg.1蛋白来源于包含NCBI数据库中编号GCA_003940745.1所示基因组的细菌，CasRfg.2蛋白来源于包含CNGB数据库中编号CNA0009477所示基因组的细菌。

在其中一些实施例中，所述Cas13蛋白来源于：

1)污水宏基因组、Cytophagales bacterium、或拟杆菌属细菌；

2)具有与NCBI数据库中编号为GCA_003940745.1、GCA_013298125.1、 GCA_902762805.1或GCA_013298545.1所示基因组，或CNGB数据库中编号为CNA0011077、CNA0007373或CNA0009477所示基因组ANI值≥95％基因组的物种；

3)与污水WW分离株、bin5.concoct.b16b17b19.071、RUG10805或bin17.concoct.ball.095分离株基因组ANI值≥95％基因组的物种。

平均核苷酸同一性(average nucleotide identity,ANI)是一种在核酸水平上评价两个基因组之间所有直系同源蛋白编码基因的相似性的指标，对于细菌/古细菌一般以阈值ANI＝95％来作为判断是否为同一物种的依据(Richter M，Rosselló-Móra R.Shifting the genomic gold standard for the prokaryotic species definition.Proc Natl Acad Sci U S A.2009 Nov 10；106(45):19126-31)，因此，本发明以上述阈值进行界定，认为与上述基因组ANI值≥95％的物种均为同一物种，其中的Cas13蛋白与本发明要求保护的蛋白具有同源性，功能相似，属于本发明的范围。

在其中一些实施例中，所述分离的Cas13蛋白来自包含与NCBI数据库中编号为GCA_003940745.1、GCA_013298125.1、GCA_902762805.1或GCA_013298545.1所示基因组，或CNGB数据库中编号为CNA0011077、CNA0007373或CNA0009477所示基因组的ANI值≥95％的基因组的物种(species)。

在其中一些实施例中，所述分离的Cas13蛋白来自包含与NCBI数据库中编号为GCA_013298125.1、GCA_902762805.1或GCA_013298545.1所示基因组，或CNGB数据库中编号为CNA0011077、CNA0007373或CNA0009477所示基因组的ANI值≥95％的基因组的物种(species)。

在其中一些实施例中，所述分离的Cas13蛋白来自包含NCBI数据库中编号为GCA_003940745.1、GCA_013298125.1、GCA_902762805.1或GCA_013298545.1所示基因组，或CNGB数据库中编号为CNA0011077、CNA0007373或CNA0009477所示基因组的细菌。

在其中一些实施例中，所述分离的Cas13蛋白来自污水WW分离株、bin5.concoct.b16b17b19.071、RUG10805或bin17.concoct.ball.095分离株。

本发明还公开了一种分离的Cas13蛋白，所述Cas13蛋白质包含以下基序1-15所示氨基酸序列：

基序1：L-x(3)-R-N-x-Y-[ST]-H(SEQ ID NO:84)
基序2：R-x(3)-K-x-[VI]-N-G-F-G-R(SEQ ID NO:85)
基序3：P-Y-[IV]-T-x(5)-Y-x-[IV]-x(2)-N-x-I-G-L(SEQ ID NO:86)
基序4：P-x-L-x(2)-D-x(3)-[NK]
基序5：P-x-[AC]-x-L-S-x(2)-[ED]-[LF]-P-A-x(2)-F(SEQ ID NO:87)

基序6：[LI]-P-x-K-L
基序7：[KT]-x-[AL]-x(2)-[KVE]-[IL]
基序8：A-[DRK]-x-L-x(2)-[DS]-[MI]-[MV]-x-[FW]-Q-P(SEQ ID NO:88)
基序9：K-L-T-x(2)-N(SEQ ID NO:89)
基序10：F-x-[HR]-[AF]-x(5)-[QR]
基序11：I-x-L-P-x-G-[LM]-F-x(3)-I(SEQ ID NO:90)
基序12：[LI]-I-x(2)-[YWF]-F
基序13：I-x(3)-I
基序14：[DN]-[TN]-E-x(2)-[IL]-[KR]-[VR]-Y-[KR]-x-Q-D(SEQ ID NO:91)
基序15：R-N-[SA]-[FA]-x-H-x(2)-Y(SEQ ID NO:92)

其中，A、F、C、U、D、N、E、Q、G、H、L、I、K、O、M、P、R、S、T、V、W、Y为标准氨基酸代码，“x”为任意氨基酸，x后的括号内的数字表示连续的多个x，“[]”内为择一可选氨基酸代码，“-”为分隔符。

在其中一些实施例中，所述Cas13蛋白从N端至C端依次包括基序1-15。

在其中一些实施例中，所述基序1选自基序16，所述基序2选自基序17，所述基序3选自基序18，所述基序4选自基序19，所述基序5选自基序20，所述基序6选自基序21，所述基序7选自基序22，所述基序8选自基序23，所述基序9选自基序24，所述基序10选自基序25，所述基序11选自基序26，所述基序12选自基序27，所述基序13选自基序28，所述基序14选自基序29，所述基序15选自基序30。

所述基序16-30所示氨基酸序列如下：

基序16：L-[RVY]-[EYH]-[LYC]-R-N-[VFM]-Y-[ST]-H(SEQ ID NO:93)

基序17：R-[ST]-[IVL]-[SQ]-K-[NAE]-[VI]-N-G-F-G-R(SEQ ID NO:94)

基序18：P-Y-[IV]-T-[DN]-[HW]-[HR]-[AT]-[KAT]-Y-[LN]-[IV]-[HS]-[NSA]-N-[RH]-I-G-L(SEQ ID NO:95)

基序19：P-[END]-L-[TKD]-[PIT]-D-[GKE]-[AGN]-[RDG]-[NK]

基序20：P-[TMK]-[AC]-[WYS]-L-S-[IV]-[FY]-[ED]-[LF]-P-A-[LM]-[ALV]-F-[LY]-[LCM]-[HY]-[LI]-[YR](SEQ ID NO:96)

基序21：[SNG]-[QE]-[LI]-P-[RED]-K-L

基序22：[KT]-[WHK]-[AL]-[AQE]-[SQE]-[KVE]-[IL]

基序23：A-[DRK]-[FY]-L-[AM]-[HTR]-[DS]-[MI]-[MV]-[FRE]-[FW]-Q-P(SEQ ID NO:97)

基序24：[CG]-[NGK]-[ND]-K-L-T-[GS]-[LAQ]-N(SEQ ID NO:98)

基序25：F-[ALV]-[HR]-[AF]-[NS]-[QSR]-[NSM]-[KR]-[WY]-[QR]

基序26：[KA]-[SPV]-I-[ELM]-L-P-[RD]-G-[LM]-F-[ET]-[ST]-[YH]-I(SEQ ID NO:99)

基序27：[LI]-I-x(2)-[YWF]-F-x(5)-[DQ]-x(2)-Q-[PT]-F-Y-[DR](SEQ ID NO:100)

基序28：I-[RAL]-[KQ]-[KD]-I

基序29：[DN]-[TN]-E-[KTR]-[ED]-[IL]-[KR]-[VR]-Y-[KR]-[ILT]-Q-D(SEQ ID NO:101)

基序30：R-N-[SA]-[FA]-[AG]-H-[NL]-[SRT]-Y-[PK](SEQ ID NO:102)

在其中一些实施例中，所述Cas13蛋白的氨基酸序列包含与SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:60任一项所示序列具有≥50％、≥60％、≥70％、≥75％、≥80％、≥85％、≥90％、≥92％、≥95％、≥96％、≥97％、≥98％、≥99％、≥99.5％或100％序列同一性的序列。进一步地，在其中一些实施例中，所述Cas13蛋白的氨基酸序列为除基序1-基序15以外的任意氨基酸残基，在野生型序列基础上进行氨基酸保守性替换，所述野生型序列包括SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:60所示序列。在其中一些实施例中，所述Cas13蛋白的氨基酸序列包含如SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:60任一项所示序列。

在其中一些实施例中，可将所述Cas13蛋白的氨基酸序列中一个或多个氨基酸残基(如催化残基)突变，使得其完全或部分丧失在gRNA引导下的核酸酶活性。例如对RNA酶的HEPN(较高等真核生物和原核生物核苷酸，higher eukaryotes and pro-karyotes nucleotide,HEPN)结构域的RxxxxH基序进行突变，使得HEPN结构域失活。这样的变化的蛋白尽管降低或丧失了核酸酶的活性、不进行靶核酸的切割，但是其仍然可以靠近和结合至靶核酸。例如可以与其他结构域融合用于对靶核酸的单碱基转换、翻译激活或翻译抑制。

在一些实施方式中，可通过突变或修饰来降低核酸酶活性，如相比野生型Cas13蛋白的核酸酶活性降低至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少97％或100％。

在其中一些实施例中，所述Cas13蛋白可与gRNA形成复合物。

在其中一些实施例中，所述Cas13蛋白可被gRNA引导至靶核酸。

在其中一些实施例中，所述Cas13蛋白来源于：与包含SEQ ID NO:1-SEQ ID NO:7、SEQ ID NO:60任一项所示序列的蛋白来源相同的的界、门、纲、目、科、属或种。

在其中一些实施例中，所述Cas13蛋白是非天然的。

本发明的Cas13蛋白可进行修饰，例如被连接至修饰部分(例如另一个多肽、寡肽或其他分子)。通常，蛋白的修饰不会对该蛋白的期望活性(例如，与gRNA结合的活性、核酸内切酶活性、在gRNA引导下与靶核酸特定位点结合的活性、在gRNA引导下与靶核酸特定位点结合并切割靶核酸的活性)产生不利影响。因此，本发明还意欲包括此类修饰的蛋白。例如，可以将本发明的Cas13蛋白功能性连接(通过化学偶合、共价连接、基因融合、非共价连接或其它方式)一个或多个修饰部分。

本发明公开了一种缀合物，包含上述的Cas13蛋白，以及修饰该Cas13蛋白的修饰部分(即异源功能部分)。

在其中一些实施例中，所述缀合物的修饰部分选自另一个多肽、寡肽、可检测的标记、药用试剂、其他分子及其任意组合。

在其中一些实施例中，所述修饰部分选自：提供亚细胞定位的定位标签，有助于追踪、分离或纯化的标签，翻译激活结构域，翻译抑制结构域，核酸酶结构域，脱氨酶结构域，甲基化酶结构域，去甲基化酶结构域和调控剪接结构域(例如调控RNA剪接)。

在其中一些实施例中，所述提供亚细胞定位的定位标签选自：核定位信号(NLS)和核输出信号(NES)序列。NLS的非限制性实例包括但不限于来源于以下各项的NLS序列：SV40病毒大T抗原的NLS序列；来自核质蛋白的NLS序列；c-myc NLS序列；hRNPA1 M9 NLS序列；输入蛋白-α的IBB结构域的NLS序列；肌瘤T蛋白的NLS序列；人p 53的NLS序列；小鼠c-abl IV的NLS序列；流感病毒NS1的NLS序列；肝炎病毒δ抗原的NLS序列；小鼠Mx1蛋白的NLS序列；人聚(ADP-核糖)聚合酶的NLS序列；类固醇激素受体(人)糖皮质激素的NLS序列。

在其中一些实施例中，所述缀合物包含一个或多个核定位信号(NLS)。在其中一些实施例中，所述缀合物包含一个或多个核输出信号(NES)。在其中一些实施例中，所述缀合物包含1、2、3、4、5、6、7、8、9、10个或更多个核定位信号。

在其中一些实施例中，核输出信号包括至少四个疏水残基。

在其中一些实施例中，所述有助于追踪、分离或纯化的标签选自：表位标签，荧光蛋白(例如绿色荧光蛋白(GFP)，YFP，RFP，CFP，mCherry，tdTomato等)，HIS标签(例如6×His标签)，血凝素(HA)标签，FLAG标签，Myc标签，谷胱甘肽S-转移酶(GST)标签以及麦芽糖结合蛋白(MBP)标签。

在其中一些实施例中，所述翻译激活结构域选自：eIF4E和其他翻译起始因子、酵母poly(A)-结合蛋白和GLD2的结构域。

在其中一些实施例中，所述翻译抑制结构域选自：Pumilio蛋白、脱腺苷酶(例如脱腺苷酶CAF1)和Argonaute蛋白。

在其中一些实施例中，所述核酸酶结构域选自：FokⅠ、PIN核酸内切酶结构域、NYN结构域、来自SOT1的SMR结构域和来自葡萄球菌核酸酶的RNA酶结构域。

在其中一些实施例中，所述脱氨酶结构域来自胞苷脱氨酶和腺苷脱氨酶。

在其中一些实施例中，所述脱氨酶结构域选自：PPR蛋白质(Pentatricopeptide repeat)、ADAR家族蛋白质、APOBEC家族蛋白质。

在其中一些实施例中，所述甲基化酶结构域来自m6A甲基化转移酶。

在其中一些实施例中，所述去甲基化结构域来自RNA去甲基化酶ALKBH5。

在其中一些实施例中，所述调控剪接结构域选自：SRSF1、hnRNP A1、RBM4。

在其中一些实施例中，所述缀合物包含上述的Cas13蛋白，以及一个或多个修饰部分。在其中一些实施例中，所述缀合物由上述的Cas13蛋白，以及一个或多个修饰部分组成。在其中一些实施例中，所述缀合物由上述的Cas13蛋白、一个或多个修饰部分，以及用于连接所述Cas13蛋白和修饰部分的接头组成。在一些情况下，所述多个修饰部分可以相同，也可以不同。

在其中一些实施例中，所述缀合物包含或不包含用于连接所述Cas13蛋白和所述修饰部分的接头。

在其中一些实施例中，所述缀合物包含Cas13蛋白，修饰部分以及连接所述Cas13蛋白和所述修饰部分的接头。

在其中一些实施例中，所述缀合物由Cas13蛋白，修饰部分以及连接所述Cas13蛋白和所述修饰部分的接头组成。

在其中一些实施例中，所述缀合物不包含用于连接所述Cas13蛋白和修饰部分的接头。在其中一些实施例中，所述缀合物由所述Cas13蛋白和所述修饰部分直接连接，包括通过共价键直接连接。

在其中一些实施例中，所述接头可以是氨基酸、氨基酸序列或其他化学基团。在其中一些实施例中，所述接头可以是氨基酸、氨基酸衍生物、PEG(聚乙二醇)。

在其中一些实施例中，接头是由1个或多个氨基酸残基通过肽键连接形成的线性多肽，所述氨基酸残基可以是天然的或非天然的，例如可以是经过修饰的。

接头的实例包括包含一个或多个(例如，1个，2个，3个，4个或5个)氨基酸(如Glu或Ser)或氨基酸衍生物(如，Ahx、β-Ala、GABA或Ava)的接头，或PEG等。

与修饰部分相同的结构作为接头的技术方案也在本发明的范围之内。非限制性实例例如，亚细胞定位信号(如NLS或NES)、标签(如HA标签、Flag标签)等作为接头也在本发明的范围之内。

在其中一些实施例中，所述缀合物可与gRNA相互作用。

在其中一些实施例中，所述缀合物可与gRNA形成复合物。

在其中一些实施例中，所述缀合物可与gRNA形成复合物，所述复合物结合至靶核酸。

在其中一些实施例中，所述缀合物可以被gRNA引导至靶核酸。

在其中一些实施例中，所述缀合物可以被gRNA引导至靶核酸，并靶向或修饰所述靶核酸。可以理解的，当所述缀合物被gRNA引导至靶核酸之后，可选地，可以靶向或修饰所述靶核酸，也可以不靶向且也不修饰所述靶核酸。例如，在一些情况下，所述缀合物被gRNA引导至靶核酸后，可以不靶向且不修饰所述靶核酸；例如不切割所述靶核酸，本领域技术人员可以仅利用其结合所述靶核酸的能力。在一些情况下，所述缀合物被gRNA引导至靶核酸后，可以靶向或修饰所述靶核酸，例如切割靶mRNA并因此降低翻译水平。

在其中一些实施例中，所述修饰部分可以连接于所述Cas13蛋白的氨基末端、氨基末端附近、羧基末端和/或羧基末端附近。在其中一些实施例中，所述修饰部分连接于所述Cas13蛋白的氨基末端和/或羧基末端。在其中一些实施例中，所述修饰部分连接于所述Cas13蛋白的氨基末端附近、或羧基末端附近。在其中一些实施例中，当所述修饰部分沿着多肽链在距氨基末端或羧基末端约1、2、3、4、5、10、15、20、25、30、40、50个或更多个氨基酸内时，该修饰部分被认为在氨基末端附近或羧基末端附近。

在其中一些实施例中，所述缀合物包含具有足以驱动所述缀合物在真核细胞的核中和/或之外以可检测的量积累的强度的一个或多个核定位信号和/或核输出信号。检测所述Cas13蛋白或缀合物在细胞特定部位的积累量可通过任何合适的技术进行。

在其中一些实施例中，所述缀合物是非天然的。

本发明还公开了一种gRNA，可与上述的Cas13蛋白或上述的缀合物形成复合物。

可以理解的，上述gRNA能将上述Cas13蛋白或缀合物引导至靶核酸。在其中一些实施例中，所述gRNA能将所述Cas13蛋白或缀合物引导至靶核酸，并靶向或修饰所述靶核酸。在其中一些实施例中，所述gRNA将所述复合物引导至靶核酸，并且随后该复合物靶向或修饰所述靶核酸。在其中一些实施例中，所述靶向所述靶核酸是切割所述靶核酸或结合所述靶核酸。

在其中一些实施例中，所述gRNA包含指导序列和同向重复序列，所述指导序列可与靶核酸互补，所述同向重复序列可与所述Cas13蛋白或与所述缀合物相互作用。

在其中一些实施例中，所述指导序列可与靶核酸互补(完全互补或部分互补)，所述同向重复序列可与所述Cas13蛋白或与所述缀合物相互作用。

在其中一些实施例中，当所述gRNA与本发明的Cas13m蛋白(Cas13m.1～Cas13m.6)、与所述Cas13m蛋白具有≥50％序列同一性的蛋白、或包含其的缀合物联合使用时，所述gRNA的同向重复序列位于所述指导序列的3'端。

在其中一些实施例中，当所述gRNA与本发明的CasRfg.1或CasRfg.2蛋白、与所述CasRfg.1或CasRfg.2具有≥50％序列同一性的蛋白、或包含其的缀合物联合使用时，所述gRNA的同向重复序列位于所述指导序列的5'端。

在其中一些实施例中，所述gRNA包含指导序列和同向重复序列，所述同向重复序列的二级结构包括依次连接的：互补配对的第一茎、非互补的凸起结构、互补配对的第二茎、非互补的环结构。

进一步地，在其中一些实施例中，所述gRNA具有如下特征：a.所述第一茎由4-7对碱基对组成，b.所述非互补的凸起结构其中一条序列长度为2-6个核苷酸，c.所述第二茎由4-7对碱基对组成，和/或d.所述非互补的环结构(未包括环与茎的连接处互补配对的那一对碱基)的序列长度为5-8个核苷酸。

在其中一些实施例中，所述第一茎的其中一条序列选自：GUUG、GUUGU、GUUGUA、GUUGUUA。

在其中一些实施例中，所述gRNA包含指导序列和同向重复序列，所述同向重复序列选自与SEQ ID NO:15-SEQ ID NO:21、SEQ ID NO:62中任一项所示序列具有≥90％序列同一性的序列，或具有≥95％序列同一性的序列。

在其中一些实施例中，所述同向重复序列选自SEQ ID NO:15-SEQ ID NO:21、SEQ ID NO:62中的任一项所示序列。

在其中一些实施例中，所述gRNA包含指导序列和同向重复序列，所述指导序列长度为≥10nt(10个核苷酸)、≥11nt、≥12nt、≥13nt、≥14nt、≥15nt、≥16nt、≥17nt、≥18nt、≥19nt、≥20nt、≥21nt、≥22nt、≥23nt、≥24nt、≥25nt、≥26nt、≥27nt、≥28nt、≥29nt、≥30nt、≥31nt、≥32nt、≥33nt、≥34nt、≥35nt、≥40nt、≥50nt或≥60nt。

在其中一些实施例中，所述gRNA包含指导序列和同向重复序列，所述指导序列长度为≤10nt(10个核苷酸)、≤11nt、≤12nt、≤13nt、≤14nt、≤15nt、≤16nt、≤17nt、≤18nt、≤19nt、≤20nt、≤21nt、≤22nt、≤23nt、≤24nt、≤25nt、≤26nt、≤27nt、≤28nt、≤29nt、≤30nt、≤31nt、≤32nt、≤33nt、≤34nt、≤35nt、≤40nt、≤50nt或≤60nt。

在其中一些实施例中，所述gRNA包含指导序列和同向重复序列，所述指导序列长度范围为10nt-60nt、10nt-50nt、10nt-40nt、12nt-35nt、15nt-35nt、15nt-30nt、20nt-35nt、20nt-30nt、25nt-35nt或25nt-30nt。

在其中一些实施例中，所述gRNA包含指导序列和同向重复序列，所述同向重复序列长度为≥10nt、≥15nt、≥20nt、≥25nt、≥30nt、≥35nt、≥40nt、≥45nt、≥50nt、≥60nt、≥70nt、≥80nt、≥90nt、≥100nt、≥150nt、≥200nt或≥300nt。

在其中一些实施例中，所述gRNA包含指导序列和同向重复序列，所述同向重复序列长度为≤10nt、≤15nt、≤20nt、≤25nt、≤30nt、≤35nt、≤40nt、≤45nt、≤50nt、≤60nt、≤70nt、≤80nt、≤90nt、≤100nt、≤150nt、≤200nt或≤300nt。

在其中一些实施例中，所述gRNA包含指导序列和同向重复序列，所述同向重复序列长度范围为10nt-300nt、10nt-200nt、10nt-100nt、15nt-80nt、15nt-50nt、15nt-40nt、15nt-35nt或20nt-40nt。

在其中一些实施例中，所述同向重复序列位于所述指导序列的3'端。在其中一些实施例中，所述同向重复序列位于所述指导序列的5'端。

在其中一些实施例中，所述靶核酸是PTBP1(Polypyrimidine Tract Binding Protein 1)mRNA、AQp1(Aquaporin 1)mRNA、VEGFA mRNA、VEGFR1 mRNA或VEGFR2 mRNA。

在其中一些实施例中，所述靶核酸是PTBP1 mRNA或AQp1 mRNA。在其中一些实施例中，所述靶核酸是VEGFA mRNA、VEGFR1 mRNA或VEGFR2 mRNA。

本发明还公开了一种组合物，包括：

1)上述的Cas13蛋白、上述的缀合物、编码上述Cas13蛋白的核酸、或编码上述缀合物的核酸；

以及

2)上述的gRNA或编码所述gRNA的核酸。

在其中一些实施例中，所述gRNA包含指导序列，所述指导序列可与靶核酸互补，所述靶核酸为PTBP1 mRNA或AQp1 mRNA。

在其中一些实施例中，所述核酸为DNA。在其中一些实施例中，所述核酸为RNA。

本发明还公开了一种核酸，包括：

1)编码上述的Cas13蛋白的核苷酸序列或编码上述的缀合物的核苷酸序列；

和/或

2)编码上述的gRNA的核苷酸序列。

在其中一些实施例中，所述核苷酸序列用于在原核细胞或真核细胞中进行表达。

本发明还公开了一种载体，其特征在于，所述载体包含：

1)编码上述Cas13蛋白的核苷酸序列或编码上述缀合物的核苷酸序列；

和/或

2)编码上述的gRNA的核苷酸序列。

在其中一些实施例中，所述编码Cas13蛋白的核苷酸序列为一种或几种，所述编码缀合物的核苷酸序列为一种或几种。

在其中一些实施例中，所述载体包含调节元件。

在其中一些实施例中，所述调节元件可以调控所述核苷酸序列的表达。

在其中一些实施例中，所述调节元件为启动子和/或增强子。在其中一些实施例中，所述调节元件为启动子。

在其中一些实施例中，所述载体任选自：克隆载体、表达载体。在其中一些实施例中，所述载体是质粒或病毒载体。

在其中一些实施例中，所述载体能够在细胞内表达本发明的Cas13蛋白或缀合物。在其中一些实施例中，所述载体能够在真核细胞内表达本发明的Cas13蛋白或缀合物。在其中一些实施例中，所述载体能够在人细胞内表达本发明的Cas13蛋白或缀合物。

在其中一些实施例中，所述载体是非天然载体。

本发明还公开了一种递送组合物，包括递送载体，以及选自以下的至少一种：上述的Cas13蛋白、缀合物、gRNA、组合物、核酸、载体。

在其中一些实施例中，所述递送载体选自：递送粒子、递送囊泡、病毒载体中的至少一种。

本发明还公开了一种细胞，包含：上述的Cas13蛋白、缀合物、gRNA、组合物、核酸、载体中的至少一种。

在其中一些实施例中，所述细胞为真核细胞。

在其中一些实施例中，所述靶核酸来源于动物细胞、植物细胞或微生物细胞。

在其中一些实施例中，由所述细胞不能产生动物或植物。

在其中一些实施例中，由所述真核细胞不能产生动物或植物。

在其中一些实施例中，所述真核细胞包含干细胞和干细胞系。在其中一些实施例中，所述干细胞不是胚胎干细胞，并且所述干细胞系不是胚胎干细胞系。

在其中一些实施例中，对于含有本发明的Cas13蛋白、缀合物、gRNA、复合物、分离的核酸、载体、组合物、递送组合物的细胞，这些细胞内的靶核酸已被靶向或修饰。

本发明还公开了一种靶向或修饰靶核酸的方法，包括向所述靶核酸递送选自以下的至少一种：上述的Cas13蛋白、缀合物、gRNA、组合物、核酸、载体、细胞。在其中一些实施例中，所述递送发生于离体、体外或体内。在其中一些实施例中，所述靶向或修饰靶核酸的方法用于通过改变靶核酸来修饰细胞、细胞系或生物体。在其中一些实施例中，所述靶核酸来源于动物细胞、植物细胞或微生物细胞。

在其中一些实施例中，所述靶核酸是PTBP1(Polypyrimidine Tract Binding Protein 1)mRNA或AQp1(Aquaporin 1)mRNA。在其中一些实施例中，所述靶核酸是VEGFA mRNA、VEGFR1 mRNA或VEGFR2 mRNA。

在其中一些实施例中，所述靶向或修饰靶核酸的方法不包括疾病的诊断和治疗方法。

在其中另一些实施例中，所述靶向或修饰靶核酸的方法包括疾病的诊断和治疗方法。

本发明还公开了上述的Cas13蛋白、缀合物、gRNA、组合物、核酸、载体、细胞在制备用于诊断、预防或治疗受试者中疾病的药物中的用途。在其中一些实施例中，所述受试者为人类个体。

本发明还公开了一种将所述的Cas13蛋白、缀合物、gRNA、组合物、核酸、载体、细胞以有效量施用于受试者以诊断、预防或治疗疾病的方法。

本发明还公开了一种核酸检测方法，其特征在于，包括使以下a和b形成复合物并与待测靶核酸结合的步骤：

a.所述的Cas13蛋白或所述的缀合物，

b.所述的gRNA。

在其中一些实施例中，所述方法包括使上述缀合物与所述gRNA形成复合物，并与靶核酸结合；所述缀合物包含可检测标记，所述复合物结合、切割或修饰靶核酸致使所述可检测标记信号变化，通过观测可检测标记的信号变化情况分析待测样品中靶核酸的含量。进一步地，所述可检测标记包括：荧光基团、显色剂、显影剂或放射性同位素。

与现有技术相比，本发明具有以下有益效果：

本发明的分离的Cas13蛋白，为新的Cas13酶，可用于CRISPR/Cas系统。且经实验验证，本发明Cas13蛋白发挥其Cas13核酸酶活性时，可对外源报告基因及内源基因均有好的编辑效率。

附图说明

图1为实施例1中Cas13蛋白与已公开的Cas13各亚型的基因座结构的比较示意图。

图2为实施例1中Cas13蛋白及其他各亚型Cas13蛋白的RxxxxH基序在氨基酸链中的位置。

图3为实施例1中Cas13蛋白及其他各亚型Cas13蛋白的聚类分析示意图，其中，A为Cas13m.1-Cas13m.5聚类分析示意图，B为Cas13m.1-Cas13m.6聚类分析示意图。

图4为利用RNAfold对实施例1中Cas13蛋白对应同向重复序列的RNA二级结构分析示意图。

图5为实施例1中Cas13m.2、Cas13m.3和Cas13m.6蛋白的三维预测结构。

图6为实施例1中Cas13蛋白叠合示意图。

图7为实施例4中流式细胞仪检测GFP荧光结果。

图8为实施例5中qPCR检测内源靶基因AQp1以及PTBP1的mRNA变化示意图。

图9A、图9B和图9C为实施例9中Cas13m蛋白与PbuCas13b的多序列比对截图示意图。

图10为实施例9中的叠合图，其中，A-N分别示出了将Cas13m.6与PbuCas13b进行叠合后Cas13m.6的基序1-15与PbuCas13b对应序列的重叠情况。

图11为实施例11中旁切效应测试结果。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如本文中所使用，被称为“Cas13蛋白”或具有“Cas酶活性”或“Cas核酸内切酶活性”的蛋白或多肽涉及由CRISPR相关(Cas)基因编码的CRISPR相关(Cas)多肽或蛋白，当与一种或多种向导RNA(guide RNA，gRNA)复合或功能性组合时，该Cas13蛋白或多肽能够被引导至靶核酸中的靶序列，有时随后还可以靶向或修饰靶核酸。通过gRNA指导，Cas核酸内切酶识别、靶向或修饰靶核酸中的特异性靶位点(靶序列或靶序列附近的核苷酸序列)，例如可以是在RNA(例如编码RNA，例如mRNA)分子中的靶位点。

如本文中所使用，术语“HEPN结构域”具有本领域通常认为的含义。HEPN结构域已被证明为RNase结构域，并具有结合与切割靶RNA分子的能力。所述靶RNA可以是RNA的任何合适形式，包括但不限于编码RNA和非编码RNA。此前已发现的CRISPR第2类VI型效应蛋白都含有两个HEPN结构域，包括例如Cas13a、Cas13b、Cas13c、Cas13d、Cas13e和Cas13f，其HEPN结构域具有保守的RxxxxH基序，该基序是HEPN结构域的特征。

如本文中所使用的，术语“gRNA”和“向导RNA”可互换使用，其具有本领域技术人员通常理解的含义，gRNA通常是指能与Cas13蛋白结合并有助于将Cas13蛋白引导至/靶向至靶核酸/靶多核苷酸(例如DNA或mRNA分子)内的特定位置(靶序列)的RNA分子(或一组RNA分子的总称)。gRNA含有指导序列和同向重复(DR)序列。gRNA可以包含一个或多个修饰(例如，碱基修饰、骨架修饰、核苷间键的修饰等)，以提供与未修饰gRNA相同的功能，或对gRNA提供新的或增强的特征(例如，改进的稳定性)。

如本文中使用的，术语“指导序列”与“靶向结构域”可互换使用，是指gRNA中的连续核苷酸序列，其与靶核酸中的靶序列具有部分或完全互补性，并且可以通过由Cas13蛋白促进的碱基配对与靶核酸中的靶序列杂交。本发明所述的指导序列与靶序列的完全互补性不是必需的，只要存在足够互补性以引起杂交并且促进一种CRISPR/Cas复合物的形成即可。

合适的同向重复(direct repeat，DR)序列可由原核生物(如细菌、古细菌)的CRISPR基因座结构中，进行实验筛选才能寻找得到。同向重复序列的大小通常在数十bp内，其部分片段互为反向互补，即意味着RNA分子内部形成了一个二级结构，例如茎环结构(常称为发卡结构)，其他片段则体现为非结构化。同向重复序列是gRNA分子的恒定部分，其含有强二级结构，这有利于Cas13蛋白和gRNA分子之间的相互作用。

如本文中使用的，术语“靶核酸”、“靶RNA”或“靶多核苷酸”是指含有靶序列的多核苷酸，在本文中经常可互换使用。靶核酸可以包含任何多核苷酸，如DNA(靶DNA)或RNA(靶RNA)。“靶核酸”是指gRNA引导Cas13蛋白进行靶向或修饰的核酸。术语“靶核酸”可以是对细胞(例如，真核细胞)而言任何内源或外源的多核苷酸。例如，“靶核酸”可以是一种存在于真核细胞中的多核苷酸，也可以是一个编码基因产物(例如，蛋白质)的序列(或其一部分)或一个非编码序列(或其一部分)。在某些情况下，“靶核酸”可以包括一个或多个疾病相关基因和多核苷酸以及信号传导生化途径相关基因和多核苷酸。“疾病相关”基因或多核苷酸是指与非疾病对照的组织或细胞相比，在来源于疾病影响的组织的细胞中以异常水平或以异常形式产生转录或翻译产物的任何基因或多核苷酸。在某些情况下，所述靶核酸是编码RNA。在某些情况下，所述靶核酸是非编码RNA。在某些情况下，所述靶核酸包括mRNA、miRNA、rRNA、tRNA、snRNA和结构RNA。在某些情况下，所述靶核酸为mRNA。在某些情况下，所述靶核酸为整个mRNA分子。在某些情况下，所述靶核酸为DNA。在某些情况下，所述靶核酸为整个染色体DNA分子。如本文中使用的“靶RNA”、“靶核酸”和“靶”表示人们希望使用CRISPR系统来结合、靶向或修饰的特定序列或其反向互补序列。

如本文中使用的，术语“靶序列”是指靶核酸分子中的一小段序列，其可与gRNA分子的指导序列互补(完全互补或部分互补)。靶序列的长度经常为数十bp，例如，可以为约10bp、约20bp、约30bp、约40bp、约50bp或约60bp。

如本文中使用的，术语“靶向”定义为包括以下的一种或多种：切割一种或多种靶核酸，可视化或检测一种或多种靶核酸，标记一种或多种靶核酸，运输一种或多种靶核酸，掩蔽一种或多种靶核酸，结合一种或多种靶核酸，提高靶序列对应基因的转录和/或翻译水平，和降低靶序列对应基因的转录和/或翻译水平。

如本文中使用的，术语“修饰”定义为包括以下的一种或多种：核酸碱基置换，核酸碱基缺失，核酸碱基插入，将核酸甲基化，将核酸去甲基化，和将核酸去胺基化。

如本文中所使用的，术语“切割”(cleavage/cleaving)是指使多核苷酸的核糖基磷酸二酯主链中的共价键(例如共价磷酸二酯键)断裂，包括但不限于：使单链多核苷酸断裂，使含两条互补单链的双链多核苷酸的任一条单链断裂，使含两条互补单链的双链多核苷酸的两条单链都断裂。

例如，本领域技术人员可以理解的，可以将本发明的Cas13蛋白或缀合物与一个或多个异源功能部分融合或缔合(例如通过融合蛋白、接头肽等)。例如将完全或部分丧失核酸酶活性的Cas13突变体与异源功能部分融合。这些功能域可以具有各种活性，例如甲基化酶活性、脱甲基酶活性、脱氨酶活性、翻译激活活性、翻译抑制活性、RNA切割活性、核酸结合活性、碱基编辑活性，以及切换活性(如光诱导)。所述异源功能部分可包括但不限于：定位信号(例如核定位信号NLS、核输出信号NES)、标记或检测标记(如FITC或DAPI这种荧光染料)、靶向部分、抗原决定簇标签(例如Hismyc、V5、FLAG、HA、VSV-G、Trx等)、脱氨酶或脱氨基域(例如ADAR1，ADAR2，APOBEC，AID或TAD)、甲基化酶、脱甲基酶、ssRNA裂解活性域、dsRNA裂解活性域、DNA或RNA连接酶，或以上任意的组合。

例如，可以将本发明的Cas13蛋白与脱氨酶融合，与gRNA组合后用于靶向靶RNA，实现对靶RNA分子的单碱基编辑。

例如，所述异源功能部分可以为可检测标记。当CRISPR-CAS复合物与靶核酸接触或结合时，含有Cas13核酸酶的缀合物切割或修饰靶核酸，通过观测可检测标记的存在情况来分析待测样品中靶核酸存在情况。所述可检测标记如荧光基团、显色剂、显影剂或放射性同位素。

测量Cas13蛋白或缀合物与靶核酸的结合的方法是本领域已知的，包括但不限于染色质免疫沉淀测定、凝胶迁移率变动测定、报告基因测定、微孔板捕获和检测测定。类似地，测量靶核酸的切割或修饰的方法在本领域中是已知的，包括体外或体内切割测定。

如本文中所使用的，术语“复合物”与“CRISPR/Cas复合物”可互换使用。术语“复合物”是指，gRNA与Cas13蛋白结合所形成的核糖核蛋白复合体。该核糖核蛋白复合体能够识别(有时还可进一步切割或修饰)与该gRNA的指导序列互补的靶序列或其所在的靶核酸。

如本文中所使用，术语“非天然的”意为“改造的”，表示涉及人工。当提及核酸分子或多肽时，该术语表示所述核酸分子或所述多肽至少基本上不含至少一种在自然界中天然地与它们关联和被发现时与它们关联的其它组分。此外，该术语可以表示核酸分子或多肽具有在自然界中不存在的序列。

如本文中所使用，术语“缀合物”表示修饰的Cas13蛋白。所述缀合物包含Cas13蛋白部分和修饰部分。修饰部分可以为蛋白质或多肽(或它们的任意功能性片段)、寡肽、其他小分子(包括但不限于糖分子)。所述缀合物可以为融合蛋白。

如本文中所使用的，术语“序列同一性”(identity或percent identity)用于指两个多肽之间或两个核酸之间序列的匹配情况。当两个进行比较的序列中的某个位置都被相同的碱基或氨基酸单体亚单元占据时(例如，两个DNA分子中的每一个的某个位置都被腺嘌呤占据，或两个多肽中的每一个的某个位置都被赖氨酸占据)，那么各分子在该位置上是同一的。两个序列之间的“百分比序列同一性”(percent identity)是由这两个序列共有的匹配位置数目除以进行比较的位置数目×100％的函数。例如，如果两个序列的10个位置中有6个匹配，那么这两个序列具有60％的序列同一性。通常，在将两个序列比对以产生最大序列同一性时进行比较。这样的比对可通过使用已公开和可商购的比对算法和程序，诸如但不限于ClustalΩ、MAFFT、Probcons、T-Coffee、Probalign、BLAST，本领域的普通技术人员可合理选择使用。本领域技术人员能确定用于比对序列的适宜参数，例如包括对所比较序列全长实现较优比对或最佳对比所需要的任何算法，以及对所比较序列的局部实现较优比对或最佳对比所需要的任何算法。

序列同一性与序列相似性有关。可以通过直观比对(肉眼)、更通常地借助于序列比较程序来进行同一性或相似性比较。这些计算机程序可以计算在两个或更多个序列之间的同一性或相似性的百分比(％)并且还可以计算由两个或更多个氨基酸或核酸序列共享的序列同一性。

术语“多肽”、“肽”和“蛋白质”在本文可互换地使用，是指具有任何长度的氨基酸的聚合物。所述聚合物可为直链型或分支型，其可包含经过修饰的氨基酸，并且其可由非氨基酸中断。这些术语还涵盖已经被修饰的氨基酸聚合物；这些修饰例如二硫键形成、糖基化、脂化(lipidation)、乙酰化、磷酸化或任何其他操纵，如与标记组分的缀合。如本文使用的术语“氨基酸”包括天然的和/或非天然的或者合成的氨基酸，包括甘氨酸以及D和L旋光异构体、以及氨基酸类似物和肽模拟物。

如本文使用的，术语“结构域”或“蛋白结构域”是指可以独立于该蛋白质链的其余部分而存在并且起作用的蛋白质序列的一部分。

如本文中所使用的，术语“载体”是指，可将多聚核苷酸插入其中的一种核酸运载工具。当载体能使插入的多核苷酸编码的蛋白获得表达时，载体称为表达载体。载体可以通过转化、转导或者转染的方式进入宿主细胞，使其携带的遗传物质元件在宿主细胞中获得表达。载体是本领域技术人员公知的，包括但不限于：质粒；柯斯质粒；噬菌粒；人工染色体，例如酵母人工染色体(YAC)或细菌人工染色体(BAC)；噬菌体如λ噬菌体及动物病毒等。可用作载体的动物病毒包括但不限于：逆转录酶病毒(包括慢病毒)、腺病毒、腺相关病毒、疱疹病毒(如单纯疱疹病毒)、痘病毒、杆状病毒、乳头瘤病毒、乳头多瘤空泡病毒(如SV40)。一种载体可以含有多种控制表达的元件，包括但不限于：启动子序列、转录起始序列、增强子序列、选择元件及报告基因。另外，载体还可含有复制起始位点。载体包括但不限于：单链、双链或部分双链的核酸分子；包含一个或多个游离端、不包含游离端(例如，环状)的核酸分子；包含DNA、RNA或二者的核酸分子；以及本领域已知的其他种类的多核苷酸。某些载体能够在它们被引入至其中的宿主细胞中自主复制。其他载体在引入到宿主细胞后被整合到宿主细胞的基因组中，并且从而随着宿主基因组一起复制。此外，某些载体能够引导它们可操作地连接的基因的表达。此类载体在此被称为“表达载体”。用于真核细胞并且在真核细胞中产生表达的载体可以在此称之为“真核表达载体”。在重组DNA技术中采用的常见表达载体常常是质粒形式。

一种载体可以被引入到宿主细胞中而由此产生转录物、蛋白质、或肽，包括如本文所述的蛋白、缀合物、分离的核酸、复合物、组合物等。

重组表达载体可以包含处于适用于在宿主细胞中表达核酸的形式的本发明的核酸，这意味着重组表达载体包含一个或多个调节元件，这些调节元件可以基于用于表达的宿主细胞来选择，可操作地连接至待表达的核酸序列。

如本文中所使用的，术语“可操作地连接”旨在意指载体中Cas蛋白编码序列或gRNA编码序列以允许核苷酸序列表达(例如，在体外转录/翻译系统中或当该载体被引入到宿主细胞时在宿主细胞中表达)的方式连接至一个或多个调节元件。例如在载体中，将启动子1置于Cas13蛋白编码序列的上游，当该载体被引入到宿主细胞时，在启动子1的驱动下可以启动Cas13基因的转录。

如本文中所使用的，术语“调节元件”旨在包括启动子、增强子、内部核糖体进入位点(IRES)以及其他表达控制元件(例如，转录终止信号，诸如多聚腺苷酸化信号和聚U序列)。调节元件包括引导核苷酸序列在许多类型的宿主细胞中连续表达的那些元件和引导核苷酸序列仅在某些宿主细胞中表达的那些元件(例如，组织特异性调节序列)。组织特异性启动子可以引导主要在希望的感兴趣的组织诸如肌肉、神经元、骨骼、皮肤、血液、特定器官(例如，肝脏、胰脏)、或特定细胞类型(例如，淋巴细胞)中的表达。调节元件还可以时间依赖性方式诸如细胞周期依赖性或发育阶段依赖性方式引导表达，这可以是或也可以不是组织特异性或细胞类型特异性的。在其中一些实施例中，载体包含一个或多个pol III启动子(例如，1、2、3、4、5、或更多个pol III启动子)、一个或多个pol II启动子(例如，1、2、3、4、5、或更多个pol II启动子)、一个或多个pol I启动子(例如，1、2、3、4、5、或更多个pol I启动子)、或其组合。pol III启动子的实例包括但不限于，U6和H1启动子。pol II启动子的实例包括但不限于，逆转录病毒劳斯氏肉瘤病毒(Rous sarcoma virus)(RSV)LTR启动子(任选地具有RSV增强子)、巨细胞病毒(CMV)启动子(任选地具有CMV增强子)、SV40启动子、二氢叶酸还原酶启动子、β-肌动蛋白启动子、磷酸甘油激酶(PGK)启动子、以及EF1α启动子。术语“调节元件”还涵盖增强子元件，诸如WPRE，CMV增强子，SV40增强子，以及兔β-球蛋白的外显子2与3之间的内含子序列。本领域技术人员将了解的是，表达载体的设计可以取决于如有待转化的宿主细胞的选择、所希望的表达水平等因素。载体可以引入到宿主细胞中从而表达本发明所述的Cas13蛋白、缀合物或CRISPR复合物。

如本文中所使用的，术语“启动子”具有本领域技术人员公知的含义，其是指一段位于基因的上游，能启动下游基因表达的非编码核苷酸序列。组成型(constitutive)启动子是这样的核苷酸序列：当其与编码或者限定基因产物的多核苷酸可操作地连接时，在细胞的大多数或者所有生理条件下，其导致细胞中基因产物的产生。诱导型启动子是这样的核苷酸序列，当可操作地与编码或者限定基因产物的多核苷酸相连时，基本上只有当对应于所述启动子的诱导物在细胞中存在时，其导致所述基因产物在细胞内产生。组织特异性启动子是这样的核苷酸序列：当可操作地与编码或者限定基因产物的多核苷酸相连时，基本上只有当细胞是该启动子对应的组织类型的细胞时，其才导致在细胞中产生基因产物。

如本文中所使用的，术语“宿主细胞”是指，可用于导入载体的细胞，其包括但不限于：如大肠杆菌或枯草菌等的原核细胞，如酵母细胞或曲霉菌等的真菌细胞，或者如纤维原细胞、CHO细胞、COS细胞、NSO细胞、HeLa细胞、BHK细胞、HEK 293细胞或其他人细胞等的动物细胞。

如本文使用的，术语“表达”(expression或expressing)是指从DNA模板转录成多核苷酸(如转录成mRNA或其他RNA转录物)的过程和/或转录的mRNA随后借此翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽可以总称为“基因产物”或“基因表达产物”。如本文使用的基因或核酸的“表达”不仅涵盖细胞基因表达，而且涵盖在克隆系统中或在任何其他背景下的一个或多个核酸的转录和翻译。

如本文中所使用的，术语“接头”是指连接蛋白和修饰部分的基团。所述基团可以是氨基酸、氨基酸序列或其他化学基团。例如可以是氨基酸(如，Glu或Ser)、氨基酸衍生物、PEG(聚乙二醇)。在一些情况下，“接头”是指由1个或多个氨基酸残基通过肽键连接形成的线性多肽，所述氨基酸残基可以是天然的或非天然的，例如可以是经过修饰的。本发明的接头可以为人工合成的氨基酸序列，或天然存在的多肽序列，例如具有铰链区功能的多肽。此类接头多肽是本领域众所周知的。这类接头可以是新发现的或本领域熟知的，其实例包括但不限于包含一个或多个(例如，1个，2个，3个，4个或5个)氨基酸(如，Glu或Ser)或氨基酸衍生物(如，Ahx、β-Ala、GABA或Ava)的接头，或PEG等。

本发明gRNA可以包含一个或多个修饰(例如，碱基修饰、骨架修饰等)，以提供与未修饰gRNA相同的功能，或对gRNA提供新的或增强的特征(例如，改进的稳定性)。含有修饰的适合的gRNA的实例包括含有修饰的骨架或非天然的核苷间键的gRNA。gRNA修饰包括例如，硫代磷酸酯修饰、2'-O-甲基修饰、2'-O-甲氧基乙基(MOE)修饰、2'-脱氧修饰、硫代磷酸酯核苷酸间连接、膦酰基乙酸酯(PACE)核苷酸间连接、硫代膦酰基乙酸酯(硫代PACE)核苷酸间连接、锁核酸(LNA)或环己烯基替代呋喃糖环。

本发明gRNA的呋喃糖环或呋喃糖环和核苷酸间键可被非呋喃糖基团替代。一种这样的核酸(已显示出具有优良杂交性质)称为肽核酸(PNA)。在PNA中，多核苷酸的糖骨架被含酰氨的骨架替代。gRNA分子中的呋喃糖环也可被环己烯基环替代，称为环己烯基核酸(CeNA)。另一种修饰包括锁核酸(LNA)，其中2'-羟基连接至糖环的4'-碳原子从而形成2'-C、4'-C-氧基亚甲基键，从而形成双环糖部分。

本发明gRNA还可包括碱基修饰或取代。本发明gRNA可包含未修饰或天然碱基(例如嘌呤碱基腺嘌呤A和鸟嘌呤G以及嘧啶碱基胸腺嘧啶T、胞嘧啶C和尿嘧啶U)。本发明gRNA可包含修饰的碱基，例如包括其它合成和天然的碱基如5-甲基胞嘧啶、5-羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和鸟嘌呤的其他衍生物、5-尿嘧啶(假尿嘧啶)、4-硫尿嘧啶、胞嘧啶的其他衍生物、尿嘧啶的其他衍生物、胸腺嘧啶的衍生物。

所述修饰可以在gRNA分子结构的任意位置。

所述gRNA的5'端或3'端可有额外的核苷酸与指导序列相连接。非限制性示例例如5'末端可以包含2个附加的鸟嘌呤核苷酸，用于提高靶向特异性。

本文中所使用的，术语“递送粒子”、“递送粒子系统”与“粒子”可互换使用。所述粒子用于递送本发明的Cas13蛋白、缀合物、gRNA、复合物、核酸、组合物等。已知若干种类型的递送粒子系统和/或配制品可用于不同范围的生物医学应用中。总的来说，粒子被限定为关于其转运和特性以整体单位表现的小物体。根据直径将粒子进一步分类。粗粒子的大小介于2500-10000纳米之间。细粒子的大小介于100-2500纳米之间。超细粒子或纳米粒子的大小大体上介于1-100纳米之间。可使用多种不同的常规技术进行粒子表征(包括例如表征形貌、尺寸等)。

本发明范围内的递送粒子系统可以任何形式提供，包括但不限于：脂质体(包括例如免疫脂质体)、病毒体(包括例如人工病毒体)、细胞外囊泡(包括例如外泌体、微囊泡和凋亡小体)、粒子(例如纳米粒子)、微泡、基因枪、电穿孔、声孔效应、磷酸钙介导的转染、阳离子转染、树枝状转染、热激转染、核转染、磁转染、脂转染、刺穿转染、光学转染、专有剂增强的核酸摄取、微注射。

如本文中所使用的，术语“外泌体”(exosomes)是转运某些物质(包括但不限于RNA和蛋白质)的内源性纳米囊泡。

如本文中所使用的术语“脂质体”：脂质体是球形囊泡结构，其由围绕内部水性区室的单层或多层脂质双层以及相对不可渗透的外部亲脂性磷脂双层构成。脂质体作为药物递送载体受到了相当的重视，因为它们是生物相容、无毒的，可以递送亲水性和亲脂性药物分子，保护它们的内容物免于被血浆酶降解，并且转运跨过生物膜和血脑屏障。可以由几种不同类型的脂质制造脂质体；然而，磷脂最常用来产生作为药物载体的脂质体。可以将几种其他的添加剂添加到脂质体中，以便修饰其结构和特性。可以用脂质体进行根据本发明的递送或给药。

本发明所述细胞包括但不限于：原核细胞例如大肠杆菌细胞，以及真核细胞例如酵母细胞、昆虫细胞、植物细胞和动物细胞(如哺乳动物细胞，例如小鼠细胞、人类细胞等，例如人干细胞、人干细胞系，例如人造血干细胞、造血祖细胞等)。

术语真核细胞包括但不限于例如宿主细胞、细胞系和细胞子代。在其中一些实施例中，所述宿主细胞、细胞系和细胞子代可以是任选自体外、离体或体内的。

术语“药物”、“药剂”、“治疗剂”或“能够用于治疗的试剂”是可互换地使用的，并且是指在给予受试者时赋予某种有益影响的分子或化合物。该有益影响包括诊断确定的实现；改善疾病、症状、障碍、或病理学病况；减少或预防疾病、症状、障碍或病理学病况的发作；以及总体上对抗疾病、症状、障碍或病理学病况。

如本文中所使用的，术语“受试者”包括但不限于各种动物，例如哺乳动物，例如牛科动物、马科动物、羊科动物、猪科动物、犬科动物、猫科动物、兔科动物、啮齿类动物(例如，小鼠或大鼠)、非人灵长类动物(例如，猕猴或食蟹猴)或人。在某些实施方式中，所述受试者(例如人)患有病症(例如，疾病相关基因缺陷所导致的病症)。

术语“有效量”或“治疗有效量”是指一种药剂的足以实现有益或希望的结果的量。治疗有效量可依赖于接收治疗的受试者和疾病病状、受试者的重量和年龄、疾病病况的严重度、给药方式等中一项或多个而改变，并可以由本领域普通技术人员容易地确定。该术语也适用通过此处描述的显像方法中的任一项提供一种检测用图像的一个剂量。具体剂量可依赖于以下中一个或多个而变化：所选择的具体药剂、所遵循的给药方案、是否与其他化合物组合给予、给予时间、待显像的组织、以及携带它的物理递送系统。

如本文中所使用的，术语向个体“施用......”这一过程可以发生于体外、离体或体内。

如本文中所使用的，术语“保守性替换”(Conservative Replacement或Conservative Substitution)是指性状相近的氨基酸分子之间的替换(即取代)。所述性状包括但不限于分子的离子性、疏水性和分子量等。因此，所述取代可以是，例如(1)芳香族氨基酸之间的取代(Phe、Trp、Tyr)，(2)非极性脂肪族氨基酸(Gly、Ala、Val、Leu、Met、Ile、Pro)之间的取代， (3)不带电极性氨基酸(Ser、Thr、Cys、Asn、Gln)之间的取代，(4)碱性氨基酸(Lys、Arg、His)之间的取代，或(5)酸性氨基酸(Asp、Glu)之间的取代。

实施例1：Cas13蛋白的筛选

本发明Cas13蛋白通过以下方法获得：

1、CRISPR和基因的注释

使用软件对来自NCBI Gebank和CNGB数据库的微生物基因组，预测全基因组的蛋白(约数百万个)，然后使用CRISPRCasFinder软件预测基因组上的CRISPR array，初筛使用默认参数设置。

2、蛋白的初步筛选

以95％的蛋白序列相似性为标准，用聚类去除冗余的蛋白，去除和其他蛋白序列同一性100％且自身覆盖度100％的蛋白，同时过滤掉小于800aa(氨基酸)或者大于1400aa的蛋白，以避免过长或者过短蛋白的干扰，得到数十万个蛋白。

3、CRISPR相关蛋白的获得

CRISPR Array上下游10kb以内的蛋白序列和已知Cas13进行比对，过滤掉evalue大于1*e ^-5的比对结果。

然后再与NCBI的NR库、EBI的专利库比对，过滤掉序列同一性≥95％，同时自身覆盖度≥90％的Cas13蛋白，再经由发明人挑选，得到约100个候选蛋白。

通过实验验证，最终得到本发明的Cas13蛋白Cas13m.1(SEQ ID NO:1)、Cas13m.2(SEQ ID NO:2)、Cas13m.3(SEQ ID NO:3)、Cas13m.4(SEQ ID NO:4)、Cas13m.5(SEQ ID NO:5)、Cas13m.6(SEQ ID NO:60)、CasRfg.1(SEQ ID NO:6)、CasRfg.2(SEQ ID NO:7)。

上述Cas13蛋白的氨基酸序列如下表1所示。

表1.Cas13蛋白氨基酸序列

上述序列中，每个Cas13蛋白中的2个RxxxxH(x表示任意氨基酸残基)基序用下划线标示。在部分Cas13蛋白的序列(如Cas13m.1、Cas13m.3)中，存在多个序列满足RxxxxH的形式，但通过利用在线的MAFFT v7.487程序(E-INS-i算法，其他为默认参数设置)，对Cas13m.1-Cas13m.5这5个蛋白或Cas13m.1-Cas13m.6这6个蛋白的氨基酸序列进行多序列比对，比对结果中与其他蛋白RxxxxH基序对应的位置即被认定为Cas13m.1、Cas13m.3蛋白的催化活性中心RxxxxH基序，同样在上表中用下划线标示。比对结果还显示，Cas13m.1-Cas13m.6这6个蛋白从N端到C端依次包含RNxYxH和RNxxxH基序，x独立地任选自天然存在的氨基酸残基。

另外，CasRfg.1和CasRfg.2蛋白从N端到C端依次包含RxxxxH基序和RNxxxH基序。

上述Cas13蛋白的基因组序列来源如下表2所示。

表2.Cas13蛋白的基因组序列的来源

注：NCBI美国国家生物技术信息中心；CNGB中国国家基因库。

上述Cas13蛋白的天然(野生型)DNA编码序列如下所示：

Cas13蛋白Cas13m.1的野生型DNA编码序列如SEQ ID NO:8所示；

Cas13蛋白Cas13m.2的野生型DNA编码序列如SEQ ID NO:9所示；

Cas13蛋白Cas13m.3的野生型DNA编码序列如SEQ ID NO:10所示；

Cas13蛋白Cas13m.4的野生型DNA编码序列如SEQ ID NO:11所示；

Cas13蛋白Cas13m.5的野生型DNA编码序列如SEQ ID NO:12所示；

Cas13蛋白Cas13m.6的野生型DNA编码序列如SEQ ID NO:61所示；

Cas13蛋白CasRfg.1的野生型DNA编码序列如SEQ ID NO:13所示；

Cas13蛋白CasRfg.2的野生型DNA编码序列如SEQ ID NO:14所示。

上述Cas13蛋白的基因座结构如图1所示，且图1中比较了本发明Cas13蛋白与已公开的Cas13各亚型的基因座结构，其中，CRISPR表示CRISPR Array(含有对应DR序列的DNA序列)，Cas13e.1和Cas13f.1来源于公开号为CN112410377A的中国专利。从图中可以看出，Cas13m.1-Cas13m.5的基因座结构具有基本相同的特征，Cas13m.1-Cas13m.6的基因座结构具有基本相同的特征。

下表3列出了上述Cas13蛋白对应的同向重复(DR)序列：

表3.Cas13蛋白对应的同向重复(DR)序列

Cas13蛋白	对应同向重复序列	序列号
Cas13m.1	GUUGUUACAGCCCUUAGUUUGUAGGGUAAUGACAAC	SEQ ID NO:15
Cas13m.2	GUUGUAGAUGACCUCGUUUUGGAGGGGAAACACAAC	SEQ ID NO:16
Cas13m.3	GUUGUAGAAGCCGUUCAUUCGGGACGGUAUGACAAC	SEQ ID NO:17
Cas13m.4	GUUGUAAAUACCCACGUUUUGGUGGGCUAAUACAAC	SEQ ID NO:18
Cas13m.5	GUUGUGUGUGCCUUUCAAAUUGAAGGCGUUCCCAAC	SEQ ID NO:19
Cas13m.6	GUUGUAGAAGCCUAUCGUUAGGAUAGGUAUGACAAC	SEQ ID NO:62
CasRfg.1	AUGACUAUACCAGCAAUGGCUGGAUUAAAAC	SEQ ID NO:20

CasRfg.2

GGUUUUACACCCGUGUAAAACUACACAGUUCUAAAAC

SEQ ID NO:21

图2示出了本发明中各Cas13蛋白的RxxxxH基序在氨基酸链中的位置，Cas13m.1、Cas13m.2、Cas13m.3、Cas13m.4、Cas13m.5和Cas13m.6蛋白的两个RxxxxH基序相隔明显较远，除Cas13m.1以外相隔基本都在920aa以上，Cas13m.2的两个RxxxxH基序相隔923aa，Cas13m.3的两个RxxxxH基序甚至相隔1061aa，Cas13m.5相隔1011aa，Cas13m.6相隔1011aa。

利用在线的MAFFT version 7(E-INS-i算法)对本发明新发现的Cas13蛋白(Cas13m.1-Cas13m.5或Cas13m.1-Cas13m.6)，以及此前发现的各Cas13亚型(Cas13a、Cas13b、Cas13c、Cas13d、Cas13e和Cas13f)构建系统发育树，其中部分蛋白序列在NCBI中公开，Cas13e和Cas13f来源于公开号CN112410377A的专利。结果显示本发明的Cas13m.1-Cas13m.5或Cas13m.1-Cas13m.6蛋白在系统树上聚类成组，其他Cas13a/b/c/d/e/f亚型也各自聚类成组分布。具体如图3中A和B所示。

使用RNAfold预测得到本发明Cas13m.1～Cas13m.6、CasRfg.1、CasRfg.2蛋白对应同向重复序列的RNA二级结构。如图4所示。从图中可以看出Cas13m.1～Cas13m.6对应DR序列具有保守的二级结构。

我们用RNAfold对上述同向重复序列进行了RNA二级结构的进一步分析。结果如图4所示，Cas13m.1、Cas13m.2、Cas13m.3、Cas13m.4和Cas13m.5对应的同向重复序列具有以下特点：明显都拥有保守的二级结构，其中，A为保守的二级结构示意图，包含互补配对的第一茎(茎1)、非互补的凸起结构(凸起)、互补配对的第二茎(茎2)、非互补的环结构(环结构)，茎1和茎2分别包含互补配对的碱基；B-F分别为Cas13m.1、Cas13m.2、Cas13m.3、Cas13m.4和Cas13m.5对应的同向重复序列二级结构，其中，茎1含4个碱基对(5’-GUUG-3’)，或5个碱基对(5’-GUUGU-3’)，或6个碱基对(5’-GUUGUA-3’)，或7个碱基对(5’-GUUGUUA-3’)。Cas13m.6对应的同向重复序列同样具有上述共同的结构特征。G和H分别为CasRfg.1和CasRfg.2对应的同向重复序列二级结构。

使用蛋白结构数据库程序AlphaFold v2.0预测得到Cas13m蛋白的三维结构，如图5所示，其中A、B和C分别为Cas13m.2、Cas13m.3和Cas13m.6，尽管Cas13m.2、Cas13m.3和Cas13m.6蛋白中的两个RxxxxH基序(深色标记)在氨基酸链上相隔较远，但它们在空间位置上非常接近。

然后使用PyMOL V2.5.1叠合蛋白，结果如图6所示，其中，A为Cas13m.2与Cas13m.3的叠合结果，B为Cas13m.3与Cas13m.6的叠合结果，结果显示Cas13m.2与 Cas13m.3具有类似的三维结构(RMSD＝2.402)，Cas13m.3与Cas13m.6具有类似的三维结构(RMSD＝2.368)。

利用BLASTp将CasRfg.1蛋白和NCBI收录的Cas13蛋白进行比对,发现与Cas13c比对的evalue值相比其他Cas13亚型是最低的；结合图3中的进化树分析，将CasRfg.1归为Cas13c亚型。利用BLASTp将CasRfg.2蛋白和NCBI收录的Cas13蛋白进行比对,发现与Cas13d比对的evalue值相比其他Cas13亚型是最低的；结合图3中的进化树分析，将CasRfg.2归为Cas13d亚型。

实施例2：Cas13蛋白的制备、分离和纯化

(一)载体构建

1、取pET28a载体质粒，经BamHI和XhoI双酶切后，琼脂糖凝胶电泳切胶回收线性化的载体，将人工合成得到的包含重组蛋白(含实施例1的蛋白序列以及核定位序列)编码序列的DNA片段通过同源重组的方式插入到载体pET28a的克隆区，反应液转化Stbl3感受态，涂布硫酸卡那霉素抗性的LB平板，37℃过夜培养后，挑取克隆测序鉴定。

构建好的重组载体分别命名为Cas13m.1-pET28a，Cas13m.2-pET28a，Cas13m.3-pET28a，Cas13m.4-pET28a，Cas13m.5-pET28a，CasRfg.1-pET28a和CasRfg.2-pET28a。

重组载体分别用于表达Cas13m.1重组蛋白(序列如SEQ ID NO:22所示)、Cas13m.2重组蛋白(序列如SEQ ID NO:23所示)、Cas13m.3重组蛋白(序列如SEQ ID NO:24所示)、Cas13m.4重组蛋白(序列如SEQ ID NO:25所示)、Cas13m.5重组蛋白(序列如SEQ ID NO:26所示)、CasRfg.1重组蛋白(序列如SEQ ID NO:27所示)、CasRfg.2重组蛋白(序列如SEQ ID NO:28所示)。

重组型Cas13系列蛋白架构为His tag-NLS-Cas13-SV40NLS-nucleoplasmin NLS。

2、序列正确的阳性克隆过夜培养，提取质粒后转化表达菌株Rosetta(DE3)，涂布硫酸卡那霉素抗性的LB平板，37℃过夜培养。

(二)蛋白表达

1、挑取单克隆接种至5ml硫酸卡那霉素抗性的LB培养液，37℃过夜培养。

2、以1:100比例转接种500ml硫酸卡那霉素抗性的LB培养液中，以220rpm的转速，37℃培养至OD值为0.6，加IPTG至终浓度0.2mM，16℃诱导24h。

3、离心收集菌体，15ml PBS漂洗菌体后离心收集菌体，加lysis buffer超声破碎，10,000g离心30min获得含重组蛋白的上清液，上清经过0.45μm滤膜过滤后即可上柱纯化。

(三)蛋白纯化

重组型Cas13系列蛋白架构中包含NLS序列，以N端的6个His作为纯化标签，通过IMAC(Ni Sepharose 6Fast Flow,CYTIVA)纯化上述Cas13系列重组蛋白。纯化的各重组蛋白经过SDS-PAGE电泳可见在100-250kDa区间内呈一条带。

实施例3：Cas13m.6的制备、分离和纯化

采用与上述实施例2相同的方法构建重组载体Cas13m.6-pET28a(序列如SEQ ID NO:83所示)，转化表达菌株BL21-CodonPlus(DE3)-RIPL。继续采用与上述相同的方法表达和纯化Cas13m.6重组蛋白(架构为His tag-NLS-Cas13-SV40NLS-nucleoplasmin NLS)。最终纯化的Cas13m.6重组蛋白经过SDS-PAGE电泳可见在100-250kDa区间内呈一条带。

实施例4：在细胞内对外源基因的编辑活性

1、合成靶向EGFP的待验证载体

使用EGFP(增强型绿色荧光蛋白)作为外源的报告基因，其核酸序列(720bp)如SEQ ID NO:29所示。

靶向EGFP的间隔(spacer)序列为：tgccgttcttctgcttgtcggccatgatat(SEQ ID NO:30)。

外源EGFP表达载体序列如SEQ ID NO:31所示，Cas13m.2验证载体序列如SEQ ID NO:32所示，Cas13m.3验证载体序列如SEQ ID NO:33所示，Cas13m.5验证载体序列如SEQ ID NO:34所示，CasRfg.2验证载体序列如SEQ ID NO:35所示。

Cas13m.1验证载体、Cas13m.4验证载体都与Cas13m.3验证载体的骨架序列相同，仅Cas13蛋白编码序列及DR序列的编码序列作了相应替换。CasRfg.1验证载体与CasRfg.2验证载体的骨架序列相同，仅Cas13蛋白编码序列及DR序列的编码序列作了相应替换。

上述验证载体包含密码子优化的Cas13蛋白编码序列，可表达连有NLS的Cas13蛋白，也可表达包含Cas13对应DR序列的可靶向EGFP的gRNA。gRNA的指导序列对应于上述间隔(spacer)序列(SEQ ID NO:30)。

以上载体均由试剂公司用常规方法合成得到。

2、待验证载体转染293T细胞

将表达外源基因EGFP的质粒(简称EGFP)分别与上述各验证载体质粒按照1:2(300ng:600ng)在24孔板中转染293T细胞。

转染方法如下所示：

胰酶(Trypsin 0.25％,EDTA，Thermo，11058021)消化293T细胞，对细胞计数，按照一个孔500μL将2×10 ⁵细胞铺24孔板。

对于每个转染样品，按照以下步骤准备复合物：

a.在加入细胞的24孔板每个孔中，加入50μL无血清的Opti-MEM I(Thermo，25200056)还原血清培养基中稀释前述的质粒DNA，并轻轻混合；

b.在使用前轻轻混合Lipofectamine 2000(Thermo，11668019)，然后在每个孔中，即50μL的Opti-MEM I培养基中稀释1.8μL的Lipofectamine 2000。在室温下孵育5分钟。注意：在25分钟内继续执行步骤c；

c.孵育5分钟后，将稀释的DNA与稀释的Lipofectamine 2000合并。轻轻混合并在室温下孵育20分钟(溶液可能看起来混浊)。复合物在室温下稳定6小时。

将复合物加入293T细胞中并混合，48h后使用流式细胞仪进行检测。

3、流式细胞仪检测Cas13蛋白下调EGFP表达效果

使用的细胞以及质粒说明如下表4所示：

表4.转染细胞分组

分组	转染EGFP载体	转染靶向EGFP的Cas13验证载体	说明
293T	/	/	细胞对照
EGFP	*	/	仅转染EGFP的对照
CasRfg.1	*	*	验证载体
Cas13m.1	*	*	验证载体
Cas13m.2	*	*	验证载体
Cas13m.3	*	*	验证载体
Cas13m.4	*	*	验证载体
Cas13m.5	*	*	验证载体
CasRfg.2	*	*	验证载体

注：*表示含有相关项目，/表示没有相关项目。

将上述步骤2中转染后48h的293T细胞使用胰酶(Trypsin 0.25％,EDTA，Thermo，11058021)消化，300g 5min离心去除上清，每个孔的细胞使用500μL的PBS重悬，通过流式细胞仪检测EGFP荧光表达，通过FCS-A以及SSC-A划门去除细胞碎片后，流式细胞仪检测。

收集记录FITC通道Mean-FITC-A结果，并按下述计算公式计算下调幅度：

下调幅度(％)＝(a-x)÷a×100，

其中，EGFP组的GFP荧光为a，其他组别的GFP荧光为x。

其中空白对照组不参与比较。

本实施例实验重复三次。下调幅度结果如下表5和图7所示，结果数据取三次测试的平均值。

表5.流式细胞仪检测GFP荧光结果

分组	下调幅度(％)
EGFP	0.00

Cas13m.1	46
Cas13m.2	67.31
Cas13m.3	76.82
Cas13m.4	59.73
Cas13m.5	50.08
CasRfg.1	33
CasRfg.2	39.19

注：根据三次测试的平均值，293T分组GFP荧光强度1073.55，EGFP分组GFP荧光强度8052219.55。

从表中可见上述Cas13蛋白均能显著下调EGFP的表达，证明了其通过gRNA指导，可在真核细胞内有效降低mRNA水平，发挥编辑活性。其中Cas13m.2、Cas13m.3下调EGFP表达的幅度最大。

实施例5：内源基因编辑效率验证

1、构建靶向内源基因AQp1以及PTBP1的编辑载体

在试剂公司分别合成带有通用型gRNA骨架表达框的经密码子优化的Cas13m.2、Cas13m.3、Cas13m.5、CasRfg.2、CasRx(Cas13d中的一种)表达载体，分别为Cas13m.2-BsaI(序列如SEQ ID NO:36所示)，Cas13m.3-BsaI(序列如SEQ ID NO:37所示)，Cas13m.5-Bsa(序列如SEQ ID NO:38所示)，CasRfg.2-BsaI(序列如SEQ ID NO:39所示)，CasRx-BpiI(序列如SEQ ID NO:40所示)。

实验选择的内源位点是AQp1以及PTBP1，其中验证AQp1使用高表达AQp1的293T细胞系(293T-AQp1细胞)，验证PTBP1使用293T细胞系。

高表达AQp1的293T细胞系的构建方法：构建过表达AQp1基因以及EGFP基因的载体Lv-AQp1-T2a-GFP，序列如SEQ ID NO:41所示。AQp1与EGFP使用2A肽进行间隔。将Lv-AQp1-T2a-GFP质粒包装慢病毒转导293T细胞，形成稳定过表达AQp1基因的细胞系。

靶向AQp1的gRNA的指导序列选为：

GAAGACAAAGAGGGUCGUGG(SEQ ID NO:42)

靶向PTBP1的gRNA的指导序列选为：

GUGGUUGGAGAACUGGAUGUAGAUGGGCUG(SEQ ID NO:43)

使用引物退火方式获得靶向靶位点的片段，其引物如下所示：

靶向PTBP1组：

Cas13m.2组：

F：CACCGTGGTTGGAGAACTGGATGTAGATGGGCTG(SEQ ID NO:44)

R：CAACCAGCCCATCTACATCCAGTTCTCCAACCAC(SEQ ID NO:45)

Cas13m.3组：

F：CACCGTGGTTGGAGAACTGGATGTAGATGGGCTG(SEQ ID NO:44)

R：CAACCAGCCCATCTACATCCAGTTCTCCAACCAC(SEQ ID NO:45)

Cas13m.5组：

F：CACCGTGGTTGGAGAACTGGATGTAGATGGGCTG(SEQ ID NO:44)

R：CAACCAGCCCATCTACATCCAGTTCTCCAACCAC(SEQ ID NO:45)

CasRfg.2组：

F：AAACGTGGTTGGAGAACTGGATGTAGATGGGCTG(SEQ ID NO:46)

R：AAAACAGCCCATCTACATCCAGTTCTCCAACCAC(SEQ ID NO:47)

CasRx组：

F：AAACGTGGTTGGAGAACTGGATGTAGATGGGCTG(SEQ ID NO:46)

R：CTTGCAGCCCATCTACATCCAGTTCTCCAACCAC(SEQ ID NO:48)

靶向AQp1组：

Cas13m.2组：

F：CACCGAAGACAAAGAGGGTCGTGG(SEQ ID NO:49)

R：CAACCCACGACCCTCTTTGTCTTC(SEQ ID NO:50)

Cas13m.3组：

F：CACCGAAGACAAAGAGGGTCGTGG(SEQ ID NO:49)

R：CAACCCACGACCCTCTTTGTCTTC(SEQ ID NO:50)

Cas13m.5组：

F：CACCGAAGACAAAGAGGGTCGTGG(SEQ ID NO:49)

R：CAACCCACGACCCTCTTTGTCTTC(SEQ ID NO:50)

CasRfg.2组：

F：AAACGAAGACAAAGAGGGTCGTGG(SEQ ID NO:51)

R：AAAACCACGACCCTCTTTGTCTTC(SEQ ID NO:52)

CasRx组：

F：AAACGAAGACAAAGAGGGTCGTGG(SEQ ID NO:51)

R：CTTGCCACGACCCTCTTTGTCTTC(SEQ ID NO:53)

引物退火反应体系如下所示，在PCR仪内95℃孵育5分钟，随后立刻取出在冰上孵育5分钟，使引物之间互相退火形成含粘性末端的双链DNA：

将合成的Cas13m-BsaI和CasRfg-BsaI质粒使用BsaI内切酶进行酶切后，将退火产物和酶切后纯化回收的骨架分别进行T4连接，转化大肠杆菌后挑选阳性克隆并提取靶向内源基因mRNA的验证载体质粒进行细胞实验验证。将CasRx-BpiI质粒使用BpiI内切酶进行酶切后，将退火产物和酶切后纯化回收的骨架进行T4连接，转化大肠杆菌后挑选阳性克隆并提取靶向内源基因mRNA的验证载体质粒进行细胞实验验证。

2、待验证载体转染293T细胞以及293T-AQp1细胞

将上步中得到的Cas13m.2、Cas13m.3、Cas13m.5、CasRfg.2、CasRx靶向AQp1的质粒(靶向内源基因mRNA的验证载体质粒)按照800ng在24孔板中转染293T-AQp1细胞。阴性对照组转染CasRx-BpiI质粒。

将上步中得到的Cas13m.2、Cas13m.3、Cas13m.5、CasRfg.2、CasRx靶向PTBP1的质粒按照800ng在24孔板中转染293T细胞。阴性对照组转染CasRx-BpiI质粒。

转染方法如下所示：

1)胰酶(Trypsin 0.25％,EDTA，Thermo，11058021)消化细胞，对细胞计数，按照一个孔500μL将2×10 ⁵细胞铺24孔板。

2)对于每个转染样品，请按照以下步骤准备复合物：

c.孵育5分钟后，将稀释的DNA与稀释的Lipofectamine 2000合并。轻轻混合并在室温下孵育20分钟(溶液可能看起来混浊)。注意：复合物在室温下稳定6小时。

将复合物加入细胞中并混合，72h后使用QuantStudio ^TM 5Real-Time PCR System,96-well进行检测。

3、qPCR检测靶基因的mRNA变化

1)实验方法

转染后72h的细胞使用SteadyPure Universal RNA Extraction Kit AG21017试剂盒进行 RNA提取操作RNA，并使用超微量分光光度计检测mRNA浓度。mRNA产物使用Evo M-MLV Mix Kit with gDNA Clean for qPCR AG11728反转录试剂盒进行反转录，反转录产物使用SYBR Green Premix Pro Taq HS qPCR Kit(Low Rox Plus)AG11720qPCR试剂盒进行检测。

其中qPCR所使用引物如下所示：

检测PTBP1：ATTGTCCCAGATATAGCCGTTG(SEQ ID NO:54)

GCTGTCATTTCCGTTTGCTG(SEQ ID NO:55)

检测AQp1：GCTCTTCTGGAGGGCAGTGG(SEQ ID NO:56)

CAGTGTGACAGCCGGGTTGAG(SEQ ID NO:57)

检测内参GAPDH：CCATGGGGAAGGTGAAGGTC(SEQ ID NO:58)

GAAGGGGTCATTGATGGCAAC(SEQ ID NO:59)

按照SYBR Green Premix Pro Taq HS qPCR Kit(Low Rox Plus)AG11720使用说明配置反应体系，使用QuantStudio ^TM 5 Real-Time PCR System，96-well进行检测。

2)计算方法

本实验使用相对定量方法即2-△△Ct法计算目标RNA的变化。其计算方式如下所示：

△Ct＝Ct(AQp1)-Ct(GAPDH)或Ct(PTBP1)-Ct(GAPDH)；

△△Ct＝△Ct(待验证样品如Cas13m.2组)-△Ct(阴性对照组)；

2-△△Ct＝2^(-△△Ct)。

本实施例实验重复三次，按照上述计算方式计算AQp1以及PTBP1的mRNA相对表达量如下表6和图8所示，结果数据取三次测试的平均值：

表6.2-△△Ct法计算得到的目标mRNA的相对表达量

分组	AQp1 mRNA水平	PTBP1 mRNA水平
阴性对照	1.00	1.00
CasRx	0.05	0.60
Cas13m.2	0.03	0.49
Cas13m.3	0.02	0.46
Cas13m.5	0.27	0.70
CasRfg.2	0.36	0.78

qPCR结果显示，Cas13m.2、Cas13m.3、Cas13m.5、CasRfg.2均有下调AQp1以及PTBP1表达的效果。其中Cas13m.2和Cas13m.3下调基因AQp1、PTBP1表达的效果优于CasRx，有很好的编辑活性。Cas13m.5、CasRfg.2也有显著的编辑活性。

实验例6：DR序列与指导序列的连接顺序

验证gRNA分子中DR序列与指导序列的连接顺序对编辑效率的影响。

1、构建靶向内源基因AQp1的编辑载体

本实验选择的内源位点是AQp1，验证AQp1使用前述实施例的高表达AQp1的293T细胞系。

靶向AQp1的gRNA的指导序列为GAAGACAAAGAGGGUCGUGG(SEQ ID NO:42)。

所使用的验证载体如下所示

编号	gRNA结构(5’端-3’端)
Cas13m.2	指导序列-同向重复序列
Cas13m.3	指导序列-同向重复序列
Cas13m.5	指导序列-同向重复序列
CasRfg.2	同向重复序列-指导序列
Cas13m.2-r	同向重复序列-指导序列
Cas13m.3-r	同向重复序列-指导序列
Cas13m.5-r	同向重复序列-指导序列
CasRfg.2-r	指导序列-同向重复序列

其中Cas13m.2、Cas13m.3、Cas13m.5、CasRfg.2靶向内源基因AQp1 mRNA的验证载体在实验例5中已经构建，调整gRNA结构(指导序列与同向重复序列颠倒位置)的Cas13m.2-r、Cas13m.3-r、Cas13m.5-r、CasRfg.2-r靶向内源基因AQp1 mRNA的验证载体(除gRNA编码序列外的其他序列与Cas13m.2、Cas13m.3、Cas13m.5、CasRfg.2验证载体相同)在试剂公司合成。

2、待验证载体转染293T细胞以及293T-AQp1细胞

将Cas13m.2、Cas13m.3、Cas13m.5、CasRfg.2、Cas13m.2-r、Cas13m.3-r、Cas13m.5-r、CasRfg.2-r靶向内源基因AQp1 mRNA的验证载体以及对照质粒(同上述实施例5中的CasRx靶向内源基因AQp1 mRNA的验证载体质粒)按照800ng在24孔板中转染293T-AQp1细胞。阴性对照组转染上述实施例5中的CasRx-BpiI质粒。

转染方法如下所示：

1、胰酶(Trypsin 0.25％,EDTA，Thermo，11058021)消化细胞，对细胞计数，按照一个孔500μL将2×10 ⁵细胞铺24孔板。

2、对于每个转染样品，按照以下步骤准备复合物：

3、qPCR检测靶基因的RNA变化

转染后72h的细胞使用SteadyPure Universal RNA Extraction Kit AG21017试剂盒进行RNA提取操作RNA，并使用超微量分光光度计检测RNA浓度。RNA产物使用Evo M-MLV Mix Kit with gDNA Clean for qPCR AG11728反转录试剂盒进行反转录，反转录产物使用SYBR Green Premix Pro Taq HS qPCR Kit(Low Rox Plus)AG11720qPCR试剂盒进行检测。

其中qPCR所使用引物包括如SEQ ID NO:56-57所示的检测AQp1的引物对，以及如SEQ ID NO:58-59所示的检测内参GAPDH的引物对。

按照SYBR Green Premix Pro Taq HS qPCR Kit(Low Rox Plus)AG11720使用说明配置反应体系，使用QuantStudio ^TM 5Real-Time PCR System,96-well进行检测。

qPCR结果如下所示：

本实验使用相对定量方法即2-△△Ct法计算目标RNA的相对表达量。其计算方式如下所示：

△Ct＝Ct(AQp1)-Ct(GAPDH)；

△△Ct＝△Ct(待验证样品如Cas13m.2组)-△Ct(阴性对照组)；

2-△△Ct＝2^(-△△Ct)。

按照上述计算方式计算AQp1 mRNA量如下表7所示：

表7. 2-△△Ct法计算得到的目标RNA的相对表达量

分组	AQp1 mRNA水平
阴性对照	1.00
Cas13m.2	0.04
Cas13m.3	0.04
Cas13m.5	0.36
CasRfg.2	0.30
Cas13m.2-r	0.83

Cas13m.3-r	0.78
Cas13m.5-r	0.74
CasRfg.2-r	0.67

qPCR结果显示，更换同向重复序列与指导序列的相对位置后的Cas13m.2-r、Cas13m.3-r、Cas13m.5-r、CasRfg.2-r的编辑活性明显降低。

实施例7：Cas13m.6在细胞内对外源基因的编辑活性，及Cas13m与已公开蛋白的活性比较

除非特别指出，本实施例使用与实施例4相同的方法进行实验。

1、合成靶向EGFP的待验证载体

制备得到靶向EGFP的Cas13m.6验证载体，全长序列如SEQ ID NO:105所示(7690bp)。

经过查阅NCBI，查询到NCBI公开了2个Cas13蛋白，即C13-38蛋白(GenBank:MBQ9236733.1)、C13-40蛋白(NCBI Reference Sequence:WP_025000926.1)，及对应DR序列。

发明人对Cas13m与C13-38和C13-40的基因编辑活性进行对比。

C13-38序列为：

C13-38对应DR序列为：

5'-GUUUUCAUACCUAUCCAAACGAUAGGCUUCUAAAAC-3'(SEQ ID NO: 64)

C13-40序列为：

C13-40对应DR序列为：

5'-GUUGUUUUUACCUUUCAAACAGAAGGCAGAUACAACA-3'(SEQ ID NO: 66)

参照上述方法构建得到C13-38验证载体、C13-40验证载体，其骨架序列都与实施例四中Cas13m.3验证载体的骨架序列相同，仅Cas13蛋白编码序列及DR序列的编码序列作了相应替换。

上述Cas13m.6验证载体、C13-38验证载体、C13-40验证载体都包含Cas13蛋白编码序列，可表达连有NLS的Cas13蛋白，也可表达靶向EGFP的gRNA(C13-38和C13-40对应gRNA的指导序列都位于DR序列5'端)。gRNA的指导序列对应于上述间隔(spacer)序列(SEQ ID NO:30)。以上载体均由试剂公司用常规方法合成得到。

2、待验证载体转染293T细胞

将表达外源基因EGFP的质粒与Cas13验证载体质粒(Cas13m.6验证载体、C13-38验证载体、C13-40验证载体、或实施例四制备得到的其他Cas13m验证载体)按300ng:600ng的比例转染293T细胞。

使用的细胞以及质粒说明如下表8所示：

表8：实验分组

注：*表示含有相关项目，空白表示没有相关项目

3、流式细胞仪检测Cas13蛋白下调EGFP表达的效果

令EGFP组的GFP荧光为a，其他组别的GFP荧光为x。

下调幅度％＝(a-x)÷a×100％

本实施例实验重复三次。结果数据取三次测试的平均值，结果如下表9所示。

表9.流式细胞仪检测GFP荧光结果

分组	下调幅度(％)
EGFP	0.00
Cas13m.2	61.8 ^*#
Cas13m.3	67.2 ^*#
Cas13m.5	42.3 ^*#
Cas13m.6	65.5 ^*#
C13-38	4.2

C13-40

2.9

备注：*表示与C13-38组相比有显著性差异(P<0.01)，#表示与C13-40组相比有显著性差异(P<0.01)。

结果显示，Cas13m.6组EGFP下调幅度为65.5％。表明Cas13m.6蛋白能显著下调EGFP的表达，证明了其通过gRNA指导，可在真核细胞内有效降低mRNA水平，发挥编辑活性。

且结果显示，Cas13m.2、Cas13m.3、Cas13m.5和Cas13m.6蛋白的编辑活性都显著高于C13-38和C13-40。

实施例8：Cas13m.6的内源基因编辑效率验证

除非特别指出，本实施例使用与实施例5相同的方法。

1、构建靶向内源基因AQp1以及PTBP1的编辑载体

构建得到表达载体Cas13m.6-BsaI，其序列如SEQ ID NO:77所示。

实验选择的内源位点是AQp1以及PTBP1，其中验证AQp1使用前述高表达AQp1的293T细胞系(293T-AQp1细胞)，验证PTBP1使用293T细胞系。

靶向AQp1的gRNA的指导序列选为：

AGGGCAGAACCGATGCTGATGAAGAC(SEQ ID NO:68)

靶向PTBP1的指导序列选为：

GUGGUUGGAGAACUGGAUGUAGAUGGGCUG(SEQ ID NO:43)

靶向PTBP1：

Cas13m.6组：caccGTGGTTGGAGAACTGGATGTAGATGGGCTG(SEQ ID NO:44)

caacCAGCCCATCTACATCCAGTTCTCCAACCAC(SEQ ID NO:45)

CasRx组：SEQ ID NO:46和SEQ ID NO:48。

靶向AQp1：

Cas13m.6组：CACCGagggcagaaccgatgctgatgaagac(SEQ ID NO:69)

CAACgtcttcatcagcatcggttctgccctc(SEQ ID NO:70)

CasRx组：aaacagggcagaaccgatgctgatgaagac(SEQ ID NO:71)

CTTGgtcttcatcagcatcggttctgccct(SEQ ID NO:72)

BsaI酶切Cas13m.6-BsaI载体，与退火产物T4连接。将CasRx-BpiI质粒使用BpiI酶切，与退火产物T4连接。得到靶向内源基因AQp1以及PTBP1的验证载体。

2、待验证载体转染293T细胞以及293T-AQp1细胞

将验证载体分别转染293T细胞以及293T-AQp1细胞。阴性对照组转染CasRx-BpiI质粒。

3、qPCR检测靶基因的mRNA变化

qPCR检测，以2-△△Ct法计算AQp1以及PTBP1的mRNA量。本实施例实验重复三次，结果数据取三次的平均值，结果见下表10。

表10.目标mRNA的相对表达量

分组	AQp1 mRNA水平	PTBP1 mRNA水平
阴性对照	1.00	1.00
CasRx	0.03	0.59
Cas13m.6	0.01	0.51

qPCR结果显示，Cas13m.6可显著下调AQp1以及PTBP1表达，其效果略优于CasRx。

实施例9：识别Cas13m蛋白的关键氨基酸残基

在对AQp1以及PTBP1表达敲低的实验中，Cas13m.2、Cas13m.3、Cas13m.6表现出最高水平的敲低，Cas13m.5次之。在外源EGFP的敲低实验中，Cas13m.2、Cas13m.3相比Cas13m.1、Cas13m.4、Cas13m.5表现出更高水平的敲低。

文献(Slaymaker,Ian M.,et al."High-resolution structure of Cas 13b and biochemical characterization of RNA targeting and cleavage."Cell reports 26.13(2019):3741-3751.)中报道了PbuCas13b的晶体结构，该文章示出了PbuCas13b蛋白中与crRNA相互作用的氨基酸残基，以及PbuCas13b蛋白的HEPN结构域的催化残基。

考虑到Cas13m蛋白在进化树上与Cas13b较为接近，发明人将本申请文件的Cas13m蛋白与PbuCas13b进行了多序列比对(在线MAFFT v7.504，E-INS-i算法，其他为默认参数)。结果如图9A-图9C所示。在PbuCas13b蛋白的上述关键残基(与crRNA相互作用的氨基酸残基，以及HEPN结构域的催化残基)的对应位置识别出高活性Cas13m蛋白(Cas13m.2、Cas13m.3、Cas13m.6)的保守基序(基序1-基序15)，以常用的Prosite形式书写，如下表11所示。基序1-基序15在Cas13m.2、Cas13m.3、Cas13m.6中出现的频率更高，基序16-基序30为基序1-15的进一步明确。

表11.多序列比对保守基序结果

注：单一字母代码表示高度保守的氨基酸残基，x则表示为任意氨基酸，[]表示此位置为[]内择一可选氨基酸代码。

使用程序AlphaFold v2.0预测得到Cas13m蛋白和PbuCas13b的三维结构，然后使用PyMOL V2.5.1叠合蛋白。

结果显示，AlphaFold预测得到的PbuCas13b蛋白的三维结构与文献报道的PbuCas13b与gRNA复合物的晶体结构(NDB:6DTD，https://www.rcsb.org/structure/6dtd)中蛋白的三维结构很接近(RMSD＝2.122)，说明PbuCas13b在结合gRNA前后的构象差异并不是特别大，也即Cas13m与PbuCas13b蛋白三维结构的比较是有意义的，而不是必须严格地对两者的Cas13-gRNA复合物来进行比较。

Cas13m蛋白的基序1-15在蛋白中的三维空间位置与PbuCas13b的相应序列所处的位置非常相似。以Cas13m.6为例，将其与PbuCas13b进行叠合，图10的A-N分别示出了Cas13m.6的基序1-15与PbuCas13b对应序列的重叠情况。

可以预测，基序1-基序13可以使得Cas13m.2、Cas13m.3、Cas13m.6蛋白与各自对应DR序列相互作用，基序14和15是催化活性中心。本领域技术人员能够理解，Cas13m.2、Cas13m.3或Cas13m.6的同源蛋白或突变体在含有基序1-基序15时，也有望展示出靶核酸结合活性或核酸内切酶活性，特别是当除基序1-基序15以外的氨基酸残基在野生型序列基础上进行氨基酸保守性替换的情况下。上述同源蛋白或突变体可以具有与Cas13m.2、Cas13m.3或Cas13m.6蛋白≥50％的序列同一性(例如≥60％、≥70％、≥80％、≥85％、≥90％、≥95％、≥96％、≥97％、≥98％、≥99％或≥99.5％的序列同一性)。上述同源蛋白的来源也可以是：与Cas13m.2、Cas13m.3或Cas13m.6蛋白来源相同的界(Kingdom)、门(Phylum)、纲(Class)、目(Order)、科(Family)、属(Genus)或种(Species)。

因此，本文提供了具有这种共有基序的Cas13蛋白质(包含其的缀合物，编码这些蛋白质或缀合物的核酸，含这些核酸的载体，和使用这些蛋白/核酸的方法)。

实施例10：脱靶测试

1、构建对照载体

本实验选用PTBP1基因作为脱靶验证的靶基因。

对照shRNA1，shRNA2分别为使用Cas13所用靶序列头尾截取的21nt作为靶点，具体如下：

shRNA1靶位点：GCCCATCTACATCCAGTTCTC(SEQ ID NO:73)

shRNA2靶位点：CAGCCCATCTACATCCAGTTC(SEQ ID NO:74)

构建对照载体使用引物如下表12所示：

表12.引物序列表

将上述引物按照shRNA1：PTBP1-g3-shRNA-1F/PTBP1-g3-shRNA-1R，shRNA2：PTBP1-g3-shRNA-2F/PTBP1-g3-shRNA-2R分别退火获得退火产物。

载体pAAV-CMV-EGFP通过BsaI,NotI双酶切获得线性化骨架，将骨架分别与shRNA1 以及shRNA2的退火产物连接后转化大肠杆菌获得对照载体shRNA1、shRNA2(可在U6启动子驱动下分别表达shRNA1、shRNA2)。

采用常规方法构建载体CasRx-blank。CasRx-blank是在前述CasRx-BpiI质粒基础上，将gRNA指导序列的编码序列GGGTCTTCGAGAAGACCT(SEQ ID NO:103)替换为GATCAACATTAAATGTGAGCGAGT(SEQ ID NO:104)(编码的gRNA可靶向大肠杆菌E.coli的LacZ)。另外还使用实施例5构建得到的Cas13m.2、Cas13m.3、Cas13m.5、CasRfg.2、CasRx靶向PTBP1的质粒(分别命名为Cas13m.2-PTBP1、Cas13m.3-PTBP1、Cas13m.5-PTBP1、CasRfg.2-PTBP1、CasRx-PTBP1质粒)。

骨架载体pAAV-CMV-EGFP序列如SEQ ID NO:79所示。

2、待验证载体转染293T细胞

待验证质粒按照500ng在24孔板中转染293T细胞。

转染方法如下所示：

1)胰酶(Trypsin 0.25％,EDTA，Thermo，11058021)消化293T细胞，对细胞计数，按照一个孔500μL将2×10 ⁵细胞铺24孔板。

2)对于每个转染样品，请按照以下步骤准备复合物：

转染后72h的细胞使用SteadyPure Universal RNA Extraction Kit AG21017试剂盒进行RNA提取操作，并使用超微量分光光度计检测RNA浓度。提取的RNA送试剂公司进行RNA测序。

3、脱靶分析

对样本进行PE150bp RNA-Seq测序，测序获得的多个fastq文件分别通过HISAT2或STAR软件与靶物种参考基因组进行比对，获得比对后的多个BAM文件。使用kallisto、RSEM或HTSeq检测得到转录本及各基因的表达量。

使用DESeq2、limma-voom、edger对各组间的表达量进行差异分析，将满足p.adj<0.05、|log2FoldChange|>＝0.75、basemean>2.5的作为差异表达基因(differential expression gene，DEG)，下表13列出了各实验组相对于CasRx-blank组的差异表达基因的个数：

表13.差异表达基因的个数

由表中数据可知，相比于CasRx、shRNA1、shRNA2而言，Cas13m.2、Cas13m.3和Cas13m.5的潜在脱靶基因数量更少，对细胞基因表达谱的影响更小。所以Cas13m.2、Cas13m.3、Cas13m.5的这一特点将使其在用于疾病治疗时具有更好的安全性、更低的毒性。

实施例11：旁切效应测试

1、获取gRNA

使用T7体外转录试剂盒T7 High Yield RNA Transcription Kit，Vazyme，TR101-01转录靶向PTBP1的gRNA。

体外转录得到的gRNA分子序列如下：

Cas13m.2-PTBP1：

5’-GUGGUUGGAGAACUGGAUGUAGAUGGGCUGGUUGUAGAUGACCUCGUUUUGGAGGGGAAACACAAC-3’(SEQ ID NO:80)

Cas13m.3-PTBP1：

5’-GUGGUUGGAGAACUGGAUGUAGAUGGGCUGGUUGUAGAAGCCGUUCAUUCGGGACGGUAUGACAAC-3’(SEQ ID NO:81)

Cas13m.6-PTBP1：

5’-GUGGUUGGAGAACUGGAUGUAGAUGGGCUGGUUGUAGAAGCCUAUCGUUAGGAUAGGUAUGACAAC-3’(SEQ ID NO:82)

2、检测旁切效应

RNaseAlert是一种新型RNA底物，该底物一端标记有荧光报告分子(荧光体)，另一端标记有淬灭剂。淬灭剂的物理接近会将荧光体的荧光抑制到极低水平。然而，当RNA酶存在时，RNA底物被裂解，荧光体和淬灭剂分离。荧光体在被490nm光激发时会发出520nm的绿色荧光信号。

当Cas13存在旁切活性(即靶RNA激活的非特异性RNA切割活性)时，RNaseAlert底物也会被切割从而发出可以被检测的绿色荧光信号。

主要实验设备及材料如下所示：

Kit，IDT，11-02-01-02

RNase Inhibitor,Murine，NEB，M0314L

96孔全黑聚苯乙烯微孔板，corning，3915

酶标仪，BioTek，SLXFA。

配制如下的RNaseAlert旁切体系：

备注：按照SteadyPure Universal RNA Extraction Kit说明书提取293T细胞的RNA组。使用实施例2纯化的Cas13m重组蛋白。RNase组(添加RNase的阳性对照组)和blank组(空白对照)的反应体系中不加Cas13蛋白和gRNA。

在37℃反应1h，每30min使用酶标仪检测520nm荧光。

检测的效果如下表14和图11所示：

表14.旁切测试效果

Cas13m.2、Cas13m.3、Cas13m.6相对荧光强度均低于10，并且荧光强度没有随时间延长而增加，并没有观察到旁切活性。

有文献(Koonin,Eugene V.,and Kira S.Makarova."Evolutionary plasticity and functional versatility of CRISPR systems."PLoS biology 20.1(2022):e3001481.)指出，Cas13一旦通过靶标识别而激活后，会不加选择地切割RNA并诱导休眠或细胞死亡。本实施例实验结果表明，Cas13m.2、Cas13m.3、Cas13m.6无旁切活性这一特点将使其在用于疾病治疗时具有更好的安全性、更低的毒性。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种分离的Cas13蛋白，其特征在于，所述Cas13蛋白的氨基酸序列包含与SEQ ID NO:1-7、SEQ ID NO:60任一项所示序列具有≥50％序列同一性的序列。
根据权利要求1所述的Cas13蛋白，其特征在于，所述Cas13蛋白可与gRNA形成复合物。
根据权利要求2所述的Cas13蛋白，其特征在于，所述Cas13蛋白可被gRNA引导至靶核酸。
根据权利要求3所述的Cas13蛋白，其特征在于，所述Cas13蛋白可被gRNA引导至靶核酸，并靶向或修饰所述靶核酸。
根据权利要求3所述的Cas13蛋白，其特征在于，所述靶核酸是RNA。
根据权利要求5所述的Cas13蛋白，其特征在于，所述靶核酸是PTBP1 mRNA、AQp1 mRNA、VEGFA mRNA、VEGFR1 mRNA或VEGFR2 mRNA。
根据权利要求1所述的Cas13蛋白，其特征在于，所述Cas13蛋白来源于：与具有包含SEQ ID NO:1-SEQ ID NO:7、SEQ ID NO:60任一项所示序列的氨基酸序列的蛋白来源相同的界、门、纲、目、科、属或种。
一种分离的Cas13蛋白，其特征在于，所述Cas13蛋白的氨基酸序列包含以下基序1-15所示氨基酸序列：

基序1：L-x(3)-R-N-x-Y-[ST]-H；

基序2：R-x(3)-K-x-[VI]-N-G-F-G-R；

基序3：P-Y-[IV]-T-x(5)-Y-x-[IV]-x(2)-N-x-I-G-L；

基序4：P-x-L-x(2)-D-x(3)-[NK]；

基序5：P-x-[AC]-x-L-S-x(2)-[ED]-[LF]-P-A-x(2)-F；

基序6：[LI]-P-x-K-L；

基序7：[KT]-x-[AL]-x(2)-[KVE]-[IL]；

基序8：A-[DRK]-x-L-x(2)-[DS]-[MI]-[MV]-x-[FW]-Q-P；

基序9：K-L-T-x(2)-N；

基序10：F-x-[HR]-[AF]-x(5)-[QR]；

基序11：I-x-L-P-x-G-[LM]-F-x(3)-I；

基序12：[LI]-I-x(2)-[YWF]-F；

基序13：I-x(3)-I；

基序14：[DN]-[TN]-E-x(2)-[IL]-[KR]-[VR]-Y-[KR]-x-Q-D；

基序15：R-N-[SA]-[FA]-x-H-x(2)-Y；

其中，A、F、C、U、D、N、E、Q、G、H、L、I、K、O、M、P、R、S、T、V、W、Y为标准氨基酸代码，“x”为任意氨基酸，x后的括号内的数字表示连续的多个x，“[]”内为择一可选氨基酸代码，“-”为分隔符。
根据权利要求8所述的Cas13蛋白，其特征在于，所述Cas13蛋白包含如SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:60任一项所示序列，或与SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:60任一项所示序列具有50％以上序列同一性的序列。
根据权利要求8所述的Cas13蛋白，其特征在于，所述Cas13蛋白的氨基酸序列中除基序1-15所确定氨基酸以外的任意氨基酸残基，在野生型序列基础上进行氨基酸保守性替换，所述野生型序列包括SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:60所示序列。
根据权利要求8所述的Cas13蛋白，其特征在于，所述Cas13蛋白可与gRNA形成复合物。
根据权利要求8所述的Cas13蛋白，其特征在于，所述Cas13蛋白可被gRNA引导至靶核酸。
根据权利要求8所述的Cas13蛋白，其特征在于，所述Cas13蛋白来源于：与包含SEQ ID NO:1-SEQ ID NO:7、SEQ ID NO:60任一项所示序列的蛋白来源相同的的界、门、纲、目、科、属或种。
一种缀合物，其特征在于，其包含根据权利要求1-13任一项所述的Cas13蛋白，以及修饰所述Cas13蛋白的修饰部分。
根据权利要求14所述的缀合物，其特征在于，所述修饰部分选自：提供亚细胞定位的定位标签，有助于追踪、分离或纯化的标签，翻译激活结构域，翻译抑制结构域，核酸酶结构域，脱氨酶结构域，甲基化酶结构域，去甲基化酶结构域和调控剪接结构域。
根据权利要求15所述的缀合物，其特征在于，

所述提供亚细胞定位的定位标签选自：核定位信号和核输出信号；

所述有助于追踪、分离或纯化的标签选自：表位标签、荧光蛋白、HIS标签、血凝素(HA)标签、FLAG标签、Myc标签、谷胱甘肽S-转移酶(GST)标签以及麦芽糖结合蛋白(MBP)标签；

所述翻译激活结构域选自：eIF4E和其他翻译起始因子和酵母poly(A)-结合蛋白和GLD2的结构域；

所述翻译抑制结构域选自：Pumilio蛋白、脱腺苷酶和Argonaute蛋白；

所述核酸酶结构域选自：FokⅠ、PIN核酸内切酶结构域、NYN结构域、来自SOT1的SMR结构域和来自葡萄球菌核酸酶的RNA酶结构域；

所述脱氨酶结构域来自胞苷脱氨酶和腺苷脱氨酶；

所述甲基化酶结构域来自m6A甲基化转移酶；

所述去甲基化结构域来自RNA去甲基化酶ALKBH5；

所述调控剪接结构域选自：SRSF1、hnRNP A1、RBM4。
根据权利要求14所述的缀合物，其特征在于，所述缀合物包含或不包含用于连接所述Cas13蛋白和所述修饰部分的接头。
一种gRNA，其特征在于，可与根据权利要求1-13任一项所述的Cas13蛋白或根据权利要求14-17任一项所述的缀合物形成复合物。
根据权利要求18所述的gRNA，其特征在于，包含指导序列和同向重复序列，所述指导序列可与靶核酸互补，所述同向重复序列可与所述Cas13蛋白或与所述缀合物相互作用。
根据权利要求18所述的gRNA，其特征在于，所述gRNA包含指导序列和同向重复序列，所述同向重复序列的二级结构包括依次连接的：互补配对的第一茎、非互补的凸起结构、互补配对的第二茎、非互补的环结构。
根据权利要求20所述的gRNA，其特征在于，

a.所述第一茎由4-7对碱基对组成，

b.所述非互补的凸起结构其中一条序列长度为2-6个核苷酸，

c.所述第二茎由4-7对碱基对组成，

和/或

d.所述非互补的环结构序列长度为5-8个核苷酸。
根据权利要求18所述的gRNA，其特征在于，所述第一茎的其中一条序列选自：GUUG、GUUGU、GUUGUA和GUUGUUA。
根据权利要求19所述的gRNA，其特征在于所述同向重复序列选自SEQ ID NO:15-SEQ ID NO:21、SEQ ID NO:62中的任一项，或选自与SEQ ID NO:15-SEQ ID NO:21、SEQ ID NO:62中任一项所示序列具有90％以上序列同一性的序列。
根据权利要求19所述的gRNA，其特征在于，所述gRNA包含指导序列和同向重复序列，所述指导序列长度为10nt-60nt。
根据权利要求19所述的gRNA，其特征在于，所述靶核酸是PTBP1 mRNA、AQp1 mRNA、VEGFA mRNA、VEGFR1 mRNA或VEGFR2 mRNA。
一种组合物，其特征在于，包括：

1)根据权利要求1-13任一项所述的Cas13蛋白、根据权利要求14-17任一项所述的缀合物、编码根据权利要求1-13任一项所述Cas13蛋白的核酸、或编码根据权利要求14- 17任一项所述缀合物的核酸；

以及

2)根据权利要求18-25任一项所述的gRNA或编码根据权利要求18-25任一项所述gRNA的核酸。
根据权利要求26所述的组合物，其特征在于，所述gRNA包含指导序列，所述指导序列可与靶核酸互补，所述靶核酸为PTBP1 mRNA或AQp1 mRNA。
一种载体，其特征在于，所述载体包含：

1)编码根据权利要求1-13任一项所述的Cas13蛋白的核苷酸序列或编码根据权利要求14-17任一项所述的缀合物的核苷酸序列；

和/或

2)编码根据权利要求18-25任一项所述的gRNA的核苷酸序列。
根据权利要求28所述的载体，其特征在于，所述载体包含调节元件，所述调节元件可以调控所述核苷酸序列的表达。
根据权利要求29所述的载体，其特征在于，所述调节元件为启动子。
一种递送组合物，其特征在于，包括递送载体，以及选自以下的至少一种：

根据权利要求1-13任一项所述的Cas13蛋白、根据权利要求14-17任一项所述的缀合物、根据权利要求18-25任一项所述的gRNA、根据权利要求26或27所述的组合物或根据权利要求28-30任一项所述的载体。
根据权利要求31所述的递送组合物，其特征在于，所述递送载体选自：递送粒子、递送囊泡、病毒载体中的至少一种。
一种细胞，其特征在于，包含：根据权利要求1-13任一项所述的Cas13蛋白、根据权利要求14-17任一项所述的缀合物、根据权利要求18-25任一项所述的gRNA、根据权利要求26或27所述的组合物、根据权利要求28-30任一项所述的载体中的至少一种。
根据权利要求33所述的细胞，其特征在于，所述细胞为真核细胞。
一种靶向或修饰靶核酸的方法，其特征在于，向所述靶核酸递送选自以下的至少一种：根据权利要求1-13任一项所述的Cas13蛋白、根据权利要求14-17任一项所述的缀合物、根据权利要求18-25任一项所述的gRNA、根据权利要求26或27所述的组合物、根据权利要求28-30任一项所述的载体或根据权利要求33或34所述的细胞。
根据权利要求35所述的方法，其特征在于，所述靶核酸来源于动物细胞、植物细胞或微生物细胞。
根据权利要求35所述的方法，其特征在于，所述靶核酸是PTBP1 mRNA、AQp1 mRNA、VEGFA mRNA、VEGFR1 mRNA或VEGFR2 mRNA。
根据权利要求1-13任一项所述的Cas13蛋白、根据权利要求14-17任一项所述的缀合物、根据权利要求18-25任一项所述的gRNA、根据权利要求26或27所述的组合物、根据权利要求28-30任一项所述的载体或根据权利要求33或34所述的细胞在制备用于诊断、预防或治疗受试者中疾病的药物中的用途。
一种核酸检测方法，其特征在于，包括使以下a和b形成复合物并与待测靶核酸结合的步骤：

a.根据权利要求1-13任一项所述的Cas13蛋白或根据权利要求14-17任一项所述的缀合物，

b.根据权利要求18-25任一项所述的gRNA。
根据权利要求39所述的方法，其特征在于，包括使根据权利要求14-17任一项所述的缀合物与根据权利要求18-25任一项所述的gRNA形成复合物，并与待测靶核酸结合；

所述缀合物包含可检测标记，所述复合物结合、切割或修饰靶核酸致使所述可检测标记信号变化，通过观测可检测标记的信号变化情况分析待测样品中靶核酸的含量。
一种诊断、预防或治疗疾病的方法，包括向有需要的受试者施用有效量的根据权利要求1-13任一项所述的Cas13蛋白、根据权利要求14-17任一项所述的缀合物、根据权利要求18-25任一项所述的gRNA、根据权利要求26或27所述的组合物、根据权利要求28-30任一项所述的载体或者根据权利要求33或34所述的细胞。
一种用于诊断、预防或治疗疾病的药物组合物，所述药物组合物包含根据权利要求1-13任一项所述的Cas13蛋白、根据权利要求14-17任一项所述的缀合物、根据权利要求18-25任一项所述的gRNA、根据权利要求26或27所述的组合物、根据权利要求28-30任一项所述的载体或者根据权利要求33或34所述的细胞。