ES2973207T3

ES2973207T3 - Composiciones y procedimientos para modificar genomas utilizando Csm1

Info

Publication number: ES2973207T3
Application number: ES17707411T
Authority: ES
Inventors: Matthew Begemann; Benjamin Neil Gray
Original assignee: Ricetec Inc
Current assignee: Ricetec Inc
Priority date: 2016-02-15
Filing date: 2017-02-15
Publication date: 2024-06-19
Anticipated expiration: 2037-02-15
Also published as: EP3307884B1; CN109312316B; CA3221070A1; KR20230165368A; CN109312316A; IL261082A; AU2017220789A1; CN115927440A; EP3307884A2; JP2019504649A; IL308791A; AU2023270322A1; JP2022184892A; EP3307884C0; EP4306642A2; EP4306642A3; JP2025023918A; AU2023226754A1; MY197523A; MX2023014014A

Abstract

Se proporcionan composiciones y métodos para modificar secuencias de ADN genómico. Los métodos producen roturas de doble cadena (DSB) en sitios objetivo predeterminados en una secuencia de ADN genómico, lo que da como resultado mutación, inserción y/o eliminación de secuencias de ADN en los sitios objetivo en un genoma. Las composiciones comprenden construcciones de ADN que comprenden secuencias de nucleótidos que codifican una proteína Cpf1 o Csm1 unida operativamente a un promotor que es operable en las células de interés. Las construcciones de ADN pueden usarse para dirigir la modificación del ADN genómico en loci genómicos predeterminados. En el presente documento se describen métodos para utilizar estas construcciones de ADN para modificar secuencias de ADN genómico. Además, se proporcionan composiciones y métodos para modular la expresión de genes. Las composiciones comprenden construcciones de ADN que comprenden un promotor que es operable en las células de interés unido operativamente a secuencias de nucleótidos que codifican una proteína Cpf1 o Csm1 mutada con una capacidad abolida para producir DSB, opcionalmente unida a un dominio que regula la actividad transcripcional. Los métodos pueden usarse para regular hacia arriba o hacia abajo la expresión de genes en loci genómicos predeterminados. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Composiciones y procedimientos para modificar genomas utilizando Csm1

CAMPO DE LA INVENCIÓN

La presente invención se refiere a composiciones y procedimientos para editar secuencias genómicas en lugares preseleccionados y para modular la expresión génica.

ANTECEDENTES DE LA INVENCIÓN

La modificación del ADN genómico es de inmensa importancia para la investigación básica y aplicada. Las modificaciones genómicas tienen el potencial de dilucidar y, en algunos casos, curar las causas de las enfermedades y proporcionar rasgos deseables en las células y/o individuos que comprenden dichas modificaciones. La modificación genómica puede incluir, por ejemplo, la modificación del genoma de plantas, animales, hongos y/o procariotas. Un ámbito en el que se practica la modificación genómica es en la modificación del ADN genómico de las plantas.

La modificación del ADN genómico de las plantas es de inmensa importancia tanto para la investigación básica como para la aplicada a las plantas. A las plantas transgénicas con ADN genómico modificado de forma estable se les pueden conferir nuevos rasgos, como tolerancia a herbicidas, resistencia a insectos y/o acumulación de proteínas valiosas, incluyendo proteínas farmacéuticas y enzimas industriales. La expresión de los genes nativos de la planta puede regularse al alza o a la baja o alterarse de otro modo (por ejemplo, cambiando el tejido o tejidos en los que se expresan los genes nativos de la planta), su expresión puede abolirse por completo, las secuencias de ADN pueden alterarse (por ejemplo, mediante mutaciones puntuales, inserciones o deleciones), o pueden insertarse nuevos genes no nativos en el genoma de una planta para conferirle nuevos rasgos.

Los procedimientos más comunes para modificar el ADN genómico de las plantas tienden a modificar el ADN en sitios aleatorios dentro del genoma. Estos procedimientos incluyen, por ejemplo, la transformación de plantasmediada por Agrobacteriumy la transformación biolística, también denominada bombardeo de partículas. En muchos casos, sin embargo, es deseable modificar el ADN genómico en un sitio objetivo predeterminado en el genoma de la planta de interés, por ejemplo, para evitar la interrupción de genes nativos de la planta o para insertar un casete transgénico en un locus genómico que se sabe que proporciona una expresión génica robusta. Sólo recientemente se dispone de tecnologías para la modificación selectiva del ADN genómico de las plantas. Estas tecnologías se basan en la creación de una rotura de doble cadena (DSB) en el lugar deseado. Esta DSB provoca el reclutamiento de la maquinaria nativa de reparación del ADN de la planta hacia el DSB. La maquinaria de reparación del ADN puede aprovecharse para insertar ADN heterólogo en un lugar predeterminado, eliminar ADN genómico nativo de la planta o producir mutaciones puntuales, inserciones o deleciones en un lugar deseado.

SUMARIO DE LA INVENCIÓN

La invención proporciona procedimientos de modificación de una secuencia nucleotídica en un sitio objetivo de acuerdo con las reivindicaciones 1 y 2. La invención también proporciona la molécula de ácido nucleico de la reivindicación 8. La invención proporciona además la proteína de fusión de la reivindicación 9. Además, se proporciona una célula vegetal, eucariota o procariota de acuerdo con las reivindicaciones 11 y 12. Además, la invención proporciona la planta o semilla de la misma de acuerdo con la reivindicación 13.

Se proporcionan composiciones y procedimientos para modificar secuencias de ADN genómico. Tal como se utiliza en el presente documento, el ADN genómico se refiere al ADN lineal y/o cromosómico y/o al plásmido u otras secuencias de ADN extracromosómico presentes en la célula o células de interés. Los procedimientos producen roturas de doble cadena (DSB) en sitios objetivo predeterminados de una secuencia de ADN genómico, lo que da lugar a la mutación, inserción y/o deleción de secuencias de ADN en el sitio o sitios objetivo de un genoma. Las composiciones comprenden construcciones de ADN que comprenden secuencias de nucleótidos que codifican una proteína Csm1 unida operablemente a un promotor que es operable en las células de interés. Los constructos de ADN pueden utilizarse para dirigir la modificación del ADN genómico en loci genómicos predeterminados. En el presente documento se describen procedimientos para utilizar estos constructor de ADN para modificar secuencias de ADN genómico. También se incluyen las plantas modificadas, las células vegetales, las partes de plantas y las semillas. También se proporcionan composiciones y procedimientos para modular la expresión de genes. Los procedimientos dirigen la(s) proteína(s) a sitios predeterminados en un genoma para efectuar una regulación al alza o a la baja de un gen o genes cuya expresión está regulada por el sitio dirigido en el genoma. Las composiciones comprenden constructos de ADN que comprenden secuencias de nucleótidos que codifican una proteína Csm1 modificada con actividad nucleasa disminuida o abolida, opcionalmente fusionada a un dominio de activación o represión transcripcional. En el presente documento se describen procedimientos para utilizar estos constructos de ADN con el fin de modificar la expresión génica.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

La Figura 1 muestra una representación esquemática de la inserción de un casete genético de resistencia a la higromicina en el locus genómico CAO1 del arroz. La estrella indica el lugar de la rotura de doble cadena mediada por Cpfl en el ADN de tipo silvestre. Las líneas discontinuas indican la homología entre el casete donante de reparación y el ADN de tipo silvestre. Las flechas pequeñas indican los sitios de unión de los cebadores para las reacciones de PCR utilizadas para verificar la inserción en el locus genómico previsto.

35S Term., terminador CaMV 35S; hph, gen de resistencia a la higromicina; ZmUbi, promotor de la ubiquitina del maíz.

La Figura 2 muestra los datos de secuencias obtenidos a partir de callos de arroz generados durante el Experimento 1. La Figura 2A muestra los resultados de la inserción de un casete hph en el locus CAO1. La secuencia PAM aparece en recuadro y la secuencia a la que se dirige el ARN guía aparece subrayada. La elipsis indica que existía una gran inserción, pero aquí no se muestran los datos completos de la secuencia. Las Figuras 2B, 2C y 2D muestran datos obtenidos de callos de arroz en los que se produjo un evento de deleción mediado por FnCpfl en el Experimento 01 (Tabla 7). En las Figuras 2B y 2C, los callos representan las piezas de callo #1-16, de izquierda a derecha, seguidos de un callo de escalera de peso molecular. La Figura 2B muestra la amplificación por PCR del casete del gen FnCpfl, lo que indica la inserción de este casete en el genoma del arroz en las piezas de callo 1, 2, 4, 6, 7 y 15. La Figura 2C muestra los resultados de un ensayo T7EI con ADN extraído de estas mismas piezas de callo, con el patrón de doble banda para el callo #15 indicando una posible inserción o deleción. Se obtuvieron resultados similares del ensayo T7EI para callos adicionales en una repetición del Experimento 01, que dio lugar a la producción de las piezas de callo 01-20, 01-21, 01-30 y 01-31. La Figura 2D muestra una alineación de los datos de secuencia obtenidos del callo #15 (01-15), junto con los datos de secuencia de las piezas de callo 01-20, 01-21, 01-30 y 01-31. La secuencia PAM aparece en recuadro y la secuencia a la que se dirige el ARN guía aparece subrayada. La Figura 3 muestra datos de secuencias de los experimentos 31, 46, 80, 81, 91 y 93, verificando indels mediados por Cpfl y Csm1 en el locus genómico CAO1 del arroz. La Figura 3A muestra un alineamiento del locus CAO1 del arroz de tipo silvestre con datos de secuencias de la pieza de callo #21 del Experimento 31 (31-21), la pieza de callo #33 del Experimento 80 (80-33), las piezas de callo 9, 30 y 46 del Experimento 81 (81-09, 81-30 y 81-46, respectivamente), la pieza de callo #47 del experimento 93 (93-47), la pieza de callo #4 del experimento 91 (91-04), las piezas de callo #112 y 141 del experimento 97 (97-112 y 97-141), y las piezas de callo #4 y 11 del experimento 119 (119-04 y 119-11). La Figura 3B muestra los datos de secuencia de las piezas de callo 46-38, 46-77, 46-86, 46-88 y 46-90 del Experimento 46. Tanto en 4A como en 4B, el sitio PAM aparece en recuadro y la región a la que se dirige el ARN guía aparece subrayada.

La Figura 4 muestra un resumen de los eventos de recombinación inesperados recuperados de los Experimentos 70 y 75. La Figura 4A muestra una visión esquemática de una porción del plásmido 131633, incluyendo las regiones homólogas del terminador 35S y el brazo corriente abajo que condujeron a los eventos de recombinación recuperados en el Experimento 70. Se subrayan las regiones de homología que parecen haber mediado en los eventos HDR no intencionados. La Figura 4B muestra los datos de secuenciación de la pieza de callo 70-15. WT, secuencia de tipo silvestre; GE70, secuencia de la pieza de callo 70-15; 131633_upstream, secuencia del brazo corriente arriba y del término 35S del plásmido 131633; 131633_corriente abajo, secuencia del brazo corriente abajo del plásmido 131633. La Figura 4C muestra un resumen esquemático de una porción del plásmido 131633 que incluye las regiones homólogas del terminador 35S y el brazo corriente abajo que condujo a los eventos de recombinación recuperados del experimento 75. Se subrayan las regiones de homología que parecen haber mediado en los eventos HDR no intencionados. La Figura 4D muestra los datos de secuenciación de la pieza de callo 75-46. WT, secuencia de tipo silvestre; GE75, secuencia de la pieza de callo 75-46; 131633_upstream, secuencia del brazo corriente arriba y del término 35S del plásmido 131633; 131633_corriente abajo, secuencia del brazo corriente abajo del plásmido 131633. 35S Term, terminador CaMV 35S; hph, región codificante de la higromicina fosfotransferasa; pZmUbi, promotor de la ubiquitina del maíz. En las Figuras 4B y 4D, el sitio PAM aparece en recuadro.

La Figura 5 muestra la secuencia de la región corriente arriba de la pieza de callo #46-161 del Experimento 46 (Tabla 7). El sitio PAM está en recuadro, mostrando la mutación esperada de este sitio en el callo de arroz transformado, y los datos de la secuencia indican la inserción exitosa del inserto del vector 131633 en el locus genómico CAO1 del arroz.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN

En el presente documento se proporcionan procedimientos y composiciones para el control de la expresión génica que implican la selección de secuencias, tal como la perturbación del genoma o la edición de genes, que se relacionan con el sistema CRISPR-Csm y sus componentes. En ciertas realizaciones, la enzima CRISPR es una enzima Csm, porejemplo,un ortólogo de Csm1. Los procedimientos y composiciones incluyen ácidos nucleicos para unir secuencias objetivo de ADN. Esto es ventajoso, ya que los ácidos nucleicos son mucho más fáciles y menos costosos de producir que, por ejemplo, los péptidos, y la especificidad puede variar en función de la longitud del tramo en el que se busca la homología. No es necesaria la compleja colocación tridimensional de varios dedos, por ejemplo.

También se proporcionan ácidos nucleicos que codifican los polipéptidos Csm1, así como procedimientos de uso de polipéptidos Csm1 para modificar secuencias de ADN cromosómico (es decir, genómico) u organelar de células huésped, incluyendo células vegetales. Los polipéptidos interactúan con ARN guía (ARNg) específicos, que dirigen la endonucleasa Csm1 a un sitio objetivo específico, en cuyo sitio la endonucleasa Csm1 introduce una rotura de doble cadena que puede ser reparada por un procedimiento de reparación del ADN de tal forma que se modifica la secuencia de ADN. Dado que la especificidad la proporciona el ARN guía, el polipéptido Csm1 es universal y puede utilizarse con diferentes ARN guía para dirigirse a diferentes secuencias genómicas. Las endonucleasas Cpfl y Csm1 tienen ciertas ventajas sobre las nucleasas Cas (por ejemplo, Cas9) utilizadas tradicionalmente con los arreglos CRISPR. Por ejemplo, los arreglos CRISPR asociados a Cpfl se procesan en ARNcr maduros sin necesidad de un ARNcr transactivador adicional (ARNtracr). Además, los complejos CPF1-ARNcr pueden escindir el ADN objetivo precedido<por un motivo corto adyacente al protoespaciador (PAM) que a menudo es rico en T, en contraste con el p>A<m rico en>G que sigue al ADN objetivo en muchos sistemas Cas9. Además, Cpfl puede introducir una rotura escalonada de doble cadena de ADN con un saliente 5' de 4 o 5 nucleótidos (nt). Sin estar limitado por la teoría, es probable que las proteínas Csm1 procesen de manera similar sus arreglos CRISPR en ARNcrs maduros sin el requerimiento de un ARNcr transactivador adicional (ARNtracr) y produzcan cortes escalonados en lugar de cortes romos. Los procedimientos descritos en el presente documento pueden utilizarse para dirigir y modificar secuencias cromosómicas específicas y/o introducir secuencias exógenas en localizaciones específicas del genoma de células o embriones vegetales. Los procedimientos pueden utilizarse además para introducir secuencias o modificar regiones dentro de organelos (por ejemplo, cloroplastos y/o mitocondrias). Además, el objetivo es específico con efectos limitados fuera del objetivo.

I. Endonucleasas Cpfl y Csm1

En el presente documento se describen las endonucleasas Cpfl y Csm1, y sus fragmentos y variantes, para su uso en la modificación de genomas, incluyendo los genomas de plantas. En el presente documento, el término endonucleasas Cpfl o polipéptidos Cpfl se refiere a homólogos y ortólogos de los polipéptidos Cpfl descritos en Zetsche et al. (2015) Cell 163 : 759-771 y de los polipéptidos Cpfl divulgados en la Solicitud de patente de EE. UU. 2016/0208243, y fragmentos y variantes de los mismos. Los ejemplos de polipéptidos Cpfl se exponen en SEQ ID NOs: 3, 6, 9, 12, 15, 18, 20, 23, 106-133, 135-146, 148-158, 161-173 y 231-236. Tal y como se utiliza en el presente documento, el término endonucleasas Csm1 o polipéptidos Csm1 se refiere a homólogos y ortólogos de las SEQ ID NOs: 134, 147, 159, 160 y 230. Típicamente, las endonucleasas Cpfl y Csm1 pueden actuar sin el uso de ARNtracrs y pueden introducir una rotura escalonada de la doble cadena de ADN. En general, los polipéptidos Cpfl y Csm1 comprenden al menos un dominio de reconocimiento de ARN y/o de unión a ARN. Los dominios de reconocimiento de ARN y/o de unión a ARN interactúan con los ARN guía. Los polipéptidos Cpfl y Csm1 también pueden comprender dominios nucleasa (es decir, dominios DNasa o RNasa), dominios de unión al ADN, dominios helicasa, dominios ARNasa, dominios de interacción proteína-proteína, dominios de dimerización, así como otros dominios. En realizaciones específicas, un polipéptido Csm1, o un polinucleótido que codifica un polipéptido Csm1, comprende: una porción de unión a ARN que interactúa con el ARN objetivo de ADN, y una porción de actividad que exhibe actividad enzimática dirigida al sitio, tal como un dominio de endonucleasa RuvC.

Los polipéptidos Csm1 pueden ser polipéptidos Csm1 de tipo silvestre, polipéptidos Csm1 modificados o un fragmento de un polipéptido Csm1 de tipo silvestre o modificado. El polipéptido Csm1 puede modificarse para aumentar la afinidad y/o especificidad de unión del ácido nucleico, alterar una actividad enzimática y/o cambiar otra propiedad de la proteína. Por ejemplo, los dominios nucleasa (es decir, DNasa, RNasa) del polipéptido Csm1 pueden modificarse, eliminarse o inactivarse. Alternativamente, el polipéptido Csm1 puede truncarse para eliminar dominios que no son esenciales para la función de la proteína. En determinadas realizaciones, el polipéptido Csm1 forma un homodímero o un heterodímero.

En algunas realizaciones, el polipéptido Csm1 puede derivarse de un polipéptido Csm1 de tipo silvestre o de un fragmento del mismo. En otras realizaciones, el polipéptido Csm1 puede derivarse de un polipéptido Csm1 modificado. Por ejemplo, la secuencia de aminoácidos del polipéptido Csm1 puede modificarse para alterar una o más propiedades (por ejemplo, actividad nucleasa, afinidad, estabilidad, etc.) de la proteína. Alternativamente, pueden eliminarse de la proteína dominios del polipéptido Csm1 no implicados en la escisión guiada por ARN, de forma que el polipéptido Csm1 modificado sea más pequeño que el polipéptido Csm1 de tipo silvestre.

En general, un polipéptido Csm1 comprende al menos un dominio nucleasa (es decir, DNasa), pero no necesita contener un dominio HNH como el que se encuentra en las proteínas Cas9. Por ejemplo, un polipéptido Csm1 puede comprender un dominio nucleasa tipo RuvC. En algunas realizaciones, el polipéptido Csm1 puede modificarse para inactivar el dominio nucleasa de modo que deje de ser funcional. En algunas realizaciones en las que uno de los dominios nucleasa está inactivo, el polipéptido Csm1 no escinde ADN de doble cadena. En realizaciones específicas, el polipéptido Csm1 mutado comprende una mutación en una posición correspondiente a las posiciones 917 o 1006<de FnCpf1 (SEQ ID NO: 3) o a las posiciones 701 o 922 de la SmCsm1>(S<e>Q<ID NO: 160) cuando se alinean para>obtener la máxima identidad que reduce o elimina la actividad nucleasa. Por ejemplo, una conversión de aspartato en alanina (D917A) y de glutamato en alanina (E1006A) en un dominio similar a RuvC inactivó completamente la actividad de escisión de ADN de FnCpfl (SEQ ID NO: 3), mientras que la conversión de aspartato en alanina (D1255A) redujo significativamente la actividad de escisión (Zetsche etal. (2015) Cell 163: 759-771). El dominio nucleasa puede modificarse utilizando procedimientos bien conocidos, como la mutagénesis dirigida al sitio, la mutagénesis mediada por PCR y la síntesis génica total, así como otros procedimientos conocidos en la técnica. Las proteínas Csm1 con dominios nucleasa inactivados (proteínas dCsm1) pueden utilizarse para modular la expresión génica sin modificar las secuencias de ADN. En ciertas realizaciones, una proteína dCsml puede dirigirse a regiones particulares de un genoma tal como los promotores de un gen o genes de interés mediante el uso de ARNg apropiados. La proteína dCsm1 puede unirse a la región deseada del ADN y puede interferir con la unión de la ARN polimerasa a esta región del ADN y/o con la unión de los factores de transcripción a esta región del ADN. Esta técnica puede utilizarse para regular al alza o a la baja la expresión de uno o más genes de interés. En algunas otras realizaciones, la proteína dCsm1 puede fusionarse a un dominio represor para reducir aún más la expresión de un gen o genes cuya expresión está regulada por interacciones de ARN polimerasa, factores de transcripción u otros reguladores transcripcionales con la región de ADN cromosómico a la que se dirige el ARNg. En algunas otras realizaciones, la proteína dCsm1 puede fusionarse a un dominio de activación para efectuar una regulación al alza de un gen o genes cuya expresión esté regulada por interacciones de ARN polimerasa, factores de transcripción u otros reguladores transcripcionales con la región de ADN cromosómico a la que se dirige el ARNg.

Los polipéptidos Cpfl y Csm1 divulgados en el presente documento pueden comprender además al menos una señal de localización nuclear (NLS). En general, un NLS comprende un tramo de aminoácidos básicos. Las señales de localización nuclear son conocidas en la técnica (véase, porejemplo,Lange et al., J. Biol. Chem. (2007) 282:5101-5105). La NLS puede localizarse en el N-terminal, el C-terminal o en una localización interna del polipéptido Csm1. En algunas realizaciones, el polipéptido Csm1 puede comprender además al menos un dominio de penetración celular. El dominio de penetración celular puede estar situado en el extremo N-terminal, en el extremo C-terminal o en un lugar interno de la proteína.

El polipéptido Cpfl o Csm1 divulgado en el presente documento puede comprender además al menos un péptido señal de orientación plastidial, al menos un péptido señal de orientación mitocondrial, o un péptido señal de orientación del polipéptido Cpfl o Csm1 tanto a plástidos como a mitocondrias. Las señales de localización de péptidos señal de plástidos, mitocondrias y de doble objetivo son conocidas en la técnica (véase, porejemplo,Nassoury y Morse (2005) Biochim Biophys Acta 1743:5-19; Kunze y Berger (2015) Front Physiol dx.doi.org/10.3389/fphys.2015.00259; Herrmann y Neupert (2003) IUBMB Life 55:219-225; Soll (2002) Curr Opin Plant Biol 5:529-535; Carrie y Small (2013) Biochim Biophys Acta 1833:253-259; Carrie et al. (2009) FEBS J 276:1187-1195; Silva-Filho (2003) Curr Opin Plant Biol 6:589-595; Peeters y Small (2001) Biochim Biophys Acta 1541:54-63; Murcha et al. (2014) J Exp Bot 65:6301-6335; Mackenzie (2005) Trends Cell Biol 15:548-554; Glaser et.al. (1998) Plant Mol Biol 38:311-338). El péptido señal de destino plastidial, mitocondrial o dual puede localizarse en el N-terminal, el C-terminal o en una localización interna del polipéptido Cpfl o Csm1.

En otras realizaciones, el polipéptido Csm1 también puede comprender al menos un dominio marcador. Ejemplos no limitantes de dominios marcadores incluyen proteínas fluorescentes, etiquetas de purificación y etiquetas epitópicas. En ciertas realizaciones, el dominio marcador puede ser una proteína fluorescente. Ejemplos no limitativos de proteínas fluorescentes adecuadas incluyen proteínas fluorescentes verdes (por ejemplo, GFP, GFP-2, tagGFP, turboGFP, EGFP, Emerald, Azami Green, Monomeric Azami Green, CopGFP, AceGFP, ZsGreen1), proteínas fluorescentes amarillas (por ejemplo YFP, EYFP, Citrine, Venus, YPet, PhiYFP, ZsYellow1), proteínas fluorescentes azules (por ejemplo EBFP, EBFP2, Azurite, mKalama1, GFPuv, Sapphire, T-sapphire), proteínas fluorescentes cian (por ejemplo ECFP, Cerulean, CyPet, AmCyan1, Midoriishi-Cyan), proteínas fluorescentes rojas (mKate, mKate2, mPlum, DsRed monómero, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-Monomer, HcRed-Tandem, HcRed1, AsRed2, eqFP611, mRasberry, mStrawberry, Jred), y proteínas fluorescentes naranjas (mOrange, mKO, Kusabira-Orange, Monomeric Kusabira-Orange, mTangerine, tdTomato) o cualquier otra proteína fluorescente adecuada. En otras realizaciones, el dominio marcador puede ser una etiqueta de purificación y/o una etiqueta epitópica. Las etiquetas ejemplares incluyen, entre otras, glutatión-S-transferasa (GST), proteína de unión a quitina (CBP), proteína de unión a maltosa, tiorredoxina (TRX), poli(NANP), etiqueta de purificación por afinidad en tándem (TAP), myc, AcV5, AU1, AU5, E, ECS, E2, FLAG, HA, nus, Softag 1, Softag 3, Strep, SBP, Glu-Glu, HSV, KT3, S, S1, T7, V5, VSV-G, 6xHis, proteína transportadora de carboxilo de biotina (BCCP) y calmodulina.

En ciertas realizaciones, el polipéptido Csm1 puede formar parte de un complejo proteína-ARN que comprende un ARN guía. El ARN guía interactúa con el polipéptido Csm1 para dirigir el polipéptido Csm1 a un sitio objetivo específico, en el que el extremo 5' del ARN guía puede emparejarse con una secuencia protoespaciadora específica de la secuencia de nucleótidos de interés en el genoma de la planta, ya sea parte del genoma nuclear, plastidial y/o mitocondrial. Tal como se utiliza en el presente documento, el término "ARN dirigido al ADN" se refiere a un ARN guía que interactúa con el polipéptido Csm1 y el sitio objetivo de la secuencia de nucleótidos de interés en el genoma de una célula vegetal. Un<a>R<n>dirigido al ADN, o un polinucleótido de ADN que codifica un ARN dirigido al ADN, puede comprender: un primer segmento que comprende una secuencia de nucleótidos que es complementaria a una secuencia en el ADN objetivo, y un segundo segmento que interactúa con un polipéptido Csm1.

Los polinucleótidos que codifican los polipéptidos Cpfl y Csm1 divulgados en el presente documento pueden utilizarse para aislar secuencias correspondientes de otros organismos procariotas o eucariotas. De este modo, pueden utilizarse procedimientos tal como la PCR, la hibridación y similares para identificar dichas secuencias basándose en su homología o identidad de secuencia con las secuencias expuestas en el presente documento. La presente invención abarca las secuencias aisladas en función de su identidad de secuencia con las secuencias Csm1 completas expuestas en el presente documento o con variantes y fragmentos de las mismas. Dichas secuencias incluyen secuencias que son ortólogas de las secuencias Cpfl y Csm1 divulgadas. Por "ortólogos" se entienden los genes derivados de un gen ancestral común y que se encuentran en especies diferentes como resultado de la especiación. Los genes que se encuentran en especies diferentes se consideran ortólogos cuando sus secuencias de nucleótidos y/o sus secuencias de proteínas codificadas comparten al menos aproximadamente 75%, aproximadamente 80%, aproximadamente 85%, aproximadamente 90%, aproximadamente 91%, aproximadamente 92%, aproximadamente 93%, aproximadamente 94%, aproximadamente 95%, aproximadamente 96%, aproximadamente 97%, aproximadamente 98%, aproximadamente 99%, o una identidad de secuencia mayor. Las funciones de los ortólogos suelen estar muy conservadas entre especies. Así, la presente invención abarca polinucleótidos aislados que codifican polipéptidos que tienen actividad de endonucleasa Csm1 y que comparten al menos aproximadamente 75% o más de identidad de secuencia con las secuencias divulgadas en el presente documento. Como se utiliza en el presente documento, la actividad endonucleasa Csm1 se refiere a la actividad endonucleasa CRISPR en la que, un ARN guía (ARNg) asociado con un polipéptido Csm1 hace que el complejo Csm1-ARNg se una a una secuencia de nucleótidos predeterminada que es complementaria al ARNg; y en la que la actividad Csm1 puede introducir una rotura de doble cadena en o cerca del sitio al que se dirige el ARNg. En ciertas realizaciones, esta rotura de doble cadena puede ser una rotura escalonada de doble cadena de ADN. Tal como se utiliza en el presente documento, una "rotura escalonada de doble cadena de ADN" puede dar lugar a una rotura de doble cadena con aproximadamente 1, aproximadamente 2, aproximadamente 3, aproximadamente 4, aproximadamente 5, aproximadamente 6, aproximadamente 7, aproximadamente 8, aproximadamente 9 o aproximadamente 10 nucleótidos de saliente en los extremos 3' o 5' tras la escisión. En realizaciones específicas, el polipéptido Csm1 introduce una rotura escalonada de doble cadena de ADN con un saliente 5' de 4 o 5 nt. La rotura de la doble cadena puede producirse en o cerca de la secuencia a la que se dirige la secuencia de ARN ADN-objetivo (por ejemplo, ARN guía).

En el presente documento se describen fragmentos y variantes de los polinucleótidos Cpfl y Csm1 y secuencias de aminoácidos Cpfl y Csm1 codificados por los mismos. Por "fragmento" se entiende una porción del polinucleótido o una porción de la secuencia de aminoácidos. Por "variantes" se entiende secuencias sustancialmente similares. Para polinucleótidos, una variante comprende un polinucleótido que tiene deleciones (es decir, truncamientos) en el extremo 5' y/o 3'; deleción y/o adición de uno o más nucleótidos en uno o más sitios internos en el polinucleótido nativo; y/o sustitución de uno o más nucleótidos en uno o más sitios en el polinucleótido nativo. Tal y como se utiliza en el presente documento, un polinucleótido o polipéptido "nativo" comprende una secuencia de nucleótidos o una secuencia de aminoácidos de origen natural, respectivamente. Las variantes de un polinucleótido particular de la invención tienen al menos 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% o más de identidad de secuencia con ese polinucleótido particular de acuerdo con lo determinado por programas y parámetros de alineación de secuencias como se describe en otra parte del presente documento.

Por aminoácido o proteína "variante" se entiende un aminoácido o proteína derivados del aminoácido o proteína nativos por deleción (denominada truncamiento) de uno o más aminoácidos en el extremo N-terminal y/o C-terminal de la proteína nativa; deleción y/o adición de uno o más aminoácidos en uno o más sitios internos de la proteína nativa; o sustitución de uno o más aminoácidos en uno o más sitios de la proteína nativa. Las proteínas variantes abarcadas por la presente invención son biológicamente activas, es decir, siguen poseyendo la actividad biológica deseada de la proteína nativa. Las variantes biológicamente activas de un polipéptido nativo tienen al menos 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% o más de identidad de secuencia con la secuencia de aminoácidos de la secuencia nativa según lo determinado por los programas de alineación de secuencias y los parámetros descritos en el presente documento. Una variante biológicamente activa de una proteína de la invención puede diferir de esa proteína en tan pocos como 1-15 residuos de aminoácidos, tan pocos como 1-10, tales como 6-10, tan pocos como 5, tan pocos como 4, 3, 2, o incluso 1 residuo de aminoácido.

Las secuencias variantes también pueden identificarse mediante el análisis de bases de datos existentes de genomas secuenciados. De este modo, pueden identificarse las secuencias correspondientes y utilizarse en los procedimientos de la invención.

Los procedimientos de alineación de secuencias para su comparación son bien conocidos en la técnica. Así, la determinación del porcentaje de identidad de secuencia entre dos secuencias cualesquiera puede realizarse mediante un algoritmo matemático. Ejemplos no limitativos de tales algoritmos matemáticos son el algoritmo de Myers y Miller (1988) CABIOS 4:11-17; the local alignment algorithm of Smith et al. (1981) Adv. Appl. Math. 2:482; the global alignment algorithm de Needleman y Wunsch (1970) J. Mol. Biol. 48:443-453; the search-for-local alignment method de Pearson y Lipman (1988) Proc. Natl. Acad. Sci. 85:2444-2448; the algorithm de Karlin y Altschul (1990) Proc. Natl. Acad. Sci. EE. UU. 87:2264-2268modificado como en Karlin y Altschul (1993) Proc. Natl. Acad. Sci. EE. UU. 90:5873-5877.

Las implementaciones informáticas de estos algoritmos matemáticos pueden utilizarse para comparar secuencias y determinar su identidad. Tales implementaciones incluyen, pero no se limitan a: CLUSTAL en el programa PC/Gene (disponible en Intelligenetics, Mountain View, California); el programa ALIGN (Versión 2.0) y GAP, BESTFIT, BLAST, FASTA y TFASTA en el GCG Wisconsin Genetics Software Package, Versión 10 (disponible en Accelrys Inc., 9685 Scranton Road, San Diego, California, EE. UU.). Las alineaciones con estos programas pueden realizarse utilizando los parámetros por defecto. El programa CLUSTAL está bien descrito por Higgins etal. (1988) Gene 73:237-244; Higgins et al. (1989) CABIOS 5:151-153; Corpet et al. (1988) Nucleic Acids Res. 16:10881-90; Huang et al. (1992) CABIOS 8:155-65y Pearson et al. (1994) Meth. Mol. Biol. 24:307-331. El programa ALIGN se basa en el algoritmo de Myers y Miller (1988) supra. Se puede utilizar una tabla de residuos de peso PAM120, una penalización de longitud de hueco de 12 y una penalización de hueco de 4 con el programa ALIGN al comparar secuencias de aminoácidos. Los programas BLAST de Altschul et al (1990) J. Mol. Biol. 215:403 se basan en el algoritmo de Karlin y Altschul (1990) supra. Se pueden realizar búsquedas de nucleótidos BLAST con el programa BLASTN, puntuación = 100, longitud de palabra = 12, para obtener secuencias de nucleótidos homólogas a una secuencia de nucleótidos que codifica una proteína de la invención. Se pueden realizar búsquedas de proteínas BLAST con el programa BLASTX, puntuación = 50, longitud de palabra = 3, para obtener secuencias de aminoácidos homólogas a una proteína o polipéptido de la invención. Para obtener alineaciones separadas con fines de comparación, se puede utilizar Gapped BLAST (en BLAST 2.0) como se describe en Altschul et al. (1997) Nucleic Acids Res. 25:3389. Alternativamente, se puede utilizar PSI-BLAST (en BLAST 2.0) para realizar una búsqueda iterada que detecte relaciones distantes entre moléculas. Véase Altschulet al.(1997) supra. Al utilizar BLAST, Gapped BLa St , PSI-BLAST, se pueden utilizar los parámetros por defecto de los respectivos programas (por ejemplo, BLASTN para secuencias de nucleótidos, BLASTX para proteínas). Consulte el sitio web en www.ncbi.nlm.nih.gov. La alineación también puede realizarse manualmente mediante inspección.

Las moléculas de ácido nucleico que codifican los polipéptidos Cpfl y Csm1, o fragmentos o variantes de los mismos, pueden optimizarse mediante codones para su expresión en una planta de interés u otra célula u organismo de interés. Un "gen de codón optimizado" es un gen cuya frecuencia de uso de codón está diseñada para imitar la frecuencia de uso de codón preferida de la célula huésped. Las moléculas de ácido nucleico pueden optimizarse con codones, total o parcialmente. Dado que cualquier aminoácido (excepto la metionina y el triptófano) está codificado por una serie de codones, la secuencia de la molécula de ácido nucleico puede modificarse sin cambiar el aminoácido codificado. La optimización de codones se produce cuando uno o más codones se alteran a nivel del ácido nucleico de forma que los aminoácidos no se modifican, pero se incrementa la expresión en un organismo huésped concreto. Los expertos en la técnica reconocerán que las tablas de codones y otras referencias que proporcionan información sobre preferencias para una amplia gama de organismos están disponibles en la técnica (véase, por ejemplo, Zhang et al. (1991) Gene 105:61-72; Murray et al. (1989) Nucl. Acids Res. 17:477-508). La metodología para optimizar una secuencia de nucleótidos para su expresión en una planta se proporciona, por ejemplo, en la Patente de EE. UU. No.

6,015,891y las referencias allí citadas. Ejemplos de polinucleótidos de codón optimizado para la expresión en una planta se exponen en: SEQ ID NOs: 5, 8, 11, 14, 17, 19, 22, 25 y 174-206.

II. Proteínas de fusión

En el presente documento se proporcionan proteínas de fusión que comprenden un polipéptido Csm1 o una variante del mismo, y un dominio efector. El polipéptido Csm1 puede dirigirse a un sitio objetivo mediante un ARN guía, en cuyo sitio el dominio efector puede modificar o efectuar la secuencia de ácido nucleico objetivo. El dominio efector puede ser un dominio de escisión, un dominio de modificación epigenética, un dominio de activación transcripcional o un dominio de represión transcripcional. La proteína de fusión puede comprender además al menos un dominio adicional elegido entre una señal de localización nuclear, un péptido señal plastidial, un péptido señal mitocondrial, un péptido señal capaz de dirigir el tráfico de proteínas a múltiples localizaciones subcelulares, un dominio de penetración celular o un dominio marcador, cualquiera de los cuales puede estar situado en el extremo N-terminal, en el extremo C-terminal o en una localización interna de la proteína de fusión. El polipéptido Csm1 puede localizarse en el N-terminal, en el C-terminal o en una localización interna de la proteína de fusión. El polipéptido Csm1 puede fusionarse directamente con el dominio efector, o puede fusionarse con un enlazador. En realizaciones específicas, la secuencia enlazadora que fusiona el polipéptido Csm1 con el dominio efector puede tener al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40 o 50 aminoácidos de longitud. Por ejemplo, el enlazador puede tener una longitud de 1-5, 1-10, 1 20, 1-50, 2-3, 3-10, 3-20, 5-20 o 10-50 aminoácidos.

En algunas realizaciones, el polipéptido Csm1 de la proteína de fusión puede derivarse de una proteína Csm1 de tipo silvestre. La proteína derivada de Cpfl o de Csm1 puede ser una variante modificada o un fragmento. En algunas realizaciones, el polipéptido Csm1 puede modificarse para contener un dominio nucleasa (por ejemplo, un dominio similar a RuvC) con actividad nucleasa reducida o eliminada. Por ejemplo, el polipéptido derivado de Cpfl o derivado de Csm1 puede modificarse de forma que el dominio nucleasa se elimine o mute de forma que deje de ser funcional (es decir, que la actividad nucleasa esté ausente). En particular, un polipéptido Csm1 puede tener una mutación en una posición correspondiente a las posiciones 917 o 1006 de FnCpf1 (<s>E<q>ID NO:3) o a las posiciones 701 o 922 de SmCsm1 (SEQ ID NO: 160) cuando se alinea para obtener la máxima identidad. Por ejemplo, una conversión de aspartato en alanina (D917A) y de glutamato en alanina (E1006A) en un dominio similar a RuvC inactivó completamente la actividad de escisión del ADN de FnCpfl, mientras que la conversión de aspartato en alanina (D1255A) redujo significativamente la actividad de escisión(Zetsche et al. (2015) Cell 163: 759-771). Los ejemplos de polipéptidos Cpfl que tienen mutaciones en el dominio RuvC se exponen en SEQ ID NOs: 26-41 y 63-70. El dominio nucleasa puede inactivarse mediante una o más mutaciones de deleción, mutaciones de inserción y/o mutaciones de sustitución utilizando procedimientos conocidos, tal como la mutagénesis dirigida al sitio, la mutagénesis mediada por PCR y la síntesis génica total, así como otros procedimientos conocidos en la técnica. En una realización ejemplar, el polipéptido Csm1 de la proteína de fusión se modifica mutando el dominio similar a RuvC de forma que el polipéptido Csm1 no tenga actividad nucleasa.

La proteína de fusión también comprende un dominio efector situado en el N-terminal, el C-terminal o en una ubicación interna de la proteína de fusión. En algunas realizaciones, el dominio efector es un dominio de escisión. Tal y como se utiliza aquí, un "dominio de escisión" se refiere a un dominio que escinde ADN. El dominio de escisión puede obtenerse de cualquier endonucleasa o exonucleasa. Ejemplos no limitantes de endonucleasas de las que puede derivarse un dominio de escisión incluyen, pero no se limitan a, endonucleasas de restricción y endonucleasas homing. Véase, por ejemplo, New England Biolabs Catalog o Belfort et al. (1997) Nucleic Acids Res. 25:3379-3388. Se conocen otras enzimas que escinden el ADN (por ejemplo, la nucleasa S1; la nucleasa de judía mungo; la DNasa I pancreática; la nucleasa micrococócica; la endonucleasa HO de levadura). Véase también Linn et al. (eds.) Nucleases, Cold Spring Harbor Laboratory Press, 1993. Una o más de estas enzimas (o fragmentos funcionales de las mismas) pueden utilizarse como fuente de dominios de escisión.

En algunas realizaciones, el dominio de escisión puede derivarse de una endonucleasa de tipo II-S. Las endonucleasas de tipo II-S escinden el ADN en sitios que suelen estar a varios pares de bases del sitio de reconocimiento y, como tales, tienen dominios de reconocimiento y escisión separables. Estas enzimas suelen ser monómeros que se asocian transitoriamente para formar dímeros que escinden cada cadena de ADN en lugares escalonados. Ejemplos no limitantes de endonucleasas de tipo II-S adecuadas incluyen BfiI, BpmI, BsaI, BsgI, BsmBI, BsmI, BspMI, FokI, Mboll y SapI.

] En ciertas realizaciones, la escisión de tipo II-S puede modificarse para facilitar la dimerización de dos dominios de escisión diferentes (cada uno de los cuales está unido a un polipéptido Csm1 o fragmento del mismo). En las realizaciones en las que el dominio efector es un dominio de escisión, el polipéptido Csm1 puede modificarse como se discute en el presente documento de manera que se elimine su actividad endonucleasa. Por ejemplo, el polipéptido Csm1 puede modificarse mutando el dominio similar a RuvC de forma que el polipéptido ya no presente actividad endonucleasa.

En otras realizaciones, el dominio efector de la proteína de fusión puede ser un dominio de modificación epigenética. En general, los dominios de modificación epigenética alteran la estructura de las histonas y/o la estructura cromosómica sin alterar la secuencia del ADN. Los cambios en la estructura de las histonas y/o la cromatina pueden provocar cambios en la expresión de los genes. Ejemplos de modificación epigenética incluyen, sin límite, la acetilación o metilación de residuos de lisina en las proteínas histonas, y la metilación de residuos de citosina en el ADN. Ejemplos no limitantes de dominios de modificación epigenética adecuados incluyen dominios de histona acetiltransferasa, dominios de histona desacetilasa, dominios de histona metiltransferasa, dominios de histona desmetilasa, dominios de ADN metiltransferasa y dominios de ADN desmetilasa.

En realizaciones en las que el dominio efector es un dominio histona acetiltransferasa (HAT), el dominio HAT puede derivarse de EP300 (es decir, proteína de unión a E1A p300), CREBBP (es decir, Proteína de unión a CREB), CDY1, CDY2, CDYL1, CLOCK, ELP3, ESA1, GCN5 (KAT2A), HAT1, KAT2B, KAT5, MYST1, MYST2, MYST3, MYST4, NCOA1, NCOA2, NCOA3, NCOAT, P/CAF, Tip60, TAFII250 o TF3C4. En las realizaciones en las que el dominio efector es un dominio de modificación epigenética, el polipéptido Csm1 puede modificarse como se discute en el presente documento de manera que se elimine su actividad endonucleasa. Por ejemplo, el polipéptido Csm1 puede modificarse mutando el dominio similar a RuvC de forma que el polipéptido ya no posea actividad nucleasa.

En algunas realizaciones, el dominio efector de la proteína de fusión puede ser un dominio de activación transcripcional. En general, un dominio de activación transcripcional interactúa con elementos de control transcripcional y/o proteínas reguladoras transcripcionales (es decir, factores de transcripción, ARN polimerasas, etc.) para aumentar y/o activar la transcripción de uno o más genes. En algunas realizaciones, el dominio de activación transcripcional puede ser, sin límite, un dominio de activación VP16 del virus del herpes simple, VP64 (que es un derivado tetramérico de VP16), un dominio de activación NFkB p65, dominios de activación p53 1 y 2, un dominio de activación CREB (proteína de unión al elemento de respuesta cAMP), un dominio de activación E2A y un dominio de activación NFAT (factor nuclear de células T activadas). En otras realizaciones, el dominio de activación transcripcional puede ser Gal4, Gcn4, MLL, Rtg3, Gln3, Oaf1, Pip2, Pdr1, Pdr3, Pho4 y Leu3. El dominio de activación transcripcional puede ser de tipo silvestre, o puede ser una versión modificada del dominio de activación transcripcional original. En algunas realizaciones, el dominio efector de la proteína de fusión es un dominio de activación transcripcional VP16 o VP64. En las realizaciones en las que el dominio efector es un dominio de activación transcripcional, el polipéptido Csm1 puede modificarse como se discute en el presente documento de manera que se elimine su actividad endonucleasa. Por ejemplo, el polipéptido Csm1 puede modificarse mutando el dominio similar a RuvC de forma que el polipéptido ya no posea actividad nucleasa.

En otras realizaciones, el dominio efector de la proteína de fusión puede ser un dominio represor transcripcional. En general, un dominio represor transcripcional interactúa con elementos de control transcripcional y/o proteínas reguladoras transcripcionales (es decir, factores de transcripción, ARN polimerasas, etc.) para disminuir y/o terminar la transcripción de uno o más genes. Ejemplos no limitantes de dominios represores transcripcionales adecuados incluyen dominios represores tempranos de AMPc inducible (ICER), dominios represores de caja A asociada a Kruppel (KRAB-A), dominios represores ricos en glicina YY1, represores similares a Sp1, represores E(spl), represor I.kappa.B y MeCP2. En las realizaciones en las que el dominio efector es un dominio represor transcripcional, el polipéptido Csm1 puede modificarse como se discute en el presente documento de manera que se elimine su actividad endonucleasa. Por ejemplo, el polipéptido Csm1 puede modificarse mutando el dominio similar a RuvC de forma que el polipéptido ya no posea actividad nucleasa.

En algunas realizaciones, la proteína de fusión comprende además al menos un dominio adicional. Ejemplos no limitantes de dominios adicionales adecuados incluyen señales de localización nuclear, dominios de penetración o translocación celular y dominios marcadores.

Cuando el dominio efector de la proteína de fusión es un dominio de escisión, se puede formar un dímero que comprende al menos una proteína de fusión. El dímero puede ser un homodímero o un heterodímero. En algunas realizaciones, el heterodímero comprende dos proteínas de fusión diferentes. En otras realizaciones, el heterodímero comprende una proteína de fusión y una proteína adicional.

El dímero puede ser un homodímero en el que los dos monómeros de la proteína de fusión son idénticos con respecto a la secuencia primaria de aminoácidos. En una realización en la que el dímero es un homodímero, el polipéptido Csm1 puede modificarse de forma que se elimine la actividad endonucleasa. En ciertas realizaciones en las que el polipéptido Csm1 se modifica de forma que se elimina la actividad endonucleasa, cada monómero de proteína de fusión puede comprender un polipéptido Csm1 idéntico y un dominio de escisión idéntico. El dominio de escisión puede ser cualquier dominio de escisión, tal como cualquiera de los dominios de escisión ejemplares proporcionados en el presente documento. En tales realizaciones, los ARN guía específicos dirigirían los monómeros de la proteína de fusión a sitios diferentes, pero estrechamente adyacentes de modo que, tras la formación de dímeros, los dominios nucleasa de los dos monómeros crearían una rotura de doble cadena en el ADN objetivo.

El dímero también puede ser un heterodímero de dos proteínas de fusión diferentes. Por ejemplo, el polipéptido Csm1 de cada proteína de fusión puede derivarse de un polipéptido Csm1 diferente o de un polipéptido Csm1 ortólogo de una especie bacteriana diferente. Por ejemplo, cada proteína de fusión puede comprender un polipéptido Csm1 derivado de una especie bacteriana diferente. En estas realizaciones, cada proteína de fusión reconocería un sitio objetivo diferente (es decir, especificado por el protoespaciador y/o la secuencia PAM). Por ejemplo, los ARN guía podrían posicionar el heterodímero en sitios diferentes pero próximos, de forma que sus dominios nucleasa produzcan una rotura efectiva de doble cadena en el ADN objetivo.

Alternativamente, dos proteínas de fusión de un heterodímero pueden tener dominios efectores diferentes. En las realizaciones en las que el dominio efector es un dominio de escisión, cada proteína de fusión puede contener un dominio de escisión modificado diferente. En estas realizaciones, el polipéptido Csm1 puede modificarse de forma que se eliminen sus actividades endonucleasas. Las dos proteínas de fusión que forman un heterodímero pueden diferir tanto en el dominio polipeptídico Csm1 como en el dominio efector.

En cualquiera de las realizaciones descritas anteriormente, el homodímero o heterodímero puede comprender al menos un dominio adicional elegido entre señales de localización nuclear (NLS), péptidos señal de plástidos, péptidos señal mitocondriales, péptidos señal capaces de traficar proteínas a múltiples localizaciones subcelulares, penetración celular, dominios de translocación y dominios marcadores, como se ha detallado anteriormente. En cualquiera de las realizaciones descritas anteriormente, uno o ambos polipéptidos Csm1 pueden modificarse de manera que se elimine o modifique la actividad endonucleasa del polipéptido.

El heterodímero también puede comprender una proteína de fusión y una proteína adicional. Por ejemplo, la proteína adicional puede ser una nucleasa. En una realización, la nucleasa es una nucleasa de dedos de zinc. Una nucleasa de dedo de zinc comprende un dominio de unión al ADN de dedo de zinc y un dominio de escisión. Un dedo de zinc reconoce y se une a tres (3) nucleótidos. Un dominio de unión al ADN con dedos de zinc puede comprender desde unos tres dedos de zinc hasta aproximadamente siete dedos de zinc. El dominio de unión al ADN del dedo de zinc puede derivarse de una proteína natural o puede diseñarse. Véase, por ejemplo, Beerli et al. (2002) Nat. Biotechnol.

20:135-141; Pabo et al. (2001) Ann. Rev. Biochem. 70:313-340; Isalan et al. (2001) Nat. Biotechnol. 19:656-660; Segal et al. (2001) Curr. Opin. Biotechnol. 12:632-637; Choo et al. (2000) Curr. Opin. Struct. Biol. 10:411-416; Zhang et al. (2000) J. Biol. Chem. 275(43):33850-33860; Doyon et al. (2008) Nat. Biotechnol. 26:702-708y Santiago et al. (2008) Proc. Natl. Acad. Sci. EE. UU. 105:5809-5814. El dominio de escisión de la nucleasa de dedos de zinc puede ser cualquier dominio de escisión detallado en el presente documento. En algunas realizaciones, la nucleasa de dedos de zinc puede comprender al menos un dominio adicional elegido entre señales de localización nuclear, péptidos señal de plástidos, péptidos señal mitocondriales, péptidos señal capaces de traficar con proteínas a múltiples localizaciones subcelulares, dominios de penetración celular o de translocación, que se detallan en el presente documento.

En ciertas realizaciones, cualquiera de las proteínas de fusión detalladas anteriormente o un dímero que comprenda al menos una proteína de fusión puede formar parte de un complejo proteína-ARN que comprenda al menos un ARN guía. Un ARN guía interactúa con el polipéptido Csm1 de la proteína de fusión para dirigir la proteína de fusión a un sitio objetivo específico, en el que el extremo 5' del ARN guía se empareja con una secuencia protosespaciadora específica.

III. Ácidos nucleicos que codifican polipéptidos Csm1 o proteínas de fusión

Se proporcionan ácidos nucleicos que codifican cualquiera de los polipéptidos Csm1 o proteínas de fusión descritos en el presente documento. El ácido nucleico puede ser ARN o<a>D<n>. Los ejemplos de polinucleótidos que codifican polipéptidos Cpfl se exponen en SEQ ID NOs: 4, 5, 7, 8, 10, 11, 13, 14, 16, 17, 19, 21, 22, 24, 25 y 174-184, 187-192, 194-201 y 203-206. Ejemplos de polinudeótidos que codifican polipéptidos Csm1 se exponen en SEQ ID NOs: 185, 186, 193, y 202. En una realización, el ácido nucleico que codifica el polipéptido Csm1 o la proteína de fusión es ARNm. El ARNm puede estar 5' capado y/o 3' poliadenilado. En otra realización, el ácido nucleico que codifica el polipéptido Csm1 o la proteína de fusión es ADN. El ADN puede estar presente en un vector.

Los ácidos nucleicos que codifican el polipéptido Csm1 o las proteínas de fusión pueden optimizarse mediante codones para una traducción eficiente a proteína en la célula vegetal de interés. Existen programas para la optimización de codones (por ejemplo, OPTIMIZER en genomes.urv.es/OPTIMIZER; OptimumGene.TM. de GenScript en www.genscript.com/codon_opt.html).

En ciertas realizaciones, el ADN que codifica el polipéptido Csm1 o la proteína de fusión puede estar enlazado de forma operable a al menos una secuencia promotora. La secuencia codificadora de ADN puede enlazarse operablemente a una secuencia promotora de control para la expresión en una célula huésped de interés. En algunas realizaciones, la célula huésped es una célula vegetal. Por "enlazado funcionalmente" se entiende un enlace funcional entre dos o más elementos. Por ejemplo, un enlace operable entre un promotor y una región codificante de interés (por ejemplo, la región que codifica un polipéptido Csm1 o ARN guía) es un enlace funcional que permite la expresión de la región codificante de interés. Los elementos enlazados operablemente pueden ser contiguos o no contiguos. Cuando se utiliza para referirse a la unión de dos regiones codificantes de proteínas, por operativamente enlazadas se entiende que las regiones codificantes están en el mismo marco de lectura.

La secuencia promotora puede ser constitutiva, regulada, específica de la etapa de crecimiento o específica del tejido. Se reconoce que las diferentes aplicaciones pueden mejorarse mediante el uso de diferentes promotores en las moléculas de ácido nucleico para modular el momento, la ubicación y/o el nivel de expresión del polipéptido Csm1 y/o ARN guía. Dichas moléculas de ácido nucleico también pueden contener, si se desea, una región reguladora promotora(por ejemplo,una que confiera expresión inducible, constitutiva, regulada por el entorno o el desarrollo, o específica/selectiva de célula o tejido), un sitio de inicio de la transcripción, un sitio de unión a ribosomas, una señal de procesamiento de ARN, un sitio de terminación de la transcripción, y/o una señal de poliadenilación.

En algunas realizaciones, las moléculas de ácido nucleico proporcionadas en el presente documento pueden combinarse con promotores constitutivos, de tejido preferido, de desarrollo preferido u otros promotores para la expresión en plantas. Algunos ejemplos de promotores constitutivos funcionales en células vegetales son la región de iniciación de la transcripción 35S del virus del mosaico de la coliflor (CaMV), el promotor 1'- o 2'- derivado del ADN-T deAgrobacterium tumefaciens,el promotor de la ubiquitina 1, el promotor de Smas, el promotor de la cinamil alcohol deshidrogenasa (Pat. No. 5,683,439), el promotor Nos, el promotor pEmu, el promotor rubisco, el promotor GRP1-8 y otras regiones de iniciación de la transcripción de diversos genes vegetales conocidos por los expertos. Si se desea una expresión de bajo nivel, pueden utilizarse promotores débiles. Los promotores constitutivos débiles incluyen, por ejemplo, el promotor central del promotor Rsyn7 (documento WO 99/43838 y Pat. de EE. UU. No. 6,072,050), el promotor central 35S CaMV, y similares. Otros promotores constitutivos incluyen, por ejemplo, Pat. de EE. UU. Nos.

5,608,149; 5,608,144; 5,604,121; 5,569,597; 5,466,785; 5,399,680; 5,268,463; y 5,608,142. Véase también, Pat. de EE. UU. No. 6,177,611.

Ejemplos de promotores inducibles son el promotor Adh1 que es inducible por hipoxia o estrés por frío, el promotor Hsp70 que es inducible por estrés por calor, el promotor PPDK y el promotor pepcarboxilasa que son ambos inducibles por luz. También son útiles los promotores que son inducibles químicamente, tal como el promotor In2-2 que es inducible por safener (Pat. de EE. UU. No. 5,364,780), el promotor ERE, inducido por estrógenos, y el promotor Axig1, inducido por auxinas y específico del tapetum, pero también activo en el callo (PCT US01/22169).

Ejemplos de promotores bajo control del desarrollo en plantas incluyen promotores que inician la transcripción preferentemente en ciertos tejidos, tales como hojas, raíces, frutos, semillas o flores. Un promotor "específico de tejido" es un promotor que inicia la transcripción sólo en determinados tejidos. A diferencia de la expresión constitutiva de los genes, la expresión específica de un tejido es el resultado de la interacción de varios niveles de regulación génica. Por ello, puede ser preferible utilizar promotores de especies vegetales homólogas o estrechamente relacionadas para lograr una expresión eficaz y fiable de los transgenes en tejidos concretos. En algunas realizaciones, la expresión comprende un promotor preferido por el tejido. Un promotor "preferido por el tejido" es un promotor que inicia la transcripción preferentemente, pero no necesariamente en su totalidad o únicamente en determinados tejidos.

En algunas realizaciones, las moléculas de ácido nucleico que codifican un polipéptido Csm1 y/o ARN guía comprenden un promotor específico del tipo celular. Un promotor "específico de un tipo celular" es un promotor que impulsa principalmente la expresión en determinados tipos celulares de uno o más órganos. Algunos ejemplos de células vegetales en las que los promotores específicos de tipo celular funcionales en plantas pueden ser principalmente activos incluyen, por ejemplo, las células BETL, las células vasculares de las raíces, las hojas, las células pedunculadas y las células madre. Las moléculas de ácido nucleico también pueden incluir promotores preferidos para el tipo celular. Un promotor "preferido por el tipo celular" es un promotor que impulsa principalmente la expresión en su mayor parte, pero no necesariamente en su totalidad o únicamente en determinados tipos celulares de uno o más órganos. Algunos ejemplos de células vegetales en las que los promotores de tipo celular preferente funcionales en plantas pueden ser preferentemente activos incluyen, por ejemplo, las células BETL, las células vasculares de las raíces, las hojas, las células pedunculadas y las células del tallo. Las moléculas de ácido nucleico descritas en el presente documento también pueden comprender promotores preferidos por las semillas. En algunas realizaciones, los promotores preferidos por las semillas tienen expresión en el saco embrionario, el embrión temprano, el endospermo temprano, la aleurona y/o la capa celular de transferencia del endospermo basal (BETL).

Ejemplos de promotores preferidos por las semillas incluyen, entre otros, el promotor gamma zeína de 27 kD y el promotor ceroso, Boronat, A. et al. (1986) Plant Sci. 47:95-102; Reina, M. et al. Nucl. Acids Res.

18(21):6426y Kloesgen, R. B. et al. (1986) Mol. Gen. Genet. 203:237-244. Los promotores que se expresan en el embrión, el pericarpio y el endospermo se describen en la Pat. de EE. UU. No. 6,225,529 y Publicación PCT WO 00/12733.

En las composiciones y procedimientos descritos en el presente documento se pueden utilizar promotores que puedan dirigir la expresión génica de una manera preferida por las semillas vegetales con expresión en el saco embrionario, el embrión temprano, el endospermo temprano, la aleurona y/o la capa celular de transferencia del endospermo basal (BETL). Tales promotores incluyen, pero no se limitan a, promotores que están naturalmente ligados al gen del endospermo temprano 5 deZeamays, al gen del endospermo temprano 1 deZea mays, al gen del endospermo temprano 2 de Zeamays,GRMZM2G124663, GRMZM2G006585, GRMZM2G120008, GRMZM2G157806, GRMZM2G176390, GRMZM2G472234, GRMZM2G138727,Zea maysCLAVATA1,Zea maysMRP1,Oryza sativaPR602,Oryza sativaPR9a,Zea maysBET1,Zea maysBETL-2,Zea maysBETL-3,Zea maysBETL-4,Zea maysBETL-9,Zea maysBETL- 10, Zea mays Me G1,Zea maysTCCR1,Zea maysASP1,Oryza sativaASP1,Triticum durumPR60,Triticum durumPR91,Triticum durumGL7, AT3G10590, AT4G18870, AT4G21080, AT5G23650, AT3G05860, AT5G42910, AT2G26320, AT3G03260, AT5G26630, AtIPT4, AtIPT8, AtLEC2, LFAH12. Otros promotores de este tipo se describen en Patentes de EE. UU. Nos.

7803990, 8049000, 7745697, 7119251, 7964770, 7847160, 7700836, Publicaciones de Solicitud de Patente Nos.

20100313301, 20090049571, 20090089897, 20100281569, 20100281570, 20120066795, 20040003427; Publicacion es PCT Nos. WO/1999/050427, WO/2010/129999, WO/2009/094704, WO/2010/019996 y WO/2010/147825. Las variantes funcionales o los fragmentos funcionales de los promotores descritos en el presente documento también pueden unirse de forma operable a los ácidos nucleicos descritos en el presente documento.

Los promotores regulados químicamente pueden utilizarse para modular la expresión de un gen mediante la aplicación de un regulador químico exógeno. Dependiendo del objetivo, el promotor puede ser un promotor químico inducible, en el que la aplicación de la sustancia química induce la expresión génica, o un promotor químico reprimible, en el que la aplicación de la sustancia química reprime la expresión génica. Los promotores inducibles químicamente son conocidos en la técnica e incluyen, entre otros, el promotor In2-2 del maíz, que se activa con herbicidas bencenosulfonamidas, el promotor GST del maíz, que se activa con compuestos hidrofóbicos electrófilos que se utilizan como herbicidas preemergentes, y el promotor PR-1a del tabaco, que se activa con ácido salicílico. Otros promotores de interés regulados por sustancias químicas son los que responden a esteroides (véase, por ejemplo, el promotor inducible por glucocorticoides en Schena et al. (1991) Proc. Natl. Acad. Sci. EE. Uu . 88:10421-10425 y McNellis et al. (1998) Plant J. 14(2):247-257) y promotores inducibles por tetraciclina y reprimibles por tetraciclina (véase, por ejemplo, Gatz et al. (1991) Mol. Gen. Genet. 227:229-237y Pat. de<e>E. UU. Nos.

5,814,618 y 5,789,156).

Los promotores preferidos por el tejido pueden utilizarse para dirigirse a mejorar la expresión de un constructo de expresión en un tejido concreto. En ciertas realizaciones, los promotores preferidos por el tejido pueden ser activos en el tejido vegetal. Los promotores preferidos por los tejidos son conocidos en la técnica. Véase, por ejemplo, Yamamoto et al. (1997) Plant J. 12(2):255-265; Kawamata et al. (1997) Plant Cell Physiol. 38(7):792-803; Hansen et al. (1997) Mol. Gen Genet. 254(3):337-343; Russell et al. (1997) Transgenic Res. 6(2):157-168; Rinehart etal. (1996) Plant Physiol. 112(3):1331-1341; Van Camp etal. (1996) Plant Physiol. 112(2):525-535; Canevascini et al. (1996) Plant Physiol. 112(2):513-524; Yamamoto et al. (1994) Plant Cell Physiol. 35(5):773-778; Lam (1994) Results Probl. Cell Differ. 20: 181-196; Orozco et al. (1993) Plant Mol Biol. 23(6):1129-1138; Matsuoka et al. (1993) Proc Natl. Acad. Sci. USA 90(20):9586-9590y Guevara-García et al. (1993) Plant J. 4(3):495-505. Estos promotores pueden modificarse, si es necesario, para una expresión débil.

Los promotores preferidos por las hojas son conocidos en la técnica. Véase, por ejemplo, Yamamoto et al. (1997) Plant J. 12(2):255-265; Kwon etal. (1994) Plant Physiol. 105:357-67; Yamamoto et al. (1994) Plant Cell Physiol. 35(5):773-778; Gotor et al. (1993) Plant J. 3:509-18; Orozco et al. (1993) Plant Mol. Biol. 23(6):1129-1138y Matsuoka et al. (1993) Proc. Natl. Acad. Sci. USA 90(20):9586-9590. Además, también pueden utilizarse los promotores de cab y rubisco. Véase, por ejemplo, Simpson et al. (1958) EMBO J 4:2723-2729 y Timko et al. (1988) Nature 318:57-58.

Los promotores preferidos por las raíces son conocidos y pueden seleccionarse entre los muchos disponibles en la bibliografía o aislarsede novoa partir de diversas especies compatibles. Véase, por ejemplo, Hire et al. (1992) Plant Mol. Biol. 20(2):207-218 (gen de la glutamina sintetasa específico de la raíz de la soja); Keller y Baumgartner (1991) Plant Cell 3(10):1051-1061 (elemento de control específico de la raíz en el gen GRP 1.8 de la judía común); Sanger et al. (1990) Plant Mol. Biol. 14(3):433-443 (promotor específico de la raíz del gen de la manopina sintasa (MAS) deAgrobacterium tumefaciens);yMiao et al. (1991) Plant Cell 3(1):11 -22 (clon de ADNc de longitud completa que codifica la glutamina sintetasa citosólica (GS), que se expresa en las raíces y los nódulos radiculares de la soja). Véase también Bogusz et al. (1990) Plant Cell 2(7):633-641donde se describen dos promotores específicos de la raíz aislados de genes de hemoglobina de la leguminosa no fijadora de nitrógenoParasponia andersoniiy de la leguminosa no fijadora de nitrógenoTrema tomentosa.Los promotores de estos genes se vincularon a un gen reportero de pglucuronidasa y se introdujeron tanto en la no leguminosaNicotiana tabacumcomo en la leguminosaLotus corniculatus,y en ambos casos se conservó la actividad promotora específica de la raíz. Leach y Aoyagi (1991) describen su análisis de los promotores de los genes altamente expresados rolC y roID inductores de raíces deAgrobacterium rhizogenes(véase Plant Science (Limerick) 79(1):69-76). Llegaron a la conclusión de que en esos promotores se disocian los determinantes del ADN potenciador y los del ADN preferido por el tejido. Teeriet al.(1989) utilizaron la fusión génica con lacZ para demostrar que el gen de ADN-T de Agrobacterium que codifica la octopina sintasa es especialmente activo en la epidermis de la punta de la raíz y que el gen TR2' es específico de la raíz en la planta intacta y estimulado por heridas en el tejido foliar, una combinación de características especialmente deseable para su uso con un gen insecticida o larvicida (véase EMBO J. 8(2):343-350). El gen TR1', fusionado a nptlI (neomicina fosfotransferasa II) mostró características similares. Otros promotores preferidos por las raíces son el promotor del gen VfENOD-GRP3 (Kuster et al. (1995) Plant Mol. Biol. 29(4):759-772); y el promotor rolB (Capana et al. (1994) Plant Mol. Biol. 25(4):681-691. Véase también Pat. de EE. UU. Nos.

5.837.876; 5,750,386; 5,633,363; 5,459,252; 5,401,836; 5,110,732y 5,023,179. El gen de la phaseolina (Murai et al. (1983) Science 23:476-482 y Sengopta-Gopalen et al. (1988) PnAs 82:3320-3324. La secuencia promotora puede ser de tipo silvestre o puede modificarse para una expresión más eficiente o eficaz.

Las secuencias de ácido nucleico que codifican el polipéptido Csm1 o la proteína de fusión pueden unirse de forma operable a una secuencia promotora que sea reconocida por una ARN polimerasa de fago para la síntesisin vitrode ARNm. En tales realizaciones, el ARN transcrito in vitro puede purificarse para su uso en los procedimientos de modificación del genoma descritos en el presente documento. Por ejemplo, la secuencia promotora puede ser una secuencia promotora T7, T3 o SP6 o una variación de una secuencia promotora T7, T3 o SP6. En algunas realizaciones, la secuencia que codifica el polipéptido Csm1 o la proteína de fusión puede enlazarse operablemente a una secuencia promotora para la expresiónin vitrodel polipéptido Csm1 o la proteína de fusión en células vegetales. En tales realizaciones, la proteína expresada puede purificarse para su uso en los procedimientos de modificación del genoma descritos en el presente documento.

En ciertas realizaciones, el ADN que codifica el polipéptido Csm1 o la proteína de fusión también puede estar unido a una señal de poliadenilación (por ejemplo, la señal poliA de SV40 y otras señales funcionales en plantas) y/o al menos una secuencia de terminación transcripcional. Además, la secuencia que codifica el polipéptido Csm1 o la proteína de fusión también puede unirse a la secuencia que codifica al menos una señal de localización nuclear, al menos un péptido señal plastidial, al menos un péptido señal mitocondrial, al menos un péptido señal capaz de traficar proteínas a múltiples localizaciones subcelulares, al menos un dominio de penetración celular, y/o al menos un dominio marcador, descritos en otra parte del presente documento.

El ADN que codifica el polipéptido Csm1 o la proteína de fusión puede estar presente en un vector. Los vectores adecuados incluyen vectores plasmídicos, fagémidos, cósmidos, minicromosomas artificiales, transposones y vectores virales (por ejemplo, vectores lentivirales, vectores virales adenoasociados, etc.). En una realización, el ADN que codifica el polipéptido Csm1 o la proteína de fusión está presente en un vector plasmídico. Ejemplos no limitantes de vectores plasmídicos adecuados incluyen pUC, pBR322, pET, pBluescript, pCAMBIA y sus variantes. El vector puede comprender secuencias adicionales de control de la expresión (por ejemplo, secuencias potenciadoras, secuencias de Kozak, secuencias de poliadenilación, secuencias de terminación transcripcional, etc.), secuencias marcadoras seleccionables (por ejemplo, genes de resistencia a antibióticos), orígenes de replicación y similares. Encontrará más información en "Current Protocols in Molecular Biology" Ausubel et al., John Wiley & Sons, Nueva York, 2003 o "Molecular Cloning: A Laboratory Manual" Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, N.Y, 3a edición, 2001.

En algunas realizaciones, el vector de expresión que comprende la secuencia que codifica el polipéptido Csm1 o la proteína de fusión puede comprender además una secuencia que codifica un ARN guía. La secuencia que codifica el ARN guía puede vincularse de forma operable a al menos una secuencia de control transcripcional para la expresión del ARN guía en la planta o célula vegetal de interés. Por ejemplo, el ADN que codifica el a Rn guía puede enlazarse de forma operable a una secuencia promotora que sea reconocida por la ARN polimerasa III (Pol III). Ejemplos de promotores Pol III adecuados incluyen, entre otros, los promotores de ARN U6, U3, H1 y 7SL de mamíferos y los promotores U6 y U3 de arroz.

IV. Procedimientos para modificar una secuencia de nucleótidos en un genoma vegetal

En el presente documento se proporcionan procedimientos para modificar una secuencia de nucleótidos de una célula vegetal, organelo vegetal o embrión vegetal. Los procedimientos comprenden la introducción en una célula vegetal, organelo o embrión, de un ARN objetivo de ADN o un polinucleótido de ADN que codifica un ARN objetivo de ADN, en el que el ARN objetivo de ADN comprende: (a) un primer segmento que comprende una secuencia de nucleótidos que es complementaria a una secuencia en el ADN objetivo; y (b) un segundo segmento que interactúa con un polipéptido Csm1 y también introduce en la célula vegetal un polipéptido Csm1, o un polinucleótido que codifica un polipéptido Csm1, en el que el polipéptido Csm1 comprende: (a) una porción de unión al ARN que interactúa con el ARN objetivo del ADN; y (b) una porción de actividad que exhibe actividad enzimática dirigida al sitio. A continuación, la célula vegetal o el embrión vegetal pueden cultivarse en condiciones en las que el polipéptido Csm1 se exprese y escinda la secuencia de nucleótidos. Cabe señalar que el sistema descrito en el presente documento no requiere la adición de Mg2+ exógeno ni de ningún otro ion. Por último, puede seleccionarse una célula u organelo vegetal que contenga la secuencia de nucleótidos modificada.

En algunas realizaciones, el procedimiento puede comprender la introducción de un polipéptido Csm1 (o ácido nucleico codificante) y un ARN guía (o ADN codificante) en una célula vegetal, organelo o embrión, en el que el polipéptido Csm1 introduce una rotura de doble cadena en la secuencia nucleotídica objetivo del ADN cromosómico de la planta. En las realizaciones en las que no está presente un polinucleótido donante opcional, la rotura de doble cadena en la secuencia de nucleótidos puede repararse mediante un procedimiento de reparación de unión de extremos no homólogos (NHEJ). Dado que la NHEJ es propensa a errores, durante la reparación de la rotura pueden producirse deleciones de al menos un nucleótido, inserciones de al menos un nucleótido, sustituciones de al menos un nucleótido o combinaciones de las mismas. En consecuencia, la secuencia de nucleótidos objetivo puede modificarse o inactivarse. Por ejemplo, un cambio de un solo nucleótido (SNP) puede dar lugar a un producto proteico alterado, o un cambio en el marco de lectura de una secuencia codificante puede inactivar o "eliminar" la secuencia de forma que no se produzca ningún producto proteico. En las realizaciones en las que el polinucleótido donante opcional está presente, la secuencia donante en el polinucleótido donante puede intercambiarse con o integrarse en la secuencia de nucleótidos en el sitio objetivo durante la reparación de la rotura de doble cadena. Por ejemplo, en realizaciones en las que la secuencia donante está flanqueada por secuencias corriente arriba y corriente abajo que tienen una identidad de secuencia sustancial con secuencias corriente arriba y corriente abajo, respectivamente, del sitio objetivo en la secuencia de nucleótidos de la planta, la secuencia donante puede intercambiarse con o integrarse en la secuencia de nucleótidos en el sitio objetivo durante la reparación mediada por el procedimiento de reparación dirigida por homología. Alternativamente, en las realizaciones en las que la secuencia donante está flanqueada por salientes compatibles (o los salientes compatibles son generadosin situpor el polipéptido Csm1) la secuencia donante puede ligarse directamente con la secuencia nucleotídica escindida mediante un procedimiento de reparación no homóloga durante la reparación de la rotura de doble cadena. El intercambio o la integración de la secuencia donante en la secuencia de nucleótidos modifica la secuencia de nucleótidos objetivo de la planta o introduce una secuencia exógena en la secuencia de nucleótidos de la célula vegetal, el organelo vegetal o el embrión vegetal.

Los procedimientos divulgados en el presente documento también pueden comprender la introducción de dos polipéptidos Csm1 (o ácidos nucleicos codificantes) y dos ARN guía (o ADN codificante) en una célula vegetal, organelo o embrión vegetal, en el que los polipéptidos Csm1 introducen dos roturas de doble cadena en la secuencia nucleotídica del ADN cromosómico nuclear y/o organelar. Las dos roturas pueden estar dentro de varios pares de bases, dentro de decenas de pares de bases o pueden estar separadas por muchos miles de pares de bases. En las realizaciones en las que no está presente un polinucleótido donante opcional, las roturas de doble cadena resultantes pueden repararse mediante un procedimiento de reparación no homóloga, de manera que la secuencia entre los dos sitios de escisión se pierde y/o pueden producirse deleciones de al menos un nucleótido, inserciones de al menos un nucleótido, sustituciones de al menos un nucleótido o combinaciones de las mismas durante la reparación de la(s) rotura(s). En las realizaciones en las que está presente un polinucleótido donante opcional, la secuencia donante en el polinucleótido donante puede intercambiarse o integrarse en la secuencia de nucleótidos de la planta durante la reparación de las roturas de doble cadena mediante un procedimiento de reparación basado en la homología (por ejemplo, en las realizaciones en las que la secuencia donante está flanqueada por secuencias corriente arriba y corriente abajo que tienen una identidad de secuencia sustancial con secuencias corriente arriba y corriente abajo, respectivamente, de los sitios objetivo en la secuencia de nucleótidos) o un procedimiento de reparación no homóloga (por ejemplo, en las realizaciones en las que la secuencia donante está flanqueada por salientes compatibles).

Por "alterar" o "modular" el nivel de expresión de un gen se entiende que la expresión del gen se regula al alza o a la baja. Se reconoce que, en algunos casos, el crecimiento y el rendimiento de las plantas se incrementan aumentando los niveles de expresión de uno o más genes que codifican proteínas implicadas en la fotosíntesis, es decir, regulando al alza la expresión. Asimismo, en algunos casos, el crecimiento y el rendimiento de la planta pueden incrementarse disminuyendo los niveles de expresión de uno o más genes que codifican proteínas implicadas en la fotosíntesis, es decir, regulando a la baja la expresión. Así, la invención abarca la regulación al alza o a la baja de uno o más genes que codifican proteínas implicadas en la fotosíntesis utilizando los polipéptidos Csm1 divulgados en el presente documento. Además, los procedimientos incluyen la regulación al alza de al menos un gen que codifica una proteína implicada en la fotosíntesis y la regulación a la baja de al menos un gen que codifica una proteína implicada en la fotosíntesis en una planta de interés. Por modulación de la concentración y/o actividad de al menos uno de los genes que codifican una proteína implicada en la fotosíntesis en una planta transgénica se entiende que la concentración y/o actividad se incrementa o disminuye en al menos aproximadamente 1%, aproximadamente 5%, aproximadamente 10%, aproximadamente 20%, aproximadamente 30%, aproximadamente 40%, aproximadamente 50%, aproximadamente 60%, aproximadamente 70%, aproximadamente 80% o aproximadamente 90% o más en relación con una planta, parte de planta o célula de control nativa a la que no se le ha introducido la secuencia de la invención.

Las células vegetales poseen genomas nucleares, plastidiales y mitocondriales. Las composiciones y procedimientos de la presente invención pueden utilizarse para modificar la secuencia del genoma nuclear, plastidial y/o mitocondrial, o pueden utilizarse para modular la expresión de un gen o genes codificados por el genoma nuclear, plastidial y/o mitocondrial. En consecuencia, por "cromosoma" o "cromosómico" se entiende el ADN genómico nuclear, plastidial o mitocondrial. En el caso de las células vegetales, "genoma" abarca no sólo el ADN cromosómico que se encuentra en el núcleo, sino también el ADN de los organelos que se encuentran en los componentes subcelulares de la célula (por ejemplo, mitocondrias o plástidos). Cualquier secuencia nucleotídica de interés en una célula vegetal, organelo o embrión puede modificarse utilizando los procedimientos descritos en el presente documento. En realizaciones específicas, los procedimientos divulgados en el presente documento se utilizan para modificar una secuencia de nucleótidos que codifica un rasgo agronómicamente importante, tal como una hormona vegetal, una proteína de defensa de la planta, una proteína de transporte de nutrientes, una proteína de asociación biótica, un rasgo de entrada deseable, un rasgo de salida deseable, un gen de resistencia al estrés, un gen de resistencia a enfermedades/patógenos, un gen de esterilidad masculina, un gen de desarrollo, un gen regulador, un gen implicado en la fotosíntesis, un gen de reparación del ADN, un gen regulador transcripcional o cualquier otro polinucleótido y/o polipéptido de interés. También pueden modificarse rasgos importantes desde el punto de vista agronómico, como el contenido de aceite, almidón y proteínas. Las modificaciones incluyen el aumento del contenido de ácido oleico y aceites saturados e insaturados, el aumento de los niveles de lisina y azufre, el aporte de aminoácidos esenciales y también la modificación del almidón. Las modificaciones de la proteína hordothionina se describen en Patentes de EE. UU. Nos. 5.703.049, 5,885,801, 5,885,802y 5,990,389. Otro ejemplo es la proteína de semilla rica en lisina y/o azufre codificada por la albúmina 2S de soja descrita en en la Patente de EE.UU No. 5,850,016y el inhibidor de quimotripsina de cebada, descrito en Williamson et al. (1987) Eur. J. Biochem. 165:99-106.

Los derivados de las secuencias codificantes pueden fabricarse utilizando los procedimientos divulgados en el presente documento para aumentar el nivel de aminoácidos preseleccionados en el polipéptido codificado. Por ejemplo, el gen que codifica el polipéptido de cebada de alto contenido en lisina (BHL) se deriva del inhibidor de la quimotripsina de cebada, Solicitud de EE. UU. Serial No. 08/740,682, presentada el 1 de noviembre de 1996y WO 98/20133. Otras proteínas son las proteínas vegetales ricas en metionina, tal como las de las semillas de girasol (Lilley et al. (1989) Proceedings of the World Congress on Vegetable Protein Utilization in Human Foods and Animal Feedstuffs, ed. Applewhite (American Oil Chemists Society, Champaign, Illinois), pp. 497-502); maíz(Pedersen et al. (1986) J. Biol. Chem. 261:6279; Kirihara et al. (1988) Gene 71:359); y arroz (Musumura et al. (1989) Plant Mol. Biol.

12:123). Otros genes de importancia agronómica codifican el látex, el Floury 2, factores de crecimiento, factores de almacenamiento de semillas y factores de transcripción.

Los procedimientos divulgados en el presente documento pueden usarse para modificar rasgos de resistencia a herbicidas incluyendo genes que codifican para la resistencia a herbicidas que actúan para inhibir la acción de la acetolactato sintasa (ALS), en particular los herbicidas de tipo sulfonilurea(por ejemplo,el gen de la acetolactato sintasa (ALS) que contiene mutaciones que conducen a dicha resistencia, en particular las mutaciones S4 y/o Hra), genes que codifican la resistencia a herbicidas que actúan inhibiendo la acción de la glutamina sintasa, tal como la fosfinotricina o la basta (por ejemplo, el gen bar); glifosato( por ejemplo, el gen EPSPS y el gen GAT; véase, por<ejemplo, Publicación de EE.UU No. 20040082770 y el documento>W<o 03/092360); u otros genes de este tipo>conocidos en la técnica. El genbarcodifica la resistencia al herbicida basta, el gennptlIcodifica la resistencia a los antibióticos kanamicina y geneticina, y los mutantes del gen ALS codifican la resistencia al herbicida clorsulfurón. Los rasgos adicionales de resistencia a herbicidas se describen, por ejemplo, en la Solicitud de Patente de EE. UU.

2016/0208243.

Los genes de esterilidad también pueden modificarse y proporcionar una alternativa al desescoriado físico. Entre los ejemplos de genes utilizados de este modo se incluyen los genes con preferencia por tejidos masculinos y los genes<con fenotipos de esterilidad masculina tales como QM, descritos en Patente de e>E.<UU. No. 5,583,210. Otros genes>incluyen las quinasas y los que codifican compuestos tóxicos para el desarrollo gametofítico masculino o femenino. Otros rasgos de esterilidad adicionales se describen, por ejemplo, en la Solicitud de Patente de EE. UU.

2016/0208243.

La calidad del grano puede alterarse modificando los genes que codifican rasgos tales como los niveles y tipos de aceites, saturados e insaturados, la calidad y cantidad de aminoácidos esenciales y los niveles de celulosa. En el maíz, las proteínas de hordothionina modificadas se describen en Patentes de EE. UU. Nos.

5,703,049, 5,885,801, 5,885,802y 5,990,389.

Los rasgos comerciales también pueden ser alterados mediante la modificación de un gen o que podría aumentar, por ejemplo, el almidón para la producción de etanol, o proporcionar la expresión de proteínas. Otro uso comercial importante de las plantas modificadas es la producción de polímeros y bioplásticos tal como los descritos en Patente de EE. UU. No 5,602,321. Genes tales como la p-cetotiolasa, la PHBasa (polihidroxiburato sintasa) y la acetoacetil-CoA reductasa (véase Schubert et al. (1988) J. Bacteriol. 170:5837-5847) facilitan la expresión de polihidroxialcanoatos (PHA).

Los productos exógenos incluyen enzimas y productos vegetales, así como los procedentes de otras fuentes, incluyendo procariotas y otros eucariotas. Tales productos incluyen enzimas, cofactores, hormonas y similares. Se puede aumentar el nivel de proteínas, en particular de proteínas modificadas que tienen una mejor distribución de aminoácidos para mejorar el valor nutritivo de la planta. Esto se consigue mediante la expresión de dichas proteínas que tienen un mayor contenido de aminoácidos.

Los procedimientos divulgados en el presente documento también pueden utilizarse para la inserción de genes heterólogos y/o la modificación de la expresión de genes nativos de la planta para lograr rasgos vegetales deseables. Tales rasgos incluyen, por ejemplo, resistencia a las enfermedades, tolerancia a los herbicidas, tolerancia a la sequía, tolerancia a la sal, resistencia a los insectos, resistencia a las malas hierbas parásitas, mejora del valor nutricional de la planta, mejora de la digestibilidad del forraje, aumento del rendimiento del grano, esterilidad masculina citoplasmática, alteración de la maduración del fruto, aumento de la vida de almacenamiento de las plantas o partes de plantas, reducción de la producción de alérgenos y aumento o disminución del contenido de lignina. Los genes capaces de conferir estos rasgos deseables se divulgan en la Solicitud de Patente de EE. UU. 2016/0208243.

(a) Polipéptido Csm1

Los procedimientos divulgados en el presente documento comprenden introducir en una célula vegetal, organelo vegetal o embrión vegetal al menos un polipéptido Csm1 o un ácido nucleico que codifica al menos un polipéptido Csm1, como se describe en el presente documento. En algunas realizaciones, el polipéptido Csm1 puede introducirse en la célula vegetal, organelo o embrión vegetal como proteína aislada. En tales realizaciones, el polipéptido Csm1 puede comprender además al menos un dominio de penetración celular, que facilita la captación celular de la proteína. En algunas realizaciones, el polipéptido Csm1 puede introducirse en la célula vegetal, organelo o embrión vegetal como una ribonucleoproteína en complejo con un ARN guía. En otras realizaciones, el polipéptido Csm1 puede introducirse en la célula vegetal, organelo o embrión vegetal como una molécula de ARNm. En otras realizaciones, el polipéptido Csm1 puede introducirse en la célula vegetal, organelo o embrión vegetal como una molécula de ADN. En general, las secuencias de ADN que codifican el polipéptido Csm1 o la proteína de fusión descrita en el presente documento están operablemente unidas a una secuencia promotora que funcionará en la célula vegetal, organelo o embrión vegetal de interés. La secuencia de ADN puede ser lineal o formar parte de un vector. En otras realizaciones, el polipéptido Csm1 o la proteína de fusión pueden introducirse en la célula vegetal, organelo o embrión como un complejo ARN-proteína que comprende el ARN guía o una proteína de fusión y el ARN guía.

En ciertas realizaciones, el ARNm que codifica el polipéptido Csm1 puede dirigirse a un organelo (por ejemplo, plástido o mitocondria). En ciertas realizaciones, el ARNm que codifica uno o más ARN guía puede dirigirse a un organelo (por ejemplo, plástido o mitocondria). En ciertas realizaciones, el ARNm que codifica el polipéptido Csm1 y uno o más ARN guía pueden dirigirse a un organelo (por ejemplo, plástido o mitocondria). Los procedimientos para dirigir ARNm a organelos son conocidos en la técnica (véase, por ejemplo, Solicitud de Patente de EE. UU. 2011/0296551; Solicitud de Patente de EE. UU. 2011/0321187; Gómez y Pallás (2010) PLoS One 5:e12269).

En ciertas realizaciones, el ADN que codifica el polipéptido Csm1 puede comprender además una secuencia que codifica un ARN guía. En general, cada una de las secuencias que codifican el polipéptido Csm1 y el ARN guía está operablemente unida a una o más secuencias promotoras de control apropiadas que permiten la expresión del polipéptido Csm1 y del ARN guía, respectivamente, en la célula vegetal, organelo o embrión vegetal. La secuencia de ADN que codifica el polipéptido Csm1 y el ARN guía pueden comprender además secuencia(s) adicional(es) de control de expresión, reguladora(s) y/o de procesamiento. La secuencia de ADN que codifica el polipéptido Csm1 y el ARN guía pueden ser lineales o formar parte de un vector.

(b) ARN guía

Los procedimientos descritos en el presente documento también pueden comprender la introducción en una célula vegetal, organelo o embrión vegetal de al menos un ARN guía o ADN que codifica al menos un ARN guía. Un ARN guía interactúa con el polipéptido Csm1 para dirigir el polipéptido Csm1 a un sitio objetivo específico, en cuyo sitio el extremo 5' de la base de a Rn guía se empareja con una secuencia protoespaciador específica en la secuencia de nucleótidos de la planta. Los ARN guía pueden comprender tres regiones: una primera región que es complementaria al sitio objetivo en la secuencia cromosómica objetivo, una segunda región que forma una estructura de bucle de tallo y una tercera región que permanece esencialmente monocatenaria. La primera región de cada ARN guía es diferente, de forma que cada<a>R<n>guía dirige un polipéptido Csm1 a un sitio objetivo específico. La segunda y tercera regiones de cada ARN guía pueden ser las mismas en todos los ARN guía.

Una región del ARN guía es complementaria a una secuencia (es decir, secuencia protoespaciadora) en el sitio objetivo en el genoma de la planta incluyendo la secuencia cromosómica nuclear, así como las secuencias plastidiales o mitocondriales de tal manera que la primera región del ARN guía puede emparejarse con base en el sitio objetivo. En diversas realizaciones, la primera región del ARN guía puede comprender desde aproximadamente 8 nucleótidos hasta más de aproximadamente 30 nucleótidos. Por ejemplo, la región de emparejamiento de bases entre la primera región del ARN guía y el sitio objetivo en la secuencia de nucleótidos puede ser de aproximadamente 8, aproximadamente 9, aproximadamente 10, aproximadamente 11, aproximadamente 12, aproximadamente 13, aproximadamente 14, aproximadamente 15, aproximadamente 16, aproximadamente 17, aproximadamente 18, aproximadamente 19, aproximadamente 20, aproximadamente 22, aproximadamente 23, aproximadamente 24, aproximadamente 25, aproximadamente 27, aproximadamente 30 o más de 30 nucleótidos de longitud. En una realización ejemplar, la primera región del ARN guía tiene aproximadamente 23, 24 o 25 nucleótidos de longitud. El ARN guía también puede comprender una segunda región que forma una estructura secundaria. En algunas realizaciones, la estructura secundaria comprende un tallo o una horquilla. La longitud del tallo puede variar. Por ejemplo, el tallo puede oscilar entre aproximadamente 6, a aproximadamente 10, a aproximadamente 15, a aproximadamente 20, a aproximadamente 25 pares de bases de longitud. El tallo puede comprender una o más protuberancias de 1 a aproximadamente 10 nucleótidos. Así, la longitud total de la segunda región puede oscilar de aproximadamente 16 a aproximadamente 25 nucleótidos de longitud. En ciertas realizaciones, el bucle tiene una longitud de aproximadamente 5 nucleótidos y el tallo comprende aproximadamente 10 pares de bases.

El ARN guía también puede comprender una tercera región que permanece esencialmente monocatenaria. Así, la tercera región no tiene complementariedad con ninguna secuencia de nucleótidos en la célula de interés y no tiene complementariedad con el resto del ARN guía. La longitud de la tercera región puede variar. En general, la tercera región tiene más de aproximadamente 4 nucleótidos de longitud. Por ejemplo, la longitud de la tercera región puede oscilar de aproximadamente 5 a aproximadamente 60 nucleótidos de longitud. La longitud combinada de la segunda y tercera regiones (también denominada región universal o de andamiaje) del ARN guía puede oscilar de aproximadamente 30 a aproximadamente 120 nucleótidos de longitud. En un aspecto, la longitud combinada de la segunda y tercera regiones del ARN guía oscila de aproximadamente 40 a aproximadamente 45 nucleótidos de longitud.

En algunas realizaciones, el ARN guía comprende una única molécula que comprende las tres regiones. En otras realizaciones, el ARN guía puede comprender dos moléculas separadas. La primera molécula de ARN puede comprender la primera región del ARN guía y una mitad del "tallo" de la segunda región del ARN guía. La segunda molécula de ARN puede comprender la otra mitad del "tallo" de la segunda región del ARN guía y la tercera región del ARN guía. Así, en esta realización, las moléculas de ARN primera y segunda contienen cada una, una secuencia de nucleótidos complementarios entre sí. Por ejemplo, en una realización, las moléculas de ARN primera y segunda comprenden cada una, una secuencia (de aproximadamente 6 a aproximadamente 25 nucleótidos) que se empareja con la otra secuencia para formar un ARN guía funcional. En realizaciones específicas, el ARN guía es una molécula única (es decir, ARNcr) que interactúa con el sitio objetivo en el cromosoma y el polipéptido Cpfl sin la necesidad de un segundo ARN guía (es decir, un ARNtracr).

En ciertas realizaciones, el ARN guía puede introducirse en la célula vegetal, organelo o embrión vegetal como una molécula de ARN. La molécula de<a>R<n>puede transcribirse in vitro. Alternativamente, la molécula de ARN puede sintetizarse químicamente. En otras realizaciones, el ARN guía puede introducirse en la célula vegetal, organelo o embrión como una molécula de ADN. En tales casos, el ADN que codifica el ARN guía puede vincularse operablemente a la secuencia de control del promotor para la expresión del ARN guía en la célula vegetal, organelo o embrión vegetal de interés. Por ejemplo, la secuencia codificadora de ARN puede estar operablemente unida a una secuencia promotora que sea reconocida por la ARN polimerasa III (Pol III). En realizaciones ejemplares, la secuencia codificadora de ARN está vinculada a un promotor específico de la planta.

La molécula de ADN que codifica el ARN guía puede ser lineal o circular. En algunas realizaciones, la secuencia de ADN que codifica el ARN guía puede formar parte de un vector. Los vectores adecuados incluyen vectores plasmídicos, fagémidos, cósmidos, minicromosomas artificiales, transposones y vectores virales. En una realización ejemplar, el ADN que codifica el polipéptido Csm1 está presente en un vector plasmídico. Ejemplos no limitantes de vectores plasmídicos adecuados incluyen pUC, pBR322, pET, pBluescript, pCAMBIA y sus variantes. El vector puede comprender secuencias adicionales de control de la expresión (por ejemplo, secuencias potenciadoras, secuencias de Kozak, secuencias de poliadenilación, secuencias de terminación transcripcional, etc.), secuencias marcadoras seleccionables (por ejemplo, genes de resistencia a antibióticos), orígenes de replicación y similares.

En las realizaciones en las que tanto el polipéptido Csm1 como el ARN guía se introducen en la célula vegetal, organelo o embrión como moléculas de ADN, cada uno puede ser parte de una molécula separada (por ejemplo, un vector que contenga la secuencia codificante del polipéptido Csm1 o de la proteína de fusión y un segundo vector que contenga la secuencia codificante del ARN guía) o ambos pueden formar parte de la misma molécula (por ejemplo, un vector que contenga la secuencia codificante (y reguladora) tanto del polipéptido Csm1 o de la proteína de fusión como del ARN guía).

(c) Lugar objetivo

Un polipéptido Csm1 junto con un ARN guía se dirige a un sitio objetivo en una planta, incluida la secuencia cromosómica de una planta, célula vegetal, organelo vegetal (por ejemplo, plástido o mitocondria) o embrión vegetal, en el que el polipéptido Csm1 introduce una rotura de doble cadena en la secuencia cromosómica. El sitio objetivo no tiene ninguna limitación de secuencia, excepto que la secuencia está inmediatamente precedida (corriente arriba) por una secuencia consenso. Esta secuencia de consenso también se conoce como motivo adyacente al protoespaciador (PAM). Ejemplos de secuencias PAM incluyen, pero no se limitan a, TTN, CTN, TCN, CCN, TTTN, TCTN, TTCN, CTTN, ATTN, TCCN, TTGN, GTTN, CCCN, CCTN, TTAN, TCGN, CTCN, ACTN, GCTN, TCAN, GCCN, y CCGN (en donde N se define como cualquier nucleótido). Es bien sabido que la especificidad de la secuencia PAM para una enzima nucleasa determinada se ve afectada por la concentración de enzima (Karvelis et al. (2015) Genome Biol 16:253). Por lo tanto, la modulación de las concentraciones de proteína Csm1 suministradas a la célula o al sistemain vitrode interés representa una forma de alterar el sitio o sitios PAM asociados con esa enzima Csm1. La modulación de la concentración de proteína Csm1 en el sistema de interés puede lograrse, por ejemplo, alterando el promotor utilizado para expresar el gen que codifica Cpfl o Csm1, alterando la concentración de ribonucleoproteína suministrada a la célula o al sistemain vitro,o añadiendo o eliminando intrones que puedan desempeñar un papel en la modulación de los niveles de expresión génica. Como se detalla en el presente documento, la primera región del ARN guía es complementaria al protoespaciador de la secuencia objetivo. Típicamente, la primera región del ARN guía tiene aproximadamente 19 y 21 nucleótidos de longitud.

El sitio objetivo puede estar en la región codificante de un gen, en un intrón de un gen, en una región de control de un gen, en una región no codificante entre genes, etc. El gen puede ser un gen codificador de proteínas o un gen codificador de ARN. El gen puede ser cualquier gen de interés descrito en el presente documento.

(d) Polinucleótido donante

En algunas realizaciones, los procedimientos divulgados en el presente documento comprenden además la introducción de al menos un polinucleótido donante en una célula vegetal, organelo o embrión vegetal. Un polinucleótido donante comprende al menos una secuencia donante. En algunos aspectos, una secuencia donante del polinucleótido donante corresponde a una secuencia genómica endógena o nativa de la planta que se encuentra en el núcleo celular o en un organelo de interés (por ejemplo, plástido o mitocondria). Por ejemplo, la secuencia donante puede ser esencialmente idéntica a una porción de la secuencia cromosómica en o cerca del sitio objetivo, pero que comprende al menos un cambio nucleotídico. De este modo, la secuencia donante puede comprender una versión modificada de la secuencia de tipo silvestre en el lugar objetivo de tal forma que, tras la integración o el intercambio con la secuencia nativa, la secuencia en el lugar objetivo comprenda al menos un cambio nucleotídico. Por ejemplo, el cambio puede ser una inserción de uno o más nucleótidos, una deleción de uno o más nucleótidos, una sustitución de uno o más nucleótidos, o combinaciones de los mismos. Como consecuencia de la integración de la secuencia modificada, la planta, la célula vegetal o el embrión vegetal pueden producir un producto génico modificado a partir de la secuencia cromosómica objetivo.

La secuencia donante del polinucleótido donante puede corresponder alternativamente a una secuencia exógena. Tal y como se utiliza en el presente documento, una secuencia "exógena" se refiere a una secuencia que no es nativa de la célula vegetal, organelo o embrión, o una secuencia cuya ubicación nativa en el genoma de la célula, organelo o embrión está en una ubicación diferente. Por ejemplo, la secuencia exógena puede comprender una secuencia codificante de proteína, que puede estar enlazada de forma operable a una secuencia de control de promotor exógena de manera que, tras la integración en el genoma, la célula u organelo vegetal sea capaz de expresar la proteína codificada por la secuencia integrada. Por ejemplo, la secuencia donante puede ser cualquier gen de interés, tal como los que codifican rasgos agronómicamente importantes como se describe en otro lugar del presente documento. Alternativamente, la secuencia exógena puede integrarse en la secuencia cromosómica nuclear, plastidial y/o mitocondrial de forma que su expresión esté regulada por una secuencia endógena de control del promotor. En otras iteraciones, la secuencia exógena puede ser una secuencia de control transcripcional, otra secuencia de control de la expresión o una secuencia codificadora de ARN. La integración de una secuencia exógena en una secuencia cromosómica se denomina "activada". La secuencia donante puede variar en longitud desde varios nucleótidos a cientos de nucleótidos o cientos de miles de nucleótidos.

En algunas realizaciones, la secuencia donante en el polinucleótido donante está flanqueada por una secuencia corriente arriba y una secuencia corriente abajo, que tienen una identidad de secuencia sustancial con secuencias situadas corriente arriba y corriente abajo, respectivamente, del sitio objetivo en la secuencia genómica nuclear, plastidial y/o mitocondrial de la planta. Debido a estas similitudes de secuencia, las secuencias corriente arriba y corriente abajo del polinucleótido donante permiten la recombinación homóloga entre el polinucleótido donante y la secuencia objetivo, de forma que la secuencia donante puede integrarse en (o intercambiarse con) la secuencia objetivo de la planta.

La secuencia corriente arriba, tal como se utiliza en el presente documento, se refiere a una secuencia de ácido nucleico que comparte una identidad de secuencia sustancial con una secuencia cromosómica corriente arriba del sitio objetivo. Del mismo modo, la secuencia corriente abajo se refiere a una secuencia de ácido nucleico que comparte una identidad de secuencia sustancial con una secuencia cromosómica corriente abajo del sitio objetivo. En el presente documento, la expresión "identidad sustancial de secuencia" se refiere a secuencias que tienen al menos aproximadamente 75% de identidad de secuencia. Así, las secuencias corriente arriba y aguas abajo en el polinucleótido donante pueden tener aproximadamente 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% o 99% de identidad de secuencia con la secuencia corriente arriba o corriente abajo del sitio objetivo. En una realización ejemplar, las secuencias corriente arriba y corriente abajo en el polinucleótido donante pueden tener aproximadamente 95% o aproximadamente 100% de identidad de secuencia con secuencias de nucleótidos corriente arriba o corriente abajo del sitio objetivo. En una realización, la secuencia corriente arriba comparte una identidad de secuencia sustancial con una secuencia de nucleótidos situada inmediatamente corriente arriba del sitio objetivo (es decir, adyacente al sitio objetivo). En otras realizaciones, la secuencia corriente arriba comparte una identidad de secuencia sustancial con una secuencia de nucleótidos que se encuentra dentro de unos cien (100) nucleótidos corriente arriba del sitio objetivo. Así, por ejemplo, la secuencia corriente arriba puede compartir una identidad de secuencia sustancial con una secuencia de nucleótidos que esté situada a aproximadamente 1 a aproximadamente 20, aproximadamente 21 a aproximadamente 40, aproximadamente 41 a aproximadamente 60, aproximadamente 61 a aproximadamente 80, o aproximadamente 81 a aproximadamente 100 nucleótidos corriente arriba del sitio objetivo. En una realización, la secuencia corriente abajo comparte una identidad de secuencia sustancial con una secuencia de nucleótidos situada inmediatamente corriente abajo del sitio objetivo (es decir, adyacente al sitio objetivo). En otras realizaciones, la secuencia corriente abajo comparte una identidad de secuencia sustancial con una secuencia de nucleótidos que se encuentra dentro de aproximadamente cien (100) nucleótidos corriente abajo del sitio objetivo. Así, por ejemplo, la secuencia descendente puede compartir una identidad de secuencia sustancial con una secuencia de nucleótidos que esté situada aproximadamente 1 a aproximadamente 20, aproximadamente 21 a aproximadamente 40, aproximadamente 41 a aproximadamente 60, aproximadamente 61 a aproximadamente 80, o aproximadamente 81 a aproximadamente nucleótidos corriente abajo del sitio objetivo.

La longitud de cada secuencia ascendente o descendente puede oscilar de aproximadamente 20 nucleótidos a aproximadamente 5000 nucleótidos. En algunas realizaciones, las secuencias corriente arriba y corriente abajo pueden comprender aproximadamente 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400, 2500, 2600, 2800, 3000, 3200, 3400, 3600, 3800, 4000, 4200, 4400, 4600, 4800, o 5000 nucleótidos. En realizaciones ejemplares, las secuencias corriente arriba y corriente abajo pueden tener una longitud de aproximadamente 50 a aproximadamente 1500 nucleótidos.

Los polinucleótidos donantes que comprenden las secuencias corriente arriba y corriente abajo con similitud de secuencia con la secuencia de nucleótidos objetivo pueden ser lineales o circulares. En las realizaciones en las que el polinucleótido donante es circular, puede formar parte de un vector. Por ejemplo, el vector puede ser un vector plasmídico.

En ciertas realizaciones, el polinucleótido donante puede comprender adicionalmente al menos un sitio de escisión dirigido que es reconocido por el polipéptido Csm1. El sitio de escisión objetivo añadido al polinucleótido donante puede situarse corriente arriba o corriente abajo o tanto corriente arriba como corriente abajo de la secuencia donante. Por ejemplo, la secuencia donante puede estar flanqueada por sitios de escisión dirigidos de forma que, tras la escisión por el polipéptido Csm1, la secuencia donante esté flanqueada por salientes que sean compatibles con los de la secuencia nucleotídica generada tras la escisión por el polipéptido Csm1. En consecuencia, la secuencia donante puede ligarse con la secuencia nucleotídica escindida durante la reparación de la rotura de doble cadena mediante un procedimiento de reparación no homóloga. Por lo general, los polinucleótidos donantes que comprenden el sitio o sitios de escisión objetivo serán circulares (por ejemplo, pueden formar parte de un vector plasmídico).

El polinucleótido donante puede ser una molécula lineal que comprende una secuencia donante corta con salientes cortos opcionales que son compatibles con los salientes generados por el polipéptido Csm1. En tales realizaciones, la secuencia donante puede ligarse directamente con la secuencia cromosómica escindida durante la reparación de la rotura de doble cadena. En algunos casos, la secuencia donante puede ser inferior a aproximadamente 1.000, menos de aproximadamente 500, menos de aproximadamente 250 o menos de aproximadamente 100 nucleótidos. En ciertos casos, el polinucleótido donante puede ser una molécula lineal que comprende una secuencia donante corta con extremos romos. En otras iteraciones, el polinucleótido donante puede ser una molécula lineal que comprende una secuencia donante corta con salientes 5' y/o 3'. Los salientes pueden comprender 1,2, 3, 4 o 5 nucleótidos.

En algunas realizaciones, el polinucleótido donante será ADN. El ADN puede ser monocatenario o bicatenario y/o lineal o circular. El polinucleótido donante puede ser un plásmido de ADN, un cromosoma artificial bacteriano (BAC), un cromosoma artificial de levadura (YAC), un vector vírico, una pieza lineal de ADN, un fragmento de PCR, un ácido nucleico desnudo o un ácido nucleico complejado con un vehículo de liberación tal como un liposoma o un poloxámero. En ciertas realizaciones, el polinucleótido donante que comprende la secuencia donante puede formar parte de un vector plasmídico. En cualquiera de estas situaciones, el polinucleótido donante que comprende la secuencia donante puede comprender además al menos una secuencia adicional.

(e) Introducción en la célula vegetal

El polipéptido Csm1 (o ácido nucleico codificante), el ARN guía (o ADN codificante) y el polinucleótido donante opcional pueden introducirse en una célula vegetal, organelo o embrión vegetal por diversos medios, incluida la transformación. Los protocolos de transformación, así como los protocolos para introducir polipéptidos o secuencias polinucleotídicas en plantas, pueden variar en función del tipo de planta o célula vegetal, es decir, monocotiledónea o dicotiledónea, objetivo de la transformación. Entre los procedimientos adecuados para introducir polipéptidos y polinucleótidos en células vegetales se incluyen la microinyección (Crossway et al. (1986) Biotechniques 4:320-334), la electroporación<(Riggs etal. (1986) Proc. Natl. Acad. Sci. EE. u>U.<83:5602-5606transformación mediada por Agrobacterium (Patente>de EE. UU. No. 5,563,055 y Patente de EE. UU. No. 5,981,840), la transferencia directa de genes (Paszkowski et al. (1984) EMBO J. 3:2717-2722), y aceleración balística de partículas (véase, por ejemplo, Patentes de EE. UU. Nos.

4,945,050; Patente de EE. UU. No. 5,879,918; Patente de EE. UU. No. 5,886,244; y, 5,932,782; Tomes et al. (1995) en Plant Cell, Tissue, and Organ Culture: Fundamental Methods, ed. Gamborg and Phillips (Springer-Verlag, Berlin); McCabe et al. (1988) Biotechnology 6:923-926); y Led transformation (WO 00/28058). Véase también Weissinger et al. (1988) Ann. Rev. Genet. 22:421-477; Sanford et al. (1987) Particulate Science and Technology 5:27-37 (onion); Christou et al. (1988) Plant Physiol. 87:671-674 (soja); McCabe etal. (1988) Bio/Technology 6:923-926 (soja); Finer y McMullen (1991) In Vitro Cell Dev. Biol. 27P:175-182 (soja); Singh et al. (1998) Theor Appl. Genet. 96:319-324 (soja); Datta et al. (1990) Biotechnology 8:736-740 (rice); Klein et al. (1988) Proc. Natl. Acad. Sci. EE. UU. 85:4305-4309 (maíz); Klein et al. (1988) Biotechnology 6:559-563 (maíz); Patente de EE.UU Nos. 5,240,855; 5,322,783; y, 5,324,646; Klein et al. (1988) Plant Physiol. 91:440-444 (maíz); Fromm et al. (1990) Biotechnology 8:833-839 (maize); Hooykaas-Van Slogteren et al. (1984) Nature (Londres) 311:763-764; Patente de EE.UUNo. 5,736,369 (cereales); Bytebier et al. (1987) Proc. Natl. Acad. Sci. EE. UU. 84:5345-5349(Liliaceae);De Wet et al. (1985) en The Experimental Manipulation of Ovule Tissues, ed., Chapman et al. Chapman et al. (Longman, Nueva York), pp. 197-209 (polen); Kaeppler et al. (1990) Plant Cell Reports 9:415-418 y Kaeppler et al. (1992) Theor. Appl. Genet. 84:560-566 (transformación mediada por el bigote); D'Halluin et al. (1992) Plant Cell 4:1495-1505 (electroporación); Li et al. (1993) Plant Cell Reports 12:250-255 y Christou y Ford (1995) Annals of Botany 75:407-413 (arroz); Osjoda et al. (1996) Nature Biotechnology 14:745-750 (maíz medianteAgrobacterium tumefaciens).Se ha demostrado la edición del genoma de células vegetales en sitios específicos mediante la introducción biolística de una ribonucleoproteína que comprende una nucleasa y un ARN guía adecuado (Svitashev et al (2016) Nat Commun doi: 10.1038/ncomms 13274). Por "transformación estable" se entiende que el constructo de nucleótido introducido en una planta se integra en el genoma de la planta y es capaz de ser heredada por su progenie. El constructo de nucleótido puede integrarse en el genoma nuclear, plastidial o mitocondrial de la planta. Los procedimientos para la transformación de plástidos son conocidos en la técnica (véase, por<ejemplo, Chloroplast Biotechnology: Methods and Protocols (2014) Pal Maliga, ed. y Solicitud de Patente de EE.>U<u>.

2011/0321187), y en la técnica se han descrito procedimientos para la transformación mitocondrial de plantas (véanse, por ejemplo, Solicitud de Patente de EE. UU. 2011/0296551).

Las células que se han transformado pueden convertirse en plantas (es decir, cultivarse) de acuerdo con las formas convencionales. Véase, por ejemplo, McCormick et al. (1986) Plant Cell Reports 5:81-84. De este modo, la presente invención proporciona semillas transformadas (también denominadas "semillas transgénicas") que tienen una modificación de ácido nucleico incorporada de forma estable en su genoma.

"Introducido" en el contexto de la inserción de un fragmento de ácido nucleico (por ejemplo, un constructo de ADN recombinante) en una célula, significa "transfección" o "transformación" o "transducción" e incluye referencia a la incorporación de un fragmento de ácido nucleico en una célula vegetal donde el fragmento de ácido nucleico puede incorporarse al genoma de la célula (por ejemplo, cromosoma nuclear, plásmido, cromosoma plastidial o cromosoma mitocondrial), convertido en un replicón autónomo o expresado transitoriamente (por ejemplo, ARNm transfectado).

La presente invención puede utilizarse para la transformación de cualquier especie vegetal, incluyendo, pero sin limitarse a, monocotiledóneas y dicotiledóneas (es decir, monocotiledóneas y dicotiledóneas, respectivamente). Ejemplos de especies vegetales de interés incluyen, pero no se limitan a, maíz(Zeamays), Brassicasp. (por ejemplo,B. napus, B. rapa, B. júncea),en particular las especies deBrassicaútiles como fuentes de aceite de semilla, alfalfa(Medicago sativa), arroz(Oryza sativa),centeno(Secale cereale),sorgo(Sorghum bicolor, Sorghum vulgare),mijo (por ejemplo, mijo perla(Pennisetum glaucum),mijo proso(Panicum miliaceum),mijo cola de zorra(Setaria italica),mijodedo(Eleusine coracana)),girasol(Helianthus annuus),cártamo(Carthamus tinctorius),trigo(Triticum aestivum),soja(Glycine max),tabaco(Nicotiana tabacum),patata(Solanum tuberosum),cacahuete(Arachis hypogaea),algodón(Gossypium barbadense, Gossypium hirsutum),batata(Ipomoea batatus),yuca(Manihot esculenta), café(Coffeaspp.), coco(Cocos nucifera), piña(Ananas comosus),cítricos(Citrusspp.), cacao(Theobroma cacao),té(Camellia sinensis),plátano(Musaspp.), aguacate(Persea americana),higo(Ficus casica), guayaba(Psidium guajava), mango(Mangifera indica),olivo(Olea europaea),papaya(Carica papaya), anacardo(Anacardium occidentale), macadamia(Macadamia integrifolia),almendra(Prunus amygdalus),remolacha azucarera(Beta vulgaris),caña de azúcar(Saccharumspp.), palma aceitera(Elaeis guineensis), álamo(Populusspp.), eucalipto(Eucalyptusspp.), avena(Avena sativa), cebada(Hordeum vulgare),hortalizas, plantas ornamentales y coníferas.

Los polipéptidos Csm1 (o el ácido nucleico codificante), el ARN guía (o los ADN que codifican el ARN guía) y el polinucleótido donante opcional pueden introducirse en la célula vegetal, el organelo o el embrión vegetal de forma simultánea o secuencial. La proporción entre los polipéptidos Cpfl (o ácido nucleico codificante) y el ARN guía (o ADN codificante) será generalmente estequiométrica, de forma que los dos componentes puedan formar un complejo ARN-proteína con el ADN objetivo. En una realización, el ADN que codifica un polipéptido Csm1 y el ADN que codifica un ARN guía se suministran juntos dentro del vector plasmídico.

Las composiciones y procedimientos divulgados en el presente documento pueden utilizarse para alterar la expresión de genes de interés en una planta, tal como los genes implicados en la fotosíntesis. Por lo tanto, la expresión de un gen que codifica una proteína implicada en la fotosíntesis puede modularse en comparación con una planta de control. Una "planta o célula vegetal objeto de estudio" es aquella en la que se ha producido una alteración genética, como una mutación, en un gen de interés, o es una planta o célula vegetal que desciende de una planta o célula así alterada y que contiene la alteración. Un "control" o "planta control" o "célula vegetal control" proporciona un punto de referencia para medir los cambios en el fenotipo de la planta o célula vegetal objeto de estudio. Así, los niveles de expresión son superiores o inferiores a los de la planta de control en función de los procedimientos de la invención.

Una planta o célula vegetal de control puede comprender, por ejemplo: (a) una planta o célula de tipo silvestre, es decir, del mismo genotipo que el material de partida para la alteración genética que dio lugar a la planta o célula objeto de estudio; b) una planta o célula vegetal del mismo genotipo que el material de partida pero que ha sido transformada con un constructo nulo (es decir, con un constructo que no tiene ningún efecto conocido sobre el rasgo de interés, tal como un constructo que comprende un gen marcador); (c) una planta o célula vegetal que es un segregante no transformado entre la progenie de una planta o célula vegetal en cuestión; (d) una planta o célula vegetal genéticamente idéntica a la planta o célula vegetal en cuestión pero que no está expuesta a condiciones o estímulos que inducirían la expresión del gen de interés; o (e) la planta en cuestión o la propia célula vegetal, en condiciones en las que no se expresa el gen de interés.

Aunque la invención se describe en términos de plantas transformadas, se reconoce que los organismos transformados de la invención también incluyen células vegetales, protoplastos vegetales, cultivos de tejidos celulares vegetales a partir de los cuales se pueden regenerar plantas, callos vegetales, grupos de plantas y células vegetales que están intactas en plantas o partes de plantas tales como embriones, polen, óvulos, semillas, hojas, flores, ramas, frutos, granos, espigas, mazorcas, cáscaras, tallos, raíces, puntas de raíces, anteras y similares. Por grano se entiende la semilla madura producida por cultivadores comerciales con fines distintos del cultivo o la reproducción de la especie. La progenie, las variantes y los mutantes de las plantas regeneradas también se incluyen en el ámbito de la invención, siempre que estas partes comprendan los polinucleótidos introducidos.

(f) Procedimiento de utilización de una proteína de fusión para modificar una secuencia vegetal o regular la expresión de una secuencia vegetal

Los procedimientos divulgados en el presente documento abarcan además la modificación de una secuencia de nucleótidos o la regulación de la expresión de una secuencia de nucleótidos en una célula vegetal, organelo vegetal o embrión vegetal. Los procedimientos pueden comprender la introducción en la célula vegetal o embrión vegetal de al menos una proteína de fusión o ácido nucleico que codifica al menos una proteína de fusión, en la que la proteína de fusión comprende un polipéptido Csm1 o un fragmento o variante del mismo y un dominio efector, y (b) al menos un ARN guía o ADN que codifica el ARN guía, en el que el ARN guía, guía el polipéptido Csm1 de la proteína de fusión a un sitio objetivo en la secuencia cromosómica y el dominio efector de la proteína de fusión modifica la secuencia cromosómica o regula la expresión de la secuencia cromosómica.

En el presente documento se describen proteínas de fusión que comprenden un polipéptido Csm1 o un fragmento o variante del mismo y un dominio efector. En general, las proteínas de fusión divulgadas en el presente documento pueden comprender además al menos una señal de localización nuclear, un péptido señal plastidial, un péptido señal mitocondrial o un péptido señal capaz de traficar con proteínas a múltiples localizaciones subcelulares. En el presente documento se describen ácidos nucleicos que codifican proteínas de fusión. En algunas realizaciones, la proteína de fusión puede introducirse en la célula o embrión como una proteína aislada (que puede comprender además un dominio de penetración celular). Además, la proteína de fusión aislada puede formar parte de un complejo proteína-ARN que comprenda el ARN guía. En otras realizaciones, la proteína de fusión puede introducirse en la célula o embrión como una molécula de ARN (que puede estar capada y/o poliadenilada). En otras realizaciones, la proteína de fusión puede introducirse en la célula o embrión como una molécula de ADN. Por ejemplo, la proteína de fusión y el ARN guía pueden introducirse en la célula o embrión como moléculas de ADN discretas o como parte de la misma molécula de ADN. Estas moléculas de ADN pueden ser vectores plasmídicos.

En algunas realizaciones, el procedimiento comprende además introducir en la célula, organelo o embrión al menos un polinucleótido donante como se describe en otra parte del presente documento. En el presente documento se describen medios para introducir moléculas en células vegetales, organelos o embriones vegetales, así como medios para cultivar células (incluidas células que contienen organelos) o embriones.

En ciertas realizaciones en las que el dominio efector de la proteína de fusión es un dominio de escisión, el procedimiento puede comprender la introducción en la célula vegetal, organelo o embrión vegetal de una proteína de fusión (o ácido nucleico que codifica una proteína de fusión) y dos ARN guía (o ADN que codifica dos ARN guía). Los dos ARN guía dirigen la proteína de fusión a dos sitios objetivo diferentes en la secuencia cromosómica, en los que la proteína de fusión dimeriza (por ejemplo, forma un homodímero) de forma que los dos dominios de escisión pueden introducir una rotura de doble cadena en la secuencia cromosómica. En las realizaciones en las que el polinucleótido donante opcional no está presente, la rotura de doble cadena en la secuencia cromosómica puede repararse mediante un procedimiento de reparación de unión de extremos no homólogos (NHEJ). Dado que la NHEJ es propensa a errores, durante la reparación de la rotura pueden producirse deleciones de al menos un nucleótido, inserciones de al menos un nucleótido, sustituciones de al menos un nucleótido o combinaciones de las mismas. En consecuencia, la secuencia cromosómica objetivo puede modificarse o inactivarse. Por ejemplo, un cambio de un solo nucleótido (SNP) puede dar lugar a un producto proteico alterado, o un cambio en el marco de lectura de una secuencia codificante puede inactivar o "eliminar" la secuencia de forma que no se produzca ningún producto proteico. En las realizaciones en las que el polinucleótido donante opcional está presente, la secuencia donante en el polinucleótido donante puede intercambiarse con o integrarse en la secuencia cromosómica en el sitio objetivo durante la reparación de la rotura de doble cadena. Por ejemplo, en realizaciones en las que la secuencia donante está flanqueada por secuencias corriente arriba y corriente abajo que tienen una identidad de secuencia sustancial con secuencias corriente arriba y corriente abajo, respectivamente, del sitio objetivo en la secuencia cromosómica, la secuencia donante puede intercambiarse con o integrarse en la secuencia cromosómica en el sitio objetivo durante la reparación mediada por el procedimiento de reparación dirigida por homología. Alternativamente, en las realizaciones en las que la secuencia donante está flanqueada por salientes compatibles (o los salientes compatibles son generadosin situpor el polipéptido Csm1) la secuencia donante puede ligarse directamente con la secuencia cromosómica escindida mediante un procedimiento de reparación no homóloga durante la reparación de la rotura de doble cadena. El intercambio o la integración de la secuencia donante en la secuencia cromosómica modifica la secuencia cromosómica objetivo o introduce una secuencia exógena en la secuencia cromosómica de la célula vegetal, organelo o embrión.

En otras realizaciones en las que el dominio efector de la proteína de fusión es un dominio de escisión, el procedimiento puede comprender la introducción en la célula vegetal, organelo o embrión vegetal de dos proteínas de fusión diferentes (o ácido nucleico que codifica dos proteínas de fusión diferentes) y dos ARN guía (o ADN que codifica dos ARN guía). Las proteínas de fusión pueden diferir como se detalla en otra parte del presente documento. Cada ARN guía dirige una proteína de fusión a un sitio objetivo específico en la secuencia cromosómica, en el que las proteínas de fusión pueden dimerizarse (por ejemplo, formar un heterodímero) de forma que los dos dominios de escisión puedan introducir una rotura de doble cadena en la secuencia cromosómica. En las realizaciones en las que el polinucleótido donante opcional no está presente, las roturas de doble cadena resultantes pueden repararse mediante un procedimiento de reparación no homóloga, de forma que durante la reparación de la rotura pueden producirse deleciones de al menos un nucleótido, inserciones de al menos un nucleótido, sustituciones de al menos un nucleótido o combinaciones de las mismas. En las realizaciones en las que está presente el polinucleótido donante opcional, la secuencia donante en el polinucleótido donante puede intercambiarse o integrarse en la secuencia cromosómica durante la reparación de la rotura de doble cadena mediante un procedimiento de reparación basado en la homología (por ejemplo, en las realizaciones en las que la secuencia donante está flanqueada por secuencias corriente arriba y corriente abajo que tienen una identidad de secuencia sustancial con secuencias corriente arriba y corriente abajo, respectivamente, de los sitios objetivo en la secuencia cromosómica) o un procedimiento de reparación no homóloga (por ejemplo, en las realizaciones en las que la secuencia donante está flanqueada por salientes compatibles).

En ciertas realizaciones en las que el dominio efector de la proteína de fusión es un dominio de activación transcripcional o un dominio represor transcripcional, el procedimiento puede comprender la introducción en la célula vegetal, organelo o embrión vegetal de una proteína de fusión (o ácido nucleico que codifica una proteína de fusión) y un ARN guía (o ADN que codifica un ARN guía). El ARN guía dirige la proteína de fusión a una secuencia cromosómica específica, en la que el dominio de activación transcripcional o un dominio de represión transcripcional activa o reprime la expresión, respectivamente, de un gen o genes situados cerca de la secuencia cromosómica objetivo. Es decir, la transcripción puede verse afectada en el caso de genes situados muy cerca de la secuencia cromosómica objetivo o puede verse afectada en el caso de genes situados a mayor distancia de la secuencia cromosómica objetivo. Es bien conocido en la técnica que la transcripción de genes puede estar regulada por secuencias localizadas a distancia que pueden estar situadas a miles de bases del sitio de inicio de la transcripción o incluso en un cromosoma separado (Harmston y Lenhard (2013) Nucleic Acids Res 41:7185-7199).

En realizaciones alternativas en las que el dominio efector de la proteína de fusión es un dominio de modificación epigenética, el procedimiento puede comprender la introducción en la célula vegetal, organelo o embrión vegetal de una proteína de fusión (o ácido nucleico que codifica una proteína de fusión) y un ARN guía (o ADN que codifica un ARN guía). El ARN guía dirige la proteína de fusión a una secuencia cromosómica específica, en la que el dominio de modificación epigenética modifica la estructura de la secuencia cromosómica objetivo. Las modificaciones epigenéticas incluyen la acetilación, la metilación de las proteínas histonas y/o la metilación de nucleótidos. En algunos casos, la modificación estructural de la secuencia cromosómica conduce a cambios en la expresión de la secuencia cromosómica.

V. Plantas y células vegetales que incluyen una modificación genética

Se proporcionan plantas, células vegetales, organelos vegetales y embriones vegetales que comprenden al menos una secuencia nucleotídica que ha sido modificada mediante un procedimiento mediado por el polipéptido Csm1 o mediado por una proteína de fusión como se describe en el presente documento. También se proporcionan células vegetales, organelos y embriones vegetales que comprenden al menos una molécula de ADN o a Rn que codifica el polipéptido Csm1 o una proteína de fusión dirigida a una secuencia cromosómica de interés o una proteína de fusión, al menos un ARN guía y, opcionalmente, uno o más polinucleótidos donantes. Las plantas modificadas genéticamente divulgadas en el presente documento pueden ser heterocigóticas para la secuencia de nucleótidos modificada u homocigóticas para la secuencia de nucleótidos modificada. Las células vegetales que comprenden una o más modificaciones genéticas en el ADN organelar pueden ser heteroplásmicas u homoplásmicas.

La secuencia cromosómica modificada de la planta, organelo de la planta o célula de la planta puede modificarse de tal manera que esté inactivada, tenga una expresión regulada al alza o a la baja, o produzca un producto proteico alterado, o comprenda una secuencia integrada. La secuencia cromosómica modificada puede inactivarse de forma que la secuencia no se transcriba y/o no se produzca un producto proteico funcional. Así, una planta modificada genéticamente que comprende una secuencia cromosómica inactivada puede denominarse "inactivada" o "inactivada condicional" La secuencia cromosómica inactivada puede incluir una mutación por deleción (es decir, la deleción de uno o más nucleótidos), una mutación por inserción (es decir, la inserción de uno o más nucleótidos) o una mutación sin sentido (es decir, la sustitución de un único nucleótido por otro nucleótido de forma que se introduce un codón de parada). Como consecuencia de la mutación, la secuencia cromosómica objetivo queda inactivada y no se produce una proteína funcional. La secuencia cromosómica inactivada no comprende ninguna secuencia introducida exógenamente. También se incluyen en el presente documento las plantas modificadas genéticamente en las que dos, tres, cuatro, cinco, seis, siete, ocho, nueve o diez o más secuencias cromosómicas están inactivadas.

La secuencia cromosómica modificada también puede alterarse de manera que codifique para un producto proteico variante. Por ejemplo, una planta modificada genéticamente que comprenda una secuencia cromosómica modificada puede incluir una o más mutaciones puntuales específicas u otras modificaciones que produzcan un producto proteico alterado. En una realización, la secuencia cromosómica puede modificarse de forma que se cambie al menos un nucleótido y la proteína expresada comprenda un residuo de aminoácido cambiado (mutación sin sentido). En otra realización, la secuencia cromosómica puede modificarse para incluir más de una mutación de sentido erróneo de forma que se cambie más de un aminoácido. Además, la secuencia cromosómica puede modificarse para que tenga una deleción o inserción de tres nucleótidos de manera que la proteína expresada comprenda una deleción o inserción de un solo aminoácido. La proteína alterada o variante puede tener propiedades o actividades alteradas en comparación con la proteína de tipo silvestre, tal como especificidad de sustrato alterada, actividad enzimática alterada, tasas cinéticas alteradas, etc.

En algunas realizaciones, la planta modificada genéticamente puede comprender al menos una secuencia de nucleótidos integrada cromosómicamente. Una planta modificada genéticamente que comprende una secuencia integrada puede denominarse "activada" o "activada condicional" La secuencia de nucleótidos que es secuencia integrada puede, por ejemplo, codificar una proteína ortóloga, una proteína endógena, o combinaciones de ambas. En una realización, una secuencia que codifica una proteína ortóloga o una proteína endógena puede integrarse en una secuencia cromosómica nuclear u organelar que codifica una proteína de forma que la secuencia cromosómica se inactiva, pero la secuencia exógena se expresa. En tal caso, la secuencia que codifica la proteína ortóloga o la proteína endógena puede estar operablemente unida a una secuencia de control del promotor. Alternativamente, una secuencia que codifica una proteína ortóloga o una proteína endógena puede integrarse en una secuencia cromosómica nuclear u organelar sin afectar a la expresión de una secuencia cromosómica. Por ejemplo, una secuencia que codifica una proteína puede integrarse en un locus de "puerto seguro". La presente divulgación también abarca plantas modificadas genéticamente en las que se integran en el genoma dos, tres, cuatro, cinco, seis, siete, ocho, nueve o diez o más secuencias, incluidas secuencias que codifican proteína(s). Cualquier gen de interés, tal y como se describe en el presente documento, puede introducirse integrado en la secuencia cromosómica del núcleo u organelo de la planta. En particular, los genes que aumentan el crecimiento o el rendimiento de la planta se integran en el cromosoma.

La secuencia integrada cromosómicamente que codifica una proteína puede codificar la forma de tipo silvestre de una proteína de interés o puede codificar una proteína que comprende al menos una modificación tal que se produce una versión alterada de la proteína. Por ejemplo, una secuencia integrada cromosómicamente que codifica una proteína relacionada con una enfermedad o trastorno puede comprender al menos una modificación tal que la versión alterada de la proteína producida cause o potencie el trastorno asociado. Alternativamente, la secuencia integrada cromosómicamente que codifica una proteína relacionada con una enfermedad o trastorno puede comprender al menos una modificación tal que la versión alterada de la proteína proteja a la planta contra el desarrollo de la enfermedad o trastorno asociado.

En ciertas realizaciones, la planta modificada genéticamente puede comprender al menos una secuencia cromosómica modificada que codifica una proteína de tal manera que se altera el patrón de expresión de la proteína. Por ejemplo, las regiones reguladoras que controlan la expresión de la proteína, como un promotor o un sitio de unión a un factor de transcripción, pueden alterarse de modo que la proteína se sobreexprese, o se altere la expresión específica de tejido o temporal de la proteína, o una combinación de ambos. Alternativamente, el patrón de expresión de la proteína puede alterarse utilizando un sistema de inactividad condicional. Un ejemplo no limitativo de un sistema de inactividad condicional incluye un sistema de recombinación Cre-lox. Un sistema de recombinación Cre-lox comprende una enzima recombinasa Cre, una recombinasa de ADN específica de sitio que puede catalizar la recombinación de una secuencia de ácido nucleico entre sitios específicos (sitios lox) en una molécula de ácido nucleico. Los procedimientos de utilización de este sistema para producir una expresión temporal y específica de un tejido son conocidos en la técnica.

VI. Procedimientos para modificar una secuencia de nucleótidos en un genoma eucariota no vegetal y células eucariotas no vegetales que comprenden una modificación genética

En el presente documento se proporcionan procedimientos para modificar una secuencia de nucleótidos de una célula eucariota no vegetal u organelo eucariota no vegetal. Los procedimientos comprenden introducir en una célula u organelo objetivo un ARN objetivo de ADN o un polinucleótido de ADN que codifica un ARN objetivo de ADN como se define en la reivindicación 1, y también introducir en la célula u organelo objetivo un polipéptido Csm1 como se define en la reivindicación 1. A continuación, la célula u organelo objetivo puede cultivarse en condiciones en las que el polipéptido de la nucleasa quimérica se exprese y escinda la secuencia de nucleótidos. Cabe señalar que el sistema descrito en el presente documento no requiere la adición de Mg2+ exógeno ni de ningún otro ion. Por último, puede seleccionarse una célula u organelo eucariota no vegetal que contenga la secuencia de nucleótidos modificada.

En algunas realizaciones, el procedimiento puede comprender la introducción de un polipéptido Csm1 (o ácido nucleico codificante) y un ARN guía (o ADN codificante) en una célula u organelo eucariota no vegetal en el que el polipéptido Csm1 introduce una rotura de doble cadena en la secuencia nucleotídica objetivo del ADN cromosómico nuclear u organelar. En algunas realizaciones, el procedimiento puede comprender la introducción de un polipéptido Csm1 (o ácido nucleico codificante) y al menos un ARN guía (o ADN codificante) en una célula u organelo eucariota no vegetal en el que el polipéptido Csm1 introduce más de una rotura de doble cadena (es decir, dos, tres o más de tres roturas de doble cadena) en la secuencia nucleotídica objetivo del ADN cromosómico nuclear u organelar. En las realizaciones en las que no está presente un polinucleótido donante opcional, la rotura de doble cadena en la secuencia de nucleótidos puede repararse mediante un procedimiento de reparación de unión de extremos no homólogos (NHEJ). Dado que la NHEJ es propensa a errores, durante la reparación de la rotura pueden producirse deleciones de al menos un nucleótido, inserciones de al menos un nucleótido, sustituciones de al menos un nucleótido o combinaciones de las mismas. En consecuencia, la secuencia de nucleótidos objetivo puede modificarse o inactivarse. Por ejemplo, un cambio de un solo nucleótido (SNP) puede dar lugar a un producto proteico alterado, o un cambio en el marco de lectura de una secuencia codificante puede inactivar o "eliminar" la secuencia de forma que no se produzca ningún producto proteico. En las realizaciones en las que el polinucleótido donante opcional está presente, la secuencia donante en el polinucleótido donante puede intercambiarse con o integrarse en la secuencia de nucleótidos en el sitio objetivo durante la reparación de la rotura de doble cadena. Por ejemplo, en las realizaciones en las que la secuencia donante está flanqueada por secuencias corriente arriba y corriente abajo que tienen una identidad de secuencia sustancial con secuencias corriente arriba y corriente abajo, respectivamente, del sitio objetivo en la secuencia de nucleótidos de la célula u organelo eucariota no vegetal, la secuencia donante puede intercambiarse con o integrarse en la secuencia de nucleótidos en el sitio objetivo durante la reparación mediada por el procedimiento de reparación dirigida por homología. Alternativamente, en las realizaciones en las que la secuencia donante está flanqueada por salientes compatibles (o los salientes compatibles son generadosin situpor el polipéptido Csm1) la secuencia donante puede ligarse directamente con la secuencia nucleotídica escindida mediante un procedimiento de reparación no homóloga durante la reparación de la rotura de doble cadena. El intercambio o la integración de la secuencia donante en la secuencia de nucleótidos modifica la secuencia de nucleótidos objetivo o introduce una secuencia exógena en la secuencia de nucleótidos objetivo de la célula u organelo eucariota no vegetal.

En algunas realizaciones, las roturas de doble cadena causadas por la acción de la nucleasa o nucleasas Csm1 se reparan de tal manera que el ADN se elimina del cromosoma de la célula u organelo eucariota no vegetal. En algunas realizaciones, se elimina una base, unas pocas bases (es decir, 2, 3, 4, 5, 6, 7, 8, 9 o 10 bases) o una sección grande de ADN (es decir, más de 10, más de 50, más de 100 o más de 500 bases) del cromosoma de la célula u organelo eucariota no vegetal.

En algunas realizaciones, la expresión de genes eucariotas no vegetales puede modularse como resultado de las roturas de doble cadena causadas por la nucleasa o nucleasas Csm1. En algunas realizaciones, la expresión de genes eucariotas no vegetales puede modularse mediante enzimas Csm1 variantes que comprenden una mutación que hace que la nucleasa Csm1 sea incapaz de producir una rotura de doble cadena. En algunas realizaciones preferidas, la variante de la nucleasa Csm1 que comprende una mutación que hace que la nucleasa Csm1 sea incapaz de producir una rotura de doble cadena puede fusionarse a un dominio de activación transcripcional o de represión transcripcional.

En algunas realizaciones, una célula eucariota que comprende mutaciones en su ADN cromosómico nuclear y/o organelar causadas por la acción de una nucleasa o nucleasas Csm1 se cultiva para producir un organismo eucariota. En algunas realizaciones, una célula eucariota en la que la expresión génica se modula como resultado de una o más nucleasas Csm1, o una o más nucleasas Csm1 variantes, se cultiva para producir un organismo eucariota.

La presente invención puede utilizarse para la transformación de hongos, amebas y levaduras.

Se conocen en la técnica procedimientos para la introducción de proteínas nucleasa, moléculas de ADN o ARN que codifican proteínas nucleasa, ARN guía o moléculas de ADN que codifican ARN guía, y moléculas de ADN de secuencia donante opcional en células u organelos eucariotas no vegetales, por ejemplo, en la Solicitud de Patente de EE. UU. 2016/0208243. También se conocen en la técnica modificaciones genéticas ejemplares de células u organelos eucariotas no vegetales que pueden ser de especial valor para aplicaciones industriales, por ejemplo, en la Solicitud de Patente de EE. UU. 2016/0208243.

VII. Procedimientos para modificar una secuencia de nucleótidos en un genoma procariota y células procariotas que comprenden una modificación genética

En el presente documento se proporcionan procedimientos para modificar una secuencia de nucleótidos de una célula procariota (por ejemplo, bacteriana o arquea). Los procedimientos comprenden introducir en una célula objetivo un ARN objetivo de ADN o un polinucleótido de ADN que codifica un a Rn objetivo de ADN, como se define en la reivindicación 2, y también introducir en la célula objetivo un polipéptido Csm1, o un polinucleótido que codifica un polipéptido Csm1 como se define en la reivindicación 2. A continuación, la célula objetivo puede cultivarse en condiciones en las que el polipéptido Csm1 se exprese y escinda la secuencia de nucleótidos. Cabe señalar que el sistema descrito en el presente documento no requiere la adición de Mg2+ exógeno ni de ningún otro ion. Por último, pueden seleccionarse células procariotas que contengan la secuencia de nucleótidos modificada. Se observa además que las células procariotas que comprenden la secuencia o secuencias de nucleótidos modificadas no son las células huésped naturales de los polinucleótidos que codifican el polipéptido Csm1 de interés, y que se utiliza un ARN guía no natural para efectuar los cambios deseados en la secuencia o secuencias de nucleótidos procariotas. Cabe señalar además que el ADN objetivo puede estar presente como parte del cromosoma o cromosomas procarióticos o puede estar presente en uno o más plásmidos u otras moléculas de ADN no cromosómico en la célula procariota.

En algunas realizaciones, el procedimiento puede comprender la introducción de un polipéptido Csm1 (o ácido nucleico codificante) y un ARN guía (o ADN codificante) en una célula procariota en la que el polipéptido Csm1 introduce una rotura de doble cadena en la secuencia nucleotídica objetivo del ADN celular procariota. En algunas realizaciones, el procedimiento puede comprender la introducción de un polipéptido Csm1 (o ácido nucleico codificante) y al menos un ARN guía (o a Dn codificante) en una célula procariota en la que el polipéptido Csm1 introduce más de una rotura de doble cadena (es decir, dos, tres o más de tres roturas de doble cadena) en la secuencia nucleotídica objetivo del ADN celular procariota. En las realizaciones en las que no está presente un polinucleótido donante opcional, la rotura de doble cadena en la secuencia de nucleótidos puede repararse mediante un procedimiento de reparación de unión de extremos no homólogos (NHEJ). Dado que la NHEJ es propensa a errores, durante la reparación de la rotura pueden producirse deleciones de al menos un nucleótido, inserciones de al menos un nucleótido, sustituciones de al menos un nucleótido o combinaciones de las mismas. En consecuencia, la secuencia de nucleótidos objetivo puede modificarse o inactivarse. Por ejemplo, un cambio de un solo nucleótido (SNP) puede dar lugar a un producto proteico alterado, o un cambio en el marco de lectura de una secuencia codificante puede inactivar o "eliminar" la secuencia de forma que no se produzca ningún producto proteico. En las realizaciones en las que el polinucleótido donante opcional está presente, la secuencia donante en el polinucleótido donante puede intercambiarse con o integrarse en la secuencia de nucleótidos en el sitio objetivo durante la reparación de la rotura de doble cadena. Por ejemplo, en realizaciones en las que la secuencia donante está flanqueada por secuencias corriente arriba y corriente abajo que tienen una identidad de secuencia sustancial con secuencias corriente arriba y corriente abajo, respectivamente, del sitio objetivo en la secuencia de nucleótidos de la célula procariota, la secuencia donante puede intercambiarse con o integrarse en la secuencia de nucleótidos en el sitio objetivo durante la reparación mediada por el procedimiento de reparación dirigida por homología. Alternativamente, en las realizaciones en las que la secuencia donante está flanqueada por salientes compatibles (o los salientes compatibles son generadosin situpor el polipéptido Csm1) la secuencia donante puede ligarse directamente con la secuencia nucleotídica escindida mediante un procedimiento de reparación no homóloga durante la reparación de la rotura de doble cadena. El intercambio o la integración de la secuencia donante en la secuencia de nucleótidos modifica la secuencia de nucleótidos objetivo o introduce una secuencia exógena en la secuencia de nucleótidos objetivo del ADN celular procariota.

En algunas realizaciones, las roturas de doble cadena causadas por la acción de la nucleasa o nucleasas Csm1 se reparan de tal manera que el ADN se elimina del ADN celular procariota. En algunas realizaciones, se elimina una base, unas pocas bases (es decir, 2, 3, 4, 5, 6, 7, 8, 9 o 10 bases) o una sección grande de ADN (es decir, más de 10, más de 50, más de 100 o más de 500 bases) del ADN celular procariota.

En algunas realizaciones, la expresión de genes procariotas puede ser modulada como resultado de las roturas de doble cadena causadas por la nucleasa o nucleasas Csm1. En algunas realizaciones, la expresión de genes procariotas puede modularse mediante nucleasas Csm1 variantes que comprenden una mutación que hace que la nucleasa Csm1 sea incapaz de producir una rotura de doble cadena. En algunas realizaciones preferidas, la variante de la nucleasa Csm1 que comprende una mutación que hace que la nucleasa Csm1 sea incapaz de producir una rotura de doble cadena puede fusionarse a un dominio de activación transcripcional o de represión transcripcional.

La presente invención puede utilizarse para la transformación de cualquier especie procariota, incluidas, entre otras, cianobacterias,Corynebacteriumsp.,Bifidobacteriumsp.,Mycobacteriumsp.,Streptomycessp.,Thermobifidasp.,C hlamydiasp.,Prochlorococcussp,Synechococcussp.,Thermosynechococcussp.,Thermussp.,Bacillussp.,Clostri diumsp.,Geobacillussp.,Lactobacillussp.,Listeriasp.,Staphylococcussp.,Streptococcussp.,Fusobacteriumsp.,Agrobacteriumsp.,Bradyrhizobiumsp.,Ehrlichiasp.,Mesorhizobiumsp.,Nitrobactersp.,Rickettsiasp.,Wolbachias p.,Zymomonassp.,Burkholderiasp.,Neisseriasp.,Ralstoniasp.,Acinetobactersp.,Erwiniasp.,Escherichiasp.,Ha emophilussp.,Legionellasp.,Pasteurellasp.,Pseudomonassp.,Psychrobactersp.,Salmonellasp.,Shewanellasp.,Shigellasp.,Vibriosp.,Xanthomonassp.,Xylellasp.,Yersiniasp.,Campylobactersp.,Desulfovibriosp.,Helicobacte rsp.,Geobactersp.,Leptospirasp.,Treponemasp.,Mycoplasmasp., yThermotogasp.

Los procedimientos para la introducción de proteínas nucleasa, moléculas de ADN o ARN que codifican proteínas nucleasa, ARN guía o moléculas de ADN que codifican ARN guía, y moléculas de ADN de secuencia donante opcional en células u organelos procariotas son conocidos en la técnica, por ejemplo, en la Solicitud de Patente de EE. UU.

2016/0208243. También se conocen en la técnica modificaciones genéticas ejemplares de células procariotas que pueden ser de especial valor para aplicaciones industriales, por ejemplo, en la Solicitud de Patente de EE. UU.

2016/0208243.

Todas las publicaciones y solicitudes de patentes mencionadas en la memoria descriptiva son indicativas del nivel de conocimientos de los expertos en la técnica a la que pertenece esta invención.

EXPERIMENTAL

Ejemplo 1 - Clonación de constructos cpfl (ejemplo de referencia)

Los constructos que contienen Cpfl (números de constructo 131306-131311 y 131313) se resumen en la Tabla 1. Brevemente, los genes cpfl fueron sintetizadosde novopor GenScript (Piscataway, NJ) y amplificados por PCR para añadir una etiqueta de localización nuclear N-terminal SV40 (SEQ ID NO: 2) en el marco de la secuencia codificante cpfl de interés, así como los sitios de enzimas de restricción para la clonación. Utilizando los sitios de enzimas de restricción apropiados, cada gen cpfl individual se clonó corriente abajo del promotor 2x35s (SEQ ID NO: 43).

Los ARN guía dirigidos a una región de ADN que abarca la unión entre el promotor y el extremo 5' de la región codificante de la GFP fueron sintetizados por Integrated DNA Technologies (Coralville, IA) como casetes completos. Cada casete incluía un promotor U3 de arroz (SEQ ID NO:42) unido operativamente al ARNg apropiado (SEQ ID NOs:47-53) que estaba unido operativamente al terminador U3 de arroz (SEQ ID NO:44). Aunque cada ARNg se dirigió a la misma región del promotor y del gen GFP, cada ARNg se diseñó para garantizar que incluía el andamiaje adecuado para interactuar correctamente con su respectiva enzima Cpfl.

Los constructos se ensamblaron y clonaron en una columna verteblal de vector pSB11 modificado que contiene el gen hptII que puede conferir resistencia a la higromicina b en plantas (SEQ ID NO:45). El gen hptII se situó corriente abajo del promotor de la ubiquitina del maíz y 5'UTR (pZmUbi; SEQ ID NO:46).

��Ejemplo 2 - Transformación de arroz mediada por Agrobacterium (ejemplo de referencia)

Arroz(Oryza sativacv. Kitaake) se infectaron con célulasde Agrobacteriumque albergaban un plásmido superbinario que contenía un gen que codificaba la proteína verde fluorescente (GFP; SEQ ID NO: 55 que codifica SEQ ID NO: 56) enlazado de forma operativa a un promotor constitutivo. Se seleccionaron tres callos infectados que mostraban altos niveles de fluorescencia derivada de la GFP mediante inspección visual y se dividieron en múltiples secciones. Estas secciones se dejaron propagar en medios de selección. Tras dejar que las piezas de callos se recuperaran y aumentaran de tamaño, estos callos se volvieron a infectar con célulasde Agrobacteriumque albergaban genes que codificaban enzimas Cpfl y sus respectivos ARN guía (ARNg). Tras la infección con los vectores que contenían cpfl, los callos se propagaron en un medio de selección que contenía higromicina b. Las piezas de callos que supuestamente expresaban proteínas Cpfl funcionales se seleccionaron visualmente inspeccionando las piezas de callos en busca de regiones que ya no fueran visiblemente fluorescentes. Es probable que esta pérdida de fluorescencia se deba a la edición de la secuencia que codifica la GFP mediada por Cpfl, lo que da lugar a un gen GFP no funcional. Por ejemplo, callos de arroz transformados primero con un constructo GFP y luego con el constructo 131307, que contiene un gen que codifica la proteína Cpfl deAcidaminococcussp. BV3L6 (s Eq ID NO: 8 que codifica SEQ ID NO: 6) dio lugar a que partes del callo mostraran una aparente pérdida de fluorescencia derivada de la GFP. Las piezas de callo de arroz que contenían grupos de células que no mostraban fluorescencia derivada de GFP se priorizaron para una caracterización molecular más profunda.

Ejemplo 3 - Ensayo T7EI (ejemplo de referencia)

El ensayo de la endonucleasa I T7 (T7EI) se utiliza para identificar muestras con inserciones y/o deleciones en el lugar deseado y para evaluar la eficacia de las enzimas de edición del genoma. El protocolo de ensayo se ha modificado a partir de Shan et al (2014) Nature Protocols 9: 2395-2410. La base del ensayo es que la T7EI reconoce y escinde el ADN no perfectamente emparejado. Brevemente, se realiza una reacción de PCR para amplificar una región de ADN que contiene la secuencia de ADN objetivo del ARNg. Como se espera que en la muestra haya ADN editado y no editado, se obtiene una mezcla de productos PCR. Los productos de la PCR se funden y se deja que vuelvan a fusionarse. Cuando un producto de PCR no editado vuelve a unirse con un producto de PCR editado, se produce un desajuste de ADN. Estos desajustes del ADN son digeridos por T7EI y pueden identificarse mediante ensayos en gel. Se extrae ADN de callos de arroz que parecían mostrar una pérdida de fluorescencia derivada de la GFP La PCR se realiza con este ADN como molde utilizando cebadores diseñados para amplificar una región de ADN que abarca la unión entre el promotor y el marco abierto de lectura de la GFP Los productos de la PCR se funden y se vuelven a fusionar y, a continuación, se digieren con T7EI (New England Biolabs, Ipswich, MA) siguiendo el protocolo del fabricante. El ADN resultante se electroforiza en un gel de agarosa al 2%. En las muestras en las que Cpfl produjo una inserción o deleción en el lugar deseado, la banda inicial se digiere para producir dos bandas más pequeñas.

Ejemplo 4 - Secuenciación del ADN de callos de arroz (ejemplo de referencia)

El ADN extraído del callo de arroz que parecía, basándose en la inspección visual de la pérdida de fluorescencia y/o basándose en los resultados de los ensayos T7EI, comprender ADN genómico editado como resultado de la acumulación de enzima Cpfl funcional se selecciona para el análisis basado en la secuencia. Se extrae ADN de las piezas de callo de arroz apropiadas y se utilizan cebadores para amplificar por PCR la secuencia codificadora de la GFP a partir de este ADN. Los productos PCR resultantes se clonan en plásmidos que posteriormente se transforman en célulasE. coli.Estos plásmidos se recuperan y se utiliza la secuenciación de Sanger para analizar el ADN e identificar inserciones, deleciones y/o mutaciones puntuales en el ADN que codifica la GFP

Ejemplo 5 - Utilización de proteínas Cpfl desactivadas para modular la expresión génica (ejemplo de referencia)

Se ha demostrado que el dominio similar a RuvC de Cpfl media en la escisión del ADN (Zetsche et al (2015) Cell 163: 759-771), con residuos específicos identificados en la enzima Cpfl deFrancisella tularensissubsp. novicida U112 (es decir, D917 y E1006) que inactivaron completamente la actividad de escisión del ADN cuando se mutó del aminoácido nativo a alanina. Alineaciones basadas en aminoácidos utilizando Clustal W Multiple Alignment (Thompson et al (1994) Nucleic Acid Research 22: 4673-4680) de las ocho enzimas Cpfl investigadas aquí se realizaron para identificar los residuos de aminoácidos correspondientes en las otras enzimas. En la Tabla 2 se enumeran estos residuos de aminoácidos. Las secuencias de aminoácidos de las proteínas Cpfl desactivadas correspondientes a mutaciones puntuales en cada uno de los residuos de aminoácidos enumerados en la Tabla 2 se encuentran en SEQ ID NOs: 26 41. Las secuencias de aminoácidos de las proteínas Cpfl desactivadas dobles mutantes que comprenden mutaciones en los dos residuos enumerados para cada proteína cpfl en la Tabla 2 se encuentran en SEQ ID NOs: 63-70.

T l 2: r i min i m r n r r nzim fl iv

(continuación)

Se diseñan cebadores apropiados de modo que pueda realizarse una PCR Quikchange (Agilent Technologies, Santa Clara, CA) para producir genes que codifiquen las secuencias Cpfl desactivadas enumeradas en SEQ ID NOs: 26-41 y producir genes que codifiquen las secuencias Cpfl desactivadas enumeradas en SEQ ID NOs: 63-70. La PCR se realiza para producir genes que codifican una proteína de fusión que contiene una proteína Cpfl desactivada fusionada a un dominio de activación o represión de la expresión génica, tal como los dominios de activación EDLL o TAL o el dominio represor SRDX, con la señal de localización nuclear SV40 (SEQ ID NO:2, que codifica SEQ ID NO: 1) fusionado en el marco en el extremo 5' del gen. Los ARN guía (ARNg) están diseñados para permitir que el ARNg interactúe con la proteína Cpfl desactivada y para guiar la proteína Cpfl desactivada a una ubicación deseada en el genoma de una planta. Los casetes que contienen el/los ARNg de interés, enlazados de forma operable con el/los promotor/es operable/s en células vegetales, y que contienen el/los gen/es que codifican la/las proteína/s de fusión Cpfl fusionada/s con el/los dominio/s de activación y/o represión, se clonan en un vector adecuado para la transformación vegetal. Este vector se transforma en una célula vegetal, lo que resulta en la producción del ARNg(s) y la(s) proteína(s) de fusión Cpfl en la célula vegetal. La proteína de fusión que contiene la proteína Cpfl desactivada y el dominio activador o represor efectúa una modulación de la expresión de genes cercanos en el genoma de la planta.

Ejemplo 6 - Edición de loci genómicos predeterminados en maíz (Zea mays)

Uno o más ARNg se diseñan para recocer en un sitio deseado del genoma del maíz y permitir la interacción con una o más proteínas Cpfl o Csm1. Estos ARNg se clonan en un vector de forma que estén vinculados de forma operable a un promotor que sea operable en una célula vegetal (el "casete de ARNg"). Uno o más genes que codifican una proteína Cpfl o Csm1 se clonan en un vector de tal forma que se unen de forma operable a un promotor que es operable en una célula vegetal (el "casete cpfl" o el "casete csm1"). El casete ARNg y el casete cpfl o el casete csm1 se clonan cada uno en un vector adecuado para la transformación de plantas, y este vector se transforma posteriormente en célulasde Agrobacterium.Estas células se ponen en contacto con tejido de maíz apto para la transformación. Tras esta incubación con las células deAgrobacterium,las células de maíz se cultivan en un medio de cultivo tisular adecuado para la regeneración de plantas intactas. Las plantas de maíz se regeneran a partir de las células que se pusieron en contacto con células deAgrobacteriumque albergaban el vector que contenía el casete cpfl o csm1 y el casete ARNg. Tras la regeneración de las plantas de maíz, se recoge tejido vegetal y se extrae ADN del tejido. Se realizan ensayos T7EI y/o ensayos de secuenciación, según proceda, para determinar si se ha producido un cambio en la secuencia de ADN en la localización genómica deseada.

Alternativamente, se utiliza el bombardeo de partículas para introducir el casete cpfl o csm1 y el casete ARNg en células de maíz. Los vectores que contienen un casete cpfl o csm1 y un casete ARNg se recubren en perlas de oro o de titanio que luego se utilizan para bombardear tejido de maíz apto para la regeneración. Tras el bombardeo, el tejido de maíz se transfiere a un medio de cultivo de tejidos para la regeneración de plantas de maíz. Tras la regeneración de las plantas de maíz, se recoge tejido vegetal y se extrae ADN del tejido. Se realizan ensayos T7EI y/o ensayos de secuenciación, según proceda, para determinar si se ha producido un cambio en la secuencia de ADN en la localización genómica deseada.

Ejemplo 7 - Edición de loci genómicos predeterminados en Setaria viridis

Uno o más ARNg se diseñan para recocer con un sitio deseado en el genoma deSetaria viridisy permitir la interacción con una o más proteínas Cpfl o Csm1. Estos ARNg se clonan en un vector de forma que estén vinculados de forma operable a un promotor que sea operable en una célula vegetal (el "casete de ARNg"). Uno o más genes que codifican una proteína Cpfl o Csm1 se clonan en un vector de tal forma que se unen de forma operable a un promotor que es operable en una célula vegetal (el "casete cpfl" o el "casete csm1"). El casete ARNg y el casete cpfl o el casete csm1 se clonan cada uno en un vector adecuado para la transformación de plantas, y este vector se transforma posteriormente en célulasde Agrobacterium.Estas células se ponen en contacto con tejido deSetaria viridisapto para la transformación. Tras esta incubación con las célulasde Agrobacterium,las células deSetaria viridisse cultivan en un medio de cultivo tisular adecuado para la regeneración de plantas intactas. Las plantas deSetaria viridisse regeneran a partir de las células que se pusieron en contacto con células deAgrobacteriumque albergaban el vector que contenía el casete cpfl o el casete csml y el casete ARNg. Tras la regeneración de las plantas deSetaria viridis, serecoge tejido vegetal y se extrae ADN del tejido. Se realizan ensayos T7EI y/o ensayos de secuenciación, según proceda, para determinar si se ha producido un cambio en la secuencia de ADN en la localización genómica deseada. Alternativamente, se utiliza el bombardeo de partículas para introducir el casete cpfl o el casete csm1 y el casete ARNg en células de S.viridis.Los vectores que contienen un casete cpfl o un casete csm1 y un casete ARNg se recubren en perlas de oro o de titanio que luego se utilizan para bombardear tejido de S.viridisapto para la regeneración. Tras el bombardeo, el tejido de S.viridisse transfiere a un medio de cultivo de tejidos para la regeneración de plantas intactas. Tras la regeneración de las plantas, se recoge tejido vegetal y se extrae ADN de este tejido. Se realizan ensayos T7EI y/o ensayos de secuenciación, según proceda, para determinar si se ha producido un cambio en la secuencia de ADN en la localización genómica deseada.

Ejemplo 8 - Supresión de ADN de un locus genómico predeterminado

Se diseña un primer ARNg para que recoja con un primer sitio deseado en el genoma de una planta de interés y para permitir la interacción con una o más proteínas Cpfl o Csm1. Se diseña un segundo ARNg para que se una con un segundo sitio deseado en el genoma de una planta de interés y para permitir la interacción con una o más proteínas Cpfl o Csm1. Cada uno de estos ARNg está vinculado de forma operable a un promotor que es operable en una célula vegetal y posteriormente se clona en un vector que es adecuado para la transformación de plantas. Uno o más genes que codifican una proteína Cpfl o Csm1 se clonan en un vector de tal forma que se unen de forma operable a un promotor que es operable en una célula vegetal (el "casete cpfl" o el "casete csm1"). El casete cpfl o el casete csm1 y los casetes ARNg se clonan en un único vector de transformación vegetal que posteriormente se transforma en células deAgrobacterium.Estas células se ponen en contacto con tejido vegetal apto para la transformación. Tras esta incubación conlascélulas deAgrobacterium,las células vegetales se cultivan en un medio de cultivo tisular adecuado para la regeneración de plantas intactas. Alternativamente, el vector que contiene el casete cpfl o el casete csm1 y los casetes de ARNg se recubre en perlas de oro o titanio adecuadas para el bombardeo de células vegetales. Las células se bombardean y, a continuación, se transfieren a un medio de cultivo de tejidos adecuado para la regeneración de plantas intactas. Los complejos ARNg-Cpf1 o ARNg-Csm1 efectúan roturas de doble cadena en los loci genómicos deseados y, en algunos casos, la maquinaria de reparación del ADN hace que el ADN se repare de tal forma que se elimine la secuencia de ADN nativa que estaba situada entre los dos loci genómicos objetivo. Las plantas se regeneran a partir de las células que se ponen en contacto con células deAgrobacteriumque albergan el vector que contiene el casete cpfl o el casete csm1 y los casetes ARNg o se bombardean con perlas recubiertas con este vector. Tras la regeneración de las plantas, se recoge tejido vegetal y se extrae ADN del tejido. Se realizan ensayos T7EI y/o ensayos de secuenciación, según proceda, para determinar si se ha eliminado ADN de la ubicación o ubicaciones genómicas deseadas.

Ejemplo 9 - Inserción de ADN en un locus genómico predeterminado

Se diseña un ARNg para que se una con un sitio deseado en el genoma de una planta de interés y para permitir la interacción con una o más proteínas Cpfl o Csm1. El ARNg se une de forma operable a un promotor que es operable en una célula vegetal y posteriormente se clona en un vector que es adecuado para la transformación de plantas. Uno o más genes que codifican una proteína Cpfl o Csm1 se clonan en un vector de tal forma que se unen de forma operable a un promotor que es operable en una célula vegetal (el "casete cpfl" o el "casete csm1"). Tanto el casete cpfl o csm1 como el casete ARNg se clonan en un único vector de transformación vegetal que posteriormente se transforma en células deAgrobacterium. Estas células se ponen en contacto con tejido vegetal apto para la transformación. Al mismo tiempo, se introduce ADN donante en estas mismas células vegetales. Dicho ADN donante incluye una molécula de ADN que se insertará en el lugar deseado del genoma de la planta, flanqueada por regiones de flanqueo ascendente y descendente. La región de flanqueo ascendente es homóloga a la región de ADN genómico ascendente del locus genómico objetivo del ARNg, y la región de flanqueo descendente es homóloga a la región de ADN genómico descendente del locus genómico objetivo del ARNg. Las regiones de flanqueo ascendente y descendente median en la inserción del ADN en el lugar deseado del genoma de la planta. Tras esta incubación con las células deAgrobacteriumy la introducción del ADN donante, las células vegetales se cultivan en un medio de cultivo tisular adecuado para la regeneración de plantas intactas. Las plantas se regeneran a partir de las células que se pusieron en contactoconcélulas deAgrobacteriumque albergaban el vector que contenía el casete cpfl o el casete csm1 y los casetes ARNg. Tras la regeneración de las plantas, se recoge tejido vegetal y se extrae ADN del tejido. Se realizan ensayos T7EI y/o ensayos de secuenciación, según proceda, para determinar si el ADN se ha insertado en la ubicación o ubicaciones genómicas deseadas.

Ejemplo 10 - Inserción biolística de ADN en el locus genómico CAO1 del arroz

Para la inserción biolística de ADN en un locus genómico predeterminado, se diseñaron vectores con casetes cpfl o casetes csm1. Estos vectores contenían un promotor 2X35s (SEQ ID NO:43) corriente arriba del ORF cpfl o csm1 y una secuencia terminadora 35S polyA (SEQ ID NO: 54) corriente abajo del ORF cpfl o csm1. La tabla 3 resume estos vectores cpfl y csm1.

T l : R m n l v r fl m1 iliz r l x rim n i lí i

(continuación)

Además de los vectores cpfl y csml descritos en la Tabla 3, se diseñaron vectores con casetes de ARNg de tal manera que el ARNg se uniera con una región del locus del gen CAO1 en el genoma del arroz(Oryza sativa)(SEQ ID NO:71) y también permitiera la interacción con la proteína Cpfl o Csm1 apropiada. En estos vectores, el ARNg estaba unido de forma operable al promotor U6 del arroz (SEQ ID NO:72) y al terminador (SEQ ID NO:74). La Tabla 4 resume estos vectores de ARNg.

Tabla 4: Resumen de los vectores de ARNg utilizados para los experimentos biolísticos en el locus genómico CAO1 del arroz

(continuación)

Para facilitar la inserción de un casete genético de higromicina en el locus genómico CAO1 del arroz, se diseñaron casetes donantes de reparación con una homología de aproximadamente 1.000 pares de bases corriente arriba y corriente abajo del sitio de la rotura de doble cadena que se pretendía causar por la acción de la enzima Cpfl o Csm1 acoplada con el ARNg dirigido a este locus. La Figura 1 muestra una vista esquemática del locus genómico CAO1 y los brazos de homología que se utilizaron para guiar la recombinación homóloga y la inserción del casete del gen de la higromicina en el locus CAO1. El casete del gen de la higromicina que se insertó en el locus genómico CAO1 del arroz incluía el promotor de ubiquitina del maíz (SEQ ID NO:46) que impulsa la expresión del gen de resistencia a la higromicina (SEQ ID NO:76, que codifica SEQ ID NO:77), flanqueado en su extremo 3' por la secuencia poliA 35S del virus del mosaico de la coliflor (SEQ ID NO: 54). La Tabla 5 resume los vectores de casetes donantes de reparación que se construyeron para la inserción de higromicina en el locus genómico CAO1 del arroz.

Tabla 5: n n r r i n A 1 rr z r l in r i n l n r i n i l hi romicina

Para introducir el casete cpfl o el casete csm1, el plásmido que contiene ARNg y el casete donante de reparación en células de arroz, se utilizó el bombardeo de partículas. Para el bombardeo, se pesaron 2 mg de partículas de oro de 0,6 |jm y se transfirieron a tubos estériles de 1,5 ml. Se añadieron 500 mL de etanol al 100% y se sonicaron los tubos durante 10-15 segundos. Tras la centrifugación, se eliminó el etanol. A continuación, se añadió un mililitro de agua bidestilada estéril al tubo que contenía las perlas de oro. La pella de perla se agitó brevemente en vórtex y se volvió a formar por centrifugación, tras lo cual se eliminó el agua del tubo. En una campana de flujo laminar estéril, el ADN se recubrió sobre las perlas. La Tabla 6 muestra las cantidades de ADN añadidas a las perlas. El plásmido que contiene el casete Cpfl o el casete Csm1, el plásmido que contiene el ARNg y el casete donante de reparación se añadieron a las microesferas y se añadió agua bidestilada estéril para llevar el volumen total a 50 jl. A esto se añadieron 20 j l de espermidina (1 M), seguidos de 50 j l de CaCh (2,5 M). Las partículas de oro se dejaron sedimentar por gravedad durante varios minutos y luego se sedimentaron por centrifugación. Se eliminó el líquido sobrenadante y se añadieron 800 j l de etanol al 100%. Tras una breve sonicación, se dejó que las partículas de oro se precipitaran por gravedad durante 3-5 minutos y, a continuación, se centrifugó el tubo para formar un precipitado. Se eliminó el sobrenadante y se añadieron 30 j l de etanol al 100% al tubo. Las partículas de oro recubiertas de ADN se resuspendieron en este etanol mediante vórtex, y se añadieron 10 |jl de las partículas de oro resuspendidas a cada uno de los tres macroportadores (Bio-Rad, Hercules, CA). Los macroportadores se dejaron secar al aire durante 5-10 minutos en la campana de flujo laminar para permitir la evaporación del etanol.

Tabla 6: Cantidades de ADN utilizadas para los experimentos de bombardeo de partículas (todas las cantidades son r 2 m rí l r

Se utilizó tejido de callo de arroz para el bombardeo. El callo de arroz se mantuvo en medio de inducción de callo (CIM; 3,99 g/L de sales y vitaminas N6, 0,3 g/L de hidrolizado de caseína, 30 g/L de sacarosa, 2,8 g/L de L-prolina, 2 mg/L de 2,4-D, 8 g/L de agar, ajustado a pH 5,8) durante 4-7 días a 28°C en la oscuridad antes del bombardeo. Se dispusieron aproximadamente 80-100 piezas de callos, cada uno de 0,2-0,3 cm de tamaño y con un peso total de 1 1,5 g, en el centro de una placa Petri que contenía medio sólido osmótico (CIM suplementado con 0,4 M de sorbitol y 0,4 M de manitol) para un pretratamiento osmótico de 4 horas antes del bombardeo de partículas. Para el bombardeo, los macroportadores que contenían las partículas de oro recubiertas de ADN se ensamblaron en un soporte de macroportadores. El disco de ruptura (1.100 psi), la pantalla de parada y el soporte del macroportador se montaron siguiendo las instrucciones del fabricante. La placa que contenía el callo de arroz que se iba a bombardear se colocó 6 cm por debajo de la pantalla de parada y las piezas de callos se bombardearon después de que la cámara de vacío alcanzara 25-28 pulg. Hg. Tras el bombardeo, el callo se dejó en medio osmótico durante 16-20 horas y, a continuación, las piezas de callos se transfirieron a medio de selección (CIM suplementado con 50 mg/L de higromicina y 100 mg/L de timentina). Las placas se transfirieron a una incubadora y se mantuvieron a 28°C en la oscuridad para iniciar la recuperación de las células transformadas. Cada dos semanas, el callo se subcultivó en medio de selección fresco. Las piezas de callo resistentes a la higromicina empezaron a aparecer después de aproximadamente cinco a seis semanas en medio de selección. Las piezas individuales de callo resistente a la higromicina se transfirieron a nuevas placas de selección para permitir que las células se dividieran y crecieran hasta producir tejido suficiente del que tomar muestras para el análisis molecular. La Tabla 7 resume las combinaciones de vectores de ADN que se utilizaron para estos experimentos de bombardeo de arroz.

Tabla 7: Resumen de los experimentos de bombardeo de partículas de arroz para la inserción del gen de resistencia l hi r mi in n l l A 1

(continuación)

Después de que las piezas individuales de callo resistentes a la higromicina de cada experimento se transfirieron a nuevas placas, crecieron hasta un tamaño suficiente para el muestreo. Se recogió una pequeña cantidad de tejido de cada pieza individual de callo de arroz resistente a la higromicina y se extrajo ADN de estas muestras de tejido para realizar análisis de PCR y secuenciación de ADN. Para los experimentos en los que se utilizaron los plásmidos donantes de reparación 131760 o 131632, se realizó una PCR en estos extractos de ADN utilizando cebadores con las secuencias de los SEQ ID NOs:78 y 79 diseñados para amplificar una región de ADN que abarca desde el promotor ZmUbi hasta una región del genoma del arroz que queda fuera del brazo donante de reparación corriente abajo, tal y como se representa esquemáticamente en la Figura 1. Para los experimentos en los que se utilizó el plásmido donante de reparación 131633, se emplearon cebadores con las secuencias de SEQ ID NOs:102 y 103 para amplificar una región de ADN que abarca desde el terminador 35S del CaMV hasta una región del genoma del arroz que queda fuera del brazo donante de reparación corriente arriba, tal como se representa esquemáticamente en la Figura 1. Estas reacciones de PCR no producen un amplicón a partir del ADN de arroz de tipo silvestre, ni a partir del plásmido donante de reparación, y por lo tanto son indicativas de un evento de inserción en el locus CAO1 del arroz. La Tabla 8 resume el número de piezas de callo resistentes a la higromicina producidas a partir de cada experimento descrito en la Tabla 7, así como el número de piezas de callo PCR-positivas en las que se produjo un evento de inserción putativo. El número de piezas de callo utilizadas para cada experimento de bombardeo se estimó por peso a partir de un estudio de diez placas, con 159 ± 11,1 piezas de callo por placa.

Tabla 8: Resumen de los ex erimentos de bombardeo de callos de arroz

(continuación)

Para las piezas de callo PCR-positivos listados en la Tabla 8, se realizó un análisis PCR adicional para amplificar a través de las uniones entre ambos brazos de homología y el genoma del arroz. Se utilizaron cebadores con la secuencia de SEQ ID NOs:96 y 97 para amplificar la región corriente arriba en los experimentos en los que se utilizaron los plásmidos donantes de reparación 131760 o 131632. En la Figura 1 se muestra esquemáticamente la ubicación de estos sitios de unión del cebador.

La secuenciación Sanger de los amplicones PCR producidos usando los pares de cebadores descritos anteriormente para amplificar la región corriente abajo del evento de inserción mostró que la secuencia esperada estaba presente en el callo de arroz transformado, confirmando la inserción del casete del gen de la higromicina en el locus genómico esperado mediado por la rotura de doble cadena producida por la enzima Cpfl o Csm1. La secuenciación Sanger de los amplicones PCR producidos utilizando los pares de cebadores descritos anteriormente para amplificar la región corriente arriba de los eventos de inserción también mostró que la secuencia esperada estaba presente en el callo de arroz transformado, confirmando aún más la inserción del casete del gen de la higromicina en el locus genómico esperado mediada por la rotura de doble cadena producida por la enzima Cpfl o Csm1. Es importante destacar que se predijo que se produciría una deleción de cinco pares de bases (GCCTT) de la secuencia genómica del arroz en el sitio de inserción corriente arriba tras la formación de DSB mediada por Cpfl, y esta deleción se confirmó a partir de los datos de secuenciación, verificando así aún más que los eventos de inserción observados estaban mediados por la acción de Cpfl. La Figura 2A muestra un alineamiento que resume los datos de secuenciación que confirmaron los eventos de inserción en el locus CAO1 del arroz objetivo del Experimento 1 (véase la Tabla 7).

Se realizó la secuenciación de los productos de PCR utilizados para confirmar la presencia de una inserción dirigida en el locus CAO1 del arroz como objetivo en los Experimentos 5 y 7 (véase la Tabla 7). Se utilizaron cebadores con la secuencia SEQ ID NOs:104 y 105 para amplificar la región corriente abajo de estos eventos de inserción. Estos productos de PCR se secuenciaron y se observaron las secuencias esperadas para los eventos de inserción mediados por la producción de DSB por FnCpfl (Experimento 5) y MbCpf1 (Experimento 7). El casete hph se insertó en el locus CAO1 en el sitio objetivo sin cambios de base en el brazo corriente abajo.

El experimento 70 (Tabla 7) dio como resultado una inserción de una porción del terminador 35S presente en el plásmido 131633 en el sitio de inserción previsto en el locus genómico CAO1 del arroz, en lugar de una inserción del casete hph completo. El análisis de secuencias mostró que el terminador 35S contenía una región de once pares de bases que compartía diez bases con el brazo corriente abajo (Figura 4A). Parece que esta región en el terminador 35S mediaba un evento de recombinación homóloga no intencional con el brazo corriente abajo en la pieza de callo de arroz #70-15, mientras que el brazo corriente arriba en el plásmido 131633 mediaba el evento de recombinación intencional entre este plásmido y la secuencia corriente arriba del locus en el gen CAO1 del arroz dirigido por el ARN guía y la enzima Cpfl, resultando en la secuencia de inserción mostrada en la Figura 4B. La inserción resultante dio lugar a una deleción de 179 pares de bases y a una inserción de 133 pares de bases en el locus CAO1 del arroz. Aunque el evento de inserción descubierto en el experimento 70 incluía sólo una porción del terminador 35S en lugar del casete hph completo que se pretendía insertar, el evento recuperado estaba en el sitio previsto en el locus CAO1 al que se dirige la enzima Cpfl dePrevotella bryantii(SEQ ID NO: 138, codificada por SEQ ID NO:179), lo que indica que esta enzima Cpfl era eficaz para producir el DSB pretendido en el locus genómico CAO1.

El experimento 75 (Tabla 7) dio como resultado una inserción de una porción del terminador 35S presente en el plásmido 131633 en el sitio de inserción previsto en el locus genómico CAO1 del arroz, en lugar de una inserción del casete hph completo. El análisis de secuencias mostró que el terminador 35S contenía una región de doce pares de bases que compartía ocho bases con el brazo corriente abajo (Figura 4C). Parece que esta región en el terminador 35S mediaba un evento de recombinación homóloga no intencional con el brazo corriente abajo en la pieza de callo de arroz #75-46, mientras que el brazo corriente arriba en el plásmido 131633 mediaba el evento de recombinación intencional entre este plásmido y la secuencia corriente arriba del locus en el gen CAO1 del arroz dirigido por el ARN guía y la enzima Cpfl, resultando en la secuencia de inserción mostrada en la Figura 4D. La inserción resultante dio lugar a una deleción de 47 pares de bases y a una inserción de 24 pares de bases en el locus CAO1 del arroz. Aunque el evento de inserción descubierto en el experimento 75 incluía sólo una porción del terminador 35S en lugar del casete hph completo que se pretendía insertar, el evento recuperado estaba en el sitio previsto en el locus CAO1 al que se dirige la enzimaProteocatella sphenisciCpfl (SEQ ID NO: 142, codificada por SEQ ID NO: 191), lo que indica que esta enzima Cpfl era eficaz para producir la d Sb pretendida en el locus genómico CAO1.

El experimento 46 (Tabla 7) dio como resultado una inserción en el sitio de inserción previsto en el locus genómico CAO1 del arroz, mediada por la enzima Cpfl de labacteria LachnospiraceaeND2006 (SEQ ID NO: 18, codificada por SEQ ID NO: 19). El análisis por PCR de la región del sitio de inserción previsto en el locus CAO1 dio como resultado la amplificación de una banda que es diagnóstica de una inserción en la pieza de callo #46-161. Esta región genómica se sometió a un análisis de secuencia para confirmar la presencia de la inserción de ADN prevista en el locus CAO 1 del arroz. La Figura 5 muestra los resultados de este análisis de secuencia, con la inserción esperada del vector 131633 presente en el ADN del arroz en el sitio esperado. El sitio PAM mutado (TTTC>TAGC) presente en el vector 131633 también se detectó en el ADN de arroz de la pieza de callo #46-161, lo que apoya aún más la inserción mediada por HDR del inserto del vector 131633 en el locus CAO1 del arroz, mediada por la inducción de DSB sitioespecífico por la enzima Cpfl de labacteria LachnospiraceaeND2006.

El experimento 58 (Tabla 7) dio como resultado una inserción en el sitio de inserción previsto en el locus genómico CAO1 del arroz, mediada por la enzimaAnaerovibriosp. RM50 Cpfl (SEQ ID NO: 143, codificada por SEQ ID NO: 176). El análisis por PCR de la región del sitio de inserción previsto en el locus CAO1 dio como resultado la amplificación de una banda que es diagnóstica de una inserción en la pieza de callo #58-169. Esta región genómica se somete a un análisis de secuencia para confirmar la presencia de la inserción de ADN prevista en el locus CAO1 del arroz.

Ejemplo 11 - Modificación del ADN genómico mediada por Cpfl en el locus CAO1 del arroz

El callo de arroz se bombardeó como se ha descrito anteriormente con perlas de oro que estaban recubiertas con un vector cpfl y un vector ARNg. Los callos de arroz que se bombardearon como se describe para el experimento 01 (Tabla 7) se dejaron en medio osmótico durante 16-20 horas después del bombardeo, luego las piezas de callo se transfirieron a medio de selección (CIM suplementado con 50 mg/L de higromicina y 100 mg/L de timentina). Las placas se transfirieron a una incubadora y se mantuvieron a 28°C en la oscuridad para iniciar la recuperación de las células transformadas. Cada dos semanas, el callo se subcultivó en medio de selección fresco. Las piezas de callo resistentes a la higromicina empezaron a aparecer después de aproximadamente cinco a seis semanas en medio de selección. Las piezas individuales de callo resistente a la higromicina se transfirieron a nuevas placas de selección para permitir que las células se dividieran y crecieran hasta producir tejido suficiente del que tomar muestras para el análisis molecular.

Se extrajo ADN de dieciséis piezas de callos resistentes a la higromicina producidos en el Experimento 01 (Tabla 7) y se realizó PCR utilizando cebadores con las secuencias de SEQ ID NOs:100 y 101 para comprobar la presencia del casete cpfl. Esta reacción de PCR mostró que el ADN extraído de las piezas de callo numeradas como 1, 2, 4, 6, 7 y 15 producía el amplicón esperado de 853 pares de bases consistente con la inserción del casete cpfl en el genoma del arroz (Figura 2B). También se realizó una PCR con el ADN extraído de estas piezas de callos de arroz resistentes a la higromicina utilizando cebadores con las secuencias de los SEQ ID NOs:98 y 99 para amplificar una región del locus genómico CAO1 del arroz que era el objetivo del ARNg en el vector 131608. Esta reacción de PCR produjo un amplicón de 595 pares de bases cuando se utilizó ADN de arroz de tipo silvestre como molde. Tras la reacción de PCR con los SEQ ID NOs:98 y 99 como cebadores, se realizó un ensayo de endonucleasa T7 con el producto de PCR resultante para comprobar la existencia de pequeñas inserciones y/o deleciones en este locus. El a Dn de la pieza de callo número 15 mostró un patrón de bandas consistente con una pequeña inserción o deleción (Figura 2C). Los productos de PCR obtenidos de la reacción utilizando cebadores con s Eq ID NOs:98 y 99 se clonaron en célulasE. coliutilizando el sistema pGEM® (Promega, Madison, WI) de acuerdo con las instrucciones del fabricante. Se extrajo ADN de ocho colonias individuales deE. colipara su secuenciación. Cinco de las ocho colonias mostraban la misma deleción de siete pares de bases en el lugar previsto de rotura de doble cadena mediada por Cpfl en el locus CAO1 (Figura 2D). Sin estar limitada por la teoría, una explicación probable de esta deleción es que la maquinaria de reparación del ADN de la célula de arroz produjo la deleción tras la reparación de la rotura de doble cadena causada por FnCpfl en el locus CAO1.

El experimento 01 (Tabla7)se repitió con piezas adicionales de callo de arroz para confirmar la reproducibilidad de los resultados obtenidos inicialmente. La repetición del Experimento 01 dio como resultado la identificación de otras cuatro piezas de callo que parecían ser positivos para la producción de indels según los resultados del ensayo T7EI. Se extrajo ADN de estas piezas de callos para el análisis de secuencias. Se realizó una PCR para amplificar la región del genoma del arroz que rodea el sitio objetivo en el gen CAO1 y se llevó a cabo la secuenciación de Sanger. Los resultados de la secuenciación confirmaron los resultados del ensayo T7EI. La Figura 2D muestra los datos de la secuencia resultante. Estas cuatro piezas de callo mostraron diferentes tamaños de deleción que van desde una deleción de tres pares de bases hasta una deleción de setenta y cinco pares de bases, todas ellas localizadas en el sitio esperado al que se dirige el FnCpfl (SEQ ID NO:3, codificada por SEQ ID NO:5).

Los experimentos 31 y 46 (Tabla 7) probaron la capacidad de LbCpfl (SEQ ID NO: 18, codificada por SEQ ID NO:19) para efectuar DSBs en dos localizaciones diferentes en el locus CAO1 del arroz. El experimento 31 utilizó el plásmido 132033 como fuente de ARNg, mientras que el experimento 46 utilizó el plásmido 132054 como fuente de ARNg. Tras el bombardeo de callos de arroz con los plásmidos utilizados para estos experimentos, se extrajo ADN de piezas de callos de arroz resistentes a la higromicina y se sometió a ensayos T7EI. Tras la amplificación por PCR del locus genómico CAO1 del arroz, los ensayos T7EI identificaron una pieza de callo del experimento 31 y cinco piezas de callo del experimento 46 que parecían contener indels en el sitio esperado. Los productos PCR de estas piezas de callos de arroz se analizaron mediante secuenciación Sanger para identificar la secuencia o secuencias presentes en el locus CAO1 en estas piezas de callos. La Figura 3 muestra los resultados de los análisis de secuenciación Sanger, que confirman la presencia de indels en las localizaciones esperadas en el locus CAO1 del arroz. La Figura 3A muestra los resultados del Experimento 31 y la Figura 3B muestra los resultados del Experimento 46. Como muestra la Figura 3A, la pieza de callo 31-21 mostró una deleción de cincuenta y seis pares de bases junto con una inserción de diez pares de bases. Los callos del experimento 46 (datos presentados en la Figura 3B) mostraron deleciones con tamaños que oscilaban entre tres y quince pares de bases. Cabe señalar que las piezas de callo 46-38 y 46-77 mostraban dos indels diferentes, lo que indica que se habían producido múltiples eventos de producción de indels en células independientes dentro de estas piezas de callo. Todos los indels de estos experimentos se localizaron en el sitio predicho en el locus CAO1 al que iba dirigido el ARN guía respectivo, lo que indica una producción fiel de DSBs en este sitio por parte de la enzima LbCpfl.

El experimento 80 (Tabla 7) probó la capacidad de la enzima Cpfl deMoraxella caprae(SEQ ID NO: 133, codificado por SEQ ID NO:175) para efectuar DSBs en el locus CAO1 del arroz. Tras el bombardeo de callos de arroz con los plásmidos utilizados en este experimento, se extrajo ADN de piezas de callos de arroz resistentes a la higromicina y se sometió a ensayos T7EI. Tras la amplificación por PCR del locus genómico CAO1 del arroz, los ensayos T7EI identificaron una pieza de callo del experimento que contenía un indel en el sitio esperado. Un producto PCR de este trozo de callo de arroz se analizó mediante secuenciación Sanger para identificar la secuencia presente en el locus CAO1 en este trozo de callo. La Figura 3A muestra los resultados de estos ensayos de secuenciación, con una deleción de ocho pares de bases presente en la pieza de callo #80-33 en el sitio predicho en el locus CAO1 al que se dirige el ARN guía respectivo, lo que indica una producción fiel de DSB en este sitio por la enzima Cpfl deMoraxella caprae.

El experimento 91 (Tabla 7) probó la capacidad de la enzima COE1 Cpfl de labacteria Lachnospiraceae(SEQ ID NO:125, codificada por SEQ ID NO:189) para efectuar DSBs en el locus CAO1 del arroz. Tras el bombardeo de callos de arroz con los plásmidos utilizados en este experimento, se extrajo ADN de piezas de callos de arroz resistentes a la higromicina y se sometió a ensayos T7EI. Tras la amplificación por PCR del locus genómico CAO1 del arroz, los ensayos T7EI identificaron una pieza de callo del experimento que contenía un indel en el sitio esperado. Un producto PCR de este trozo de callo de arroz se analizó mediante secuenciación Sanger para identificar la secuencia presente en el locus CAO1 en este trozo de callo. La Figura 3A muestra los resultados de estos ensayos de secuenciación, con una deleción de nueve pares de bases presente en la pieza de callo #91-4 en el sitio predicho en el locus CAO1 al que apunta el ARN guía respectivo, lo que indica una producción fiel de DSB en este sitio por la enzima COE1 Cpfl dela bacteria Lachnospiraceae.

El experimento 119 (Tabla 7) probó la capacidad de la enzima Cpflde Eubacterium coprostanoligenes(SEQ ID NO:173, codificada por SEQ ID NO:205) para efectuar DSBs en el locus CAO1 del arroz. Tras el bombardeo de callos de arroz con los plásmidos utilizados en este experimento, se extrajo ADN de piezas de callos de arroz resistentes a la higromicina y se sometió a ensayos T7EI. Tras la amplificación por PCR del locus genómico CAOI del arroz, los ensayos T7EI identificaron dos callos del experimento que contenían un indel en el sitio esperado. Un producto PCR de estos callos de arroz se analizó mediante secuenciación Sanger para identificar la secuencia presente en el locus CAO1 en estos callos. La Figura 3A muestra los resultados de estos ensayos de secuenciación, con una deleción idéntica de ocho pares de bases presente en ambas piezas de callo #119-4 y #119-11 en el sitio predicho en el locus CAO1 al que se dirige el ARN guía respectivo, lo que indica una producción fiel de DSB en este sitio por la enzima Cpfl deEubacterium coprostanoligenes.

Ejemplo 12 - Regeneración de plantas de arroz con una inserción en el locus CAO1

Los callos de arroz transformados con un casete hph dirigido al locus CAO1 por un DSB mediado por FnCpf1 en el Experimento 1 (véanse las Tablas 7 y 8) se cultivaron en medio de cultivo tisular para producir brotes. Estos brotes se transfirieron posteriormente a un medio de enraizamiento, y las plantas enraizadas se transfirieron al suelo para su cultivo en invernadero. Las plantas enraizadas parecían fenotípicamente normales en el suelo. Se extrajo ADN de las plantas enraizadas para su análisis mediante p Cr . La amplificación por PCR de los brazos ascendente y descendente confirmó que el casete hph estaba presente en el locus genómico CAO1 del arroz.

Las plantas de arroz de la generación TO generadas en el Experimento 1 con la inserción del casete hph en el locus CAO1 se cultivaron y autopolinizaron para producir semillas de la generación T1. Esta semilla se plantó y las plantas resultantes de la generación T1 se genotiparon para identificar plantas homocigóticas, hemicigóticas y nulas. Las plantas T1 segregaron como se esperaba, con aproximadamente 25% de plantas T1 hemicigóticas para la inserción hph, 25% de segregantes nulos y 50% de heterocigóticos. Se observaron fenotípicamente plantas homocigóticas, con el esperado fenotipo de hoja amarilla asociado a la inactivación del gen CAO1 (Lee et al. (2005) Plant Mol Biol 57:805-818).

Las plantas de la generación TO se regeneraron a partir de los callos GE0046 número 33, 40, 62 y 90, que habían mostrado resultados positivos para indels mediante ensayos T7EI y (para la pieza de callo #90) verificación de secuencia (Figura 3B). Las plantas regeneradas derivadas de las piezas de callo 46-33, 40, 62 y 90 dieron positivo para la presencia de un indel en el locus CAO1 basándose en ensayos T7EI utilizando ADN extraído del tejido de la planta regenerada. También se regeneraron plantas a partir de las piezas de callo GE0046 46-96 y 46-161, que previamente habían demostrado tener una inserción del marcador de higromicina en el locus CAO1. Todas las plantas derivadas de los callos 46-96 y 46-161 dieron positivo para la inserción, según se detectó mediante una prueba de PCR. Los datos de secuencias obtenidos del ADN extraído de dos plantas regeneradas a partir de la pieza de callo #46-90 mostraron la misma deleción de ocho pares de bases detectada en el callo (Figura 3B), lo que indica que esta deleción fue estable a lo largo del procedimiento de regeneración. Los datos de secuencias obtenidos a partir de ADN extraído de plantas derivadas de los callos #46-40 y de #46-62 mostraron deleciones de 8, 9, 10 y 11 pares de bases (datos no mostrados).

Ejemplo 13 - Identificación de una nueva clase putativa de proteínas similares a la Cpfl

[0165] El examen de los árboles filogenéticos de las proteínas putativas Cpfl (Zetsche et al. (2015) Cell 163: 759-771 y datos no mostrados), junto con análisis de secuencias de proteínas Cpfl y proteínas similares a Cpfl identificadas mediante búsquedas BLAST, descubrieron un pequeño grupo de proteínas que parecían estar relacionadas con las proteínas Cpfl, pero con secuencias significativamente alteradas en relación con las proteínas Cpfl conocidas. Como dos de estas proteínas se encuentran enSmithellasp. SCADC y enMicrogenomates,esta nueva clase putativa de proteínas se ha denominado Csm1 (CRISPR-associated proteins fromSmithellaandMicrogenomates).Al igual que las proteínas Cpfl, estas proteínas Csm1 comprenden dominios RuvCI, RuvCII y RuvCIII, pero lo importante es que las secuencias de aminoácidos de estos dominios suelen ser bastante divergentes en comparación con las que se encuentran en las secuencias de aminoácidos de las proteínas Cpfl, en particular para el dominio RuvCIII. Además, el espaciado RuvCI-RuvCII y RuvCII-RuvCIN está significativamente alterado en las proteínas Csm1 en relación con las proteínas Cpfl.

Alineación de la proteínaSmithellasp. SCADC Csm1 (SmCsm1; SEQ ID NO: 160) con proteínas Cpfl conocidas utilizando los parámetros por defecto del algoritmo BLASTP (blast.ncbi.nlm.nih.gov/Blast.cgi) mostraron muy poca identidad de secuencia aparente entre estas proteínas. Resultaba especialmente evidente que, mientras que el dominio RuvCI en la proteína SmCsm1 parecía estar presente y bien alineado con las secuencias correspondientes en las proteínas Cpfl, las regiones RuvCII y RuvCIII, bien conservadas en las proteínas Cpfl (Shmakov et al. (2016) Mol Cell 60:385-397), no parecían estar presentes inicialmente en la proteína putativa Csm1. Análisis adicionales utilizando HHPred (toolkit.tuebingen.mpg.de/hhpred; Soding et al. (2006) Nucleic Acids Res 34:W374-W378) descubrieron dominios putativos RuvCII y RuvCIII en esta proteína SmCsm1. La Tabla 9 muestra los dominios RuvCII putativos en varias proteínas Cpfl y Csm1 putativas, y una proteína C2c1 representativa, junto con los números de residuos de aminoácidos en cada listado de secuencias correspondientes a la secuencia RuvCII listada. El residuo activo putativo está subrayado para cada proteína enumerada.

T l : n i R v II l r ín fl m1

La Tabla 10 muestra los dominios RuvCIII putativos en varias proteínas Cpfl y Csm1 putativas junto con una proteína C2c1 representativa, junto con los números de residuos de aminoácidos en cada listado de secuencias correspondientes a la secuencia RuvCIII listada. El residuo activo putativo está subrayado para cada proteína enumerada.

T l 1 : n i R v III l r ín fl m1

Como muestran las Tablas 9 y 10, los dominios RuvCII y RuvCIII identificados por HHPred para las proteínas putativas Csm1 (SEQ ID NOs: 134, 147, 159, 160 y 230) son significativamente divergentes de las encontradas en las proteínas Cpfl (secuencias representativas SEQ ID NOs:6 y 18 mostradas anteriormente). Cabe destacar que el motivo ANGAY que sigue al residuo activo en el dominio RuvCIII está muy bien conservado entre las proteínas Cpfl (Shmakov et al. (2016) Mol Cell 60:385-397 y datos no mostrados), pero está ausente o alterada en la mayoría de estas proteínas Csm1. El análisis de los dominios RuvCII y RuvCIII en las proteínas Csm1, Cpfl y C2c1 (Shmakov et al. (2016) Mol Cell 60:385-397) sugiere que las proteínas Csm1 parecen ser intermedias entre las proteínas Cpfl y C2c1, ya que las secuencias RuvCII de Csm1 son similares a las que se encuentran en las proteínas Cpfl, mientras que las secuencias RuvCIII de Csm1 son similares a las que se encuentran en las proteínas C2c1. Los dominios RuvCIII de las proteínas Csm1 contienen en su mayoría un motivo DXXAA que se conserva en la secuencia de la proteína C2c1.

Aunque las proteínas Csm1 comparten cierta similitud de secuencia con las proteínas C2c1, su contexto genómico sugiere que las proteínas Csm1 funcionan de muchas maneras como las proteínas Cpfl. Concretamente, las proteínas C2c1 requieren tanto un ARNcr como un ARNtracr, siendo el ARNtracr parcialmente complementario a la secuencia del ARNcr. El locus genómico que comprende el ORF que codifica Csm1 deSmithellasp. SCADC (SEQ ID NO:238) incluye una matriz CRISPR con repeticiones directas similares a Cpfl, precedidas por un ORF Csm1, un ORF Cas4, un ORF Cas1 y un ORF Cas2. Esto concuerda con la organización genómica encontrada en los genomas que codifican CPF1 (Shmakov et al. (2017) Nat Rev Microbiol doi:10.1038/nrmicro.2016.184). Por el contrario, la organización genómica de C2c1 tiende a contener un ORF Cas1/Cas4 fusionado. Además, los loci genómicos que contienen C2c1 tienden a codificar tanto un conjunto de ARNcr como un ARNtracr con complementariedad parcial con la repetición directa del ARNcr. El examen del locus genómico SCADC deSmithellasp. que contiene el ORF que codifica Csm1 y las secuencias de ARNcr asociadas no descubrió ninguna secuencia similar al ARNtracr, lo que sugiere claramente que Csm1 no necesita un ARNtracr para producir roturas de doble cadena.

Recientemente se ha descrito una nueva clase de nucleasas denominadas proteínas CasX (Burstein et al. (2016) Nature http://dx.doi.org10.1038/nature20159). La proteína CasX deDeltaproteobactería(SEQ<i>D NO:239) se describió como una proteína de ~980 aminoácidos que se encontraba en una región genómica que incluía las regiones codificantes de las proteínas Cas1, Cas4 y Cas2, así como una región de repetición CRISPR y un ARNtracr. El informe que describe CasX demostró de forma concluyente que este ARNtracr era necesario para la función endonucleasa, en claro contraste con las proteínas Csm1 que no requieren un ARNtracr. Las alineaciones BLASTP de SmCsm1 (SEQ ID NO:160) y Deltaproteobacterial CasX (SEQ ID NO:239) mostraron una alineación muy pobre (datos no mostrados). Se utilizó el análisis HHPred de esta proteína CasX para identificar los dominios putativos RuvCI, RuvCII y RuvCIII y sus respectivos residuos del sitio activo.

Además de las secuencias de aminoácidos alteradas de los dominios putativos RuvCII y RuvCIII en las proteínas Csm1 en relación con las proteínas Cpfl, la organización de la proteína está significativamente alterada de tal manera que el espaciado entre estos dominios es significativamente diferente entre las proteínas Csm1 y Cpfl. La Tabla 11 muestra una comparación del espaciado entre los residuos activos en subdominios RuvC en proteínas Cpfl conocidas (AsCpf1 y LbCpfl; SEQ ID NOs:6 y 18) en comparación con el espaciado en estas proteínas putativas Csm1 (SEQ ID NOs: 134, 147, 159, 160 y 230), la proteína CasX de Deltaproteobacteria (SEQ ID NO:239) y una proteína C2c1 representativa (SEQ ID NO:237). Los datos de la Tabla 11 muestran claramente que las proteínas Cpfl, CasX, C2c1 y Csm1 tienen un espaciado de dominios RuvC característico, siendo el espaciado RuvCI-RuvCII de CasX parecido al de Cpfl y el espaciado RuvCII-RuvCIII parecido al de Csm1/C2c1. El espaciado de los dominios RuvCI, RuvCII y RuvCIII en las proteínas C2c1 y Csm1 es similar, pero las secuencias divergentes de RuvCIII y la falta de un ARNtracr en los sistemas Csm1 apoyan la clasificación de las nucleasas Csm1 como separadas de las nucleasas C2c1.

Tabla 11: C^ om aración del es aciado entre subdominios de RuvC

Junto con las secuencias de aminoácidos RuvCII y RuvCIII divergentes y el espaciado alterado de estos dominios en las proteínas Csm1 en relación con las proteínas Cpfl, cabe señalar que, en muchos casos, los análisis HHPred no encontraron ninguna secuencia Csm1 correspondiente a los residuos de aminoácidos correspondientes a D1225 en FnCpfl (SEQ ID NO:3) (D1234 en AsCpfl (SEQ ID NO:6) y D1148 en LbCpfl (SEQ ID NO: 18)). El análisis de la mutación del residuo D1225 de FnCpfl demostró que la mutación de este residuo reducía de forma muy significativa la actividad catalítica de esta nucleasa (Zetsche et al. (2015) Cell 163: 759-771), lo que sugiere que la función enzimática de este residuo es muy importante para las enzimas Cpfl.

Además de la secuencia de aminoácidos alterada de los dominios RuvC putativos en las proteínas Csm1 en relación con las proteínas Cpfl, los análisis HHPred con proteínas Csm1 no muestran coincidencias con proteínas Cpfl en su N-terminal, en contraste con los análisis HHPred basados en proteínas Cpfl conocidas. Un análisis HHPred con la secuencia de aminoácidos FnCpfl (SEQ ID NO:3) dio como resultado sólo dos coincidencias, con AsCpf1 (SEQ ID NO:6) y LbCpfl (SEQ ID NO: 18) con un 100% de probabilidad y cubriendo la totalidad de la secuencia de aminoácidos del FnCpfl. Por el contrario, un análisis HHPred con SmCsm1 (SEQ ID NO: 160) sólo encuentra coincidencias con proteínas Cpfl que cubren las regiones de los aminoácidos 391-1017 y 1003-1064 en SmCsm1. Los aminoácidos 1003-1030 coinciden con diversas proteínas, entre ellas una probable proteína de biosíntesis de lisina, una proteína transportadora de aminoácidos, un factor de iniciación de la transcripción, proteínas ribosómicas 50S y 30S y ARN polimerasas dirigidas por ADN. No se han encontrado coincidencias para los primeros 390 aminoácidos de Csm1 en este análisis HHPred. Análisis HHPred similares con proteínas Csm1 adicionales (SEQ ID NOs: 134, 147, 159, 160 y 230) tampoco encontraron ninguna coincidencia con las porciones N-terminales de estas proteínas Csm1, lo que respalda aún más la conclusión de que estas proteínas comparten cierta similitud con las proteínas Cpfl, pero no son proteínas Cpflpropiamentedichas.

Ejemplo 14 - Caracterización funcional de Csm1

Dada la naturaleza divergente de las proteínas Csm1 con respecto a las proteínas Cpfl, intentamos confirmar que estas proteínas eran capaces de producir DSBsin vivo.Aunque las secuencias de aminoácidos de las proteínas Csm1 son bastante divergentes en relación con las proteínas Cpfl, los análisis genómicos de los organismos que son la fuente de estas proteínas Csm1 descubrieron arreglos CRISPR (datos no mostrados), lo que sugiere que estas proteínas podrían de hecho ser funcionales.

El experimento 81 (Tabla 7) probó la capacidad de una enzimaSmithellasp. SCADC Csm1 (SEQ ID NO:160, codificada por SEQ ID NO:185) para efectuar DSBs en el locus CAO1 del arroz. Tras el bombardeo de callos de arroz con los plásmidos utilizados en este experimento, se extrajo ADN de piezas de callos de arroz resistentes a la higromicina y se sometió a ensayos T7EI. Tras la amplificación por PCR del locus genómico CAO1 del arroz, los ensayos T7E<i>identificaron tres piezas de callos del experimento que contenían un indel en el sitio esperado. Los productos PCR de estas piezas de callos de arroz se analizaron mediante secuenciación Sanger para identificar la secuencia presente en el locus CAO1 en estos callos. La Figura 3A muestra los resultados de estos ensayos de secuenciación, con una deleción de ocho pares de bases presente en la pieza de callo #81-46, una deleción idéntica de ocho pares de bases presente en la pieza de callo #81-30, y una deleción de doce pares de bases presente en la pieza de callo #81-9 en el sitio predicho en el locus CAO1 al que se dirige el ARN guía respectivo, lo que indica una producción fiel de DSB en este sitio por la enzimaSmithellasp. SCADC Csm1.

El experimento 93 (Tabla 7) probó la capacidad de una enzima Csm1 deSulfuricurvumsp. (SEQ ID NO: 147, codificada por SEQ ID NO: 186) para efectuar DSBs en el locus CAO1 del arroz. Tras el bombardeo de callos de arroz con los plásmidos utilizados en este experimento, se extrajo ADN de piezas de callos de arroz resistentes a la higromicina y se sometió a ensayos T7EI. Tras la amplificación por PCR del locus genómico CAO1 del arroz, los ensayos T7EI identificaron una pieza de callo del experimento que contenía un indel en el sitio esperado. Se analizó un producto PCR de la pieza de callo de arroz #93-47 mediante secuenciación Sanger para identificar la secuencia presente en el locus CAO1 en esta pieza de callo. La Figura 3A muestra los resultados de estos ensayos de secuenciación, con una deleción de cuarenta y dos pares de bases presente en la pieza de callo #93-47 en el sitio predicho en el locus CAO1 al que se dirige el ARN guía respectivo, lo que indica una producción fiel de DSB en este sitio por la enzima Csm1 deSulfuricurvumsp.

El experimento 97 (Tabla 7) probó la capacidad de una enzima Csm1de la bacteria Microgenomates (Roizmanbacteria) (s Eq ID NO:134, codificada por SEQ ID NO:193) para efectuar DSBs en el locus CAO1 del arroz. Tras el bombardeo de callos de arroz con los plásmidos utilizados en este experimento, se extrajo ADN de piezas de callos de arroz resistentes a la higromicina y se sometió a ensayos T7EI. Tras la amplificación por PCR del locus genómico CAO1 del arroz, los ensayos T7EI identificaron tres piezas de callos del experimento que contenían un indel en el sitio esperado. Las piezas de callo #97-112, 97-130 y 97-141 mostraron un patrón de bandas en el análisis del experimento T7EI consistente con la producción fiel de DSB en este sitio por la enzima Csm1de la bacteria Microgenomates (Roizmanbacteria). El ADN extraído de las piezas de callos #97-112 y #97-141 se sometió a un análisis de secuencias (Fig. 3A). Este análisis de secuencia mostró una deleción idéntica de ocho pares de bases presente en ambos callos, lo que indica una producción fiel de DSB en este sitio por la enzima Csm1de la bacteria Microgenomates (Roizmanbacteria).

Claims

REIVINDICACIONES

1. Un procedimiento de modificación de una secuencia de nucleótidos en un sitio objetivo del genoma de una célula eucariota que comprende: introducirin vitroen dicha célula eucariota

(i) un ARN objetivo de ADN, o un polinucleótido de ADN que codifica un ARN objetivo de ADN, en el que el ARN objetivo de ADN comprende: (a) un primer segmento que comprende una secuencia de nucleótidos complementaria a una secuencia del ADN objetivo; y (b) un segundo segmento que interactúa con un polipéptido Csm1, en el que dicho ARN objetivo del ADN es un ARN guía (ARNg); y

(ii) un polipéptido Csm1, o un polinucleótido que codifica un polipéptido Csm1, en el que el polipéptido Csm1 es el polipéptido de SEQ ID NO: 160 o una variante que tenga al menos un 90% de identidad de secuencia con SEQ ID NO: 160 y tiene actividad endonucleasa Csm1,

en el que dicho polipéptido Csm1 introduce una rotura de doble cadena en o cerca de dicho sitio objetivo, y en el que dicho genoma de una célula eucariota es un genoma nuclear, plastidial o mitocondrial;

en el que se excluyen los procedimientos de modificación de la identidad genética germinal de los seres humanos.

2. Un procedimiento de modificación de una secuencia de nucleótidos en un sitio objetivo del genoma de una célula procariota que comprende: introducir en dicha célula procariota

en el que dicho polipéptido Csm1 introduce una rotura de doble cadena en o cerca de dicho sitio objetivo, y en la que dicha célula procariota no es el huésped natural de un gen que codifica dicho polipéptido Csm1.

3. El procedimiento de la reivindicación 1, en el que dicha célula eucariota es una célula vegetal.

4. El procedimiento de la reivindicación 3, que comprende, además: cultivar la planta en condiciones en las que el polipéptido Csm1 se expresa y escinde la secuencia nucleotídica en el sitio objetivo para producir una secuencia nucleotídica modificada; y seleccionar una planta que comprenda dicha secuencia nucleotídica modificada.

5. El procedimiento de la reivindicación 1 o 2, en el que dicha secuencia de nucleótidos modificada comprende la inserción de ADN heterólogo en el genoma de la célula, la supresión de una secuencia de nucleótidos del genoma de la célula o la mutación de al menos un nucleótido en el genoma de la célula.

6. El procedimiento de la reivindicación 1, en el que dicha secuencia de nucleótidos modificada comprende la inserción de un polinucleótido que codifica una proteína que confiere tolerancia a antibióticos o herbicidas a las células transformadas.

7. El procedimiento de la reivindicación 6, en el que dicho polinucleótido que codifica una proteína que confiere tolerancia a antibióticos o herbicidas comprende SEQ ID<n>O:76, o codifica una proteína que comprende SEQ ID NO:77.

8. Una molécula de ácido nucleico que comprende una secuencia polinucleotídica que codifica un polipéptido Csm1, en la que dicha secuencia polinucleotídica comparte al menos un 90% de identidad con SEQ ID NO: 185 y codifica un polipéptido que tiene actividad endonucleasa Csm1, o en el que dicha secuencia polinucleotídica codifica un polipéptido Csm1 que comprende la secuencia establecida en SEQ ID NO: 160 o comparte al menos 90% de identidad de secuencia con SEQ ID NO: 160 y tiene actividad endonucleasa Csm1, en la que dicho polipéptido Csm1 puede introducir una rotura de doble cadena en o cerca de un sitio objetivo en una secuencia de ADN genómico, y en la que dicha secuencia polinucleotídica que codifica un polipéptido Csm1 está operablemente unida a un promotor que es heterólogo a la secuencia polinucleotídica que codifica un polipéptido Cpfl o Csm1.

9. Una proteína de fusión codificada por una molécula de ácido nucleico que comprende

(i) una secuencia que comparta al menos 90% de identidad de secuencia con SEQ ID NO: 185 y codifica un polipéptido que tiene actividad de endonucleasa Csm1; y

(ii) una molécula de ácido nucleico que codifica un dominio efector que, en el que dicho dominio efector se selecciona del grupo que consiste en un dominio de escisión, un dominio de modificación epigenética, un dominio de activación transcripcional y un dominio represor transcripcional,

en el que dicho polipéptido puede introducir una rotura de doble cadena en o cerca de un sitio objetivo en una secuencia de ADN genómico.

10. El ácido nucleico de la reivindicación 8, en el que dicha secuencia polinucleotídica codifica un polipéptido Csm1 que comprende una o más mutaciones en una o más posiciones correspondientes a las posiciones 701 o 922 de SmCsm1 (SEQ ID NO: 160) cuando se alinea para obtener la máxima identidad.

11. Una célula vegetal, eucariota o procariota que comprende la molécula de ácido nucleico de la reivindicación 8.

12. Una célula vegetal, eucariota o procariota que comprende la proteína de fusión de la reivindicación 9.

13. Una planta, o una semilla de la misma, que comprende la molécula de ácido nucleico de la reivindicación 8 o que comprende la proteína o polipéptido de fusión de la reivindicación 9.

14. La molécula de ácido nucleico de la reivindicación 8, en la que dicha secuencia polinucleotídica que codifica un polipéptido Csm1 está optimizada en codones para su expresión en una célula vegetal.

15. El procedimiento de la reivindicación 3, en el que dicho polinucleótido que codifica un polipéptido Csm1 está optimizado en codones para su expresión en una célula vegetal.