ES2892625T3

ES2892625T3 - Plataforma de modificación génica dirigida independiente de nucleasas y usos de la misma

Info

Publication number: ES2892625T3
Application number: ES16825229T
Authority: ES
Inventors: Shengkan Jin; Juan-Carlos Collantes
Original assignee: Rutgers State University of New Jersey
Current assignee: Rutgers State University of New Jersey
Priority date: 2015-07-15
Filing date: 2016-07-15
Publication date: 2022-02-04
Anticipated expiration: 2036-07-15
Also published as: DK3322804T3; US20220267806A1; JP2018520686A; CA2992580C; US20180327784A1; US11479793B2; EP3322804B1; CN108291218B; JP2022095633A; CN108291218A; US12188043B2; WO2017011721A1; JP7044373B2; US20250101464A1; CA3168241A1; US20250171808A1; CA2992580A1; EP3322804A1; JP7364268B2; EP3957731A1

Abstract

Un sistema que comprende: (i) una proteína de direccionamiento a una secuencia, o un polinucleótido que codifica la misma, (ii) un armazón de ARN o un polinucleótido de ADN que codifica el mismo, que comprenden (a) un motivo de direccionamiento a un ácido nucleico que comprende una secuencia de ARN guía que es complementaria de la secuencia de un ácido nucleico objetivo, (b) un motivo CRISPR capaz de unirse a la proteína de direccionamiento a la secuencia y (c) un motivo de ARN de reclutamiento, y (iii) una proteína de fusión efectora no nucleasa o un polinucleótido que codifica la misma, que comprenden (a) un dominio de unión al ARN capaz de unirse al motivo de ARN de reclutamiento, (b) un conector, y (c) un dominio efector que tiene una actividad enzimática para la modificación del ADN/ARN.

Description

DESCRIPCIÓN

Plataforma de modificación génica dirigida independiente de nucleasas y usos de la misma

Campo de la invención

Esta invención se refiere a un sistema para la modificación dirigida de genes y a los usos relacionados.

Antecedentes de la invención

La modificación génica dirigida es una poderosa herramienta para la manipulación genética de células eucariotas, embriones y animales. Con ello se pueden eliminar, inactivar o modificar localizaciones genómicas deseadas y/o secuencias cromosómicas específicas. Varios métodos actuales se basan en el uso de enzimas nucleasas genomodificadas, tales como nucleasas con dedos de cinc (ZFN) y nucleasas efectoras similares a activadores de la transcripción (TALEN). Estas nucleasas quiméricas contienen módulos de unión al ADN programables y específicos para cada secuencia, unidos a un dominio de escisión del ADN no específico. Dado que cada nuevo objetivo genómico requiere el diseño de una nueva ZFN o TALEN que comprenda un novedoso módulo de unión al ADN específico de la secuencia, estas nucleasas diseñadas a medida tienden a ser costosas y a requerir mucho tiempo para su preparación. Además, las especificidades de las ZFN y las TALENS son tales que pueden participar en escisiones colaterales. Una tecnología de modificación del genoma desarrollada recientemente utiliza la proteína 9 (Cas9) una endonucleasa de ADN guiada por ARN, asociada a agrupamientos bacterianos de repeticiones palindrómicas cortas en intervalos regulares (CRISPR), para inducir una ruptura específica de la doble cadena (DSB) en los lugares objetivo del ADN. El complejo ARN-Cas9 identifica y se empareja con las bases de su secuencia objetivo de ADN análoga, lo que da como resultado la escisión del objetivo para formar una DSB.

Sin embargo, un gran problema sin resolver es cómo corregir las mutaciones genéticas en las células somáticas. Actualmente los efectores frecuentes de las tecnologías existentes son las nucleasas, que dan lugar a una DSB del ADN, que a su vez desencadena la activación de vías celulares tales como la recombinación homóloga y la unión de extremos no homólogos. El proceso tiene varios inconvenientes importantes. En primer lugar, debido a la naturaleza imprevisible de los productos finales por la unión de los extremos, la DSB da lugar a mutaciones tanto dentro del marco como de desplazamiento del marco de una manera estocástica e impredecible, lo que limita su uso para una aplicación clínica directa. En segundo lugar, las DSB tienen el potencial de causar eventos mutágenos no locales, tales como una translocación cromosómica, que es un resultado indeseable del procedimiento. In vivo, estos cambios podrían ser potencialmente perjudiciales. En tercer lugar, la reparación o la corrección requiere habitualmente una recombinación homóloga mediada por la DSB, cuya actividad es baja o incluso está ausente en la mayoría de los tejidos/células somáticas, donde la terapéutica es lo más importante.

Por lo tanto, las tecnologías actuales basadas en nucleasas tienen una aplicabilidad limitada para la modificación génica y existe una necesidad de una tecnología de modificación génica dirigida que no dependa de la actividad de las nucleasas que provocan la ruptura de la doble cadena.

Sumario de la invención

Esta invención aborda la necesidad mencionada anteriormente proporcionando un sistema de modificación génica dirigida y los usos relacionados.

Por consiguiente, un aspecto de la invención proporciona un sistema que comprende: (i) una proteína de direccionamiento a una secuencia o un polinucleótido que codifica la misma, (ii) un armazón de ARN, o un polinucleótido de ADN que codifique el mismo, y (iii) una proteína de fusión efectora no nucleasa, o un polinucleótido que codifique la misma, en donde el armazón de ARN comprende (a) un motivo de direccionamiento a un ácido nucleico que comprende una secuencia de ARN guía que es complementaria de la secuencia de un ácido nucleico objetivo, (b) un motivo CRISPR capaz de unirse a la proteína de direccionamiento a la secuencia, y (c) un motivo de a Rn de reclutamiento; y en donde la proteína de fusión efectora no nucleasa comprende (a) un dominio de unión al ARN capaz de unirse al motivo de ARN de reclutamiento, (b) una secuencia conectora, y (c) un dominio efector que tiene una actividad enzimática de modificación de ADN/ARN.

Para el sistema anterior, la proteína de direccionamiento a la secuencia puede ser una proteína CRISPR. Preferentemente, la proteína de direccionamiento a la secuencia no tiene actividad de nucleasa. Algunos ejemplos de la proteína de direccionamiento a la secuencia incluyen dCas9 de una especie seleccionada del grupo que consiste en Streptococcus pyogenes, Streptococcus agalactiae, Staphylococcus aureus, Streptococcus thermophilus, Streptococcus thermophilus, Neisseria meningitidis y Treponema denticola.

En el armazón de ARN mencionado anteriormente, el motivo de ARN de reclutamiento y el dominio de unión al ARN pueden ser un par seleccionado del grupo que consiste en (1) un motivo de unión a Ku de la telomerasa y la proteína Ku o una sección de unión al ARN de la misma, (2) un motivo de unión a la telomerasa Sm7 y la proteína Sm7 o una sección de unión al ARN de la misma, (3) una horquilla operadora del fago MS2 y una proteína de la cubierta MS2 (MCP) o una sección de unión al ARN de las mismas, (4) una horquilla operadora del fago PP7 y una proteína de la cubierta PP7 (PCP) o una sección de unión al ARN de las mismas, (5) una horquilla Com del fago SfMu y una proteína de unión al ARN Com o una sección de unión al ARN de las mismas, y (6) un aptámero de ARN no natural y el correspondiente ligando del aptámero o una sección de unión al ARN de los mismos.

En la anteriormente mencionada proteína de fusión de efectora no nucleasa, la secuencia conectora puede tener de 0 a 100 (por ejemplo, 1-100, 5-80, 10-50 y 20-30) restos de aminoácidos de longitud. La actividad enzimática puede ser actividad de desaminación, actividad metiltransferasa, actividad desmetilasa, actividad reparadora del ADN, actividad lesiva del ADN, actividad dismutasa, actividad de alquilación, actividad de depurinación, actividad de oxidación, actividad de formación de dímeros de pirimidina, actividad integrasa, actividad transposasa, actividad recombinasa, actividad polimerasa, actividad ligasa, actividad helicasa, actividad fotoliasa o actividad glicosilasa. La actividad enzimática puede ser una actividad de desaminación (por ejemplo, una actividad de desaminación de citosina o una actividad de desaminación de adenosina), actividad metiltransferasa o actividad desmetilasa. El dominio de unión al ARN no es Cas9 ni su equivalente funcional ni su dominio de unión al ARN.

También se proporciona un ácido nucleico aislado que codifica uno o más de los componentes (i)-(iii) del sistema descrito anteriormente, un vector de expresión que comprende el ácido nucleico o una célula hospedadora que comprende el ácido nucleico.

En un segundo aspecto, la invención proporciona un método modificación específica de sitio de un ADN objetivo, que comprende poner en contacto el ácido nucleico objetivo con los componentes (i)-(iii) del sistema descrito anteriormente. El ácido nucleico objetivo puede estar en una célula. El ácido nucleico objetivo puede ser un ARN, un ADN extracromosómico o un ADN genómico en un cromosoma. La célula puede seleccionarse entre el grupo que consiste en: una célula de arquea, una célula bacteriana, una célula eucariota, un organismo unicelular eucariota, una célula somática, una célula germinativa no humana, una célula madre, una célula vegetal, una célula de alga, una célula animal, una célula de invertebrado, una célula de vertebrado, una célula de pez, una célula de rana, una célula de ave, una célula de mamífero, una célula de cerdo, una célula de vaca, una célula de cabra, una célula de oveja, una célula de roedor, una célula de rata, una célula de ratón, una célula de un primate no humano y una célula de un ser humano.

La célula puede estar en o derivar de un sujeto humano o no humano. El sujeto humano o no humano tiene una mutación genética de un gen. El sujeto puede tener un trastorno causado por la mutación genética o está en riesgo de tener el trastorno. En ese caso, la modificación específica de sitio corrige la mutación genética o inactiva la expresión del gen. El sujeto puede tener un patógeno o está en riesgo de exponerse al patógeno, y la modificación específica de sitio inactiva un gen del patógeno.

La invención proporciona además un kit que contiene el sistema descrito anteriormente o uno o más componentes del mismo. El sistema puede contener además uno o más componentes seleccionados entre el grupo que consiste en un reactivo para reconstitución y/o dilución y un reactivo para introducir el ácido nucleico o el polipéptido en una célula hospedadora.

Los detalles de una o más realizaciones de la invención se exponen en la descripción, a continuación. Otras características, objetos y ventajas de la invención serán evidentes a partir de la descripción y de las reivindicaciones.

Breve descripción de los dibujos

Las FIG. 1A, 1B, 1C, 1D y 1E son un conjunto de ilustraciones esquemáticas de una plataforma ilustrativa de CasRcure o CRC independiente de nucleasas para la modificación genética dirigida in vivo. FIG. 1A. Componentes de la plataforma, de izquierda a derecha: (1) una secuencia de direccionamiento al componente dCas9, (2) un armazón de ARN que contiene un motivo de ARN guía (para el direccionamiento de la secuencia), un motivo CRISPR (para la unión de dCas9) y un motivo de ARN de reclutamiento (para el reclutamiento de la fusión de la proteína efectora-de unión al ARN), y (3) una proteína de fusión del dominio efector-de unión al ARN. El sistema puede programarse para su direccionamiento a nucleótidos específicos en moléculas de ADN o ARN (derecha). FIG. 1B. Si la proteína efectora funciona como un monómero, el sistema puede ser dirigido a un único sitio, anterior (izquierda) o posterior (derecha) al sitio objetivo. FIG. 1C. Si la proteína efectora requiere una dimerización para una función catalítica apropiada, el sistema puede ser multiplicado para dirigirse a secuencias anteriores y posteriores al sitio objetivo simultáneamente, permitiendo así que las proteínas efectoras dimericen (derecha). Alternativamente, el reclutamiento de la proteína efectora hacia un único sitio puede ser suficiente para aumentar su afinidad por las proteínas efectoras vecinas, promoviendo la dimerización (derecha). FIG. 1D. Ejemplos de una enzima efectora tetrámera reclutada y posicionada en el sitio objetivo, que puede lograrse mediante un direccionamiento doble (izquierda) o único (derecha). FIG. 1E. Un sistema que puede usarse para modificar ARN objetivo (por ejemplo, inactivación de retrovirus).

Las FIG. 2A, 2B, 2c , 2D, 2E, 2F y 2G muestran que el reclutamiento dirigido de la AID es capaz de introducir una conversión específica de sitio de conversión nucleótidos. FIG. 2A. Esquema de la región objetivo junto con el agrupamiento I de la RRDR del gen rpoB de E. coli (SEQ ID N.°: 23 y 24). Se muestra (arriba) la secuencia de ADN (SEQ ID N.°: 23), mostrando los PAM (en recuadro) y las posiciones mutables (flechas); (centro) los sitios de unión de los ARNg usados en estos experimentos, todos los ARNg fueron programados para dirigirse a la cadena molde (TS, -); (abajo) secuencia proteica (SEQ ID N.°: 25) mostrando los aminoácidos críticos implicados en la resistencia a la rifampicina (flechas). FIG. 2B. Las células de£. coli MG1655 se trataron con los ARNg indicados y se seleccionaron en placas que contenían rifampicina 120 pM. FIG. 2C. Frecuencia de mutación calculada a partir del panel superior B. FIG. 2D. Resultados representativos de la secuenciación del tratamiento del CRC AID con el ARNg rpoB_TS-4 (arriba, SEQ ID N.°: 26) y células sin tratar (centro, SEQ ID N.°: 27). La mutación C1592>T da como resultado un cambio S531F en la secuencia de la proteína (abajo, SEQ ID N.°: 28 y 29), una mutación conocida por inducir Rif (Petersen-Mahrt, et al., Nature 418, 99-104 (2002), Xu, M., et al., Journal of Bacteriology 187, 2783 2792, doi: 10.1128/JB.187.8.2783-2792.2005 (2005), y Zenkin, N., et al., Antimicrobial Agents and Chemotherapy 49, 1587-1590, doi: 10.1128/AAC.49.4.1587-1590.2005 (2005)). Los nucleótidos y restos de aminoácidos modificados se muestran en C y S (natural) y T y F (mutante). FIG. 2E. Distribución de las mutaciones de los tratamientos del CRC AID con ARNg rpoB_3, rpoB_TS-4 y secuencia entremezclada (SEQ ID N.°: 30-41). FIG. 2F. Los datos sugieren que el CRC desamina activamente los restos de citosina objetivo situados en la cadena no emparejada (protoespaciador), preferentemente más cerca del extremo 5'.

Las FIG. 3A y 3B muestran la modularidad del sistema CRC: la genomodificación del módulo de direccionamiento aumenta la frecuencia de mutación. FIG. 3A. El cambio del módulo de direccionamiento de dCas9 a nCas9D10A aumentó la eficiencia del sistema en términos de fracción superviviente en placas de rifampicina de 18 (CRCAID) a 43 veces (CRCaidd¹⁰a) con respecto al control cuando se dirigía con ARNg rpoB_TS-4. FIG. 3B. Distribución de las mutaciones del tratamiento con el CRCaidd¹⁰a con rpoB_TS-4 como objetivo (SEQ ID N.°: 30-32). La C1592 fue modificada en el 100 % de los clones, el 75 % mutó de C a T y el 25 % mutó de C a A.

Las FIG. 4A y 4B muestran la modularidad del sistema CRC: la genomodificación del módulo efector aumenta la frecuencia de mutación. FIG. 4A. Se ensayaron el APOBEC3G (CRCaP03Gd¹⁰a) y el APOBEC1 (CRCaP03Gd¹⁰a) como efectores junto con el sistema prototipo, CRCAID. El tratamiento con APOBEC1 aumentó la frecuencia de mutación con respecto al CRCaidd¹⁰a cuando se dirigió con el ARNg rpoB_TS-4. El CRC aP03Gd¹⁰a era menos activo que el CRCAID. FIG. 4B. Distribución de las mutaciones (en %) del tratamiento con el CRCApo1D¹⁰A con rpoB_TS-4 como objetivo (SEQ ID N.°: 30-32). Se observó una conversión C1592>T en el 100 % de los clones. Además, el 25 % de los clones analizados eran mutantes dobles, convirtiendo la C1590>T, sin cambio de aminoácido.

Las FIG. 5A y 5B muestran la modularidad del sistema CRC: El aumento en el número de armazones de reclutamiento de ARN aumenta la frecuencia de mutación. FIG. 5A. El aumento en el número de armazones de reclutamiento mientras se dirigen a la misma posición aumentó la eficiencia de mutación de 50 (rpoB_TS-4 1xMS2) a 140 (rpoB_TS-42xMS2) veces con respecto a su respectivo control de ARNg de secuencia entremezclada. FIG.

5B. Distribución de las mutaciones (en %) del tratamiento con el CRCaidd¹⁰a con rpoB_TS-4_2xMS2 como objetivo (SEQ ID N.°: 30-32). La C1592 fue modificada en el 100 % de los clones, el 62,5 % mutó de C a T y el 37,5 % mutó de C a A.

Las FIG. 6A, 6B, 6C y 6D muestran que el sistema CRC es capaz de modificar el nucleótido objetivo en el ADN extracromosómico de las células de mamíferos, restaurando la función de la proteína. FIG. 6A. Representación esquemática de las construcciones usadas en estos experimentos. (Arriba) Los genes que codifican las proteínas se clonaron bajo el control del promotor de la ubiquitina C humana (UbC) como una construcción multicistrónica para asegurar unas concentraciones estequiométricas de los dos componentes proteicos del sistema. (Abajo) Las construcciones quiméricas gRNA_MS2 se clonaron bajo el control de un promotor U6 o HI, para expresar los objetivos con 5'-G o 5'-A, respectivamente. FIG. 6B. Esquema de la región objetivo alrededor del fluoróforo deficiente nfEGFPY66C. Se muestran (arriba) los sitios de unión de los ARNg usados en estos experimentos, todos los ARNg fueron programados para dirigirse a la cadena no molde (NT, ); (centro) secuencia de ADN (SEQ ID N.°: 42 y 43), mostrando los PAM (en recuadro) y las posiciones mutables (flecha); (abajo) secuencia proteica (SEQ ID N.°: 44), mostrándose el aminoácido mutante que suprime la fluorescencia de la EGFP (flecha). FlG. 6C. Direccionamiento de nfEGFPY66C en células 293T. El tratamiento con nGFPY66CNT-1, y con menor eficacia con nfEGFPY66C_NT-2, indujo la señal de la EGFP, mientras que no se detectó ninguna señal con el ARNg de secuencia entremezclada. Además, la plataforma CRC se comparó con un sistema de modificación génica diferente (BE3), que requiere una fusión directa de la proteína citidina desaminasa con la proteína Cas9 para el reclutamiento y requiere la expresión conjunta de un inhibidor de la uracilo ADN glicosilasa (UGI) para mejorar la eficacia. BF, campo claro. FIG. 6D. Cuantificación de las células positivas para la GFP (en %) de los tratamientos con los sistemas aidCRCd¹⁰a y BE3, usando nfEGFPY66C_NT-1 como ARNg de direccionamiento.

Las FIG. 7A y 7B muestran que el sistema CRC de tratamiento puede dar lugar a una conversión de nucleótidos específica de sitio en el gen endógeno en células de mamíferos. FlG. 7A. Esquema de la región objetivo en el exón 3 del gen HPRT de hámster chino. Se muestran (arriba) la secuencia de ADN (SEQ ID N.°: 45 y 46), con los PAM (en recuadro) y la posición mutable (flecha); (centro) sitio de unión del ARNg usado en estos experimentos, el ARNg fue programado para dirigirse a la cadena molde (TS, -); (abajo) secuencia proteica (SEQ ID N.°: 47) mostrando un aminoácido crítico implicado en la inestabilidad de la proteína HPRT (flecha). FIG. 7B. Cuantificación de las células V79-4 resistentes a la 6-TG después del direccionamiento a la HPRT con el CRCaidd¹⁰a, BE3 o sin tratamiento. En comparación con las células sin tratar, la fracción superviviente en el tratamiento con el CRCaidd¹⁰a era 140 veces mayor que la de las células no tratadas, mientras que el BE3 era 40 veces mayor.

Descripción detallada de la invención

Las actuales tecnologías de modificación específica de genes se basan principalmente en la DSB del ADN inducida por nucleasas y la recombinación homóloga resultante inducida por la DSB. Como la actividad de recombinación homóloga es baja o inexistente en la mayoría de las células somáticas, estas tecnologías tienen un uso limitado para las correcciones terapéuticas de las mutaciones genéticas patológicas en los tejidos somáticos en la mayoría de las enfermedades.

Como se divulga en el presente documento, esta invención se basa, al menos en parte, en una plataforma o sistema novedoso que permite la modificación dirigida a la secuencia de ADN de un gen o un transcrito de ARN. El sistema no se basa en la actividad de las nucleasas, no genera DSB y no se basa en la recombinación homóloga mediada por la DSB. Además, este diseño del armazón de ARN de la plataforma es modular, lo que permite una forma extremadamente flexible y conveniente de dirigirse a cualquier secuencia de ADN o ARN deseable. Esencialmente, este enfoque permite guiar una enzima de modificación de ADN o ARN a prácticamente cualquier secuencia de ADN o ARN en las células somáticas, incluyendo las células madre. A través de la modificación precisa de la secuencia de ADN o ARN objetivo, la enzima puede corregir los genes mutados en trastornos genéticos, inactivar el genoma vírico en las células infectadas por virus, eliminar la expresión de una proteína causante de una enfermedad en las enfermedades neurodegenerativas o silenciar una proteína oncogénica en los cánceres. Además, este enfoque puede usarse para la terapia basada en células, modificando el genoma de una célula madre o célula progenitora ex vivo. Además de una aplicación terapéutica, el sistema puede aplicarse ampliamente a la modificación dirigida de los genomas de cualquier organismo como una poderosa herramienta de investigación.

Plataforma de modificación génica

Un aspecto de esta invención proporciona una plataforma de modificación génica, que supera las limitaciones mencionadas anteriormente de las actuales tecnologías de modificación genómica y modificación génica dependientes de nucleasas y DSB. La plataforma, que se denomina sistema CasRcure o sistema CRC, tiene tres componentes funcionales: (1) un módulo basado en CRISPR/Cas defectuoso en nucleasas, diseñado para el direccionamiento a la secuencia; (2) un módulo basado en armazones de ARN para guiar la plataforma hacia la secuencia objetivo, así como para el reclutamiento de un módulo de corrección; y (3) una enzima modificadora de ADN/ARN no nucleasa como módulo de corrección efector, tales como las citosina desaminasas (por ejemplo, la citosina desaminasa inducida por activación, AID). En conjunto, el sistema CasRcure permite el anclaje para la secuenciación específica de ADN/a Rn , un reclutamiento flexible y modular de las enzimas modificadoras del ADN/ARN efectoras a secuencias específicas y el desencadenamiento de vías celulares activas en las células somáticas para la corrección de la información genética, en particular, una mutación puntual.

La figura 1 ilustra un esquema de un sistema CasRcure ilustrativo. Más específicamente, el sistema incluye tres componentes estructurales y funcionales resumidos en la figura 1A: (1) un módulo de direccionamiento a la secuencia (por ejemplo, una proteína dCas9); (2) un armazón de ARN para el reconocimiento de la secuencia y para el reclutamiento del efector (una molécula de ARN que contiene un motivo de ARN guía, un motivo de ARN CRISPR y un motivo de ARN de reclutamiento), y (3) un efector (una enzima modificadora del ADN no nucleasa, tal como la AID, fusionada a una pequeña proteína que se une al motivo de ARN de reclutamiento). Los tres componentes podrían construirse en un único vector de expresión o en dos o tres vectores de expresión individuales. La totalidad y la combinación de los tres componentes específicos constituyen la habilitación de la plataforma tecnológica.

Como se divulga en el presente documento, hay una serie de distinciones claras entre los mecanismos de reclutamiento: sistema de reclutamiento mediado por armazones de ARN (CRC) frente a la fusión directa de Cas9 con la proteína efectora (BE3). Los resultados mostrados en los siguientes ejemplos indican que el reclutamiento mediado por el armazón de ARN es más eficiente que la fusión directa tanto en los objetivos extracromosómicos (fig. 6C y 6D) como en los genes endógenos (fig. 7B). Además, el sistema CRC no se basa en la inhibición de la UNG, una enzima de reparación del ADN, mientras que el BE3 usa un potente péptido inhibidor de la UNG (UGI). La inhibición global o local de la reparación del ADN podría dar lugar a resultados indeseables, incontrolables y potencialmente perjudiciales. También, el diseño modular del sistema CRC permite un diseño flexible de los sistemas. Los módulos son intercambiables y se pueden conseguir muchas combinaciones de módulos diferentes con facilidad. La fusión directa, por otro lado, requiere siempre un nuevo proceso de fusión para diseñar nuevos módulos. Adicionalmente, el reclutamiento mediado por el armazón de ARN probablemente facilite la oligomerización de las proteínas efectoras, mientras que la fusión directa impediría la formación de oligómeros debido al impedimento estérico.

a. Módulo de direccionamiento a la secuencia

El componente de direccionamiento a la secuencia del sistema anterior se basa en sistemas CRISPR/Cas de especies bacterianas. El sistema CRISPR-Cas original funcional bacteriano requiere tres componentes: la proteína Cas, que proporciona la actividad nucleasa, y dos especies de ARN cortos no codificantes denominados ARN CRISPR (ARNcr) y ARN trans-activo (ARNtracr), dos especies de ARN que forman el denominado ARN guía (ARNg). El CRISPR de tipo II es uno de los sistemas mejor caracterizados, y lleva a cabo una ruptura dirigida de la doble cadena de ADN en cuatro etapas secuenciales. En primer lugar, dos ARN no codificantes, un ARNpre-cr y un ARNtracr, se transcriben desde un locus CRISPR. En segundo lugar, el ARNtracr hibrida con las regiones repetidas de la molécula de ARNprecr y participa en el procesamiento de las moléculas de ARNpre-cr en moléculas de ARNcr maduro que contienen secuencias espaciadoras individuales. En tercer lugar, un complejo maduro de ARNcr:ARNtracr (es decir, el denominado ARN guía) dirige a una nucleasa Cas (tal como la Cas9) hacia el ADN objetivo a través de un emparejamiento de bases Watson-Crick entre la secuencia espadadora del ARNcr y el complemento de la secuencia protoespaciadora del ADN objetivo, que comprende un motivo adyacente al protoespaciador (PAM) de 3 nucleótidos (nt). Las secuencias PAM son esenciales para el direccionamiento de la Cas9. Finalmente, la nucleasa Cas participa en la escisión del ADN objetivo para crear una ruptura de la doble cadena dentro del sitio objetivo. En su contexto natural, el sistema CRISPR/Cas actúa como un sistema inmunitario adaptativo que protege a las bacterias de las infecciones víricas repetidas, y las secuencias PAM sirven como señales de auto/no auto-reconocimiento, y la proteína Cas9 tiene actividad nucleasa. Los sistemas CRISPR/Cas han demostrado tener un enorme potencial para la modificación génica, tanto in vitro como in vivo.

Como se divulga en el presente documento, el mecanismo de reconocimiento de la secuencia puede conseguirse de una manera similar. Es decir, un proteína Cas mutante, por ejemplo, una proteína dCas9 que contiene mutaciones en sus dominios catalíticos de nucleasa, por lo que no tiene actividad nucleasa, o una proteína nCas9 que está parcialmente mutada en uno de los dominios catalíticos, por lo que no tiene actividad nucleasa para generar una DSB, reconoce específicamente una molécula de armazón de ARN no codificante que contiene una secuencia espaciadora corta, normalmente de 20 nucleótidos de longitud, que guía a la proteína Cas hacia su secuencia de ADN o ARN objetivo. La última está flanqueada por un PAM en 3'.

En esta invención se pueden usar varias proteínas Cas. Una proteína Cas, una proteína asociada a CRISPR, o proteína CRISPR, usadas indistintamente, se refieren a una proteína de o derivada de un sistema CRISPR-Cas de tipo I, de tipo II o de tipo III, que tiene una unión al ADN guiada por ARN. Algunos ejemplos no limitantes de proteínas CRISPR/Cas adecuadas incluyen Cas3, Cas4, Cas5, Cas5e (o CasD), Cas6, Cas6e, Cas6f, Cas7, Cas8a1, Cas8a2, Cas8b, Cas8c, Cas9, Cas10, Cas10d, CasF, CasG, CasH, Csy1, Csy2, Csy3, Cse1 (o CasA), Cse2 (o CasB), Cse3 (o CasE), Cse4 (o CasC), Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csz1, Csx15, Csf1, Csf2, Csf3, Csf4 y Cu1966. Véanse, por ejemplo, los documentos WO2014144761, WO2014144592, WO2013176772, US20140273226 y US20140273233.

La proteína Cas puede derivar de un sistema CRISPR-Cas de tipo II. La proteína Cas puede ser, o derivar de, una proteína Cas9. La proteína Cas9 puede ser de Streptococcus pyogenes, Streptococcus thermophilus, Streptococcus sp., Nocardiopsis dassonvillei, Streptomyces pristinaespiralis, Streptomyces viridochromogenes, Streptomyces viridochromogenes, Streptosporangium roseum, Streptosporangium roseum, Alicydobacillus acidocaldarius, Bacillus pseudomycoides, Bacillus selenitireducens, Exiguobacterium sibiricum, Lactobacillus delbrueckii, Lactobacillus salivarius, Microscilla marina, Burkholderiales bacterium, Polaromonas naphthalenivorans, Polaromonas sp., Crocosphaera watsonii, Cyanothece sp., Microcystis aeruginosa, Synechococcus sp., Acetohalobium arabaticum, Ammonifex degensii, Caldicelulosiruptor becscii, Candidatus Desulforudis, Clostridium botulinum, Clostridium difficile, Finegoldia magna, Natranaerobius thermophilus, Pelotomaculum thermopropionicum, Acidithiobacillus caldus, Acidithiobacillus ferrooxidans, Allochromatium vinosum, Marinobacter sp., Nitrosococcus halophilus, Nitrosococcus watsoni, Pseudoalteromonas haloplanktis, Ktedonobacter racemifer, Methanohalobium evestigatum, Anabaena variabilis, Nodularia spumigena, Nostoc sp., Arthrospira maxima, Arthrospira platensis, Arthrospira sp., Lyngbya sp., Microcoleus chthonoplastes, Oscillatoria sp., Petrotoga mobilis, Thermosipho africanus o Acaryochloris marina.

En general, una proteína Cas incluye al menos un dominio de unión al ARN. El dominio de unión al ARN interactúa con el ARN guía. La proteína Cas puede ser una proteína Cas natural o una versión modificada sin actividad nucleasa. La proteína Cas puede ser modificada para aumentar la afinidad de unión al ácido nucleico y/o la especificidad, alterar una actividad enzimática y/o cambiar otra propiedad de la proteína. Por ejemplo, los dominios de nucleasa (es decir, DNasa, RNasa) de la proteína pueden ser modificados, eliminados o inactivados. Alternativamente, la proteína puede ser truncada para eliminar los dominios que no son esenciales para la función de la proteína. La proteína también puede ser truncada o modificada para optimizar la actividad del dominio efector.

La proteína Cas puede ser un mutante de una proteína Cas natural (tal como la Cas9) o un fragmento de la misma. La proteína Cas puede derivar de una proteína Cas mutante. Por ejemplo, la secuencia de aminoácidos de la proteína Cas9 puede ser modificada para alterar una o más propiedades (por ejemplo, actividad nucleasa, afinidad, estabilidad, etc.) de la proteína. Alternativamente, los dominios de la proteína Cas9 que no intervienen en el direccionamiento al ARN pueden eliminarse de la proteína, de forma que la proteína Cas9 modificada sea más pequeña que la proteína Cas9 natural. El presente sistema puede utilizar la proteína Cas9 de S. pyogenes, ya sea codificada en bacterias o con codones optimizados para su expresión en células de mamíferos

Una proteína Cas mutante se refiere a un derivado polipeptídico de la proteína natural, por ejemplo, una proteína que tiene uno o más mutaciones puntuales, inserciones, deleciones, truncamientos, una proteína de fusión o una combinación de los mismos. El mutante tiene al menos una de las actividades de unión al ADN guiada por ARN o la actividad de nucleasa guiada por ARN, o ambas. En general, la versión modificada es al menos un 50 % (por ejemplo, cualquier número entre el 50 % y el 100 %, ambos incluidos, por ejemplo, 50 %, 60 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 %, y 99 %) idéntica a la proteína natural, tal como la siguiente SEQ ID N.° 1.

Una proteína Cas (así como otros componentes proteicos descritos en el presente documento) puede obtenerse como un polipéptido recombinante. Para preparar un polipéptido recombinante, puede unirse un ácido nucleico que lo codifica a otro ácido nucleico que codifica un compañero de fusión, por ejemplo, glutatión-s-transferasa (GST), etiqueta epitópica 6x-His o proteína M13 del gen 3. El ácido nucleico de fusión resultante expresa, en células hospedadoras adecuadas, una proteína de fusión que puede aislarse por métodos conocidos en la técnica. La proteína de fusión aislada puede tratarse adicionalmente, por ejemplo, por digestión enzimática, para eliminar el compañero de fusión y obtener el polipéptido recombinante de esta invención. Alternativamente, las proteínas pueden ser sintetizadas químicamente (véase, por ejemplo, Creighton, "Proteins: Structures and Molecular Principies", W.H. Freeman & Co., NY, 1983), o producidas mediante la tecnología del ADN recombinante, como se describe en este documento. Para una orientación adicional, los expertos pueden consultar Frederick M. Ausubel et al, Current Protocols in Molecular Biology, John Wiley & Sons, 2003; y Sambrook et al., Molecular Cloning, A Laboratory Manual", Cold Spring Harbor Press, Cold Spring Harbor, NY, 2001).

La proteína Cas descrita en el presente documento puede proporcionarse en forma purificada o aislada, o puede formar parte de una composición. Preferentemente, cuando están en una composición, las proteínas en primer lugar se purifican hasta cierto punto, más preferentemente hasta un alto nivel de pureza (por ejemplo, aproximadamente un 80 %, un 90 %, un 95 % o un 99 %, o más). Las composiciones pueden ser cualquier tipo que se desee, pero normalmente son composiciones acuosas adecuadas para usar o incluir en una composición para el direccionamiento guiado por ARN. Los expertos en la materia conocen bien las diversas sustancias que pueden incluirse en dichas composiciones de reacción de nucleasas.

Como se divulga aquí, se puede usar la nucleasa inactiva Cas9 (dCas9, por ejemplo, de S. pyogenes D10A, la proteína mutante H840A, figura lA ) o la nickasa defectuosa en nucleasa Cas9 (nCas9, por ejemplo, de la proteína mutante D10A de S. pyogenes, fig. 1A y fig. 2F). La dCas9 o la nCas9 también podrían derivar de varias especies bacterianas. La tabla 1 enumera una lista no exhaustiva de ejemplos de dCas9 y sus correspondientes requisitos de PAM.

Tabla 1

Especie PAM

Streptococcus pyogenes NGG

Streptococcus agalactiae NGG

Staphylococcus aureus NNGRRT

Streptococcus thermophilus NNAGAAW

Streptococcus thermophilus NGGNG

Neisseria meningitidis NNNNGATT

Treponema denticola NAAAAC

Otros sistemas CRISPR/Cas9 de tipo II de otras especies

bacterianas

b. Armazón de ARN para el reconocimiento de secuencias y el reclutamiento de efectores:

El segundo componente de la plataforma divulgada en el presente documento es un armazón de ARN, que tiene tres subcomponentes: un motivo de ARN guía programable, un motivo de ARN CRISPR y un motivo de ARN de reclutamiento. Este armazón puede ser una molécula de ARN individual o un complejo de múltiples moléculas de ARN. Como se divulga en el presente documento, el ARN guía programable, el ARN CRISPR y la proteína Cas forman conjuntamente un módulo basado en CRISPR/Cas para el direccionamiento y el reconocimiento de secuencias, mientras que el motivo del ARN de reclutamiento a través de un par de unión ARN-proteína recluta un efector proteico, que lleva a cabo la corrección genética. Por consiguiente, este segundo componente conecta el módulo de corrección y el módulo de reconocimiento de secuencias.

ARN guía programable

Un subcomponente clave es el ARN guía programable. Por su simplicidad y eficacia, el sistema CRISPR-Cas se ha usado para realizar la modificación del genoma en células de diversos organismos. La especificidad de este sistema viene dictada por el emparejamiento de bases entre un ADN objetivo y un ARN guía diseñado a medida. Mediante la modificación y el ajuste de las propiedades de emparejamiento de bases de los ARN guía, se pueden dirigir a cualquier secuencia de interés siempre que haya una secuencia PAM en una secuencia objetivo.

Entre los subcomponentes del armazón de ARN divulgado en el presente documento, la secuencia guía proporciona la especificidad de direccionamiento. Incluye una región que es complementaria y capaz de hibridar con un sitio objetivo de interés preseleccionado. Esta secuencia guía puede comprender de aproximadamente 10 nucleótidos hasta más de aproximadamente 25 nucleótidos. Por ejemplo, la región de emparejamiento de bases entre la secuencia guía y la correspondiente secuencia del sitio objetivo puede tener una longitud de aproximadamente 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 22, 23, 24, 25 o más de 25 nucleótidos. En un ejemplo, la secuencia guía tiene aproximadamente 17-20 nucleótidos de longitud, tal como 20 nucleótidos.

Un requisito para seleccionar un ácido nucleico objetivo adecuado es que tenga un sitio/secuencia PAM en 3'. Cada secuencia objetivo y su correspondiente sitio/secuencia PAM se denominan en el presente documento sitio objetivo de Cas. El sistema CRISPR de tipo II, uno de los sistemas mejor caracterizados, necesita únicamente la proteína Cas 9 y un ARN guía complementario de una secuencia objetivo para afectar a la escisión del objetivo. El sistema CRISPR de tipo II de S. pyogenes usa sitios objetivo que tienen N12-20NGG, donde NGG representa el sitio PAM de S. pyogenes y N12-20 representa los 12-20 nucleótidos directamente en 5' del sitio PAM. Otras secuencias de sitios PAM de otras especies bacterianas son NGGNG, NNNNGATT, NNAGAA, NNAGAAW y NAAAAC. Véase, por ejemplo, el documento US 20140273233, el documento WO 2013176772, Cong etal., (2012), Science 339 (6121): 819-823, Jinek et al., (2012), Science 337 (6096): 816-821, Mali et al., (2013), Science 339 (6121): 823-826, Gasiunas et al., (2012), Proc Natl Acad Sci U S A. 109 (39): E2579-E2586, Cho et al., (2013) Nature Biotechnology 31, 230-232, Hou et al., Proc Natl Acad Sci U S A. 24 de septiembre de 2013; 110 (39): 15644-9, Mojica et al., Microbiology. Marzo de 2009; 155 (parte 3): 733-40 y www.addgene.org/CRISPR/. La cadena del ácido nucleico objetivo puede ser cualquiera de las dos cadenas de un ADN genómico de una célula hospedadora. Algunos ejemplos de dichos ADNbc genómicos incluyen, pero no se limitan necesariamente a, el cromosoma de una célula hospedadora, ADN mitocondrial y un plásmido mantenido de forma estable. Sin embargo, debe entenderse que el presente método puede llevarse a la práctica con otros ADNbc presentes en una célula hospedadora, tales como ADN plasmídico no estable, ADN vírico y ADN fagémido, siempre y cuando haya un sitio objetivo de Cas, independientemente de la naturaleza del ADNbc de la célula hospedadora. El presente método puede llevarse a la práctica también con los ARN.

Motivo CRISPR

Además de la secuencia guía descrita anteriormente, el armazón de ARN puede incluir subcomponentes adicionales activos o no activos. En un ejemplo, el armazón tiene un motivo CRISPR con actividad ARNtracr. Por ejemplo, el armazón puede ser una molécula de ARN híbrido donde el ARN guía programable descrito anteriormente está fusionado con un ARNtracr para imitar el dúplex natural ARNcr:ARNtracr. A continuación se muestra un ejemplo de ARNcr:ARNtrac híbrido, secuencia de ARNsg: 5'-(20nt guía)-GUUUAAGAGCUAUGCUGGAAACAG CAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGU GCUUUUUUU-3' (SEQ ID N.°: 4; Chen et al. Cell. 19 de diciembre de 2013; 155 (7): 1479-91). En la técnica se conocen varias secuencias de ARNtracr, y algunos ejemplos incluyen los siguientes ARNtracr y las porciones activas de los mismos. Como se utiliza en el presente documento, una porción activa de un ARNtracr conserva la capacidad de formar un complejo con una proteína Cas, tal como la Cas9 o la dCas9. Véase, por ejemplo, el documento WO2014144592. Los métodos para generar el híbrido ARNcr-ARNtracr son conocidos en la técnica. Véanse, por ejemplo, los documentos WO2014099750, US 20140179006 y US 20140273226.

GGAACCAUUCAAAAC AGCAUAGCAAGUUAAAAUAAGG CUAGUC CGUUAUCAACUUGAAAA

AGUGGCACCGAGUCGGUGC (SEQ ID No: 5) ;

AG CAUAG CAAGUUAAAAUAAG GCUAGUCC GUUAU CAACUU GAAAAAGU G G CAC C GAGU C G

GUGC (S E Q ID N o : 7 ) ;

CAAAACAG CAUAG CAAGUUAAAAUAAG GCUAGUCC GUUAU CAAC UU GAAAAAG U G G CAC C

GAGUCGGUGC ( S E Q ID N o : 8) ;

UAGC AAGUUAAAAUAAG GC U AGU C C GUUAU C AAC UU GAAAAAGU G (SEQ ID No: 9);

UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCA (SEQ ID No: 10); and UAGCAAGUUAAAAUAAGGCUAGUCCG (SEQ ID No: 11) .

UAG CAAGUUAAAAUAAG G CUAGU C C GUUAU CAACUU GAAAAAG U G (SEQ ID No: 9 ) ; UAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCA (SEQ ID No: 10); y UAGCAAGUUAAAAUAAGGCUAGUCCG (SEQ ID No: 11) .

La actividad del ARNtracr y la secuencia guía pueden ser dos moléculas de ARN individuales, que forman conjuntamente el ARN guía y el armazón relacionado. En este caso, la molécula con la actividad del ARNtracr debe ser capaz de interactuar con (normalmente por emparejamiento de bases) la molécula que tiene la secuencia guía.

Motivo del ARN de reclutamiento

El tercer subcomponente del armazón de ARN es el motivo del ARN de reclutamiento, que une el módulo de corrección y el módulo de reconocimiento de la secuencia. Esta unión es crítica para la plataforma divulgada en el presente documento.

Una forma de reclutar las enzimas efectoras/modificadoras de ADN hacia una secuencia objetivo es a través de una fusión directa de una proteína efectora con la dCas9. La fusión directa de enzimas efectoras ("módulo de corrección") con las proteínas necesarias para el reconocimiento de la secuencia (tales como la dCas9) ha tenido éxito en la activación o supresión transcripcional específica de la secuencia, pero el diseño de la fusión proteína-proteína puede suponer un impedimento espacial, lo que no es ideal para las enzimas que necesitan formar un complejo multimérico para sus actividades. De hecho, la mayoría de las enzimas modificadoras de nucleótidos (tales como AID o APOBEC3G) requieren la formación de dímeros, tetrámeros u oligómeros de orden superior, para sus actividades catalíticas de modificación del ADN. La fusión directa con la dCas9, que se ancla al ADN en una conformación definida, impediría la formación de un complejo enzimático oligomérico funcional en la ubicación adecuada.

En cambio, la plataforma divulgada en el presente documento se basa en el reclutamiento de la proteína efectora mediado por un armazón de ARN. Más específicamente, la plataforma aprovecha las ventajas de varios pares de unión a motivos de ARN/proteínas de unión al ARN. Para este fin, se diseña un armazón de ARN de forma que un motivo de ARN (por ejemplo, el motivo operador MS2), que se une específicamente a una proteína de unión al ARN (por ejemplo, la proteína de la cubierta MS2, MCP), está unido al armazón de ARNg-CRISPR (figura 1A).

Como resultado, este componente del armazón de ARN de la plataforma divulgada en el presente documento es una molécula de ARN diseñada, que contiene no solo el motivo del ARNg para el reconocimiento específico de la secuencia de ADN/ARN, el motivo de ARN CRISPR para la unión de la dCas9, sino también el motivo del ARN de reclutamiento para el reclutamiento de efectores (figura 1A). De este modo, las fusiones de proteínas efectoras-reclutadas pueden ser reclutadas al sitio objetivo a través de su capacidad de unirse al motivo del ARN de reclutamiento. Debido a la flexibilidad del reclutamiento mediado por el armazón de ARN, podría formarse con relativa facilidad un monómero funcional, así como un dímero, un tetrámero o un oligómero, cerca de la secuencia de ADN o ARN objetivo. En la figura 1 B-E se ilustran ejemplos de configuraciones. Estos pares de motivo de reclutamiento de ARN/proteína de unión podrían derivar de fuentes naturales (por ejemplo, fagos de ARN o telomerasa de levadura) o podrían ser diseñados artificialmente (por ejemplo, aptámeros de ARN y sus correspondientes ligandos de proteínas de unión). En la tabla 2 se resume una lista no exhaustiva de ejemplos de pares de motivo de ARN de reclutamiento/proteína de unión al ARN que podrían usarse en el sistema CasRcure.

Tabla 2. Ejemplos de motivos de ARN de reclutamiento que pueden usarse en esta invención, así como sus _________________dominios de emparejamiento de proteínas de unión al ARN/proteína._________________ Motivo de ARN ^{Proteína que interactúa en el}Organism _{emparejamiento*}o

Motivo de unión a la telomerasa _KuKu Levadura Motivo de unión a la telomerasa _Sm7Sm7 Levadura

Horquilla operadora del fago MS2 Proteína de la cubierta MS2 (MCP) Fago

Horquilla operadora del fago PP7 Proteína de cubierta PP7 (PCP) Fago

Horquilla Com del fago SfMu Proteína de unión al ARN Com Fago

Aptámero de ARN no natural Ligando aptámero correspondiente Diseñado artificialmente

*Las proteínas reclutadas se fusionan con las proteínas efectoras, por ejemplo, véase la tabla 3.

Las secuencias de los pares de unión anteriores se indican a continuación.

1. Motivo de unión de la telomerasa Ku / heterodímero Ku

a. Horquilla de unión Ku

5’-

TTCTTGTCGTACTTATAGATCGCTACGTTATTTCAATTTTGAAAATCTGAGTCC

TGGGAGTGCGGA-3’(SEQ ID No: 12)

b. Heterodímero Ku

MSGWESYYKTEGDEEAEEEQEENLEASGDYKYSGRDSLIFLVDASKAMFESQSED ELTPFDMSIQCIQSVYISKIISSDRDLLAVYFYGTEKDKNSYNFKNIYYLQELDNPG AKRILELDQFKGQQGQKRF QDMMGHGSD Y SL SE VLW VC ANLF SD Y QFKMSHKR IMLFTNEDNPHGNDSAKASRARTKAGDLRDTGIFLDLMHLKKPGGFDISLFYRDII SIAEDEDLRVHFEESSKLEDLLRKVRAKETRKRALSRLKLKLNKDIVISVGIYNLV QK ALKPPPIKL YRETNEP VKTKTRTFNT S T GGLLLP SDTKRS QIY GSRQIILEKEE TE ELKRFDDPGLMLMGFKPLYLLKKHHYLRPSLFVYPEESLVIGSSTLFSALLIKCLEK EVAALCRYTPRRNIPPYFYALVPQEEELDDQKIQVTPPGFQLVFLPFADDKRKMPF TEKIMATPEQYGKMKAIVEKLRFTYRSDSFENPVLQQHFRNLEALALDLMEPEQA VDLTLPKVEAMNKRLGSLVDEFKELVYPPDYNPEGKVTKRKHDNEGSGSKRPKV E Y SEEELKTHISKGTLGKFTVPMLKEACRAY GLKSGLKKQELLE ALTKHF QD> (SEQ ID No: 13)

M VRS GNK A A V VLCMD VGF TM SN SIP GIE SPFEQ AKK VITMF VQRQ VF AENKDEIA LYLFGTDGTDNPLSGGDQYQNITVHRHLMLPDFDLLEDIESKIQPGSQQADFLDAL IV SMD VIQHETIGKKFEKRHIEIF TDL S SRF SKSQLDII1HSLKKCDISERHS1HWPCRL TIGSNLSTRTAAYKSTLQERVKKTWTVVDAKTLKKEDTQKETVYCLNDDDETEVLK EDIIQGFRYGSDIVPF SKVDEEQMKYKSEGKCF S VLGFCKS SQ VQRRFFMGNQ VL K VF A ARDDE A A A V AL S SL1H ALDDLDM V AI VRY A YDKR ANPQ V GV AFPHIKHN Y ECL VY V QLPFMEDLRQ YMF S SLKN SKK YAPTE AQLNAVD ALID SMSL AKKDEKT DTLEDLFPTTKIPNPRFQRLFQCLLHRALHPREPLPPIQQHIWNMLNPPAEVTTKSQ IPLSKIKTLFPLIEAKKKDQVTAQEIFQDNHEDGPTAK (SEQ ID No: 14)

Motivo de unión de la telomerasa Sm7 / homoheptámero Sm7

a. Sitio consenso Sm (monocatenario)

5'-AATTTTTGGA-3'(SEQ ID N.°: 15)

b. Proteína monomérica similar a Sm (de arquea)

GS VID V S S QR VN V QRPLD ALGN SLN SP VIIKLKGDREFRG VLK SFDLHMNL VLND AEELEDGEVTRRLGTVLIRGDNIVYISP(SEQ ID No: 16)

Horquilla operadora del fago MS2 / proteína de la cubierta MS2

a. Horquilla operadora del fago MS2

5'-GCGCACATGAGGATCACCCATGTGC-3' (SEQ ID N.°: 17)

b. Proteína de la cubierta MS2

MASNFTQFVLVDNGGTGDVTVAPSNFANGIAEWISSNSRSQAYKVTCSVRQSSAQ NRK YTIK VE VPK GA WRS YLNMELTIPIF ATN SDCELIVK AMQ GLLKD GNPIP S AI A ANSGIY (SEQ ID No: 18)

Horquilla operadora del fago PP7 / proteína de la cubierta PP7

a. Horquilla operadora del fago PP7

5'-aTAAGGAGTTTATATGGAAACCCTTA-3' (SEQ ID N.°: 19)

b. Proteína de la cubierta PP7 (PCP)

MSKTIVLSVGEATRTLTEIQSTADRQIFEEKVGPLVGRLRLTASLRQNGAKTAYRV NLKLDQADVVDCSTSVCGELPKVRYTQVWSHDVTIVANSTEASRKSLYDLTKSL VATSQVEDLVVNLVPLGR. (SEQ ID No: 20)

Horquilla SfMu Com / proteína de unión SfMu Com

a. Horquilla SfMu Com

5'-CTGAATGCCTGCGAGCATC-3' (SEQ ID N.°: 21)

b. Proteína de unión a SfMu Com

MKSIRCKNCNKLLFKADSFDHIEIRCPRCKRHIIMLNACEHPTEKHCGKREKITHSD

ETVRY (SEQ ID No: 22)

El armazón de ARN puede ser una única molécula de ARN o un complejo de múltiples moléculas de ARN. Por ejemplo, el ARN guía, el motivo CRISPR y el motivo de ARN de reclutamiento pueden ser tres segmentos de una única y larga molécula de ARN. Alternativamente, uno, dos o tres de ellos pueden estar en moléculas individuales. En el último caso, los tres componentes pueden unirse entre sí para formar el armazón a través de un enlace o una unión covalente o no covalente, incluyendo, por ejemplo, un emparejamiento de bases Watson-Crick.

En un ejemplo, el armazón de ARN puede comprender dos moléculas de ARN individuales. La primera molécula de ARN puede comprender el ARN guía programable y una región que puede formar una estructura dúplex en tallo con una región complementaria. La segunda molécula de ARN puede comprender la región complementaria además del motivo CRISPR y el motivo de ADN de reclutamiento. A través de esta estructura dúplex en tallo, la primera y la segunda molécula de ARN forman un armazón de ARN de esta divulgación. En un ejemplo, la primera y la segunda molécula de ARN comprenden, cada una, una secuencia (de aproximadamente 6 a aproximadamente 20 nucleótidos) que se empareja con las bases de la otra secuencia. Del mismo modo, el motivo CRISPR y el motivo de ADN de reclutamiento también pueden estar en una molécula de ARN diferente y juntarse con otra estructura dúplex en tallo.

Los ARN y los armazones relacionados de esta invención pueden producirse mediante diversos métodos conocidos en la técnica, que incluyen la expresión basada en células, la transcripciónin vitro y la síntesis química. La capacidad de sintetizar químicamente ARN relativamente largos (de hasta 200 mers o más) usando la química de TC-ARN (véase, por ejemplo, la Patente de Estados Unidos 8.202.983) permite producir ARN con características especiales que superan a las que permiten los cuatro ribonucleótidos básicos (A, C, G y U).

Los complejos de armazón de ARN guía-proteína Cas pueden producirse con tecnología recombinante usando un sistema de células hospedadoras o un sistema de traducción-transcripción in vitro conocido en la técnica. Los detalles de dichos sistemas y tecnología pueden encontrarse en, por ejemplo, los documentos WO2014144761, WO2014144592, WO2013176772, US20140273226 y US20140273233. Los complejos pueden aislarse o purificarse, al menos hasta cierto punto, a partir del material celular de una célula o de un sistema de traducción-transcripción in vitro en el que se producen.

El armazón de ARN puede incluir una o más modificaciones. Dichas modificaciones pueden incluir la inclusión de al menos un nucleótido no natural o un nucleótido modificado, o análogos de los mismos. Los nucleótidos modificados pueden estar modificados en la ribosa, el fosfato y/o un resto de base. Los nucleótidos modificados pueden incluir análogos 2'-O-metilo, análogos 2'-desoxi o análogos 2'-fluoro. La cadena principal del ácido nucleico puede modificarse, por ejemplo, se puede usar una cadena principal de fosforotioato. También puede ser posible el uso de ácidos nucleicos bloqueados (LNA) o ácidos nucleicos con puente (BNA). Algunos ejemplos adicionales de bases modificadas incluyen, pero no se limitan a, 2-aminopurina, 5-bromo-uridina, pseudouridina, inosina, 7-metilguanosina. Estas modificaciones pueden aplicarse a cualquier componente del sistema CRISPR. En un ejemplo preferido, estas modificaciones se realizan en los componentes del ARN, por ejemplo, la secuencia de ARN guía.

c. Efectores: enzimas modificadoras del ADN no nucleasas

El tercer componente de la plataforma divulgada en esta invención es un efector no nucleasa. El efector no es una nucleasa y no tiene ninguna actividad nucleasa, pero puede tener la actividad de otros tipos de enzimas modificadoras del ADN. Algunos ejemplos de actividad enzimática incluyen, pero no se limitan a, actividad de desaminación, actividad metiltransferasa, actividad desmetilasa, actividad reparadora del ADN, actividad lesiva del ADN, actividad dismutasa, actividad de alquilación, actividad de depurinación, actividad de oxidación, actividad de formación de dímeros de pirimidina, actividad integrasa, actividad transposasa, actividad recombinasa, actividad polimerasa, actividad ligasa, actividad helicasa, actividad fotoliasa o actividad glicosilasa. El efector puede tener la actividad de las citosina desaminasas (por ejemplo, AID, APOBEC3G), las adenosina desaminasas (por ejemplo, ADA), las ADN metiltransferasas y las ADN desmetilasas.

Este tercer componente puede ser un conjugado o una proteína de fusión que tiene un dominio de unión al ARN y un dominio efector. Estos dos dominios pueden unirse a través de un conector.

Dominio de unión al ARN

Aunque en esta invención se pueden usar varios dominios de unión al ARN, no debe usarse el dominio de unión al ARN de una proteína Cas (tal como la Cas9) o su variante (tal como la dCas9). Como se ha mencionado anteriormente, la fusión directa con la dCas9, que se ancla al ADN en una conformación definida, impediría la formación de un complejo enzimático oligomérico funcional en la ubicación adecuada. En cambio, la presente invención aprovecha otros diversos pares de unión motivo de ARN-proteína de unión al ARN. Algunos ejemplos incluyen los indicados en la tabla 2.

De este modo, la proteína efectora puede ser reclutada al sitio objetivo a través de la capacidad del dominio de unión al ARN de unirse al motivo del ARN de reclutamiento. Debido a la flexibilidad del reclutamiento mediado por el armazón de ARN, se podría formar con relativa facilidad un monómero funcional, así como un dímero, un tetrámero o un oligómero, cerca de la secuencia del ADN o ARN objetivo.

Dominio efector

El componente efector comprende una porción de actividad, es decir, un dominio efector. El dominio efector puede comprender la porción de actividad natural de una proteína no nucleasa (por ejemplo, desaminasas). El dominio efector puede comprender una secuencia de aminoácidos modificada (por ejemplo, sustitución, deleción, inserción) de una porción de actividad natural de una proteína no nucleasa. El dominio efector tiene una actividad enzimática. Algunos ejemplos de esta actividad incluyen actividad de desaminación, actividad metiltransferasa, actividad desmetilasa, actividad reparadora del ADN, actividad lesiva del ADN, actividad dismutasa, actividad de alquilación, actividad de depurinación, actividad de oxidación, actividad de formación de dímeros de pirimidina, actividad integrasa, actividad transposasa, actividad recombinasa, actividad polimerasa, actividad ligasa, actividad helicasa, actividad fotoliasa, actividad glicosilasa, metilación del ADN, actividad de acetilación de histonas o actividad de metilación de histonas.

Conector

Los dos dominios mencionados anteriormente, así como otros divulgados en el presente documento, pueden unirse mediante conectores, tales como, aunque no de forma limitativa, modificación química, conectores peptídicos, conectores químicos, enlaces covalentes o no covalentes o fusión de proteínas, o por cualquier medio conocido por un experto en la materia. La unión puede ser permanente o reversible. Véanse, por ejemplo, las Patentes de Estados Unidos N.° 4625014, 5057301 y 5514363, las Solicitudes de Estados Unidos N.° 20150182596 y 20100063258 y WO2012142515. Pueden incluirse varios conectores para aprovechar las propiedades deseadas de cada conector y de cada dominio proteico en el conjugado. Por ejemplo, se contemplan los conectores flexibles y los conectores que aumentan la solubilidad de los conjugados para su uso solos o con otros conectores. Los conectores peptídicos pueden unirse mediante la expresión del ADN que codifica el conector en uno o más dominios proteicos del conjugado. Los conectores pueden ser conectores escindibles por ácido, fotoescindibles y sensibles al calor. Los métodos de conjugación son bien conocidos por los expertos en la materia y están abarcados para usar en la presente invención.

El dominio de unión al ARN y el dominio efector pueden estar separados por un conector peptídico. Los conectores peptídicos pueden unirse expresando el ácido nucleico que codifica en marco los dos dominios y el conector. Opcionalmente, el péptido conector puede unirse en uno o en ambos extremos amino y carboxi de los dominios. En algunos ejemplos, un conector es un conector de la región bisagra de la inmunoglobulina como se divulga en las Patente de Estados Unidos N.° 6.165.476, 5.856.456, las Solicitudes de Estados Unidos N.° 20150182596 y 2010/0063258 y la Solicitud Internacional WO2012/142515.

Otros dominios

La proteína de fusión efectora puede comprender otros dominios. La proteína de fusión efectora puede comprender al menos una señal de localización nuclear (NLS). En general, una NLS comprende un tramo de aminoácidos básicos. Las señales de localización nuclear son conocidas en la técnica (véase, por ejemplo, Lange et al., J. Biol. Chem., 2007, 282: 5101-5105). La NLS puede favorecer estar ubicada en el extremo amínico, el extremo carboxílico o en una ubicación interna de la proteína de fusión.

La proteína de fusión puede comprender al menos un dominio de penetración celular para facilitar la administración de la proteína en una célula objetivo. El dominio de penetración celular puede ser una secuencia peptídica de penetración celular. En la técnica se conocen varias secuencias peptídicas que penetran en las células, y algunos ejemplos incluyen el de la proteína TAT del VIH-1, la TLM del VHB humano, la Pep-1, la VP22 y una secuencia peptídica de poliarginina.

La proteína de fusión puede comprender al menos un dominio marcador. Algunos ejemplos no limitantes de dominios marcadores incluyen proteínas fluorescentes, etiquetas de purificación y etiquetas epitópicas. El dominio marcador puede ser una proteína fluorescente. El dominio marcador puede ser una etiqueta de purificación y/o una etiqueta epitópica. Véase, por ejemplo, el documento US 20140273233.

En un ejemplo, se usó la AID como ejemplo para ilustrar el funcionamiento del sistema. La AID es una citidina desaminasa que puede catalizar la reacción de desaminación de la citosina en el contexto del ADN o del ARN. Cuando se lleva al sitio objetivo, al AID cambia una base de C por una base de U. En las células en división, esto podría dar lugar a una mutación puntual de C a T. Alternativamente, el cambio de C a U podría activar las vías de reparación del ADN celular, principalmente la vía de reparación por escisión, que eliminará el par de bases U-G mal emparejadas y lo sustituirá por un par T-A, C-G o G-C. Como resultado, se generaría una mutación puntual en el sitio C-G objetivo. Como la vía de reparación por escisión está presente en la mayoría, si no en todas, las células somáticas, el reclutamiento de la AID hacia el sitio objetivo puede corregir un par de bases C-G por otras. En ese caso, si un par de bases C-G es una enfermedad subyacente que causa una mutación genética en tejidos/células somáticas, el enfoque descrito anteriormente puede usarse para corregir la mutación y, por lo tanto, tratar la enfermedad.

Del mismo modo, si una mutación genética subyacente causante de la enfermedad es un par de bases A-T en un sitio específico, se puede usar el mismo enfoque para reclutar una adenosina desaminasa hacia el sitio específico, donde la adenosina desaminasa puede corregir el par de bases A-T por otras. Se espera que otras enzimas efectoras generen otros tipos de cambios en el emparejamiento de bases. En la tabla 3 se detalla una lista no exhaustiva de ejemplos de enzimas modificadoras del a Dn /Ar N.

____________ Tabla 3. Ejemplos de proteínas efectoras que pueden usarse en esta invención

Tipo de enzima______________ Cambio genético_____________Proteína efectora abreviada

AID APOBEC1

APOBEC3A

APOBEC3B

Citosina desaminasa C—¡-U/T APOBEC3C

APOBEC3D

APOBEC3F

APOBEC3G

APOBEC3H

Adenosina desaminasa A—l/G ^ADA

_ADAR1

Dnmtl

ADN metil transferasa C—>Met-C Dnmt3a

Dnmt3b

Desmetilasa Met-C—>C Tet1

Nombres completos de las proteínas efectoras:

AID: desaminasa con activación inducida porcitidina, también conocida como AICDA

APOBEC1: enzima de modificación del ARNm de la apolipoproteína B, polipéptido de tipo catalítico 1.

APOBEC3A: enzima de modificación del ARNm de la apolipoproteína B, polipéptido de tipo catalítico 3A APOBEC3B: enzima de modificación del ARNm de la apolipoproteína B. polipéptido de tipo catalítico 3B APOBEC3C: enzima de modificación del ARNm de la apolipoproteína B. polipéptido de tipo catalítico 3C APOBEC3D: enzima de modificación del ARNm de la apolipoproteína B, polipéptido de tipo catalítico 3D APOBEC3F: enzima de modificación del ARNm de la apolipoproteína B, polipéptido de tipo catalítico 3F APOBEC3G: enzima de modificación del ARNm de la apolipoproteína B, polipéptido de tipo catalítico 3G APOBEC3H: enzima de modificación del ARNm de la apolipoproteína B, polipéptido de tipo catalítico 3H ADA; adenosina desaminasa

ADAR1: adenosina desaminasa que actúa sobre el ARN 1

Dnm tl: ADN (citosina-5-)-metiltransferasa 1

Dnmt3a: ADN (citosina-5-)-metiltransferasa 3 alfa

Dnmt3b: ADN (citosina-5-)-metiltransferasa 3 beta

Tet1: metilcitosina dioxiqenasa______________________________________________________________________

Los tres componentes específicos descritos anteriormente constituyen la plataforma tecnológica. Cada componente podría ser elegido de la lista de la tabla 1-3 respectivamente para lograr un objetivo terapéutico/utilidad específicos.

En un ejemplo, se construyó un sistema CasRcure utilizando (i) dCas9 de S. pyogenes como proteína de direccionamiento a la secuencia, (ii) un armazón de ARN que contiene una secuencia de ARN guía, un motivo de ARN CRISPR, y un motivo operador MS2, y (iii) una fusión de efectores que contiene una AID humana fusionada con la proteína MCP de unión al operador MS2. Las secuencias de los componentes se indican a continuación Secuencia de la proteína dCas9 de S. pyogenes (SEQ ID N.° 1)

MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAE

ATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFG

NIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSD

VDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGN

LIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAI

LLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYA

GYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELH

AILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEE

WDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFL

SGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKI

IKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWG

RLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSL

HEHIANLAGSPAIKKGILQTVKWDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRER

MKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDA

IVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEWKKMKNYWRQLLNAKLITQRKFDNL

TKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKS

KLVSDFRKDFQFYKVREINNYHHAHDAYLNAWGTALIKKYPKLESEFVYGDYKVYDVRK

MIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDF

ATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVA

YSVLWAKVEKGKSKKLKSVKELLGITIMERS SFEKNPIDFLEAKGYKEVKKDL11KLPK

YSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVE

QHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGA

PAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

(Restos subrayados: D10A, mutantes del sitio activo H840A)

Casete de expresión del armazón de ARN (S. pyogenes), que contiene una secuencia programare de 20 nucleótidos, un motivo de ARN CRISPR y un motivo operador MS2 (Se Q ID N.° 2):

(N²⁰. secuencia programable;

Subrayados: motivo de ARN CRISPR;

En negrita: motivo MS2;

En cursiva: terminador)

Fusión efectora AID-MCP (SEQ ID N.° 3):

MD SLLMNRRKFLYQFKNVRWAKGRRETYLC YVVKRRDS ATSF SLDF GYLRNKN GCH YELLFLRYISD WDLDP GRC YRYT WF T S W SPC YDC ARH V ADFLRGNPNL SLRI FTARLYFCEDRKAEPEGLRRLHRAGYOIAIMTFKDYFYCWNTFVENHERTFKAW EGLHENSVRLSROLRRILLPLYEVDDLRDAFRTLGLELKTPLGDTTHTSPPCPAPEL LGGPMASNFTOFVLVDNGGTGDVTVAPSNFANGIAEWISSNSRSOAYKVTCSVRO S S AONRK YTDC VE VPKGAWRS YLNMELTIPIF ATN SDCELIVKAMOGLLKDGNPIP SAIAANSGIY

(NH ² )-AID-conector-MCP-(COOH)

Como la proteína Cas descrita anteriormente, el efector no nucleasa también puede obtenerse como un polipéptido recombinante. En la técnica se conocen técnicas para producir polipéptidos recombinantes. Véanse, por ejemplo, Creighton, "Proteins: Structures and Molecular Principles", W.H. Freeman & Co., NY, 1983); Ausubel et al., Current Protocols in Molecular Biology, John Wiley & Sons, 2003; y Sambrook et al., Molecular Cloning, A Laboratory Manual", Cold Spring Harbor Press, Cold Spring Harbor, NY, 2001).

Los tres componentes anteriores de la plataforma/sistema divulgados en el presente documento pueden expresarse usando de uno a tres vectores de expresión. El sistema puede programarse para dirigirse a prácticamente cualquier secuencia de ADN o ARN.

Sistema de expresión

Para usar la plataforma descrita anteriormente, puede ser deseable expresar uno o más de los componentes proteicos y de ARN a partir de los ácidos nucleicos que los codifican. Esto puede realizarse de diversas formas. Por ejemplo, los ácidos nucleicos que codifican el armazón de ARN o las proteínas pueden clonarse en uno o más vectores intermedios para introducirlos en células procariotas o eucariotas para su replicación y/o transcripción. Los vectores intermedios son normalmente vectores procariotas, por ejemplo, plásmidos, o vectores lanzadera, o vectores de insecto, para el almacenamiento o la manipulación del ácido nucleico que codifica el armazón de ARN o la proteína para la producción del armazón de ARN o la proteína. Los ácidos nucleicos también pueden clonarse en uno o más vectores de expresión, para la administración a una célula vegetal, una célula animal, preferentemente una célula de mamífero o una célula humana, una célula fúngica, una célula bacteriana o una célula de protozoo. Por consiguiente, la presente invención proporciona ácidos nucleicos que codifican cualquiera de los armazones de ARN o proteínas mencionados anteriormente. Preferentemente, los ácidos nucleicos se aíslan y/o se purifican.

La presente divulgación también proporciona construcciones o vectores recombinantes que tienen secuencias que codifican uno o más de los armazones de ARN o proteínas descritos anteriormente. Algunos ejemplos de las construcciones incluyen un vector, tal como un plásmido o un vector vírico, en el que se ha insertado la secuencia de un ácido nucleico de la divulgación, en una orientación directa o inversa. La construcción puede incluir además secuencias reguladoras, incluyendo un promotor, unidas operativamente a la secuencia. Los expertos en la materia conocen un gran número de vectores y promotores adecuados, y están disponibles comercialmente. Los vectores de clonación y expresión adecuados para usar con hospedadores procariotas y eucariotas también se describen, por ejemplo, en, Sambrook et al. (2001, Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Press).

Un "vector" se refiere a una molécula de ácido nucleico capaz de transportar otro ácido nucleico al que se ha unido. El vector puede ser capaz de replicarse de forma autónoma o de integrarse en un ADN hospedador. Algunos ejemplos del vector incluyen un plásmido, un cósmido o un vector vírico. El vector incluye un ácido nucleico en una forma adecuada para la expresión del ácido nucleico en una célula hospedadora. Preferentemente, el vector incluye una o más secuencias reguladoras unidas operativamente a la secuencia de un ácido nucleico que se va a expresar. Una "secuencia reguladora" incluye promotores, potenciadores y otros elementos de control de la expresión (por ejemplo, señales de poliadenilación). Las secuencias reguladoras incluyen aquellas que dirigen la expresión constitutiva de una secuencia de nucleótidos, así como secuencias reguladoras inducibles. El diseño del vector de expresión puede depender de factores tales como la elección de la célula hospedadora que se va a transformar, transfectar o infectar, del nivel de expresión deseado de los ARN o las proteínas, y similares.

Algunos ejemplos de vectores de expresión incluyen secuencias de ADN cromosómicas, no cromosómicas y sintéticas, plásmidos bacterianos, ADN de fago, baculovirus, plásmidos de levadura, vectores derivados de combinaciones de plásmidos y ADN de fago, ADN vírico tal como del virus de la variolovacuna, de adenovirus, del virus de la viruela aviar y de la seudorrabia. Sin embargo, puede usarse cualquier otro vector, siempre que sea replicable y viable en el hospedador. La secuencia de ácido nucleico apropiada puede insertarse en el vector mediante diversos procedimientos. En general, puede insertarse la secuencia de un ácido nucleico que codifique uno de los ARN o las proteínas descritos anteriormente en un sitio o sitios de endonucleasa de restricción apropiados mediante procedimientos conocidos en la técnica. Dichos procedimientos y los procedimientos de subclonación relacionados están dentro del alcance de los expertos en la materia.

El vector puede incluir las secuencias apropiadas para amplificar la expresión. Además, el vector de expresión contiene preferentemente uno o más genes marcadores seleccionables para proporcionar un rasgo fenotípico para la selección de las células hospedadoras transformadas, tales como la dihidrofolato reductasa o la resistencia a la neomicina para los cultivos de células eucariotas, o tales como la resistencia a la tetraciclina o la ampicilina en E. coli.

Los vectores para expresar los ARN pueden incluir promotores de la ARN Pol III para dirigir la expresión de los ARN, por ejemplo, los promotores HI, U6 o 7SK. Estos promotores humanos permiten la expresión de los ARN en células de mamífero tras la transfección con el plásmido. Alternativamente, se puede usar un promotor T7, por ejemplo, para la transcripción in vitro, y el ARN puede ser transcrito in vitro y purificado.

El vector que contiene las secuencias de ácidos nucleicos apropiadas como se ha descrito anteriormente, así como una secuencia promotora o de control apropiada, se puede emplear para transformar, transfectar o infectar un hospedador apropiado para permitir que el hospedador exprese los ARN o las proteínas descritas anteriormente. Algunos ejemplos de hospedadores de expresión adecuados incluyen células bacterianas (por ejemplo, E. coli, Streptomyces, Salmonella typhimurium), células fúngicas (de levadura), células de insecto (por ejemplo, Drosophila y Spodoptera frugiperda (Sf9)), células animales (por ejemplo, CHO, COS y HEK 293), adenovirus y células vegetales. La selección de un hospedador apropiado adecuado está dentro del alcance de los expertos en la materia. La presente divulgación proporciona métodos para producir los ARN o las proteínas mencionadas anteriormente mediante la transformación, la transfección o la infección de una célula hospedadora con un vector de expresión que tiene una secuencia de nucleótidos que codifica uno de los ARN, o polipéptidos, o proteínas. A continuación, las células hospedadoras se cultivan en las condiciones adecuadas, lo que permite la expresión de los ARN o las proteínas.

Puede usarse cualquiera de los procedimientos conocidos en la técnica para introducir secuencias de nucleótidos exógenas en células hospedadoras. Algunos ejemplos incluyen el uso de una transfección con fosfato de calcio, polibreno, fusión de protoplastos, electroporación, nucleofección, liposomas, microinyección, ADN desnudo, vectores plasmídicos, vectores víricos, tanto episomal como integradora, y cualquiera de los otros métodos conocidos para introducir ADN genómico clonado, ADNc, ADN sintético u otro material genético exógeno en una célula hospedadora.

Métodos

Otro aspecto de la presente divulgación abarca un método para modificar una secuencia de ADN objetivo (por ejemplo, una secuencia cromosómica) o una secuencia de ARN objetivo en una célula, un embrión no humano o animales no humanos. El método comprende introducir en la célula o el embrión anteriormente descritos (i) una proteína de direccionamiento a la secuencia, o un polinucleótido que codifica la misma, (ii) un armazón de ARN, o un polinucleótido de ADN que codifique el mismo, y (iii) una proteína de fusión efectora no nucleasa, o un polinucleótido que codifique la misma. El armazón de ARN guía a la proteína de direccionamiento a la secuencia y a la proteína de fusión hacia un polinucleótido objetivo en un sitio objetivo, y el dominio efector de la proteína de fusión modifica la secuencia. Como se divulga en el presente documento, la proteína de direccionamiento a la secuencia, tal como una proteína cas9, está modificada de forma que se elimina la actividad endonucleasa.

La proteína efectora puede funcionar como un monómero. En ese caso, el sistema puede estar dirigido a un único sitio, ya sea anterior (izquierda) o posterior (derecha) al sitio objetivo, como se muestra en la figura 1B. La proteína efectora puede requerir una dimerización para una función catalítica apropiada. A tal efecto, el sistema puede ser multiplicado para dirigirse a secuencias anteriores y posteriores al sitio objetivo simultáneamente, permitiendo así que las proteínas efectoras dimericen (figura 1C, izquierda). Alternativamente, el reclutamiento de la proteína efectora hacia un único sitio puede ser suficiente para aumentar su afinidad por las proteínas efectoras vecinas, promoviendo la dimerización (figura 1C, derecha). Alternativamente, una enzima efectora tetrámera puede ser reclutada y posicionada en el sitio objetivo, como se muestra en la figura 1D. Esto puede conseguirse mediante una direccionamiento doble (figura 1D, izquierda) o único (figura 1D, derecha). El sistema divulgado en el presente documento puede usarse también para modificar objetivos de ARN (por ejemplo, inactivación de retrovirus). Véase la figura 1E. En ese caso, si la proteína efectora requiere el ensamblaje de un oligómero funcional, el direccionamiento único hacia una molécula de ARN podría promover la oligomerización, como en los paneles de la derecha de las figuras 1C y 1D.

El polinucleótido objetivo no tiene ninguna limitación en la secuencia, salvo que la secuencia vaya seguida inmediatamente (posteriormente o en 3') por una secuencia PAM. Algunos ejemplos de PAM incluyen, pero no se limitan a, NGG, NGGNG y NNAGAAW (en donde N se define como cualquier nucleótido y W se define como A o T). Anteriormente se han proporcionado otros ejemplos de secuencias PAM, y la persona experta será capaz de identificar secuencias PAM adicionales para usar con una proteína CRISPR dada. El sitio objetivo puede estar en la región codificante de un gen, en un intrón de un gen, en una región de control entre genes, etc. El gen puede ser un gen que codifica una proteína o un gen que codifica un ARN.

El polinucleótido objetivo puede ser cualquier polinucleótido endógeno o exógeno a la célula. Por ejemplo, el polinucleótido objetivo puede ser un polinucleótido que reside en el núcleo de la célula eucariota. El polinucleótido objetivo puede ser una secuencia que codifica un producto génico (por ejemplo, una proteína) o una secuencia no codificante (por ejemplo, un polinucleótido regulador).

Los componentes proteicos de este sistema divulgado en el presente documento pueden introducirse en la célula o en el embrión no humano como una proteína aislada. Cada proteína puede comprender al menos un dominio de penetración celular, que facilita la captación celular de la proteína. Las moléculas de ARNm o de ADN que codifican la proteína o proteínas pueden introducirse en la célula o en el embrión no humano.

En general, una secuencia de ADN que codifica la proteína está unida operativamente a una secuencia promotora que funcionará en la célula o en el embrión no humano de interés. La secuencia de ADN puede ser lineal, o la secuencia de ADN puede ser parte de un vector. La proteína puede introducirse en la célula o en el embrión no humano como un complejo de ARN-proteína que comprende la proteína y el armazón de ARN descrito anteriormente.

Alternativamente, el ADN que codifica la proteína o proteínas puede comprender además una secuencia o secuencias que codifican los componentes del armazón de ARN. En general, la secuencia de ADN que codifica la proteína y el armazón de ARN está unida operativamente a las secuencias de control del promotor apropiadas que permiten la expresión de la proteína y del armazón de ARN, respectivamente, en la célula o en el embrión no humano. La secuencia de ADN que codifica la proteína y el armazón de ARN puede comprender además una secuencia o secuencias adicionales de control de expresión, reguladora y/o de procesamiento. La secuencia de ADN que codifica la proteína y el ARN guía puede ser lineal o ser parte de un vector.

En los ejemplos en los que el ARN se introduce en la célula a través de una molécula de ADN que codifica el ARN, la secuencia codificante del ARN puede estar unida operativamente a la secuencia de control del promotor para la expresión del ARN guía en la célula eucariota. Por ejemplo, la secuencia codificante del ARN puede estar unida operativamente a una secuencia promotora que es reconocida por la ARN polimerasa III (Pol III). Algunos ejemplos de promotores de la Pol III adecuados incluyen, pero no se limitan a, promotores U6 o H1 de mamífero. Por ejemplo, la secuencia codificante del ARN puede estar unida a un promotor U6 de ratón o humano. Alternativamente, la secuencia codificante del ARN puede estar unida a un promotor HI de ratón o humano.

La molécula de ADN que codifica la proteína y/o el ARN puede ser lineal o circular. La secuencia de ADN puede ser parte de un vector. Algunos vectores adecuados incluyen vectores plasmídicos, fagémidos, cósmidos, artificiales/minicromosomas, transposomas y vectores víricos. En un ejemplo, el ADN que codifica la proteína y/o el ARN está presente en un vector plasmídico. Algunos ejemplos no limitantes de vectores plasmídicos adecuados incluyen pUC, pBR322, pET, pBluescript y variantes de los mismos. El vector puede comprender secuencias de control de la expresión adicionales (por ejemplo, secuencias potenciadoras, secuencias de Kozak, secuencias de poliadenilación, secuencias de terminación de la transcripción, etc.), secuencias de marcadores seleccionables (por ejemplo, genes de resistencia a antibióticos), orígenes de replicación, y similares.

Los componentes proteicos de este sistema de esta invención (o el ácido o ácidos nucleicos que los codifican) y los componentes de ARN (o los ADN que los codifican) pueden introducirse en una célula o en un embrión no humano por diversos medios. Normalmente, el embrión no humano es un embrión fecundado en fase unicelular de la especie de interés. La célula o el embrión no humano pueden estar transfectados. Algunos métodos de transfección adecuados incluyen transfección mediada por fosfato de calcio, nucleofección (o electroporación), transfección con un polímero catiónico (por ejemplo, DEAE-dextrano o polietilenimina), transducción vírica, transfección con virosomas, transfección con viriones, transfección con liposomas, transfección con liposomas catiónicos, transfección con inmunoliposomas, transfección lipídica no liposómica, transfección con dendrímeros, transfección por choque térmico, magnetofeccion, lipofección, administración con un cañón de genes, impalefeccion, sonoporación, transfección óptica y la captación de ácidos nucleicos potenciada por agentes propios. Los métodos de transfección son bien conocidos en la técnica (véase, por ejemplo, "Current Protocols in Molecular Biology" Ausubel et al., John Wiley & Sons, Nueva York, 2003 o "Molecular Cloning: A Laboratory Manual" Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, N.Y., (3a edición, 2001). En otros ejemplos, las moléculas pueden introducirse en la célula o en el embrión no humano mediante microinyección. Por ejemplo, las moléculas pueden inyectarse en los pronúcleos de embriones unicelulares no humanos.

Los componentes proteicos de este sistema de esta invención (o el ácido o ácidos nucleicos que los codifican) y los componentes de ARN (o los ADN que los codifican) pueden introducirse en una célula o en un embrión no humano simultánea o secuencialmente. La relación entre la proteína (o su ácido nucleico codificante) y el ARN (o los ADN que codifican el ARN), por lo general será aproximadamente estequiométrica, de manera que puedan formar un complejo de ARN-proteína. De manera similar, la relación entre dos proteínas diferentes (o ácidos nucleicos codificantes) será aproximadamente estequiométrica. Los componentes proteicos y los componentes de ARN (o la secuencia de ADN que los codifica) pueden suministrarse juntos dentro del mismo ácido nucleico o vector.

El método comprende además el mantenimiento de la célula o del embrión no humano en unas condiciones apropiadas para que el ARN guía guíe a la proteína efectora hasta el sitio objetivo en la secuencia objetivo, y el dominio efector modifique la secuencia objetivo.

En general, la célula puede mantenerse en unas condiciones apropiadas para el crecimiento y/o el mantenimiento de la célula. Las condiciones de cultivo celular adecuadas son bien conocidas en la técnica, y se describen, por ejemplo, en Current Protocols in Molecular Biology" Ausubel et al., John Wiley & Sons, Nueva York, 2003 o "Molecular Cloning: A Laboratory Manual" Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, N.Y., 3a edición, (2001), Santiago et al. (2008) PNAS 105: 5809-5814; Moehle et al. (2007) PNAS 104: 3055-3060; Urnov et al. (2005) Nature 435: 646-651; y Lombardo et al. (2007) Nat. Biotechnology 25: 1298-1306. Los expertos en la materia aprecian que los métodos de cultivo de células son conocidos en la técnica y pueden variar, y variarán, dependiendo del tipo de célula. Se puede usar una optimización de la rutina, en todos los casos, para determinar las mejores técnicas para un tipo de célula en particular.

Un embrión puede ser cultivado in vitro (por ejemplo, en un cultivo celular). Normalmente, el embrión se cultiva a una temperatura apropiada y en un medio apropiado con la relación O²/CO²necesaria para permitir la expresión de las proteínas y del armazón de ARN, si fuera necesario. Algunos ejemplos no limitantes adecuados de medios incluyen los medios M2, M16, KSOM, BMOC y HTF. Un experto apreciará que las condiciones de cultivo pueden variar, y variarán, dependiendo de la especie del embrión. Se puede usar una optimización de la rutina, en todos los casos, para determinar las mejores condiciones de cultivo para una especie de embrión en particular. En algunos casos, una línea celular puede derivar de un embrión no humano cultivado in vitro (por ejemplo, una línea de células madre embrionarias.

Alternativamente, el embrión no humano puede cultivarse in vivo transfiriendo el embrión al útero de una hembra hospedadora. En términos generales, la hembra hospedadora es de la misma especie o similar a la del embrión. Preferentemente, la hembra hospedadora está seudopreñada. Los métodos para preparar hembras hospedadoras seudopreñadas son conocidos en la técnica. Adicionalmente, los métodos para transferir un embrión a una hembra hospedadora son conocidos. El cultivo de un embrión in vivo permite que el embrión se desarrolle y pueda dar lugar al nacimiento de un animal vivo derivado del embrión.

Dicho animal no humano comprendería la secuencia cromosómica modificada en cada célula del cuerpo.

Para usar en el método son adecuadas diversas células eucariotas. Por ejemplo, la célula puede ser una célula humana, una célula de mamífero no humano, una célula de vertebrado no mamífero, una célula de invertebrado, una célula de insecto, una célula vegetal, una célula de levadura o un organismo eucariota unicelular. Para usar en el método son adecuados diversos embriones no humanos. Por ejemplo, el embrión no humano puede ser un embrión de mamífero no humano de 1, 2 o 4 células. Algunos ejemplos de embriones de mamífero no humanos, incluyendo embriones unicelulares, incluyen, sin limitación, embriones de ratón, rata, hámster, roedor, conejo, felino, canino, ovino, porcino, bovino, equino y primate. En otro ejemplo más, la célula puede ser una célula madre. Algunas células madre adecuadas incluyen, sin limitación, células madre embrionarias, células madre similares a ES, células madre fetales, células madre adultas, células madre pluripotentes, células madre pluripotentes inducidas, células madre multipotentes, células madre oligopotentes, células madre unipotentes y otras. En otro ejemplo, la célula es una célula de mamífero o el embrión no humano es un embrión de mamífero.

Utilidades y aplicaciones

Los sistemas y métodos divulgados en el presente documento tienen una amplia variedad de utilidades que incluyen la modificación (por ejemplo, inactivando y activando) de un polinucleótido objetivo en una multiplicidad de tipos celulares. Como tales, los sistemas y métodos tienen un amplio espectro de aplicaciones en, por ejemplo, investigación y terapia.

Muchas enfermedades humanas devastadoras tienen una causa común: una alteración o una mutación genética. Las mutaciones causantes de enfermedades en los pacientes se adquieren por herencia de sus padres o son causadas por factores ambientales. Estas enfermedades incluyen, pero no se limitan a, las siguientes categorías. En primer lugar, algunos trastornos genéticos están causados por mutaciones en la línea germinal. Un ejemplo es la fibrosis quística, que está causada por mutaciones en el gen CFTR heredadas de los padres. En segundo lugar, algunas enfermedades, tales como enfermedades infecciosas víricas crónicas, son causadas por factores ambientales exógenos y las alteraciones genéticas resultantes. Un ejemplo es el SIDA, que está causado por la inserción del genoma vírico del VIH humano en el genoma de los linfocitos T infectados. En tercer lugar, algunas enfermedades neurodegenerativas implican alteraciones genéticas. Un ejemplo son las enfermedades de Huntington, que está causada por la expansión del trinucleótido CAG en el gen huntingtin de los pacientes afectados. Finalmente, los cánceres están causados por varias mutaciones somáticas acumuladas en las células cancerosas. Por lo tanto, la corrección de las mutaciones genéticas causantes de la enfermedad o la corrección funcional de la secuencia, proporciona una atractiva oportunidad terapéutica para tratar estas enfermedades.

La modificación genética somática es una estrategia terapéutica atractiva para muchas enfermedades humanas. Para tener éxito en la modificación genética terapéutica, se consideran esenciales tres factores críticos: (i) cómo conseguir un reconocimiento específico de la secuencia ("módulo de reconocimiento de la secuencia"); (ii) cómo corregir las mutaciones subyacentes ("módulo de corrección"); y (iii) cómo unir entre sí el "módulo de corrección" y el "módulo de reconocimiento de la secuencia" para conseguir una corrección específica de la secuencia. Hay varias formas de conseguir cada tarea individual. Sin embargo, ninguna de las plataformas o tecnologías existentes actualmente podría conseguir una modificación genética somática óptima y práctica. Más específicamente, las actuales tecnologías de modificación específica de genes se basan principalmente en la DSB del a Dn inducida por nucleasas y la consiguiente recombinación homóloga inducida por la DSB, cuya actividad es baja o inexistente en la mayoría de las células somáticas. Por lo tanto, esas tecnologías tienen una utilidad limitada para las correcciones terapéuticas de las mutaciones genéticas patológicas en los tejidos somáticos en la mayoría de las enfermedades.

En cambio, el sistema y el método divulgados en esta invención permiten la modificación dirigida a la secuencia de ADN de un gen o un transcrito de ARN que no se basa en una actividad nucleasa. El sistema y el método no generan una DSB o no se basan en la recombinación homóloga mediada por una DSB. Además, este diseño del sistema es modular, lo que permite una forma extremadamente flexible y conveniente de dirigirse a cualquier secuencia de ADN o ARN deseable. Esencialmente, este enfoque permite guiar una enzima de modificación de ADN o ARN a prácticamente cualquier secuencia de ADN o ARN en las células somáticas, incluyendo las células madre. A través de la modificación precisa de la secuencia de ADN o ARN objetivo, la enzima puede corregir los genes mutados en los trastornos genéticos, inactivar el genoma vírico en las células infectadas, eliminar la expresión de la proteína causante de la enfermedad en las enfermedades neurodegenerativas o silenciar la proteína oncogénica en los cánceres. Por consiguiente, el sistema y el método divulgados en el presente documento pueden usarse para corregir las alteraciones genéticas subyacentes en las enfermedades, incluyendo los trastornos genéticos mencionados anteriormente, enfermedades infecciosas crónicas, enfermedades neurodegenerativas y cáncer.

Enfermedades genéticas

Se calcula que más de seis mil enfermedades genéticas están causadas por mutaciones genéticas conocidas. La corrección de las mutaciones subyacentes causantes de la enfermedad en los tejidos/órganos patológicos puede proporcionar alivio o cura de las enfermedades. Por ejemplo, la fibrosis quística afecta a 1 de cada 3.000 personas en Estados Unidos. Está causada por la herencia de un gen CFTR mutado, y el 70 % de los pacientes tienen la misma mutación, la deleción de un trinucleótido que da lugar a una deleción de fenilalanina en la posición 508 (denominada A Phe 508). La A Phe 508 conduce a la desubicación y degradación del CFTR. El sistema y el método divulgados en el presente documento pueden usarse para convertir un resto Val 509 (GTT) en Phe 509 (TTT) en los tejidos afectados (pulmón), de este modo, se corrige funcionalmente la mutación A Phe 508.

Enfermedades infecciosas crónicas

El sistema y el método divulgados en esta invención también pueden usarse para inactivar específicamente cualquier gen de un genoma vírico que esté incorporado en células/tejidos humanos. Por ejemplo, el sistema y el método divulgados en el presente documento permiten crear un codón de parada para la terminación temprana de la traducción de los genes víricos esenciales, y así remediar o curar las enfermedades infecciosas crónicas debilitantes. Por ejemplo, las terapias actuales contra el SIDA pueden reducir la carga vírica, pero no pueden eliminar totalmente el VIH latente de los linfocitos T positivos. El sistema y el método divulgados en el presente documento pueden usarse para inactivar permanentemente una o dos expresiones génicas esenciales del VIH en el genoma integrado del VIH en los linfocitos T humanos mediante la introducción de uno o dos codones de parada. Otro ejemplo es el virus de la hepatitis B (VHB). El sistema y el método divulgados en el presente documento pueden usarse para inactivar específicamente uno o dos genes esenciales del VHB, que están incorporados en el genoma humano, y silenciar el ciclo de vida del VHB.

Enfermedades neurodegenerativas

Algunas enfermedades neurodegenerativas están causadas por mutaciones de ganancia de función. Por ejemplo, SOD1G93A da lugar al desarrollo de la esclerosis lateral amiotrófica (ELA). El sistema y el método divulgados en el presente documento pueden usarse para corregir la mutación o para eliminar la expresión de la proteína mutante mediante la introducción de un codón de parada o cambiando un sitio de empalme.

Cánceres

Muchos genes (incluyendo los genes supresores tumorales, los oncogenes y los genes de reparación del ADN) contribuyen al desarrollo del cáncer. Las mutaciones en estos genes suelen dar lugar a diversos cánceres. Usando el sistema y el método divulgados en el presente documento, uno se puede dirigir específicamente a estas mutaciones y corregirlas. Como resultado, las proteínas oncogénicas causantes pueden ser anuladas funcionalmente, o su expresión puede ser eliminada introduciendo una mutación puntual en los sitios catalíticos o en los sitios de empalme.

Modificación genética de células madre

Las células madre o células progenitoras pueden ser modificadas genéticamente usando el sistema y el método divulgados en el presente documento. Algunas células adecuadas incluyen, por ejemplo, células madre (células madre adultas, células madre embrionarias, células iPS, etc.) y células progenitoras (por ejemplo, células progenitoras cardiacas, células progenitoras nerviosas, etc.). Algunas células adecuadas incluyen células madre y células progenitoras de mamífero, incluyendo, por ejemplo, células madre de roedor, células progenitoras de roedor, células madre humanas, células progenitoras humanas, etc. Algunas células hospedadoras adecuadas incluyen células hospedadoras in vitro, por ejemplo, células hospedadoras aisladas.

El presente sistema y el método divulgados en el presente documento pueden usarse para la modificación genética dirigida y precisa de tejidos ex vivo, corrigiendo los defectos genéticos subyacentes. Después de la corrección ex vivo, los tejidos podrían ser devueltos a los pacientes. Además, la tecnología puede usarse ampliamente en terapias basadas en células para corregir enfermedades genéticas.

Modificación genética en animales y plantas

El sistema y el método descritos anteriormente pueden usarse para generar un animal no humano o una planta transgénicos que tengan una o más modificaciones genéticas de interés. El animal no humano transgénico puede ser homocigótico para la modificación genética. El animal no humano transgénico puede ser heterocigótico para la modificación genética. El animal no humano transgénico puede ser un vertebrado, por ejemplo, un pez (por ejemplo, pez cebra, pez dorado, pez globo, pez cavernario, etc.), un anfibio (rana, salamandra, etc.), un ave (por ejemplo, pollo, pavo, etc.), un reptil (por ejemplo, serpiente, lagarto, etc.), un mamífero (por ejemplo, un ungulado, por ejemplo, un cerdo, una vaca, una cabra, una oveja, etc.; un lagomorfo (por ejemplo, un conejo); un roedor (por ejemplo, una rata, un ratón); un primate no humano.

La invención puede usarse para el tratamiento de enfermedades en los animales de forma similar a aquellas para el tratamiento de enfermedades en los seres humanos, como se ha descrito anteriormente. Alternativamente, puede usarse para generar modelos animales de enfermedad con inserción génica portadores de una mutación genética específica con fines de investigación, descubrimiento de fármacos y validación de objetivos. El sistema y el método descritos anteriormente también pueden usarse para la introducción de mutaciones puntuales en células ES o en embriones no humanos de diversos organismos, con el fin de reproducir y mejorar la población animal y la calidad de los cultivos.

Los métodos de introducción de ácidos nucleicos exógenos en células vegetales son bien conocidos en la técnica. Algunos métodos adecuados incluyen infección vírica (tal como virus de ADN bicatenario), transfección, conjugación, fusión de protoplastos, electroporación, tecnología de pistola de partículas, precipitación con fosfato de calcio, microinyección directa, tecnología de bigotes de carburo de silicio, transformación mediada por agrobacterias y similares. La elección de método depende generalmente del tipo de célula que se esté transformando y de las circunstancias en las que esté teniendo lugar la transformación (es decir, in vitro, ex vivo o in vivo).

Kit

Esta invención proporciona además kits que contienen reactivos para realizar los métodos descritos anteriormente, los kits pueden incluir la unión al objetivo guiada por CRISPR:Cas o la reacción de corrección. A tal efecto, uno o más de los componentes de reacción, por ejemplo, ARN, proteínas Cas, proteínas efectoras de fusión y ácidos nucleicos relacionados, para los métodos divulgados en el presente documento, pueden suministrarse en forma de un kit para su uso. El kit puede comprender una proteína c R iSPR o un ácido nucleico que codifica la proteína Cas, la proteína efectora, uno o más de los armazones de ARN descritos anteriormente, un conjunto de las moléculas de ARN descritas anteriormente. El kit puede incluir uno o más componentes de reacción. En dicho kit, se proporciona una cantidad apropiada de uno o más componentes de reacción en uno o más recipientes o se mantiene en un sustrato.

Algunos ejemplos de componentes adicionales de los kits incluyen, pero no se limitan a, una o más células hospedadoras, uno o más reactivos para introducir secuencias de nucleótidos exógenas en las células hospedadoras, uno o más reactivos (por ejemplo, sondas o cebadores de PCR) para detectar la expresión del ARN o de la proteína o para verificar el estado del ácido nucleico objetivo, y tampones o medios de cultivo para las reacciones (en formas IX o concentradas). El kit también puede incluir uno o más de los siguientes disolventes: soportes, reactivos de terminación, modificación o digestión, osmolitos, y un aparato para su detección.

Los componentes de reacción usados también pueden proporcionarse en una diversidad de formas. Por ejemplo, los componentes (por ejemplo, enzimas, ARN, sondas y/o cebadores) pueden estar suspendidos en una solución acuosa o como un polvo liofilizado, una pella o una microesfera. En el último caso, los componentes, cuando se reconstituyen, formar una mezcla completa de componentes para usar en un ensayo. Los kits pueden proporcionarse a cualquier temperatura adecuada. Por ejemplo, para el almacenamiento de kits que contienen componentes proteicos o complejos de los mismos en un líquido, se prefiere que se proporcionen y se mantengan por debajo de 0 °C, preferentemente a, o por debajo de, -20 °C, o bien en estado de congelación.

Un kit o un sistema puede contener, en una cantidad suficiente para al menos un ensayo, cualquier combinación de los componentes descritos en el presente documento. En algunas aplicaciones, uno o más componentes de reacción pueden proporcionarse en cantidades premedidas de uso único en tubos individuales, normalmente desechables, o recipientes equivalentes. Con una disposición tal, una reacción guiada por ARN puede realizarse añadiendo un ácido nucleico objetivo, o una muestra o célula que contenga el ácido nucleico objetivo, directamente a los tubos individuales. La cantidad de un componente suministrado en el kit puede ser cualquier cantidad apropiada y puede depender del mercado objetivo al que se dirige el producto. El recipiente o recipientes en los que se suministran los componentes pueden ser cualquier recipiente convencional capaz de contener la forma suministrada, por ejemplo, tubos de micrófuga, placas de microtitulación, ampollas, frascos o dispositivos de ensayo integrales, tales como dispositivos fluidos, cartuchos, de flujo lateral u otros dispositivos similares.

Los kits también pueden incluir materiales de envasado para contener el recipiente o la combinación de recipientes. Algunos materiales típicos de envasado para dichos kits y sistemas incluyen matrices sólidas (por ejemplo, vidrio, plástico, papel, lámina metálica, micropartículas y similares) que contienen los componentes de reacción o las sondas de detección en cualquiera de una variedad de configuraciones (por ejemplo, en un vial, un pozo de una placa de microtitulación, una micromatriz, y similares). Los kits pueden incluir además instrucciones grabadas de forma tangible para el uso de los componentes.

Definición

Un ácido nucleico o un polinucleótido se refiere a una molécula de ADN (por ejemplo, aunque no de forma limitativa, un ADNc o un ADN genómico) o a una molécula de ARN (por ejemplo, aunque no de forma limitativa, un ARNm), e incluye análogos de ADN o de ARN. Un análogo de ADN o de ARN se puede sintetizar a partir de análogos de nucleótidos. Las moléculas de ADN o de ARN pueden incluir porciones que no son naturales, tales como bases modificadas, cadena principal modificada, desoxirribonucleótidos en un ARN, etc. La molécula de ácido nucleico puede ser monocatenaria o bicatenaria.

El término "aislado", cuando hace referencia a moléculas de ácido nucleico o polipéptidos, significa que la molécula de ácido nucleico o el polipéptido está sustancialmente exento de al menos otro componente con el que está asociado o se encuentra conjuntamente en la naturaleza.

Como se utiliza en el presente documento, el término "ARN guía" se refiere generalmente a una molécula de ARN (o a un grupo de moléculas de ARN en conjunto) que puede unirse a una proteína CRISPR y dirigir la proteína CRISPR hacia una ubicación específica dentro de un ADN objetivo. Un ARN guía puede comprender dos segmentos: un segmento guía de direccionamiento al ADN y un segmento de unión a proteínas. El segmento de direccionamiento al ADN comprende una secuencia de nucleótidos que es complementaria (o con la que al menos puede hibridar en condiciones rigurosas) de una secuencia objetivo. El segmento de unión a proteínas interactúa con una proteína CRISPR, tal como una Cas9 o un polipéptido relacionado con la Cas9. Estos dos segmentos pueden estar ubicados en la misma molécula de ARN o en dos o más moléculas de ARN individuales. Cuando los dos segmentos están en moléculas de ARN individuales, la molécula que comprende el segmento guía de direccionamiento al ADN se denomina a veces ARN CRISPR (ARNcr), mientras que la molécula que comprende el segmento de unión a proteínas se denomina ARN transactivador (ARNtracr).

Como se utiliza en el presente documento, la expresión "ácido nucleico objetivo" u "objetivo" se refiere a un ácido nucleico que contiene la secuencia de un ácido nucleico objetivo. Un ácido nucleico objetivo puede ser monocatenario o bicatenario, y a menudo es un ADN bicatenario. Una "secuencia de un ácido nucleico objetivo", "secuencia objetivo" o "región objetivo", como se utilizan en el presente documento, significan una secuencia específica o el complemento de la misma que se desea unir a, o modificar mediante, un sistema CRISPR. Una secuencia objetivo puede estar dentro de un ácido nucleico in vitro o in vivo dentro del genoma de una célula, que puede ser cualquier forma de ácido nucleico monocatenario o bicatenario.

Una "cadena de ácido nucleico objetivo" se refiere a una cadena de un ácido nucleico objetivo que se somete a un emparejamiento de bases con un ARN guía, como se divulga en el presente documento. Es decir, la cadena de un ácido nucleico objetivo que hibrida con el ARNcr y la secuencia guía se denomina "cadena de ácido nucleico objetivo". La otra hebra del ácido nucleico objetivo, que es complementaria de la secuencia guía, se denomina "cadena no complementaria". En el caso de un ácido nucleico objetivo bicatenario (por ejemplo, el ADN), cada cadena puede ser una "cadena de ácido nucleico objetivo" para diseñar un ARNcr y ARN guía y usarse para llevar a la práctica el método divulgado en el presente documento siempre que haya un sitio PAM adecuado.

Como se utiliza en el presente documento, la expresión "derivado de" se refiere a un proceso mediante el cual un primer componente (por ejemplo, una primera molécula) o la información de ese primer componente, se usa para aislar, derivar o hacer un segundo componente diferente (por ejemplo, una segunda molécula que es diferente de la primera). Por ejemplo, los polinucleótidos de Cas9 de mamífero con codones optimizados derivan de la secuencia de aminoácidos de la proteína Cas9 natural. También, los polinucleótidos variantes de la Cas9 de mamífero con codones optimizados, incluyendo la nickasa Cas9 mutante simple (nCas9, tal como nCas9D10A) y la nucleasa nula Cas9 mutante doble (dCas9, tal como dCas9 D10A H840A), derivan del polinucleótido que codifica la proteína Cas9 de mamífero natural con codones optimizados.

Como se utiliza en el presente documento, el término "natural" es un término de la técnica comprendido por los expertos, y significa la forma normal de un organismo, cepa, gen o característica tal como aparece en la naturaleza, a diferencia de las formas mutantes o variantes.

Como se utiliza en el presente documento, el término "variante" se refiere a una primera composición (por ejemplo, una primera molécula), que está relacionada con una segunda composición (por ejemplo, una segunda molécula, denominada también molécula "progenitora"). La molécula variante puede derivar de, aislarse de, basarse en o ser homóloga de, la molécula progenitora. Por ejemplo, las formas mutantes de la Cas9 de mamífero con codones optimizados (hspCas9), incluyendo la nickasa Cas9 mutante y la nucleasa nula Cas9 mutante doble, son variantes de la Cas9 natural de mamífero con codones optimizados (hspCas9). El término variante puede usarse para describir tanto polinucleótidos como polipéptidos.

Si se aplica a polinucleótidos, una molécula variante puede tener una identidad de secuencia de nucleótidos completa con la molécula progenitora original, o alternativamente, puede tener menos del 100 % de identidad de secuencia de nucleótidos con la molécula progenitora. Por ejemplo, una variante de la secuencia de nucleótidos de un gen puede ser una segunda secuencia de nucleótidos que sea al menos un 50 %, un 60 %, un 70 %, un 80 %, un 90 %, un 95 %, un 98 %, un 99 % o más idéntica en la secuencia de nucleótidos en comparación con la secuencia de nucleótidos original. Las variantes de polinucleótidos también incluyen polinucleótidos que comprenden el polinucleótido progenitor completo, y comprenden además secuencias de nucleótidos fusionados adicionales. Las variantes de polinucleótidos también incluyen polinucleótidos que son porciones o subsecuencias del polinucleótido progenitor, por ejemplo, subsecuencias únicas (por ejemplo, según se determina mediante las técnicas convencionales de comparación y alineación de secuencias) de los polinucleótidos divulgados en el presente documento.

Las variantes de polinucleótidos pueden incluir secuencias de nucleótidos que contienen cambios menores, triviales o intrascendentes con respecto a la secuencia de nucleótidos progenitora. Por ejemplo, los cambios menores, triviales o intrascendentes incluyen cambios en la secuencia de nucleótidos que (i) no cambian la secuencia de aminoácidos del polipéptido correspondiente, (ii) se producen fuera del marco abierto de lectura que codifica la proteína de un polinucleótido, (iii) dan como resultado deleciones o inserciones que puedan afectar a la secuencia de aminoácidos correspondiente, pero tienen poco o ningún impacto en la actividad biológica del polipéptido, (iv) los cambios de nucleótidos dan como resultado la sustitución de un aminoácido por un aminoácido químicamente similar. En caso de que un polinucleótido no codifique una proteína (por ejemplo, un ARNt o un ARNcr o un ARNtracr), las variantes de ese polinucleótido pueden incluir cambios de nucleótidos que no dan como resultado la pérdida de la función del polinucleótido. Las variantes conservadoras de las secuencias de nucleótidos divulgadas que producen secuencias de nucleótidos funcionalmente idénticas están abarcadas por la divulgación. Un experto apreciará que muchas variantes de las secuencias de nucleótidos divulgadas abarcadas por la divulgación.

Si se aplica proteínas, un polipéptido variante puede tener una identidad de secuencia de aminoácidos completa con el polipéptido progenitor original, o alternativamente, puede tener menos del 100 % de identidad de aminoácidos con la proteína progenitora. Por ejemplo, una variante de una secuencia de aminoácidos puede ser una segunda secuencia de aminoácidos que sea al menos un 50 %, un 60 %, un 70 %, un 80 %, un 90 %, un 95 %, un 98 %, un 99 % o más idéntica en la secuencia de aminoácidos en comparación con la secuencia de aminoácidos original.

Las variantes de polipéptidos incluyen polipéptidos que comprenden el polipéptido progenitor completo, y comprenden además secuencias de aminoácidos fusionados adicionales. Las variantes de polipéptidos también incluyen polipéptidos que son porciones o subsecuencias del polipéptido progenitor, por ejemplo, subsecuencias únicas (por ejemplo, según se determina mediante las técnicas convencionales de comparación y alineación de secuencias) de los polipéptidos divulgados en el presente documento, también están englobadas por la divulgación.

Las variantes de polipéptidos pueden incluir polipéptidos que contienen cambios menores, triviales o intrascendentes con respecto a la secuencia de aminoácidos progenitora. Por ejemplo, los cambios menores, triviales o intrascendentes incluyen cambios de aminoácidos (incluyendo sustituciones, deleciones e inserciones) que tienen poco o ningún impacto en la actividad biológica del polipéptido, y que producen polipéptidos funcionalmente idénticos, incluyendo adiciones de la secuencia peptídica no funcional. Los polipéptidos variantes pueden cambiar la actividad biológica de la molécula progenitora, por ejemplo, variantes mutantes del polipéptido Cas9 que han modificado o perdido la actividad nucleasa. Un experto apreciará que muchas variantes de los polipéptidos divulgados están abarcadas por esta divulgación.

Las variantes de polinucleótidos o polipéptidos divulgadas en el presente documento pueden incluir moléculas variantes que alteran, añaden o delecionan un pequeño porcentaje de las posiciones de nucleótidos o de aminoácidos, por ejemplo, normalmente menos de aproximadamente el 10 %, menos de aproximadamente el 5 %, menos del 4 %, menos del 2 % o menos del 1 %.

Como se utiliza en el presente documento, el término "sustituciones conservadoras" en una secuencia de nucleótidos o de aminoácidos se refiere a los cambios en la secuencia de nucleótidos que (i) no dan como resultado ningún cambio correspondiente en la secuencia de aminoácidos debido a la redundancia del código de tripletes de codones, o bien (ii) dan lugar a una sustitución del aminoácido progenitor original por un aminoácido que tiene una estructura químicamente similar. Las tablas de sustituciones conservadoras que proporcionan aminoácidos funcionalmente similares son bien conocidas en la técnica, donde un resto aminoacídico se sustituye por otro resto aminoacídico que tiene unas propiedades químicas similares (por ejemplo, cadenas laterales aromáticas o cadenas laterales con carga positiva) y, por lo tanto, no cambia sustancialmente las propiedades funcionales de la molécula polipeptídica resultante.

A continuación se presentan agrupaciones de aminoácidos naturales que contienen propiedades químicas similares, donde una sustitución dentro de un grupo es una sustitución de aminoácidos "conservadora". Esta agrupación indicada a continuación no es rígida, ya que estos aminoácidos naturales pueden ubicarse en diferentes agrupaciones cuando se consideran diferentes propiedades funcionales. Los aminoácidos que tienen cadenas laterales no polares y/o alifáticas incluyen: glicina, alanina, valina, leucina, isoleucina y prolina. Los aminoácidos que tienen cadenas laterales polares sin carga incluyen: serina, treonina, cisteína, metionina, asparagina y glutamina. Los aminoácidos que tienen cadenas laterales aromáticas incluyen: fenilalanina, tirosina y triptófano. Los aminoácidos que tienen cadenas laterales con carga positiva incluyen: lisina, arginina e histidina. Los aminoácidos que tienen cadenas laterales con carga negativa incluyen: aspartato y glutamato.

Un "mutante de Cas9" o "variante de Cas9" se refiere a una proteína o a un polipéptido derivado de la proteína Cas9 natural, tal como la proteína Cas9 de S. pyogenes (es decir, la SEQ ID N.°: 1), por ejemplo, una proteína que tiene uno o más mutaciones puntuales, inserciones, deleciones, truncamientos, una proteína de fusión o una combinación de los mismos. Conserva sustancialmente la actividad de direccionamiento al ARN de la proteína Cas9. La proteína o el polipéptido puede comprender, consistir o consistir esencialmente en un fragmento de la SEQ ID N.°: 1. En general, el mutante/variante es al menos un 50 % (por ejemplo, cualquier número entre el 50 % y el 100 %, ambos inclusive) idéntico a la SEQ ID N.°: 1. El mutante/variante puede unirse a una molécula de ARN y ser dirigido a una secuencia específica de ADN a través de la molécula de a Rn , y puede tener además una actividad nucleasa. Algunos ejemplos de estos dominios incluyen los motivos similares a RuvC (aa 7-22, 759-766 y 982-989 de la SEQ ID N.°: 1) y el motivo HNH (aa 837-863). Véase Gasiunas et al., Proc Natl Acad Sci U S A. 25 de septiembre de 2012; 109 (39): E2579-E2586 y el documento WO2013176772.

"Complementariedad" se refiere a la capacidad de un ácido nucleico para formar enlace(s) de hidrógeno con otra secuencia de un ácido nucleico, ya sea por emparejamiento de bases Watson-Crick tradicional o por otros tipos no tradicionales. Un porcentaje de complementariedad indica el porcentaje de restos de la molécula de un ácido nucleico que puede formar enlaces de hidrógeno (por ejemplo, emparejamiento de bases de Watson-Crick) con una segunda secuencia de un ácido nucleico (por ejemplo, siendo 5, 6, 7, 8, 9, 10 de 10 complementarios al 50 %, 60 %, 70 %, 80 %, 90 % y 100 %). "Perfectamente complementario" significa que todos los restos contiguos de la secuencia de un ácido nucleico se unirán por enlaces de hidrógeno con el mismo número de restos contiguos de una segunda secuencia de un ácido nucleico. "Sustancialmente complementario", como se utiliza en el presente documento, se refiere a un grado de complementariedad que es de al menos un 60 %, un 65 %, un 70 %, un 75 %, un 80 %, un 85 %, un 90 %, un 95 %, un 97 %, un 98 %, un 99% o un 100% a lo largo de una región de 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 30, 35, 40, 45, 50 o más nucleótidos, o se refiere a dos ácidos nucleicos que hibridan en condiciones rigurosas.

Como se utiliza en el presente documento, las "condiciones rigurosas" para la hibridación se refieren a las condiciones en las que un ácido nucleico que tiene complementariedad con una secuencia objetivo hibrida predominantemente con la secuencia objetivo, y sustancialmente no hibrida con secuencias no objetivo. Las condiciones rigurosas dependen generalmente de la secuencia y varían dependiendo de varios factores. En general, cuanto más larga sea la secuencia, mayor será la temperatura a la que la secuencia hibrida específicamente con su secuencia objetivo. Algunos ejemplos no limitantes de condiciones rigurosas se describen con detalle en Tijssen (1993), Laboratory Techniques In Biochemistry And Molecular Biology-Hybridization With Nucleic Acid Probes Part I, segundo capítulo, "Overview of principles of hybridization and the strategy of nucleic acid probe assay", Elsevier, N.Y.

"Hibridación" o "hibridar" se refiere a un proceso donde las cadenas de ácido nucleico total o parcialmente complementarias se unen entre sí en unas condiciones de hibridación específicas para formar una estructura o región bicatenaria en la que las dos cadenas constituyentes están unidas por enlaces de hidrógeno. Aunque los enlaces de hidrógeno se forman normalmente entre la adenina y la timina o el uracilo (A y T o U) o la citosina y la guanina (C y G), pueden formarse otros pares de bases (por ejemplo, Adams et al., The Biochemistry of the Nucleic Acids, 11a ed., 1992).

Como se utiliza en el presente documento, "expresión" también se refiere al proceso por el cual un polinucleótido es transcrito a partir de un ADN de molde (tal como en un transcrito de ARNm o de otro ARN) y/o el proceso por el cual un ARNm transcrito es posteriormente traducido en péptidos, polipéptidos o proteínas. Los transcritos y los polipéptidos codificados pueden denominarse en conjunto "producto génico". Si el polinucleótido deriva de ADN genómico, la expresión puede incluir el empalme del ARNm en una célula eucariota.

Los términos "polipéptido", "péptido" y "proteína" se utilizan indistintamente en el presente documento para referirse a polímeros de aminoácidos de cualquier longitud. El polímero puede ser lineal o ramificado, puede comprender aminoácidos modificados y puede estar interrumpido por no aminoácidos. Los términos también abarcan un polímero de aminoácido que se ha modificado; por ejemplo, formación de enlaces de disulfuro, glicosilación, lipidación, acetilación, fosforilación, pegilación o cualquier otra manipulación, tal como conjugación con un componente de marcaje. Como se utiliza en el presente documento, el término "aminoácido" incluye aminoácidos naturales y/o no naturales o sintéticos, que incluyen glicina y los isómeros ópticos tanto D como L, y análogos de aminoácidos y peptidomiméticos.

La expresión "polipéptido de fusión" o "proteína de fusión" significa una proteína creada por la unión de dos o más secuencias polipeptídicas entre sí. Los polipéptidos de fusión abarcados por esta divulgación incluyen productos de traducción de una construcción génica quimérica que une las secuencias de ácidos nucleicos que codifican un primer polipéptido, por ejemplo, un dominio de unión al ADN, codificando la secuencia del ácido nucleico un segundo polipéptido, por ejemplo, un dominio efector, para formar un único marco abierto de lectura. En otras palabras, un "polipéptido de fusión" o una "proteína de fusión" es una proteína recombinante de dos o más proteínas que están unidas por un enlace peptídico o a través de varios péptidos. La proteína de fusión también puede comprender un conector peptídico entre los dos dominios.

El término "conector" se refiere a cualquier medio, entidad o resto usado para unir dos o más entidades. Un conector puede ser un conector covalente o un conector no covalente. Algunos ejemplos de conectores covalentes incluyen enlaces covalentes o un resto conector unido covalentemente a una o más de las proteínas o dominios que se van a conectar. El conector también puede ser un ser enlace no covalente, por ejemplo, un enlace organometálico a través de un centro metálico tal como un átomo de platino. Para los enlaces covalentes se pueden usar varias funcionalidades, tales como grupos amida, incluyendo derivados del ácido carbónico, éteres, ésteres, incluyendo ésteres orgánicos e inorgánicos, amino, uretano, urea y similares. Para proporcionar la conexión, los dominios pueden ser modificados por oxidación, hidroxilación, sustitución, reducción, etc., para proporcionar un sitio de acoplamiento. Los métodos de conjugación son bien conocidos por los expertos en la materia y están abarcados para usar en la presente divulgación. Algunos restos conectores incluyen, pero no se limitan a, restos químicos conectores, o por ejemplo, un resto conector peptídico (una secuencia conectora). Se apreciará que se prefiere aquella modificación que no disminuya significativamente la función del dominio de unión al ARN y del dominio efector.

Como se utiliza en el presente documento, el término "conjugado" o "conjugación" o "conectado", como se utiliza en el presente documento, se refiere a la unión de dos o más entidades para formar una sola entidad. Un conjugado abarca tanto los conjugados de péptido-molécula pequeña como los conjugados de péptido-proteína/péptido.

Los términos "sujeto" y "paciente" se usan indistintamente en el presente documento para referirse a un vertebrado, preferentemente un mamífero, más preferentemente un ser humano. Algunos mamíferos incluyen, pero no se limitan a, murinos, simios, seres humanos, animales de granja, animales de deporte y mascotas. También están englobados los tejidos, las células y su progenie de una entidad biológica obtenidos in vivo o cultivados in vitro. Un sujeto puede ser un animal invertebrado, por ejemplo, un insecto o un nematodo; mientras que en otros, un sujeto puede ser una planta o un hongo.

Como se utiliza en el presente documento, "tratamiento" o "tratar", o "paliar" o "mejorar" se usan indistintamente. Estos términos se refieren a un enfoque para obtener resultados beneficiosos o deseados que incluyen, aunque no de forma limitativa, un beneficio terapéutico y/o un beneficio profiláctico. Por beneficio terapéutico se entiende cualquier mejora o efecto terapéuticamente relevante en una o más enfermedades, afecciones o síntomas en tratamiento. Para el beneficio profiláctico, las composiciones pueden administrarse a un sujeto en riesgo de desarrollar una enfermedad, afección o síntoma en particular, o a un sujeto que comunica uno o más de los síntomas fisiológicos de una enfermedad, aunque la enfermedad, la afección o el síntoma puede no haberse manifestado todavía.

Como se utiliza en el presente documento, el término "poner en contacto", cuando se usa en referencia a cualquier conjunto de componentes, incluye cualquier proceso mediante el cual se mezclan los componentes que se van a poner en contacto en la misma mezcla (por ejemplo, se añaden en el mismo compartimento o solución), y no requiere necesariamente un contacto físico real entre los componentes mencionados. Los componentes mencionados pueden ponerse en contacto en cualquier orden o en cualquier combinación (o subcombinación), y pueden incluir situaciones donde uno o algunos de los componentes mencionados se eliminen posteriormente de la mezcla, opcionalmente antes de la adición de los demás componentes mencionados. Por ejemplo, "poner en contacto A con B y C" incluye cualquiera y todas las situaciones siguientes: (i) A se mezcla con C, después se añade B a la mezcla; (ii) A y B se mezclan en una mezcla; se retira B de la mezcla y después se añade C a la mezcla; y (iii) se añade A a una mezcla de B y C. "Poner en contacto" un ácido nucleico objetivo o una célula con uno o más componentes de reacción, tales como una proteína Cas o un ARN guía, incluye cualquiera o todas las situaciones siguientes: (i) el objetivo o la célula se pone en contacto con un primer componente de una mezcla de reacción para crear una mezcla; a continuación, se añaden otros componentes de la mezcla de reacción en cualquier orden o combinación a la mezcla; y (ii) la mezcla de reacción está completamente formada antes de mezclarla con el objetivo o la célula.

El término "mezcla", como se usa en el presente documento, se refiere a una combinación de elementos que se intercalan y no están en un orden determinado. Una mezcla es heterogénea y no es separable espacialmente en sus diferentes constituyentes. Algunos ejemplos de mezclas de elementos incluyen varios elementos diferentes que están disueltos en la misma solución acuosa, o varios elementos diferentes fijados a un soporte sólido de forma aleatoria o sin un orden determinado en el que los diferentes elementos no están espacialmente diferenciados. En otras palabras, una mezcla no es direccionable.

Como se divulga en el presente documento, se proporcionan varios intervalos de valores. Se entiende que cada valor intermedio, hasta la décima parte de la unidad del límite inferior, a menos que el contexto dicte claramente lo contrario, entre los límites superior e inferior de ese intervalo, también se divulga específicamente. En la divulgación está abarcado cada intervalo menor entre cualquier valor establecido o valor intermedio en un intervalo establecido y cualquier otro valor indicado o intermedio en dicho intervalo establecido. Pueden incluirse o excluirse en el intervalo independientemente los límites superior e inferior de estos intervalos menores, y también están abarcados por la divulgación cada intervalo donde uno de los dos, ninguno o ambos límites están incluidos en los intervalos menores, sujetos a cualquier límite excluido específicamente en el intervalo establecido. Cuando el intervalo establecido incluye uno o ambos límites, también se incluyen en la divulgación los intervalos que excluyen cualquiera o ambos de esos límites incluidos. El término "aproximadamente" se refiere generalmente a más o menos el 10 % del número indicado. Por ejemplo, "aproximadamente el 10 %" puede indicar un intervalo del 9 % al 11 %, y "aproximadamente el 20" puede significar del 18 al 22. Otros significados de "aproximadamente" pueden ser evidentes a partir del contexto, tales como el redondeo, por lo que, por ejemplo, "aproximadamente 1" puede significar también de 0,5 a 1,4.

Ejemplos

Ejemplo 1 El sistema CRC dio lugar a una mutación específica de sitio en los nucleótidos de citidina objetivo en el genoma bacteriano.

En este ejemplo, se usó como modelo la cepa MG1655 de E. coli. Las mutaciones en el gen de la subunidad p de la ARN polimerasa bacteriana (rpoB) hacen que las células sean resistentes al antibiótico rifampicina (Jin, et al., Journal of Molecular Biology 202, 45-58, (1988), y Goldstein, et al., J Antibiot 67, 625-630, doi: 10.1038/ja.2014.107 (2014)). Los mutantes pueden ser aislados y analizados individualmente, y se puede calcular la frecuencia de la mutación. La AID es una proteína específica de los linfocitos B que pertenece a la familia APOBEC de las citidina desaminasas, y está implicada en la hipermutación somática y en la recombinación de cambio de clase durante la diversificación y la maduración de la afinidad de los anticuerpos (Odegard, et al., Nat Rev Immunol 6, 573-583 (2006), y Noia, et al. Annual Review of Biochemistry 76, 1-22, doi:doi: 10.1146/annurev.biochem.76.061705.090740 (2007)). Por lo tanto, para este conjunto de experimentos, el gen rpoB de E. coli MG1655 se direcciona usando la AID como proteína efectora no nucleasa.

Construcciones y configuraciones del sistema

Promotores inducidles

Todas las construcciones que codifican proteínas se diseñaron bajo el control de un promotor inducible por Tet. La anhidrotetraciclina (ATc; Sigma) se usó como inductor a una concentración de 30 nm.

Construcciones de Cas9

Una característica fundamental del presente sistema es la introducción de modificaciones nucleotídicas precisas sin generar DSB. Para este fin, se usaron versiones de Cas9 deficientes como nucleasas como módulos de direccionamiento al ADN, a saber, las Cas9 catalíticamente deficiente (Cas9D10A/H840A, dCas9) y las nickasas Cas9 (nCas9D10A o nCas9H840A) (Jinek, M. et al., Science 337, 816-821, doi: 10.1126/science.1225829 (2012)). Las nickasas Cas9 se han usado para reducir las DSB colaterales mediante el doble mellado del ADN compensado (Ran, F. A. et al., Cell 154, 1380-1389, doi: 10.1016/j.cell.2013.08.021 (2013), Shen, B. et al., Nat Meth 11, 399-402, doi:10.1038/nmeth.2857 (2014)) y la dCas9 se ha modificado para que realice varias actividades independientes de la actividad nucleasa. Véase Fujita, T. et al., Biochemical and biophysical research communications 439, 132-136, (2013), Perez-Pinera, P. et al. Nat Meth 10, 973-976, doi: 10.1038/nmeth.2600 (2013), Mali, P. et al. Nat Biotechnol 31, 833 838, doi: 10.1038 et al./nbt.2675 (2013), Zalatan, J. G. et al., Cell 160, 339-350, doi: 10.1016/j.cell.2014.11.052 (2015), Qi, L. S. et al., Cell 152, 1173-1183, doi: 10.1016/j.cell.2013.02.022 (2013), Larson, M. H. et al., Nature protocols 8, 2180-2196, doi: 10.1038/nprot.2013.132 (2013), Hilton, I. B. et al., Nat Biotech 33, 510-517, doi: 10.1038/nbt.3199 (2015) , Thakore, P. I. et al., Nat Meth 12, 1143-1149, doi: 10.1038/nmeth.363 (2015), Chen, B. et al., Cell 155, 1479 1491, doi: 10.1016/j.cell.2013.12.001 (2013), y Fu, Y. et al., Nature communications 7, doi: 10.1038/ncomms11707 (2016) . Por lo tanto, estas variantes se consideran en gran medida seguras y representaban unos candidatos perfectos para desarrollar el sistema presentado en este estudio.

Sistema de reclutamiento direccionado

El sistema fue diseñado como una plataforma de reclutamiento mediado por armazones de ARN. En la FIG. 1A se ilustra una representación esquemática que incluye el esquema de las construcciones usadas en este estudio. Las variantes de Cas9 se diseñaron como construcciones independientes, mientras que los ARNg se diseñaron como especies de ARN quimérico en las que los armazones de ARN fago están fusionados sintéticamente con el extremo 3' del armazón de ARN CRISPR. Los armazones de ARN de fago reclutan proteínas de unión al ARN específicas que, a su vez, están unidas a proteínas efectoras no nucleasas (FIG. 1B). El sistema de reclutamiento de armazón de ARN deriva del fago MS2 y de su compañero de interacción, la proteína de la cubierta MS2 (MCP).

ARNg de direccionamiento

El objetivo es el gen bacteriano rpoB. Las mutaciones en tres complejos, denominados conjuntamente región determinante de la resistencia a la rifampicina (RRDR), confieren a las células resistencia al antibiótico rifampicina (RifR) (Goldstein, et al., J Antibiot 67, 625-630, doi: 10.1038/ja.2014.107 (2014)). Se diseñó un conjunto de cuatro ARNg para dirigirse a aminoácidos críticos a lo largo de la secuencia RRDR del complejo I (es decir, S512, D516, H526 y S531; FIG. 2A). Jin, et al., Journal of molecular biology 202, 45-58, (1988) y Jin, D. J. et al., Methods in Enzymology, volumen 273, 300-319 (Academic Press, 1996)

Enfoque experimental

Se transformaron células de E. coli MG1655 químicamente competentes con 10-20 ng de ADN total compuesto por una combinación de plásmidos que codifican las construcciones descritas en la sección 1. Tras la transformación, las células se seleccionaron y se indujeron en caldo Luria-Bertani que contiene los antibióticos adecuados. Después de la selección/inducción, se midió la DO, las células se diluyeron sucesivamente y se sembraron de 108 a 104 células en placas de agar LB que contienen rifampicina (120 pM). Se sembraron doscientas células en placas de agar selectivo sin rifampicina para comprobar la eficacia de la siembra en placa. Tras una incubación hasta el día siguiente, se contaron las colonias y se puntuó la frecuencia de mutación. Además, el gen rpoB de las colonias aisladas se amplificó mediante una PCR y se secuenció para cartografiar las mutaciones.

Resultados

El reclutamiento dirigido de la AID dio lugar a una conversión específica de sitio de C a T.

Se usó un conjunto de cuatro ARNg dirigidos a la región RRDR (complejo I) de rpoB para reclutar la AID hacia los sitios objetivo (fig. 2A). El direccionamiento del CRC al rpoB_TS-4, y en menor medida al rpoB_TS-3, aumentó la fracción superviviente de las células MG1655 en medios con rifampicina (fig. 2B, 2C). El análisis de la secuencia de los clones derivados del tratamiento rpoB_TS-4 reveló una alta especificidad, mutando la C1592 a T, con el cambio concomitante de aminoácidos de la serina 531 a fenilalanina, una mutación conocida que hace a las células RifR (Petersen-Mahrt, et al., Nature 418, 99-104 (2002), Xu, M., et al., Journal of Bacteriology 187, 2783-2792, doi: 10.1128/JB.187.8.2783-2792.2005 (2005), y Zenkin, N., et al., Antimicrobial Agents and Chemotherapy 49, 1587-1590, doi: 10.1128/AAC.49.4.1587-1590.2005 (2005)) (fig. 2D). Las distribuciones de mutaciones de rpoB_TS-3, rpoB_TS-4 y la secuencia entremezclada se resumen en la fig. 2E. La frecuencia de mutación observada muy aumentada y la localización del nucleótido modificado en el tratamiento rpoB_TS-4, y con una eficacia reducida en el tratamiento rpoB_TS-3, sugieren que la citosina objetivo debe estar situada en la cadena no emparejada que deja la CRISPR de bucle en R, preferentemente más cerca del extremo 5' del protoespaciador (es decir, frecuencia de mutación TS4>TS3, tanto en el direccionamiento como en la modificación del mismo nucleótido, fig. 2A, 2C y 2E). Esto es coherente con la idea de que la AID desamina activamente los restos de citosina en el ADN monocatenario (Odegard, et al., Nat Rev Immunol 6, 573-583 (2006), Noia, et al., Annual Review of Biochemistry 76, 1-22, doi: doi:10.1146/annurev.biochem.76.061705.090740 (2007), Smith, H. C., et al., Seminars in Cell & Developmental Biology 23, 258-268, doi: 10.1016/j.semcdb.2011.10.004 (2012), y Ranganathan, V., et al., Nature communications 5, doi: 10.1038/ncomms5516 (2014)). En fig. 2F se muestra una representación esquemática del modelo de direccionamiento.

Modularidad del CRC

El cambio del módulo de direccionamiento de dCas9 a nCas9 nmA aumenta la eficacia de la conversión de C a T/A

El cambio del módulo de direccionamiento de dCas9 a nCas9n10A aumentó la eficiencia del sistema en términos de fracción superviviente en placas de rifampicina de 18 a 43 veces con respecto al control (fig. 3A). El análisis de la mutación reveló la misma especificidad que en el tratamiento con CRCAID para el nucleótido objetivo. En este caso, la C1592 se modificó en el 100 % de los clones, el 75 % mutó de C a T y el 25 % mutó de C a A (fig. 3B).

El reclutamiento dirigido de otros efectores no nucleasa, APOBEC3G y APOBEC1, es capaz de introducir una conversión específica de sitio de C a T/A

Además de la AID como proteína efectora, ensayamos otras citidina desaminasas de la familia APOBEC, a saber, APOBEC3G y APOBEC1 (fig. 4A). La APOBEC1 aumentó la frecuencia de mutaciones dirigidas en comparación con el sistema prototipo, CRCaidd¹⁰a. La APOBEC3G es menos activa que el sistema prototipo. El análisis de mutación de las células tratadas con CRCApo1D¹⁰A y con rpoB_TS-4 como construcción de direccionamiento mostró un 100 % de conversión de la C1592>T. Además, el 25 % de los clones analizados eran mutantes dobles, convirtiendo la C1590>T, sin cambio de aminoácidos (fig. 4B).

El aumento en el número de armazones de reclutamiento de ARN potencia la frecuencia de mutación sin alterar la especificidad de la conversión de C a T/A.

La adición de armazones de reclutamiento multiméricos en tándem podría aumentar potencialmente la presencia de efectores en la región objetivo y, por lo tanto, mejorar la eficacia del sistema. Para este fin, hemos diseñado rpoB_TS-4 para que incluya dos bucles MS2 (2 x MS2). Comparamos la eficacia de direccionamiento entre rpoB_TS-4 con un bucle MS2 (1 x MS2) y rpoB_TS-4 con 2 x MS2 (fig. 5A). Los resultados indican que el aumento del número de bucles de reclutamiento potencia, de hecho, la frecuencia de mutación en términos de RifR, lo que sugiere una mayor presencia de proteínas efectoras. El análisis de mutación de la célula tratada con CRCaidd¹⁰a con rpoB_TS-4_2xMS2 como construcción de direccionamiento, mostró que el nucleótido C1592 estaba modificado en el 100 % de los clones, el 62,5 % mutó de C a T y el 37,5 % mutó de C a A (fig. 5B). Estos resultados sugieren que la modificación de los módulos de reclutamiento no afecta a la especificidad de direccionamiento del sistema.

En conjunto, estos resultados indican que el diseño modular del sistema CRC facilita el proceso de modificación y abre la posibilidad de seguir mejorando el sistema.

Ejemplo 2 El sistema CRC dio lugar a la conversión de nucleótidos específica de sitio en sistemas de mamíferos

Diseño experimental: modificación del sistema para la expresión en mamíferos

A continuación, intentamos diseñar el sistema para su expresión en mamíferos. Para este fin, recapitulamos el sistema procariota AIDCRCD10A como una construcción multicistrónica, usando una nCas9D10A de mamífero con codones optimizados, seguido de una fusión AID_MCP separada por un péptido P2A autoescindible. Las construcciones se clonaron bajo el control del promotor de la ubiquitina C. Los casetes gRNA_2xMS2 se clonaron bajo el control del promotor U6 o HI, para objetivos con 5'-G o 5'-A, respectivamente (Ranganathan, V., et al., Nature communications 5, doi: 10.1038/ncomms5516 (2014)). En la fig. 6A se ilustra una representación esquemática de las construcciones usadas en este conjunto de experimentos.

Direccionamiento al ADN extracromosómico: ensayo de mutación inversa de la EGFP

La EGFP fue diseñada para portar una mutación puntual de pérdida de función (197A>G, Y66C) que destruye su fluoróforo, haciendo que la proteína se vuelva no fluorescente (nfEGFPY66C). El vector de expresión de la GFP mutante se transfecta entonces en células de mamífero y sirve como sustrato del sistema. El objetivo de este experimento era "corregir" esta mutación de pérdida de función. Cuando el gen "corregido" se transcribe y traduce, la corrección restablecerá la función de la proteína, que puede visualizarse como células fluorescentes bajo el microscopio de fluorescencia.

Enfoque experimental

Se transfectaron aproximadamente 7 x 105 células 293T con 10 pg de una combinación de ADN que comprende el plásmido objetivo que codifica la nfEGFPY66C, el CRCaidd¹⁰a y construcciones de ARNg. Para comparar, en este conjunto de experimentos se usó el sistema editor de bases de 3a generación (BE3, Komor, A. C., et al., publicación electrónica de avance de Nature, doi: 10.1038/nature17946). El BE3 es un sistema ligeramente similar con un mecanismo de reclutamiento diferente, fusión directa de la Cas9 con la APOBEC1, e incluye un péptido que inhibe la uracilo ADN glicosilasa, una enzima implicada en la reparación del ADN. Tras una incubación hasta el día siguiente, las células se analizaron bajo el microscopio de fluorescencia para observar la señal de la GFP.

Resultados

Se encontró que el sistema CRC anterior era capaz de modificar el nucleótido objetivo en el ADN extracromosómico, restaurando la función de la proteína. Dado que la citosina objetivo está ubicada en la cadena molde (TS, -), se diseñaron dos ARNg para que se unieran a la cadena no molde (NT, ) alrededor del nucleótido objetivo (fig. 6B). La citosina objetivo está ubicada en las posiciones 5 y 12 dentro de los protoespaciadores nfEGFPY66C_NT-1 y nfEGFPY66C_NT-2, respectivamente. Se transfectaron células 293T con ADN que codifica la nCas9D10A, AID_MCP, los ARNg (nfEGFPY66C_NT-1 o nfEGFPY66C_NT-2 o la secuencia entremezclada), y la construcción objetivo, nfEGFPY66C. La señal de la EGFP se detectó en las células tratadas con nfEGFPY66C_NT-1 y nfEGFPY66C_NT-2, pero no con la secuencia entremezclada (fig. 6C). La señal de la EGFP era mayor en las células tratadas con nfEGFPY66C_NT-1 en comparación con nfEGFPY66C_NT-2 debido a la posición de la citosina objetivo.Probablemente, la nfEGFPY66C_NT-1 hace que la C objetivo sea más accesible para la AID (fig. 6C, paneles central y derecho). Además, la plataforma CRC se comparó con un sistema de modificación génica diferente (BE3), que utilizaba una fusión directa de la proteína citidina desaminasa con la proteína Cas9 para el reclutamiento y requería la expresión conjunta de un inhibidor de la uracilo ADN glicosilasa (uGl) para mejorar la eficacia. Inesperadamente se encontró que el sistema CRC, donde el módulo efector y el de direccionamiento a la secuencia estaban unidos a través del armazón de ARN, era mucho más eficiente que el sistema BE3, incluso sin la inhibición local de la UNG (sin la expresión del inhibidor de la uracilo ADN glicosilasa, UGI) (fig. 6C, 6D y 7B).

Estos resultados confirman los hallazgos del sistema bacteriano e indican que el sistema desamina eficazmente restos de citosina específicos del ADN extracromosómico en las células humanas de forma programable. La cuantificación de las células positivas para la GFP de los tratamientos con CRCaidd¹⁰a y BE3 usando nfEGFPY66C_NT-1 como ARNg de direccionamiento sugiere que el sistema CRC tiene una mejor eficiencia de conversión que el BE3 (fig. 6D).

Ejemplo 3 El sistema CRC dio lugar a la conversión de nucleótidos específica de sitio en el gen endógeno en células de mamífero

Direccionamiento a un locus endógeno: gen HPRT de hámster chino

Alentados por los resultados positivos observados con el sistema bacteriano de selección negativa, decidimos usar un enfoque similar en mamíferos. La hipoxantina-guanina fosforribosil transferasa (HPRT) es una enzima que interviene en el metabolismo de las purinas, y se sabe que las mutaciones en su secuencia codificante causan resistencia al antimetabolito 6-tioguanina (6-TGR) (O'Neill, J. P. et al., Nature 269, 815-816 (1977)). Para estos experimentos nos propusimos mutar el gen HPRT con el sistema CRC para alterar su función, seguido de la selección de las células mutantes con 6-TG para su posterior análisis.

Enfoque experimental

Claims

REIVINDICACIONES

1. Un sistema que comprende:

(i) una proteína de direccionamiento a una secuencia, o un polinudeótido que codifica la misma,

(ii) un armazón de ARN o un polinucleótido de ADN que codifica el mismo, que comprenden

(a) un motivo de direccionamiento a un ácido nucleico que comprende una secuencia de ARN guía que es complementaria de la secuencia de un ácido nucleico objetivo,

(b) un motivo CRISPR capaz de unirse a la proteína de direccionamiento a la secuencia y

(c) un motivo de ARN de reclutamiento,

y

(iii) una proteína de fusión efectora no nucleasa o un polinucleótido que codifica la misma, que comprenden

(a) un dominio de unión al ARN capaz de unirse al motivo de ARN de reclutamiento,

(b) un conector, y

(c) un dominio efector que tiene una actividad enzimática para la modificación del ADN/ARN.

2. El sistema de la reivindicación 1, en donde la proteína de direccionamiento a la secuencia es una proteína CRISPR o no tiene actividad nucleasa.

3. El sistema de una cualquiera de las reivindicaciones 1-2, en donde la proteína de direccionamiento a la secuencia comprende la secuencia de la dCas9 o de la nCas9 de una especie seleccionada entre el grupo que consiste en Streptococcus pyogenes, Streptococcus agalactiae, Staphylococcus aureus, Streptococcus thermophilus, Streptococcus thermophilus, Neisseria meningitidis y Treponema denticola.

4. El sistema de una cualquiera de las reivindicaciones 1-3, en donde el motivo de ARN de reclutamiento y el dominio de unión al ARN son un par seleccionado entre el grupo que consiste en:

un motivo de unión a la telomerasa Ku y la proteína Ku o una sección de unión al ARN de los mismos, un motivo de unión a la telomerasa Sm7 y la proteína Sm7 o una sección de unión al ARN de los mismos, una horquilla operadora del fago MS2 y la proteína de la cubierta MS2 (MCP) o una sección de unión al ARN de las mismas,

una horquilla operadora del fago PP7 y la proteína de la cubierta PP7 (PCP) o una sección de unión al ARN de las mismas,

una horquilla Com del fago SfMu y una proteína de unión al ARN Com o una sección de unión al ARN de las mismas, y

un aptámero de ARN no natural y el correspondiente ligando del aptámero o una sección de unión al ARN de los mismos.

5. El sistema de una cualquiera de las reivindicaciones 1-4, en donde la actividad enzimática es actividad de desaminación, actividad metiltransferasa, actividad desmetilasa, actividad reparadora del ADN, actividad lesiva del ADN, actividad dismutasa, actividad de alquilación, actividad de depurinación, actividad de oxidación, actividad de formación de dímeros de pirimidina, actividad integrasa, actividad transposasa, actividad recombinasa, actividad polimerasa, actividad ligasa, actividad helicasa, actividad fotoliasa o actividad glicosilasa.

6. Un ácido nucleico aislado o ácidos nucleicos que codifican los componentes (i)-(iii) del sistema de una cualquiera de las reivindicaciones 1-5.

7. Un vector de expresión o una célula hospedadora que comprende el ácido nucleico o los ácidos nucleicos de la reivindicación 6.

8. Un método de modificación específica de sitio de un ADN objetivo, que comprende poner en contacto el ácido nucleico objetivo con los componentes (i)-(iii) del sistema de una cualquiera de las reivindicaciones 1-5.

9. El método de la reivindicación 8, en donde el ácido nucleico objetivo está en una célula, o es ADN extracromosómico o es un ADN genómico en un cromosoma.

10. El método de la reivindicación 9, en donde la célula se selecciona entre el grupo que consiste en: una célula de arquea, una célula bacteriana, una célula eucariota, un organismo unicelular eucariota, una célula somática, una célula germinativa no humana, una célula madre, una célula vegetal, una célula de alga, una célula animal, una célula de invertebrado, una célula de vertebrado, una célula de pez, una célula de rana, una célula de ave, una célula de mamífero, una célula de cerdo, una célula de vaca, una célula de cabra, una célula de oveja, una célula de roedor, una célula de rata, una célula de ratón, una célula de un primate no humano y una célula de un ser humano.

11. El método de la reivindicación 9, en donde la célula se ha aislado a partir de un sujeto humano o no humano.

12. El método de la reivindicación 11, en donde el sujeto humano o no humano tiene una mutación genética de un gen o tiene un patógeno o está en riesgo de exponerse al patógeno.

13. El método de la reivindicación 12, en donde el sujeto tiene un trastorno causado por la mutación genética o está en riesgo de tener el trastorno.

14. El método de la reivindicación 12, en donde dicha modificación específica de sitio corrige la mutación genética o inactiva la expresión del gen o inactiva un gen del patógeno.

15. Un kit que comprende el sistema de una cualquiera de las reivindicaciones 1-5.