ES2985812T3

ES2985812T3 - Edición genómica de precisión de alto rendimiento

Info

Publication number: ES2985812T3
Application number: ES17849615T
Authority: ES
Inventors: hunter Fraser; Zachery Smith
Original assignee: Board Of Trustees Of Leland Stanfordjunior Univ
Current assignee: Board Of Trustees Of Leland Stanfordjunior Univ
Priority date: 2016-09-09
Filing date: 2017-09-08
Publication date: 2024-11-07
Anticipated expiration: 2037-09-08
Also published as: US20190330619A1; US11760998B2; EP4431607A2; WO2018049168A1; EP3510151B1; EP3510151A4; EP3510151A1; EP4431607A3; US20230383290A1

Abstract

La invención proporciona composiciones y métodos para la edición genómica de alta eficiencia. En algunos aspectos, la invención proporciona casetes de ARN guía de retrones y vectores que comprenden los casetes. También se proporcionan células hospedadoras que han sido transformadas con los vectores. En otros aspectos, la invención proporciona moléculas guía de ADN de donantes de retrones. En algunos otros aspectos, se proporcionan métodos para la edición genómica y el cribado de loci genéticos. En otros aspectos, se proporcionan métodos y composiciones para la prevención o el tratamiento de enfermedades genéticas. También se proporcionan kits para la edición genómica y el cribado. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Edición genómica de precisión de alto rendimiento

ANTECEDENTES DE LA INVENCIÓN

La edición del genoma con nucleasas de ingeniería es una tecnología de vanguardia para modificar esencialmente cualquier secuencia genómica de interés (Porteus, M.H. & Carroll, D., Nature Biotechnology 23, 967-973 (2005)). Esta tecnología utiliza nucleasas modificadas para generar roturas de doble cadena (DSB) en sitios específicos, seguidas de la resolución de las DSB mediante mecanismos de reparación celular endógenos. El resultado puede ser la mutación de un sitio específico a través de la unión de extremos no homólogos mutagénica, creando inserciones o deleciones en el sitio de la ruptura, o el cambio preciso de una secuencia genómica a través de la recombinación homóloga utilizando una plantilla donante introducida exógenamente (Hendel et al., Trends in Biotechnology 33, 132 140 (2015)). Una importante adición reciente a esta plataforma es el sistema de repetición palindrómica agrupada regularmente interespaciada (CRISPR)/Cas que consiste en una nucleasa guiada por ARN (Cas) y un ARN guía corto (ARNg) Jinek, M.et al., Science 337, 816-821 (2012), Mali, P. et al., Science 339, 823-826 (2013), Cong, L. et al., Science 339, 819-823 (2013), Hsu et al., Cell 157, 1262-1278 (2014)). El ARNg puede estar compuesto por dos ARN denominados ARN CRISPR (ARNcr) y ARNcr transactivador (ARNtrat), que pueden fusionarse en un ARNg único quimérico.

Además, el documento WO 2016/025719 se refiere a la edición del genoma utilizando una construcción de ácido nucleico de ingeniería que comprende un promotor enlazado operablemente a un ácido nucleico que comprende una secuencia de nucleótidos que codifica un ARNmsrmonocatenario, una secuencia de nucleótidos que codifica un ADNmsdmonocatenario modificado para contener una secuencia diana y una secuencia de nucleótidos que codifica una proteína transcriptasa inversa, en la que las secuencias de nucleótidos que codifican el ARNmsry el ADNmsdestán flanqueadas por secuencias de repetición invertida.

En muchos organismos, incluidos los seres humanos y las plantas de cultivo, hay un gran número de enfermedades y rasgos que están modulados por múltiples loci genéticos. En muchos casos, las localizaciones genéticas exactas que contribuyen a los rasgos y fenotipos de las enfermedades aún no se han trazado con precisión. Además, para aplicaciones como la producción de proteínas recombinantes y sustancias químicas de uso farmacéutico o industrial, la creación de vacunas y partículas víricas, y la producción de combustibles y nutracéuticos, es necesario emplear procedimientos de optimización genética que requieren sondear los efectos de las mutaciones en un gran número de loci genéticos. Para los fines mencionados y muchos otros, dado que a menudo es necesario cribar simultáneamente al menos miles o decenas de miles de loci genéticos, la capacidad de realizar un cribado de alto rendimiento y de alto contenido es fundamental.

Desafortunadamente, la edición del genoma sigue siendo ineficaz. Como tal, sigue existiendo la necesidad en la técnica de composiciones y procedimientos mejorados para la edición genómica de alto rendimiento y el cribado de alto contenido. La presente invención satisface esta necesidad y proporciona además ventajas adicionales.

Breve sumario de la invención

La invención es como se define en las reivindicaciones.

En un primer aspecto, la presente invención proporciona un casete de ARN guía de retrón, el casete que comprende:

(a) un retrón; y

(b) una región codificante de ARN guía (ARNg).

El retrón comprende:

(a) un locusmsr;

(b) una primera región codificante de secuencia de repetición invertida;

(c) un locusmsd,en el que el extremo 3' del locusmsrse solapa con el extremo 5' del locusmsd;

(d) una secuencia de ADN donante localizada dentro del locusmsd; y

(e) una segunda región codificante de secuencia de repetición invertida.

La primera región codificante de la secuencia de repetición invertida está situada en el extremo 5' del locusmsr. La segunda secuencia de repetición invertida se encuentra a 3' del locusmsd.

La región codificante del ARNg es 3' del retrón o la región codificante del ARNg es 5' del retrón. Los productos de transcripción del retrón y de la región codificante del ARNg están físicamente acoplados. En algunas realizaciones ilustrativas de la presente divulgación que no forman parte de la invención los productos de transcripción del retrón y la región codificante del ARNg no están acoplados físicamente.

En realizaciones particulares, el retrón codifica una molécula de ARN que es capaz de transcribirse inversamente por sí misma mediante una transcriptasa inversa (RT). En algunos casos, la transcripción inversa de la molécula de ARN da lugar a una molécula de ADN monocatenario multicopia (ADNmm) que comprende ARN y ADN.

En otras realizaciones, el casete comprende además una secuencia ribozima. En algunos casos, la secuencia ribozima codifica una ribozima del virus de la hepatitis delta.

En determinadas realizaciones, el casete tiene menos de 200 nucleótidos de longitud. En otras realizaciones, la secuencia de ADN donante comprende dos brazos homológicos, en los que cada brazo homológico tiene al menos entre un 70% y un 99% de similitud con una parte de la secuencia de un locus genético de interés a ambos lados del sitio de corte de la nucleasa.

En un segundo aspecto, la presente invención proporciona un vector que comprende un casete de ARN guía de retrón de la presente invención.

En algunas realizaciones, el vector comprende además un promotor que está operativamente unido al casete. En algunos casos, el promotor es inducible. En casos particulares, el promotor es un promotor de ARN polimerasa II. En otros casos, el promotor es un promotor de ARN polimerasa III. En otros casos, el vector comprende además un promotor de la ARN polimerasa II y un promotor de la ARN polimerasa III.

En otras realizaciones, el vector comprende además una secuencia codificante de transcriptasa inversa (RT). En otras realizaciones, el vector comprende además una secuencia de localización nuclear. En algunos casos, la secuencia de localización nuclear se encuentra a 5' de la secuencia codificante RT

En otras realizaciones, el vector comprende además una secuencia codificante de nucleasa. En algunos casos, la nucleasa codificada por la secuencia codificadora de nucleasas es Cas9. En otros casos, la nucleasa es Cpfl. En otros casos, se codifican tanto Cas9 como Cpfl.

En un tercer aspecto, la presente invención proporciona una molécula guía de ADN donante de retrón, que comprende:

(a) una transcripción retrón; y

(b) una molécula de ARN guía (ARNg).

La transcripción retrón comprende:

(a) una regiónmsr;

(b) una primera secuencia de repetición invertida;

(c) una regiónmsd,en la que el extremo 3' de la regiónmsrse solapa con el extremo 5' de la regiónmsd;(d) una región codificante de la secuencia de ADN donante que se encuentra dentro de la regiónmsd;y (e) una segunda secuencia de repetición invertida.

La primera secuencia de repetición invertida está situada en el extremo 5' de la regiónmsr.La segunda secuencia de repetición invertida se encuentra a 3' de la regiónmsd.

En realizaciones particulares, el transcrito retrónico es capaz de transcribirse inversamente por sí mismo mediante una transcriptasa inversa (RT).

El transcrito retrón y la molécula de ARNg están físicamente acoplados. La molécula de ARNg está a 3' del transcrito del retrón o la molécula de ARNg está a 5' del transcrito del retrón. En algunas realizaciones, la molécula guía de ADN donante de retrón comprende además una ribozima. En algunos casos, la ribozima es una ribozima del virus de la hepatitis delta. En algunas realizaciones ilustrativas de la presente divulgación, el transcrito retrón y la molécula de ARNg se desacoplan físicamente después de la transcripción.

En otras realizaciones, la transcripción inversa del transcrito retrónico da lugar a una molécula de ADN monocatenario multicopia (ADNmm) que comprende ARN y ADN. En algunos casos, al menos parte del contenido de ARN de la molécula de ADNmm se degrada. En ciertos casos, el contenido de ARN es degradado por la RNasa H.

En otras realizaciones, la región codificante de la secuencia de ADN donante comprende secuencias que codifican dos brazos de homología, en las que cada brazo de homología tiene al menos entre un 70% y un 99% de similitud con una parte de la secuencia de un locus genético de interés a ambos lados de un sitio de corte por nucleasa.

En otro aspecto, la presente invención proporciona un procedimiento para modificar uno o más ácidos nucleicos diana de interés en uno o más loci diana dentro de un genoma de una célula huésped que no es una célula germinal humana, el procedimiento comprende:

(a) transformar la célula huésped con un vector de la presente invención; y

(b) cultivar la célula huésped o la progenie transformada de la célula huésped en condiciones suficientes para expresar a partir del vector una molécula de ADN guía donante de retrón que comprenda un transcrito de retrón y una molécula de ARN guía (ARNg),

en el que el transcrito retrónico autoimprime la transcripción inversa mediante una transcriptasa inversa (RT) expresada por la célula huésped o la progenie transformada de la célula huésped,

en el que al menos una parte del transcrito retrónico se transcribe en sentido inverso para producir una molécula de ADN monocatenario (ADNmm) multicopia que tiene una o más secuencias de ADN donante, en la que la una o más secuencias de ADN donante son homólogas al uno o más loci diana y comprenden modificaciones de secuencia en comparación con el uno o más ácidos nucleicos diana,

en el que uno o más loci diana son cortados por una nucleasa expresada por la célula huésped o la progenie transformada de la célula huésped, en el que el sitio de corte de la nucleasa está especificado por el ARNg, y

en el que la una o más secuencias de ADN donante se recombinan con la una o más secuencias de ácido nucleico diana para insertar, borrar y/o sustituir una o más bases de la secuencia de la una o más secuencias de ácido nucleico diana para inducir una o más modificaciones de secuencia en el uno o más loci diana dentro del genoma.

En algunas realizaciones, las regionesmsrymsdde la transcripción retrón forman una estructura secundaria, en la que la formación de la estructura secundaria se ve facilitada por el emparejamiento de bases entre la primera y segunda secuencias de repetición invertida, y en la que la estructura secundaria es reconocida por la RT para el inicio de la transcripción inversa.

En otras realizaciones, la célula huésped es capaz de expresar la RT antes de transformar la célula huésped con el vector. En algunos casos, la RT está codificado en una secuencia integrada en el genoma de la célula huésped o en un plásmido separado. En otras realizaciones, la célula huésped es capaz de expresar la RT al mismo tiempo que, o después de, transformar la célula huésped con el vector. En algunos casos, la RT se expresa a partir del vector o de un plásmido separado.

En realizaciones particulares, la célula huésped es capaz de expresar la nucleasa antes de transformar la célula huésped con el vector. En algunos casos, la nucleasa está codificada en una secuencia integrada en el genoma de la célula huésped o en un plásmido separado. En otras realizaciones, la célula huésped es capaz de expresar la nucleasa al mismo tiempo que, o después de, transformar la célula huésped con el vector. En algunos casos, la nucleasa se expresa a partir del vector o de un plásmido separado. En casos particulares, la nucleasa es Cas9. En otros casos, la nucleasa es Cpfl. En otros casos, se expresan tanto Cas9 como Cpfl. En algunas realizaciones, la molécula de ARNg y una o más secuencias de ADN donante están acopladas físicamente. En otras realizaciones, la molécula de ARNg y la una o más secuencias de ADN donante no están acopladas físicamente.

En ciertas realizaciones, la una o más secuencias de ADN donante comprenden dos brazos de homología, en los que cada brazo de homología tiene al menos entre un 70% y un 99% de similitud con una parte de la secuencia del uno o más loci diana a ambos lados de un sitio de corte por nucleasa.

En algunas realizaciones, la célula huésped es una célula procariota. En otras realizaciones, la célula huésped es una célula eucariota. En algunos casos, la célula eucariota es una célula de levadura.

En otras realizaciones, la célula huésped comprende una población de células huésped. En algunos casos, la una o más modificaciones de secuencia se inducen en más del 90% de la población de células huésped. En otros casos, la una o más modificaciones de secuencia se inducen en más del 95% de la población de células huésped.

En algunas realizaciones, la inducción de una o más modificaciones de secuencia resulta en la inserción de una o más secuencias que codifican etiquetas de localización celular en el genoma. En otras realizaciones, la inducción de una o más modificaciones de secuencia da lugar a la inserción de una o más secuencias que codifican degrones en el genoma. En otras realizaciones, la inducción de una o más modificaciones de secuencia da lugar a la inserción de uno o más elementos de respuesta sintéticos en el genoma. En realizaciones particulares, la inducción de una o más modificaciones de secuencia resulta en la inserción de una combinación de una o más secuencias que codifican etiquetas de localización celular, una o más secuencias que codifican degrones, y/o uno o más elementos de respuesta sintéticos en el genoma. En otras realizaciones, la inducción de una o más modificaciones de secuencia da lugar a la inserción de una o más secuencias de un genoma heterólogo en el genoma.

En otro aspecto más, la presente invención proporciona un procedimiento para el cribado de uno o más loci genéticos de interés en un genoma de una célula huésped, comprendiendo el procedimiento:

(a) modificar uno o más ácidos nucleicos diana de interés en uno o más loci diana dentro del genoma de la célula huésped de acuerdo con un procedimiento de la presente invención;

(b) incubar la célula huésped modificada en condiciones suficientes para provocar un fenotipo controlado por uno o más loci genéticos de interés;

(c) identificar el fenotipo resultante de la célula huésped modificada; y

(d) determinar que el fenotipo identificado es el resultado de las modificaciones realizadas en uno o más ácidos nucleicos diana de interés en uno o más loci diana de interés.

En algunas realizaciones, se utilizan dos o más vectores. En otras realizaciones, se examinan simultáneamente al menos entre 1.000 y 1.000.000 de loci genéticos de interés.

En otras realizaciones, el fenotipo se identifica utilizando un marcador reportero o seleccionable. En algunos casos, el reportero es una proteína marcada con fluorescencia. En otros casos, el reportero es un anticuerpo. En otros casos, el reportero es una mancha química. En otros casos, el reportero es un indicador químico. En determinados casos, se utiliza una combinación de reporteros. En otros casos, el reportero responde a la concentración de un producto metabólico. En algunos casos, el reportero responde a un producto proteico. En otros casos, el reportero responde a un fármaco sintetizado de interés. En otros casos, el reportero responde a un fenotipo celular de interés. En casos particulares, el reportero responde a una combinación de la concentración de un producto metabólico, un producto proteico, un fármaco sintetizado de interés y/o un fenotipo celular de interés.

En otro aspecto, la presente invención proporciona una célula huésped que ha sido transformada por un vector de la presente invención.

En otro aspecto adicional, la presente invención proporciona una composición farmacéutica que comprende:

(a) un casete de ARN guía de retrón de la presente invención, un vector de la presente invención, una molécula donante de retrón-ADN guía de la presente invención, o una combinación de los mismos; y

(b) un portador farmacéuticamente aceptable.

En aún otro aspecto, la presente divulgación proporciona un procedimiento para prevenir o tratar una enfermedad genética en un individuo, el procedimiento comprende administrar al individuo una cantidad eficaz de una composición farmacéutica de la presente invención para corregir una mutación en un gen diana asociado con la enfermedad genética.

En algunos casos, la enfermedad genética se selecciona del grupo que consiste en inmunodeficiencia combinada grave ligada al cromosoma X, anemia falciforme, talasemia, hemofilia, neoplasia, cáncer, degeneración macular relacionada con la edad, esquizofrenia, trastornos por repetición de trinucleótidos, síndrome del cromosoma X frágil, trastornos relacionados con priones, esclerosis lateral amiotrófica, drogadicción, autismo, enfermedad de Alzheimer, enfermedad de Parkinson, fibrosis quística, enfermedades y trastornos de la sangre y la coagulación, inflamación, enfermedades y trastornos relacionados con el sistema inmunitario, enfermedades y trastornos metabólicos, enfermedades y trastornos hepáticos, enfermedades y trastornos renales, enfermedades y trastornos musculares/esqueléticos, enfermedades y trastornos neurológicos y neuronales, enfermedades y trastornos cardiovasculares, enfermedades y trastornos pulmonares, enfermedades y trastornos oculares, y una combinación de los mismos.

Desvelado pero no parte de la invención es un kit para modificar uno o más ácidos nucleicos diana de interés en uno o más loci diana dentro de un genoma de una célula huésped, el kit que comprende uno o una pluralidad de vectores de la presente invención.

En algunas realizaciones, el kit comprende además una célula huésped. En algunas otras realizaciones, el kit comprende además uno o más reactivos para transformar la célula huésped con el uno o pluralidad de vectores, uno o más reactivos para inducir la expresión del uno o pluralidad de vectores, o una combinación de los mismos.

En otras realizaciones, el kit comprende además una transcriptasa inversa o un plásmido para expresar una transcriptasa inversa. En determinadas realizaciones, el kit comprende además una nucleasa o un plásmido para expresar una nucleasa.

En otras realizaciones, el kit comprende además instrucciones para transformar la célula huésped, inducir la expresión del vector, inducir la expresión de la transcriptasa inversa, inducir la expresión de la nucleasa, o una combinación de las mismas.

Se desvela, pero no forma parte de la invención, un kit para modificar uno o más ácidos nucleicos diana de interés en uno o más loci diana dentro de un genoma de una célula huésped, comprendiendo el kit una o una pluralidad de moléculas de ADN-guía donante retrón de la presente invención.

En algunas realizaciones, el kit comprende además una célula huésped. En algunas otras realizaciones, el kit comprende además uno o más reactivos para introducir la una o pluralidad de moléculas de ADN-guía donante retrón en la célula huésped.

En otras realizaciones, el kit comprende además instrucciones para introducir una o varias moléculas guía de ADN donante de retrón en la célula huésped, inducir la expresión de la transcriptasa inversa, inducir la expresión de la nucleasa o una combinación de las mismas.

Otros objetos, características y ventajas de la presente invención serán evidentes para un experto en la técnica a partir de la siguiente descripción detallada y las figuras.

Breve descripción de los dibujos

La figura 1 muestra un ejemplo de los procedimientos de edición del genoma de la presente invención. En este ejemplo, se ha utilizado una molécula de ARN guía (ARNg) para dirigir una nucleasa Cas9 con el fin de realizar un corte de doble cadena de ADN en una localización genómica deseada. El ARNg y un transcrito retrón que contiene secuencias de repetición invertida están unidos físicamente y se han transcrito previamente a partir de un casete de ARN guía de retrón. Tras la transcripción, la regiónmsddel transcrito del retrón se transcribió en sentido inverso, lo que dio lugar a una molécula de ADN monocatenario multicopia, acoplada físicamente al ARNg, y que contiene una secuencia de ADN donante (señalada con un asterisco) que se incorporará al sitio genómico deseado cuando se repare el corte de doble cadena.

La figura 2 muestra el retrón deE. colide tipo salvaje Ec86, que se insertó en un plásmido. EnE. coli,los retrones existen como una única unidad compacta con los locimsrymsddirectamente adyacentes a un RT y se transcriben como un único transcrito policistrónico. La RT, una vez traducida, transcribe inversamente el locusmsdpara producir ADN monocatenario multicopia (ADNmm). Las secuencias de repetición invertida se localizan en el extremo 5' del locusmsry justo a 3' del locusmsd.La secuencia completa del retrón se establece en SEQ ID NÚM.:14. La secuencia plasmídica situada a 5' del locusmsrse establece en SEQ ID NÚM.:15. Las primeras y segundas secuencias de repetición invertida se exponen en SEQ ID NÚM.:16 y 17, respectivamente. Las secuencias de los locimsrymsdse exponen en SEQ ID NÚM.:18 y 19, respectivamente. Un nucleótido "G" está presente entre el locusmsdy la segunda secuencia de repetición invertida. La secuencia de la región reemplazable se establece en SEQ ID Nú M.:20. La secuencia optimizada de la transcriptasa inversa (la RT) se establece en SEQ ID NÚM.:21. Una secuencia corta(es decir,ACTTTC; SEQ ID NÚM.:22) se encuentra entre la segunda secuencia de repetición invertida y el comienzo de la secuencia RT La secuencia situada a 3' de la secuencia RT se establece en SEQ ID NÚM.:23. Todas las secuencias se muestran directamente encima de sus secuencias complementarias.

La figura 3 muestra un ejemplo de casete de ARN guía de retrón de edición de precisión. En este ejemplo, la secuencia de ADN donante contiene una mutación sin sentido en el genADE1que se ha insertado en el centro del locusmsddel retrón. El ARN guía se ha colocado directamente a 3' de la segunda repetición invertida. En este ejemplo, el casete está bajo el control de un promotor tRNA-Tyr. La secuencia completa del casete se establece en SEQ ID NÚM.:24. Las secuencias iniciales (es decir, 5' de Pci1-Up) y final(es decir,3' del terminador RPR1) se establecen en SEQ ID NÚM.:25 y 39, respectivamente. La secuencia de repetición invertida se establece en SEQ ID NÚM.: 16. Una secuencia de unión del cebador Pci1-Up (utilizada para la clonación y secuenciación) se establece en SEQ ID NÚM.:26. La secuencia entre Pci1-Up y tRNA-Tyr se establece en SEQ ID NÚM.:27. Las secuencias de tRNA-Tyr y ribozima HDV se establecen en SEQ ID NÚM.:28 y 29, respectivamente. Las secuencias de los locimsrymsdse establecen en SEQ ID NÚM.:18 y 30, respectivamente (la secuencia de la porción del msd que se solapa con el vector, pero no incluye el donante, se establece en SEQ ID NÚM.:31). La secuencia del vector se establece en SEQ ID NÚM.:32. La secuencia del ADN donante1 se establece en SEQ ID NÚM.:33. La secuencia de síntesis constante se establece en SEQ ID NÚM.:34. La secuencia guía2 y la secuencia codificante del sgARN se exponen en SEQ ID NÚM.:35 y 36, respectivamente. Las secuencias terminadoras SNR52 y RPT1 se exponen en SEQ ID NÚM.:37 y 38, respectivamente. Todas las secuencias se muestran directamente encima de sus secuencias complementarias. También se muestran las secuencias de aminoácidos a ambos lados del sitio de edición dentro de ADE1. De N-terminal a C-terminal, estas secuencias son PAKLPKYKTQLED (SEQ ID NÚM.:40; etiquetada como aminoácidos 1-15) y SLLVHKHKLIPLEVIVR (SEQ ID NÚM.:41; etiquetada como aminoácidos 17-33). El sitio de edición (etiquetado como aminoácido número 16) se indica con un asterisco.

La figura 4 representa un ejemplo de la biogénesis de una molécula ADN-guía donante de retrón de la presente invención. Se transcribe un casete de ARN guía de retrón de la presente invención, dando lugar a una molécula de ADN-guía donante de retrón. La porción de transcripción retrón de la molécula se pliega y adopta una estructura secundaria específica, facilitada por el emparejamiento entre las primeras y las segundas repeticiones de secuencia invertida, y se pliega con una estructura secundaria específica. La transcriptasa inversa bacteriana reconoce la estructura secundaria de las regiones msr-msd de la transcripción del retrón y genera ADNmm unido covalentemente a una G ramificada cerca del extremo 5' de la molécula. También se representa en este ejemplo la RNasa H actuando sobre el dúplex ARN-ADN, eliminando parte del ARN interno.

La figura 5 muestra la separación del ADN monocatenario multicopia (ADNmm) del ARN guía (ARNg) con el uso de una ribozima de autocicatrización del virus de la hepatitis delta (VHD). En este constructo, la secuencia de ribozima del VHD se insertó inmediatamente a 5' de la región codificante del ARNg. Tras la transcripción, la ribozima del VHD se pliega en una estructura secundaria que fuerza la escisión autocatalítica del producto de la transcripción inmediatamente 5' del VHD, separando el transcrito del retrón del ARNg. Posteriormente, la transcriptasa inversa bacteriana genera ADNmm a partir de la transcripción del retrón, mientras que el ARNg se ensambla de forma independiente con la nucleasa Cas9 para dirigir el corte del genoma.

La figura 6 muestra un esquema de un procedimiento de preparación y cribado de bibliotecas de oligonucleótidos. Las bibliotecas de oligonucleótidos pueden sintetizarse en formato de matriz, con una complejidad que oscila entre 2.000 y 1.000.000 de secuencias únicas. La biblioteca de oligonucleótidos puede amplificarse utilizando cebadores comunes de flanqueo que contengan homología con el vector de expresión. A continuación, la biblioteca de vectores puede ampliarse, purificarse y transformarse en una cepa de levadura de cribado. La cepa de levadura de cribado puede tener la nucleasa Cas9 y la transcriptasa inversa integradas en el genoma y expresadas bajo el control de promotores inducibles.

La figura 7 muestra un esquema de un diseño experimental con pares guía de retrón no emparejados.

La figura 8 muestra la eficacia de edición del guía de retrón no emparejado en el locusADE2.

La figura 9 muestra la eficiencia de edición de los componentes de edición guía de retrón en trans en el locusADE2.

Breve descripción de la invención

I. Introducción

Los procedimientos de edición del genoma comúnmente incluyen la provisión tanto de una nucleasa o nicasa de ingeniería como de una plantilla de reparación de ADN donante que contiene la secuencia de ADN que se insertará en una ubicación deseada. Por ejemplo, el sistema CRISPR/Cas9 utiliza un ARN guía (ARNg) que dirige la nucleasa Cas9 para introducir un corte de doble cadena en un lugar específico. A continuación, se puede proporcionar una plantilla de reparación de ADN donante, lo que permite la inserción precisa de una nueva secuencia mediada por la reparación dirigida por homología del corte de doble cadena. En el pasado, el ARNg y la plantilla de ADN donante se suministraban como moléculas separadas, lo que significaba que cada experimento de edición debía realizarse en un tubo o recipiente distinto. Los esfuerzos por aumentar la eficacia de la edición mediante la administración conjunta de ARNg y secuencias de ADN donante a las células en un sistema combinado no han tenido éxito hasta ahora.

La presente invención se basa, en parte, en el descubrimiento inesperado de que el acoplamiento físico de una molécula de ARNg al producto de la transcripción de un oscuro elemento genético bacteriano denominado retrón aumenta drásticamente la eficiencia de la edición y el cribado del ADN. En concreto, la transcripción inversa de la unidad codificadora de ADN ('regiónmsd)del transcrito del retrón da lugar a una molécula multicopia de ADN monocatenario (ADNmm) que contiene una plantilla de reparación de ADN donante y está físicamente unida al ARNg, lo que aumenta la eficacia de la edición. Como se muestra a modo de ejemplo en la FIG. 1, una vez que el ARNg dirige a la nucleasa Cas9 a la ubicación genómica deseada y Cas9 completa el corte de doble cadena del ADN genómico, la plantilla de reparación donante dentro de la molécula de ADNms ya está cerca y facilita la reparación y edición del ADN genómico.

II. General

La práctica de la presente invención emplea, a menos que se indique lo contrario, técnicas convencionales de inmunología, bioquímica, química, biología molecular, microbiología, biología celular, genómica y ADN recombinante, que están dentro de la habilidad del arte. Véase Sambrook, Fritsch and Maniatis, Molecular Cloning: A Laboratory Manual, 2nd edition (1989), Current Protocols in Molecular Biology (F. M. Ausubel, et al. eds., (1987)), the series Methods in Enzymology (Academic Press, Inc.): PCR 2: A Practical Approach (M. J. MacPherson, B. D. Hames and G. R. Taylor eds. (1995)), Harlow and Lane, eds. (1988) Antibodies, A Laboratory Manual, and Animal Cell Culture (R. I. Freshney, ed. (1987)).

Para los ácidos nucleicos, los tamaños se indican en kilobases (kb), pares de bases (pb) o nucleótidos (nt). Los tamaños de las cadenas simples de ADN y/o ARN pueden expresarse en nucleótidos. Se trata de estimaciones derivadas de la electroforesis en gel de agarosa o acrilamida, de ácidos nucleicos secuenciados o de secuencias de ADN publicadas. En el caso de las proteínas, los tamaños se expresan en kilodaltons (kDa) o en número de residuos de aminoácidos. Los tamaños de las proteínas se estiman a partir de la electroforesis en gel, de proteínas secuenciadas, de secuencias de aminoácidos derivadas o de secuencias de proteínas publicadas.

Los oligonucleótidos que no están disponibles comercialmente pueden sintetizarse químicamente, por ejemplo, de acuerdo con el procedimiento de triéster de fosforamidita en fase sólida descrito por primera vez por Beaucage and Caruthers, Tetrahedron Lett. 22:1859-1862 (1981), utilizando un sintetizador automatizado, tal como se describe en Van Devanter et. al., Nucleic Acids Res. 12:6159-6168 (1984). La purificación de los oligonudeótidos se realiza utilizando cualquier estrategia reconocida en la técnica, porejemplo,electroforesis en gel de acrilamida nativa o cromatografía líquida de alto rendimiento (HPLC) de intercambio aniónico, como se describe en Pearson and Reanier, J. Chrom. 255: 137-149 (1983).

MI. Definiciones

A menos que se definan de otro modo, todos los términos técnicos y científicos utilizados en la presente memoria tienen el mismo significado que comúnmente entiende una persona con experiencia en la técnica a la que pertenece esta invención. Además, en la práctica de la presente invención puede utilizarse cualquier procedimiento o material similar o equivalente a un procedimiento o material descrito en la presente memoria. A efectos de la presente invención, se definen los siguientes términos.

Los términos "un", "una" o "el/la" utilizados en la presente memoria no sólo incluyen aspectos con un miembro, sino también aspectos con más de un miembro. Por ejemplo, las formas singulares "un", "una" y "el/la" incluyen referentes plurales a menos que el contexto dicte claramente lo contrario. Por lo tanto, por ejemplo, la referencia a "una célula" incluye una pluralidad de tales células y la referencia a "el agente" incluye la referencia a uno o más agentes conocidos por los expertos en la técnica, y así sucesivamente.

El término "aproximadamente" en relación con un valor numérico de referencia puede incluir un intervalo de valores más o menos el 10% de dicho valor. Por ejemplo, la cantidad "aproximadamente 10" incluye las cantidades de 9 a 11, incluidos los números de referencia de 9, 10 y 11. El término "aproximadamente" en relación con un valor numérico de referencia también puede incluir un intervalo de valores más o menos 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2% o 1% de dicho valor.

Tal como se utilizan en la presente memoria, a menos que se especifique lo contrario, los términos "5'" y "3'" denotan las posiciones de los elementos o características en relación con la disposición general de los casetes de ARN de retrón, vectores o moléculas de ADN de retrón donante de la presente invención en los que están incluidos. A menos que se especifique lo contrario, no se hace referencia a las posiciones en el contexto de la orientación de un elemento o características concretas. Por ejemplo, los locimsrymsdde FIG. 4 se muestran en orientaciones opuestas. Sin embargo, se dice que el locusmsrse encuentra a 5' del locusmsd.Además, se dice que el extremo 3' del locusmsrse solapa con el extremo 5' del locusmsd.A menos que se especifique lo contrario, el término "corriente arriba" se refiere a una posición que está a 5' de un punto de referencia. A la inversa, el término "corriente abajo" se refiere a una posición que está a 3' de un punto de referencia. Por lo tanto, en la FIG. 2 se dice que el locusmsrestá situado corriente arriba de la secuencia de la transcriptasa inversa, y que la secuencia de la transcriptasa inversa está situada corriente abajo del locusmsr.

El término "edición del genoma" se refiere a un tipo de ingeniería genética en la que se inserta, sustituye o elimina ADN de un ADN diana(por ejemplo,el genoma de una célula) utilizando una o más nucleasas y/o nicasas. Las nucleasas crean roturas específicas de doble cadena (DSB) en los lugares deseados del genoma y aprovechan los mecanismos endógenos de la célula para reparar la rotura inducida mediante reparación dirigida por homología (HDR)(porejemplo,recombinación homóloga) o por unión de extremos no homólogos (NHEJ). Las nicasas crean roturas específicas de una sola hebra en los lugares deseados del genoma. En un ejemplo no limitativo, se pueden utilizar dos nicasas para crear dos roturas de cadena simple en cadenas opuestas de un ADN diana, generando así un extremo romo o pegajoso. Cualquier nucleasa de ADN adecuada puede introducirse en una célula para inducir la edición genómica de una secuencia de ADN diana.

El término "nucleasa de ADN" se refiere a una enzima capaz de escindir los enlaces fosfodiéster entre las subunidades nucleotídicas del ADN, y puede ser una endonucleasa o una exonucleasa. De acuerdo con la presente invención, la nucleasa de ADN puede ser una nucleasa de ADN manipulada(por ejemplo,programable o seleccionable) que puede utilizarse para inducir la edición genómica de una secuencia de ADN diana. Puede utilizarse cualquier nucleasa de ADN adecuada, incluidas, entre otras, nucleasas de proteína asociada a CRISPR (Cas), otras endo- o exo-nucleasas, variantes de las mismas, fragmentos de las mismas y combinaciones de las mismas.

El término "rotura de doble cadena" o "corte de doble cadena" se refiere a la separación o escisión de ambas cadenas de la doble hélice del ADN. El DSB puede dar lugar a la escisión de ambos soportes en la misma posición, dando lugar a "extremos romos" o a una escisión escalonada que da lugar a una región de ADN monocatenario en el extremo de cada fragmento de ADN, o "extremos pegajosos". Un DSB puede surgir de la acción de una o más nucleasas de ADN.

El término "unión de extremos no homólogos" o "NHEJ" se refiere a una vía que repara roturas de ADN de doble cadena en la que los extremos de la rotura se ligan directamente sin necesidad de una plantilla homóloga.

El término "reparación dirigida por homología" o "HDR" se refiere a un mecanismo en las células para reparar con exactitud y precisión roturas de ADN de doble cadena utilizando una plantilla homóloga para guiar la reparación. La forma más común de HDR es la recombinación homóloga (HR), un tipo de recombinación genética en la que se intercambian secuencias de nucleótidos entre dos moléculas de ADN similares o idénticas.

El término "ácido nucleico", "nucleótido" o "polinucleótido" se refiere a los ácidos desoxirribonucleicos (ADN), los ácidos ribonucleicos (ARN) y sus polímeros en forma monocatenaria, bicatenaria o multicatenaria. El término incluye, entre otros, ADN o ARN monocatenario, bicatenario o multicatenario, ADN genómico, ADNc, híbridos de ADN-ARN o un polímero que comprenda bases de purina y/o pirimidina u otras bases nucleotídicas naturales, modificadas químicamente, modificadas bioquímicamente, no naturales, sintéticas o derivatizadas. En algunas realizaciones, un ácido nucleico puede comprender una mezcla de ADN, ARN y análogos de los mismos. A menos que se limite específicamente, el término abarca los ácidos nucleicos que contienen análogos conocidos de nucleótidos naturales que tienen propiedades de unión similares a las del ácido nucleico de referencia y se metabolizan de forma similar a los nucleótidos naturales. A menos que se indique lo contrario, una secuencia particular de ácido nucleico también abarca implícitamente variantes conservadoramente modificadas de la misma(por ejemplo,sustituciones degeneradas de codones), alelos, ortólogos, polimorfismos de nucleótido único (SNP) y secuencias complementarias, así como la secuencia explícitamente indicada. En concreto, las sustituciones degeneradas de codones pueden lograrse generando secuencias en las que la tercera posición de uno o más codones seleccionados (o de todos) se sustituye por residuos de base mixta y/o desoxinosina (Batzer et al., Nucleic Acid Res. 19:5081 (1991); Ohtsuka et al., J. Biol.Chem.260:2605-2608 (1985); y Rossolini et al., Mol. Cell. Probes 8:91-98 (1994)).

El término "polimorfismo de nucleótido único" o "SNP" se refiere a un cambio de un solo nucleótido dentro de un polinucleótido, incluso dentro de un alelo. Esto puede incluir la sustitución de un nucleótido por otro, así como la supresión o inserción de un solo nucleótido. Lo más habitual es que los SNP sean marcadores bialélicos, aunque también pueden existir marcadores tri y tetraalélicos. A modo de ejemplo no limitativo, una molécula de ácido nucleico que comprende el SNP A\C puede incluir una C o una A en la posición polimórfica.

El término "gen" designa el segmento de ADN implicado en la producción de una cadena polipeptídica. El segmento de ADN puede incluir regiones que preceden y siguen a la región codificante (líder y remolque) implicadas en la transcripción/traducción del producto génico y en la regulación de la transcripción/traducción, así como secuencias intermedias (intrones) entre segmentos codificantes individuales (exones).

El término "casete" se refiere a una combinación de elementos de secuencia genética que pueden ser introducidos como un elemento único y pueden funcionar juntos para lograr un resultado deseado. Un casete suele incluir polinucleótidos en combinaciones que no se encuentran en la naturaleza.

El término "vinculado operablemente" se refiere a dos o más elementos genéticos, como una secuencia codificante de polinucleótidos y un promotor, colocados en posiciones relativas que permiten el funcionamiento biológico adecuado de los elementos, como el promotor que dirige la transcripción de la secuencia codificante.

El término "promotor inducible" se refiere a un promotor que responde a factores ambientales y/o estímulos externos que pueden controlarse artificialmente para modificar la expresión de, o el nivel de expresión de, una secuencia polinucleotídica o se refiere a una combinación de elementos, por ejemplo, un promotor exógeno y un elemento adicional como un trans-activador unido operablemente a un promotor independiente. Un promotor inducible puede responder a factores abióticos como los niveles de oxígeno o a moléculas químicas o biológicas. En algunas realizaciones, las moléculas químicas o biológicas pueden ser moléculas no presentes de forma natural en los seres humanos.

Los términos "vector" y "vector de expresión" se refieren a una construcción de ácido nucleico, generada recombinante o sintéticamente, con una serie de elementos de ácido nucleico especificados que permiten la transcripción de una secuencia polinucleotídica particular en una célula huésped. Un vector de expresión puede formar parte de un plásmido, genoma viral o fragmento de ácido nucleico. Típicamente, un vector de expresión incluye un polinucleótido a transcribir, operativamente ligado a un promotor. El término "promotor" se utiliza en la presente memoria para referirse a un conjunto de secuencias de control de ácido nucleico que dirigen la transcripción de un ácido nucleico. Como se utiliza en la presente memoria, un promotor incluye secuencias de ácido nucleico necesarias cerca del sitio de inicio de la transcripción, como, en el caso de un promotor de tipo polimerasa II, un elemento TATA. Un promotor también puede incluir elementos distales potenciadores o represores, que pueden estar situados a varios miles de pares de bases del lugar de inicio de la transcripción. Otros elementos que pueden estar presentes en un vector de expresión incluyen aquellos que potencian la transcripción(por ejemplo,potenciadores) y terminan la transcripción(por ejemplo,terminadores).

"Recombinante" se refiere a un polinucleótido, polipéptido, célula, tejido u organismo modificado genéticamente. Por ejemplo, un polinucleótido recombinante (o una copia o complemento de un polinucleótido recombinante) es aquel que ha sido manipulado utilizando procedimientos bien conocidos. Un casete de expresión recombinante que comprende un promotor enlazado operablemente a un segundo polinucleótido (por ejemplo, una secuencia codificante) puede incluir un promotor heterólogo al segundo polinucleótido como resultado de manipulación humana(por ejemplo,por procedimientos descritos en Sambrook et al., Molecular Cloning - A Laboratory Manual, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York, (1989) or Current Protocols in Molecular Biology Volumes 1-3, John Wiley & Sons, Inc. (1994-1998)). Un casete de expresión recombinante (o vector de expresión) suele incluir polinucleótidos en combinaciones que no se encuentran en la naturaleza. Por ejemplo, los sitios de restricción manipulados por el hombre o las secuencias del vector plasmídico pueden flanquear o separar el promotor de otras secuencias. Una proteína recombinante es aquella que se expresa a partir de un polinucleótido recombinante, y las células, tejidos y organismos recombinantes son aquellos que comprenden secuencias recombinantes (polinucleótido y/o polipéptido).

Tal como se utiliza en la presente memoria, el término "heterólogo" se refiere al material biológico que se introduce, inserta o incorpora en un organismo receptor (p. ej., huésped) que procede de otro organismo. Normalmente, el material heterólogo que se introduce en el organismo receptor(por ejemplo,una célula huésped) no se encuentra normalmente en ese organismo. El material heterólogo puede incluir, entre otros, ácidos nucleicos, aminoácidos, péptidos, proteínas y elementos estructurales como genes, promotores y casetes. Una célula huésped puede ser, entre otras, una bacteria, una célula de levadura, una célula de mamífero o una célula vegetal. La introducción de material heterólogo en una célula u organismo huésped puede dar lugar, en algunos casos, a la expresión de material heterólogo adicional en o por la célula u organismo huésped. Como ejemplo no limitativo, la transformación de una célula huésped de levadura con un vector de expresión que contiene secuencias de ADN que codifican una proteína bacteriana puede dar lugar a la expresión de la proteína bacteriana por la célula de levadura. La incorporación de material heterólogo puede ser permanente o transitoria. Además, la expresión del material heterólogo puede ser permanente o transitoria.

Los términos "reportero" y "marcador seleccionable" pueden utilizarse indistintamente y se refieren a un producto génico que permite identificar y/o aislar de una población mixta de células una célula que expresa ese producto génico. Dicho aislamiento puede lograrse mediante la eliminación selectiva de las células que no expresen el marcador seleccionable, que puede ser, como ejemplo no limitativo, un gen de resistencia a los antibióticos. Alternativamente, el marcador seleccionable puede permitir la identificación y/o el posterior aislamiento de las células que expresan el marcador como resultado de la expresión de una proteína fluorescente como la GFP o la expresión de un marcador de superficie celular que permite el aislamiento de las células mediante clasificación celular activada por fluorescencia (FACS), clasificación celular activada por magnetismo (MACS) o procedimientos análogos. Los marcadores de superficie celular adecuados incluyen CD8, CD19 y CD19 truncado. Preferentemente, los marcadores de superficie celular utilizados para aislar las células deseadas son moléculas no señalizadoras, como las formas subunitarias o truncadas de CD8, CD19 o CD20. Los marcadores y técnicas adecuados son conocidos en la técnica.

Los términos "cultivo", "cultivar'', "crecimiento", "crecer", "mantenimiento", "mantener", "expansión", "expandir",etc.,al referirse al cultivo celular en sí o al procedimiento de cultivo, pueden utilizarse indistintamente para significar que una célula (por ejemplo, una célula de levadura) se mantiene fuera de su entorno normal en condiciones controladas, por ejemplo, en condiciones adecuadas para la supervivencia. A las células cultivadas se les permite sobrevivir, y el cultivo puede dar lugar a crecimiento, estasis, diferenciación o división celular. El término no implica que todas las células del cultivo sobrevivan, crezcan o se dividan, ya que algunas pueden morir o senecer de forma natural. Las células suelen cultivarse en medios que pueden cambiarse durante el cultivo.

Los términos "sujeto", "individuo" y "paciente" se utilizan indistintamente en la presente memoria para referirse a un vertebrado, preferentemente un mamífero, más preferentemente un ser humano. Los mamíferos incluyen, entre otros, murinos, simios, humanos, animales de granja, animales deportivos y animales de compañía. También se incluyen los tejidos, las células y su progenie de una entidad biológica obtenidos in vivo o cultivados in vitro.

Tal como se utiliza en la presente memoria, el término "administrar" incluye la administración oral, el contacto tópico, la administración como supositorio, la administración intravenosa, intraperitoneal, intramuscular, intralesional, intratecal, intranasal o subcutánea a un individuo. La administración se realiza por cualquier vía, incluida la parenteral y la transmucosa (por ejemplo, bucal, sublingual, palatina, gingival, nasal, vaginal, rectal o transdérmica). La administración parenteral incluye, por ejemplo, la intravenosa, intramuscular, intraarterial, intradérmica, subcutánea, intraperitoneal, intraventricular e intracraneal. Otros modos de administración incluyen, entre otros, el uso de formulaciones liposomales, infusión intravenosa, parches transdérmicos,etc.

El término "tratar" se refiere a un enfoque para obtener resultados beneficiosos o deseados incluyendo, pero no limitado a, un beneficio terapéutico y/o un beneficio profiláctico. Por beneficio terapéutico se entiende cualquier mejora o efecto terapéuticamente relevante sobre una o más enfermedades, afecciones o síntomas sometidos a tratamiento. Para un beneficio profiláctico, las composiciones pueden administrarse a un individuo en riesgo de desarrollar una enfermedad, afección o síntoma particular, o a un individuo que reporte uno o más de los síntomas fisiológicos de una enfermedad, aunque la enfermedad, afección o síntoma aún no se haya manifestado.

El término "cantidad eficaz" o "cantidad suficiente" se refiere a la cantidad de un agente que es suficiente para efectuar resultados beneficiosos o deseados. La cantidad terapéuticamente eficaz puede variar dependiendo de uno o más de los siguientes factores: el individuo y la enfermedad a tratar, el peso y la edad del individuo, la gravedad de la enfermedad, la forma de administración y similares, que pueden determinarse fácilmente por un experto en la técnica. La cantidad específica puede variar en función de uno o varios de los siguientes factores: el agente concreto elegido, el tipo de célula huésped, la localización de la célula huésped en el individuo, el régimen de dosificación a seguir, si se administra en combinación con otros compuestos, el momento de la administración y el sistema físico de administración en el que se transporta.

El término "portador farmacéuticamente aceptable" se refiere a una sustancia que ayuda a la administración de un agente activo a una célula, un organismo o un individuo. "Portador farmacéuticamente aceptable" se refiere a un portador o excipiente que puede incluirse en las composiciones de la invención y que no causa ningún efecto toxicológico adverso significativo en el paciente. Los ejemplos no limitantes de portadores farmacéuticamente aceptables incluyen agua, NaCl, soluciones salinas normales, Ringer's lactato, sacarosa normal, glucosa normal, medios de cultivo celular y similares. Un experto en la técnica reconocerá que otros portadores farmacéuticos son útiles en la presente invención.

El término "degrón" se refiere a una región o porción de una proteína que regula la tasa de degradación proteica. Los degrones pueden estar situados en cualquier parte de una proteína y pueden incluir secuencias cortas de aminoácidos, motivos estructurales o aminoácidos expuestos (por ejemplo, lisina, arginina). Los degrones existen tanto en organismos procariotas como eucariotas. Los degrones pueden clasificarse como dependientes o independientes de la ubiquitina. Para más información sobre los degrones, véase,por ejemplo,Raid, et al. Nat. Rev. Mol. Cell Biol. 9:679-690 (2008); incorporado en la presente memoria por referencia en su totalidad a todos los efectos.

El término "etiqueta de localización celular" se refiere a una secuencia de aminoácidos, también conocida como "señal de localización de proteínas", que dirige una proteína para su localización a una región, compartimento u orgánulo celular o subcelular específico (por ejemplo, secuencia de localización nuclear, señal de retención de Golgi). Las etiquetas de localización celular suelen situarse en el extremo N-terminal o C-terminal de una proteína. El University of Nebraska Medical Center mantiene en línea una base de datos de señales de localización de proteínas (LocSigDB) (genome.unmc.edu/LocSigDB). Para más información sobre las etiquetas de localización celular, véase,por ejemplo,Negi,et al. Database (Oxford).2015: bav003 (2015); incorporado en la presente memoria por referencia en su totalidad a todos los efectos.

El término "elemento de respuesta sintético" se refiere a una secuencia de ADN recombinante que es reconocida por un factor de transcripción y facilita la regulación génica por diversos agentes reguladores. Un elemento de respuesta sintético puede estar situado dentro de una región promotora y/o potenciadora de un gen.

El término "ribozima" se refiere a una molécula de ARN capaz de catalizar una reacción bioquímica. En algunos casos, las ribozimas funcionan en la síntesis de proteínas, catalizando la unión de aminoácidos en el ribosoma. En otros casos, las ribozimas participan en otras funciones de procesamiento del ARN, como el empalme, la replicación viral y la biosíntesis del ARNt. En algunos casos, las ribozimas pueden autodestruirse. Entre los ejemplos no limitantes de ribozimas se incluyen la ribozima HDV, la ribozima Lariat capping (formalmente denominada ribozima de ramificación GIR1), la ribozimag lm S, los intrones autoempalmantes del grupo I y del grupo II, la ribozima hairpin, la ribozima hammerhead, varias moléculas de ARNr, la RNasa P, la ribozima twister, la ribozima VS, la ribozima pistol y la ribozima hatchet. Para más información sobre las ribozimas, véase,por ejemplo,Doherty, et al. Ann. Rev. Biophys. Biomol. Struct. 30: 457-475 (2001); incorporado en la presente memoria por referencia en su totalidad a todos los efectos.

"Porcentaje de similitud", en el contexto de secuencias polinucleotídicas o peptídicas, se determina comparando dos secuencias óptimamente alineadas sobre una ventana de comparación, en la que la parte de la secuencia(por ejemplo,una secuencia de locusmsr) en la ventana de comparación puede comprender adiciones o supresiones(es decir,huecos) en comparación con la secuencia de referencia que no comprende adiciones o supresiones, para una alineación óptima de las dos secuencias. El porcentaje se calcula determinando el número de posiciones en las que el nucleótido o aminoácido idéntico aparece en ambas secuencias para obtener el número de posiciones coincidentes, dividiendo el número de posiciones coincidentes por el número total de posiciones en la ventana de comparación y multiplicando el resultado por 100 para obtener el porcentaje de similitud (por ejemplo, similitud de secuencia).

Cuando un polinucleótido o péptido tiene al menos un 70% de similitud (p.ej., similitud de secuencia), preferentemente al menos aproximadamente 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93, 94%, 95%, 96%, 97%, 98%, 99%, o 100% de similitud, con una secuencia de referencia, cuando se comparan y alinean para una correspondencia máxima sobre una ventana de comparación, o región designada según se mide usando uno de los siguientes algoritmos de comparación de secuencias o por alineación manual e inspección visual, se dice entonces que tales secuencias son "sustancialmente similares" Con respecto a las secuencias de polinucleótidos, esta definición también se refiere al complemento de una secuencia de prueba.

Para la comparación de secuencias, normalmente una secuencia actúa como secuencia de referencia, con la que se comparan las secuencias de prueba. Cuando se utiliza un algoritmo de comparación de secuencias, las secuencias de prueba y de referencia se introducen en un ordenador, se designan las coordenadas de la subsecuencia, si es necesario, y se designan los parámetros del programa del algoritmo de secuencias. Se pueden utilizar los parámetros por defecto del programa o designar parámetros alternativos. A continuación, el algoritmo de comparación de secuencias calcula el porcentaje de similitudes de secuencia de las secuencias de prueba con respecto a la secuencia de referencia, basándose en los parámetros del programa. Para la comparación de secuencias de ácidos nucleicos y proteínas, se utilizan los algoritmos BLAST y BLAST 2.0 y los parámetros por defecto que se comentan a continuación.

Los procedimientos de alineación de secuencias para su comparación son bien conocidos en la técnica. La alineación óptima de secuencias para su comparación puede realizarse, por ejemplo, mediante el algoritmo de homología local de Smith & Waterman, Adv. Appl. Math. 2:482 (1981), mediante el algoritmo de alineación homológica de Needleman & Wunsch, J. Mol. Biol. 48:443 (1970), mediante el procedimiento de búsqueda de similitudes de Pearson & Lipman, Proc. Nat'l. Acad. Sci. USA 85:2444 (1988), mediante implementaciones informatizadas de estos algoritmos (GAP, BESTFIT, FASTA y TFASTA en el Wisconsin Genetics Software Package, Genetics Computer Group, 575 Science Dr., Madison, WI), o mediante alineación manual e inspección visual(véase, por ejemplo,Current Protocols in Molecular Biology (Ausubel et al., eds. 1995 supplement)).

Otros ejemplos de algoritmos adecuados para determinar el porcentaje de similitud de secuencias son los algoritmos BLAST y BLAST 2.0, que se describen en Altschul et al., (1990) J. Mol. Biol. 215: 403-410 y Altschul et al. (1977) Nucleic Acids Res. 25: 3389-3402, respectivamente. El software para realizar análisis BLAST está a disposición del público en el sitio web del Centro Nacional de Información Biotecnológica, ncbi.nlm.nih.gov. El algoritmo consiste en identificar, en primer lugar, los pares de secuencias de alta puntuación (HSP) mediante la identificación de palabras cortas de longitud W en la secuencia de consulta, que coinciden o satisfacen algún umbral de puntuación de valor positivo T cuando se alinean con una palabra de la misma longitud en una secuencia de la base de datos. T se denomina umbral de puntuación de palabras del vecindario (Altschulet al., supra).Estas palabras vecinas iniciales actúan como semillas para iniciar la búsqueda de HSP más largas que las contengan. A continuación, las palabras coincidentes se extienden en ambas direcciones a lo largo de cada secuencia hasta donde se pueda aumentar la puntuación acumulada del alineamiento. Las puntuaciones acumulativas se calculan utilizando, para las secuencias de nucleótidos, los parámetros M (puntuación de recompensa para un par de residuos coincidentes; siempre >0) y N (puntuación de penalización para residuos no coincidentes; siempre <0). El programa BLASTN (para secuencias de nucleótidos) utiliza por defecto un tamaño de palabra (W) de 28, una expectativa (E) de 10, M=1, N=-2, y una comparación de ambas cadenas. Para las secuencias de aminoácidos, el programa BLASTP utiliza por defecto un tamaño de palabra (W) de 3, una expectativa (E) de 10 y la matriz de puntuación BLOSUM62(véase, por ejemplo,Henikoff and Henikoff, Proc. Natl. Acad. Sci. USA 89:10915 (1989)).

El algoritmo BLAST también realiza un análisis estadístico de la similitud entre dos secuencias(véase, por ejemplo,Karlin and Altschul, Proc. Nat'l. Acad. Sci. USA, 90:5873-5787 (1993)). Una medida de la similitud proporcionada por el algoritmo BLAST es la probabilidad de la suma más pequeña (P(N)), que ofrece una indicación de la probabilidad de que se produzca por azar una coincidencia entre dos secuencias de nucleótidos o aminoácidos. Por ejemplo, un ácido nucleico se considera similar a una secuencia de referencia si la menor probabilidad de suma en una comparación del ácido nucleico de prueba con el ácido nucleico de referencia es inferior a aproximadamente 0,2, más preferentemente inferior a aproximadamente 0,01, y lo más preferentemente inferior a aproximadamente 0,001.

IV. Descripción detallada de las realizaciones

La presente invención proporciona composiciones y procedimientos para la edición y cribado genómico de alto rendimiento. La invención proporciona procedimientos que comprenden el uso de casetes de ARN guía de retrón, vectores que comprenden dichos casetes, y moléculas de ADN retrón-donante-guía de la presente invención para modificar ácidos nucleicos de interés en loci diana de interés, y para cribar loci genéticos de interés, en los genomas de células huésped. La presente invención también proporciona composiciones y procedimientos para prevenir o tratar enfermedades genéticas mejorando la edición precisa del genoma para corregir una mutación en genes diana asociados con las enfermedades. También se suministran kits para la edición del genoma y el cribado. La presente invención puede utilizarse con cualquier tipo de célula y en cualquier locus génico que sea susceptible de tecnología de edición genómica mediada por nucleasas.

A. El sistema CRISPR-retrón

En un primer aspecto, la presente invención proporciona un casete de ARN guía de retrón (ARNg). El casete comprende:

(a) un retrón; y

(b) una región codificante de ARN guía (ARNg).

El retrón comprende:

(a) un locusmsr,

(b) una primera región codificante de secuencia de repetición invertida;

(c) un locus msd;

(d) una secuencia de ADN donante localizada dentro del locusmsd;y

(e) una segunda región codificante de secuencia de repetición invertida.

Los productos de transcripción del retrón y de la región codificante del ARNg están físicamente acoplados. En determinadas realizaciones, el ARNg resultante y las secuencias de ADN donante también se acoplan físicamente(por ejemplo,durante la edición del genoma y/o el cribado). En algunas realizaciones, los productos de transcripción se acoplan durante un único evento de transcripción. En determinadas realizaciones, los productos de transcripción del retrón y la región codificante del ARNg se acoplan inicialmente, y posteriormente se desacoplan(p. ej.,tras la transcripción del retrón, o tras la transcripción inversa del transcrito del retrón), en cuyo caso el ARN guía y la secuencia de ADN donante también se desacoplarán físicamente durante la edición del genoma y/o el cribado. En algunos casos, el desacoplamiento puede ser inducido por una ribozima. Un ejemplo no limitativo de una ribozima adecuada es la ribozima del virus de la hepatitis delta (VHD). En algunas realizaciones, el casete comprende además una secuencia ribozima(por ejemplo,la secuencia ribozima del VHD). Una secuencia ejemplar de ribozima del VHD se expone en SEQ ID NÚM.:29

En algunas realizaciones ilustrativas que no forman parte de la presente invención, los productos de transcripción del retrón y de la región codificante del ARNg no están inicialmente acoplados físicamente(es decir,los productos de transcripción se crean en eventos de transcripción separados). Como ejemplo ilustrativo no limitativo, el retrón y la región codificante del ARNg pueden incluirse en dos casetes diferentes de retrón-ARNg, que pueden incluirse en el mismo vector o en vectores diferentes. En algunas realizaciones, la expresión del vector o vectores se produce dentro de una célula huésped. En otras realizaciones, la transcripción del retrón y/o de la región codificante del ARNg se produce fuera de la célula huésped y, a continuación, el producto o productos de la transcripción se introducen en la célula huésped. En algunas realizaciones ilustrativas, los productos de transcripción se crean en eventos de transcripción separados y se unen posteriormente para la edición del genoma y/o el cribado, en cuyo caso el ARNg resultante y la secuencia de ADN donante también se acoplarán físicamente para la edición del genoma y/o el cribado. Dicha unión puede producirse antes o después de la transcripción inversa del transcrito del retrón (esdecir,antes o después de la creación de ADNmm a partir del transcrito del retrón). En algunas realizaciones, los productos de transcripción del retrón y de la región codificante del ARNg dan como resultado una secuencia de ADN donante y un ARNg que nunca se acoplan físicamente. En algunos casos ilustrativos, el retrón y la región codificante del ARNg se encuentran en casetes diferentes y la secuencia de ADN donante y el ARNg resultantes actúan en trans.

La región codificante del ARNg del casete está situada a 3' del retrón o la región codificante del ARNg está situada a 5' del retrón. Las posiciones relativas de la región codificante del ARNg y el retrón pueden seleccionarse, por ejemplo, en función de la nucleasa concreta que se utilice.

En algunas realizaciones, el casete retrón-ARNg tiene al menos aproximadamente 5.000 nucleótidos de longitud. En otras realizaciones, el casete de retrón-ARNg está entre aproximadamente 1.000 y 5.000 (es decir, aproximadamente 1.000, 1.100, 1.200, 1.300, 1.400, 1.500, 1.600, 1.700, 1.800, 1.900, 2.000, 2.100, 2.200, 2.300, 2.400, 2.500, 2.600, 2.700, 2.800, 2.900, 3.000, 3.100, 3.200, 3.300, 3.400, 3.500, 3.600, 3.700, 3.800, 3.900, 4.000, 4.100, 4.200, 4.300, 4.400, 4.500, 4.600, 4.700, 4.800, 4.900 o 5.000) nucleótidos de longitud. En otras realizaciones, el casete tiene entre 300 y 1.000 nucleótidos de longitud (es decir, entre 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950 o 1.000). En determinadas realizaciones, el casete tiene una longitud de entre 200 y 300 nucleótidos (es decir, aproximadamente 200, 210, 220, 230, 240, 250, 260, 270, 280, 290 o 300). En otras realizaciones, el casete tiene entre 30 y 200(es decir,30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190 o 200) nucleótidos de longitud. En algunas realizaciones, el casete tiene aproximadamente 200(es decir,entre 100 y 300, 150 y 250, 175 y 225, o 190 y 210) nucleótidos de longitud.

En otras realizaciones, el casete comprende además una o más secuencias que tienen homología con un sitio de clonación vectorial. Estas secuencias homológicas vectoriales pueden tener aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, o más nucleótidos de longitud. En algunos casos, las secuencias homológicas del vector tienen aproximadamente 20 nucleótidos de longitud. En otros casos, la secuencia homológica del vector tiene aproximadamente 15 nucleótidos de longitud. En otros casos, las secuencias homológicas del vector tienen aproximadamente 25 nucleótidos de longitud.

En un segundo aspecto, la presente invención proporciona un vector que comprende un casete de ARN guía de retrón de la presente invención. En algunas realizaciones, el vector comprende además un promotor. Preferentemente, el promotor está unido de forma operativa al casete. En determinadas realizaciones, el promotor es inducible. En algunos casos, el promotor es un promotor de ARN polimerasa II. En otros casos, el promotor es un promotor de ARN polimerasa III. En determinados casos, se utiliza una combinación de promotores. En algunas otras realizaciones, el vector comprende además una secuencia terminadora. Los vectores de la presente invención pueden incluir vectores de expresión recombinante comercialmente disponibles y fragmentos y variantes de los mismos. En la presente memoria se describen ejemplos de promotores y vectores de expresión recombinantes adecuados, que también serán conocidos por los expertos en la técnica.

Los vectores de la presente invención pueden comprender además una secuencia codificante de transcriptasa inversa (RT) y, opcionalmente, pueden comprender además una secuencia de localización nuclear (NLS). En algunos casos, la NLS estará situada a 5' de la secuencia codificante RT.

Los vectores de la presente invención pueden comprender además una secuencia codificante de nucleasa. La secuencia puede codificar Cas9, Cpfl o cualquier otra nucleasa adecuada. En la presente memoria se proporcionan ejemplos de nucleasas adecuadas, que también serán conocidas por los expertos en la técnica.

Cuando el vector incluye una secuencia codificante RT y/o una secuencia codificante nucleasa, la expresión del casete retrón-ARNg y la secuencia codificante RT y/o la secuencia codificante nucleasa pueden estar todas bajo el control de un único promotor. Alternativamente, la expresión del casete retrón-ARNg y la secuencia codificante RT y/o la secuencia codificante nucleasa pueden estar cada una bajo el control de un promotor diferente. También son posibles otras combinaciones. Como ejemplo no limitativo, la expresión del casete retrón-ARNg puede estar bajo el control de un promotor, mientras que la expresión de la secuencia codificante RT y/o la secuencia codificante nucleasa están bajo el control de otro promotor. Como otro ejemplo no limitante, la expresión del casete retrón-ARNg y la expresión de la secuencia codificante RT pueden estar bajo el control de un promotor, mientras que la expresión de la secuencia codificante nucleasa puede estar bajo el control de otro promotor. Como otro ejemplo no limitante, la expresión del casete retrón-ARNg y la expresión de la secuencia codificante de nucleasa pueden estar bajo el control de un promotor, mientras que la secuencia codificante de RT está bajo el control de otro promotor. En determinadas realizaciones, uno o más de los promotores son inducibles. Como ejemplo no limitativo, el vector puede comprender un casete retrón-ARNg bajo el control de un promotor Gal7, una secuencia codificante RT bajo el control de un promotor Gal10, y una secuencia codificante nucleasa(porejemplo, Cas9) bajo el control de un promotor Gal1. En la presente memoria se describen ejemplos no limitativos de otros promotores adecuados. En otras realizaciones, el vector contiene una unidad reportera que incluye una secuencia de nucleótidos que codifica un polipéptido reportero(por ejemplo,un polipéptido detectable, un polipéptido fluorescente o un marcador seleccionable(por ejemplo,URA3)).

El tamaño del vector dependerá del tamaño de los componentes individuales dentro del vector,por ejemplo,el casete retrón-ARNg, la secuencia codificante RT, la secuencia codificante nucleasa, NLS, etcétera. En algunas realizaciones, el vector tiene menos de 1.000 nucleótidos de longitud (es decir, menos de 1.000, 950, 900, 850, 800, 750, 700, 650, 600, 550 o 500). En otras realizaciones, el vector está entre aproximadamente 1.000 y aproximadamente 20.000(es decir,aproximadamente 1.000, 1.500, 2.000, 2.500, 3.000, 3.500, 4.000, 4.500, 5.000, 5.500, 6.000, 6.500, 7.000, 7.500, 8.000, 8.500, 9.000, 9.500, 10.000, 10.500, 11.000, 11.500, 12.000, 12.500, 13.000, 13.500, 14.000, 14.500, 15.000, 15.500, 16.000, 16.500, 17.000, 17.500, 18.000, 18.500, 19.000, 19.500 o 20.000) nucleótidos de longitud. En particular, el vector tiene más de 20.000 nucleótidos de longitud.

En un tercer aspecto, la presente invención proporciona una molécula guía de ADN donante de retrón. La molécula guía de ADN donante de retrón comprende:

(a) una transcripción retrón; y

(b) una molécula de ARN guía (ARNg).

La transcripción retrón comprende:

(a) una regiónmsr;

(b) una primera secuencia de repetición invertida;

(c) una regiónmsd;

(d) una región codificante de la secuencia de ADN donante que se encuentra dentro de la regiónmsd; y

(e) una segunda secuencia de repetición invertida.

El transcrito retrón y la molécula de ARNg están físicamente acoplados. En determinadas realizaciones, la secuencia de ADN donante resultante y el ARNg también se acoplan físicamente(p. ej.,durante la edición del genoma y/o el cribado). En algunas realizaciones, el transcrito retrón y el ARNg se acoplan durante un único evento de transcripción.

En determinadas realizaciones, el transcrito retrónico y el ARNg se acoplan inicialmente, y posteriormente se desacoplan(por ejemplo,tras la transcripción, o tras la transcripción inversa del transcrito retrónico), en cuyo caso la secuencia de ADN donante y el ARNg también se desacoplarán físicamente durante la edición genómica y/o el cribado.

En algunos casos, el desacoplamiento puede ser inducido por una ribozima. Un ejemplo no limitativo de una ribozima adecuada es una ribozima del virus de la hepatitis delta (VHD). En algunas realizaciones, la molécula guía de ADN donante de retrón comprende además una ribozima (p. ej., ribozima de VHD). Un ejemplo no limitativo de esta disposición se muestra en la FIG. 5. En algunas realizaciones, la molécula guía de ADN donante retrón produce un ARNg y una secuencia de ADN donante que nunca se acoplan físicamente.

Se pueden utilizar una o más ribozimas para procesar o modificar la molécula de ADN-guía donante de retrón. Como ejemplo no limitativo, tras la transcripción bajo el control de un promotor de ARN polimerasa II, puede utilizarse una ribozima (p.ej.,la ribozima HDV) para escindir el casquete 5' y la señal de poliadenilación 3' tras la exportación de la molécula de ADN-guía donante de retrón al citoplasma. El ejemplo de casete de ARN guía de retrón mostrado en la FIG. 3 ilustra la colocación de una ribozima HDV para el procesamiento posterior a la transcripción.

En algunas realizaciones, el transcrito retrón y el ARNg se crean en eventos de transcripción separados y posteriormente se unen. Tanto si el transcrito retrón y el ARNg se crean en un evento de transcripción o en eventos de transcripción diferentes, la transcripción puede ocurrir dentro de una célula (por ejemplo, dentro de una célula huésped que comprende uno o más casetes o uno o más vectores de la presente invención), o fuera de una célula huésped (esdecir,en cuyo caso el transcrito retrón y el ARNg se introducen en la célula huésped).

La molécula de ARNg está situada a 3' del transcrito del retrón o la molécula de ARNg está situada a 5' del transcrito del retrón. Las posiciones relativas del ARNg y del transcrito retrón pueden seleccionarse, por ejemplo, en función de la nucleasa concreta que se utilice.

También se proporcionan en la presente invención moléculas que comprenden además una molécula multicopia de ADN monocatenario (ADNmm) que comprende ARN y ADN(p. ej.,tras la transcripción inversa de la transcripción del retrón, dando como resultado una molécula híbrida ramificada de ARN-ADN). En algunas realizaciones, la secuencia de ADN donante está físicamente acoplada al ARNg, en virtud de que el ADNmm está físicamente acoplado al ARNg. En algunos casos, al menos parte del contenido de ARN del ADNmm se degrada (por ejemplo, por una RNasa como la RNasa H). En algunas realizaciones, la secuencia de ADN donante y el ARNg se acoplan inicialmente y posteriormente se desacoplan (por ejemplo, por escisión del ADNm del ARNg). En algunas realizaciones, la secuencia de ADN donante y el ARNg nunca se acoplan físicamente.

1. Retrones

Los retrones se conocen desde hace tiempo como una clase de retroelemento, descubiertos por primera vez en bacterias gramnegativas comoMyxococcus xanthus (p.ej., retrones Mx65 y Mx162),Stigmatella aurantiaca (p. ej.,retrón Sa163) yEscherichia coli(p. ej.,retrones Ec48, Ec67, Ec73, Ec78, Ec83, Ec86 y Ec107). También se encuentran retrones enSalmonella typhimurium(por ejemplo, retrón St85),Salmonella enteritidis, Vibrio cholera(por ejemplo, retrón Vc95),Vibrio parahaemolyticus(por ejemplo, retrón Vp96),Klebsiella pneumoniae, Proteus mirabilis, Xanthomonas campestris, Rhizobiumsp,Bradyrhizobiumsp.,Ralstonia metallidurans, Nannocystis exedens(por ejemplo, retrón Ne144),Geobacter sulfurreducens, Tnchodesmium erythraeum, Nostoc punctiforme, Nostocsp.,Staphylococcus aureus, Fusobacterium nucleatumyFlexibacter elegans.En un aspecto, la presente invención proporciona casetes de ARN guía de retrón que comprenden un retrón. En algunas realizaciones, el retrón se deriva del retrón Ec86 deE. coli,que se muestra en la FIG. 2.

Los retrones median la síntesis en las células huésped de moléculas multicopia de ADN monocatenario (ADNmm), que resultan de la transcripción inversa de un transcrito de retrón y típicamente incluyen un componente de ADN y un componente de ARN. Al parecer, las moléculas nativas de ADNmm existen como híbridos de ADN-ARN monocatenario, caracterizados por una estructura que comprende un ADN monocatenario que se ramifica a partir de un residuo de guanosina interno de una molécula de ARN monocatenario en un enlace 2',5'-fosfodiéster. En algunas realizaciones de la presente invención, al menos parte del contenido de ARN de la molécula de ADNmm se degrada. En algunos casos, el contenido de ARN es degradado por la RNasa H.

Se ha descubierto que los retrones nativos consisten en el gen de la transcriptasa inversa (RT) y los locimsrymsdbajo el control de un único promotor. En algunas realizaciones de la presente invención, un vector que comprende un casete de ARN guía de retrón comprende además una secuencia que codifica una RT En otras realizaciones, se proporcionan procedimientos en los que la RT está codificada en un plásmido separado del casete de ARN guía de retrón. En otras realizaciones, la RT está codificado en una secuencia que se ha integrado en el genoma de la célula huésped.

La regiónmsdde un transcrito retrón codifica típicamente para el componente ADN del ADNm, y la regiónmsrde un transcrito retrón codifica típicamente para el componente ARN del ADNm. Los locimsrymsdtienen extremos superpuestos, y pueden estar orientados uno frente al otro con un promotor situado corriente arriba del locusmsrque transcribe a través de los locimsrymsd.Ejemplos de secuencias de locusmsdse exponen en SEQ ID NÚM.: 19 y 30. Sin embargo, un experto en la técnica apreciará que la secuencia del locusmsdvariará, dependiendo de la secuencia particular de ADN donante que se encuentre dentro del locusmsd.

Una secuencia ejemplar del locusmsrse expone en SEQ ID NÚM.: 18. En algunas realizaciones, el locusmsrdentro del retrón de un casete retrón-ARNg de la presente invención comprende la secuencia de nucleótidos establecida en SEQ ID NÚM.: 18. En otras realizaciones, el locusmsrcomprende una secuencia de nucleótidos que tiene al menos entre un 70 y un 99 por ciento de similitud(por ejemplo, al menos entre un 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98 o 99 por ciento de similitud) con la secuencia de nucleótidos establecida en SEQ ID NÚM.: 18.

Las regionesmsdymsrde los transcritos retrón generalmente contienen secuencias de repetición invertida primera y segunda, que juntas forman una estructura de tallo estable. La región combinadamsr-msddel transcrito retrón no sólo sirve como molde para la transcripción inversa, sino que, en virtud de su estructura secundaria, también sirve como cebador(es decir,se autoceba) para la síntesis de ADNmm por una transcriptasa inversa. En los casetes de ARN guía de retrón de la presente invención, la primera región codificante de la secuencia de repetición invertida está situada dentro del extremo 5' del locusmsr.La segunda región codificante de la secuencia de repetición invertida se encuentra a 3' del locusmsd.En las moléculas de ADN-guía donante de retrón de la presente invención, la primera secuencia repetida invertida está situada dentro del extremo 5' de la regiónmsr. La segunda secuencia de repetición invertida se encuentra a 3' de la regiónmsd.Un ejemplo no limitativo se muestra en la FIG. 4, en el que los locimsrymsdestán dispuestos en orientaciones opuestas. La primera región codificante de repetición de secuencia invertida se muestra en el extremo 5' del casete, mientras que la segunda región codificante de repetición de secuencia invertida se muestra cerca del extremo 3' del casete.

Secuencias ejemplares para regiones codificantes de secuencias repetidas invertidas se exponen en SEQ ID NÚM.: 16 y 17. En algunas realizaciones, un retrón que se encuentra dentro de un casete retrón-ARNg de la presente invención contiene una región codificante de secuencia de repetición invertida que comprende la secuencia de nucleótidos establecida en SEQ ID NÚM.: 16 o 17. Como ejemplo no limitativo, el retrón puede contener una primera región codificante de secuencia repetida invertida que comprende SEQ ID NÚM.: 16 y una segunda región codificante de secuencia de repetición invertida que comprende SEQ ID NÚM.: 17, oviceversa.En otras realizaciones, una región codificante de secuencia de repetición invertida comprende una secuencia de nucleótidos que tiene al menos entre aproximadamente 70 y aproximadamente 99 por ciento de similitud(por ejemplo,al menos aproximadamente 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98 o 99 por ciento de similitud) con la secuencia de nucleótidos establecida en SEQ ID NÚM.: 16 o 17. Como ejemplo no limitante, el retrón puede contener una primera región codificante de secuencia repetida invertida que tenga al menos entre un 70 y un 99 por ciento de similitud con la SEQ ID NÚM.:16 y una segunda región codificante de secuencia repetida invertida que tenga al menos entre un 70 y un 99 por ciento de similitud con la SEQ ID NÚM.:17, oviceversa.Un experto en la técnica comprenderá que la secuencia de una región codificante de secuencia repetida invertida puede variarse, siempre que la secuencia de la región codificante de secuencia repetida invertida homóloga dentro del mismo retrón también se varíe de forma que las dos secuencias repetidas invertidas resultantes(es decir,presentes dentro de un transcrito de retrón) sean complementarias y permitan la formación de una estructura de tallo estable.

En las realizaciones alternativas de la presente invención puede utilizarse cualquier número de RT, incluyendo RT procariotas y eucariotas. Si se desea, la secuencia de nucleótidos de una RT nativa puede modificarse, por ejemplo, utilizando técnicas conocidas de optimización de codones, de modo que se optimice la expresión dentro del hospedador deseado. Por optimización de codones se entiende la selección de nucleótidos de ADN apropiados para la síntesis de bloques de construcción de oligonucleótidos, y su posterior ensamblaje enzimático, de un gen estructural o fragmento del mismo con el fin de aproximarse al uso de codones dentro del huésped.

La RT puede estar dirigida al núcleo para que pueda tener lugar una utilización eficiente de la plantilla de ARN. Un ejemplo de tal RT incluye cualquier RT conocido, procariota o eucariota, fusionado a una secuencia o señal de localización nuclear (NLS). En algunas realizaciones de vectores de la presente invención, el vector comprende además una NLS. En determinadas realizaciones de los vectores de la presente invención, el NLS está situado a 5' de la secuencia codificante RT También puede utilizarse cualquier NLS adecuada, siempre que la NLS ayude a localizar la RT dentro del núcleo. El uso de un RT en ausencia de un NLS también puede utilizarse si la RT está presente dentro del compartimento nuclear a un nivel que sintetice un producto a partir de la plantilla de ARN.

Para más información sobre retrones,véase, por ejemplo,la Patente de los EE. UU. Núm. 8.932.860 y Lampson, et al. Cytogenet. Res. 110:6159-6168 (1984).

2. Moléculas de ARN guía (ARNg)

Los casetes de ARN guía retrón y las moléculas de ADN guía donante retrón de la presente invención comprenden regiones codificantes de ARN guía (ARNg) y moléculas de ARNg, respectivamente. Los ARNg para su uso en el sistema CRISPR-retrón de la presente invención incluyen típicamente una secuencia de ARNcr que es complementaria a una secuencia de ácido nucleico diana y puede incluir una secuencia andamio(por ejemplo,tracrRNA) que interactúa con una nucleasa Cas (por ejemplo, Cas9) o una variante o fragmento de la misma, dependiendo de la nucleasa particular que se utilice.

El ARNg puede comprender cualquier secuencia de ácido nucleico que tenga suficiente complementariedad con una secuencia polinucleotídica diana (p.ej.,secuencia de ADN diana) para hibridar con la secuencia diana y dirigir la unión específica de secuencia de una nucleasa a la secuencia diana. El ARNg puede reconocer una secuencia de motivo adyacente al protoespaciador (PAM) que puede estar cerca o adyacente a la secuencia de ADN diana. El sitio del ADN diana puede encontrarse inmediatamente a 5' de una secuencia PAM, que es específica de la especie bacteriana de la Cas9 utilizada. Por ejemplo, la secuencia PAM del Cas9 derivado deStreptococcus pyogeneses NGG; la secuencia PAM del Cas9 derivadode Neisseria meningitidises NNNNGATT; la secuencia PAM del Cas9derivado de Streptococcus thermophiluses NNAGAA; y la secuencia PAM del Cas9derivado de Treponema denticolaes NAAAAC. En algunas realizaciones, la secuencia pAm puede ser 5'-NGG, en la que N es cualquier nucleótido; 5'-NRG, en la que N es cualquier nucleótido y R es una purina; o 5-NNGRR, en la que N es cualquier nucleótido y R es una purina. Para el sistema S.pyogenes,la secuencia de ADN diana seleccionada debe preceder inmediatamente(es decir,estar situada a 5' de) una PAM 5'NGG, en la que N es cualquier nucleótido, de forma que la secuencia guía del ARN diana de ADN(por ejemplo,ARNg) se empareje con la cadena opuesta para mediar en la escisión a aproximadamente 3 pares de bases corriente arriba de la secuencia PAM.

En otros casos, el sitio de ADN diana puede estar inmediatamente a 3' de una secuencia PAM,por ejemplo,cuando se utiliza la endonucleasa Cpfl. En algunas realizaciones, la secuencia PAM es 5'-TTTN, donde N es cualquier nucleótido. Cuando se utiliza la endonucleasa Cpfl, la secuencia de ADN diana(es decir, la secuencia de ADN genómico que tiene complementariedad para el ARNg) normalmente seguirá(es decir,estará situada a 3' de) la secuencia PAM. Se sabe que dos nucleasas de la familia CP1, AsCpf1 (deAcidaminococcus)y LbCpfl (deLachnospiraceae)funcionan en células humanas. Tanto AsCpf1 como LbCpf1 cortan 19 pb después de la secuencia PAM en la cadena diana y 23 pb después de la secuencia PAM en la cadena opuesta de la molécula de ADN.

En algunas realizaciones, el grado de complementariedad entre una secuencia guía del ARNg(es decir,la secuencia del ARNcr) y su secuencia diana correspondiente, cuando se alinean óptimamente utilizando un algoritmo de alineación adecuado, es de aproximadamente o más del 50%, 60%, 75%, 80%, 85%, 90%, 95%, 97,5%, 99%, o más. La alineación óptima puede determinarse con el uso de cualquier algoritmo adecuado para alinear secuencias, entre cuyos ejemplos no limitativos se incluyen el algoritmo de Smith-Waterman, el algoritmo de Needleman-Wunsch, algoritmos basados en la transformada de Burrows-Wheeler(p.ej., el Burrows Wheeler Aligner), ClustalW, Clustal X, BLAT, Novoalign (Novocraft Technologies, ELAND (Illumina, San Diego, Calif.), SOAP (disponible en soap.genomics.org.cn), y Maq (disponible en maq.sourceforge.net). En algunas realizaciones, una secuencia de ARNcr tiene aproximadamente 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 75 o más nucleótidos de longitud. En algunos casos, una secuencia de ARNcr tiene aproximadamente 20 nucleótidos de longitud. En otros casos, una secuencia de ARNcr tiene aproximadamente 15 nucleótidos de longitud. En otros casos, una secuencia de ARNcr tiene aproximadamente 25 nucleótidos de longitud.

La secuencia de nucleótidos de un ARNg modificado puede seleccionarse utilizando cualquiera de los programas informáticos basados en web descritos anteriormente. Entre las consideraciones para seleccionar un ARN dirigido al ADN se incluyen la secuencia PAM para la nucleasa (por ejemplo, Cas9 o Cpfl) que se va a utilizar y las estrategias para minimizar las modificaciones fuera del objetivo. Las herramientas, como la CRISPR Design Tool, pueden proporcionar secuencias para preparar el ARNg, para evaluar la eficacia de la modificación de la diana y/o para evaluar la escisión en sitios fuera de la diana.

En algunas realizaciones, la longitud de la molécula de ARNg es de aproximadamente 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, 200, o más nucleótidos de longitud. En algunos casos, la longitud del ARNg es de aproximadamente 100 nucleótidos. En otros casos, el ARNg tiene aproximadamente 90 nucleótidos de longitud. En otros casos, el ARNg tiene aproximadamente 110 nucleótidos de longitud.

3. Secuencias de ADN del donante

En un aspecto, la presente invención proporciona casetes de ARN guía de retrón que comprenden un retrón que comprende una secuencia de ADN donante. En otro aspecto, la presente invención proporciona moléculas guía de ADN donante retrón que comprenden transcritos retrón que comprenden regiones codificantes de secuencias de ADN donante, los transcritos retrón que posteriormente se transcriben inversamente para producir ADNm que comprende una secuencia de ADN donante. La secuencia o secuencias de ADN donante participan en la reparación dirigida por homología (HDR) de loci genéticos de interés tras la escisión del ADN genómico en el locus o loci genético de interés(es decir, después de que una nucleasa haya sido dirigida para cortar en un locus genético específico de interés, dirigido por la unión del ARNg a una secuencia diana).

En algunas realizaciones, la plantilla de reparación donante recombinante(es decir, la secuencia de ADN donante) comprende dos brazos de homología que son homólogos a porciones de la secuencia del locus genético de interés a cada lado de un sitio de corte de nucleasa Cas(por ejemplo,nucleasa Cas9 o Cpfl). Los brazos homológicos pueden ser de la misma longitud o tener longitudes diferentes. En algunos casos, cada brazo homológico tiene al menos entre un 70 y un 99 por ciento de similitud(es decir,al menos un 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98 o 99 por ciento de similitud) con una parte de la secuencia del locus genético de interés a ambos lados del sitio de corte de una nucleasa(por ejemplo, nucleasa Cas). En otras realizaciones, la plantilla de reparación donante recombinante comprende o comprende además una unidad reportera que incluye una secuencia de nucleótidos que codifica un polipéptido reportero(por ejemplo,un polipéptido detectable, un polipéptido fluorescente o un marcador seleccionable). Si están presentes, los dos brazos homológicos pueden flanquear el casete reportero y son homólogos a partes del locus genético de interés a ambos lados del sitio de corte de la nucleasa Cas. La unidad reportera puede comprender además una secuencia que codifica un péptido de autolimpieza, una o más señales de localización nuclear y/o un polipéptido fluorescente (por ejemplo, GFP supercarga (sfGFP)). En la presente memoria se describen otros reporteros adecuados.

En algunas realizaciones, la secuencia de ADN donante es de al menos aproximadamente 500 a 10.000(es decir,al menos 500, 600, 700, 800, 900, 1.000, 1.100, 1.200, 1.300, 1.400, 1.500, 1.600, 1.700, 1.800, 1.900, 2.000, 2.500, 3.000, 3.500, 4.000, 4.500, 5.000, 5.500, 6.000, 6.500, 7.000, 7.500, 8.000, 8.500, 9.000, 9.500, o 10.000) nucleótidos de longitud. En algunas realizaciones, la secuencia de ADN donante está comprendida entre 600 y 1.000(esdecir,aproximadamente 600, 610, 620, 630, 640, 650, 660, 670, 680, 690, 700, 710, 720, 730, 740, 750, 760, 770, 780, 790, 800, 810, 820, 830, 840, 850, 860, 870, 880, 890, 900, 910, 920, 930, 940, 950, 960, 970, 980, 990, o 1.000) nucleótidos de longitud. En algunas realizaciones, la secuencia de ADN donante está comprendida entre 100 y 500(esdecir,aproximadamente 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330, 340, 350, 360, 370, 380, 390, 400, 410, 420, 430, 440, 450, 460, 470, 480, 490, o 500) nucleótidos de longitud. En algunas realizaciones, la secuencia de ADN donante tiene menos de 100 nucleótidos de longitud(es decir,menos de 100, 95, 90, 85, 80, 75, 70, 65, 60, 55, 50, 45, 40, 35, 30, 25, 20, 15, 10 o 5).

B. Sistema CRISPR/Cas

El sistema CRISPR/Cas de modificación del genoma incluye una nucleasa Cas(por ejemplo,Cas9 o nucleasa Cpfl) o una variante o fragmento o combinación de las mismas y un ARN dirigido al ADN(por ejemplo,ARN guía (ARNg)). El ARNg puede contener una secuencia guía que dirige la nucleasa Cas al ADN genómico diana y una secuencia de andamiaje que interactúa con la nucleasa Cas(por ejemplo,tracrRNA). El sistema puede incluir opcionalmente una plantilla de reparación del donante. En otros casos, puede utilizarse un fragmento de una nucleasa Cas o una variante de la misma con las propiedades deseadas (p.ej.,capaz de generar roturas de cadena simple o doble y/o de modular la expresión génica). La plantilla de reparación donante puede incluir una secuencia de nucleótidos que codifica un polipéptido reportero, como una proteína fluorescente o un marcador de resistencia a antibióticos, y brazos de homología homólogos al ADN diana y que flanquean el sitio de modificación génica.

El sistema de nucleasas CRISPR (Clustered Regularly Interspaced Short Palindromic Repeats)/Cas (CRISPR-associated protein) es un sistema de nucleasas de ingeniería basado en un sistema bacteriano que puede utilizarse para la ingeniería genómica. Se basa en parte en la respuesta inmunitaria adaptativa de muchas bacterias y arqueas. Cuando un virus o plásmido invade una bacteria, la respuesta "inmunitaria" convierte segmentos del ADN del invasor en ARN CRISPR (ARNcr). A continuación, el ARNcr se asocia, a través de una región de complementariedad parcial, con otro tipo de ARN denominado ARNtracr para guiar a la nucleasa Cas (por ejemplo, Cas9) hasta una región homóloga al ARNcr en el ADN diana denominada "protospacer" La nucleasa Cas (por ejemplo, Cas9) corta el ADN para generar extremos romos en la rotura de la doble cadena en los lugares especificados por una secuencia guía de 20 nucleótidos contenida en el transcrito del ARNcr. La nucleasa Cas (por ejemplo, Cas9) puede necesitar tanto el ARNcr como el ARNtracr para reconocer y cortar el ADN en un sitio específico. Este sistema se ha diseñado de tal manera que el ARNcr y el ARNtracr, si es necesario, se pueden combinar en una molécula (el "ARN guía único" o "ARNsg"), y la parte equivalente al ARNcr del ARN guía se puede diseñar para guiar a la nucleasa Cas (p. ej., Cas9) hacia cualquier secuencia deseada(véase, p. ej.,Jinek et al. (2012) Science, 337:816-821; Jineket al.(2013) eLife,2:e00471; Segal (2013) eLife, 2:e00563). Por lo tanto, el sistema CRISPR/Cas puede diseñarse para crear una rotura de doble cadena en una diana deseada en el genoma de una célula, y aprovechar los mecanismos endógenos de la célula para reparar la rotura inducida mediante reparación dirigida por homología (HDR) o unión de extremos no homólogos (NHEJ).

La nucleasa Cas puede dirigir la escisión de una o ambas cadenas en un lugar de una secuencia de ADN diana. Por ejemplo, la nucleasa Cas puede ser una nicasa con uno o más dominios catalíticos inactivados que escinde una única cadena de una secuencia de ADN diana.

Los ejemplos no limitantes de nucleasas Cas incluyen Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9 (también conocidas como Csn1 y Csx12), Cas10, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, Cpfl, homólogos de los mismos, variantes de los mismos, fragmentos de los mismos, mutantes de los mismos, derivados de los mismos y combinaciones de los mismos. Existen tres tipos principales de nucleasas Cas (tipo I, tipo II y tipo III) y 10 subtipos, incluidas 5 proteínas de tipo I, 3 de tipo II y 2 de tipo III(véase,por ejemplo, Hochstrasser and Doudna, Trends Biochem Sci, 2015:40(1):58-66). Las nucleasas Cas de tipo II incluyen Cas1, Cas2, Csn2, Cas9 y Cpfl. Estas nucleasas Cas son conocidas por los expertos en la técnica. Por ejemplo, la secuencia de aminoácidos del polipéptido Cas9 de tipo silvestre deStreptococcus pyogenesse expone, porejemplo,en NBCI Ref. Seq. NP_269215, y la secuencia de aminoácidos del polipéptido Cas9 de tipo silvestre deStreptococcus thermophilusse expone,por ejemplo,en NBCI Ref. Seq. Núm. WP_011681470. Además, la secuencia de aminoácidos deAcidaminococcus sp. BV3L6se expone,por ejemplo,en NBCI Ref. Seq. Núm. WP_021736722.1. Algunas endonucleasas relacionadas con CRISPR que son útiles en la presente invención se desvelan,por ejemplo,en la Publicación de Solicitud de Estados Unidos Núm.

2014/0068797, 2014/0302563y 2014/0356959.

Las nucleasas Cas, por ejemplo, Los polipéptidos Cas9, pueden derivarse de una variedad de especies bacterianas incluyendo, pero sin limitarse a,Veillonella atypical, Fusobacterium nucleatum, Filifactor alocis, Solobacterium moorei, Coprococcus catus, Treponema denticola, Peptoniphilus duerdenii, Catenibacterium mitsuokai, Streptococcus mutans, Listeria innocua, Staphylococcus pseudintermedius, Acidaminococcus intestine, Olsenella uli, Oenococcus kitaharae, Bifidobacterium bifidum, Lactobacillus rhamnosus, Lactobacillus gasseri, Finegoldia magna, Mycoplasma mobile,Mycoplasmagallisepticum, Mycoplasma ovipneumoniae, Mycoplasma canis, Mycoplasma synoviae, Eubacterium rectale, Streptococcus thermophilus, Eubacterium dolichum, Lactobacillus coryniformissubsp.Torquens, Ilyobacter polytropus, Ruminococcus albus, Akkermansia muciniphila, Acidothermus cellulolyticus, Bifidobacterium longum, Bifidobacterium dentium, Corynebacterium diphtheria, Elusimicrobium minutum, Nitratifractor salsuginis, Sphaerochaeta globus, Fibrobacter succinogenes subsp. Succinogenes, Bacteroides fragilis, Capnocytophaga ochracea, Rhodopseudomonas palustris, Prevotella micans, Prevotella ruminicola, Flavobacterium columnare, Aminomonas paucivorans, Rhodospirillum rubrum, Candidatus Puniceispirillum marinum, Verminephrobacter eiseniae, Ralstonia syzygii, Dinoroseobacter shibae, Azospirillum, Nitrobacter hamburgensis, Bradyrhizobium, Wolinella succinogenes, Campylobacter jejunisubsp.Jejuni, Helicobacter mustelae, Bacillus cereus, Acidovorax ebreus,Clostridium perfringens, Parvibaculum lavamentivorans, Roseburia intestinalis, Neisseria meningitidis, Pasteurella multocida subsp. Multocida, Sutterella wadsworthensis, proteobacterium, Legionella pneumophila, Parasutterella excrementihominis, Wolinella succinogenesyFrancisella novicida.

"Cpfl" se refiere a una proteína nucleasa de unión a ADN de doble cadena guiada por ARN que es una nucleasa Cas de tipo II. El Cpfl de tipo silvestre contiene un dominio de endonucleasa similar al RuvC de Cas9, pero no tiene un dominio de endonucleasa HNH y la región N-terminal de Cpfl no tiene el lóbulo de reconocimiento de hélice alfa que posee Cas9. La proteína de tipo silvestre requiere una sola molécula de ARN, ya que no es necesario tracrARN. El Cpfl de tipo silvestre crea cortes escalonados y utiliza un motivo adyacente al protoespaciador (PAM) rico en T que se encuentra a 5' de la secuencia guía de ARN. Las enzimas Cpfl se han aislado, por ejemplo, deAcidaminococcusyLachnospiraceae.

"Cas9" se refiere a una proteína nucleasa o proteína mellasa de unión a ADN de doble cadena guiada por ARN que es una nucleasa Cas de tipo II. La nucleasa Cas9 de tipo silvestre tiene dos dominios funcionales, por ejemplo, RuvC y HNH, que cortan diferentes cadenas de ADN. La enzima de tipo silvestre requiere dos moléculas de ARN(porejemplo, un ARNcr y un ARNtracr), o alternativamente, una única molécula de fusión (por ejemplo, un ARNg que comprenda un ARNcr y un ARNtracr). La Cas9 de tipo silvestre utiliza un motivo adyacente al protoespaciador (PAM) rico en G que se encuentra a 3' de la secuencia diana del ARN guía y crea cortes de doble cadena con extremos romos. Cas9 puede inducir roturas de doble cadena en el ADN genómico (ADN diana) cuando ambos dominios funcionales están activos. La enzima Cas9 puede comprender uno o más dominios catalíticos de una proteína Cas9 derivada de bacterias pertenecientes al grupo que consiste enCorynebacter, Sutterella, Legionella, Treponema, Filifactor, Eubacterium, Streptococcus, Lactobacillus, Mycoplasma, Bacteroides, Flaviivola, Flavobacterium, Sphaerochaeta, Azospirillum, Gluconacetobacter, Neisseria, Roseburia, Parvibaculum, Staphylococcus, NitratifractoryCampylobacter.En algunas realizaciones, los dos dominios catalíticos se derivan de diferentes especies de bacterias.

Variantes útiles de la nucleasa Cas9 pueden incluir un único dominio catalítico inactivo, como una enzima RuvC- o HNH- o una nicasa. Una mellasa Cas9 sólo tiene un dominio funcional activo y sólo puede cortar una hebra del ADN diana, creando así una rotura o mella de una sola hebra. Se puede introducir una rotura de doble cadena utilizando una nicasa Cas9 si se utilizan al menos dos ARN dirigidos contra cadenas opuestas de ADN. Una rotura de doble cadena inducida por doble pinzamiento puede repararse mediante NHEJ o HDR(Ran et al., 2013, Cell, 154:1380-1389). Esta estrategia de edición de genes favorece la HDR y disminuye la frecuencia de mutaciones de inserción/deleción ("indel") en sitios de ADN fuera del objetivo. Ejemplos no limitantes de nucleasas o nicasas Cas9 se describen, por ejemplo, en las Patentes de los EE. u U. Núm. 8.895.308; 8.889.418; y 8.865.406 y en las Publicaciones de Solicitud de los EE. UU. Núm. 2014/0356959, 2014/0273226 y 2014/0186919. La nucleasa o nicasa Cas9 puede estar optimizada en codones para la célula u organismo huésped.

Para los procedimientos de edición del genoma, la nucleasa Cas puede ser una proteína de fusión Cas9, como un polipéptido que comprende el dominio catalítico de una enzima de restricción(p. ej.,FokI) unido a dCas9. La proteína de fusión FokI-dCas9 (fCas9) puede utilizar dos ARN guía para unirse a una única cadena de ADN diana y generar una rotura de doble cadena.

En algunas realizaciones, una secuencia nucleotídica que codifica la nucleasa Cas está presente en un vector de expresión recombinante. En ciertos casos, el vector de expresión recombinante es una construcción viral, por ejemplo, una construcción de virus adenoasociado recombinante, una construcción adenoviral recombinante, una construcción lentiviral recombinante,etc.Por ejemplo, los vectores virales pueden basarse en el virus vaccinia, el poliovirus, el adenovirus, el virus adenoasociado, el SV40, el virus del herpes simple, el virus de la inmunodeficiencia humana y similares. Un vector retroviral puede basarse en el virus de la leucemia murina, el virus de la necrosis del bazo y vectores derivados de retrovirus como el virus del sarcoma de Rous, el virus del sarcoma de Harvey, el virus de la leucosis aviar, un lentivirus, el virus de la inmunodeficiencia humana, el virus del sarcoma mieloproliferativo, el virus del tumor mamario y similares. Los expertos en la técnica conocen vectores de expresión útiles y muchos de ellos están disponibles en el mercado. A modo de ejemplo, se proporcionan los siguientes vectores para células huésped eucariotas: pXT1, pSG5, pSVK3, pBPV, pMSG y pSVLSV40. No obstante, puede utilizarse cualquier otro vector si es compatible con la célula huésped. Por ejemplo, los vectores de expresión útiles que contienen una secuencia de nucleótidos que codifica una enzima Cas9 están disponibles comercialmente,por ejemplo,en Addgene, Life Technologies, Sigma-Aldrich, y Origene.

Dependiendo de la célula huésped y del sistema de expresión utilizado, en el vector de expresión puede usarse cualquiera de los elementos de control de la transcripción y la traducción, incluyendo promotores, potenciadores de la transcripción, terminadores de la transcripción y similares. Los promotores útiles pueden derivarse de virus o de cualquier organismo, por ejemplo, organismos procariotas o eucariotas. Los promotores también pueden ser inducibles(es decir,capaces de responder a factores ambientales y/o estímulos externos que pueden controlarse artificialmente). Los promotores adecuados incluyen, entre otros: Promotores de la ARN polimerasa II(por ejemplo, pGAL7 y pTEF1), promotores de la ARN polimerasa III (por ejemplo, RPR-tetO, SNR52 y tRNA-tyr), el promotor temprano del SV40, el promotor de la repetición terminal larga (LTR) del virus del tumor mamario de ratón; el promotor tardío mayor del adenovirus (Ad m Lp ); un promotor del virus del herpes simple (VHS), un promotor del citomegalovirus (CMV) como la región promotora temprana inmediata del CMV (CMVIE), un promotor del virus del sarcoma de rous (VSR), un pequeño promotor nuclear U6 humano (U6), un promotor U6 mejorado, un promotor H1 humano (H1),etc.Los terminadores adecuados incluyen, entre otros, las secuencias terminadoras SNR52 y RPR (cuyos ejemplos no limitantes se exponen en SEQ ID NÚM.: 37 y 38, respectivamente), que pueden usarse con transcritos creados bajo el control de un promotor de ARN polimerasa III. Además, pueden incorporarse a un vector varios sitios de unión de cebadores para facilitar la clonación del vector, la secuenciación, el genotipado y similares. Como ejemplo no limitativo, puede incorporarse la secuencia Pci1-Up establecida en SEQ ID NÚM.:26. Otras secuencias promotoras, potenciadoras, terminadoras y de unión a cebadores adecuadas serán fácilmente conocidas por un experto en la técnica.

C. Procedimientos para introducir ácidos nucleicos en células huésped

Los procedimientos para introducir polipéptidos y ácidos nucleicos en una célula huésped son conocidos en la técnica, y puede utilizarse cualquier procedimiento conocido para introducir una nucleasa o un ácido nucleico(p. ej.,una secuencia de nucleótidos que codifica la nucleasa o la transcriptasa inversa, un ARN dirigido al ADN(p. ej.,un ARN guía), una plantilla de reparación donante para la reparación dirigida por homología (HDR),etc.)en una célula. Entre los ejemplos no limitantes de procedimientos adecuados se incluyen la electroporación, la infección vírica o bacteriófaga, la transfección, la conjugación, la fusión de protoplastos, la lipofección, la precipitación de fosfato cálcico, la transfección mediada por polietilenimina (PEI), la transfección mediada por DEAE-dextrano, la transfección mediada por liposomas, la tecnología de pistola de partículas, la precipitación de fosfato cálcico, la microinyección directa, la administración de ácidos nucleicos mediada por nanopartículas y similares.

En algunas realizaciones, los componentes del sistema CRISPR-retrón pueden introducirse en una célula utilizando un sistema de administración. En ciertos casos, el sistema de administración comprende una nanopartícula, una micropartícula(por ejemplo, un micropolímero polimérico), un liposoma, una micela, un virosoma, una partícula viral, un complejo de ácido nucleico, un agente de transfección, un agente de electroporación(por ejemplo, utilizando un sistema de transfección NEON), un agente de nucleofección, un agente de lipofección, y/o un sistema tampón que incluye un componente nucleasa (como polipéptido o codificado por una construcción de expresión), un componente transcriptasa inversa, y uno o más componentes de ácido nucleico tales como un ARN dirigido al ADN(por ejemplo, un ARN guía) y/o una plantilla de reparación donante. Por ejemplo, los componentes pueden mezclarse con un agente de lipofección de forma que queden encapsulados o empaquetados en emulsiones catiónicas submicrónicas de aceite en agua. Alternativamente, los componentes pueden administrarse sin un sistema de administración, por ejemplo, como una solución acuosa.

Los procedimientos para preparar liposomas y encapsular polipéptidos y ácidos nucleicos en liposomas se describen en, por ejemplo, Methods and Protocols, Volume 1: Pharmaceutical Nanocarriers: Methods and Protocols, (ed. Weissig). Humana Press, 2009 y Heyes et al. (2005) J Controlled Release 107:276-87. Los procedimientos para preparar micropartículas y encapsular polipéptidos y ácidos nucleicos se describen,por ejemplo,en Functional Polymer Colloids and Microparticles volume 4 (Microspheres, microcapsules & liposomes). (eds. Arshady & Guyot). Citus Books, 2002 y Microparticulate Systems for the Delivery of Proteins and Vaccines, (eds. Cohen & Bernstein). CRC Press, 1996.

D. Células huésped

En un aspecto particular, la presente invención proporciona células huésped que han sido transformadas por vectores de la presente invención. Las composiciones y procedimientos de la presente invención pueden utilizarse para la edición del genoma de cualquier célula huésped de interés. La célula huésped puede ser una célula de cualquier organismo,por ejemplo,una célula bacteriana, una célula arquea, una célula de un organismo eucariota unicelular, una célula vegetal (por ejemplo, una célula de arroz, una célula de trigo, una célula de tomate,unacélula deArabidopsis thaliana, una célula deZea maysy similares), una célula de alga(porejemplo, Botryococcus braunii, Chlamydomonas reinhardtii, Nannochloropsis gaditana, Chlorella pyrenoidosa, Sargassum patens C. Agardh, y similares), una célula fúngica (por ejemplo, célula de levadura, etc.), una célula animal, una célula de un animal invertebrado(por ejemplo, mosca de la fruta, cnidario, equinodermo, nematodo,etc.),una célula de un animal vertebrado(por ejemplo, pez, anfibio, reptil, ave, mamífero,etc.),una célula de un mamífero, una célula de un humano, una célula de un humano sano, una célula de un paciente humano, una célula de un paciente con cáncer,etc.En algunos casos, la célula huésped tratada por el procedimiento aquí desvelado puede trasplantarse a un individuo(por ejemplo,un paciente). Por ejemplo, la célula huésped puede derivarse del individuo a tratar (por ejemplo, un paciente).

Cualquier tipo de célula puede ser de interés, como una célula madre,por ejemplo,una célula madre embrionaria, una célula madre pluripotente inducida, una célula madre adulta,por ejemplo,una célula madre mesenquimal, una célula madre neural, una célula madre hematopoyética, una célula madre de órgano, una célula progenitora, una célula somática,por ejemplo, fibroblasto, hepatocito, célula cardiaca, célula hepática, célula pancreática, célula muscular, célula cutánea, célula sanguínea, célula neural, célula inmunitaria, y cualquier otra célula del cuerpo, por ejemplo, del cuerpo humano. Las células pueden ser células primarias o cultivos celulares primarios derivados de un individuo,por ejemplo,un individuo animal o un individuo humano, y dejados crecerin vitrodurante un número limitado de pasajes. En algunas realizaciones, las células son células enfermas o derivadas de un individuo con una enfermedad. Por ejemplo, las células pueden ser cancerosas o tumorales. Las células también pueden ser células inmortalizadas (por ejemplo, líneas celulares), por ejemplo, de una línea celular de cáncer.

Las células pueden ser cosechadas de un individuo por cualquier procedimiento estándar. Por ejemplo, las células de tejidos como la piel, los músculos, la médula ósea, el bazo, el hígado, los riñones, el páncreas, los pulmones, el intestino, el estómago,etc.,pueden obtenerse mediante una biopsia de tejido o un aspirado con aguja fina. Las células sanguíneas y/o inmunitarias pueden aislarse de sangre total, plasma o suero. En algunos casos, las células primarias adecuadas incluyen células mononucleares de sangre periférica (PBMC), linfocitos de sangre periférica (PBL) y otros subconjuntos de células sanguíneas como, por ejemplo, células T, células asesinas naturales, monocitos, células T asesinas naturales, células precursoras de monocitos, células madre hematopoyéticas o células madre no pluripotentes. En algunos casos, la célula puede ser cualquier célula inmunitaria, incluida cualquier célula T como las células infiltrantes tumorales (TIL), como las células T CD3+, las células T CD4+, las células T CD8+ o cualquier otro tipo de célula T La célula T también puede incluir células T con memoria, células T madre con memoria o células T efectoras. Las células T también pueden estar sesgadas hacia poblaciones y fenotipos particulares. Por ejemplo, las células T pueden estar sesgadas para comprender fenotípicamente, CD45RO(-), C<c>R7(+), CD45RA(+), CD62L(+), CD27(+), CD28(+) y/o IL-7Ra(+). Pueden seleccionarse células adecuadas que comprendan uno o más marcadores seleccionados de una lista que comprende: CD45RO(-), CCR7(+), CD45RA(+), CD62L(+), CD27(+), CD28(+) y/o IL-7Ra(+). Las células madre pluripotentes inducidas pueden generarse a partir de células diferenciadas de acuerdo con los protocolos estándar descritos, por ejemplo, en las Patentes de los EE. UU. Núm.

7.682.828, 8.058.065, 8.530.238, 8.871.504, 8.900.871 y 8.791.248.

En algunas realizaciones, la célula huésped esin vitro.En otras realizaciones, la célula huésped esex vivo.En otras realizaciones, la célula huésped estáin vivo.

E. Procedimientos de edición genómica y cribado, y evaluación de su eficacia y precisión

En otro aspecto, la presente invención proporciona un procedimiento para modificar uno o más ácidos nucleicos diana de interés en uno o más loci diana dentro de un genoma de una célula huésped que no es una célula germinal humana. El procedimiento comprende:

(a) transformar la célula huésped con un vector de la presente invención; y

En algunas realizaciones, la célula huésped es capaz de expresar la RT antes de transformar la célula huésped con el vector. En algunos casos, la RT está codificada en una secuencia que se integra en el genoma de la célula huésped. En otros casos, la RT está codificada en una secuencia en un plásmido separado. En otras realizaciones, la célula huésped es capaz de expresar la RT al mismo tiempo que, o después de, transformar la célula huésped con el vector. En algunos casos, la RT se expresa a partir del vector. En otros casos, la RT está codificada en una secuencia en un plásmido separado.

En otras realizaciones, la célula huésped es capaz de expresar la nucleasa(por ejemplo, Cas9) antes de transformar la célula huésped con el vector. En algunos casos, la nucleasa está codificada en una secuencia que se integra en el genoma de la célula huésped. En otros casos, la nucleasa está codificada en una secuencia de un plásmido separado. En otras realizaciones, la célula huésped es capaz de expresar la nucleasa al mismo tiempo que, o después de, transformar la célula huésped con el vector. En algunos casos, la nucleasa se expresa a partir del vector. En otros casos, la nucleasa está codificada en una secuencia de un plásmido separado.

En algunas realizaciones, el vector comprende un casete retrón-ARNg que, cuando se transcribe, produce un transcrito retrón y un ARNg que están físicamente acoplados. En tales realizaciones, la secuencia de ADN donante resultante dentro del ADNmm y el ARNg también puede acoplarse físicamente. En determinadas realizaciones, el transcrito retrónico y el ARNg se desacoplan físicamente(porejemplo, antes o después de que se produzca la transcripción inversa del transcrito retrónico). El desacoplamiento físico del transcrito retrón y el ARNg puede resultar, por ejemplo, de la escisión de la ribozima (por ejemplo, el casete retrón-ARNg también contiene una secuencia de ribozima). En tales realizaciones, la secuencia de ADN donante resultante dentro del ADNmm y el ARNg se desacoplarán físicamente(p. ej.,durante la edición del genoma y/o el cribado).

En algunas realizaciones ilustrativas de la presente divulgación, el transcrito retrón y el ARNg no están inicialmente acoplados físicamente. En determinadas realizaciones ilustrativas, el transcrito retrónico y el ARNg se unen posteriormente. Los eventos de transcripción que resultan en la producción del transcrito retrón y/o ARNg pueden ocurrir dentro de una célula huésped, fuera de una célula huésped(por ejemplo,seguido de la introducción del transcrito retrón y/o ARNg en la célula huésped), o una combinación de los mismos. En algunas realizaciones ilustrativas de la presente divulgación, el uno o más ácidos nucleicos diana de interés se modifican mediante una secuencia de ADN donante (p.ej.,dentro de un ADNmm) y un ARNg que nunca se acoplan físicamente. Por ejemplo, la secuencia de ADN donante y el ARNg pueden expresarse a partir de diferentes casetes (por ejemplo, que estén contenidos en el mismo vector o en vectores diferentes) y la secuencia de ADN donante y el ARNg pueden actuar en trans.

(c) identificar el fenotipo resultante de la célula huésped modificada; y

Para evaluar la eficiencia y/o precisión de la edición del genoma (por ejemplo, probar si se ha realizado una edición y/o la precisión de la edición), el ADN diana puede ser analizado por procedimientos estándar conocidos en la técnica. Por ejemplo, las mutaciones indel pueden identificarse mediante secuenciación utilizando el kit de detección de mutaciones SURVEYOR® (Integrated DNA Technologies, Coralville, IA) o el Guide-it™ Indel Identification Kit (Clontech, Mountain View, CA). La reparación dirigida por homología (HDR) puede detectarse mediante procedimientos basados en la PCR, y en combinación con la secuenciación o el análisis RFLP Los ejemplos no limitantes de kits basados en PCR incluyen el Guide-it Mutation Detection Kit (Clontech) y el GeneAr® Genomic Cleavage Detection Kit (Life Technologies, Carlsbad, CA). También puede utilizarse la secuenciación profunda, sobre todo en el caso de un gran número de muestras o de posibles sitios diana/no diana.

En algunas otras realizaciones, la eficiencia de la edición puede evaluarse empleando un marcador reportero o seleccionable para examinar el fenotipo de un organismo o una población de organismos. En algunos casos, el marcador produce un fenotipo visible, como el color de un organismo o población de organismos. Como ejemplo no limitativo, se pueden realizar ediciones que restauren o interrumpan la función de las vías metabólicas que confieren un fenotipo visible(por ejemplo,un color) al organismo. En el caso de que una edición genómica exitosa produzca un cambio de color en el organismo objetivo(por ejemplo, porque la edición interrumpe una ruta metabólica que produce un cambio de color o porque la edición restaura la función en una ruta que produce un cambio de color), el número absoluto o la proporción de organismos o su progenie que muestran un cambio de color(porejemplo,un recuento estimado o directo del número de organismos que muestran un cambio de color dividido por el número total de organismos cuyos genomas fueron potencialmente editados) puede servir como medida de la eficiencia de la edición. En algunos casos, el fenotipo se examina cultivando los organismos diana y/o su progenie en condiciones que dan lugar a un fenotipo, en las que el fenotipo puede no ser visible en condiciones ordinarias de crecimiento. Como ejemplo no limitativo, el cultivo de levaduras en un medio de cultivo deficiente en adenina puede dar lugar a un fenotipo particular(por ejemplo,un cambio de color) en las células de levadura que poseen un defecto genético en la síntesis de adenina. Por ello, cultivar células de levadura en medios deficientes en adenina puede permitir discernir el efecto de las ediciones genómicas que supuestamente se dirigen a los loci de biosíntesis de adenina.

En algunas realizaciones, el reportero o marcador seleccionable es una proteína marcada con fluorescencia, un anticuerpo, un anticuerpo marcado, una tinción química, un indicador químico, o una combinación de los mismos. En otras realizaciones, el reportero o marcador seleccionable responde a un estímulo, un bioquímico o un cambio en las condiciones ambientales. En algunos casos, el reportero o marcador seleccionable responde a la concentración de un producto metabólico, un producto proteico, un fármaco sintetizado de interés, un fenotipo celular de interés, un producto celular de interés, o una combinación de los mismos. Un producto celular de interés puede ser, como ejemplo no limitativo, una molécula de ARN [por ejemplo, ARN mensajero (ARNm), ARN no codificante largo (lncARN), microARN (miARN)].

La eficacia de la edición también puede examinarse o expresarse en función del tiempo. Por ejemplo, se puede permitir que un experimento de edición se ejecute durante un período de tiempo fijo(por ejemplo,24 o 48 horas) y se puede determinar el número de eventos de edición exitosos en ese período de tiempo fijo. Alternativamente, la proporción de eventos de edición con éxito puede determinarse para un periodo de tiempo fijo. Normalmente, los periodos de edición más largos darán lugar a un mayor número de eventos de edición con éxito. Los experimentos o procedimientos de edición pueden durar cualquier tiempo. En algunas realizaciones, un experimento o procedimiento de edición genómica se ejecuta durante varias horas(porejemplo, aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23 o 24 horas). En otras realizaciones, un experimento o procedimiento de edición del genoma se ejecuta durante varios días (por ejemplo, aproximadamente 1, 2, 3, 4, 5, 6 o 7 días).

Además de la duración del periodo de edición, la eficiencia de la edición puede verse afectada por la elección del ARNg, la secuencia de ADN donante, la elección del promotor utilizado o una combinación de los mismos.

En otras realizaciones, la eficiencia de edición se compara con una eficiencia de control. En algunas realizaciones, la eficacia de control se determina ejecutando un experimento de edición genómica en el que el transcrito retrón y la molécula de ARNg nunca se acoplan físicamente, o se acoplan inicialmente pero posteriormente se desacoplan. En algunos casos, el transcrito retrón y la molécula de ARNg se acoplan inicialmente y luego se desacoplan (por ejemplo, por escisión de la ribozima). En otros casos, el casete de ARN guía de retrón (ARNg) está configurado de tal manera que los productos de transcripción de la región codificante del retrón y del ARNg nunca se acoplan físicamente. En otros casos, el transcrito retrónico y el ARNg se introducen en la célula huésped por separado. En algunos casos, los procedimientos y composiciones de la presente invención dan como resultado al menos 1,3 a 3 veces(es decir,al menos 1,3, 1,4, 1,5, 1,6, 1,7, 1,8, 1,9, 2, 2,1-, 2,2-, 2,3-, 2,4-, 2,5-, 2,6-, 2,7-, 2,8-, 2,9-, o 3 veces) en la eficiencia, en comparación con cuando el transcrito retrón y el ARNg no se acoplan físicamente durante la edición. En otros casos, se produce un aumento de al menos 3 a 10 veces(es decir,al menos 3, 4, 5, 6, 7, 8, 9 o 10 veces) en la eficiencia, en comparación con cuando el transcrito retrón y el ARNg no se acoplan físicamente durante la edición. En casos particulares, se produce un aumento de al menos 10 a 100 veces(es decir,al menos 10, 20, 30, 40, 50, 60, 70, 80, 90 o 100 veces) en la eficiencia, en comparación con cuando el transcrito retrón y el ARNg no se acoplan físicamente durante la edición.

La eficiencia de edición también puede mejorarse realizando experimentos o procedimientos de edición en un formato multiplex. En algunas realizaciones, la multiplexación comprende la clonación de dos o más casetes de retrón-ARNg de edición en tándem en un único vector. En algunos casos, al menos aproximadamente 10 casetes de retrón-ARNg(es decir,al menos aproximadamente 2, 3, 4, 5, 6, 7, 8, 9 o 10 casetes de retrón-ARNg) se clonan en un único vector.

En otras realizaciones, la multiplexación comprende la transformación de una célula huésped con dos o más vectores. Cada vector puede incluir uno o varios casetes de retrón-ARNg. En algunos casos, se utilizan al menos aproximadamente 10 vectores(es decir,al menos aproximadamente 2, 3, 4, 5, 6, 7, 8, 9 o 10 vectores) para transformar una célula huésped individual.

En otras realizaciones, la multiplexación comprende la transformación de dos o más células huésped individuales, cada una con un vector o combinación de vectores diferente. En algunos casos, se transforman al menos aproximadamente 2 células huésped(es decir,al menos aproximadamente 2, 3, 4, 5, 6, 7, 8, 9 o 10 células huésped). En otros casos, se transforman entre aproximadamente 10 y 100 células huésped(es decir,aproximadamente 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 células huésped). En otros casos, se transforman entre 100 y 1.000 células huésped (esdecir,100, 200, 300, 400, 500, 600, 700, 800, 900 o 1.000 células huésped). En casos particulares, se transforman entre aproximadamente 1.000 y 10.000 células huésped(es decir,aproximadamente 1.000, 1.500, 2.000, 2.500, 3.000, 3.500, 4.000, 4.500, 5.000, 5.500, 6.000, 6.500, 7.000, 7.500, 8.000, 8.500, 9.000, 9.500 o 10.000 células huésped). En algunos otros casos, se transforman entre aproximadamente 10.000 y 100.000 células huésped(es decir,aproximadamente 10.000, 15.000, 20.000, 25.000, 30.000, 35.000, 40.000, 45.000, 50.000, 55.000, 60.000, 65.000, 70.000, 75.000, 80.000, 85.000, 90.000, 95.000 o 100.000 células huésped). En otros casos, se transforman entre 100.000 y 1.000.000 de células huésped(es decir,al menos 100.000, 150.000, 200.000, 250.000, 300.000, 350.000, 400.000, 450.000, 500.000, 550.000, 600.000, 650.000, 700.000, 750.000, 800.000, 850.000, 900.000, 950.000 o 1.000.000 de células huésped). En algunos casos, se transforman más de 1.000.000 de células huésped. Además, se pueden combinar múltiples formas de multiplexación.

Utilizando una o una combinación de las diversas formas de multiplexación, es posible modificar y/o cribar cualquier número de loci dentro de un genoma. En algunos casos, al menos aproximadamente 10(es decir,aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9 o 10) loci genéticos son modificados o cribados. En otros casos, se modifican o seleccionan entre 10 y 100 loci(es decir,aproximadamente 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100). En otros casos, se modifican o analizan entre 100 y 1.000 loci genéticos(es decir,aproximadamente 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950 o 1.000 loci genéticos). En otros casos, entre 1.000 y 100.000 loci genéticos(es decir,aproximadamente 1.000, 1.500, 2.000, 2.500, 3.000, 3.500, 4.000, 4.500, 5.000, 5.500, 6.000, 6.500, 7.000, 7.500, 8.000, 8.500, 9.000, 9.500 10.000, 15.00, 20.000, 25.000, 30.000, 35.000, 40.000, 45.000, 50.000, 55.000, 60.000, 65.000, 70.000, 75.000, 80.000, 85.000, 90.000, 95.000 o 100.000 loci genéticos) son modificados o cribados. En casos particulares, se modifican o analizan entre 100.000 y 1.000.000 de loci genéticos(es decir,aproximadamente 100.000, 150.000, 200.000, 250.000, 300.000, 350.000, 400.000, 450.000, 500.000, 550.000, 600.000, 650.000, 700.000, 750.000, 800.000, 850.000, 900.000, 950.000 o 1.000.000 de loci genéticos). En algunos casos, se examinan más de aproximadamente 1.000.000 de loci.

En algunas realizaciones, la célula huésped o la célula hospedadora comprende una población de células huésped. En algunos casos, una o más modificaciones de secuencia se inducen en al menos un 20 por ciento(es decir,al menos un 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o 100 por ciento) de la población de células. En otros casos, se inducen una o más modificaciones de secuencia en al menos aproximadamente el 50 por ciento(es decir,al menos aproximadamente el 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 65, 70, 75, 80, 85, 90, 95 o 100 por ciento) de la población de células. En otros casos, se inducen una o más modificaciones de secuencia en al menos el 75 por ciento(es decir,al menos el 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 95 o 100 por ciento) de la población de células. En otros casos, se inducen una o más modificaciones de secuencia en al menos aproximadamente el 90 por ciento(es decir,al menos aproximadamente el 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 o 100 por ciento) de la población de células. En casos particulares, una o más modificaciones de secuencia se inducen en al menos aproximadamente 95 por ciento(es decir,al menos aproximadamente 95, 96, 97, 98, 99 o 100 por ciento) de la población de células.

La precisión de la edición genómica puede corresponder al número o porcentaje de eventos de edición genómica en el objetivo en relación al número o porcentaje de todos los eventos de edición genómica, incluyendo eventos en el objetivo y fuera del objetivo. La comprobación de los eventos de edición genómica en el objetivo puede realizarse mediante secuenciación directa de la región diana u otros procedimientos descritos en la presente memoria. Cuando se emplean las composiciones y procedimientos de la presente invención, en algunos casos, la precisión de la edición es de al menos aproximadamente 80 por ciento(es decir,al menos aproximadamente 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 95 o 100 por ciento), lo que significa que al menos aproximadamente 80 por ciento de todos los eventos de edición del genoma son eventos de edición en el objetivo. En otros casos, la precisión de la edición es de al menos aproximadamente 90 por ciento(es decir,al menos aproximadamente 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 o 100 por ciento), lo que significa que al menos aproximadamente 90 por ciento de todos los eventos de edición del genoma son eventos de edición en el objetivo. En algunos otros casos, la precisión de la edición es de al menos aproximadamente 95 por ciento(es decir,al menos aproximadamente 95, 96, 97, 98, 99 o 100 por ciento), lo que significa que al menos aproximadamente 95 por ciento de todos los eventos de edición del genoma son eventos de edición en el objetivo. En casos particulares, la precisión de la edición es de al menos aproximadamente 99 por ciento(es decir,al menos aproximadamente 99 o 100 por ciento), lo que significa que al menos el 99 por ciento de todos los eventos de edición del genoma son eventos de edición en el objetivo.

F. Procedimientos para prevenir o tratar enfermedades genéticas

En otro aspecto, la presente invención proporciona una composición farmacéutica que comprende:

(b) un portador farmacéuticamente aceptable.

En otro aspecto adicional de la presente divulgación, se proporciona en la presente memoria un procedimiento para prevenir o tratar una enfermedad genética en un individuo, comprendiendo el procedimiento administrar al individuo una cantidad eficaz de una composición farmacéutica de la presente invención para corregir una mutación en un gen diana asociado con la enfermedad genética.

Las composiciones y procedimientos de la presente invención son adecuados para cualquier enfermedad que tenga una base genética y sea susceptible de prevención o mejora de las secuelas o síntomas asociados a la enfermedad mediante la edición o corrección de uno o más loci genéticos vinculados a la enfermedad. Entre los ejemplos no limitantes de enfermedades se incluyen la inmunodeficiencia combinada grave ligada al cromosoma X, la anemia falciforme, la talasemia, la hemofilia, la neoplasia, el cáncer, la degeneración macular asociada a la edad, la esquizofrenia, los trastornos por repetición de trinucleótidos, el síndrome del cromosoma X frágil, los trastornos relacionados con priones, la esclerosis lateral amiotrófica, la drogadicción, el autismo, la enfermedad de Alzheimer, la enfermedad de Parkinson, la fibrosis quística, enfermedades y trastornos de la sangre y la coagulación, inflamación, enfermedades y trastornos relacionados con el sistema inmunitario, enfermedades y trastornos metabólicos, enfermedades y trastornos hepáticos, enfermedades y trastornos renales, enfermedades y trastornos musculares/esqueléticos, enfermedades y trastornos neurológicos y neuronales, enfermedades y trastornos cardiovasculares, enfermedades y trastornos pulmonares y enfermedades oculares. Las composiciones y procedimientos de la presente invención también pueden utilizarse para prevenir o tratar cualquier combinación de enfermedades genéticas adecuadas.

En algunas realizaciones, el individuo es tratado antes de que se desarrolle cualquier síntoma o secuela de la enfermedad genética. En otras realizaciones, el individuo presenta síntomas o secuelas de la enfermedad genética. En algunos casos, el tratamiento reduce o elimina los síntomas o las secuelas de la enfermedad genética.

En algunas realizaciones, el tratamiento incluye la administración de composiciones de la presente invención directamente a un individuo. Como ejemplo no limitativo, las composiciones farmacéuticas de la presente invención pueden administrarse directamente a un individuo (por ejemplo, mediante inyección local o administración sistémica). En otras realizaciones, las composiciones de la presente invención se administran a una célula huésped o población de células huésped, y luego la célula huésped o población de células huésped se administra o trasplanta al individuo. La célula huésped o población de células huésped puede administrarse o trasplantarse con un portador farmacéuticamente aceptable. En algunos casos, la edición del genoma de la célula huésped aún no se ha completado antes de la administración o el trasplante al individuo. En otros casos, la edición del genoma de la célula huésped se ha completado cuando se produce la administración o el trasplante. En ciertos casos, la progenie de la célula huésped o población de células huésped se trasplanta al individuo. En algunas realizaciones, la edición correcta de la célula huésped o población de células huésped, o la progenie de las mismas, se verifica antes de administrar o trasplantar las células editadas o la progenie de las mismas a un individuo. Los procedimientos para el trasplante, la administración y la verificación de la correcta edición del genoma se discuten en la presente memoria y serán conocidos por un experto en la técnica.

Las composiciones de la presente invención, incluyendo células y/o progenie de las mismas que han tenido sus genomas editados por los procedimientos y/o composiciones de la presente invención, pueden administrarse como una dosis única o como dosis múltiples, por ejemplo, dos dosis administradas en un intervalo de aproximadamente un mes, aproximadamente dos meses, aproximadamente tres meses, aproximadamente seis meses o aproximadamente 12 meses. Un médico puede determinar otros esquemas de dosificación adecuados.

La prevención o el tratamiento pueden comprender además la administración de agentes y/o la realización de procedimientos para prevenir o tratar afecciones concomitantes o relacionadas. Como ejemplos no limitativos, puede ser necesario administrar fármacos para suprimir el rechazo inmunitario de las células trasplantadas, o prevenir o reducir la inflamación o la infección. Un profesional médico podrá determinar fácilmente las terapias concomitantes adecuadas.

G. Kits

Desvelado pero no parte de la invención es un kit para modificar uno o más ácidos nucleicos diana de interés en uno o más loci diana dentro de un genoma de una célula huésped, el kit que comprende uno o una pluralidad de vectores de la presente invención. El kit puede comprender además una célula huésped o una pluralidad de células huésped.

En algunas realizaciones, el kit contiene uno o más reactivos. En algunos casos, los reactivos son útiles para transformar una célula huésped con un vector o una pluralidad de vectores, y/o inducir la expresión del vector o pluralidad de vectores. En otras realizaciones, el kit puede comprender además una transcriptasa inversa, un plásmido para expresar una transcriptasa inversa, una o más nucleasas, uno o más plásmidos para expresar una o más nucleasas, o una combinación de los mismos. El kit puede comprender además uno o más reactivos útiles para introducir nucleasas o transcriptasas inversas en la célula huésped y/o inducir la expresión de la transcriptasa inversa y/o de una o más nucleasas. En otras realizaciones, el kit comprende además instrucciones para transformar la célula huésped con el vector, introducir nucleasas y/o transcriptasas inversas en la célula huésped, inducir la expresión del vector, la transcriptasa inversa y/o las nucleasas, o una combinación de los mismos.

En otro aspecto adicional, la presente divulgación proporciona un kit para modificar uno o más ácidos nucleicos diana de interés en uno o más loci diana dentro de un genoma de una célula huésped, comprendiendo el kit una o una pluralidad de moléculas de ADN-guía donante retrón de la presente invención. El kit puede comprender además una célula huésped o una pluralidad de células huésped.

En algunas realizaciones, el kit contiene uno o más reactivos. En algunos casos, los reactivos son útiles para introducir la molécula guía de ADN donante de retrón o una pluralidad de ellas en la célula huésped. En otras realizaciones, el kit puede comprender además una transcriptasa inversa, un plásmido para expresar una transcriptasa inversa, una o más nucleasas, uno o más plásmidos para expresar una o más nucleasas, o una combinación de los mismos. El kit puede comprender además uno o más reactivos útiles para introducir en la célula huésped transcriptasas inversas y/o nucleasas y/o inducir la expresión de la transcriptasa inversa y/o de una o más nucleasas. En otras realizaciones, el kit comprende además instrucciones para introducir la molécula guía de ADN donante de retrón o una pluralidad de ellas en la célula huésped, introducir nucleasas y/o transcriptasas inversas en la célula huésped, inducir la expresión de la transcriptasa inversa y/o nucleasas, o una combinación de las mismas.

H. Aplicaciones

Las composiciones y procedimientos proporcionados por la presente invención son útiles para cualquier número de aplicaciones. Como ejemplos no limitantes, la edición del genoma puede realizarse para corregir lesiones perjudiciales con el fin de prevenir o tratar una enfermedad, o para identificar uno o más loci genéticos específicos que contribuyen a un fenotipo, enfermedad, función biológica, y similares. Como otro ejemplo no limitante, la edición del genoma o el cribado de acuerdo con las composiciones y procedimientos de la presente invención pueden utilizarse para mejorar u optimizar una función biológica, vía o entidad bioquímica(porejemplo, optimización de proteínas). Tales aplicaciones de optimización son especialmente adecuadas para las composiciones y procedimientos de la presente invención, ya que pueden requerir la modificación de un gran número de loci genéticos y la posterior evaluación de los efectos.

Otros ejemplos no limitantes de aplicaciones adecuadas para las composiciones y procedimientos de la presente invención incluyen la producción de proteínas recombinantes para uso farmacéutico e industrial, la producción de diversos productos químicos farmacéuticos e industriales, la producción de vacunas y partículas virales, y la producción de combustibles y nutracéuticos. Todas estas aplicaciones suelen implicar un cribado de alto rendimiento o alto contenido, lo que las hace especialmente adecuadas para las composiciones y procedimientos de la presente invención.

En algunas realizaciones, inducir una o más modificaciones de secuencia en uno o más loci genéticos de interés comprende sustituir, insertar y/o suprimir uno o más nucleótidos en el uno o más loci genético de interés. En algunos casos, la inducción de una o más modificaciones de secuencia da lugar a la inserción en el genoma de una o más secuencias que codifican etiquetas de localización celular, uno o más elementos de respuesta sintéticos y/o una o más secuencias que codifican degrones.

En otras realizaciones, la inducción de una o más modificaciones de secuencia en uno o más loci genéticos de interés resulta en la inserción de una o más secuencias de un genoma heterólogo. La introducción de secuencias de ADN heterólogas en un genoma es útil para numerosas aplicaciones, algunas de las cuales se describen en la presente memoria. Otros resultarán evidentes para un experto en la técnica. Ejemplos no limitativos son la evolución dirigida de proteínas, la optimización de vías biológicas y la producción de fármacos recombinantes.

En ciertas realizaciones, la inducción de una o más modificaciones de secuencia en uno o más loci genéticos de interés resulta en la inserción de uno o más "códigos de barras" (esdecir,secuencias de nucleótidos que permiten la identificación de la fuente de un espécimen o muestra en particular). Como ejemplos no limitativos, la inserción de códigos de barras puede utilizarse para el seguimiento del linaje celular o la medición de la abundancia de ARN.

V. Ejemplos

La presente invención se describirá con más detalle mediante ejemplos específicos. Los siguientes ejemplos se ofrecen únicamente a título ilustrativo y no pretenden limitar la invención en modo alguno. Los expertos en la técnica reconocerán fácilmente una variedad de parámetros no críticos que pueden cambiarse o modificarse para obtener esencialmente los mismos resultados.

Ejemplo 1. Edición del genoma de la levadura

Este ejemplo muestra la eficiencia del sistema CRISPR-retrón para editar genomas, utilizando un marcador genético visual.

Introducción

Los enfoques anteriores de edición genómica CRISPR utilizan un ARN guía (ARNg) que dirige la escisión de una secuencia genómica específica por una nucleasa como Cas9, y preferentemente una plantilla de reparación de ADN donante, proporcionándose el ARNg y la plantilla de ADN donante como moléculas separadas. Debido a esto, en el pasado ha sido necesario que los experimentos de edición CRISPR se realizaran en múltiples tubos o recipientes. Sin embargo, como se muestra en la presente memoria, la eficiencia de la edición del genoma se mejora mediante el empleo de un sistema CRISPR-retrón, en el que un ARNg está unido a una secuencia de ADN donante que sirve como plantilla de reparación.

Para probar la eficiencia de edición del sistema CRISPR-retrón, se diseñaron y sintetizaron fragmentos individuales de ADN que contenían la regiónmsr-msdde tipo silvestre deE. colicon secuencias de ADN donante insertadas en una región variable y flanqueadas por el correspondiente ARNg diana (FIG. 3). Estos fragmentos se clonaron posteriormente en vectores de expresión que contenían varios promotores, incluidos los promotores de la ARN polimerasa III RPR1-tetO (inducible), SNR52 y tRNA-Tyr, así como los promotores de la<a>R<n>polimerasa II GAL7 (inducible) y TEF 1 flanqueados por ribozimas del VHD. La secuencia de ADN de la transcriptasa inversaE. coliEc86 se optimizó en codones para su expresión enSaccharomyces cerevisiae,se añadió una secuencia N-terminal de localización nuclear SV40, y la transcriptasa inversa se expresó coordinadamente con SpCas9 utilizando el promotor bidireccional inducible por galactosa pGal1-pGal10. La expresión de estas dos proteínas puede conseguirse en el mismo plásmido que el casete de ADN-ARNg donante de retrón, en un plásmido separado o integrado en el genoma.

Se utilizó un marcador genético visual, en el que la pérdida de la vía biosintética de la adenina en la levadura se diseñó insertando codones de parada prematuros en las secuencias codificantes deADE1oADE2.Las colonias de levadura de tipo silvestre son normalmente blancas, pero la pérdida de función deADE1oADE2da lugar a colonias de levadura rojas cuando se cultivan en medios que contienen bajas cantidades de adenina.

La edición en las muestras de ensayo se indujo durante periodos fijos de tiempo controlando la expresión del sistema de edición con promotores inducibles. Tras el periodo de edición, el sistema se reprimió para evitar mutaciones o interacciones no deseadas. Se cultivaron y aislaron colonias derivadas de individuos de la población inducida y se determinó la eficacia de la edición calculando la fracción de coloniasade-(evidenciada por el color rojo). A continuación, se secuenció la región objetivo en algunas de las coloniasade-(rojas) para determinar la precisión de la edición, que se expresó como el porcentaje de colonias que contenían la secuencia editada correcta (en contraposición a las inserciones y deleciones deletéreas no intencionadas que también interrumpían la biosíntesis de adenina). La eficacia de la edición depende de varios factores, como la calidad de la secuencia guía, la calidad de la secuencia donante, la fuerza de los promotores utilizados y el tiempo que se permite la edición.

Las Tablas 1 y 2 presentan datos de dos experimentos separados y muestran que un número de diferentes pares de ADN ARNg-donante lograron una alta eficiencia de edición después de 24 o 48 horas de edición. Cabe destacar que se pueden conseguir mayores porcentajes de eficacia de edición editando durante periodos más largos.

Para demostrar de forma adicional que la unión física del ARN guía a la secuencia de ADN donante contribuye a la alta eficiencia y fidelidad observada con el sistema CRISPR-retrón, se introdujo la secuencia de una ribozima autocatalítica de autodestrucción del virus de la hepatitis delta (VHD) entre la secuencia de ADN donante y el ARNg de dos construcciones. Tras la transcripción, la ribozima del VHD se plegó y partió el transcrito en dos, permitiendo que el ADN donante del retrón y el ARNg actuaran de forma independiente, como se muestra en la FIG. 5. Cuando el ADN donante y el ARN guía fueron divididos por el VHD, la eficiencia de edición cayó a niveles significativamente más bajos (Tabla 1).

La Tabla 3 muestra la altísima precisión de la edición. En total, se secuenciaron 128 colonias rojas de varias cepas de ADN donante de ARNg, y todas menos una fueron eventos de edición perfectos (precisión de edición global del 99,2%).

Tabla 1. Eficacia de edición de diferentes pares de ADN donante-ARNg tras 24 horas de edición

Tabla 2. Eficacia de edición de diferentes pares de ADN ARNg-donante bajo el control de diferentes promotores tras 48 horas de edición

Tabla 3. Precisión de edición en varios experimentos

Ejemplo 2. Cribado para identificar mutaciones causales subyacentes a loci de rasgos cuantitativos

Este ejemplo muestra cómo el sistema CRISPR-retrón puede utilizarse para realizar un cribado de alto rendimiento para identificar mutaciones causales subyacentes a loci de rasgos cuantitativos (QTL).

Introducción

Aprovechando la diversidad genética conocida entre dos cepas deSaccharomyces cerevisiae,RM11-1A y BY4742, las composiciones y procedimientos de la presente invención pueden utilizarse para realizar un cribado de alto rendimiento para identificar mutaciones causales subyacentes a QTL. Ambos genomas están completamente secuenciados y se han trazado previamente mapas aproximados de QTL para 46 rasgos. Entre las dos cepas hay aproximadamente 50.000 polimorfismos de un solo nucleótido (SNP) y pequeñas inserciones/deleciones, pero se espera que para cualquier rasgo dado, tan sólo entre 10 y 20 SNP sean responsables de las diferencias fenotípicas hereditarias observadas. Para descubrir estos SNP e inserciones/deleciones causantes, la cepa haploide BY4742 puede ser cribada y editada para cambiar cada SNP y pequeña inserción/deleción al alelo RM11-1A correspondiente. De este modo, es posible comparar cada cambio genético en un fondo por lo demás isogénico y relacionar esos cambios con el resultado fenotípico con el objetivo de identificar las mutaciones causales que subyacen a los QTL conocidos.

Diseño y generación de bibliotecas

La FIG. 6 muestra un diagrama general del flujo de trabajo. Una vez identificadas todas las secuencias de ARN guía que se dirigen a las posiciones de edición de interés, se puede puntuar su eficacia predicha en el objetivo, buscar los efectos predichos fuera del objetivo y seleccionar las mejores secuencias guía. A continuación, se pueden diseñar oligonucleótidos(es decir,casetes de retrón-ARNg) para la biblioteca. Un oligonucleótido puede contener una secuencia de ADN donante de 100 pares de bases que comprenda la edición deseada, seguida de 34 pares de bases de secuencia estructural constante seguida de una secuencia guía de 20 pares de bases. La secuencia donante 5' y la secuencia guía 3' pueden estar flanqueadas por tramos invariantes de 20 pares de bases de homología con el sitio de clonación del vector. La tecnología actual permite pools con una complejidad de hasta un millón de secuencias de oligonucleótidos únicas.

El conjunto de oligonucleótidos(es decir,el casete retrón-ARNg) y el vector de expresión pueden amplificarse por PCR de forma independiente utilizando cebadores que se solapen con la secuencia flanqueante de oligonucleótidos. A continuación, los fragmentos pueden purificarse en gel y clonarse mediante ensamblaje Gibson. Posteriormente, el ensamblaje puede transformarse enE. colielectrocompetente comercial de alta eficacia, tras lo cual se procede a la selección, aumento de volumen y purificación de los transformantes. La biblioteca de vectores resultante puede transformarse en una cepa de levadura que contenga una nucleasa Cas9 inducible y una transcriptasa inversa integradas en el genoma. Para preservar una representación uniforme de los oligonucleótidos es esencial que las tasas de transformación sean elevadas. Las levaduras transformadas con la biblioteca pueden seleccionarse para detectar la presencia de un marcador auxotrófico en el plásmido de expresión, expandirse y almacenarse en alícuotas para su uso futuro, así como secuenciarse para determinar la representación de oligonucleótidos en la biblioteca. A continuación, se puede inducir la edición durante un número fijo de generaciones en condiciones que induzcan la expresión de la transcriptasa inversa, la nucleasa Cas9 y el ARNg. Tras el periodo de edición, el sistema CRISPR-retrón puede reprimirse transcripcionalmente para evitar efectos de confusión durante el cribado. El cultivo editado puede alicuotarse y almacenarse para su cribado en múltiples condiciones, así como para su secuenciación con el fin de determinar la representación de oligonucleótidos en el pool de cepas de partida.

Cribado

Las muestras del cultivo de levadura editado pueden crecer en condiciones para las cuales las cepas RM11-1A y BY4742 poseen fenotipos de crecimiento diferencial heredables conocidos y QTL conocidos que controlan los diferentes fenotipos de crecimiento. Algunas de las levaduras contendrán plásmidos que dirigen la edición de mutaciones que confieren tasas de crecimiento mayores o menores, algunas de las cuales son específicas de la condición de crecimiento(es decir,SNP causales responsables de los QTL), lo que da lugar a cepas de levadura que aumentan o disminuyen en la población mientras que la tasa de crecimiento de la mayoría de las cepas permanece constante. Tras un número determinado de generaciones de crecimiento competitivo, los cultivos pueden cosecharse y aislarse los plásmidos. Por último, los plásmidos aislados de los cultivos pueden secuenciarse antes y después del periodo de competición, utilizando las secuencias guía y donante como código de barras para identificar las mutaciones que causan fenotipos de crecimiento diferenciales.

Ejemplo 3. Experimento de inserción de grandes donantes

Este ejemplo muestra la eficacia del sistema CRISPR-retrón cuando se le proporcionan donantes de longitud considerable. Se insertó eGFP (720 pb) junto con un enlazador de proteína de fusión (45 pb) en el locusADE1de S.cerevisiae.

DESCRIPCIÓN

Cuando se interrumpe el genADE1,las células de levadura ya no producen adenina, y las colonias muestran un color rosa cuando se cultivan en medios deficientes en adenina. Así, la eficacia de la edición puede medirse fácilmente introduciendo un codón de parada prematuro en el genADE1(es decir, precisamente 318 pb antes del codón de parada del gen,véase, por ejemplo,benchling.com/s/YcfW4YWP para una visualización de la región genómicaADE1).

Para este experimento, se desarrolló un plásmido con un donante compuesto por (1) brazos de homologíaADE1, (2) un enlazador de proteína de fusión, y (3) una secuencia codificante eGFP.

Para (1), se utilizó una secuencia donante/guía previamente utilizada para experimentos de prueba de principio. La mutación sin sentido deADE1se validó como eficaz en experimentos de knock out simples, en los que los experimentos de inducción indicaron una eficacia de edición del ~95%.

Se insertó un sitio de clonaciónAscIen el centro de la secuencia donante. Con este sitio de restricción, se insertaron fácilmente secuencias adicionales para alargar el tamaño del donante. Una vez desarrollado, se cortó el plásmido y se añadió secuencia adicional al retrón.

Con el fin de expresar GFP y realizar ensayos de fluorescencia, eGFP fue golpeado en inframe con el genADE1. Para facilitar dicho ensayo, se incluyó una proteína enlazadora de fusión bien caracterizada, que se colocó directamente corriente arriba de la secuencia eGFP

Mediante PCR, la secuencia enlazadora se fusionó con la secuencia GFP se añadieron 19-20 pb de homología al genADE1en ambos extremos de la molécula linker-eGFP, y la secuencia eGFP proporcionó el codón de parada temprana necesario para inducir la coloración rosa en las colonias de levadura resultantes.

La clonación se realizó mediante ensamblaje Gibson (New England Biolabs). Las secuencias plasmídicas se verificaron mediante secuenciación Sanger (Elim Biopharmaceuticals). La transformación de la levadura LiAc se realizó por triplicado(es decir, tres minipreparaciones de plásmido diferentes). Para seleccionar las cepas que contenían plásmidos, se realizaron siembras en medios de goteo, y las colonias individuales se volvieron a someter a dos siembras para aislar transformantes puros.

Se inocularon colonias individuales durante la noche en medios de "preinducción" (es decir, medios de goteo que contenían un 2% de rafinosa) y se dejaron agitar en una incubadora a 30 °C durante 24 horas. Esto garantizó que no se produjera edición, ya que el sistema retrón estaba dirigido por promotores de galactosa. La siguiente etapa consistió en subcultivar 100 uL de cultivo de levadura saturado en 3 ml de medio de "inducción" de goteo (es decir, medio con un 2% de galactosa) e incubar a 30 °C con agitación. Transcurridas 24 horas, se subcultivaron 100 uL en 3 ml de medio de inducción fresco. Transcurridas otras 24 horas, se colocaron diluciones del cultivo de levadura inducido en placas que contenían medios de goteo deficientes en adenina.

Las placas se incubaron a 30 °C. Al cabo de 48 horas, las colonias eran visibles. Se contaron las colonias, y los números se muestran en la Tabla 4 a continuación.

Tabla 4. Eficacia de la edición

Posteriormente, se recogieron 40 colonias y se aisló el ADN genómico (procedimiento LiOAc/SDS). Se utilizaron cebadores exclusivos del locusADE1para determinar la precisión de la edición (es decir, la fidelidad de la transcriptasa inversa).

Cebador directo ADE1: CATTGGTGGCCAGAGGTAAAG (SEQ ID NÚM.: 1)

Cebador inverso ADE1: GTGAGGAGTTACACTGGCGAC (SEQ ID NÚM.: 2)

Los productos de la PCR se analizaron en un gel al 1,7%. Se esperaba que las inserciones satisfactorias tuvieran un tamaño de 1,686 kB; todas las bandas del gel tenían aproximadamente este tamaño.

Los productos de la PCR se purificaron en columna (ZYMO Research) y se enviaron para secuenciación Sanger con los dos cebadores que se utilizaron para la PCR (Elim Biopharmaceuticals).

Los datos de secuenciación indicaron que 38 de las 40 secuencias tenían inserciones donantes perfectas. Dos cepas presentaban mutaciones puntuales en las secuencias eGFP insertadas. Ambas eran transversiones (es decir, G -> T).

La secuencia del genADE1se establece en SEQ ID NÚM.:4. La secuencia guía (situada dentro de la secuenciaADE1)se establece en SEQ ID NÚM.:3. La secuencia eGFP se establece en SEQ ID NÚM.:5. La secuencia de la proteína enlazadora de fusión se establece en SEQ ID NÚM.:6. Los brazos de homologíaADE1,que unían la secuencia donante en el plásmido, incluían 50 pb de homología corriente arriba (SEQ ID NÚM.:7) y corriente abajo (SEQ ID NÚM.:9) del sitio editado. La secuencia donante, que proporciona el codón de parada prematuro, se establece en SEQ ID NÚM.:8.

Ejemplo 4. Editor eficiente de levadura monovectorial asistido por CRISPR (pEASY)

Este ejemplo demuestra el desarrollo de un vector que contiene todas las secuencias necesarias para la edición del genoma de levadura CRISPR/Cas9 mediada por retrón.

DESCRIPCIÓN

Anteriormente, los experimentos de edición rápida en cepas de levadura aún no probadas utilizando la iteración original del sistema retrón se veían obstaculizados por tediosos experimentos de integración. La iteración original del sistema retrón utilizaba una transcriptasa inversa (RT) y Cas9 integrados en el locusHIS3de S.cerevisiae.Preparar un experimento sencillo de edición en otra cepa de levadura puede llevar hasta dos semanas. Al incorporar todos los componentes necesarios para la edición de retrones en un solo vector, se reduce significativamente el tiempo empleado en experimentos sencillos de edición (por ejemplo, se reduce a una sola semana).

Para este experimento, se desarrolló un vector que incluía los siguientes componentes: (1) una transcriptasa inversa (Ec86, optimizada para S.cerevisiae)impulsada por el promotor Gal10, (2) Cas9, impulsada por el promotor Gal1, y (3) secuencias asociadas a retrones, impulsadas por el promotor Gal7. El vector contenía un marcador URA3.

Cuando se interrumpe el genADE2,las células de levadura ya no producen adenina, y las colonias muestran un color rosa cuando se cultivan en medios deficientes en adenina. Por lo tanto, la eficacia de la edición puede medirse fácilmente utilizando el sistema retrón para introducir un codón de parada prematuro en el genADE2.En este experimento, se introdujo una mutación sin sentido 900 pb antes del codón de parada del gen (véase: benchling.com/s/3j5lEbJQ para un mapa anotado de la región genómica deADE2de S.cerevisiae,BY4742).

Las secuencias donadora y guía que se utilizaron se emplearon en experimentos previos de prueba de principio. Esta mutación sin sentidode a DE2fue validada como eficaz en experimentos de knock-out utilizando secuencias RT/Cas9 integradas (en esas condiciones, se observó una eficacia de edición del ~95% tras 48 horas de inducción). Esta misma combinación donante/guía eficaz se utilizó para probar la eficacia de pEASY

El vector tenía un total de 11.902 pb. Se encontrará información detallada sobre la secuencia y un mapa de pEASY en benchling.com/s/seq-wm8PahEtuKsNjuNDkosR).

La clonación se realizó mediante ensamblaje Gibson (New England Biolabs). Los vectores se prepararon mediante el uso de QIAprep Spin (Qiagen). Las secuencias de los vectores se verificaron mediante secuenciación Sanger (Elim Biopharmaceuticals).

Para este experimento piloto se seleccionaron tres cepas de S.cerevisiae:(1) RM11-1a, (2) BY4716, y (3) cepa, ZRS111 (simplemente, cepa BY4742 con RT/Cas9 integrado). Este último funcionó como control positivo para este experimento.

Se realizaron transformaciones de levadura por choque térmico con LiAc, seguidas de la siembra en medio de goteo para seleccionar las cepas que contenían el vector. Este experimento se realizó por duplicado para cada condición (es decir, se transformaron dos aislados de vectores dispares en cada cepa, para un total de seis transformaciones). Se volvieron a pinchar colonias individuales dos veces para aislar transformantes puros.

Se inocularon colonias individuales durante la noche en medios de "preinducción"(es decir,medios de goteo que contenían 2% de rafinosa) y se dejaron agitar en una incubadora a 30 °C durante 24 horas. Esto garantizaba que no se produjera edición, ya que el sistema retrón estaba dirigido por promotores de galactosa, pero permitía un cultivo de levadura suficientemente saturado, susceptible de una posterior perturbación genómica.

Se subcultivaron 100 uL de cultivo de levadura saturado en 3 ml de medio de "inducción" de goteo(es decir,medio que contiene 2% de galactosa) y se incubaron a 30 °C con agitación. Transcurridas 24 horas, se subcultivaron 100 uL en 3 ml de medio de inducción fresco. Transcurridas otras 24 horas, se colocaron diluciones del cultivo de levadura inducido en placas que contenían medios de goteo deficientes en adenina.

Las placas se incubaron a 30 °C. Al cabo de 48 horas, las colonias eran visibles. Todas las placas mostraron >90% de células editadas con éxito(es decir,rojas). Una vez que este ensayo ADE2 validó la eficacia de este procedimiento, se desarrolló una versión del vector susceptible de clonación eficiente. La inserción de un sitio de digestión de restricción único(es decir, Notl)en lugar del donante/guíaADE2permite un procedimiento de clonación en dos pasos que comprende: (1) digerir el vector pEASY, y (2) utilizar el ensamblaje Gibson para insertar un GBLOCK que contenga una secuencia guía/donante dirigida a una secuencia de interés.

La secuencia del genADE2se establece en SEQ ID NÚM.: 10. Los brazos de homologíaADE2,situados 50 pb corriente arriba y 48 pb corriente abajo del sitio de edición, se exponen en SEQ ID NÚM.: 11 y 12, respectivamente. La secuencia guía se establece en s Eq ID NÚM.: 13.

Ejemplo 5. Guía de División-Edición de Retrones

Este ejemplo describe dos experimentos que demostraron que el enlace covalente entre el transcrito retrón y la molécula de ARN guía (ARNg) no es necesario para la alta eficiencia de edición del sistema CRISPR-retrón.

DESCRIPCIÓN

El primer experimento involucró la expresión inducible de dos unidades guía de retrón, separadas posttranscripcionalmente por una ribozima del virus de la hepatitis delta (VHD), como se ilustra en la FIG. 7. La primera unidad (FIG. 7, arriba, etiquetada como "Donante BFP" y "sgAde2") consistía en un retrón que comprendía una secuencia donante para editar el gen que codifica BFP (el gen BFP no estaba presente en esta cepa, por lo que se trataba de un donante no funcional) y una región codificante de ARNg sgAde2, que escindía la secuencia codificanteADE2.La segunda unidad (FIG. 7, arriba, etiquetado como "Donante Ade2" y "sgGFP") tenía un retrón que comprendía una secuencia donante para reparar la escisión por sgAde2 con un alelo mutante sin sentido en el locusADE2(Ade2 KO), mientras que estaba unido a una región codificante de ARNg sgGFP para dirigir la GFP (la GFP no estaba presente en esta cepa, por lo que se trataba de un ARNg no funcional). Si se requiriera un enlace covalente entre el transcrito retrón y la molécula de ARNg para la alta eficiencia de edición del sistema CRISPR-Cas9 guía de retrón, no se esperaría una alta eficiencia de edición cuando el retrón Ade2 KO no estuviera unido a sgAde2 en cis. Si la asociación cis no fuera necesaria para una alta eficiencia de edición, el ARN guía sgAde2 y el ADNmm generado a partir del transcrito del retrón Ade2 KO actuarían en trans para facilitar la escisión del ADNg y la reparación dirigida por homología (HDR) (FIG. 7, esquema inferior). La figura 8 muestra que la eficiencia del knockout del locusa DE2era >90% a las 24 horas en dos réplicas de clones de levadura separados, lo que indica que no era necesaria la asociación cis del transcrito retrón coincidente y el ARNg para el mismo locus.

El segundo experimento implicó la expresión constitutiva del ARNg sgAde2 a partir de un plásmido de alta copia. Este plásmido también contenía una secuencia donante Ade2 KO de 100 pb sin secuencia retrón. Se añadió un segundo plásmido a la levadura, que contenía un par guía de retrón idéntico al par Ade2 KO retrón-sgGFP del primer experimento. Dado que el ARNg sgAde2 y el donante de retrón Ade2 KO se expresaron en plásmidos diferentes, no se asociaron en cis. La figura 9 muestra que en ausencia de la transcriptasa inversa bacteriana (RT), la transcripción del retrón Ade2 KO no se transcribió inversamente y, por tanto, la eficiencia de edición fue del 30%~40%. En presencia de RT, la eficiencia de edición fue alta debido a la expresión del donante de ADNmm Ade2 KO para HDR por transcripción inversa. Por lo tanto, se concluyó que el transcrito retrón y los componentes gRNA del sistema de edición pueden actuar en trans para lograr una alta eficiencia de edición.

LISTADO INFORMAL DE SECUENCIAS

Claims

REIVINDICACIONES

1. Un casete de ARN guía de retrón que comprende:

(a) un retrón que comprende:

(i) un locusmsr;

(ii) una primera región codificante de secuencia de repetición invertida situada en el extremo 5' del locusmsr;

(iii) un locusmsd,en el que el extremo 3' del locusmsrse solapa con el extremo 5' del locus msd;

(iv) una secuencia de ADN donante localizada dentro del locusmsd;y

(v) una segunda región codificadora de la secuencia de repetición invertida situada a 3' del locusmsd;y

(b) una región codificante de ARN guía (ARNg), en la que la región codificante de ARNg está a 3' o 5' del retrón, y en la que el casete retrón-ARNg, cuando se transcribe en una célula, produce un transcrito de retrón y ARNg que están físicamente acoplados.

2. El casete de la reivindicación 1, en el que el retrón codifica una molécula de ARN capaz de transcribirse inversamente por sí misma mediante una transcriptasa inversa (RT).

3. El casete de la reivindicación 2, en el que la transcripción inversa de la molécula de ARN da lugar a una molécula multicopia de ADN monocatenario (ADNmm) que comprende ARN y ADN.

4. Un vector que comprende el casete de cualquiera de las reivindicaciones 1 a 3.

5. El vector de la reivindicación 4, que comprende además un promotor que está unido de forma operativa al casete y en el que preferentemente el promotor es inducible o seleccionado del grupo que consiste en un promotor de ARN polimerasa II, un promotor deARN polimerasa III y una combinación de los mismos.

6. El vector de una cualquiera de las reivindicaciones 4 o 5, que comprende además una secuencia codificante de la transcriptasa inversa (RT) y, preferentemente, comprende además una secuencia de localización nuclear situada a 5' de la secuencia codificante de la RT

7. El vector de una cualquiera de las reivindicaciones 4 a 6, que comprende además una secuencia codificante de nucleasa, en la que preferentemente la nucleasa codificada por la secuencia codificante de nucleasa es una nucleasa de ADN programable o dirigible, opcionalmente una nucleasa de proteína asociada a CRISPR (Cas).

8. Una molécula de ADN-guía donante de retrón que comprende:

(a) una transcripción retrón que comprende:

(i) una regiónmsr;

(ii) una primera secuencia de repetición invertida situada en el extremo 5' de la regiónmsr;

(iii) una regiónmsd,en la que el extremo 3' de la regiónmsrse solapa con el extremo 5' de la regiónmsd;

(iv) una región codificante de la secuencia de ADN donante situada dentro de la regiónmsd; y

(v) una segunda secuencia de repetición invertida situada a 3' de la regiónmsd; y

(b) una molécula de ARN guía (ARNg), en la que la molécula de ARNg se encuentra a 3' o 5' del transcrito retrón, y en la que el transcrito retrón y la molécula de ARNg están acoplados físicamente.

9. La molécula de ADN-guía donante de retrón de la reivindicación 8, en la que el transcrito de retrón es capaz de transcribirse inversamente por sí mismo mediante una transcriptasa inversa (RT) y en la que preferentemente la transcripción inversa del transcrito de retrón da como resultado una molécula de ADN monocatenario multicopia (ADNmm) que comprende ARN y ADN.

10. Un procedimiento para modificar uno o más ácidos nucleicos diana de interés en uno o más loci diana dentro de un genoma de una célula huésped que no es una célula germinal humana, el procedimiento comprende:

(a) transformar la célula huésped con un vector de cualquiera de las reivindicaciones 4 a 7; y

en el que uno o más loci diana son cortados por una nucleasa expresada por la célula huésped o la progenie transformada de la célula huésped, en el que el sitio de corte de la nucleasa está especificado por el ARNg, y en el que la una o más secuencias de ADN donante se recombinan con la una o más secuencias de ácido nucleico diana para insertar, borrar y/o sustituir una o más bases de la secuencia de la una o más secuencias de ácido nucleico diana para inducir una o más modificaciones de secuencia en el uno o más loci diana dentro del genoma.

11. El procedimiento de la reivindicación 10, en el que las regionesmsrymsddel transcrito retrón forman una estructura secundaria, en el que la formación de la estructura secundaria se ve facilitada por el emparejamiento de bases entre las primeras y las segundas secuencias de repetición invertida, y en el que la estructura secundaria es reconocida por la RT para el inicio de la transcripción inversa.

12. El procedimiento de una cualquiera de las reivindicaciones 10 u 11, en el que la célula huésped es capaz de expresar la nucleasa antes de transformar la célula huésped con el vector o en el que la célula huésped es capaz de expresar la nucleasa al mismo tiempo que, o después de, transformar la célula huésped con el vector.

13. El procedimiento de una cualquiera de las reivindicaciones 10 a 12, en el que la inducción de una o más modificaciones de secuencia da lugar a la inserción de una o más secuencias que codifican etiquetas de localización celular, una o más secuencias que codifican degrones, uno o más elementos de respuesta sintéticos, o una combinación de los mismos en el genoma o en el que la inducción de una o más modificaciones de secuencia da lugar a la inserción de una o más secuencias de un genoma heterólogo.

14. Un procedimiento para el cribado de uno o más loci genéticos de interés en un genoma de una célula huésped, comprendiendo el procedimiento:

(a) modificar uno o más ácidos nucleicos diana de interés en uno o más loci diana dentro del genoma de la célula huésped de acuerdo con el procedimiento de una cualquiera de las reivindicaciones 10 a 13;

(c) identificar el fenotipo resultante de la célula huésped modificada; y

15. Una composición farmacéutica que comprende:

(a) el casete de ARN guía de retrón de una cualquiera de las reivindicaciones 1 a 3, el vector de una cualquiera de las reivindicaciones 4 a 7, la molécula donante guía de retrón-ADN de las reivindicaciones 8 o 9, o una combinación de los mismos; y

(b) un portador farmacéuticamente aceptable.