ES2937986T3

ES2937986T3 - Método de caracterización de las modificaciones causadas por el uso de nucleasas de diseño

Info

Publication number: ES2937986T3
Application number: ES19769176T
Authority: ES
Inventors: Toni Cathomen; Giandomenico Turchiano; Georges Blattner; Gianni Monaco; Melanie Börries; Geoffroy Andrieux
Original assignee: Deutsches Krebsforschungszentrum DKFZ; Albert Ludwigs Universitaet Freiburg
Current assignee: Deutsches Krebsforschungszentrum DKFZ; Albert Ludwigs Universitaet Freiburg
Priority date: 2018-09-25
Filing date: 2019-09-19
Publication date: 2023-04-03
Anticipated expiration: 2039-09-19
Also published as: DK3856928T3; JP2024113001A; LT3856928T; EP3856928A1; US11319580B2; EP3856928B1; JP2022512530A; EP3628748A1; KR102899840B1; US20210317514A1; KR20210065085A; WO2020064478A1

Abstract

Se divulga un método para la detección de alto rendimiento de modificaciones de todo el genoma en un genoma de ácido nucleico obtenido de una célula o tejido causado por la actividad de una nucleasa de diseño que comprende los siguientes pasos: a) Extracción del ADN genómico de las células que fueron expuestas a una nucleasa de diseño en condiciones que permitan a la nucleasa de diseño introducir una rotura de doble cadena (DSB) de ADN en el ADN genómico de la célula, b) fragmentación del ácido nucleico para obtener fragmentos aleatorios, c) realizar una reparación final para para obtener extremos romos, d) ligadura con un enlazador que comprende una secuencia complementaria a un llamado "cebador enlazador", e) realizar una primera reacción de amplificación de ácido nucleico con un "cebador enlazador" y un llamado "cebador ON-target",en el que un cebador se encuentra aguas arriba y otro cebador aguas abajo del sitio en el objetivo, en el que al menos un cebador señuelo está presente en la mezcla de reacción, f) realizar una segunda reacción de amplificación de ácidos nucleicos mediante la cual se añaden los llamados "cebadores anidados" a la mezcla de reacción, donde un cebador es complementario al locus en el objetivo y un cebador complementario a la secuencia enlazadora, 9) llevar a cabo una reacción adicional de amplificación de ácido nucleico en la que al menos un código que contiene cebadores se agrega a la mezcla de reacción, h) secuenciación del producto de amplificación anidado y con código de barras, e i) alineación de los productos secuenciados con medios bioinformáticos adecuados a una secuencia de referencia para identificar una ubicación cromosómica que contiene una modificación genómica basada en al menos una rotura de doble cadena de ADN.en el que al menos un cebador señuelo está presente en la mezcla de reacción, f) realizar una segunda reacción de amplificación de ácido nucleico en la que se añaden los llamados "cebadores anidados" a la mezcla de reacción, en la que un cebador es complementario al locus en el objetivo y un cebador complementaria a la secuencia enlazadora, 9) realizar una reacción adicional de amplificación de ácido nucleico mediante la cual se agrega al menos un código que contiene cebadores a la mezcla de reacción, h) secuenciar el producto de amplificación anidado y con código de barras, e i) alinear los productos secuenciados con bioinformática adecuada significa a una secuencia de referencia para identificar una ubicación cromosómica que contiene una modificación genómica basada en al menos una rotura de doble cadena de ADN.en el que al menos un cebador señuelo está presente en la mezcla de reacción, f) realizar una segunda reacción de amplificación de ácido nucleico en la que se añaden los llamados "cebadores anidados" a la mezcla de reacción, en la que un cebador es complementario al locus en el objetivo y un cebador complementaria a la secuencia enlazadora, 9) realizar una reacción adicional de amplificación de ácido nucleico mediante la cual se agrega al menos un código que contiene cebadores a la mezcla de reacción, h) secuenciar el producto de amplificación anidado y con código de barras, e i) alinear los productos secuenciados con bioinformática adecuada significa a una secuencia de referencia para identificar una ubicación cromosómica que contiene una modificación genómica basada en al menos una rotura de doble cadena de ADN.f) realizar una segunda reacción de amplificación de ácidos nucleicos en la que se añaden a la mezcla de reacción los llamados "cebadores anidados", en los que un cebador es complementario al locus en el objetivo y un cebador es complementario a la secuencia enlazadora, 9) realizar un ácido nucleico adicional reacción de amplificación en la que al menos un código que contiene cebadores se agrega a la mezcla de reacción, h) secuenciación del producto de amplificación anidado y con código de barras, e i) alineación de los productos secuenciados con medios bioinformáticos adecuados a una secuencia de referencia para identificar una ubicación cromosómica que contiene un modificación genómica basada en al menos una rotura de doble cadena de ADN.f) realizar una segunda reacción de amplificación de ácidos nucleicos en la que se añaden a la mezcla de reacción los llamados "cebadores anidados", en los que un cebador es complementario al locus en el objetivo y un cebador es complementario a la secuencia enlazadora, 9) realizar un ácido nucleico adicional reacción de amplificación en la que al menos un código que contiene cebadores se agrega a la mezcla de reacción, h) secuenciación del producto de amplificación anidado y con código de barras, e i) alineación de los productos secuenciados con medios bioinformáticos adecuados a una secuencia de referencia para identificar una ubicación cromosómica que contiene un modificación genómica basada en al menos una rotura de doble cadena de ADN.9) realizar una reacción adicional de amplificación de ácidos nucleicos mediante la cual se agrega al menos un código que contiene cebadores a la mezcla de reacción, h) secuenciar el producto de amplificación anidado y con código de barras, e i) alinear los productos secuenciados con medios bioinformáticos adecuados a una secuencia de referencia para identificar una ubicación cromosómica que contenga una modificación genómica basada en al menos una rotura de doble cadena de ADN.9) realizar una reacción adicional de amplificación de ácidos nucleicos mediante la cual se agrega al menos un código que contiene cebadores a la mezcla de reacción, h) secuenciar el producto de amplificación anidado y con código de barras, e i) alinear los productos secuenciados con medios bioinformáticos adecuados a una secuencia de referencia para identificar una ubicación cromosómica que contenga una modificación genómica basada en al menos una rotura de doble cadena de ADN. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Método de caracterización de las modificaciones causadas por el uso de nucleasas de diseño

La edición del genoma describe la modificación dirigida de los genomas de cualquier tipo de célula de interés con las llamadas "nucleasas de diseño".

Se conocen varias nucleasas de diseño, que también se denominan "nucleasas programables" o "nucleasas modificadas". Ciertos ejemplos son las nucleasas de dedos de zinc ("zinc-finger nucleases", ZFN), las nucleasas efectoras similares a activadores transcripcionales ("transcriptional activator-like effector nucleases", TALEN) y las nucleasas modificadas dirigidas por ARN ("RNA-guided engineered nucleases", RGEN) que pueden derivarse del sistema de inmunidad adaptativa procariota de grupos de repeticiones palindrómicas cortas en intervalos regulares (CRISPR/Cas). Estos medios son importantes y se utilizan ampliamente para la edición del genoma no solo en células cultivadas, sino también en organismos enteros. Las nucleasas de diseño tienen su origen en la naturaleza, pero se modifican artificialmente para que actúen de la forma prevista.

La edición del genoma tiene amplias aplicaciones y se ha empleado con éxito para modificar genéticamente microorganismos procariotas y eucariotas, cultivos, ganado, organismos modelo para la investigación, líneas celulares para la selección de fármacos y diversos tipos celulares u órganos para aplicaciones terapéuticas. Para la mayoría de estas aplicaciones, la especificidad de la nucleasa de diseño empleada es un parámetro clave para garantizar el mantenimiento de la integridad del genoma del tipo celular editado.

En el contexto de las aplicaciones clínicas en seres humanos, los tipos celulares pertinentes que se han editado con nucleasas de diseño incluyen células madre hematopoyéticas, linfocitos B y T, células madre epidérmicas, células madre pluripotentes, células hepáticas, células musculares y células retinianas. Las enfermedades diana pertinentes incluyen, entre otras, trastornos hereditarios, en concreto, trastornos hereditarios con herencia dominante o enfermedades causadas por mutaciones en genes estrechamente regulados, enfermedades infecciosas o cáncer.

Antes de emplear la edición genómica en tipos celulares trasplantables ex vivo o antes de aplicar herramientas de edición génica in vivo directamente en el paciente, las nucleasas de diseño deben evaluarse cuidadosamente con respecto a su actividad y especificidad. La especificidad de las endonucleasas modificadas es la clave para cualquier aplicación clínica de la edición de genes con el fin de mantener la integridad del genoma y reducir el riesgo de inducir mutaciones oncogénicas. La consecuencia de la mutagénesis inducida por nucleasas de diseño en los denominados sitios diana inespecíficos y/o las aberraciones cromosómicas resultantes suelen denominarse genotoxicidad que, en última instancia, podría provocar cáncer.

La expresión "sitio diana" ("on-target site") se utiliza en la presente solicitud para denominar un sitio en el que se pretende introducir una ruptura bicatenaria del ADN mediante el uso de "nucleasas de diseño". Este sitio de acción previsto suele denominarse "sitio diana".

Las nucleasas de diseño tienen una cierta especificidad de secuencia y, por tanto, actúan en dicho "sitio diana". Sin embargo, las nucleasas de diseño también pueden actuar en los denominados "sitios diana inespecíficos" ("off-target sites"), que muestran cierto grado de homología de secuencia con el "sitio diana". La expresión "sitio diana inespecífico", tal como se utiliza en el presente documento, se refiere a un sitio en el que las nucleasas de diseño tienen actividad y que suele tener una secuencia que no es idéntica a la secuencia diana de la secuencia de diseño. Un "sitio diana inespecífico" se refiere a una secuencia distinta de un "sitio diana" que cortan las nucleasas de diseño. El hecho de que las nucleasas de diseño tengan actividad incluso en sitios distintos del sitio diana puede deberse a fenómenos que pueden deberse a diversas razones. La desventaja de las nucleasas de diseño que cortan en sitios diana inespecíficos es que esto puede dar lugar a efectos secundarios no deseados como mutaciones, deleciones, inversiones de secuencia y otras alteraciones en el genoma que deben evitarse.

En general, la actividad en dianas inespecíficas inducida por nucleasas de diseño puede dar lugar a mutaciones cortas de inserción/deleción (indel), grandes deleciones cromosómicas, inversiones cromosómicas, así como translocaciones cromosómicas. A nivel molecular, la actividad en dianas inespecíficas se produce cuando los restos de unión al ADN de las nucleasas de diseño se unen a secuencias del genoma que comparten homología con el sitio diana real. En la última década se ha invertido mucho esfuerzo en aumentar la seguridad de las herramientas de edición genómica, lo que ha permitido mejorar las nucleasas de diseño con una especificidad mucho mayor.

No obstante, una evaluación preclínica exhaustiva de la especificidad de las nucleasas de diseño es un requisito claramente establecido por los organismos reguladores, como el Instituto Paul Ehrlich de Alemania o la Administración de Alimentos y Medicamentos de los Estados Unidos (FDA). Existe la necesidad de métodos de diagnóstico aplicados que sean muy sensibles y que permitan a los expertos no solo medir la mutagénesis en dianas inespecíficas, sino también las aberraciones cromosómicas y/o cualquier otra modificación genómica inesperada con alta sensibilidad.

Para evaluar el riesgo genotóxico asociado a la aplicación de nucleasas de diseño, tales como las nucleasas CRISPR-Cas, se han desarrollado varios métodos para determinar la actividad en dianas inespecíficas de las nucleasas de diseño o las aberraciones cromosómicas inducidas por nucleasas de diseño. En principio, estos métodos pueden subdividirse en algoritmos informáticos de predicción (métodos informáticos), métodos de ensayo in vitro y métodos basados en células. Todos estos métodos se basan en la secuenciación de nueva generación ("next generation sequencing", NGS) y suelen emplearse en un proceso de dos etapas: En primer lugar, se utiliza un "ensayo de selección" para identificar todos los posibles sitios diana inespecíficos en el genoma de interés. Se utiliza un "ensayo de confirmación" posterior para secuenciar, en el genoma de las células editadas genéticamente, los posibles sitios diana inespecíficos definidos en el ensayo de selección.

Los algoritmos de predicción informáticos se basan en parámetros bien definidos, incluida la similitud con la secuencia diana (Lee et al. (2016), Mol. Ther., 24, 475-487). Representan un "ensayo de selección" rápido y relativamente barato, pero, la mayoría de las veces, esos algoritmos pasan por alto sitios diana inespecíficos críticos. A diferencia del análisis informático, los métodos experimentales permiten la identificación de dianas inespecíficas independientemente de los parámetros predeterminados y, por consiguiente, están menos sesgados. Sin embargo, los métodos experimentales son más laboriosos y caros. Además, están sujetos a limitaciones técnicas y algunos carecen de sensibilidad.

En la actualidad, se emplean varios "ensayos de selección" experimentales para determinar los sitios diana inespecíficos y es probable que sean lo suficientemente sensibles como para ser considerados para la evaluación preclínica de la especificidad de las nucleasas de diseño, como, por ejemplo:

a) documento EP 3219810 (secuenciación del genoma completo)

b) Guide-Seq (Tsai et al. (2015), Nat. Biotechnol., 33, 187-197),

c) BLISS (Yan et al. (2017), Nat. Commun., 8, 15058),

d) Digenome-Seq (Kim et al. (2015), Nat. Methods, 12, 237-243), y

e) Circle-Seq (Tsai et al. (2017), Nat. Methods, 14, 607-614).

Guide-Seq es un método basado en células que introduce oligodesoxinucleótidos cortos bicatenarios (ODNbc) en la célula, además de la nucleasa de diseño. Una vez que la nucleasa de diseño corta el genoma, el ODNbc corto es integrado por la maquinaria celular de reparación del ADN en las rupturas bicatenarias del ADN resultantes, y puede actuar entonces como punto de partida para la secuenciación de alto rendimiento. Este método funciona bien, pero solo en determinadas líneas celulares humanas cuyo genoma puede diferir considerablemente del genoma del paciente.

BLISS detecta rupturas bicatenarias del ADN reales en células mediante un ligamiento de oligos in vitro a los extremos de ADN disponibles. El ADN ligado se transcribe in vitro y el banco se secuencia mediante secuenciación de alto rendimiento. Digenome-Seq y Circle-Seq son métodos in vitro, que se basan en el corte del genoma completo o de fragmentos circularizados del genoma con CRISPR-Cas.

Para Digenome-Seq, la secuenciación del genoma completo se realiza en los genomas cortados in vitro, lo que producirá lecturas de secuencias con los mismos extremos 5' en los sitios de corte que luego pueden ser identificados de forma computacional. Para alcanzar la cobertura necesaria y, por tanto, la sensibilidad suficiente, Digenome-Seq debe realizarse en máquinas de secuenciación de alto rendimiento, tales como la línea HiSeq de Illumina. En consecuencia, la aplicación de Digenome-Seq es bastante cara.

En Circle-Seq, los adaptadores de secuenciación se ligan a los extremos 5' cortados, que luego se pueden utilizar para NGS para identificar los sitios diana inespecíficos. Sin embargo, Circle-Seq puede adolecer de posibles sesgos derivados de la necesidad de circularizar el a Dn genómico y requiere grandes cantidades de ADN de entrada. Por lo tanto, Circle-Seq no puede realizarse si solo se dispone de una cantidad limitada de muestra, por ejemplo, una biopsia. En todos los casos, estos sitios diana inespecíficos determinados de modo experimental deben validarse en las células del paciente mediante "ensayos de confirmación" que utilizan NGS, tales como la secuenciación multiplexada de amplicones diana, para establecer un perfil de especificidad real de las nucleasas en las células diana clínicamente pertinentes.

Es importante destacar que los métodos descritos anteriormente permiten a los investigadores predecir los sitios diana inespecíficos que son cortados por la nucleasa de diseño elegida, pero ninguno de ellos permite una evaluación de las aberraciones cromosómicas graves inducidas por nucleasas programables, tales como las descritas recientemente (Kosicki et al. (2018), Nat. Biotechnol., 36, 765-771).

Otros dos métodos descritos, la secuenciación masiva de traslocaciones en el genoma completo ("high-throughput genome-wide translocation sequencing", HTGTS) y la metodología de secuenciación unidireccional dirigida ("unidirectional targeted sequencing methodology", UDiTaS) pueden identificar translocaciones u otras aberraciones cromosómicas inducidas por nucleasas de diseño. HTGTS (documento WO 2016/081798) y UDiTaS (documento WO 2018/129368) divulgan métodos relacionados con la detección de rupturas bicatenarias del ADN inespecíficas en el genoma. Estos dos métodos también permitieron la identificación de acontecimientos de translocación, pero los análisis bioinformáticos descritos, así como la fragmentación genómica sesgada (uso de tagmentación Tn5 para UDiTaS, enzimas de restricción para HTGTS) limitan considerablemente la sensibilidad de estos enfoques. La HTGTS no establece un límite inferior de detección ("lower limit of detection", LLoD) ni una sensibilidad. El LLoD de UDiTaS se indica como del 0,1 %.

Todos los métodos conocidos no pueden identificar reordenamientos cromosómicos que no estén relacionados con la actividad en dianas inespecíficas de una nucleasa de diseño. En concreto, estos métodos no pueden identificar reordenamientos cromosómicos mediados por homología que se desencadenan por la actividad en la diana de una nucleasa de diseño.

HTGTS y UDiTaS no son cuantitativos con respecto a acontecimientos de translocación desconocidos.

HTGTS y UDiTaS no demostraron funcionar en ADN genómico obtenido de un tipo celular editado genéticamente y que fuera clínicamente pertinente, es decir, células madre hematopoyéticas.

El documento WO 2016/081798 divulga la "secuenciación masiva de traslocaciones en el genoma completo" (HTGTS), que es un método para detectar translocaciones cromosómicas inducidas por la expresión de nucleasas de diseño.

En concreto, (i) no se conoce la sensibilidad de HTGTS, (ii) HTGTS no es cuantitativa, sino que solo indica frecuencias relativas de unión (es decir, indica las frecuencias relativas de acontecimientos de translocación en una población celular), (iii) HTGTS no identifica ni cuantifica deleciones grandes (>1 kb) en el sitio diana y no permite la identificación de reordenamientos cromosómicos mediados por RH. Por último, (iv) el HTGTS necesita entre 20 y 100 microgramos de ADN genómico (en contraste con los 0,5 microgramos que necesita el método reivindicado) y, por tanto, no es aplicable para analizar muestras clínicamente pertinentes.

El documento WO 2018/129368 divulga la "secuenciación dirigida unidireccional" (UDiTas) que detecta intencionadamente reordenamientos cromosómicos inducidos, es decir, reordenamientos cromosómicos entre dos rupturas bicatenarias del ADN inducidas intencionadamente. Este método no muestra ningún dato que demuestre que es capaz de identificar reordenamientos cromosómicos no intencionados, es decir, no puede identificar ni cuantificar reordenamientos cromosómicos desconocidos. Además, no detecta deleciones genómicas no intencionadas en el sitio diana y no permite la identificación de reordenamientos cromosómicos mediados por RH. Es importante señalar que no se han presentado pruebas que demuestren que el método puede detectar aberraciones cromosómicas inducidas por una única ruptura bicatenaria del ADN.

Es un objetivo de la presente invención proporcionar un método que pueda identificar modificaciones genómicas, incluyendo aberraciones cromosómicas graves, y que sea (i) muy sensible, (ii) muy específico, (iii) cuantitativo, (iv) capaz de detectar tipos de reordenamientos cromosómicos no descritos previamente, y (v) que se realice directamente en el ADN genómico aislado del tipo celular clínicamente pertinente. El método se denomina en el presente documento CAST-Seq (análisis de aberraciones cromosómicas mediante PCR mediada por conector dirigido único). La invención se define además en las reivindicaciones.

CAST-Seq se basa en la PCR mediada por conector dirigido único (LM-PCR) y utiliza cebadores señuelo para mejorar la relación señal-ruido. Este método permite identificar sitios diana inespecíficos y detectar modificaciones genómicas derivadas de la actividad tanto dentro en la diana como en dianas inespecíficas de nucleasas de diseño, incluidas grandes deleciones, inversiones y translocaciones con una sensibilidad inigualable. Es importante destacar que, gracias a la alta sensibilidad de CAST-Seq, el ensayo puede realizarse con menos de 1 |jg de ADN genómico como entrada. Por lo tanto, CAST-Seq puede aplicarse directamente a cualquier tipo de célula humana clínicamente pertinente elegida, incluidas las células editadas genéticamente ex vivo antes del trasplante o las células derivadas de una biopsia de órganos editados genéticamente. Esta configuración única y el hecho de que CAST-Seq se realiza directamente en el tipo de célula editada o tejido de interés, hace que un ensayo de confirmación basado en NGS sea redundante al unir directamente la "prueba de selección" con la "prueba de confirmación". Por lo tanto, CAST-Seq puede mejorar sustancialmente el proceso al detectar aberraciones cromosómicas en "sitios diana" y "sitios diana inespecíficos".

Realizaciones preferidas de la presente invención

La presente invención proporciona un método novedoso que se utiliza para caracterizar las modificaciones genómicas causadas por el uso de endonucleasas de diseño en cualquier tipo de célula eucariota, incluidas, entre otras, células humanas, células de primates no humanos, tipos de células de mamífero, tipos de células de vertebrado, levaduras, células vegetales.

CAST-Seq puede caracterizar la aberración cromosómica causada tanto por la actividad en dianas inespecíficas como por la actividad en la diana de las nucleasas de diseño. Como tal, también proporciona un nuevo método de diagnóstico para clasificar translocaciones acéntricas/dicéntricas poco frecuentes derivadas de la fusión de dos cromosomas hermanos en sitios diana, o grandes deleciones cromosómicas originadas en el sitio de corte diana. Es importante destacar que CAST-Seq también puede detectar aberraciones cromosómicas inducidas por nucleasas de diseño que se inician en sitios comunes de ruptura ("common breaking sites", CBS) o en sitios naturales de ruptura ("naturally occurring breaking sites", NBS) del genoma.

En el contexto de las aplicaciones clínicas de la edición genómica en seres humanos, CAST-Seq puede aplicarse con eficacia durante la fase preclínica para caracterizar la especificidad de cualquier endonucleasa (por ejemplo, entre otras, nucleasas de diseño de los tipos CRISPR-Cas, TALEN, ZFN, MegaTAL) con el fin de elegir, por ejemplo, una endonucleasa que combine alta actividad con alta especificidad. En este contexto, CAST-Seq también puede utilizarse para caracterizar el impacto de las modificaciones introducidas en una endonucleasa programable, tales como las modificaciones que afectan a la afinidad, la especificidad y/o la estabilidad de la endonucleasa.

Además, debido a la alta sensibilidad, son suficientes cantidades mínimas de ADN genómico para realizar un análisis completo. Por lo tanto, CAST-Seq también puede emplearse para caracterizar un producto de edición génica fabricado antes de su aplicación al paciente como parte de un análisis de control de calidad.

CAST-Seq también puede emplearse en la fase de seguimiento del paciente. Por ejemplo, CAST-Seq puede utilizarse para evaluar la integridad genómica de diversos tipos de células de sangre periférica tras el trasplante de células madre hematopoyéticas editadas genéticamente.

Además, dado que CAST-Seq es un método semicuantitativo, la alteración en las frecuencias de modificaciones específicas puede seguirse a lo largo del tiempo, por ejemplo, para evaluar la expansión clonal de ciertas modificaciones en células precancerosas tempranas. Una vez se disponga de datos suficientes, esto también permitirá utilizar CAST-Seq para predecir el resultado y/o el riesgo de mutaciones genotóxicas en el desarrollo del cáncer.

Las aplicaciones de CAST-Seq incluyen, entre otras, trastornos en los que se aplica la edición genómica ex vivo, tales como defectos del sistema inmunitario, hemofilia, hemoglobinopatías, trastornos metabólicos, enfermedades infecciosas y mejoras de las inmunoterapias basadas en linfocitos T para combatir el cáncer.

CAST-Seq también puede aplicarse para evaluar el resultado de la edición génica realizada in vivo, es decir, aplicando directamente las herramientas de edición genómica al paciente a través, por ejemplo, del transporte viral o el transporte mediante nanopartículas o cualquier otro medio. En este contexto, una pequeña biopsia tomada del órgano diana (por ejemplo, el hígado) será suficiente para evaluar el impacto de las modificaciones genéticas o cromosómicas inducidas por nucleasas de diseño. Este enfoque no solo puede aplicarse al órgano diana, sino que también podría emplearse para evaluar el impacto de los enfoques de edición genética en órganos diana inespecíficos. También se pueden emplear estudios longitudinales para rastrear el destino de las células editadas genéticamente.

El método de la presente invención puede utilizarse preferentemente en trastornos en los que se aplica la edición del genoma in vivo, tales como la hemofilia, los trastornos metabólicos, los trastornos oculares genéticos, los trastornos auditivos hereditarios, los trastornos musculares hereditarios, las enfermedades neuromusculares y los trastornos que afectan al sistema nervioso central.

La presente invención proporciona una herramienta de diagnóstico novedosa para el estudio del genoma del cáncer. Dada una mutación o un estímulo concretos, CAST-Seq puede cartografiar el sitio común de ruptura (CBS) y retratar la firma de mutación de un modelo cancerígeno dado. Mediante el uso de CAST-Seq en un enfoque de este tipo, será posible definir nuevos enfoques convencionales para predecir y diagnosticar los resultados del cáncer.

El método de la presente invención se refiere a la detección de modificaciones no deseadas en un ácido nucleico, preferentemente un ácido genómico, causadas por la actividad de una nucleasa de diseño. Dichas modificaciones se producen preferentemente en los denominados "sitios diana inespecíficos", pero también pueden producirse en los denominados "sitios diana". Para detectar tales modificaciones no deseadas, el método según la presente invención realiza una etapa de amplificación del ácido nucleico que es preferentemente una PCR (reacción en cadena de la polimerasa). También pueden utilizarse otros métodos adecuados para amplificar ácidos nucleicos, tales como los métodos de amplificación isotérmica, las reacciones en cadena de la ligasa, la amplificación isotérmica mediada por bucles, la amplificación por desplazamiento múltiple o la amplificación basada en secuencias de ácidos nucleicos ("nucleic acid sequence based amplification", NASBA).

En la primera etapa, se prepara un banco a partir de células eucariotas expuestas a una nucleasa de diseño en condiciones que permiten a la nucleasa de diseño introducir al menos una ruptura bicatenaria del ADN (etapa a). Las denominadas nucleasas de diseño adecuadas son, preferentemente, las nucleasas CRISPR-Cas; TALEN; ZFN; MegaTAL, por nombrar solo algunas.

A continuación, el ácido nucleico del banco se convierte en "fragmentos aleatorios" (etapa b). En una realización preferida, los fragmentos obtenidos tienen una longitud de aproximadamente 350 pares de bases. Esto significa que la mayoría de los fragmentos oscila entre aproximadamente 200 y aproximadamente 500 pares de bases, siendo la mediana del tamaño de los fragmentos de aproximadamente 350 pares de bases. La fragmentación puede obtenerse mediante medidas físicas, tales como la aplicación de fuerzas de cizallamiento o la sonicación o, como alternativa, la fragmentación también puede obtenerse mediante digestión con enzimas adecuadas que corten el ácido nucleico bicatenario en sitios aleatorios. Esta etapa no implica la acción de enzimas de restricción definidas ni de transposones.

Para tener extremos uniformes en cada fragmento, se realiza una reparación para obtener extremos que preferentemente se modifican para tener una A prominente en el extremo 3' (etapa c). Esos "fragmentos aleatorios" que tienen una A prominente se acoplan entonces con un conector adecuado que tiene también una T 3' prominente que es complementaria con la A de los fragmentos reparados. Esto mejora la tasa de ligamiento del conector a los extremos reparados de los "fragmentos aleatorios".

En una realización preferida, el conector comprende también una secuencia que es complementaria al cebador directo o al cebador inverso, respectivamente. Esta construcción permite una fácil amplificación del fragmento que tiene el conector.

A continuación, se lleva a cabo una primera reacción de amplificación del ácido nucleico con un "cebador para diana" adecuado y un "cebador para conector" adecuado que son complementarios con una secuencia muy próxima a la secuencia diana o con una posición de unión introducida preferentemente por el conector. En una realización preferida, los sitios de unión de los cebadores para diana están situados a una distancia de al menos 25 nucleótidos, preferentemente de al menos 35 nucleótidos y más, preferentemente de al menos 50 nucleótidos cadena arriba del sitio diana. Los cebadores señuelo aumentan la sensibilidad y la especificidad del método según la invención.

Además de los cebadores directos e inversos, se añaden al menos uno, preferentemente al menos dos cebadores señuelo. El propósito de los cebadores señuelo es suprimir o al menos reducir sustancialmente la amplificación de dichos fragmentos que solo contienen secuencias diana en un "fragmento aleatorio", es decir, que no contienen un acontecimiento de aberración cromosómica. Cuando se reduce la amplificación de los fragmentos que contienen la secuencia diana, hay más posibilidades de identificar los sitios diana inespecíficos, ya que el número de fragmentos que contienen dichos sitios diana inespecíficos aumenta en comparación con los fragmentos que solo contienen secuencias diana. Un "cebador para diana" es un cebador que se une específicamente al sitio diana. Tiene una alta identidad y una longitud suficiente para proporcionar una alta especificidad de unión.

En una realización preferida de la presente invención, se utilizan al menos dos cebadores señuelo diferentes, en los que ambos cebadores señuelo son complementarios con secuencias muy cercanas cadena abajo del sitio diana. En función de las secuencias específicas que rodean el sitio diana deseado, se deben seleccionar las secuencias con las que el cebador señuelo es complementario.

En una realización preferida, los sitios de unión de los cebadores señuelo no se solapan. En una realización preferida, un cebador es complementario con la cadena superior de la secuencia de ADN, mientras que el otro cebador es complementario con la cadena inferior de la secuencia de ADN. Preferentemente, las secuencias están situadas a una distancia de al menos 10 nucleótidos, preferentemente de al menos 15 nucleótidos y más, preferentemente de al menos 30 nucleótidos cadena abajo del sitio diana. Las condiciones óptimas de ubicación de las secuencias adecuadas para unirse a los cebadores señuelo tienen que evaluarse para cada sitio diana. El efecto que se obtiene utilizando los cebadores señuelo es que se reduce la aparición de secuencias amplificadas que contienen el sitio diana y que, por lo tanto, aumenta sustancialmente la probabilidad de detectar sitios diana inespecíficos. Dado que se conocen las secuencias cadena arriba y cadena abajo del sitio diana, se puede seleccionar fácilmente una secuencia adecuada para el cebador señuelo. Preferentemente, los cebadores señuelo no están bloqueados en ninguno de sus extremos para permitir que la polimerasa extienda los cebadores señuelo.

Las secuencias obtenidas por el método según la presente invención se someten entonces a secuenciación de alto rendimiento y la información de las secuencias obtenidas se analiza con las medidas bioinformáticas que son bien conocidas por los expertos en la materia.

Aunque se han descrito previamente métodos para detectar la actividad en dianas inespecíficas o las aberraciones cromosómicas inducidas por nucleasas, el método según la presente invención, abreviado como CAST-Seq, es una nueva herramienta fundamental para la evaluación del riesgo clínico en la edición terapéutica del genoma mediante la inclusión de algunas características críticas novedosas.

Las ventajas que pueden obtenerse por el método de la presente invención son, en concreto:

(i) es muy sensible y muy específico,

(ii) es cuantitativo,

(iii) es capaz de detectar tipos de aberraciones cromosómicas no descritas anteriormente, y

(iv) puede realizarse directamente en el tipo de célula clínicamente pertinente.

Las propiedades ventajosas se describen en los ejemplos expuestos en el presente documento:

(i) Mayor sensibilidad y especificidad

Los datos actuales indican que CAST-Seq es capaz de detectar 10 acontecimientos de translocación (= 1 acierto) en 150 000 genomas haploides (500 ng de ADN genómico de entrada), lo que corresponde a un límite inferior de detección (LLoD) de aproximadamente el 0,007 %. Esta alta sensibilidad, junto con una mayor especificidad, podría alcanzarse mediante el uso de cebadores señuelo, que se describen por primera vez en el presente enfoque.

(ii) Cuantitativa

Los puntos de ruptura cromosómica, en combinación con el sitio de ligamiento del adaptador, crean identificadores moleculares distintivos, lo que permite determinar un número de translocaciones individuales, agruparlas en acontecimientos provocados por un desencadenante concreto, y cuantificar las frecuencias de acontecimientos muy poco frecuentes basándose en la cantidad conocida de genomas de entrada. La correlación lineal entre el número de aciertos de CAST-Seq y el número real de reordenamientos cromosómicos, determinado mediante ddPCR cuantitativa, confirma la naturaleza cuantitativa del método y su alta sensibilidad.

(iii) Aberraciones cromosómicas no descritas anteriormente

CAST-Seq identificó por primera vez reordenamientos cromosómicos no relacionados con la actividad en dianas inespecíficas de una nucleasa de diseño. En concreto, se descubrió que las rupturas bicatenarias del ADN inducidas por nucleasas son solo uno de los factores que impulsan las translocaciones. CAST-Seq demuestra, por primera vez, que las regiones que comparten una homología sustancial con el gen diana, incluso si no contienen un sitio diana inespecífico, probablemente estén sujetas a reordenamientos cromosómicos.

(iv) Realización en un tipo de célula clínicamente pertinente

A diferencia de HTGTS/UDiTaS, se ha demostrado que CAST-Seq puede realizarse en ADN genómico obtenido de células madre hematopoyéticas editadas genéticamente, es decir, un tipo celular clínicamente pertinente.

El método según la presente invención se ilustra y describe con más detalle en las figuras, las tablas y los experimentos. El experto en la materia es consciente de que los resultados expuestos representan una realización preferida, en la que las características individuales de los experimentos o las figuras pueden combinarse con facilidad con otras características expuestas en otros experimentos del presente documento. Normalmente, no es necesario que todas las características de un ejemplo solo puedan utilizarse juntas.

En otra realización, la presente invención se refiere además a kits para realizar un método de la presente invención. Dicho kit comprende los componentes necesarios para llevar a cabo el método específico descrito en el presente documento. En concreto, el kit contiene los cebadores, los conectores específicos y los cebadores señuelo, así como las enzimas necesarias para llevar a cabo la reacción. Todos los componentes descritos en los métodos divulgados en el presente documento pueden estar contenidos por sí solos o juntos en dicho kit.

Las realizaciones preferidas de la presente invención se describen e ilustran con más detalle en las figuras y los ejemplos de la presente solicitud.

Se utilizaron las siguientes abreviaturas en las figuras y tablas, así como en los experimentos:

En concreto, las figuras muestran los resultados de los experimentos como sigue:

Figura 1. Esquema del proceso CAST-Seq

(a) Preparación del banco. La actividad simultánea en la diana (cromosoma gris oscuro) y en una diana inespecífica (cromosoma gris claro) de las nucleasas de diseño (ilustradas con una tijera) en las células puede inducir una translocación entre las dos rupturas bicatenarias ("double strand breaks", DSB) del ADN, dando lugar, por ejemplo, a una translocación recíproca. De este modo, el cromosoma diana se separa en una parte centromérica (c) y otra telomérica (t). En la mayoría de los casos, no se producirá ninguna translocación (lado derecho). El ADN genómico derivado de células no tratadas y de células editadas genéticamente se fragmenta aleatoriamente y se repara en sus extremos para permitir la adición de una proyección 3'-A. Esta proyección corta se utiliza para el posterior ligamiento de un conector corto (negro). Para simplificar, solo se representa la reacción con el extremo centromérico. Una segunda reacción con el extremo telomérico (muy a la izquierda) se realiza de forma análoga. La primera PCR se realiza con cebadores (flechas blancas) que se unen al sitio diana y a las secuencias conectoras. A la reacción de PCR se añaden los denominados cebadores "señuelo" (flechas negras), diseñados para unirse muy cerca del sitio de corte en la diana. No pueden unirse a acontecimientos de translocación (izquierda), pero impiden la amplificación de sitios diana no modificados (derecha) generando amplicones cortos que no pueden seguir amplificándose en las siguientes etapas de la PCR. La segunda PCR se realiza con cebadores internos que portan proyecciones 5' que se utilizan en la tercera PCR para añadir los códigos de barras para NGS. (b) Proceso bioinformático. Los archivos FASTQ derivados de NGS se procesan según el esquema general. Los recuadros agrupan las principales etapas del flujo bioinformático: apareamiento emparejamiento y filtrado, recorte, alineamiento, definición de agrupamientos y análisis de agrupamientos.

Figura 2. Definición bioinformática de categorías.

(a) Distancia base de lectura. Para calcular la probabilidad de que una lectura esté dentro de un agrupamiento por azar, en lugar de ser un acontecimiento provocado por una nucleasa de diseño, la muestra CAST-Seq de células editadas genéticamente se comparó con un banco de lecturas aleatorias creado de modo informático que contiene el mismo número de lecturas. La distribución de la distancia de lecturas consecutivas se muestra en una escala logarítmica. En este ejemplo, la línea umbral de 2500 pb describe un área <5 % en el banco aleatorio, lo que significa que la probabilidad de que una lectura esté dentro de un agrupamiento por azar es inferior al 5 % (p < 0,05). El análisis CAST-Seq de células no tratadas se muestra como control. (b) Puntuación del alineamiento de la secuencia diana. Se comparó una región genómica de 500 pb que rodeaba estos sitios de translocación con 10000 secuencias aleatorias de 500 pb. Cada sitio se alineó con la secuencia diana de la nucleasa de diseño utilizando una tabla de puntuación (tabla 12). Si la puntuación de alineamiento de la secuencia diana de la secuencia era superior al 5 % de la mejor puntuación en las secuencias aleatorias, el acontecimiento se clasificaba como translocación derivada de la actividad en una diana inespecífica (DI). (c) Tramo máximo de la región de homología. En el caso de los sitios que no son dianas inespecíficas, se buscó la subcadena homóloga común más larga entre la región diana y la región de translocación dentro de una ventana de 5 kb alrededor del sitio de translocación. Si la longitud de la subcadena homóloga era superior al 5 % de la subcadena más larga de las secuencias aleatorias, el acontecimiento se clasificaba como translocación mediada por recombinación homóloga (RH). Todos los demás se clasificaron como translocación derivada del sitio común de ruptura (CBS).

Figura 3. Efecto de los cebadores oligonucleótidos señuelo

(a) Esquema del sistema de ensayo de señuelos. La eficacia de los cebadores señuelo (flechas negras) se ensayó en el locus CCR5 utilizando dos cebadores específicos del locus (flechas blancas) que amplifican un fragmento de 412 pb. La presencia de los cebadores señuelo debería reducir o impedir la amplificación del fragmento de 412 pb. F, cebador directo; R, cebador inverso. (b) Utilización de cebadores señuelo bloqueados. La PCR se realizó con cebadores de CCR5 en combinación con cebadores señuelo bloqueados por una fosforilación 3' (barras negras). Se muestran las siguientes amplificaciones: Controles: F, reacción solo con el cebador de CCR5 directo; 1D, solo se utilizó uno de los dos cebadores señuelo; H20, sin plantilla en la reacción. Las proporciones 1:1; 1:5 y 1:10 reflejan la proporción de cebadores de diana CCR5 a los cebadores señuelo. (c) Cebadores señuelo no bloqueados. La PCR se realizó con cebadores específicos de CCR5 en combinación con cebadores señuelo no bloqueados. Se muestran las siguientes amplificaciones: Control H20, sin plantilla en la reacción. Las proporciones 1:1; 1:5 y 1:10 reflejan la proporción de cebadores de diana CCR5 a los cebadores señuelo. (d) Cebador señuelo no bloqueado individual. La PCR se realizó con cebadores de CCR5 en combinación con un solo cebador señuelo de orientación inversa. Se muestran las siguientes amplificaciones: Control F, cebador directo de CCR5 en combinación con cebador señuelo inverso. (b-d) Los tamaños de los amplicones se indican a la izquierda, las diferentes proporciones de CCR5 a cebadores señuelo que se ensayaron se indican en la parte inferior como 1:1, 1:5, 1:10. Todas las secuencias de cebadores se indican en la tabla 2.

Como puede observarse en la figura 3, el cebador señuelo no bloqueado podía reducir o impedir eficazmente la amplificación del fragmento de 412 pb (c) y (d). Esto sugiere que el uso de cebadores señuelo puede cambiar la proporción de la amplificación del sitio diana a la amplificación de las plantillas de PCR que contienen un acontecimiento de translocación (véase la figura 1a). Por lo tanto, en la primera ronda de amplificación (véase la figura 1a), los cebadores señuelo no bloqueados impiden o reducen sustancialmente la amplificación de los acontecimientos que no son de translocación, mientras que el uso de cebadores señuelo bloqueados no tiene tal efecto (b).

Figura 4. Modificaciones genómicas cartografiadas mediante CAST-seq.

El ADN genómico aislado de células madre y progenitoras hematopoyéticas positivas a CD34, que fueron editadas con complejos de ribonucleoproteínas CRISPR-Cas9 dirigidos al exón 3 del locus CCR5 (sitio diana: 5'-GTGAGTAGAGCGGAGGCAGGAGG (SEQ ID NO:1), PAM subrayado), se sometió a CAST-Seq. (a) Cartografiado de las modificaciones genómicas. Todos los sitios pertinentes de modificación genómica identificados por CAST-Seq se muestran en un ideograma cromosómico. Los sitios cartografiados pueden subdividirse en tres categorías principales: aberraciones cromosómicas mediadas por sitios diana inespecíficos (DI), por recombinación mediada por homología (RH) o por sitios comunes de ruptura (CBS). (b) Análisis DI. Los gráficos circulares indican las fracciones de desapareamientos y protuberancias encontradas en los sitios cartografiados. Se indican los números de desapareamientos/protuberancias de 0 a 5 y más.

Figura 5. Alineación.

El ADN genómico aislado de células madre y progenitoras hematopoyéticas positivas a CD34, que fueron editadas con complejos de ribonucleoproteínas CRISPR-Cas9 dirigidos al exón 3 del locus CCR5 (sitio diana: 5'-GTGAG^tA^gAGCGGAGGCA^gG^aGG (SEQ ID NO:1), PAM subrayado), se sometió a CAST-Seq. (a) Alineación. El sitio diana de referencia (fila superior: 5'-GTGAGTa Ga GCGGAg Gc a Gg NRG (SEQ ID NO:2); PAM subrayado; N, cualquier nucleótido; R, purina) y los primeros 25 sitios diana inespecíficos (DI) identificados por CAST-Seq. Se resaltan los nucleótidos desapareados y las protuberancias, es decir, las inserciones/deleciones de nucleótidos dentro de los sitios diana inespecíficos con respecto al sitio diana de referencia. "1" significa una inserción de 1 nucleótido, " 1" una deleción de 1 nucleótido. La posición de inicio del agrupamiento se indica a la izquierda. (b) Diversidad de secuencias diana inespecíficas. Se creó un logotipo de secuencia a partir de la colección de sitios diana inespecíficos alineados, que representa la secuencia consenso y la diversidad de las secuencias diana inespecíficas. (c) Tolerancia a desapareamiento y protuberancias. Los sitios diana inespecíficos identificados se alinearon con la secuencia diana de 23 nucleótidos de longitud y luego se agruparon en 4 regiones de nucleótidos de longitud reconocidas por el ARNg (1-4, 5-8, 9-12, 13-16, 17-20) y el tramo de 3 nucleótidos de longitud unido por la proteína Cas9 (PAM, 21-23). Se indica la fracción de desapareamientos y protuberancias que se encuentran en cada uno de estos grupos.

Figura 6. Representación esquemática de la lectura de CAST-Seq.

Las células madre y progenitoras hematopoyéticas positivas a CD34 se editaron con complejos de ribonucleoproteínas CRISPR-Cas9 dirigidos al locus CCR5 en el exón 3 (sitio diana: 5'-GTGAGTAGAGCGGAGGCAGGAGG (SEQ ID NO:1), PAM subrayado). Se extrajo el ADN genómico al cabo de 7 días y se sometió a CAST-Seq. (a) Visualización de los resultados de CAST-seq. Se utilizó IGV para visualizar los resultados de CAST-Seq en la vecindad del locus diana CCR5. Cada lectura de CAST-Seq cartografiadas está representada por una barra. Las barras de color gris claro indican la orientación inversa y las barras de color gris oscuro la orientación directa, respectivamente. La cobertura, es decir, el número de lecturas cartografiadas, se indica en la parte superior, y la ubicación de los loci CCR5 y CCR2 en la parte inferior. (b) Ejemplos de aberraciones cromosómicas. Se indican dos ejemplos sobre cómo interpretar los resultados: (1) una translocación dicéntrica y una inversión de secuencia inducidas por la actividad simultánea en la diana en el locus CCR5 y la actividad del sitio diana inespecífico muy cerca de CCR2; (2) una gran deleción provocada por la actividad en la diana inespecífica en el locus CCR5 que provocó un acontecimiento de recombinación homóloga (RH) con un sitio en el locus CCR2 que comparte una alta homología de secuencia con el sitio diana en CCR5. (c) Resumen esquemático de todas las aberraciones cromosómicas graves identificadas por CAST-Seq tras el corte en el sitio diana.

Figura 7. Proceso bioinformático más restrictivo.

(a) Descripción general. Los archivos FASTQ derivados de NGS se procesaron según con la descripción general. Los recuadros agrupan las principales etapas del flujo bioinformático: apareamiento y filtrado, recorte, alineamiento, definición de agrupamientos, análisis de agrupamientos, filtrado. (b) Distancia base de lectura. Para calcular la probabilidad de que una lectura esté dentro de un agrupamiento por azar y no por un acontecimiento provocado por una nucleasa de diseño, la muestra de CAST-Seq procedente de células editadas genéticamente se comparó con un banco de lecturas aleatorias creado de modo informático que contiene el mismo número de lecturas. La distribución de la distancia de lecturas consecutivas se muestra en una escala logarítmica. En este ejemplo, la línea umbral de 2500 pb describe un área <5 % en el banco aleatorio, lo que significa que la probabilidad de que una lectura esté dentro de un agrupamiento por azar es inferior al 5% (p < 0,05). El análisis CAST-Seq de células no tratadas se muestra como control. (c) Puntuación del alineamiento de la secuencia diana. Se comparó una región genómica de 500 pb que rodeaba estos sitios de translocación con 10000 secuencias aleatorias de 500 pb. Cada sitio se alineó con la secuencia diana de la nucleasa de diseño. Si la puntuación de alineamiento de la secuencia diana del sitio era superior a la mejor puntuación del 5 % en las secuencias aleatorias, el acontecimiento se clasificaba como translocación derivada de la actividad fuera del objetivo (DI). (d) Tramos máximos de la región de la región de homología. Se buscó la subsecuencia homóloga común más larga entre la región diana y la región de translocación dentro de una ventana de 5 kb alrededor del sitio de translocación. Si la longitud de la subcadena homóloga era superior a 24 pb, el acontecimiento se clasificaba como translocación mediada por recombinación homóloga (RH). Todos los demás se clasificaron como translocación derivada de un sitio natural de ruptura (NBS).

Figura 8. Análisis CAST-Seq de la nucleasa CRISPR-Cas9 dirigida a CCR5#1 con un algoritmo bioinformático más restrictivo.

(a) Esquema de la estrategia señuelo. Los cebadores "presa" y "cebo" se unen al conector y al sitio diana, respectivamente, para amplificar las aberraciones cromosómicas. Los cebadores señuelo se unen muy cerca del sitio diana, pero opuestos al cebador cebo, para evitar la formación de amplicones de longitud completa en los sitios diana no modificados (izquierda). (b) Análisis cualitativo CAST-Seq. Los gráficos del visor integrado del genoma ("Integrative Genomics Viewer", IGV) ilustran las lecturas de CAST-Seq que rodean a la región diana dentro de una ventana de 33 kb. Cada lectura de CAST-Seq cartografiadas está representada por una barra (solo se muestran las 7 primeras líneas). Las barras de color gris oscuro indican las secuencias que se alinean con la cadena negativa y las barras de color gris claro con la cadena positiva. La cobertura, es decir, el número de lecturas cartografiadas, se indica en el centro, y la ubicación de los genes en la parte inferior. Las posiciones del sitio diana y del agrupamiento de CCR2 RH se resaltan con líneas discontinuas. (c) Alineación del sitio diana. El sitio diana de referencia CCR5#1 se muestra en la parte superior (N, cualquier nucleótido; R, purina). Se resaltan los nucleótidos desapareados y las deleciones/inserciones (-1/1). El número de aciertos aparece a la izquierda, y las categorías a la derecha. (d) Análisis de indel. Se llevó a cabo una secuenciación profunda de amplicones dirigida en los sitios RH y/o DI identificados del ADN genómico recogido 4 días después de la edición génica con Cas9 o HiFi-Cas9. Las diferencias estadísticamente significativas se indican con "*" (p < 0,05; prueba Z corregida por la desviación estándar calculada en células no tratadas (NT)). (e) Representación gráfica de los reordenamientos complejos seleccionados descubiertos en el sitio diana. Por ejemplo, una combinación de secuencias derivadas de CCR2 invertida (gris claro) y CCR5 (gris oscuro) (arriba) o un tramo largo de una secuencia CCR5 invertida/duplicada (gris oscuro, abajo). (f) Cartografiado de reordenamientos cromosómicos. Todos los sitios de aberración cromosómica pertinentes identificados por CAST-Seq se muestran en un ideograma cromosómico. Los sitios cartografiados se subdividen en el agrupamiento de sitio diana (ON), así como en reordenamientos cromosómicos mediados por corte en dianas inespecíficas (DI), por recombinación mediada por homología (RH) o por sitios naturales de ruptura (NBS). Las barras amarillas indican una clasificación ambigua (RH/DI). (g) Cuantificación. El número de reordenamientos cromosómicos cuantificados mediante CAST-Seq o ddPCR se representa en el gráfico de dispersión. Se indican la línea de regresión lineal (línea de puntos) y el coeficiente de correlación al cuadrado (R2).

Figura 9. Análisis CAST-Seq de sitios genómicos diana de CRISPR-Cas9 o TALEN con un algoritmo bioinformático más restrictivo.

(a-d) Cartografiado de aberraciones cromosómicas. Ideogramas cromosómicos que presentan el análisis CAST-Seq de un par TALEN dirigido a HBB (a), así como CRISPR-Cas9 dirigida a CCR5#2 (b), FANCF (c) y VEGFA (d). Se destacan todos los sitios de aberración cromosómica pertinentes identificados por CAST-Seq. (e-f) Comparación con GUIDE-Seq y CIRCLE-Seq. Los datos obtenidos del análisis CAST-Seq de nucleasas CRISPR-Cas9 dirigidas a FANCF (e) y VEGFA (f) se compararon con los datos publicados de GUIDE-Seq (PMC4320685) y CIRCLE-Seq (PMC5924695) y se visualizaron en diagramas de Venn.

Figura 10. Dinámica de las aberraciones cromosómicas.

(a-c) Visualización cualitativa. Los gráficos del visor integrado del genoma (IGV) muestran la región diana, CCRS#1 (a), I#2 (b) y HBB (c), dentro de una ventana de 33 kb. Solo se muestran las filas superiores. Las flechas blancas indican la orientación del cebo y las líneas verticales discontinuas el sitio diana. A la izquierda se indica el momento de recolección en días tras la electroporación (D1, D4, D14). (d-f) Análisis cuantitativo. Los gráficos muestran el número de lecturas de CAST-Seq agrupadas (aciertos) para las muestras D1 a D14 de CRISPR-Cas dirigidas a CCR5#1 (d) y CCR5#2 (e) o TALEN dirigidas a HBB (f). Se indica la categoría del agrupamiento (RH y/o DI).

Figura 11. Cinética de reparación del ADN y cuantificación de aberraciones cromosómicas.

(a) Estrategia de ddPCR. El "amplicón de borde" (-200 pb) abarca el sitio de escisión y está flanqueado por amplicones 5' o 3' a ambos lados del sitio diana. Se prevé que las translocaciones reduzcan la cantidad de productos de amplicones de borde, mientras que las grandes deleciones también reducirán la cantidad de amplicones flanqueantes. Se utilizaron amplicones situados en el lado telomérico (telo.) y en el brazo cromosómico opuesto (brazo q) en relación con el sitio diana, así como dos amplicones de control (cto.) en otro cromosoma, para establecer el cambio relativo de copias amplificables de la diana. (b-d) Variación del número de copias del sitio diana. Los gráficos muestran la variación relativa del número de copias ("copy number variation", CNV) de los sitios diana amplificables en células CD34+ editadas con CRISPR-Cas dirigido a CCR5#1 (b) o CCR5#2 (c), o con un TALEN dirigido a HBB (d), en diferentes puntos temporales (del día 1 al día 14) tras la transfección. (e-g) Resumen de datos. Los resultados de la ddPCR se utilizaron para normalizar (Norm.) las frecuencias de indel determinadas por el ensayo T7E1 para los puntos temporales D4. "Gran deleción" indica la disminución relativa del número promedio de amplicones flanqueantes, mientras que "otras aberraciones" se especifica como la diferencia relativa entre el número de amplicones de borde y el número promedio de amplicones flanqueantes.

Tabla 1: Secuencias diana

Se enumeran los sitios diana de nucleasas de diseño en CCR5, VEGFA y FANCF.

Tabla 2: Diseño de cebadores y conectores

Se enumeran los desoxioligonucleótidos utilizados para realizar CAST-Seq para evaluar aberraciones cromosómicas en células editadas con nucleasas CRISPR-Cas9 dirigidas a CCR5, VEGFA y FANCF. Las secuencias ilustradas en la tabla 2 pueden servir como ejemplo de cómo se pueden diseñar los cebadores apropiados también para otros sitios diana.

Tabla 3: Efecto de los cebadores señuelo

Para evaluar el impacto de los cebadores señuelo en la relación señal-ruido de CAST-Seq, se realizaron análisis paralelos en presencia o ausencia de cebadores señuelo. Los datos se basan en todas las lecturas en agrupamientos identificados por CAST-Seq realizadas en ADN genómico aislado de células madre y progenitoras hematopoyéticas CD34+ que se editaron con nucleasas CRISPR-Cas9 dirigidas al locus VEGFA o al locus FANCF .

Tabla 4: Análisis CAST-Seq para la nucleasa CRISPR-Cas9 dirigida a CCR5

Se enumeran todos los sitios identificados por CAST-Seq (análisis completo, es decir, directo e inverso) en células madre y progenitoras hematopoyéticas CD34+ editadas con una nucleasa CRISPR-Cas9 dirigida al locus CCR5 (sitio diana: 5'-GTGAGTAGAGCGGAGGCAGGAGG (SEQ ID NO:1, PAM subrayado). La tabla presenta la ubicación cromosómica de la aberración cromosómica, el número de lecturas desduplicadas (aciertos), el número de lecturas y la categoría asignada al acontecimiento de translocación.

Tabla 5: Sensibilidad de CAST-Seq

Se utilizó la PCR digital en nanogotas (ddPCR) para cuantificar el número de acontecimientos de deleción grande que se producen entre los loci CCR5 y CCR2 en células no tratadas y en células madre hematopoyéticas editadas con nucleasas CRISPR-Cas9 dirigidas al locus CCR5. Quinientos ng de ADN genómico contienen aproximadamente 152 000 genomas haploides.

Tabla 6: Análisis CAST-Seq para la nucleasa CRISPR-Cas9 dirigida a VEGFA

Se enumeran todos los sitios pertinentes identificados por CAST-Seq (mostrados a modo de ejemplo para el análisis en sentido directo) en células madre y progenitoras hematopoyéticas CD34+ editadas con una nucleasa CRISPR-Cas9 dirigida al locus VEGFA (sitio diana: 5'-GGTGAGTGAGTGTGTGCGTGTGG (SEQ ID NO:3), PAM subrayado). La tabla presenta la ubicación cromosómica de la aberración cromosómica, el número de lecturas desduplicadas (aciertos), el número de lecturas y la categoría asignada al acontecimiento de translocación.

Tabla 7: Análisis CAST-Seq para la nucleasa CRISPR-Cas9 dirigida a FANCF

Se enumeran todos los sitios pertinentes identificados por CAST-Seq (mostrados a modo de ejemplo para el análisis en sentido directo) en células madre y progenitoras hematopoyéticas CD34+ nucleofectadas con una nucleasa CRISPR-Cas9 dirigida al locus FANCF (sitio diana: 5'-GGAATCCCTTCTGGCAGCACCTGG (SEQ ID NO:4), PAM subrayado). La tabla presenta la ubicación cromosómica de la aberración cromosómica, el número de lecturas desduplicadas (aciertos), el número de lecturas y la categoría asignada al acontecimiento de translocación.

Tabla 8: Programas informáticos utilizados para CAST-Seq

Se enumeran todos los programas informáticos utilizados para CAST-Seq. Las versiones indicadas estaban disponibles en la fecha de prioridad en las direcciones facilitadas.

Tabla 9: Paquetes R utilizados para CAST-Seq

A continuación, se muestra el paquete R utilizado para CAST-Seq. Las versiones indicadas estaban disponibles en la fecha de prioridad en las direcciones facilitadas.

Tabla 10: Matriz de puntuación

Matriz de puntuación de la sustitución de nucleótidos utilizada para el alineamiento de los sitios de translocación con la secuencia del sitio diana, incluidos los pesos para los desapareamientos y las protuberancias (inserciones/deleciones). Se utiliza el código IUPAC. A, adenina; C, citosina; G, guanina; T (o U), timina (o uracilo); R, A o G; Y, C o T; S, G o C; W, A o T; K, G o T; M, A o C; B, C o G o T; D, A o G o T; H, A o C o T; V, A o C o G; N, cualquier base.

Tabla 11: Diseño de cebadores para el sitio diana HBB (diana de TALEN)

Se muestra la secuencia diana, así como las secuencias pertinentes necesarias para la amplificación.

Tabla 12: Diseño de cebadores para el sitio diana 2 CCR5

Se muestran la secuencia diana pertinente y las secuencias de los cebadores.

Tabla 13: Diseño de cebadores para ddPCR

Para varios sitios diana se proporcionan las secuencias de cebadores directos e inversos.

Realización preferida de la invención

Los resultados de los experimentos utilizando el método de la presente invención mostrados en las figuras y las tablas pueden interpretarse como sigue:

La identificación de acontecimientos mutagénicos muy poco frecuentes inducidos por nucleasas de diseño, tales como mutagénesis en dianas inespecíficas, translocaciones, grandes deleciones o grandes inversiones, mediante secuenciación de alto rendimiento plantea diversos retos. Para que sea rentable, el método debe basarse en unos requisitos mínimos de secuenciación sin comprometer la sensibilidad. Para que tenga pertinencia clínica, el método debe ser aplicable a células derivadas de pacientes en lugar de realizarse en una línea celular sustituta con un trasfondo genético y epigenético diferente. Además, la prueba debe poder ejecutarse con un aporte mínimo de ADN genómico, de modo que pueda realizarse con material celular valioso derivado del paciente. Por último, los sesgos técnicos y de análisis, tales como los sesgos de amplificación de la PCR y los fallos en el proceso bioinformático, deben reducirse al mínimo para evitar resultados falsos positivos o falsos negativos.

CAST-Seq se desarrolló para cumplir estos requisitos e identificar acontecimientos muy poco frecuentes de aberración cromosómica con una sensibilidad sin precedentes. Para ello, CAST-Seq emplea una estrategia de PCR de 3 etapas que incluye el uso de cebadores internos y señuelo, respectivamente. En la figura 1 se muestra un esquema general de CAST-Seq. Tras el aislamiento del ADN genómico a partir de células expuestas a nucleasas de diseño, el ADN genómico se fragmenta mediante ultrasonidos enfocados o digestión enzimática para producir fragmentos con un tamaño medio de 350 pb. Tras la reparación de los extremos y el ligamiento de los conectores a ambos extremos, se realiza una primera etapa de la PCR que incluye un cebador específico del sitio diana (cebador para diana, tabla 2), un cebador que se une al conector (cebador para conector, tabla 2) y uno o dos cebadores señuelo (tabla 2). Los cebadores señuelo están diseñados para unirse muy cerca sitio diana, pero en el sitio opuesto con respecto al cebador para diana. Se añaden a la reacción para evitar la generación de productos de amplificación de longitud completa a partir de plantillas derivadas de acontecimientos de no translocación (figura 1a derecha, figura 3). Los cebadores señuelo no pueden unirse a las plantillas derivadas de acontecimientos de translocación (u otras aberraciones cromosómicas) (figura 1a izquierda) y, por lo tanto, no impiden su amplificación. Para la segunda etapa de la PCR se utilizan dos cebadores internos (cebador interno para diana y cebador interno para conector, tabla 2) que contienen adaptadores para la tercera PCR. Los productos derivados del cebador señuelo (figura 1a derecha) no se amplificarán en esta etapa. Por último, la tercera PCR se utiliza para añadir los adaptadores de Illumina y los códigos de barras para NGS.

El proceso bioinformático para identificar y anotar acontecimientos de aberración cromosómica se muestra esquemáticamente en la figura 1b y se describe en detalle en el ejemplo 2. CAST-Seq se diseñó no solo para detectar acontecimientos de translocación, sino también otras aberraciones cromosómicas, incluidas grandes deleciones e inversiones de secuencia, de forma semicuantitativa. Es probable que los acontecimientos anotados a una región cromosómica específica se deriven de un único modo de acción, directa o indirectamente relacionado con la actividad en la diana o en dianas inespecíficas de la nucleasa de diseño. Tales acontecimientos se definen como agrupamientos si se produjeron al menos 2 lecturas desduplicadas dentro de una distancia de 2500 pb. Para calcular la probabilidad de que una lectura esté dentro de un agrupamiento por azar y no por un determinado modo de acción, la muestra de CAST-Seq analizada se comparó con un banco de lecturas aleatorias creado de modo informático que contiene el mismo número de lecturas (figura 2). La distribución de la distancia de lecturas consecutivas se muestra a modo de ejemplo para un análisis CAST-Seq realizado en células madre hematopoyéticas editadas con nucleasas CRISPR-Cas9 dirigidas a CCR5, en comparación con una muestra sin tratar y el banco de control aleatorio (figura 2a). En este ejemplo, la línea de umbral de 2500 pb describe un área <5 % en el banco aleatorio, lo que significa que la probabilidad de que una lectura esté dentro de un agrupamiento por azar es inferior es inferior al 5 %.

Al evaluar los resultados de CAST-Seq, los inventores se dieron cuenta de que no todos los acontecimientos de aberración cromosómica identificados podían vincularse directamente a la actividad en la diana de la nucleasa de diseño. Una vía de reparación del ADN activa en la mayoría de las células es la reparación dirigida por homología. La reparación dirigida por homología se basa en la recombinación homóloga (RH) entre regiones homólogas de ADN para reparar el sitio dañado. A menudo, la cromátida hermana se utiliza en este proceso para una reparación perfecta, pero otras secuencias homólogas también pueden ser reclutadas. Por lo tanto, un acontecimiento de corte en la diana puede desencadenar una translocación intercromosómica o intracromosómica (incluidas grandes deleciones e inversiones de secuencia) con regiones homólogas en el genoma. Por último, una ruptura bicatenaria del ADN inducida por una nucleasa de diseño en el sitio diana también puede desencadenar la recombinación con rupturas naturales del ADN en el genoma. Los acontecimientos identificados se clasificaron como translocaciones mediadas por dianas inespecíficas (DI), recombinaciones mediadas por homología (RH) o translocaciones mediadas por un sitio común de ruptura (CBS), en función de si se podía identificar un sitio diana inespecífico y de la extensión de las secuencias homólogas que aparecen en el sitio de translocación. La bioinformática subyacente se describe en el ejemplo 3. En resumen, la secuencia diana de la nucleasa de diseño se alinea con las regiones de agrupamientos de CAST-Seq y se selecciona la mejor puntuación de alineamiento. Un banco aleatorio informático se examina de la misma manera para comprobar si la puntuación del alineamiento supera el umbral del 5 % (figura 2b). Todos los agrupamientos que superaron este umbral se clasificaron como translocación desencadenada por DI de la nucleasa de diseño. Para todos los agrupamientos que no cumplían este requisito, se examinó una ventana de 5 kb alrededor del acontecimiento de translocación en busca de secuencias homólogas con el sitio diana y se comparó con el banco aleatorio para definir el umbral de longitud común. Un acontecimiento de translocación se clasificó como RH si la longitud de las regiones flanqueantes era superior al 5 % de subcadenas más largas en las secuencias aleatorias (figura 2c). Todos los demás agrupamientos se marcaron como translocación desencadenada por CBS.

La estrategia de señuelo de CAST-Seq fue diseñada para reducir las lecturas de fondo derivadas de sitios diana no modificados y puede aplicarse con facilidad para cada sitio diana elegido. Su eficacia se muestra a modo de ejemplo para el sitio diana CCR5 (figura 3a). Se utilizaron dos cebadores señuelo en orientación directa (F) e inversa (R). Si los cebadores señuelo se modificaban por fosforilación 3' para bloquear la extensión 3', eran capaces de reducir, pero no bloquear completamente la formación de los amplicones de longitud completa de 412 pb (figura 3b). Sin embargo, cuando se añadieron a la reacción cebadores señuelo no modificados, se impidió eficazmente la generación del amplicón de longitud completa (figura 3c). En su lugar, se generaron dos productos con los tamaños esperados de 264 pb y 140 pb. Por último, incluso la presencia de un único cebador señuelo fue suficiente para suprimir con eficacia la generación de amplicones de longitud completa (figura 3d), lo que demuestra la eficacia de la estrategia señuelo. Para calcular la eficacia global de esta estrategia, se realizaron análisis CAST-Seq paralelos para nucleasas CRISPR-Cas dirigidas a VEGFA o FANCF en presencia o ausencia de cebadores señuelo. Al considerar todas las secuencias translocadas, con la excepción de las lecturas derivadas del agrupamiento de la diana, se observó un aumento de aproximadamente 5 veces en la relación señal-ruido (tabla 3).

Para ilustrar el potencial de este nuevo método, se realizó CAST-Seq en ADN genómico aislado de células madre hematopoyéticas que fueron editadas con CRISPR-Cas9 dirigida a CCR5 (tabla 4, figura 4). Todos los acontecimientos de translocación identificados, estratificados en DI, RH y CBS, se muestran en un gráfico cromosómico (figura 4a). Cabe destacar que la mayoría de los sitios DI contienen más de 5 desapareamientos en combinación con protuberancias (figura 4b).

Un examen más detallado de los primeros 30 agrupamientos alineados permitió realizar análisis adicionales, tales como la ubicación de desapareamientos y protuberancias, así como la caracterización de los PAM identificados en sitios diana inespecíficos (figura 5a). Cabe destacar que, mientras que todos los PAM de sitios diana inespecíficos tenían una G en la posición 3, dos sitios DI no contenían una purina (R: A o G) en la posición 2. Además, 2 de 30 centros toleraron una protuberancia de -1 en la posición 1. Como se indicó anteriormente, la tolerancia a aceptar desapareamientos y protuberancias es más pronunciada en la región distal a PAM del sitio diana. Un análisis del logotipo (figura 5b) muestra la secuencia consenso de los sitios diana, confirmando una menor promiscuidad en la región proximal a PAM. Esta observación fue corroborada por un análisis cuantitativo realizado en subgrupos de sitios diana (figura 5c). Por lo tanto, el alineamiento de la secuencia diana mediada por CAST-Seq duplica los hallazgos previamente notificados de que las regiones más conservadas en los sitios diana de CRISPR-Cas9 son los nucleótidos en el PAM y en la región proximal a PAM. Por otra parte, CAST-Seq identificó nuevas características relativas a la tolerancia a los desapareamientos y las protuberancias en la secuencia PAM.

Tal como se mencionó anteriormente, las aberraciones cromosómicas también pueden ser desencadenadas por la actividad en la diana de la nucleasa de diseño. El locus CCR2 está situado junto al locus diana CCR5 y comparte una elevada homología de secuencia con CCR5. Una inspección más detallada de esta región reveló un gran número de aberraciones cromosómicas alrededor del sitio de corte de la diana CCR5 (figura 6a). Cabe destacar un punto caliente en el gen CCR2 que fue anotado por CAST-Seq como una gran deleción inducida por RH (figura 6b). El genotipado mediante el ensayo T7E1 confirmó que este sitio no fue cortado por CRISPR-Cas9, lo que confirma que la actividad en la diana puede desencadenar aberraciones cromosómicas al potenciar la recombinación entre secuencias homólogas.

Dado que CAST-Seq tiene una orientación de secuenciación forzada, es posible definir la orientación de los acontecimientos de translocación. Por lo tanto, CAST-Seq permitió a los inventores identificar aberraciones cromosómicas adicionales desencadenadas por la actividad en la diana, tales como translocaciones intercromosómicas que condujeron a la formación de cromosomas acéntricos y dicéntricos (figura 6c). En resumen, CAST-Seq puede identificar diversas aberraciones cromosómicas, incluidos acontecimientos no descritos previamente por otros métodos.

Esto comprende aberraciones cromosómicas desencadenadas por la actividad en la diana, tales como translocaciones recíprocas a cromosomas homólogos que conducen a la formación de cromosomas acéntricos/dicéntricos, grandes inserciones/deleciones e inversiones.

Para evaluar la sensibilidad de CAST-Seq, los inventores evaluaron los acontecimientos poco frecuentes de recombinación entre CCR5 y CCR2 en ADN genómico editado por nucleasas CRISPR-Cas9 dirigidas a CCR5 o en el control no tratado. Utilizando 500 ng de ADN genómico, el acontecimiento de recombinación se detectó en ambas muestras con 60 o 63011 lecturas, respectivamente (tabla 5). Para determinar el número de copias de los loci CCR2-CCR5 fusionados en esas muestras, se realizó una cuantificación con PCR digital en nanogotas (ddPCR) colocando un cebador en CCR5 y el otro en CCR2. El ensayo produjo 9,8 copias en la muestra no tratada y 1280 copias en la muestra editada con CRISPR-Cas9. Esto significa que CAST-Seq fue capaz de detectar 9,8 acontecimientos de aberración cromosómica en aproximadamente 152000 genomas haploides, lo que corresponde a una sensibilidad del -0,006 %. Dado que la sensibilidad de CAST-Seq es directamente proporcional al número de células analizadas, pueden alcanzarse sensibilidades aún mayores (es decir, <1:10000) aumentando el número de células utilizadas para aislar el ADN genómico y, en consecuencia, poder procesar más ADN genómico mediante CAST-Seq.

Para verificar que CAST-Seq puede aplicarse a otros loci diana, también se editaron células madre hematopoyéticas con nucleasas CRISPR-Cas9 dirigidas a los loci VEGFA y FANCF . Los resultados de estos experimentos se muestran en la tabla 6 y la tabla 7, respectivamente.

Ejemplo 1: Preparación de bancos de CAST-seq.

El ADN genómico de células hematopoyéticas no tratadas y editadas genómicamente se extrae con kit QIAmp DNA Blood Mini Kit (Qiagen) y posteriormente se fragmenta por sonicación (Covaris) o por una reacción enzimática (kit NEBNext® Ultra™ II FS DNa Library Prep Kit, NEB) para obtener fragmentos de ADN con un tamaño promedio de aproximadamente 350 pb (véase la figura 1a). A continuación, el ADN genómico fragmentado se repara en sus extremos y se le aplica una cola de A (kit NEBNext® Ultra II End Repair/dA-Tailing Module, NEB). El ^aDⁿconector, generado por hibridación de dos desoxioligonucleótidos asimétricos con una proyección T-3' en la cadena positiva o un grupo fosfo-5' en combinación con un grupo amino-C7-3' en la cadena negativa, se liga al ADN cizallado y posteriormente se purifica con el kit QIAquick ^pC^rPurification Kit (Qiagen). En la primera ronda de PCR, se mezclan 500 ng de ADN con oligos señuelo, así como con un cebador específico de conector y otro específico de sitio diana. La PCR se realiza utilizando las siguientes condiciones: 20 ciclos de 95 °C durante 15 s, 63 °C durante 20 s y 72 °C durante 20 s. En la segunda ronda de PCR, se realiza una PCR con cebadores internos con un cebador específico de conector y un cebador específico de sitio diana con secuencias adaptadoras de Illumina en sus extremos 5' en las siguientes condiciones: 20 ciclos de 95 °C durante 15 s, 68 °C durante 20 s, 72 °C durante 20 s. Tras la amplificación, la reacción de PCR se purifica con el kit QIAquick PCR Purification Kit (Qiagen) y se cuantifica con NanoDrop (ThermoFisher). Para ambas rondas se utilizó la polimerasa Hot-start Q5 (Q5® High-Fidelity DNA Polymerase, NEB) en reacciones de 50 pl. Los adaptadores con código de barras de Illumina se añaden mediante una reacción PCR de 7 ciclos utilizando oligos NEBNext® Multiplex Oligos for Illumina (NEB) según el protocolo convencional. A continuación, los amplicones (aproximadamente 0,1-1 pg) se purifican con esferas magnéticas AMPure XP (Beckman Coulter) diluidas hasta 4 nM y se cuantifican mediante ddPCR utilizando el "ddPCR Library Quantification Kit for Illumina TruSeq" (BIORAD) siguiendo las instrucciones del fabricante. Por último, se carga una concentración final de 8-10 pM de ADN desnaturalizado en 600 pl en un cartucho MiSeq Reagent Kit v2 (Illumina) y se secuencia.

Ejemplo 2: Análisis bioinformático.

Las lecturas por extremos apareados de la secuenciación de alto rendimiento de Illumina se fusionaron utilizando FLASh (v1.2.11) (https://ccb.¡hu.edu/software/FLASH/)con 10 y 250 como solapamiento mínimo y máximo, respectivamente. A continuación, se utilizó BBmap (versión 38.22)(https://sourceforge.net/proiects/bbmap/) para aplicar primero una selección positiva de las lecturas que contienen el sitio diana de la nucleasa de diseño con el fin de eliminar los productos de PCR mal cebados. Después, las lecturas se recortaron para eliminar las secuencias conectoras, las secuencias adaptadoras de Illumina y la secuencia de alargamiento dirigido (figura 1b). Al final del proceso de filtrado se comprobó la inversión de secuencias diana cortas mediante BBmap. Los parámetros se establecieron de la siguiente manera: la longitud kmero para encontrar contaminantes se definió en función del sitio diana de la nucleasa, el conector o la longitud del cebador. Se permitieron hasta 2 desapareamientos y/o protuberancias en los kmeros de referencia. Los parámetros no mencionados en el presente documento se establecieron por defecto. A continuación, las lecturas seleccionadas se alinearon con el genoma humano de referencia (GRCh38/hg38) con Bowtie2 (versión 2.3.4.2)(http://bowtie-b¡o.sourceforge.net/bowt¡e2/¡ndex.shtml) utilizando el preajuste muy sensible de parámetros para garantizar el alineamiento más fiable. Se eliminaron los alineamientos de baja calidad para reducir las posibilidades de identificar sitios de translocación falsos positivos (MAPQ < 15). Los programas informáticos utilizados para el procesamiento FASTQ se detallan en la tabla 8. Los análisis posteriores se realizaron con scripts R internos. La lista de paquetes R dedicados a la anotación genómica puede consultarse en la tabla 9. A continuación, las lecturas alineadas se desduplicaron según el número de cromosoma y los valores de inicio, fin y hebra. Las lecturas que se encuentran dentro de 2 pb para el inicio y el fin, respectivamente, se consideraron lecturas "duplicadas" y, por lo tanto, se desduplicaron. Posteriormente, se determinó el punto de translocación y se utilizó para el análisis de agrupamientos mediante la comparación de la distribución de distancias de lecturas consecutivas con un banco generado de modo informático que contiene un número equivalente de sitios aleatorios. Las tasas de error de agrupamiento se cuantificaron con la curva de distribución de distancias de un banco aleatorio (figura 2). Se aplicó una distancia umbral de 2500 pb para alcanzar un valor de p significativo (p < 0,05) en todas las muestras de los inventores analizadas. A continuación, se compararon los agrupamientos pertinentes derivados de la muestra tratada con las de la muestra no tratada para restar el fondo. Se realizó una prueba hipergeométrica para evaluar la importancia de la diferencia entre las muestras editadas genéticamente y las muestras de control no tratadas mediante la comparación del número de lecturas con el tamaño de la población (es decir, el número total de lecturas en los archivos FASTQ sin procesar). Los conglomerados significativos se seleccionaron según el valor de p ajustado (p < 0,05). Por último, se rechazaron los agrupamientos que contenían solo 1 lectura desduplicada.

Ejemplo 3: Clasificación de los acontecimientos de translocación.

Los sitios de translocación se dividieron en tres categorías: translocaciones derivadas de la actividad en dianas inespecíficas (DI), translocaciones mediadas por recombinación homóloga (RH) y translocaciones derivadas del sitio común de ruptura (CBS) (figura 2). Para asignar cada sitio a una de estas categorías, los inventores compararon una región genómica de 500 pb que rodeaba los sitios de translocación con 10000 secuencias aleatorias de 500 pb. A continuación, cada uno de los sitios derivados de secuencias reales o aleatorias se alineó con la secuencia diana de la nucleasa de diseño, con una puntuación entre 1 para el apareamiento y -1 para el desapareamiento, la apertura de huecos y la extensión de huecos (tabla 10), y se seleccionó el mejor apareamiento de las secuencias complementarias directa e inversa. A continuación, se buscó la subcadena común más larga entre cada secuencia, incluidas las regiones flanqueantes izquierda y derecha, en las secuencias complementarias directa e inversa dentro de una ventana de 5 kb. Por último, cada acontecimiento se clasificó de la siguiente manera: DI, si la puntuación de alineamiento de la secuencia diana de la secuencia era superior al 5 % de la mejor puntuación en las secuencias aleatorias. RH, si el acontecimiento no era DI, pero la longitud de las regiones flanqueantes era superior al 5 % de la subcadena más larga en las secuencias aleatorias. Todos los demás acontecimientos que no cumplían estos criterios se clasificaron como ECB.

Ejemplo 4: Análisis bioinformático más restrictivo (figura 7).

Alineamiento: Las lecturas apareadas de la secuenciación miSeq de Illumina se fusionaron utilizando el programa informático FLASH (Bioinformatics, 27 (2011), 2957-2963). Se utilizó BBmap (https://sourceforge.net/projects/bbmap/) para filtrar y recortar de la siguiente manera: las lecturas fusionadas que contenían el sitio diana de la nucleasa de diseño se filtraron y se mantuvieron, mientras que las lecturas de productos de PCR mal cebados se filtraron y se desecharon. Se recortaron las secuencias conectoras, las secuencias adaptadoras de Illumina, la secuencia de alargamiento dirigido y las lecturas de mala calidad. Las lecturas seleccionadas se alinearon con el genoma humano GRCh38 (hg38) mediante Bowtie2 (Nat. Methods, 9 (2012), 357-359) y los parámetros preestablecidos muy sensibles para maximizar la precisión del alineamiento. Para reducir la probabilidad de encontrar falsos positivos, se seleccionaron lecturas alineadas con buena calidad de cartografiado (MAPQ > 15). El archivo BAM alineado se convirtió en archivo bed utilizando BEDTools (Bioinformatics. 26 (2010), 841-842).

Desduplicadón/definidón del agrupamiento: Las lecturas situadas en las mismas coordenadas se consideraron duplicados derivados de la PCR y, por lo tanto, se desduplicaron. Para hacer frente a los sesgos de secuenciación/alineamiento del punto de translocación o del ligamiento del conector, se añadió una tolerancia de /-3 pb. Por lo tanto, todas las lecturas dentro de esta ventana de /-3 pb se desduplicaron y la cantidad total de lecturas se almacenó para cuantificar el acontecimiento de translocación. Las regiones de alta densidad de lecturas se determinaron utilizando un conjunto aleatorio de regiones del genoma humano para calcular la distribución de distancias entre dos lecturas consecutivas. Una distancia umbral de 2500 pb alcanzó un valor de p significativo (p < 0,05) en todas las muestras analizadas. Posteriormente, las lecturas consecutivas separadas por menos de 2500 pb se fusionaron en agrupamientos, que representaban todos los sitios de translocación putativos. Al comparar más de una réplica de una muestra, durante el proceso bioinformático se fusionaron dos agrupamientos proximales (CCR5/CCR2 y HBB/HBD), y los agrupamientos individuales se recuperaron manualmente reajustando los bordes. Por último, se evaluó la importancia de los agrupamientos identificados en comparación con una muestra de control no tratada mediante una prueba exacta de Fisher. El umbral de significación se fijó para un valor de p ajustado (Benjamini-Hochberg) inferior a 0,05.

Clasificación del acontecimiento de translocación: Los sitios de translocación se clasificaron en tres grupos: translocaciones mediadas por dianas inespecíficas (DI) y mediadas por recombinación homóloga (RH), y translocaciones derivadas de sitios naturales de ruptura (NBS). Para evaluar la significación estadística de los grupos, se eligió al azar un conjunto de 10000 secuencias del genoma humano de 500 pb de longitud. Para DI, los sitios de translocación se alinearon con la secuencia diana. Se construyó una matriz de sustitución de nucleótidos utilizando 1 y -1 como pesos para el apareamiento y el desapareamiento, respectivamente. Se permitieron los huecos con el mismo peso de penalización que el desapareamiento. Se utilizó un alineamiento por pares del paquete Biostrings R (https://rdrr.io/bioc/Biostrings/) con un tipo de alineamiento "local-global". Se calcularon las puntuaciones de alineamiento DI para los sitios de translocación identificados y las secuencias aleatorias. Para RH, se eligió la subcadena común más larga ("longest common substring", LCS) entre las regiones flanqueantes izquierda y derecha, definiendo una ventana circundante de 5 kb alrededor del sitio de translocación, y la ventana conocida de 5 kb alrededor de la diana esperada. Se utilizaron secuencias aleatorias para calcular la longitud de LCS entre las regiones diana y aleatorias. Por último, cada sitio de translocación se clasificó de la siguiente manera: DI si la puntuación de alineamiento DI era superior a las mejores puntuaciones del 5 % en secuencias aleatorias; RH si LCS era más largo que las mejores puntuaciones del 5 % de ^lC^sen secuencias aleatorias; NBS en caso contrario.

Anotación. Los sitios de translocación seleccionados se anotaron con el gen o región génica más cercana (por ejemplo, promotor, exón, intrón, etc.), basándose en la distancia al sitio de inicio de la transcripción ("transcriptional start site", TSS) indicado en el Bioconductor Annotation Package TxDb.Hsapiens.UCSC.hg38.knownGene (http://bioconductor.org/packages/TxDb.Hsapiens.UCSC.hg38.knownGene/). Se notifica el conjunto completo de genes que se encuentra dentro de una ventana de 100 kb alrededor del sitio de translocación, destacando específicamente los genes relacionados con el cáncer basados en la base de datos OncoKB (JCO Precis Oncol., 2017, 1-16).

Ejemplo 5: Análisis moleculares.

Para el análisis mediante PCR digital en nanogotas (ddPCR), se digirieron 150-550 ng de ADN genómico con 5 U de HindIII HF o AvrII (NEB) a 37 °C durante 30 min para reducir la viscosidad de la muestra. Después de la digestión, se añadieron 100 ng (translocación) o 20 ng (deleción grande) de ADN genómico digerido a la mezcla de reacción de ddPCR que contenía QX200TM EvaGreen ddPCR Supermix TM (Bio-Rad, n.° de catálogo 1864034). Cada reacción se complejó con 100 nM de cebadores y se cargó en el generador de nanogotas QX200 (Bio-Rad). Las nanogotas generadas se transfirieron a una placa de PCR de 96 pocillos (Bio-Rad, n.° de catálogo 12001925 ) y la placa se selló con un sellador de placas PCR PX1 (Bio-Rad). Para todos los ensayos, la PCR final se realizó del siguiente modo: precalentamiento de la tapa a 95 °C durante 5 min, 50 ciclos de 95 °C durante 30 s, 62 °C durante 60 s, 72 °C durante 2 min, seguido de 5 min a 4 °C y 5 min a 90 °C (tasa de incremento ajustada a 2 °C/s). Tras la PCR, los datos se adquirieron en un lector de nanogotas QX200 Droplet Reader y los resultados se analizaron con QuantaSoftTM Analysis Pro (Bio-Rad). Los resultados se consideraron significativos si se generaban al menos 10000 nanogotas/20 |jl de reacción. Para calcular las frecuencias de "grandes deleciones" y "otras aberraciones" en las muestras editadas, el valor promedio de ddPCR de un duplicado técnico se normalizó primero con respecto a la muestra de control apareada no tratada para minimizar la variación entre ensayos, y después se normalizó con respecto a la cantidad de ADN genómico de entrada dividiendo el número por el promedio de los dos valores obtenidos para los genes de control (RAD1, STAT3). El valor promedio de los ensayos 5' y 3' se utilizó para determinar la fracción de grandes deleciones.

La fracción de translocaciones se calculó restando la fracción de grandes deleciones del valor "Edge". El porcentaje de indel del ensayo T7E1 se recalculó basándose en la fórmula: (100-(gran deleción x 100)-(translocación x 100)) x % de indel.

Tabla 1: Secuencias diana

Seq ID Secuencia (5’->3’) Comentario

1 .......GTGAGTAGAGCGGAGGC.AGGAGG CCR5 sitio diana (PAM subrayado)....

2 ^{g t g a g t a g a g c g g a g g c a g g n r g} CCR5 sitio diana consenso (PAM subrayado) 3 GGTGAGTGAGTGTGXGCGTGTGG VEGFA sitio diana (PAM subrayado)

4 GGAATCCCTTCTGCAGCACCTGG FANCF sitio diana (PAM subrayado)

Tabla 2: Diseño de cebadores y conectores

Tabla 3: Efecto de los cebadores señuelo.

Para evaluar el impacto de los cebadores señuelo en la relación señal-ruido, se realizaron análisis CAST-Seq paralelos en presencia o ausencia de cebadores señuelo. El cambio en número de veces se calculó mediante la fórmula siguiente:

(total de lecturas en agolpamientos con señuelo - lecturas en el agolpamiento de la diana con señuelo)/total de lecturas con señuelo (total de lecturas en agrupamientos sin señuelo - lecturas en el agrupamiento de la diana sin señuelo)/total de lecturas sin señuelo Tabla 4: Análisis CAST-Seq para la nucleasa CRISPR-Cas9 dirigida a CCR5

Tabla 5: Sensibilidad de CAST-Seq

Se utilizó la PCR digital en nanogotas (ddPCR) para determinar el número de acontecimientos de deleción grande en CCR5/CCR2 entre los loci CCR5 y CCR2.

Tabla 6: Análisis CAST-Seq para la nucleasa CRISPR-Cas9 dirigida a VEGFA

Tabla 7: Análisis CAST-Seq para la nucleasa CRISPR-Cas9 dirigida a FANCF





Tabla 10: Matriz de puntuación

^{A C G T}M ^{R w S Y K V}H ^{D B N} PRO TUB.

3RO -1 ^-1-1 ^{-1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1}n/a ruB.

Matriz de puntuación de la sustitución de nucleótidos utilizada para el alineamiento de los sitios de translocación con la secuencia del sitio diana, incluidos los pesos para los desapareamientos y las protuberancias (inserciones/deleciones).

Se utiliza el código IUPAC. A, adenina; C, citosina; G, guanina; T (o U), timina (o uracilo); R, A o G; Y, C o T; S, G o C; W, A o T; K, G o T; M, A o C; B, C o G o T; D, A o G o T; H, A o C o T; V, A o C o G; N, cualquier base; n/a, no aplicable.

Tabla 11: Diseño de cebadores para el sitio diana HBB (diana de TALEN)

Tabla 12: Diseño de cebadores para el sitio diana 2 de CCR5 (CCR5#2, diana de CRISPR-Cas9)

Tabla 13: Diseño de cebadores para ddPCR

Claims

REIVINDICACIONES

1. -Un método para la detección de alto rendimiento de modificaciones del genoma completo en el genoma de un ácido nucleico obtenido a partir de una célula o un tejido causadas por la actividad de una nucleasa de diseño, que comprende las siguientes etapas:

a) extracción del ADN genómico de células que fueron expuestas a una nucleasa de diseño en condiciones que permiten a la nucleasa de diseño introducir una ruptura bicatenaria del ADN (DSB) en el ADN genómico de la célula,

b) fragmentación del ácido nucleico para obtener fragmentos aleatorios,

c) realización de una reparación de extremos para obtener extremos con una A prominente en el extremo 3' que se apareen con los conectores utilizados en la etapa d) que tengan una T complementaria,

d) ligamiento con un conector que comprende una secuencia complementaria para producir un cebador denominado "cebador para conector",

e) realización de una primera reacción de amplificación de ácido nucleico que es una reacción en cadena de la polimerasa con un "cebador para conector" y un cebador denominado "cebador para diana", en el que un cebador se sitúa cadena arriba y otro cadena abajo del sitio diana, en el que está presente en la mezcla de reacción al menos un cebador señuelo diseñado para unirse muy cerca del sitio de corte de la diana en una zona flanqueada por el cebador para diana y el cebador para conector inverso,

f) realización de una segunda reacción de amplificación del ácido nucleico en la que se añaden a la mezcla de reacción los denominados "cebadores internos", en los que un cebador es complementario con el locus diana y otro cebador es complementario con la secuencia conectora,

g) realización de otra reacción de amplificación de ácidos nucleicos en la que se añade a la mezcla de reacción al menos un código de barras que contenga cebadores,

h) secuenciación del producto de amplificación con cebadores internos y con código de barras, y i) alineación de los productos secuenciados con medios bioinformáticos adecuados con una secuencia de referencia para identificar una ubicación cromosómica que contenga una modificación genómica basada en al menos una ruptura bicatenaria del ADN.

2. - Un método según la reivindicación 1, caracterizado porque el cebador señuelo es complementario con una secuencia situada a una distancia de al menos 10 nucleótidos cadena abajo del sitio diana.

3. - Un método según cualquiera de las reivindicaciones 1-2, caracterizado porque el sitio de unión para un cebador señuelo está situado a una distancia de al menos 10 nucleótidos cadena abajo y el sitio de unión para el otro cebador señuelo está situado a una distancia de al menos 30 nucleótidos cadena abajo del sitio diana.

4. - Un método según la reivindicación 1, caracterizado porque el cebador para diana directo está situado a una distancia de al menos 25 nucleótidos cadena arriba del sitio diana.

5. - Un método según cualquiera de las reivindicaciones anteriores, caracterizado porque permite identificar aberraciones cromosómicas poco frecuentes.

6. - Un método según cualquiera de las reivindicaciones anteriores, caracterizado porque permite la detección de aberraciones cromosómicas en el sitio diana y/o en los sitios diana inespecíficos.

7. - Un método según cualquiera de las reivindicaciones 1 a 6, caracterizado porque la reacción de amplificación del ácido nucleico se realiza en la zona del sitio diana donde la nucleasa de diseño corta al ácido nucleico.

8. - Un método según cualquiera de las reivindicaciones 1 a 7, caracterizado porque la molécula que contiene el código proporciona un código de barras para la secuenciación de nueva generación.

9. - Un método según cualquiera de las reivindicaciones anteriores, caracterizado porque la información obtenida por la amplificación del ácido nucleico se analiza con la ayuda de la bioinformática que comprende el apareamiento de secuencias y la selección positiva para la secuencia diana.

10. - Un método según la reivindicación 9, en el que se eliminan las secuencias no relacionadas debidas a productos de cebado erróneo o productos de conector.

11. - Un método según cualquiera de las reivindicaciones 9 o 10, en el que las secuencias seleccionadas se alinean con el genoma de referencia y en el que se eliminan los sitios de translocación falsos positivos.