ES2745814T3

ES2745814T3 - Transposición conservadora de contigüidad

Info

Publication number: ES2745814T3
Application number: ES15797490T
Authority: ES
Inventors: Frank J Steemers; Kevin L Gunderson; Fan Zhang; Jason Richard Betley; Niall Anthony Gormley; Wouter Meuleman; Jacqueline Weir; Avgousta Ioannou; Gareth Jenkins; Rosamond Jackson; Natalie Morrell; Dmitry K Pokholok; Steven J Norberg; Molly He; Amirali Kia; Igor Goryshin; Rigo Pantoja
Original assignee: Illumina Cambridge Ltd
Current assignee: Illumina Cambridge Ltd
Priority date: 2014-10-17
Filing date: 2015-10-16
Publication date: 2020-03-03
Anticipated expiration: 2035-10-16
Also published as: EP3207134B1; CN114045282B; EP3636757A1; PT3207134T; CN114045282A; DK3207134T3; LT3207134T; EP3207134A2; CN107969137A; CN107969137B

Abstract

Un método para preparar una genoteca de fragmentos de ADN codificados con códigos de barras de un ácido nucleico diana que comprende: a. poner en contacto un ácido nucleico diana con una pluralidad de complejos de transposomas, cada complejo de transposomas comprende: transposones y transposasas, en donde los transposones comprenden cadenas transferidas y cadenas no transferidas, en donde al menos uno de los transposones del complejo de transposomas comprende una secuencia de adaptadores capaz de hibridar a una secuencia de captura complementaria; b. fragmentar el ácido nucleico diana en una pluralidad de fragmentos e insertar una pluralidad de cadenas transferidas en el extremo 5' de al menos una cadena de fragmentos mientras se mantiene la contigüidad del ácido nucleico diana; c. poner en contacto la pluralidad de fragmentos del ácido nucleico diana con una pluralidad de soportes sólidos, cada uno de los soportes sólidos en la pluralidad comprende una pluralidad de oligonucleótidos inmovilizados, cada uno de los oligonucleótidos comprende una secuencia de captura complementaria y una primera secuencia de códigos de barras, y en donde la primera secuencia de códigos de barras de cada soporte sólido en la pluralidad de los soportes sólidos difiere de la primera secuencia de códigos de barras de otros soportes sólidos en la pluralidad de soportes sólidos; d. transferir la información de la secuencia de códigos de barras a los fragmentos del ácido nucleico diana, produciendo así una genoteca de fragmentos bicatenarios, en donde al menos una cadena está marcada en el extremo 5' con el primer código de barras, en donde al menos dos fragmentos del mismo ácido nucleico diana reciben información idéntica de códigos de barras.

Description

DESCRIPCIÓN

Transposición conservadora de contigüidad

Campo de la invención

Las realizaciones de la presente invención se refieren a secuenciar ácidos nucleicos. En particular, las realizaciones de los métodos y composiciones proporcionados en la presente memoria se refieren a preparar moldes de ácidos nucleicos y a obtener datos de secuencia a partir de los mismos.

Antecedentes de la invención

La detección de secuencias específicas de ácidos nucleicos presentes en una muestra biológica se ha utilizado, por ejemplo, como método para identificar y clasificar microorganismos, para diagnosticar enfermedades infecciosas, para detectar y caracterizar anomalías genéticas, para identificar cambios genéticos asociados con el cáncer, para estudiar la susceptibilidad genética a una enfermedad y para medir la respuesta a distintos tipos de tratamiento. Una técnica común para detectar secuencias específicas de ácidos nucleicos en una muestra biológica es la secuenciación de ácidos nucleicos.

La metodología de la secuenciación de ácidos nucleicos ha evolucionado significativamente desde los métodos de degradación química utilizados por Maxam y Gilbert y los métodos de elongación de cadenas utilizados por Sanger. En la actualidad, se utilizan varias metodologías de secuenciación que permiten el procesamiento paralelo de todos los ácidos nucleicos en una única secuenciación. De modo que la información generada a partir de una única secuenciación puede ser enorme.

La publicación internacional WO 2014/108810 A2 describe métodos y composiciones para utilizar transposasa inmovilizada y un extremo de un transposón para generar una genoteca inmovilizada de ADN bicatenario diana marcado en el extremo 5' sobre una superficie. La publicación internacional WO 2012/061832 A1 describe secuencias de transposones artificiales que tienen marcadores de código y ácidos nucleicos diana que contienen secuencias de este tipo y métodos para producir transposones artificiales y para utilizar sus propiedades para analizar ácidos nucleicos diana.

Adey, A. et al. describen en Genome Research, vol. 22, n.° 6, 30 de marzo de 2012, en las páginas 1139-1143 secuenciación de bisulfito de genoma completo de baja entrada.

Caruccio, N. describe en Methods in Molecular Biology, vol. 733, 1 de enero de 2011, en las páginas 241-255 una preparación de genotecas de secuenciación de nueva generación utilizando tecnología Nextera(TM) basada en fragmentación simultánea de ADN y marcado de adaptadores por medio de transposición in vitro.

La publicación internacional WO 2012/106546 A2 describe métodos para captura paralela de información de contigüidad a diferentes escalas.

Syed Fraz et al. describen en Nature Methods, vol. 6, n.° 10, 1 de octubre de 2009, en las páginas I-II un método adicional de preparación de genotecas para secuenciación de nueva generación.

Haoyi Wang et al. describen en Genome Research, vol. 21, n.° 5, 1 de mayo de 2011, en las páginas 748-755 que las denominadas tarjetas permiten identificación multiplexada de las dianas genómicas de proteínas de unión a ADN.

La publicación internacional WO 2010/048605 A1 describe métodos, composiciones y kits para utilizar una transposasa y un extremo de transposón para generar una fragmentación extensa y un marcado en el extremo 5' de ADN bicatenario diana in vitro.

El documento EP 2712931 A1 describe un método para preparar complejos de transposasas purificados que son adecuados para fragmentar ADN que incluye formar complejos de transposasas con adaptadores de oligonucleótidos en lisados celulares.

Compendio de la invención

La presente invención se define por medio la reivindicación independiente 1. Las reivindicaciones dependientes representan realizaciones adicionales de la invención.

En un aspecto, en la presente memoria, se describen métodos para preparar una genoteca de fragmentos de ADN codificados con códigos de barras de un ácido nucleico diana. Los métodos incluyen poner en contacto un ácido nucleico diana con una pluralidad de complejos de transposomas, cada complejo de transposomas incluye: transposones y transposasas, en los que los transposones comprenden cadenas transferidas y cadenas no transferidas. Al menos uno de los transposones del complejo de transposomas comprende una secuencia de adaptadores capaz de hibridar a una secuencia de captura complementaria. El ácido nucleico diana se fragmenta en una pluralidad de fragmentos e inserta una pluralidad de cadenas transferidas en el extremo 5' de al menos una cadena de fragmentos mientras mantiene la contigüidad del ácido nucleico diana. La pluralidad de fragmentos del ácido nucleico diana está en contacto con una pluralidad de soportes sólidos, cada uno de los soportes sólidos en la pluralidad comprende una pluralidad de oligonucleótidos inmovilizados, cada uno de los oligonucleótidos comprende una secuencia de captura complementaria y una primera secuencia de códigos de barras, y en donde la primera secuencia de códigos de barras de cada soporte sólido en la pluralidad de los soportes sólidos difiere de la primera secuencia de códigos de barras de otros soportes sólidos en la pluralidad de soportes sólidos. La información de la secuencia de códigos de barras se transfiere a los fragmentos del ácido nucleico diana, produciendo así una genoteca inmovilizada de fragmentos bicatenarios en donde al menos una cadena está marcada en el extremo 5' con el primer código de barras de modo que al menos dos fragmentos del mismo ácido nucleico diana reciben información idéntica de códigos de barras.

En un aspecto, en la presente memoria, se describen métodos para determinar la información de contigüidad de una secuencia de ácidos nucleicos diana. Los métodos incluyen poner en contacto el ácido nucleico diana con una pluralidad de complejos de transposomas, cada complejo de transposomas comprende lo siguiente: transposones y transposasas, en los que los transposones comprenden cadenas transferidas y cadenas no transferidas, en los que al menos uno de los transposones del complejo de transposomas comprende una secuencia de adaptadores capaz de hibridar a una secuencia de captura complementaria. El ácido nucleico diana se fragmenta en una pluralidad de fragmentos y una pluralidad de cadenas transferidas se inserta en la pluralidad de fragmentos mientras mantiene la contigüidad del ácido nucleico diana. La pluralidad de fragmentos del ácido nucleico diana está en contacto con una pluralidad de soportes sólidos. Cada uno de los soportes sólidos en la pluralidad comprende una pluralidad de oligonucleótidos inmovilizados, cada uno de los oligonucleótidos comprende una secuencia de captura complementaria y una primera secuencia de códigos de barras, y en donde la primera secuencia de códigos de barras de cada soporte sólido en la pluralidad de soportes sólidos difiere de la primera secuencia de códigos de barras de otros soportes sólidos en la pluralidad de soportes sólidos. La información de la secuencia de códigos de barras se transfiere a los fragmentos del ácido nucleico diana de tal modo que al menos dos fragmentos del mismo ácido nucleico diana reciben información idéntica de códigos de barras. Se determinan la secuencia de los fragmentos del ácido nucleico diana y las secuencias de códigos de barras. La información de contigüidad del ácido nucleico diana se determina por medio de identificación de las secuencias de códigos de barras. En algunas realizaciones, las transposasas de los complejos de transposomas se eliminan después de la transposición e hibridación subsecuente de las secuencias de adaptadores del transposón a la secuencia de captura complementaria. En algunas realizaciones, las transposasas se eliminan por medio de tratamiento con SDS. En algunas realizaciones, las transposasas se eliminan por medio de tratamiento con proteinasa.

En un aspecto, en la presente memoria, se describen métodos para determinar simultáneamente la información de separación de fases y el estado de metilación de una secuencia de ácidos nucleicos diana. Los métodos incluyen poner en contacto el ácido nucleico diana con una pluralidad de complejos de transposomas, cada complejo de transposomas incluye: transposones y transposasas, en los que los transposones comprenden cadenas transferidas y cadenas no transferidas, en donde al menos uno de los transposones del complejo de transposomas comprende una secuencia de adaptadores capaz de hibridar a una secuencia de captura complementaria. El ácido nucleico diana se fragmenta en una pluralidad de fragmentos y una pluralidad de cadenas transferidas se inserta en los fragmentos del ácido nucleico diana mientras mantiene la contigüidad del ácido nucleico diana. La pluralidad de fragmentos del ácido nucleico diana está en contacto con una pluralidad de soportes sólidos, cada uno de los soportes sólidos en la pluralidad comprende una pluralidad de oligonucleótidos inmovilizados, cada uno de los oligonucleótidos comprende una secuencia de captura complementaria y una primera secuencia de códigos de barras, y en donde la primera secuencia de códigos de barras de cada soporte sólido en la pluralidad de los soportes sólidos difiere de la primera secuencia de códigos de barras de otros soportes sólidos en la pluralidad de soportes sólidos. La información de la secuencia de códigos de barras se transfiere a los fragmentos del ácido nucleico diana de tal modo que al menos dos fragmentos del mismo ácido nucleico diana reciben información idéntica de códigos de barras. Los fragmentos del ácido nucleico diana que comprenden códigos de barras se someten a tratamiento de bisulfito, generando así fragmentos del ácido nucleico diana tratados con bisulfito que comprenden códigos de barras. Se determinan la secuencia de los fragmentos del ácido nucleico diana tratados con bisulfito y las secuencias de códigos de barras. La información de contigüidad del ácido nucleico diana se determina por medio de identificación de las secuencias de códigos de barras.

En algunas realizaciones, una única secuencia de códigos de barras está presente en la pluralidad de oligonucleótidos inmovilizados en cada soporte sólido individual. En algunas realizaciones, diferentes secuencias de códigos de barras están presentes en la pluralidad de oligonucleótidos inmovilizados en cada soporte sólido individual. En algunas realizaciones, la transferencia de la información de la secuencia de códigos de barras a los fragmentos del ácido nucleico diana es por medio de fijación. En algunas realizaciones, la transferencia de la información de la secuencia de códigos de barras a los fragmentos del ácido nucleico diana es por medio de extensión de polimerasa. En algunas realizaciones, la transferencia de la información de la secuencia de códigos de barras a los fragmentos del ácido nucleico diana es tanto por medio de fijación como de extensión de polimerasa. En algunas realizaciones, la extensión de polimerasa es por medio de extensión del extremo 3' de la cadena de transposón no fijada con una ADN polimerasa utilizando el oligonucleótido inmovilizado fijado como molde. En algunas realizaciones, al menos una porción de las secuencias de adaptadores comprende además una segunda secuencia de códigos de barras.

En algunas realizaciones, los complejos de transposomas son multiméricos y en donde las secuencias de adaptadores de los transposones de cada unidad monomérica son diferentes a la otra unidad monomérica en el mismo complejo de transposomas. En algunas realizaciones, la secuencia de adaptadores comprende además una primera secuencia de unión a cebador. En algunas realizaciones, el primer sitio de unión a cebador no tiene homología de secuencia con la secuencia de captura o con el complemento de la secuencia de captura. En algunas realizaciones, los oligonucleótidos inmovilizados en el soporte sólido comprenden además una segunda secuencia de unión a cebador.

En algunas realizaciones, los complejos de transposomas son multiméricos y las unidades monoméricas de transposomas se unen entre sí en el mismo complejo de transposomas. En algunas realizaciones, la transposasa de una unidad monomérica de transposoma se une a la transposasa de otra unidad monomérica de transposoma del mismo complejo de transposomas. En algunas realizaciones, los transposones de una unidad monomérica de transposoma se unen a los transposones de otra unidad monomérica de transposoma del mismo complejo de transposomas. En algunas realizaciones, la transposasa de una unidad monomérica de transposoma se une a la transposasa de otra unidad monomérica de transposoma del mismo complejo de transposomas por medio de enlace covalente. En algunas realizaciones, las transposasas de una unidad monomérica se unen a la transposasa de otra unidad monomérica de transposoma del mismo complejo de transposomas por medio de enlace disulfuro. En algunas realizaciones, los transposones de una unidad monomérica de transposoma se unen a los transposones de otra unidad monomérica de transposoma del mismo complejo de transposomas por medio de enlace covalente. En algunas realizaciones, la información de contigüidad de una secuencia de ácidos nucleicos diana es indicativa de información de haplotipo. En algunas realizaciones, la información de contigüidad de una secuencia de ácidos nucleicos diana es indicativa de variantes genómicas. En algunas realizaciones, las variantes genómicas se seleccionan de entre el grupo que consiste en deleciones, translocaciones, fusiones de genes intercromosómicas, duplicaciones y parálogos. En algunas realizaciones, los oligonucleótidos inmovilizados en el soporte sólido comprenden una región parcialmente bicatenaria y una región parcialmente monocatenaria. En algunas realizaciones, la región parcialmente monocatenaria del oligonucleótido comprende la segunda secuencia de códigos de barras y la segunda secuencia de unión a cebador. En algunas realizaciones, los fragmentos del ácido nucleico diana que comprenden los códigos de barras se amplifican antes de determinar la secuencia de los fragmentos del ácido nucleico diana. En algunas realizaciones, la subsecuente amplificación se lleva a cabo en un único compartimento de reacción antes de determinar la secuencia de los fragmentos del ácido nucleico diana. En algunas realizaciones, una tercera secuencia de códigos de barras se introduce en los fragmentos del ácido nucleico diana durante la amplificación.

En algunas realizaciones, los métodos pueden incluir además combinar los fragmentos del ácido nucleico diana que comprenden los códigos de barras de una pluralidad de un primer conjunto de compartimentos de reacción en un grupo de fragmentos del ácido nucleico diana que comprende los códigos de barras; redistribuir el grupo de fragmentos del ácido nucleico diana que comprende los códigos de barras a una pluralidad de un segundo conjunto de compartimentos de reacción; e introducir un tercer código de barras en los fragmentos del ácido nucleico diana por medio de amplificación de los fragmentos del ácido nucleico diana en el segundo conjunto de compartimentos de reacción antes de la secuenciación.

En algunas realizaciones, los métodos pueden incluir además una fragmentación previa del ácido nucleico diana antes de poner en contacto el ácido nucleico diana con los complejos de transposomas. En algunas realizaciones, la fragmentación previa del ácido nucleico diana es por medio de un método seleccionado de entre el grupo que consiste en someter a sonicación o en digestión de restricción.

Breve descripción de los dibujos

La Figura 1 ilustra un diagrama de flujo de un ejemplo de un método de unión de transposomas a una superficie de perla.

La Figura 2 muestra pictóricamente las etapas del método de la Figura 1.

La Figura 3 ilustra un diagrama esquemático de un ejemplo de un proceso de tagmentación en una superficie de perla.

La Figura 4 muestra una tabla de datos de un ejemplo del rendimiento de ADN en términos de número de clústeres del proceso de tagmentación basado en perlas de la Figura 3.

La Figura 5 muestra una tabla de datos de otro ejemplo de la reproducibilidad del proceso de tagmentación basado en perlas de la Figura 3 en términos de tamaño uniforme.

Las Figuras 6A y 6B muestran un gráfico del tamaño del inserto del grupo 1 y un gráfico del tamaño del inserto del grupo 2, respectivamente, de las muestras indexadas de la Figura 5.

La Figura 7 muestra un gráfico de barras de la reproducibilidad del número total de lecturas y del porcentaje lecturas alineadas para el experimento descrito en la Figura 5.

Las Figuras 8A, 8B y 8C muestran un gráfico del tamaño del inserto en una genoteca de control, un gráfico del tamaño del inserto en una genoteca tagmentada basada en perlas y una tabla de resumen de datos, respectivamente, en el ensayo de enriquecimiento del exoma.

Las Figuras 9A, 9B y 9C muestran un gráfico de barras de la fracción de duplicados de FP, un gráfico de barras de la fracción de bases seleccionadas y un gráfico de barras de bases utilizables de PCT en la diana, respectivamente, en el ensayo de enriquecimiento del exoma.

La Figura 10 ilustra un diagrama de flujo de un ejemplo de un método de formación de complejos de transposomas en una superficie de perla.

Las Figuras 11, 12 y 13 muestran pictóricamente las etapas del método de la Figura 10.

La Figura 14 muestra un diagrama esquemático de un proceso de tagmentación que utiliza la perla recubierta con transposoma mostrada en la Figura 13.

La Figura 15 muestra un esquema de ejemplo de la formación de transposomas en un soporte sólido.

La Figura 16 muestra un esquema de ejemplo de la producción de genotecas unidas de manera contigua con índices únicos.

La Figura 17 muestra un esquema de ejemplo de la producción de genotecas unidas de manera contigua con índices únicos.

Las Figuras 18 y 19 representan la captura de un único CPT-ADN en una única perla indexada clonal donde el CPT-ADN se envuelve alrededor de la perla.

La Figura 20 muestra un esquema de ejemplo de la unión de un adaptador Y inmovilizado en la superficie sólida del ADN tagmentado por medio de fijación y rellenado de huecos.

La Figura 21 muestra un esquema de ejemplo de la producción de adaptadores Y de este tipo durante la fijación de CPT-ADN a los oligonucleótidos inmovilizados en el soporte sólido.

La Figura 22 representa una electroforesis en gel de agarosa que muestra la eliminación de un transposoma libre de las genotecas unidas de manera contigua por medio de cromatografía por exclusión de tamaño.

La Figura 23 muestra un esquema de ejemplo de la generación de una genoteca de secuencia por perdigonada de un fragmento específico de ADN.

La Figura 24 muestra un esquema de ejemplo del ensamblaje de la información de secuencia a partir de la genoteca de secuenciación indexada clonal.

La Figura 25 muestra los resultados de la optimización de la densidad de sonda la de captura en perlas.

La Figura 26 muestra los resultados de someter a prueba la viabilidad de preparar genotecas de secuenciación indexadas de CPT-ADN en perlas por medio de hibridación intramolecular.

La Figura 27 muestra los resultados de someter a prueba la viabilidad de indización clonal.

La Figura 28 representa un gráfico que muestra las frecuencias de las lecturas de secuenciación para distancias particulares dentro (intra) y también entre (intra) islas alineadas adyacentes de lecturas para ácido nucleico de molde seguido de tagmentación.

Las Figuras 29A y 29B muestran planteamientos de ejemplo para derivar información de contigüidad en soporte sólido.

Las Figuras 30 y 31 muestran los esquemas de transposición de perlas clonales indexadas en un único recipiente de reacción (recipiente único) y los resultados de la transposición.

La Figura 32 muestra los esquemas de creación de transposomas clonales en perlas utilizando oligonucleótidos biotinilados en el extremo 5' o 3'.

La Figura 33 muestra los tamaños de genoteca para transposomas en perlas.

La Figura 34 muestra el efecto de la densidad superficial de transposomas en el tamaño de inserción.

La Figura 35 muestra el efecto de ADN de entrada en la distribución del tamaño.

La Figura 36 muestra el tamaño y distribución de las islas utilizando reacciones de tagmentación basadas en perlas y basadas en disolución.

La Figura 37 muestra indización clonal de varias moléculas de ADN individuales, cada una recibe índices únicos. La Figura 38 muestra un diagrama de un dispositivo para separar plasma de sangre completa.

Las Figuras 39 y 40 muestran un diagrama de un dispositivo para separar plasma y el subsecuente uso del plasma separado.

La Figura 41 muestra un esquema de ejemplo de separación de fases dirigida por medio de enriquecimiento de regiones específicas de un genoma.

La Figura 42 muestra un esquema de ejemplo de separación de fases de exoma que utiliza los SNP entre los exomas.

La Figura 43 muestra un esquema de ejemplo de separación de fases y detección de metilación simultáneas.

La Figura 44 muestra un esquema de ejemplo alternativo de separación de fases y detección de metilación simultáneas.

La Figura 45 muestra un esquema de ejemplo para generar genotecas de varios tamaños utilizando perlas indexadas clonalmente de varios tamaños en un único ensayo.

La Figura 46 muestra un esquema de ejemplo para determinar variantes genéticas con genotecas de diferentes escalas de longitud.

Las Figuras 47 A y B muestran el resultado de la detección de deleción heterocigota de 60 kb en el cromosoma 1. La Figura 48 muestra los resultados de la detección de fusión de genes utilizando los métodos de la presente solicitud.

La Figura 49 muestra los resultados de la detección de las deleciones genéticas utilizando los métodos de la presente solicitud.

La Figura 50 muestra secuencias ME antes y después de conversión de bisulfito.

La Figura 51 muestra los resultados de la optimización de la eficacia de la conversión de bisulfito.

La Figura 52 muestra los resultados después de conversión de bisulfito en un gráfico IVC (intensidad versus ciclos por base individual).

La Figura 53 muestra una imagen de electroforesis en gel de agarosa de genotecas unidas indexadas después de PCR después de BSC.

La Figura 54 muestra el rastro del bioanalizador de las genotecas de CPT-seq unidas indexadas del genoma completo antes de enriquecimiento sin selección por tamaño.

La Figura 55 muestra el análisis en gel de agarosa de genotecas después de enriquecimiento.

La Figura 56 muestra los resultados de la aplicación de haplotipificación dirigida a la región HLA en el cromosoma. La Figura 57 muestra algunos mecanismos posibles de intercambio de ME.

La Figura 58 muestra algunos mecanismos posibles de intercambio de ME.

La Figura 59 muestra una porción de transposasa Tn5 con residuos de aminoácidos Asp468, Tyr407, Asp461, Lys459, Ser458, Gly462, Ala466, Met470 de ejemplo que se pueden sustituir con Cys.

La Figura 60 muestra una porción de transposasa Tn5 con sustitución de aminoácidos de S458C, K459C y A466C, de modo que los residuos de cisteína puedan formar enlaces disulfuro entre dos unidades monoméricas.

La Figura 61 muestra un esquema de ejemplo de la producción y uso de un bioconjugado (dTnp-NP) de transposasa (dTnp)-nanopartícula (NP) dimérico utilizando una nanopartícula recubierta con amina.

La Figura 62 muestra un esquema de ejemplo de la conjugación de un dímero de transposomas con un soporte sólido recubierto con amina.

La Figura 63 muestra un complejo de transposomas Mu donde los extremos de transposón se unen.

La Figura 64 muestra un diagrama de lecturas unidas indexadas para ensamblaje/separación de fases de pseudogenes y la ventaja de identificar variantes en pseudogenes utilizando fragmentos más cortos.

La Figura 65 muestra un gráfico del intercambio de índices de 4 experimentos separados y mostrados como % de los índices intercambiados.

La Figura 66 muestra un análisis con bioanalizador Agilent de tamaños de fragmento de titulación Ts-Tn5.

La Figura 67 muestra un esquema de ejemplo para mejorar el rendimiento de ADN del protocolo Epi-CPTSeq utilizando métodos enzimáticos para recuperar los elementos rotos de la genoteca después de tratamiento con bisulfito.

Las Figuras 68 A-C muestran varios esquemas de ejemplo para mejorar el rendimiento de ADN del protocolo Epi-CPTSeq utilizando métodos enzimáticos para recuperar los elementos rotos de la genoteca después de tratamiento de bisulfito.

La Figura 69 muestra un esquema de ejemplo para rescate de moldes utilizando extensión de cebador aleatorio. La Figura 70 muestra la fragmentación de la genoteca de ADN durante la conversión de bisulfato de sodio. El panel izquierdo ilustra la fragmentación durante la conversión de bisulfato de una porción de ADN tagmentado en perlas magnéticas. El panel derecho muestra los rastros del bioanalizador de genotecas CPTSeq y Epi-CPTSeq (Me-CPTSeq).

La Figura 71 muestra un esquema de ejemplo y los resultados de una reacción de fijación de ADN monocatenario mediada por TdT.

La Figura 72 muestra un esquema y los resultados de recuperación mediada por TdT de una genoteca unida a una perla convertida con bisulfato de sodio. El panel izquierdo ilustra el flujo de trabajo del rescate de una genoteca dañada de ADN convertida con bisulfito utilizando una reacción de fijación mediada por TdT. Los resultados del experimento de rescate de la genoteca de ADN se muestran en el panel derecho.

La Figura 73 muestra los resultados del ensayo Methyl-CPTSeq.

La Figura 74 muestra un esquema de ejemplo de la conversión de bisulfuro basada en perlas de ADN.

Las Figuras 75 A-B muestran los resultados de la optimización de la eficacia de conversión de bisulfito.

Descripción detallada de la invención

En un aspecto, la presente invención se refiere a métodos de tagmentación (fragmentación y marcado) de un ácido nucleico diana en un soporte sólido para la construcción de una genoteca de ácido nucleico diana tagmentada. En una realización, el soporte sólido es una perla. En una realización, el ácido nucleico diana es ADN.

En un aspecto, la presente invención se refiere a métodos y composiciones de un soporte sólido, métodos basados en transposasa que pueden derivar la información de contigüidad de un ácido nucleico diana. En algunas realizaciones, las composiciones y los métodos pueden derivar información de ensamblaje/separación de fases. En un aspecto, la presente invención se refiere a métodos y composiciones para derivar información de contigüidad por medio de la captura de un ácido nucleico diana transpuesto, unido de manera contigua en un soporte sólido. En un aspecto, las composiciones y métodos descritos en la presente memoria se refieren al análisis de variantes genómicas. Las variantes genómicas de ejemplo incluyen, pero no se limitan a, deleciones, translocaciones intercromosómicas, duplicaciones, parálogos y fusiones de genes intercromosómicas. En algunas realizaciones, las composiciones y métodos descritos en la presente memoria se refieren a determinar la información de separación de fases de las variantes genómicas.

En un aspecto, las composiciones y métodos descritos en la presente memoria se refieren a regiones específicas de separación de fases del ácido nucleico diana. En una realización, el ácido nucleico diana es ADN. En una realización, el ácido nucleico diana es ADN genómico. En algunas realizaciones, el ácido nucleico diana es ARN. En algunas realizaciones, el ARN es ARNm. En algunas realizaciones, el ácido nucleico diana es ADN complementario (ADNc). En algunas realizaciones, el ácido nucleico diana procede de una célula individual. En algunas realizaciones, el ácido nucleico diana procede de una célula tumoral circulante. En algunas realizaciones, el ácido nucleico diana es ADN extracelular. En algunas realizaciones, el ácido nucleico diana es ADN tumoral extracelular. En algunas realizaciones, el ácido nucleico diana procede de muestras de tejido incluido en parafina fijado en formalina. En algunas realizaciones, el ácido nucleico diana es un ácido nucleico diana reticulado. En algunas realizaciones, el ácido nucleico diana se reticula con proteínas. En algunas realizaciones, el ácido nucleico diana es ácido nucleico reticulado. En algunas realizaciones, el ácido nucleico diana es ADN protegido con histona. En algunas realizaciones, el ADN protegido con histona se precipita de un lisado celular utilizando anticuerpos contra histonas y las histonas se eliminan.

En algunos aspectos, las genotecas indexadas se crean a partir del ácido nucleico diana utilizando las perlas indexadas clonalmente. En algunas realizaciones, el ácido nucleico diana tagmentado, mientras la transposasa está unida aún al ADN diana, se puede capturar utilizando las perlas indexadas clonalmente. En algunas realizaciones, las sondas de captura específicas se utilizan para capturar la región específica de interés en el ácido nucleico diana. Las regiones capturadas del ácido nucleico diana se pueden lavar a varias restricciones y, opcionalmente, amplificar, seguido por secuenciación. En algunas realizaciones, la sonda de captura se puede biotinilar. El complejo de sondas de capturas biotiniladas hibridadas a las regiones específicas de los ácidos nucleicos diana indexados se puede separar utilizando perlas de estreptavidina. El esquema de ejemplo de la separación de fases dirigida se muestra en la Figura 41.

En algunos aspectos, las composiciones y métodos descritos en la presente memoria se pueden utilizar para separar fases de exomas. En algunas realizaciones, los exones, promotores se pueden enriquecer. Los marcadores, por ejemplo, heterocigotos SNP entre regiones exónicas, pueden ayudar en la separación de fases de los exones, especialmente cuando la distancia entre los exones es grande. La separación de fases del exoma de ejemplo se muestra en la Figura 42. En algunas realizaciones, las lecturas unidas indexadas no pueden abarcar (cubrir) SNP heterocigotos de exones adyacentes simultáneamente. De modo que la separación de fases de los dos o más exones supone un reto. Las composiciones y métodos descritos en la presente memoria enriquecen también SNP heterocigotos entre exones, por ejemplo, separando fases de los exones 1 a SNP1 y SNP2 al Exón 2. Como tal, a través del uso de SNP 1, el exón 1 y el exón 2 se pueden separar en fases como se muestra en la Figura 42.

En un aspecto, las composiciones y métodos descritos en la presente memoria se pueden utilizar para la separación de fases y detección de metilación simultáneas. La detección de metilación a través de conversión de bisulfito (BSC) supone un reto, ya que la reacción BSC es fuerte en el ADN, fragmenta el ADN y, por lo tanto, elimina la información de contigüidad/separación de fases. También, los métodos descritos en la presente solicitud tienen una ventaja adicional porque no requieren etapas adicionales de purificación, al contrario que las requeridas en los planteamientos de BSC tradicionales, mejorando así el rendimiento.

En un aspecto, las composiciones y métodos descritos en la presente memoria se pueden utilizar para preparar genotecas de diferentes tamaños en un único ensayo. En alguna realización, se pueden utilizar diferentes tamaños de perlas indexadas clonalmente para preparar genotecas de diferentes tamaños. La Figura 1 ilustra un diagrama de flujo de un ejemplo de un método 100 de unión de transposomas a una superficie de perla. Los transposomas se pueden unir a una superficie de perla utilizando cualquier química que se pueda añadir al oligonucleótido de transposón, transposasa y fase sólida. En un ejemplo, los transposomas se unen a una superficie de perla por medio de un complejo de unión biotina-estreptavidina. El método 100 incluye, pero no se limita a, las siguientes etapas. En una realización, los transposones pueden comprender secuenciar sitios de unión a cebador. Las secuencias de ejemplo de los sitios de unión de secuencias incluyen, pero no se limitan a AATGATACGGCGACCACCGAGATCTACAC (secuencia P5) y CAAGCAGAAGACGGCATACGAGAT (secuencia P7). En algunas realizaciones, los transposones se pueden biotinilar.

En la etapa 110 de la Figura 1, se generan los transposones biotinilados P5 y P7. Los transposones pueden incluir también una o más secuencias de índice (identificador único). Las secuencias de índice de ejemplo incluyen, pero no se limitan a, TAGATCGC, CTCTCTAT, TATCCTCT, AGAGTAGA, GTAAGGAG, ACTGCATA, AAGGAGTA, CTAAGCCT. En otro ejemplo, solo los transposones P5 o solo los P7 se biotinilan. En todavía otro ejemplo, los transposones comprenden solo las secuencias de extremo mosaico (ME) o las secuencias ME más secuencias adicionales que no son secuencias P5 ni P7. En este ejemplo, las secuencias P5 y P7 se añaden en una etapa de amplificación PCR subsecuente.

En una etapa 115 de la Figura 1, se ensamblan los transposomas. Los transposomas ensamblados son una mezcla de transposomas P5 y P7. Se describe más detalladamente una mezcla de transposomas P5 y P7 con referencia a las Figuras 11 y 12.

En una etapa 120 de la Figura 1, las mezclas de transposomas P5/P7 se unen a una superficie de perla. En este ejemplo, las perlas son perlas recubiertas con estreptavidina y los transposomas se unen a la superficie de la perla por medio de un complejo de unión de biotina-estreptavidina. Las perlas pueden ser de varios tamaños. En un ejemplo, las perlas pueden ser perlas de 2,8 gm. En otro ejemplo, las perlas pueden ser perlas de 1 gm. Una suspensión (por ejemplo, 1 gL) de perlas de 1 gm proporciona un área de superficie grande por volumen para la unión de transposomas. Debido al área de superficie disponible para la unión de transposomas, el número de productos de tagmentación por reacción aumenta.

La Figura 2 muestra pictóricamente las etapas 110, 115 y 120 del método 100 de la Figura 1. En este ejemplo, los transposones se muestran como dúplex. En otro ejemplo (no mostrado), se puede utilizar otra estructura tal como una horquilla, es decir, un único oligonucleótido con regiones de autocomplementariedad capaces de formar un

dúplex.

En la etapa 110 del método 100, se generan una pluralidad de transposones P5 biotinilados 210a y una pluralidad

de transposones P7210b. Los transposones P5210a y los transposones P7210b se bionitilan.

En una etapa 115 del método 100, los transposones P5 210a y los transposones P7 210b se mezclan con

transposasa Tn5215 para formar una pluralidad de transposomas 220 ensamblados.

En una etapa 120 del método 100, los transposomas 220 se unen a una superficie de perla 225. La perla 225 es una

perla recubierta con estreptavidina. Los transposomas 220 se unen a una perla 225 por medio de un complejo de

unión de biotina-estreptavidina.

En una realización, una mezcla de transposomas se puede formar en un soporte sólido tal como una superficie de

perla como se muestra en las Figura 10, 11, 12 y 13. En este ejemplo, los oligonucleótidos P5 y P7 se unen primero

a una superficie de perla antes del ensamblaje de los complejos de transposomas.

La Figura 3 ilustra un diagrama esquemático de un ejemplo de un proceso de tagmentación 300 en una superficie de

perla. En el proceso 300, se muestra una perla 225 de la Figura 2 con transposomas 220 unidos a la misma. Una

disolución de ADN 310 se añade a una suspensión de perlas 225. A medida que el ADN 310 entra en contacto con

los transposomas 220, el ADN se tagmenta (fragmenta y marca) y se une a perlas 225 por medio de transposomas

220. El ADN 310 unido y tagmentado se puede amplificar por PCR para generar un grupo de amplicones 315 en

disolución (libre de perlas). Los amplicones 315 se pueden transferir a la superficie de una cubeta de lectura 320. Un

protocolo de generación de clústeres (por ejemplo, un protocolo de amplificación de puentes o cualquier otro

protocolo de amplificación que se pueda utilizar para generación de clústeres) se puede utilizar para generar una

pluralidad de clústeres 325 en una superficie de la cubeta de lectura 320. Los clústeres 325 son productos de

amplificación clonal de ADN 310 tagmentado. Los clústeres 325 están listos ahora para la siguiente etapa en un

protocolo de secuenciación.

En otra realización, los transposomas se pueden unir a cualquier superficie sólida, tal como las paredes de un tubo

de microcentrífuga.

En otra realización de formación de una mezcla de complejos de transposomas en una superficie de perla, los

oligonucleótidos se unen primero a una superficie de perla antes del ensamblaje de los transposomas. La Figura 10

ilustra un diagrama de flujo de un ejemplo de un método 1000 de formación de complejos de transposomas en una

superficie de perla. El método 1000 incluye, pero no se limita a, las siguientes etapas.

En una etapa 1010, los oligonucleótidos P5 y P7 se unen a una superficie de perla. En un ejemplo, los

oligonucleótidos P5 y P7 se biotinilan y la perla es una perla recubierta con estreptavidina. Esta etapa se muestra

también pictóricamente en un diagrama esquemático 1100 de la Figura 11. Con referencia ahora a la Figura 11, un

oligonucleótido P51110 y un oligonucleótido P71115 se unen a la superficie de una perla 1120. En este ejemplo, un

único oligonucleótido P5 1110 y un único oligonucleótido P7 1115 se unen a la superficie de la perla 1120, pero

cualquier número de oligonucleótidos P51110 y/o de oligonucleótidos P71115 se puede unir a la superficie de una

pluralidad de perlas 1120. En un ejemplo, el oligonucleótido P5 1110 comprende una secuencia de cebadores P5,

una secuencia de índice (identificador único), una lectura 1 que secuencia una secuencia de cebadores y una

secuencia de extremos mosaicos (ME). En este ejemplo, el oligonucleótido P7 1115 comprende una secuencia de

cebadores P7, una secuencia de índice (identificador único), una lectura 2 que secuencia una secuencia de

cebadores y una secuencia ME. En otro ejemplo (no mostrado), una secuencia de índice está presente s oligonucleótido P5 1110. En todavía otro ejemplo (no mostrado), una secuencia de índice está presente s oligonucleótido P7 1115. En todavía otro ejemplo (no mostrado), una secuencia

de índice está ausente ta oligonucleótido P51110 como en el oligonucleótido P71115.

En la etapa 1015, los oligonucleótidos de extremo mosaico complementarios (ME') se hibridan a los oligonucleótidos

P5 y P7 unidos a perlas. Esta etapa se muestra también pictóricamente en un diagrama esquemático 1200 de la

Figura 12. Con referencia ahora a la Figura 12, las secuencias ME complementarias (ME') 1125 se hibridan al

oligonucleótido P51110 y al oligonucleótido P71115. Las secuencias ME complementarias (ME') 1125 (por ejemplo,

secuencias ME complementarias (ME') 1125a y secuencias ME complementarias (ME') 1125b) hibridan a las

secuencias ME en el oligonucleótido P5 1110 y el oligonucleótido P7 1115, respectivamente. Típicamente, la

secuencia ME complementaria (ME') 1125 tiene aproximadamente 15 bases de longitud y está fosforilada en su

extremo 5'.

En la etapa 1020, la enzima transposasa se añade a los oligonucleótidos unidos a perlas para formar una mezcla de

complejos de transposomas unidos a perlas. Esta etapa se muestra también pictóricamente en un diagrama

esquemático 1300 de la Figura 13. Con referencia ahora a la Figura 13, la enzima transposasa se añade para formar

una pluralidad de complejos de transposomas 1310. En este ejemplo, el complejo de transposomas 1310 es una

estructura dúplex que comprende enzima transposasa, dos secuencias de oligonucleótidos unidos a la superficie y

sus secuencias ME complementarias (ME') hibridadas 1125. Por ejemplo, el complejo de transposomas 1310a

comprende el oligonucleótido P51110 hibridado a la secuencia ME complementaria (ME') 1125 y el oligonucleótido

P7 1115 hibridado a la secuencia ME complementaria (ME') 1125 (es decir, P5:P7); el complejo de transposomas 1310b comprende dos oligonucleótidos P5 1110 hibridados a las secuencias ME complementarias (ME') 1125 (es decir, P5:P5); y el complejo de transposomas 1310c comprende dos oligonucleótidos P7 1115 hibridados a las secuencias ME complementarias (ME') 1125 (es decir, P7:P7). La relación de los complejos de transposomas P5:P5, P7:P7 y P5:P7 puede ser, por ejemplo, 25:25:50, respectivamente.

La Figura 14 muestra un diagrama esquemático de ejemplo 1400 de un proceso de tagmentación que utiliza la perla recubierta con transposomas 1120 mostrada en la Figura 13. En este ejemplo, cuando la perla 1120 con los complejos de transposomas 1310 en la misma se añade a una disolución de ADN 1410 en un tampón de tagmentación, la tagmentación tiene lugar y el ADN se une a la superficie de la perla 1120 por medio de los transposomas 1310. La tagmentación sucesiva del ADN 1410 da lugar a una pluralidad de moléculas unidas por puentes 1415 entre los transposomas 1310. La longitud de las moléculas unidas por puentes 1415 puede depender de la densidad de los complejos de transposomas 1310 en la superficie de la perla 1120. En un ejemplo, la densidad de los complejos de transposomas 1310 en la superficie de la perla 1120 se puede ajustar al variar la cantidad de oligonucleótidos P5 y P7 unidos a la superficie de la perla 1120 en la etapa 1010 del método 100 de la Figura 10. En otro ejemplo, la densidad de los complejos de transposomas 1310 en la superficie de la perla 1120 se puede ajustar al variar la cantidad de secuencia ME complementaria (ME') hibridada a los oligonucleótidos P5 y P7 en la etapa 1015 del método 1000 de la Figura 10. En todavía otro ejemplo, la densidad de los complejos de transposomas 1310 en la superficie de la perla 1120 se puede ajustar al variar la cantidad de enzima transposasa añadida en la etapa 1020 del método 1000 de la Figura 1.

La longitud de las moléculas unidas por puentes 1415 es independiente de la cantidad de perlas 1120 con complejos de transposomas 1310 unidos a las mismas utilizadas en una reacción de tagmentación. De manera similar, añadir más o menos ADN 1410 en una reacción de tagmentación no altera el tamaño del producto tagmentado final, pero puede afectar al rendimiento de la reacción.

En un ejemplo, la perla 1120 es una perla paramagnética. En este ejemplo, la purificación de la reacción de tagmentación se consigue fácilmente al inmovilizar las perlas 1120 con un imán y lavarlas. Por lo tanto, la tagmentación y subsecuente amplificación PCR se pueden realizar en una reacción de un único compartimento de reacción ("recipiente único").

En un aspecto, la presente invención se refiere a métodos y composiciones de métodos basados en transposasas que pueden derivar información de contigüidad de un ácido nucleico diana en un soporte sólido. En algunas realizaciones, las composiciones y los métodos pueden derivar información de ensamblaje/separación de fases. En una realización, el soporte sólido es una perla. En una realización, el ácido nucleico diana es ADN. En una realización, el ácido nucleico diana es ADN genómico. En alguna realización, el ácido nucleico diana es ARN. En algunas realizaciones, el ARN es ARNm. En algunas realizaciones, el ácido nucleico diana es ADN complementario (ADNc).

En algunas realizaciones, los transposones se pueden inmovilizar como dímeros en un soporte sólido tal como perlas, seguido por la unión de transposasa a los transposones para formar transposomas.

En algunas realizaciones, relacionadas particularmente con la formación de transposomas en fases sólidas por medio de transposones inmovilizados en fase sólida y la adición de transposasa, dos transposones se pueden inmovilizar muy cerca (preferiblemente, a una distancia fija) entre sí en un soporte sólido. Este planteamiento tiene varias ventajas. Primero, los dos transposomas siempre se inmovilizarán simultáneamente, preferiblemente, con una longitud de enlazador y orientación óptimas de los dos transposones para formar transposomas eficazmente. Segundo, la eficacia de la formación de transposomas no será una función de la densidad de los transposones. Dos transposones siempre estarán disponibles con la orientación y distancia correctas entre sí para formar transposomas. Tercero, con transposones inmovilizados aleatoriamente en superficies, se crean varias distancias entre transposones, por lo tanto, solo una fracción tiene la orientación y distancia óptimas para formar transposomas eficazmente. Como consecuencia, no todos los transposones se convierten en transposomas y estarán presenten transposones que no tienen forma de complejos inmovilizados en fase sólida. Estos transposones son susceptibles como diana para transposición, ya que la parte ME es ADN bicatenario. Esto podría dar lugar a una reducción de la eficacia de la transposición o crear subproductos indeseados. Por lo tanto, los transposomas se pueden preparar en un soporte sólido, que se puede utilizar subsecuentemente para derivar información de contigüidad a través de tagmentación y secuenciación. Un esquema de ejemplo se ilustra en la Figura 15. En algunas realizaciones, los transposones se pueden inmovilizar en el soporte sólido por otros medios que no sean el acoplamiento químico. Los métodos de ejemplo de inmovilización de transposones en el soporte sólido pueden incluir, pero no se limitan a, afinidad de unión tal como estreptavidina-biotina, proteína de unión a maltosa-maltosa, antígeno-anticuerpo, hibridación ADN-ADN o ADN-ARN.

En algunas realizaciones, los transposomas se pueden ensamblar previamente e inmovilizar a continuación en un soporte sólido. En algunas realizaciones, los transposones comprenden índices únicos, códigos de barras y sitios de unión a cebador de amplificación. La transposasa se puede añadir en una disolución que comprende transposones para formar dímeros de transposomas, que se pueden inmovilizar en un soporte sólido. En una realización, se pueden generar múltiples conjuntos de perlas en los que cada conjunto tiene el mismo índice derivado de los transposones inmovilizados generando así perlas indexadas. Se puede añadir ácido nucleico diana a cada conjunto de perlas indexadas como se muestra en la Figura 29A.

En algunas realizaciones, se puede añadir ácido nucleico diana a cada conjunto de perlas indexadas, tagmentación y amplificación PCR subsecuente se pueden realizar de manera separada.

En algunas realizaciones, se puede combinar el ácido nucleico diana, perlas indexadas y transposomas en nanogotas de modo que un número de nanogotas contenga una única perla con una o más moléculas de ADN y transposomas adecuados.

En algunas realizaciones, las perlas indexadas se pueden agrupar, el ácido nucleico diana se puede añadir al grupo, tagmentar y una amplificación PCR subsecuente se puede realizar en un único compartimento de reacción ("recipiente único").

En un aspecto, la presente invención se refiere a métodos y composiciones para derivar información de contigüidad por medio de la captura de un ácido nucleico diana transpuesto, unido de manera contigua en un soporte sólido. En algunas realizaciones, la transposición conservadora de contigüidad (CPT) se lleva a cabo en el ADN, pero el ADN se mantiene intacto (CPT-ADN), produciendo así genotecas unidas de manera contigua. La información de contigüidad se puede conservar mediante el uso de transposasa para mantener la asociación de fragmentos de ácidos nucleico de molde adyacentes en el ácido nucleico diana. El CPT-ADN se puede capturar por medio de hibridación de oligonucleótidos complementarios que tienen índices o códigos de barras únicos e inmovilizados en un soporte sólido, por ejemplo, perlas (Figura 29B). En algunas realizaciones, el oligonucleótido inmovilizado en el soporte sólido puede comprender además sitios de unión a cebador, índices moleculares únicos (IMU), además de los códigos de barras.

De manera ventajosa, el uso de este tipo de transposomas para mantener la proximidad física de ácidos nucleicos fragmentados aumenta la probabilidad de que los ácidos nucleicos fragmentados a partir de la misma molécula original, por ejemplo, cromosoma, reciban la misma información única de código de barras e índice de los oligonucleótidos inmovilizados en un soporte sólido. Esto dará lugar a una genoteca de secuenciación unida de manera contigua con códigos de barras únicos. La genoteca de secuenciación unida de manera contigua se puede secuenciar para derivar información de secuencias contiguas.

Las Figuras 16 y 17 muestran representaciones esquemáticas de una realización de ejemplo del aspecto anterior de la invención de producir genotecas unidas de manera contigua con códigos de barras o índices únicos. El método de ejemplo aprovecha la fijación del CPT-ADN con los oligonucleótidos inmovilizados en el soporte sólido que comprenden índices y códigos de barras únicos y la PCR de reemplazo de cadena para generar una genoteca de secuenciación. En una realización, las perlas indexadas clonales se pueden generar con secuencias de ADN inmovilizadas tales como cebador aleatorio o específico e índice. Las genotecas unidas de manera contigua se pueden capturar en perlas indexadas clonales por medio de hibridación a los oligonucleótidos inmovilizados seguida por fijación. Ya que la captura de hibridación intramolecular es mucho más rápida que la hibridación intermolecular, las genotecas transpuestas de manera contigua se "envolverán" alrededor de la perla. Las Figuras 18 y 19 representan la captura de CPT-ADN en perlas indexadas clonales y la conservación de la información de contigüidad. La PCR de reemplazo de cadena puede transferir la información de índice de perla clonal a la molécula individual. Por lo tanto, cada genoteca unida de manera contigua se indexará de manera única.

En algunas realizaciones, el oligonucleótido inmovilizado en un soporte sólido puede comprender una estructura parcialmente bicatenaria de modo que una cadena se inmoviliza en el soporte sólido y la otra cadena es parcialmente complementaria a la cadena inmovilizada lo que da lugar a un adaptador Y. En algunas realizaciones, el adaptador Y inmovilizado en la superficie sólida se une a ADN tagmentado unido de manera contigua por medio de fijación y rellenado de huecos y se muestra en la Figura 20.

En algunas realizaciones, el adaptador Y se forma a través de captura de hibridación de CPT-ADN con la sonda/índice en el soporte sólido tal como perlas. La Figura 21 muestra un esquema de ejemplo de la fabricación de dichos adaptadores Y. El uso de estos adaptadores Y garantiza que potencialmente cada fragmento se pueda convertir en una genoteca de secuenciación. Esto aumenta la cobertura por secuenciación.

En algunas realizaciones, los transposomas libres se pueden separar del CPT-ADN. En algunas realizaciones, la separación de los transposomas libres es por medio de cromatografía por exclusión de tamaño. En una realización, la separación se puede conseguir por medio de columnas MicroSpin S-400 HR (GE Healthcare Life Sciences, Pittsburgh, Pensilvania, EE. UU.). La Figura 22 muestra una electroforesis en gel de agarosa del CPT-ADN separado de los transposomas libres.

La captura del ácido nucleico diana, transpuesto, unido de manera contigua en un soporte sólido a través de hibridación tiene varias ventajas únicas. En primer lugar, el método se basa en la hibridación y no en la transposición. Tasa de hibridación intramolecular >> tasa de hibridación intermolecular. Por lo tanto, las posibilidades de que genotecas transpuestas de manera contigua en una única molécula de ADN diana se envuelvan alrededor de una perla indexada de manera única son mucho mayores que las que tienen dos o más moléculas diferentes de ADN diana individual de envolverse alrededor de una perla indexada de manera única. En segundo lugar, la transposición de ADN y la codificación con códigos de barras del ADN transpuesto tiene lugar en dos etapas separadas. En tercer lugar, se pueden evitar los retos asociados al ensamblaje de transposomas activos en perlas y la optimización de la densidad superficial de transposones en superficies sólidas. En cuarto lugar, los productos de autotransposición se pueden eliminar por medio de purificación en columna. En quinto lugar, ya que el ADN transpuesto unido de manera contigua contiene huecos, el ADN es más flexible y, por lo tanto, pone menos carga en la densidad de transposición (tamaño del inserto) en comparación con la inmovilización de transposomas en los métodos de perlas. En sexto lugar, el método se puede utilizar con esquemas de codificación con códigos de barras combinatorios. En séptimo lugar, unir covalentemente los oligos indexados a las perlas es fácil. Por lo tanto, hay menos posibilidades de intercambio de índices. En octavo lugar, la tagmentación y subsecuente amplificación PCR se pueden multiplexar y se pueden realizar en una reacción de único compartimento de reacción ("recipiente único"), lo que elimina la necesidad de llevar a cabo reacciones individuales para cada secuencia de índice.

En algunas realizaciones, se puede insertar una pluralidad de códigos de barras únicos a lo largo del ácido nucleico diana durante la transposición. En algunas realizaciones, cada código de barras incluye una primera secuencia de códigos de barras y una segunda secuencia de códigos de barra, que tienen un sitio de fragmentación dispuesto entre las mismas. La primera secuencia de códigos de barras y la segunda secuencia de código de barras se pueden identificar o designar para que se apareen entre sí. El apareamiento puede ser informativo de modo que un primer código de barras se asocie con un segundo código de barras. De manera ventajosa, las secuencias de códigos de barras apareadas se pueden utilizar para ensamblar datos de secuenciación de la genoteca de los ácidos nucleicos de molde. Por ejemplo, identificar un primer ácido nucleico de molde que comprende una primera secuencia de códigos de barras y un segundo ácido nucleico de molde que comprende una segunda secuencia de códigos de barras que se aparea con la primera indica que el primer y el segundo ácido nucleico de molde representan secuencias adyacentes entre sí en una representación de secuencias del ácido nucleico diana. Los métodos de este tipo se pueden utilizar para ensamblar una representación de secuencias de un ácido nucleico diana de novo, sin necesidad de un genoma de referencia.

En un aspecto, la presente invención se refiere a métodos y composiciones para generar una genoteca de secuencia por perdigonada de un fragmento de ADN específico.

En una realización, las perlas indexadas clonales se generan con secuencias de oligonucleótidos inmovilizadas: cebador aleatorio o específico e índices únicos. El ácido nucleico diana se añade a las perlas indexadas clonales. En algunas realizaciones, el ácido nucleico diana es ADN. En una realización, el ADN diana es desnaturalizado. El ADN diana hibrida con cebadores que comprenden índices únicos inmovilizados en la superficie sólida (por ejemplo, perla) y, subsecuentemente, con otros cebadores con el mismo índice. Los cebadores en la perla amplifican el ADN. Se pueden llevar a cabo una o más rondas posteriores de amplificación. En una realización, la amplificación se puede llevar a cabo por medio de amplificación del genoma completo utilizando cebadores inmovilizados en perlas con una secuencia de n-unidades monoméricas aleatoria en el extremo 3'. En una realización preferida, la n-unidad monomérica aleatoria contiene bases pseudocomplementarias (2-tiotimina, 2-amino dA, N4-etil citosina, etc.) para prevenir la interacción cebador-cebador durante la amplificación (Hoshika, S; Chen, F; Leal, NA; Benner, SA, Angew. Chem. Int. Ed. 49(32) 5554-5557 (2010). La Figura 23 muestra un esquema de ejemplo para generar una genoteca de secuencia por perdigonada de un fragmento de ADN específico. Se puede generar una genoteca de secuenciación indexada clonal del producto amplificado. En una realización, una genoteca de este tipo se puede generar por medio de transposición. La información de secuencia de la genoteca indexada clonal se puede utilizar para ensamblar la información contigua utilizando la información de índice como guía. La Figura 24 muestra un esquema de ejemplo del ensamblaje de la información de secuencia a partir de la genoteca de secuenciación indexada clonal.

Los métodos de las realizaciones anteriores tienen varias ventajas. La amplificación intramolecular en una perla es mucho más rápida que la amplificación inter-perla. Por lo tanto, los productos en una perla tienen el mismo índice. Se puede crear una genoteca por perdigonada de un fragmento de ADN específico. Los cebadores aleatorios amplifican el molde en ubicaciones aleatorias y, por lo tanto, se puede generar una genoteca por perdigonada con el mismo índice a partir de una molécula específica y la información de secuencia se puede ensamblar utilizando la secuencia indexada. Una ventaja significativa de los métodos de las realizaciones anteriores es que las reacciones se pueden multiplexar en una única reacción (reacción de recipiente único) y no necesitarán utilizar muchos pocillos individuales. Muchas perlas clonales de índice se pueden preparar de modo que muchos fragmentos diferentes se puedan marcar de manera única, y los alelos parentales se pueden discriminar para las mismas regiones genómicas. Con un gran número de índices, la posibilidad de que la copia de ADN del padre y la copia de la madre reciban el mismo índice para la misma región genómica es baja. Este método aprovecha el hecho de que las reacciones intra son mucho más rápidas que las inter, las perlas básicamente generan una partición virtual en un compartimento físico más grande.

En algunas realizaciones de todos los aspectos anteriores de las invenciones, el método se puede utilizar para ADN extracelular (cfADN) en ensayos de cfADN. En algunas realizaciones, el cfADN se obtiene a partir de plasma, líquidos placentarios.

En una realización, el plasma se puede obtener a partir de sangre completa sin diluir utilizando un separador de plasma asistido por sedimentación basado en membrana (Liu et al. Anal Chem. 5 de noviembre de 2013;85(21): 10463-70). En una realización, la zona de recolección del plasma del separador de plasma puede comprender un soporte sólido que comprende transposomas. El soporte sólido que comprende transposomas puede capturar el cfADN del plasma aislado mientras se separa de la sangre completa y se puede concentrar el cfADN y/o tagmentar el ADN. En algunas realizaciones, la tagmentación introducirá además códigos de barras únicos para permitan demultiplexación subsecuente después de secuenciar el grupo de genotecas.

En algunas realizaciones, la zona de recolección del separador puede comprender una mezcla maestra de PCR (cebadores, nucleótidos, tampones, metales) y polimerasa. En una realización, la mezcla maestra puede estar en forma seca de modo que se reconstituirá a medida que el plasma salga del separador. En algunas realizaciones, los cebadores son cebadores aleatorios. En algunas realizaciones, los cebadores pueden ser cebadores específicos para un gen particular. La amplificación PCR del cfADN dará lugar a la generación de una genoteca directamente del plasma separado.

En algunas realizaciones, la zona de recolección del separador puede comprender una mezcla maestra de RT-PCR (cebadores, nucleótidos, tampones, metales) transcriptasa inversa y polimerasa. En algunas realizaciones, los cebadores son cebadores aleatorios o cebadores de oligo dT. En algunas realizaciones, los cebadores pueden ser cebadores específicos para un gen particular. El ADNc resultante se puede utilizar para secuenciación. De manera alternativa, el ADNc se puede tratar con transposomas inmovilizados en un soporte sólido para la preparación de la genoteca de secuencia.

En algunas realizaciones, el separador de plasma puede comprender códigos de barras (códigos de barras 1D o 2D). En algunas realizaciones, el dispositivo de separación puede comprender un dispositivo de recolección de sangre. Esto daría lugar al suministro directo de sangre al separador de plasma y al dispositivo de preparación de genoteca. En algunas realizaciones, el dispositivo puede comprender un analizador de secuencias en dirección 3'. En algunas realizaciones, el analizador de secuencias es un analizador de un solo uso. En algunas realizaciones, el secuenciador es capaz de colocar en filas las muestras antes de secuenciar en una tanda. De manera alternativa, el secuenciador puede tener capacidad de acceso aleatorio, donde las muestras se suministran a su área de secuenciación.

En algunas realizaciones, la zona de recolección para el plasma puede comprender sustratos de sílice, de modo que el ADN extracelular se concentra.

Separación de fases y detección de metilación simultáneas

La 5-metil citosina (5-Me-C) y la 5-hidroximetil citosina (5-hidroxi-C), también conocidas como modificaciones epi, desempeñan un importante papel en el metabolismo celular, diferenciación y desarrollo del cáncer. Los autores de la presente solicitud han descubierto sorprendente e inesperadamente que la separación de fases y la detección de metilación simultánea son posibles utilizando los métodos y composiciones de la presente solicitud. Los presentes métodos permitirán combinar CPT-seq en perlas (genotecas unidas de contigüidad indexadas) con detección de metilación de ADN. Por ejemplo, las genotecas individuales generadas en perlas se pueden tratar con bisulfito, lo que convierte C no metiladas, pero no metila C a U, lo que permite la detección de 5-Me-C. A través de análisis de separación de fases adicional utilizando SNP heterocigotos, se pueden establecer bloques de epi-medicaciónseparación de fases en un intervalo de multi megabase.

En algunas realizaciones, el tamaño del ADN analizado puede ser entre aproximadamente cien bases a aproximadamente multi mega bases. En algunas realizaciones, el tamaño del ADN analizado puede ser aproximadamente 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1200, 1300, 1500, 2000, 3000, 3500, 4000, 4500, 5000, 5500, 6000, 6500, 7000, 7.500, 8000, 8500, 9000, 9500, 10.000, 10.500, 11.000, 11.500, 12.000, 12.500, 13.000, 14.000, 14.500, 15.000, 15.500, 16.000, 16.500, 17.000, 17.500, 18.000, 18.500, 19.000, 19.500, 20.000, 20.500, 21.000, 21.500, 22.000, 22.500, 23.000, 23.500, 24.000, 24.500, 25.000, 25.500, 26.000, 26.500, 27.000, 27.500, 28.000, 28.500, 29.500, 30.000, 30.500, 31.000, 31.500, 32.000, 33.000, 34.000, 35.000, 36.000, 37.000, 38.000, 39.000, 40.000, 42.000, 45.000, 50.000, 55.000, 60.000, 65.000, 70.000, 75.000, 80.000, 85.000, 90.000, 95.000, 100.000, 110.000, 120.000, 130.000, 140.000, 150.000, 160.000, 170.000, 180.000, 200.000, 225.000, 250.000, 300.000, 350.000, 400.000, 450.000, 500.000, 550.000, 600.000, 650.000, 700.000, 750.000, 800.000, 850.000, 900.000, 1.000.000, 1.250.000, 1.500.000, 2.000.000, 2.500.000, 3.000.000, 4.000.000, 5.000. 000, 6.000.000, 7.000.000, 8.000.000, 9.000.000, 10.000.000, 15.000.000, 20.000.000, 30.000.000, 40.000. 000, 50.000.000, 75.000.000, 100.000.000 o más bases.

Otras modificaciones epi como 5-hidroxi-C, productos de oxidación de ADN, productos de alquilación de ADN, huella de histona, etc. se pueden analizar también en el contexto de la separación de fases utilizando los métodos y composiciones descritos de la presente solicitud.

En algunas realizaciones, el ADN se transforma primero en genotecas unidas indexadas en un soporte sólido. Las genotecas indexadas individuales, mucho más pequeñas que el ADN original, son menos propensas a la fragmentación, ya que las genotecas individuales son más pequeñas. Incluso si se pierde una pequeña fracción de genotecas indexadas, la información de la separación de fases permanece todavía a través de la larga extensión de la molécula de ADN indexada. Por ejemplo, si se fragmenta una molécula de 100 kb en conversión de bisulfito (BSC) tradicional a la mitad, la contigüidad se restringe ahora a 50 kb. En los métodos descritos en la presente memoria, una genoteca de 100 kb se indexa primero e, incluso, si se pierde una fracción de las genotecas individuales, la contigüidad permanece a ~100 kb (excepto en el caso poco probable de que todas las genotecas perdidas sean de un extremo de la molécula de ADN). También, los métodos descritos en la presente solicitud tienen una ventaja adicional porque no requieren etapas adicionales de purificación, al contrario que las requeridas en los planteamientos de conversión de bisulfito tradicionales, mejorando así el rendimiento. En los métodos de la presente solicitud, las perlas se lavan simplemente después de la conversión de bisulfito. Además, ya que el ADN se une a una fase sólida, los intercambios de tampones se pueden realizar fácilmente con una pérdida mínima de ADN (genotecas indexadas) y con tiempo de trabajo reducido.

El esquema de ejemplo de separación de fases y detección de metilación simultáneas se muestra en la Figura 43. El flujo de trabajo consiste en tagmentación de ADN en perlas, fijar el rellenado de huecos de las regiones repetidas de 9 pb, eliminar Tn5 con SDS y conversión de bisulfito de genotecas individuales en las perlas. La conversión de bisulfito se realiza en condiciones de desnaturalización para garantizar que las genotecas complementarias adyacentes no se vuelven a hibridar, reduciendo así la eficacia de la conversión de bisulfito. La BSC convierte C no metiladas en U y las C metiladas no se convierten.

La Figura 44 muestra un esquema de ejemplo alternativo de separación de fases y detección de metilación simultáneas. Tras preparar las genotecas de secuenciación después de la transposición, una fracción de genotecas fijadas con relleno de huecos se degradan para preparar moldes monocatenarios. Los moldes monocatenarios necesitan condiciones más suaves para la conversión de bisulfito, ya que los ya son monocatenarios, lo que podría reducir la pérdida de genotecas o mejorar la eficacia de la conversión de bisulfito. En una realización, se utilizan una mezcla de transposones tio-protegidos en el extremo 3' (resistentes a Exo) y transposones no protegidos en la misma perla. Las enzimas, por ejemplo, Exo I, se pueden utilizar para digerir las genotecas no tio-protegidas, lo que las convierte en genotecas monocatenarias. Utilizando una mezcla de 50:50 de transposones tio-protegidos: transposones no protegidos, un 50 % de las genotecas se convertirá en genotecas monocatenarias (un 50 % tiene un transposón de la genoteca protegido y uno, la cadena de complemento, no está protegido), un 25 % no se convertirá (ambos transposones son tio protegidos) y un 25 % se convierten ambos al eliminar la genoteca completa. (Ambos transposones no están protegidos).

Un reto de realizar la conversión de bisulfito de ADN unido a una fase sólida, tal como perlas magnéticas de estreptavidina, es que el tratamiento prolongado de ADN unido a perlas con bisulfito de sodio a altas temperaturas daña tanto el ADN como las perlas. Para ayudar a mejorar el daño del ADN, el ADN transportador (es decir, ADN lambda) se añade a la mezcla de reacción antes del tratamiento con bisulfito. Incluso en presencia de ADN transportador, se ha estimado que aproximadamente un 80 % del ADN inicial se pierde. Como resultado, los bloques de contigüidad CPTSeq tienen menos miembros que los del protocolo CPTSeq tradicional.

Por lo tanto, en la presente memoria, se proponen varias estrategias para mejorar el rendimiento de ADN del protocolo Epi-CPTSeq. La primera estrategia se basa en disminuir el tamaño del inserto de la genoteca al poblar más densamente los complejos de transposomas en las perlas de estreptavidina. Al disminuir el tamaño de la genoteca, una proporción más pequeña de los elementos de la genoteca se degrada por el tratamiento con bisulfito.

La segunda estrategia para mejorar el rendimiento de ADN del protocolo Epi-CPTSeq es la recuperación enzimática de los elementos rotos de la genoteca. El fin de la estrategia de recuperación es añadir la secuencia común en el extremo 3' necesaria para la amplificación de la genoteca de vuelta a los elementos de la genoteca unidos a la perla que se digirieron y perdieron su porción en el extremo 3' durante el tratamiento con bisulfito Después de añadir la secuencia común en el extremo 3', estos elementos se pueden amplificar ahora por PCR y secuenciarse. Las Figuras 67 y 68 muestran un esquema de ejemplo de esta estrategia. Los elementos de la genoteca de CPTSeq bicatenaria se han desnaturalizado y convertido con bisulfito (panel superior). Durante la conversión de bisulfito, una de las cadenas de ADN se ha dañado (panel central), lo que da lugar a la pérdida de la secuencia común de PCR en el extremo 3'. Las estrategias de recuperación de moldes restauran la secuencia común en el extremo 3' (verde) necesaria para la amplificación PCR (panel inferior). En un ejemplo, se utilizan transferasa terminal en presencia de un oligo atenuador fosforilado en el extremo 3', una secuencia que contiene un adaptador de secuenciación seguido por un tramo de oligo dT (Figura 68A). En síntesis, TdT añade un tramo de entre 10 a 15 dA al extremo 3' de un elemento roto de la genoteca, que hibrida a la porción del oligo dT del oligo atenuador. La formación de este híbrido de ADN detiene la reacción de TdT y proporciona un molde para la consecuente extensión del extremo 3' de un elemento roto de la genoteca por medio de ADN polimerasa.

En un flujo de trabajo alternativo (Figura 68B), la reacción de adición de una cola de TdT se realiza en presencia de un oligo atenuador parcialmente bicatenario, que contiene una porción de oligo dT monocatenario y una porción de adaptador de secuenciación bicatenario fosforilado en el extremo 5'. Tras la terminación de la reacción de TdT, la muesca entre la última dA añadida y el oligo atenuador fosforilado en el extremo 5' se sella por medio de ADN ligasa.

Ambos flujos de trabajo descritos dependen de una reacción de adición de una cola de TdT desarrollada recientemente y descrita en la solicitud de patente estadounidense n.° 20150087027. También se puede añadir un adaptador de secuenciación común al extremo 3' de los elementos rotos de la genoteca por medio de una actividad de cambio de molde de ADN monocatenario introducido recientemente de transcriptasa inversa de VLMM. En resumen, transcriptasa inversa de VLMM y un oligo de cambio de molde (oligo_TS) se añaden al ADN dañado (Figura 68C). En la primera etapa de esta reacción, la transcriptasa inversa añade unos pocos nucleótidos adicionales a los extremos 3' de un fragmento de ADN monocatenario, y estos pares de bases con una secuencia de oligo (N) presentada en el extremo 3' de uno de los oligos_TS. A continuación, una actividad de cambio de molde de transcriptasa inversa añade las secuencias de los cebadores comunes hibridados al extremo 3' del elemento roto de la genoteca de BSC, lo que restaura su capacidad de amplificarse en PCR con cebadores de secuenciación comunes.

Como parte de la tercera estrategia, se puede utilizar un método de construcción de genoteca "post-conversión de bisulfito" de un kit EpiGenome de Epicentre para rescatar los elementos de la genoteca que perdieron sus secuencias comunes en el extremo 3' durante la conversión de bisulfito. Como se muestra en la Figura 69, este método de rescate de genoteca utiliza oligos fosforilados en el extremo 3' con secuencias comunes seguidas por un tramo corto de secuencia aleatoria. Estas secuencias aleatorias cortas hibridan al ADN monocatenario tratado con bisulfito y las secuencias comunes se copian subsecuentemente a la cadena rota de genoteca por medio de ADN polimerasa.

La Figura 74 muestra la cuarta estrategia para mejorar los métodos de secuenciación con bisulfito en perlas. Una primera secuencia común que comprende un marcador de captura se une covalentemente a los extremos 5' del ADN. La primera secuencia común se puede unir al ADN utilizando varios métodos, que incluyen transposición unilateral (como se muestra), fijación de adaptador o fijación de adaptador de transferasa terminal (TdT) como se describe en la publicación de solicitud de patente estadounidense n.° 20150087027.

Después, el ADN se desnaturaliza (por ejemplo, incubación a alta temperatura) y se une a un soporte sólido. Si se utiliza biotina como marcador de captura en CS1, por ejemplo, el ADN se puede unir usando perlas magnéticas de estreptavidina (como se muestra). Una vez que se ha unido al soporte sólido, los intercambios de tampones se pueden realizar fácilmente.

En la siguiente etapa, se realiza la conversión de bisulfito de ADN monocatenario. En forma monocatenaria, el ADN debería ser accesible fácilmente para la conversión de bisulfito; se han observado unos rendimientos de la conversión de hasta un 95% utilizando una versión modificada del kit de BSC Methyl Edge de Promega (Figura 75). Después de la conversión de bisulfito, una segunda secuencia común se une covalentemente al extremo 3' del ADN monocatenario unido al soporte sólido. Se han descrito varios métodos sobre la unión covalente de oligos al ADN monocatenario. Utilizando el método de fijación de atenuador/adaptador de TdT, se han logrado rendimientos de fijación de > 95 %. Como resultado, los rendimientos finales de genoteca utilizando el flujo de trabajo propuesto de MethylSeq deberían ser mayores que los métodos existentes.

En la etapa final, se realiza PCR para amplificar la genoteca y eliminarla del soporte sólido. Los cebadores de PCR se pueden diseñar para añadir secuencias comunes adicionales, tales como adaptadores de secuenciación, a los extremos de la biblioteca de MethylSeq.

Preparación de genotecas de diferentes tamaños en un ensayo único

La precisión del ensamblaje de los genomas depende del uso de tecnologías de diferentes escalas de longitud. Por ejemplo, por perdigonada (100 de pb) - matepair (~3 kb) a -Hi-C (escala mb) son todos métodos que mejoran secuencialmente los ensamblajes y longitudes de cóntigos. El reto es que se requieren múltiples ensayos para lograr esto, lo que hace que el planteamiento multicapa sea engorroso y costoso. Las composiciones y métodos descritos en la presente memoria se pueden dirigir a múltiples escalas de longitud en un único ensayo.

En algunas realizaciones, la preparación de genotecas se puede conseguir en un único ensayo utilizando un soporte sólido de tamaño diferencial, por ejemplo, perlas. Cada tamaño de perla generará un tamaño específico de genoteca o intervalo de tamaños, con el tamaño físico de la perla que determina el tamaño de la genoteca. Las perlas de diferentes tamaños tienen todas índices clonales únicos que se transfieren a la genoteca. De modo que se generan genotecas de diferentes tamaños con cada escala diferente de longitud de genoteca indexada de manera única. Las genotecas de varias escalas de longitud se preparan simultáneamente en el mismo compartimento físico, lo que reduce los costes y mejora el flujo de trabajo global. En algunas realizaciones, cada tamaño específico de soporte sólido, por ejemplo, tamaño de perla, recibe un único índice. En algunas otras realizaciones, se preparan también múltiples índices diferentes del mismo tamaño de soporte sólido, por ejemplo, tamaño de perla, de modo que se pueden dividir múltiples moléculas de ADN por índices para ese intervalo de tamaños. La Figura 45 muestra un esquema de ejemplo para generar genotecas de varios tamaños utilizando perlas indexadas clonalmente de varios tamaños en un único ensayo.

En algunas realizaciones, el tamaño de las genotecas generadas puede ser aproximadamente 50, 75, 100, 150, 200, 250, 300, 350, 400, 500, 600, 700, 800, 900, 1000, 1200, 1300, 1500, 2000, 3000, 3500, 4000, 4500, 5000, 5500, 6000, 6500, 7000, 7,500, 8000, 8500, 9000, 9500, 10.000, 10.500, 11.000, 11.500, 12.000, 12.500, 13.000, 14.000, 14.500, 15.000, 15.500, 16.000, 16.500, 17.000, 17.500, 18.000, 18.500, 19.000, 19.500, 20.000, 20.500, 21.000, 21.500, 22.000, 22.500, 23.000, 23.500, 24.000, 24.500, 25.000, 25.500, 26.000, 26.500, 27.000, 27.500, 28.000, 28.500, 29.500, 30.000, 30.500, 31.000, 31.500, 32.000, 33.000, 34.000, 35.000, 36.000, 37.000, 38.000, 39.000, 40.000, 42.000, 45.000, 50.000, 55.000, 60.000, 65.000, 70.000, 75.000, 80.000, 85.000, 90.000, 95.000, 100.000, 110.000, 120.000, 130.000, 140.000, 150.000, 160.000, 170.000, 180.000, 200.000, 225.000, 250.000, 300.000, 350.000, 400.000, 450.000, 500.000, 550.000, 600.000, 650.000, 700.000, 750.000, 800.000, 850.000, 900.000, 1.000. 000, 1.250.000, 1.500.000, 2.000.000, 2.500.000, 3.000.000, 4.000.000, 5.000.000, 6.000.000, 7.000.000, 8.000. 000, 9.000.000, 10.000.000, 15.000.000, 20.000.000, 30.000.000, 40.000.000, 50.000.000, 75.000.000, 100.000. 000,o más bases.

En algunas realizaciones, se pueden utilizar las genotecas de múltiples escalas de longitud discutidas anteriormente en el ensamblaje de pseudogenes, parálogos, etc., en lugar de tener una escala de gran longitud. En algunas realizaciones, las genotecas de múltiples escalas de longitud se preparan simultáneamente en un único ensayo. La ventaja es que al menos una escala de longitud se unirá a una región única con solo el pseudogén y o gen, pero no ambos. De modo que las variantes detectadas con esta escala de longitud pueden asignar únicamente la variante al gen o al pseudogén. Lo mismo es válido para las variantes de número de copias, parálogos, etc. La fuerza del ensamblaje es el uso de diferentes escalas de longitud. Utilizando los métodos descritos en la presente memoria, se pueden generar genotecas unidas indexadas de diferentes escalas de longitud en un único ensayo en lugar de diferentes preparaciones individuales de genotecas para diferentes escalas de longitud. La Figura 46 muestra un esquema de ejemplo para determinar variantes genéticas con genotecas de diferentes escalas de longitud.

Análisis de variantes genómicas

Las composiciones y métodos descritos en la presente memoria se refieren al análisis de variantes genómicas. Las variantes genómicas de ejemplo incluyen, pero no se limitan a, deleciones, translocaciones intercromosómicas, duplicaciones, parálogos y fusiones de genes intercromosómicas. En algunas realizaciones, las composiciones y métodos descritos en la presente memoria se refieren a determinar la información de separación de fases de las variantes genómicas. La siguiente tabla muestra fusiones de genes intercromosómicas de ejemplo.

Tabla 1: Fusiones de genes intercromosomales

Intercromosomal

La tabla 2 muestra deleciones de ejemplo en el cromosoma 1,

En algunas realizaciones, el ácido nucleico diana se puede fragmentar antes de exponerlo a los transposomas. Los métodos de fragmentación de ejemplo incluyen, pero no se limitan a, someter a sonicación, cizallamiento mecánico y digestión de restricción. La fragmentación del ácido nucleico diana antes de la tagmentación (fragmentación y marcado) es ventajosa para el ensamblaje/separación de fases de pseudogenes (por ejemplo, CYP2D6). Las islas largas (> 30 kb) de lecturas unidas indexadas abarcarán los pseudogenes A y A' como se muestra en la Figura 64. Debido a la alta homología de secuencia, será difícil determinar qué variante pertenece al Gen A y Gen A'. Las variantes más cortas se unirán a una variante de los pseudogenes con secuencias circundantes únicas. Las islas más cortas de este tipo se pueden conseguir al fragmentar el ácido nucleico diana antes de la tagmentación.

Transposomas unidos

En algunas realizaciones, las transposasas son multiméricas en un complejo de transposomas, por ejemplo, forman dímeros, tetrámeros, etc., en un complejo de transposomas. Los autores de la presente solicitud han descubierto sorprendente e inesperadamente que la unión de las transposasas monoméricas en complejos multiméricos de transposomas o la unión de extremos de transposones de un monómero de transposoma en un complejo multimérico de transposomas tiene varias ventajas. En primer lugar, la unión de las transposasas o de los transposones da lugar a los complejos que son más estables y una gran fracción está en un estado activo. En segundo lugar, las concentraciones inferiores de transposomas se pueden utilizar potencialmente en la fragmentación por medio de reacción de transposición. En tercer lugar, la unión da lugar a un menor intercambio de los extremos mosaico (ME) de los complejos de transposomas, por lo tanto, a una mezcla menor de códigos de barras o moléculas adaptadoras. Un intercambio de este tipo de extremos ME es posible si los complejos se rompen y reforman, o en el caso en el que los transposomas se inmovilizan sobre un soporte sólido por medio de estreptavidina/biotina, la interacción de estreptavidina/biotina puede romper y reformar, o cuando existe una posible contaminación. Los autores de la presente solicitud han señalado que existe un cambio o intercambio significativo de extremos ME en varias condiciones de reacción. En algunas realizaciones, el intercambio puede ser tan alto como un 15 %. El intercambio es pronunciado en tampón con alto contenido en sal y el intercambio se reduce en tampón de glutamato. Las Figuras 57 y 58 muestran algunos mecanismos posibles de intercambio de ME.

En algunas realizaciones, las subunidades de transposasa en el complejo de transposomas se pueden unir entre sí por medio de medios covalentes y no covalentes. En algunas realizaciones, los monómeros de transposasa se pueden unir antes de la producción del complejo de transposomas (antes de la adición de los transposones). En algunas realizaciones, los monómeros de transposasa se pueden unir después de la formación de los transposomas.

En algunas realizaciones, los residuos naturales de aminoácidos se pueden sustituir con aminoácidos cisteína (Cys) en la interfaz multimérica para promover la formación de enlace disulfuro. Por ejemplo, en la transposasa Tn5, Asp468, Tyr407, Asp461, Lys459, Ser458, Gly462, Ala466, Met470 se pueden sustituir con Cys para promover un enlace disulfuro entre las subunidades monoméricas y se muestra en las Figuras 59 y 60. Para la transposasa Mos-1, los aminoácidos de ejemplo que se pueden sustituir con cisteína incluyen, pero no se limitan a, Leu21, Leu32, Ala35, His20, Phe17, Phe36, Ile16, Thr13, Arg12, Gln10, Glu9 y se muestran en la Figura 61. En algunas realizaciones, la transposasa modificada con residuos de aminoácidos sustituidos con cisteína se pueden reticular químicamente entre sí utilizando un agente reticulante químico utilizando los grupos reactivos maleimida o piridilditiol. Los agentes reticulantes químicos de ejemplo están disponibles comercialmente de Pierce Protein Biology/ThermoFisher Scientific (Grand Island, Nueva York, EE. UU.).

En algunas realizaciones, los complejos multiméricos de transposomas se pueden unir covalentemente a un soporte sólido. Los soportes sólidos de ejemplo incluyen, pero no se limitan a, nanopartículas, perlas, superficies de cubetas de lectura, matrices de columnas. En algunas realizaciones, las superficies sólidas se pueden recubrir con grupos amina. La transposasa modificada con residuos de aminoácidos sustituidos con cisteína se puede reticular químicamente a grupos amina de este tipo utilizando un agente reticulante amina a sulfhidrilo (es decir, succinimidil-4-(N-maleimidometil)ciclohexano-1-carboxilato (SMCC)). El esquema de ejemplo se ilustra en la Figura 62. En algunas realizaciones, un agente reticulante de maleimida-PEG-biotina se puede utilizar para acoplar dTnp a una superficie sólida recubierta con estreptavidina.

En algunas realizaciones, el gen de la transposasa se puede modificar para expresar una proteína multimérica en un único polipéptido. Por ejemplo, los genes Tn5 y Mos-1 se pueden modificar para expresar dos proteínas Tn5 o Mos-1 en un único polipéptido. De manera similar, el gen de transposasa Mu se puede modificar para codificar cuatro unidades de transposasa mu en un único polipéptido.

En algunas realizaciones, los extremos de transposones de una unidad monomérica de transposoma se pueden unir para formar un complejo multimérico de transposomas unidos. La unión de los extremos de transposones permite la inserción de sitios de cebadores, cebadores de secuenciación, cebadores de amplificación o cualquier papel que pueda desempeñar el ADN en ADNg sin fragmentar el ADN diana. La inserción de una funcionalidad de este tipo supone ventajas en los ensayos de haplotipificación o ensayos de marcado de uniones en los que se necesita que la información se extraiga de moléculas intactas o en los que el submuestreo es importante. En algunas realizaciones, los extremos de transposones de transposomas Mu se pueden unir a una configuración de transposasa/transposón Mu "en bucle". Ya que Mu es un tetrámero, son posibles varias configuraciones, pero no se limitan a, unir R2UJ y/o R1UJ con R2J y/o R1J. En estas configuraciones, R2UJ y R1UJ pueden estar /no están conectados con R2J y R1J, respectivamente. La Figura 63 muestra un complejo de transposomas Mu donde los extremos de transposones se unen. En algunas realizaciones, se pueden unir los extremos de transposones de Tn5 o extremos de transposones de transposomas Mos-1.

Tal como se utiliza en la presente memoria, el término "transposón" significa un ADN bicatenario que exhibe solo las secuencias de nucleótidos (las "secuencias de extremos de transposones") que son necesarias para formar el complejo con la transposasa o enzima integrasa que es funcional en una reacción de transposición in vitro. Un transposón forma un "complejo" o un "complejo sináptico" o un "complejo de transposomas" o una "composición de transposomas" con una transposasa o integrasa que reconoce y se une al transposón, y cuyo complejo es capaz de insertar o transponer el transposón en ADN diana con el que se incuba en una reacción de transposición in vitro. Un transposón exhibe dos secuencias complementarias que consisten en una "secuencia de transposones transferida" o "cadena transferida" y una "secuencia de transposones no transferida" o "cadena no transferida". Por ejemplo, un transposón que forma un complejo con una transposasa Tn5 hiperactiva (por ejemplo, Transposasa EZ-Tn5™, Epicentre Biotechnologies, Madison, Wisconsin, EE. UU.) que está activa en una reacción de transposición in vitro comprende una cadena transferida que exhibe una "secuencia de transposones transferida" como sigue:

5' AGATGTGTATAAGAGACAG 3'

y una cadena no transferida que exhibe una "secuencia de transposones no transferida" como sigue:

5' CTGTCT CTTATACACATCT 3'.

El extremo 3' de una cadena transferida se une o se transfiere a un ADN diana en una reacción de transposición in vitro. La cadena no transferida, que exhibe una secuencia de transposones que es complementaria a la secuencia de extremos de transposones transferida, no se une o transfiere al ADN diana en una reacción de transposición in vitro. En algunas realizaciones, las secuencias de transposones pueden comprender uno o más de lo siguiente: un código de barras, una secuencia de adaptadores, una secuencia de marcadores, una secuencia de unión a cebador, una secuencia de captura, una secuencia de identificadores moleculares únicos (IMU).

Tal como se utiliza en la presente memoria, el término "adaptador" significa una secuencia de ácidos nucleicos que puede comprender un código de barras, una secuencia de unión a cebador, una secuencia de captura, una secuencia complementaria a una secuencia de captura, una secuencia de identificadores moleculares únicos (IMU), un resto de afinidad, un sitio de restricción.

Tal como se utiliza en la presente memoria, la expresión "información de contigüidad" se refiere a una relación espacial entre dos o más fragmentos de ADN basada en información compartida. El aspecto compartido de la información puede ser con respecto a relaciones espaciales adyacentes, compartimentales y de distancia. La información con respecto a estas relaciones a su vez facilita el ensamblaje jerárquico o mapeo de lecturas de secuencias derivadas de los fragmentos de ADN. Esta información de contigüidad mejora la eficacia y precisión de un ensamblaje o mapeo de este tipo porque los métodos de ensamblaje o mapeo tradicionales utilizados conjuntamente con secuenciación por perdigonada convencional no tienen en cuenta los orígenes genómicos relativos o las coordenadas de las lecturas de secuencias individuales, ya que se refieren a la relación espacial entre los dos o más fragmentos de ADN de los que derivan las lecturas de secuencias individuales. Por lo tanto, según las realizaciones descritas en la presente memoria, los métodos para capturar información de contigüidad se pueden conseguir por medio de métodos de contigüidad de alcance corto para determinar relaciones espaciales adyacentes, métodos de contigüidad de alcance intermedio para determinar relaciones espaciales compartimentales, o métodos de contigüidad de alcance largo para determinar relaciones espaciales de distancia. Estos métodos facilitan la precisión y calidad del ensamblaje o mapeo de secuencias de ADN, y se puede utilizar con cualquier método de secuenciación, tal como los descritos anteriormente.

La información de contigüidad incluye los orígenes genómicos relativos o coordenadas de las lecturas de secuencias individuales, ya que se refieren a la relación espacial entre los dos o más fragmentos de ADN de los que derivan las lecturas de secuencias individuales. En algunas realizaciones, la información de contigüidad incluye la información de secuencia de lecturas de secuencias no solapadas.

En algunas realizaciones, la información de contigüidad de una secuencia de ácidos nucleicos diana es indicativo de información de haplotipo. En algunas realizaciones, la información de contigüidad de una secuencia de ácidos nucleicos diana es indicativa de variantes genómicas.

Tal como se utiliza en la presente memoria, la expresión "mantener la contigüidad del ácido nucleico diana" en el contexto de fragmentar un ácido nucleico significa mantener el orden de la secuencia de ácidos nucleicos de los fragmentos del mismo ácido nucleico diana.

Tal como se utiliza en la presente memoria, la expresión "al menos una porción" y/o los equivalentes gramaticales de la misma se puede referir a cualquier fracción de una cantidad entera. Por ejemplo, "al menos una porción" se puede referir a al menos aproximadamente un 1 %, 2 %, 3 %, 4 %, 5 %, 6 %, 7 %, 8 %, 9 %, 10 %, 15 %, 20 %, 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 %, 99 %, 99,9 % o 100 % de una cantidad entera.

Tal como se utiliza en la presente memoria, el término "aproximadamente" significa /- 10 %.

Tal como se utiliza en la presente memoria, la expresión "lectura de secuenciación" y/o los equivalentes gramaticales de la misma se puede referir a un proceso repetitivo de etapas físicas o químicas que se lleva a cabo para obtener señales indicativas del orden de los monómeros en un polímero. Las señales pueden ser indicativas de un orden de monómeros en una resolución de un solo monómero o una resolución menor. En realizaciones particulares, las etapas se pueden iniciar en un ácido nucleico diana y llevar a cabo para obtener señales indicativas del orden de las bases en el ácido nucleico diana. El proceso se puede llevar a cabo hasta su compleción típica, que se define normalmente por el punto en el que las señales del proceso ya no pueden distinguir las bases de la diana con un nivel razonable de certeza. Si se desea, la compleción se puede producir antes, por ejemplo, una vez que se ha obtenido una cantidad deseada de información de secuencia. Una lectura de secuenciación se puede llevar a cabo en una única molécula de ácido nucleico diana o simultáneamente en una población de moléculas de ácido nucleico diana que tienen la misma secuencia, o simultáneamente en una población de ácidos nucleicos diana que tienen secuencias diferentes. En algunas realizaciones, una lectura de secuencia se termina cuando ya no se obtienen señales de una o más moléculas de ácido nucleico diana a partir de las cuales se inició la adquisición de señales. Por ejemplo, una lectura de secuenciación se puede iniciar para una o más moléculas de ácido nucleico diana que están presentes en un sustrato de fase sólida y terminar tras la eliminación de la una o más moléculas del ácido nucleico diana del sustrato. Por el contrario, la secuenciación se puede terminar al parar la detección de los ácidos nucleicos diana que están presentes en el sustrato cuando se inicia la secuenciación. Los métodos de ejemplo de secuenciación se describen en la patente estadounidense n.° 9.029.103.

Tal como se utiliza en la presente memoria, la expresión "representación de secuenciación" y/o los equivalentes gramaticales de la misma se puede referir a la información que significa el orden y tipo de las unidades monoméricas en el polímero. Por ejemplo, la información puede indicar el orden y tipo de nucleótidos en un ácido nucleico. La información puede estar en cualquiera de una variedad de formatos que incluye, por ejemplo, una representación, imagen, medio electrónico, serie de símbolos, serie de números, serie de letras, serie de colores, etc. La información puede estar en una resolución de un solo monómero o en una resolución menor. Un polímero de ejemplo es un ácido nucleico, tal como ADN o ARN, que tiene unidades de nucleótidos. Una serie de letras "A", "T", "G" y "C" es una representación de una secuencia conocida para ADN que se puede correlacionar, en una resolución de un solo nucleótido, con la secuencia real de una molécula de ADN. Otros polímeros de ejemplo son proteínas que tienen unidades de aminoácidos y polisacáridos que tienen unidades de sacáridos.

Soporte sólido

A lo largo de esta solicitud, se utilizan indistintamente soporte sólido y superficie sólida. En algunas realizaciones, el soporte sólido o su superficie no es plana, tal como la superficie interior o exterior de un tubo o recipiente. En algunas realizaciones, el soporte sólido comprende microesferas o perlas. "Microesferas" o "perlas" o "partículas" o los equivalentes gramaticales de la presente memoria significan pequeñas partículas discretas. Las composiciones adecuadas de perlas incluyen, pero no se limitan a, plástico, cerámica, vidrio, poliestireno, metilestireno, polímeros acrílicos, materiales paramagnéticos, disolución de toria, carbono grafito, dióxido de titanio, látex o dextranos reticulados tales como Sepharose, celulosa, nailon, micelas reticuladas y teflón, al igual que se puede utilizar cualquier otro material descrito en la presente memoria para soportes sólidos. La "Microsphere Detection Guide" de Bangs Laboratories, Fishers Ind. es una guía útil. En ciertas realizaciones, las microesferas son microesferas magnéticas o perlas. En algunas realizaciones, las perlas se pueden codificar por colores. Por ejemplo, se pueden utilizar microesferas MicroPlex® de Luminex, Austin, Texas, EE. UU.

Las perlas no necesitan ser esféricas; se pueden utilizar partículas irregulares. De manera alternativa o adicional, las perlas pueden ser porosas. El tamaño de las perlas oscila de entre nanómetros, es decir, aproximadamente 10 nm, a milímetros de diámetro, es decir, 1 mm, con perlas de entre aproximadamente 0,2 micrones a aproximadamente 200 micrones como preferidas, y de entre aproximadamente 0,5 a aproximadamente 5 micrones como particularmente preferidas, aunque, en algunas realizaciones, se pueden utilizar perlas más pequeñas o más grandes. En algunas realizaciones, las perlas pueden tener 0,1,0,2, 0,3, 0,4, 0,5. 0,6, 0,7, 0,8, 0,9, 1, 1,5, 2, 2,5, 2,8, 3, 3,5, 4, 4,5, 5, 5,5, 6, 6,5, 7, 7,5, 8, 8,5, 9, 9,5, 10, 10,5, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 150 o 200 pm de diámetro.

Transposomas

Un "transposoma" comprende una enzima de integración tal como una integrasa o transposasa y un ácido nucleico que comprende un sitio de reconocimiento de integración, tal como un sitio de reconocimiento de transposasa. En algunas realizaciones proporcionadas en la presente memoria, la transposasa puede formar un complejo funcional con un sitio de reconocimiento de transposasa que es capaz de catalizar una reacción de transposición. La transposasa se puede unir al sitio de reconocimiento de transposasa e insertar el sitio de reconocimiento de transposasa en un ácido nucleico diana en un proceso denominado a veces como "tagmentación". En los casos de inserción de este tipo, una cadena del sitio de reconocimiento de transposasa se puede transferir al ácido nucleico diana. En un ejemplo, un transposoma comprende una transposasa dimérica que comprende dos subunidades y dos secuencias de transposones no contiguas. En otro ejemplo, un transposoma comprende una transposasa que comprende una transposasa dimérica que comprende dos subunidades y una secuencia de transposones contigua.

Algunas realizaciones pueden incluir el uso de una transposasa Tn5 hiperactiva y un sitio de reconocimiento de transposasa tipo Tn5 (Goryshin y Reznikoff, J. Biol. Chem., 273:7367 (1998)), o transposasa MuA y un sitio de reconocimiento de transposasa Mu que comprende secuencias de extremo R1 y R2 (Mizuuchi, K., Cell, 35: 785, 1983; Savilahti, H, et al., EMBO J., 14: 4893, 1995). Un sitio de reconocimiento de transposasa de ejemplo que forma un complejo con una transposasa Tn5 hiperactiva (por ejemplo, transposasa EZ-Tn5™, Epicentre Biotechnologies, Madison, Wisconsin, EE. UU.) comprende la siguiente cadena transferida 19b (a veces, "M" o "ME") y cadenas no transferidas: 5' AGATGTGTATAAGAGACAG 3', 5' CTGTCTCTTATACACATCT 3', respectivamente. Las secuencias ME se pueden utilizar también tal como la optimiza un experto en la técnica.

Más ejemplos de sistemas de transposición que se pueden utilizar con ciertas realizaciones de las composiciones y métodos proporcionados en la presente memoria incluyen Staphylococcus aureus Tn552 (Colegio et al., J. Bacteriol., 183: 2384-8, 2001; Kirby C et al., Mol. Microbiol., 43: 173-86, 2002), Ty1 (Devine y Boeke, Nucleic Acids Res., 22: 3765-72, 1994 y la publicación internacional WO 95/23875), transposón Tn7 (Craig, N L, Science. 271: 1512, 1996; Craig, N L, Review in: Curr Top Microbiol Immunol., 204:27-48, 1996), Tn/O y IS10 (Kleckner N, et al., Curr Top Microbiol Immunol., 204:49-82, 1996), transposasa de mariner (Lampe D J, et al., EMBO J., 15: 5470-9, 1996), Tc1 (Plasterk R H, Curr. Topics Microbiol. Immunol., 204: 125-43, 1996), elemento P (Gloor, G B, Methods Mol. Biol., 260: 97-114, 2004), Tn3 (Ichikawa y Ohtsubo, J Biol. Chem. 265:18829-32, 1990), secuencias de inserción bacterianas (Ohtsubo y Sekine, Curr. Top. Microbiol. Immunol. 204: 1-26, 1996), retrovirus (Brown, et al., Proc Natl Acad Sci EE. UU., 86:2525-9, 1989), y retrotransposón de levadura (Boeke y Corces, Annu Rev Microbiol.

43:403-34, 1989). Más ejemplos incluyen IS5, Tn10, Tn903, IS911, Bella Durmiente, SPIN, hAT, PiggyBac, Hermes, TcBuster, AeBuster1, Tol2 y versiones diseñadas de enzimas de la familia transposasa (Zhang et al., (2009) PLoS Genet. 5:e1000689. Epub 16 de octubre de 2009; Wilson C. et al (2007) J. Microbiol. Methods 71:332-5).

Más ejemplos de integrasas que se pueden utilizar con los métodos y composiciones proporcionados en la presente memoria incluyen integrasas retrovíricas y secuencias de reconocimiento de integrasa para integrasas retrovíricas de este tipo, tales como integrasas de HIV-1, HIV-2, SIV, PFV-1, RSV.

Códigos de barras

En términos generales, un código de barras puede incluir una o más secuencias de nucleótidos que se pueden utilizar para identificar uno o más ácidos nucleicos particulares. El código de barras puede ser una secuencia artificial o puede ser una secuencia que existe de manera natural generada durante transposición, tal como secuencias de ADN genómico flanqueantes idénticas (códigos g) en el extremo de los fragmentos de ADN anteriormente yuxtapuestos. En algunas realizaciones, los códigos de barras son secuencias artificiales que están ausentes en las secuencias de ácidos nucleicos diana y que se pueden utilizar para identificar unas o más secuencias de ácidos nucleicos diana.

Un código de barras puede comprender al menos aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más nucleótidos consecutivos. En algunas realizaciones, un código de barras comprende al menos aproximadamente 10, 20, 30, 40, 50, 60, 70 80, 90, 100 o más nucleótidos consecutivos. En algunas realizaciones, al menos una porción de los códigos de barras en una población de ácidos nucleicos que comprende códigos de barras es diferente. En algunas realizaciones, al menos aproximadamente un 10 %, 20 %, 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 %, 95 %, 99 % de los códigos de barras son diferentes. En más realizaciones de este tipo, todos los códigos de barras son diferentes. La diversidad de códigos de barras diferentes en una población de ácidos nucleicos que comprende códigos de barras se puede generar aleatoriamente o generar no aleatoriamente. En algunas realizaciones, una secuencia de transposones comprende al menos un código de barras. En algunas realizaciones, tales como transposomas que comprenden dos secuencias de transposones no contiguas, la primera secuencia de transposones comprende un primer código de barras y la segunda secuencia de transposones comprende un segundo código de barras. En algunas realizaciones, una secuencia de transposones comprende un código de barras que comprende una primera secuencia de códigos de barras y una segunda secuencia de código de barras. En alguna de las realizaciones anteriores, la primera secuencia de códigos de barras se puede identificar o designar para que se aparee con la segunda secuencia de códigos de barras. Por ejemplo, una primera secuencia de códigos de barras conocida puede ser conocida por aparearse con una segunda secuencia de códigos de barras conocida utilizando una tabla de referencia que comprende una pluralidad de primeras y segundas secuencias de códigos de barras conocidas por aparearse entre sí.

En otro ejemplo, la primera secuencia de códigos de barras puede comprender la misma secuencia que la segunda secuencia de códigos de barras. En otro ejemplo, la primera secuencia de códigos de barras puede comprender el complemento inverso de la segunda secuencia de códigos de barras. En algunas realizaciones, la primera secuencia de códigos de barras y la segunda secuencia de códigos de barras son diferentes. La primera y la segunda secuencia de códigos de barras pueden comprender un bicódigo.

En algunas realizaciones de las composiciones y métodos descritos en la presente memoria, los códigos de barras se utilizan en la preparación de ácidos nucleicos de molde. Como se entenderá, el vasto número de códigos de barras disponible permite que cada molécula de ácido nucleico de molde comprenda una identificación única. La identificación única de cada molécula en una mezcla de ácidos nucleicos de molde se puede utilizar en varias aplicaciones. Por ejemplo, las moléculas identificadas de manera única se pueden aplicar para identificar moléculas de ácido nucleico individuales, en muestras que tienen múltiples cromosomas, en genomas, tipos celulares, estados de enfermedad celular y especies, por ejemplo, en secuenciación de haplotipo, discriminación de alelos parentales, secuenciación metagenómica y secuenciación de muestras de un genoma.

Las secuencias de códigos de barras de ejemplo incluyen, pero no se limitan a, TATAGCCT, ATAGAGGC, CCTATCCT, GGCTCTGA, AGGCGAAG, TAATCTTA, CAGGACGT y GTACTGAC.

Sitios de cebadores

En algunas realizaciones, una secuencia de transposones puede incluir un "adaptador de secuenciación" o "sitio de adaptador de secuenciación", o sea, una región que comprende uno o más sitios que pueden hibridar a un cebador. En algunas realizaciones, una secuencia de transposones puede incluir al menos un primer sitio de cebador útil para amplificación, secuenciación y similares. Las secuencias de ejemplo de los sitios de unión de secuencias incluyen, pero no se limitan a AATGATACGGCGACCACCGAGATCTACAC (secuencia P5) y CAAGCAGAAGACGGCATACGAGAT (secuencia P7).

Ácidos nucleicos diana

Un ácido nucleico diana puede incluir cualquier ácido nucleico de interés. Los ácidos nucleicos diana pueden incluir ADN, ARN, ácido nucleico peptídico, ácido nucleico morfolino, ácido nucleico bloqueado, ácido nucleico glicólico, ácido nucleico de treosa, muestras mezcladas de ácido nucleico, ADN poliploide (es decir, ADN vegetal), mezclas de los mismos e híbridos de los mismos. En una realización preferida, se utilizan ADN genómico o copias amplificadas del mismo como ácido nucleico diana. En otra realización preferida, se utiliza ADNc, ADN mitocondrial o ADN de cloroplastos. En algunas realizaciones, el ácido nucleico diana es ARNm.

En algunas realizaciones, el ácido nucleico diana procede de una célula individual o de fracciones de una célula individual. En algunas realizaciones, el ácido nucleico diana procede de un orgánulo individual. Los orgánulos individuales de ejemplo incluyen, pero no se limitan, a núcleo individual, mitocondria individual y un ribosoma individual. En algunas realizaciones, el ácido nucleico diana procede de muestras de tejido incluido en parafina fijado en formalina (FFPE). En algunas realizaciones, el ácido nucleico diana es ácido nucleico reticulado. En algunas realizaciones, el ácido nucleico diana se reticula con proteínas. En algunas realizaciones, el ácido nucleico diana es ADN reticulado. En algunas realizaciones, el ácido nucleico diana es ADN protegido con histona. En algunas realizaciones, las histonas se eliminan del ácido nucleico diana. En algunas realizaciones, el ácido nucleico diana procede de nucleosomas. En algunas realizaciones, el ácido nucleico diana procede de nucleosomas de los que se eliminan las proteínas nucleares.

Un ácido nucleico diana puede incluir cualquier secuencia de nucleótidos. En algunas realizaciones, el ácido nucleico diana comprende secuencias de homopolímeros. Un ácido nucleico diana puede incluir también secuencias repetidas. Las secuencias repetidas pueden ser cualquiera de una variedad de longitudes que incluye, por ejemplo, 2, 5, 10, 20, 30, 40, 50, 100, 250, 500 o 1000 nucleótidos o más. Las secuencias repetidas se pueden repetir, tanto de manera contigua como no contigua, una variedad de veces que incluye, por ejemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 o 20 veces o más.

Algunas realizaciones descritas en la presente memoria pueden utilizar un único ácido nucleico diana. Otras realizaciones pueden utilizar una pluralidad de ácidos nucleicos diana. En las realizaciones de este tipo, una pluralidad de ácidos nucleicos diana puede incluir una pluralidad de los mismos ácidos nucleicos diana, una pluralidad de ácidos nucleicos diana diferentes donde algunos ácidos nucleicos diana son los mismos, o una pluralidad de ácidos nucleicos diana donde todos los ácidos nucleicos diana son diferentes. Las realizaciones que utilizan una pluralidad de ácidos nucleicos diana se pueden llevar a cabo en formatos múltiplex de modo que los reactivos se entreguen simultáneamente a los ácidos nucleicos diana, por ejemplo, en una o más cámaras o en una superficie de matriz. En algunas realizaciones, la pluralidad de ácidos nucleicos diana puede incluir sustancialmente todo de un genoma de un organismo particular. La pluralidad de ácidos nucleicos diana puede incluir al menos una porción de un genoma de un organismo particular que incluye, por ejemplo, al menos aproximadamente un 1 %, 5 %, 10 %, 25 %, 50 %, 75 %, 80 %, 85 %, 90 %, 95 %, o 99 % del genoma. En realizaciones particulares, la porción puede tener un límite superior que es como mucho aproximadamente un 1 %, 5 %, 10 %, 25 %, 50 %, 75 %, 80 %, 85 %, 90 %, 95 %, o 99 % del genoma.

Los ácidos nucleicos diana se pueden obtener a partir de cualquier fuente. Por ejemplo, los ácidos nucleicos diana se pueden preparar a partir de moléculas de ácido nucleico obtenidas de un único organismo o de poblaciones de moléculas de ácido nucleico obtenidas a partir de fuentes naturales que incluyen uno o más organismos. Las fuentes de moléculas de ácido nucleico incluyen, pero no se limitan a, orgánulos, células, tejidos, órganos u organismos. Las células que se pueden utilizar como fuentes de moléculas de ácido nucleico diana pueden ser procariotas (células bacterianas, por ejemplo, de los géneros Escherichia, Bacillus, Serratia, Salmonella, Staphylococcus, Streptococcus, Clostridium, Chlamydia, Neisseria, Treponema, Mycoplasma, Borrelia, Legionella, Pseudomonas, Mycobacterium, Helicobacter, Erwinia, Agrobacterium, Rhizobium y Streptomyces); arqueas, tales como crenarqueota, nanoarqueota o euriarqueota; o eucariotas tales como hongos (por ejemplo, levaduras), plantas, protozoos y otros parásitos, y animales (incluidos los insectos (por ejemplo, Drosophila spp.)), nematodos (por ejemplo, Caenorhabditis elegans), y mamíferos (por ejemplo, rata, ratón, mono, primate no humano y humano). Los ácidos nucleicos diana y los ácidos nucleicos de molde se pueden enriquecer para ciertas secuencias de interés utilizando varios métodos conocidos en la técnica. Los ejemplos de métodos de este tipo se proporcionan en la publicación internacional n.° WO/2012/108864. En algunas realizaciones, los ácidos nucleicos se pueden enriquecer además durante los métodos de preparación de las genotecas de molde. Por ejemplo, los ácidos nucleicos se pueden enriquecer para ciertas secuencias, antes de la inserción de transposomas, después de la inserción de transposomas y/o después de la amplificación de ácidos nucleicos.

Además, en algunas realizaciones, los ácidos nucleicos diana y/o ácidos nucleicos de molde pueden estar muy purificados, por ejemplo, los ácidos nucleicos pueden estar al menos aproximadamente un 70 %, 80 %, 90 %, 95 %, 96 %, 97 %, 98 %, 99 % o 100 % libres de contaminantes antes de su uso con los métodos proporcionados en la presente memoria. En algunas realizaciones, es beneficioso usar los métodos conocidos en la técnica que mantienen la calidad y tamaño del ácido nucleico diana, por ejemplo, el aislamiento y/o transposición directa del ADN diana se puede realizar utilizando bloques de agarosa. La transposición se puede realizar también directamente en células, con población de células, lisados y ADN no purificado.

En algunas realizaciones, el ácido nucleico diana se puede obtener a partir de una muestra biológica o de una muestra del paciente. La expresión "muestra biológica" o "muestra del paciente", tal como se utiliza en la presente memoria, incluye muestras tales como tejidos y líquidos corporales. "Líquidos corporales" puede incluir, pero no se limita a, sangre, suero, plasma, saliva, líquido cefalorraquídeo, líquido pleural, lágrimas, fluido del conducto lácteo, linfa, esputo, orina, líquido amniótico y semen. Una muestra puede incluir un líquido corporal que es "acelular". Un "líquido corporal acelular" incluye menos de aproximadamente un 1 % (p/p) de material celular completo. El plasma o suero son ejemplos de líquidos corporales acelulares. Una muestra puede incluir un espécimen de origen natural o sintético (es decir, una muestra celular producida para ser acelular).

En algunas realizaciones de los métodos descritos anteriormente, el ácido nucleico diana se puede fragmentar (por ejemplo, sometiéndolo a sonicación, por medio de digestión de restricción, otros medios mecánicos) antes de exponer el ácido nucleico diana a los transposomas.

El término "plasma", tal como se utiliza en la presente memoria, se refiere a un líquido acelular que se encuentra en la sangre. El "plasma" se puede obtener a partir de sangre al eliminar el material celular completo de la sangre por medio de métodos conocidos en la técnica (por ejemplo, centrifugación, filtración y similares).

A lo largo de esta solicitud, a menos que se especifique lo contrario, los términos "un" o "una" significan "uno/a o más".

Cuando las expresiones "por ejemplo", "tal como", "incluir", "que incluye" o variaciones de las mismas se utilizan en la presente memoria, estas expresiones no se consideran limitativas, y se interpretarán para significar "pero no se limita a" o "sin limitación".

Los siguientes Ejemplos proporcionan realizaciones ilustrativas y no limitan de ninguna manera las invenciones proporcionadas en la presente memoria.

Ejemplos

Ejemplo 1 - Rendimiento del clúster de ADN del proceso de tagmentación basado en perlas

El rendimiento del clúster de ADN del proceso de tagmentación basado en perlas de la Figura 3 se evaluó y se muestra en la tabla de la Figura 4. En este ejemplo, 50, 250 y 1000 ng de ADN NA12878 humano se tagmentaron utilizando el mismo lote de perlas de tagmentación (perlas de 2,8 gm). Una segunda parte alícuota de 50 ng de ADN NA12878 se tagmentó utilizando un segundo lote de perlas de tagmentación (repetición completa; perlas de 2,8 gm). Las muestras de ADN tagmentado unido a perlas se amplificaron por PCR y se purificaron. Una parte alícuota (5,4 gl) de cada producto de PCR purificado (no cuantificado) se diluyó 270 veces para producir disoluciones madre de muestra de aproximadamente 50 pM. Para cada muestra, la disolución madre de 50 pM se diluyó en 15, 19, 21 y 24 pM. Las muestras diluidas se cargaron en una cubeta de lectura para generación de clústeres y secuenciación. Los datos muestran que a partir de la misma dilución (~50 pM), los números de clústeres se encuentran entre un 100-114 % para los tres niveles diferentes de entrada (es decir, 50, 250 y 1000 ng) utilizando el mismo conjunto de perlas. El número de clústeres para la repetición completa de 50 ng (con un lote diferente de perlas) fue un 81 %. Las diferentes diluciones (15, 19, 21 y 24 pM) produjeron el mismo número de clústeres en aproximadamente un 10 %. Los datos indican que las perlas controlan enormemente el rendimiento y el rendimiento es reproducible para diferentes entradas de ADN y diferentes repeticiones.

Ejemplo 2 - Reproducibilidad del proceso de tagmentación basado en perlas

La reproducibilidad del proceso de tagmentación basado en perlas de la Figura 3 se muestra en la Figura 5. En este ejemplo, seis preparaciones diferentes de perlas indexadas (índices 1 hasta el 6; perlas de 2,8 gm) producidas a la "misma" densidad de transposomas se utilizaron para preparar ADN tagmentado utilizando 50 y 500 ng de ADN NA12878 de entrada. El ADN tagmentado se amplificó por PCR y purificó. Los 12 productos de PCR purificados se agruparon en dos mezclas (grupo 1 y grupo 2) de seis para dos carriles de HiSeq. Cada grupo incluye 3-50 ng y 3 500 ng de muestras por carril. La tabla de datos 500 muestra el tamaño mediano del inserto y el tamaño medio del inserto para cada muestra indexada.

Ejemplo 3 - Tamaño del inserto del grupo 1 y tamaño del inserto del grupo 2

El tamaño del inserto del grupo 1 y el tamaño del inserto del grupo 2 se muestran en la Figura 6A (Gráfico 600) y la Figura 6B (Gráfico 650), respectivamente, de las muestras indexadas de la Figura 5. Los datos también muestran que el tamaño del inserto es uniforme entre las seis preparaciones diferentes de perlas indexadas. La tagmentación basada en perlas proporciona un mecanismo para controlar el tamaño de los insertos y el rendimiento de ADN. Ejemplo 4 - Reproducibilidad del número total de lecturas

La reproducibilidad del número total de lecturas y del porcentaje de lecturas alineadas para el experimento descrito en la Figura 5 se muestra en la Figura 7 (Gráfico de barras 700). En ambas entradas (50 ng y 500 ng), el número total de lecturas es similar para la misma preparación de perlas indexadas. Cuatro de las seis preparaciones de perlas indexadas (índice 1, 2, 3 y 6) tienen rendimientos muy similares; las preparaciones de perlas indexadas 4 y 5 mostraron algo de variabilidad que puede deberse a la secuencia de índice.

En una aplicación, el proceso de tagmentación basado en perlas se puede utilizar en un ensayo de enriquecimiento del exoma que incluye una etapa de tagmentación, por ejemplo, el protocolo de enriquecimiento de captura rápida Nextera® de Illumina. En el ensayo de enriquecimiento del exoma actual (es decir, el protocolo de enriquecimiento de captura rápida Nextera® de Illumina), la tagmentación basada en disolución (Nextera) se utiliza para fragmentar el ADN genómico. Los cebadores específicos de genes se utilizan a continuación para precipitar los fragmentos de genes específicos de interés. Se realizan dos ciclos de enriquecimiento y los fragmentos precipitados se enriquecen a continuación por medio de PCR y se secuencian.

Para evaluar el uso del proceso de tagmentación basado en perlas en el ensayo de enriquecimiento del exoma, ADN NA12878 humano se tagmentó utilizando 25, 50, 100, 150, 200 y 500 ng de ADN de entrada. Se preparó una genoteca de control (NA00536) a partir de 50 ng de ADN de entrada según el protocolo estándar. Cada entrada de ADN tuvo un índice diferente (identificador único). Se utilizaron diez ciclos de PCR utilizando mezcla maestra de polimerasa mejorada (EPM) para que coincidiera con los métodos estándar y para garantizar que estuviera presente una cantidad suficiente de fragmentos para la precipitación. El protocolo de amplificación fue 3 minutos a 72 °C, 30 segundos a 98 °C, seguido por 10 ciclos de 10 segundos a 98 °C, 30 segundos a 65 °C y 1 minuto a 72 °C. Las muestras se mantuvieron a continuación a 10 °C. Las muestras se procesaron a continuación a través del proceso de precipitación de enriquecimiento del exoma y se secuenciaron.

Ejemplo 5 - Tamaño del inserto en una genoteca de control y en una tagmentada basada en perlas en el ensayo de enriquecimiento del exoma

Las Figuras 8A, 8B y 8C muestran un gráfico 800 del tamaño del inserto en una genoteca de control, un gráfico 820 del tamaño del inserto en una genoteca tagmentada basada en perlas y una tabla resumen de datos 840, respectivamente, en el ensayo de enriquecimiento del exoma. Los datos muestran que las genotecas de tagmentación basada en perlas tienen una dispersión del tamaño del inserto más amplia en comparación con la genoteca de control, pero el tamaño del inserto es muy similar independientemente de la entrada de ADN para las muestras.

Ejemplo 6 - Calidad de las secuencias de lectura

Las Figuras 9A, 9B y 9C muestran un gráfico de barras 900 del porcentaje de los duplicados que pasan por los filtros (duplicados de FP), un gráfico de barras 920 de bases seleccionadas de PCT, y un gráfico de barras 940 de bases utilizables de PCT en la diana, respectivamente, en el ensayo de enriquecimiento del exoma de las Figuras 8A, 8B y 8C. Con referencia a la Figura 9A, el porcentaje de duplicados de FP es una medida de cuántas lecturas se duplican en otra parte de la cubeta de lectura. Idealmente, este número será bajo (como aquí) para garantizar que todos los clústeres aportan datos útiles a los resultados.

La Figura 9B muestra bases seleccionadas de PCT, que es una medida de la relación de lecturas que una secuencia en o cercana al sitio de interés debería haber enriquecido durante el proceso de enriquecimiento. Idealmente, este número estará cerca de 1 para reflejar el éxito del proceso de enriquecimiento y mostrar que las lecturas que no deben enriquecerse no pasan por el proceso.

La Figura 9C muestra las bases utilizables de PCT en la diana, que es una medida de la relación de lecturas que realmente se secuencia sobre la base particular de interés en la región enriquecida. Idealmente, todas las lecturas enriquecidas se secuenciarían sobre la base de interés en la lectura enriquecida, pero debido a la naturaleza aleatoria de la tagmentación y a la longitud variable de los insertos, se pueden enriquecer lecturas que no terminan siendo secuenciadas sobre el área de interés.

Se pueden utilizar dos técnicas para optimizar la distribución de tamaño del inserto. En un ejemplo, se puede utilizar depuración SPRI para eliminar fragmentos que son muy pequeños o muy grandes. La depuración SPRI es un proceso para eliminar los fragmentos que son más grandes o más pequeños que el tamaño deseado, por medio de precipitación selectiva del ADN basada en el tamaño y cualquier retención del ADN precipitado o no precipitado como se desee (es decir, una primera etapa es precipitar solo ADN que es más grande que el tamaño deseado y retener los fragmentos solubles más pequeños). Los fragmentos más pequeños se precipitan además a continuación y, esta vez, los fragmentos muy pequeños que no se desean (aún en la disolución) se eliminan y el ADN precipitado se retiene, se lava y se vuelve a solubilizar a continuación para dar un intervalo de tamaño deseado de ADN. En otro ejemplo, la separación de los transposomas activos en la superficie de perlas se puede utilizar para controlar la distribución de tamaño del inserto. Por ejemplo, los huecos en la superficie de las perlas se pueden rellenar con transposomas inactivos (por ejemplo, transposomas con transposones inactivos).

Se evaluó la contigüidad del proceso de tagmentación basado en perlas. La Tabla 3 muestra el número de veces que tienen lugar 0, 1,2 o 3 lecturas en un margen de 1000 pb que comparten un índice. Las perlas se generaron con 9 transposomas indexados diferentes y se utilizaron para tagmentar una pequeña cantidad de ADN humano. Las lecturas se generaron, alinearon y analizaron para el número de lecturas en un margen de 1000 pb o 10 kb que compartía el mismo índice. Algunas lecturas en un pequeño margen que comparten un índice se pueden generar por casualidad y una predicción de cuántas veces es posible que esto suceda se da en la fila "Aleatoria" de la Tabla 3 y Tabla 4. Los números en la fila "Perla" muestran el número real de márgenes de 1000 pb (Tabla 3) o 10 kb (Tabla 4) que comparten un índice. Como se muestra en la Tabla 3 y Tabla 4, el número real de veces que se ha encontró el mismo índice en márgenes de 1000 pb o 10 kb es significativamente mayor que el esperado en el caso aleatorio. Los márgenes "0" mostraron todas las veces que un margen de 1000 pb particular no tuvo lecturas indexadas que lo mapearan. El número es mayor aquí porque solo una pequeña cantidad del genoma humano se secuenció y la mayoría de los márgenes no tuvieron lecturas que los alinearan. "1" es el número de veces que simplemente una lectura mapea un margen de 1000 pb (o 10 kb), "2" el número de veces que 2 lecturas comparten un índice en un margen de 1000 pb (o 10 kb), etc. Estos datos sugieren que, en más de 1400 casos, el mismo pedazo de ADN (más de 10 kb) se tagmenta por la misma perla al menos dos veces y hasta 5 veces, de aproximadamente 15.000 casos de tagmentación. Ya que los fragmentos comparten un índice, no es probable que estén ahí por casualidad, sino que procedan de la misma perla.

La Tabla 4 muestra el número de lecturas (hasta 5) en un margen de 10 kb que comparte un índice.

Tabla 4. Número de lecturas en un margen de 10 kb que comparte un índice

Ejemplo 7 - Separación de transposomas libres de CPT-ADN

Después de la transposición, la mezcla de reacción que comprende CPT-ADN y los transposomas libres se sometió a cromatografía en columna utilizando cromatografía por exclusión de tamaño Sephacryl S-400 y Sephacryl S-200 y se muestra en la Figura 22. El CPT-ADN se denomina como NCP ADN.

Ejemplo 8 - Optimización de la densidad de sondas de captura en perlas

Las densidades de las sondas de captura A7 y B7 se optimizaron en perlas de 1 gm y los resultados se muestran en la Figura 25. Los carriles 1 (A7) y 3 (B7) tuvieron densidades de sondas mayores y los carriles 2 (A7) y 4 (B7) tuvieron una densidad de sondas estimada de 10.000-100.000 por perla de 1 um. El producto de fijación de la sonda de captura a la molécula diana se evaluó en gel de agarosa. La densidad de sondas de aproximadamente 10.000 100.000 por perla tuvo una eficacia de fijación mejor que aquellas de densidades de sondas mayores.

Ejemplo 9 - Análisis de la viabilidad de preparar genotecas de secuenciación indexadas de CPT-ADN en perlas por medio de hibridación intramolecular

Los transposomas se prepararon al mezclar transposones que tenían secuencias de captura A7' y B7', que son complementarias a las secuencias de captura A7 y B7 en perlas, con transposasa Tn5 hiperactiva. El ADN genómico de alto peso molecular se mezcla con los transposomas para generar CPT-ADN. Por separado, se prepararon perlas con oligonucleótidos inmovilizados: P5-A7, P7-B7 o P5-A7 P7-B7, donde P5 y P7 son secuencias de unión a cebadores y A7 y B7 son secuencias de captura complementarias a las secuencias A7' y B7' respectivamente. Las perlas que comprenden P5-A7 solo, P7-B7 solo, P5-A7+P7-B7, o una mezcla de las perlas P5-A7 y P7-B7 se trataron con CPT-ADN y se añadió ligasa a la mezcla de reacción para determinar la eficacia de la hibridación de los oligos inmovilizados en el ADN transpuesto. Los resultados se muestran en la Figura 26. Las genotecas de secuenciación se producen solo cuando P5-A7 y P7-B7 se inmovilizan juntos sobre una perla (carril 4) como se muestra por las bandas de alto peso molecular en un gel de agarosa. Los resultados indican una alta eficacia de la hibridación intramolecular y demuestran la viabilidad de preparar genotecas de secuenciación indexadas de CPT-ADN en perlas por medio de hibridación intramolecular.

Ejemplo 10 - Prueba de la viabilidad de indización clonal

Se prepararon varios conjuntos de transposomas. En un conjunto, se mezcla transposasa Tn5 hiperactiva con secuencias de transposones Tnp1 con biotina en el extremo 5' para preparar el transposoma 1. En otro conjunto, Tnp2 tiene un índice 2 único con biotina en el extremo 5' para preparar un transposoma 2. En otro conjunto, se mezcla transposasa Tn5 hiperactiva con secuencias de transposones Tnp3 con biotina en el extremo 5' para el transposoma 3. En otro Tnp4 tiene un índice 4 único con biotina en el extremo 5' para preparar un transposoma 4. Cada transposoma 1 y 2 y transposoma 3 y 4 se mezcla por separado con perlas de estreptavidina para generar el conjunto de perlas 1 y el conjunto de perlas 2. Los dos conjuntos de perlas se mezclan juntos y se incuban con ADN genómico y tampón de tagmentación para promover la tagmentación del ADN genómico. A continuación, a esto le sigue amplificación PCR de las secuencias tagmentadas. El ADN amplificado se secuencia para analizar la inserción de las secuencias de índice. Si la tagmentación se limita a las perlas, la mayoría de los fragmentos se codificará con los índices de Tnp1/Tnp2 y Tnp3/Tnp4. Si existe hibridación intramolecular, los fragmentos se pueden codificar con los índices de Tnp1/Tnp4, Tnp2/Tnp3, Tnp1/Tnp3 y Tnp2/Tnp4. Los resultados de la secuenciación después de 5 y 10 ciclos de PCR se muestran en la Figura 27. El control tiene todos los cuatro transposones mezclados juntos e inmovilizados en una perla. Los resultados indican que la mayoría de las secuencias tuvo índices de Tnp1/Tnp2 o Tnp3/Tnp4, lo que indica que la indización clonal es posible. El control no muestra distinción entre los índices.

Ejemplo 11 - Transposición de perla clonal indexada en una única reacción

Se prepararon noventa y seis conjuntos de perlas de transposomas indexados. Se prepararon los transposomas indexados individuales al mezclar transposones que comprendían un oligonucleótido que comprendía una secuencia de extremos mosaico (ME) Tn5 en el extremo 5' y una secuencia de índice. Los transposomas indexados individualmente se inmovilizaron en perlas a través de la interacción de estreptavidina-biotina. Los transposomas en perlas se lavaron y todos los 96 transposomas indexados individualmente en perlas se agruparon. Los oligonucleótidos complementarios a la secuencia ME y que comprenden una secuencia de índice se hibridan al oligonucleótido inmovilizado, lo que crea transposones con índices únicos. Los noventa y seis conjuntos de perlas de transposomas indexados clonales se combinan y se incuban con ADN genómico de alto peso molecular (APM) en presencia de tampón de tagmentación Nextera en un tubo único.

Las perlas se lavan y la transposasa se elimina al tratar la mezcla de reacción con SDS al 0,1 %. El ADN tagmentado se amplifica con cebadores indexados y se secuencia con la cubeta de lectura PE HiSeq v2 utilizando el kit de clúster TrueSeq v3 y se analizan los datos de secuenciación.

Se observan los clústeres o islas de lecturas. Un gráfico de las distancias de los vecinos más cercanos entre las lecturas para cada secuencia muestra esencialmente los picos más importantes, uno de dentro del clúster (proximal) y otro de entre los clústeres (distal). Un esquema del método y los resultados se muestran en las Figuras 30 y 31. Los tamaños de isla oscilaron de entre aproximadamente 3-10 kb. El porcentaje de bases recubiertas es aproximadamente entre un 5 % a un 10 %. Los tamaños del inserto del ADN genómico son aproximadamente 200 300 bases.

Ejemplo 12 - Tamaños de genotecas para transposomas en perlas

Los transposomas se ensamblan primero en disolución al mezclar un primer oligonucleótido que tiene una secuencia ME' y un segundo oligonucleótido que tiene ME-código de barras-secuencia P5/P7 y transposasa Tn5. En un primer conjunto, el primer oligonucleótido que tiene una secuencia ME' se biotinila en el extremo 3'. En el segundo caso, el oligonucleótido que tiene ME-código de barras-secuencia P5/P7 se biotinila en el extremo 5'. A varias concentraciones (10 nM, 50 nM y 200 nM) de cada uno de los conjuntos de transposomas resultantes, se añaden perlas de estreptavidina de modo que los transposomas se inmovilizan en las perlas de estreptavidina. Las perlas se lavan y se añade ADN genómico de APM y se lleva a cabo la tagmentación. En algunos casos, el ADN tagmentado se trata con SDS al 0,1 % y, en otros casos, el ADN tagmentado no se trata. El ADN tagmentado se amplifica por PCR durante entre 5-8 ciclos y se secuencia. El esquema se muestra en la Figura 32.

Como se muestra en la Figura 33, el tratamiento de SDS mejora la eficacia de la amplificación y la calidad de la secuenciación. Los oligonucleótidos con biotina en el extremo 3' tienen mejores tamaños de genoteca para los transposomas.

La Figura 34 muestra el efecto de la densidad superficial del transposoma en el tamaño de inserción. Los transposomas con biotina en el extremo 5' muestran genotecas con tamaños más pequeños y más subproductos de autoinserción.

Ejemplo 13 - Titulación de ADN de entrada

Varias cantidades de ADN de APM diana se añadieron a perlas indexadas clonalmente con 50 mM de Tn5: Densidad de los transposones y se incubaron durante 15 o 60 min a 37 grados C o durante 60 min a temperatura ambiente. Los transposomas comprendieron oligonucleótidos con biotina en el extremo 3'. La tagmentación se llevó a cabo, la mezcla de reacción se trató con SDS al 0,1 % y se amplificó por PCR. El ADN amplificado se secuenció. La Figura 35 muestra el efecto de ADN de entrada en la distribución del tamaño. Las reacciones con 10 pg de ADN de entrada mostraron la señal mínima. El patrón de distribución del tamaño fue similar para las entradas de ADN que oscilaban de entre 20, 40 y 200 pg.

Ejemplo 14 - Tamaño y distribución de islas utilizando métodos basados en disolución y basados en perlas

Se compara el tamaño y distribución de islas utilizando métodos basados en disolución y basados en perlas. En un planteamiento basado en disolución, se ensamblaron 96 transposomas cada uno con un índice único en los transposomas en una placa de 96 pocillos. Se añadió ADN genómico de APM y se llevó a cabo la reacción de tagmentación. El producto de reacción se trata con SDS al 0,1 % y se amplifica por PCR. Los productos amplificados se secuenciaron.

En un planteamiento basado en perlas, se ensamblaron 96 transposomas cada uno con un índice único en los transposomas en una placa de 96 pocillos. Los oligonucleótidos comprendieron biotina en el extremo 3'. Se añaden perlas de estreptavidina a cada uno de la placa de 96 pocillos y se incuban de modo que los transposomas se inmovilizan en las perlas de estreptavidina. Las perlas se lavan individualmente y se agrupan, se añade ADN genómico de APM y la reacción de tagmentación se lleva a cabo en un único recipiente de reacción (recipiente único). El producto de reacción se trata con SDS al 0,1 % y se amplifica por PCR. Los productos amplificados se secuenciaron.

En el control negativo, todas las 96 secuencias de transposones, cada una con un índice único, se mezclaron juntas primero. Los oligonucleótidos comprendieron biotina en el extremo 3'. Los transposomas se prepararon a partir de los transposones indexados mezclados individualmente. Se añadieron perlas de estreptavidina a la mezcla. Se añadió ADN genómico de APM y se llevó a cabo la reacción de tagmentación. El producto de reacción se trata con SDS al 0,1 % y se amplifica por PCR. Los productos amplificados se secuenciaron.

El número de lectura intra islas se representó en un gráfico frente al tamaño de las islas. Los resultados como se muestran en la Figura 36 indican que las islas (lecturas de proximidad) se observan con las perlas indexadas clonales de recipiente único, similar al método basado en disolución. Cuando los transposones indexados se mezclaron antes de la formación de los transposomas, no se observó ninguna isla (lecturas de proximidad). Mezclar los transposones antes de la formación de los transposomas da a las perlas índices/transposomas diferentes por perla, es decir, no clonales.

Ejemplo 15 - Análisis de variantes estructurales con CPT-Seq

Detección de deleción heterocigota de 60 kb

Los datos de secuenciación se extraen como archivos fastq y pasan a través del proceso de demultiplexación para generar un archivo fastq individual para cada código de barras. Los archivos fastq de la secuenciación de CPT se demultiplexan según sus índices y se alinean con el genoma de referencia con los duplicados eliminados. Los cromosomas se escanean por medio de un margen 5 kb/1 kb, en el que se registra el número de los índices que muestran cualquier lectura del margen de escaneo. Estadísticamente para la región de deleción heterocigota, solo la mitad de la cantidad de ADN está disponible para la generación de genotecas en comparación con sus regiones adyacentes, por lo tanto, el número de índices debería ser aproximadamente la mitad como sus vecinos también. La deleción heterocigota de NA12878 cr1 60 kb se muestra en la Figura 47A y 47B por medio de escaneado en un margen de 5 kb de 9216 datos de secuenciación de CPT indexados.

Detección de fusión de genes

Los archivos fastq de la secuenciación de CPT se demultiplexan según su índice y se alinean con el genoma de referencia con los duplicados eliminados. Los cromosomas se escanean en un margen de 2 kb. Cada margen de 2 kb es un vector 36864 en el que cada elemento registra cuántas lecturas se han encontrado a partir de un índice único en este margen de 2 kb. Para cada par (X,Y) del margen de 2 kb a través del genoma, se calcula el índice de Jaccard ponderado. Este índice indica la distancia de facto entre (X,Y) en la muestra. Estos índices se exponen como el gráfico cromático mostrado en la Figura 48, cada punto de datos representa un par del margen de escaneo de 2 kb; el cuadrado superior izquierdo es para X,Y ambos de la región1, el inferior derecho es para X,Y ambos de la región2 y el superior derecho es para los X,Y de la región1 que cruza la región2. La señal de fusión de genes se revela como la línea horizontal en el medio en este caso.

Detección de deleciones

Los archivos fastq de la secuenciación de CPT se demultiplexan según su índice y se alinean con el genoma de referencia con los duplicados eliminados. Los cromosomas se escanean en un margen de 1 kb. La Figura 49 muestra los resultados de la detección de deleciones genéticas.

Ejemplo 16 - Separación de fases y detección de metilación

Optimización de la eficacia de la conversión de bisulfito

La conversión se evaluó en el ME (región de elemento mosaico) y la región de ADNg para indexar las genotecas de CPT-Seq unidas en perlas. El sistema de conversión de bisulfito MethylEdge de Promega se optimizó para mejorar la eficacia.

Se analizaron las secuencias ME para determinar la eficacia de los tratamientos de conversión de bisulfito y se muestran en la Figura 50. Un 95 % de conversión de bisulfito (BSC) de genotecas unidas indexadas fijadas a las perlas. Los rendimientos de PCR similares observados entre condiciones de bisulfito > tratamiento de bisulfito más severo no parece degradar las genotecas y se muestra en la Figura 51. Se observó aproximadamente un 95 % de BSC de genotecas unidas indexadas en perlas. Las variables investigadas para mejorar la BSC (C > U) fueron temperatura y concentración de NaOH (desnaturalización). 60 °C y 1 M de NaOH o °C y 0,3 M de NaOH se desempeñaron bien.

Se observó la estructura de lectura de secuenciación esperada después de secuenciar CPT-seq convertido por BSC en genotecas en perlas. El porcentaje de métricas base se expone en el gráfico IVC en la Figura 52.

La Figura 53 muestra una imagen de electroforesis en gel de agarosa de genotecas unidas indexadas después de PCR después de conversión de bisulfito. Se observó el intervalo de tamaño esperado de genotecas de 200-500 pb. La reacción sin ADN no produce genotecas unidas indexadas.

Ejemplo 17 - Separación de fases dirigida

Se enriquecieron genotecas de CPT-seq unidas indexadas de genoma completo. La Figura 54 muestra el rastro del bioanalizador de las genotecas de CPT-seq unidas indexadas de genoma completo antes de enriquecimiento sin selección por tamaño. La Figura 55 muestra el análisis en gel de agarosa de genotecas después de enriquecimiento. Las estadísticas de enriquecimiento para la región HLA se muestran a continuación

La Figura 56 muestra los resultados de la aplicación de haplotipificación dirigida a la región HLA en el cromosoma. Ilustración del enriquecimiento de la genoteca de lectura unida indexada de genoma completo a la izquierda. Cada barra pequeña representa una genoteca corta indexada. Los clústeres de genotecas indexadas son "islas", la región que se indexó clonalmente en una única perla con el mismo índice, por tanto, la proximidad de las lecturas (carácter de "isla") en una escala genómica. El enriquecimiento (véase "Selective enrichment of nucleic acids" de la publicación internacional WO 2012108864 A1) de genotecas en la región dirigida se muestra a la derecha. Las lecturas se enriquecen para la región HLA. Además, cuando las lecturas se clasifican por índice se alinean con el genoma, muestran de nuevo la estructura de "isla" que indica que la información de contigüidad se mantiene a partir de las lecturas unidas indexadas.

Ejemplo 18 - Intercambio de índices

Para evaluar el intercambio de los extremos mosaico (ME) de los complejos de transposomas, se prepararon perlas con diferentes índices. Después de mezclar, se determinó el intercambio de índices al secuenciar las genotecas y registrar los índices para cada genoteca. El % de "intercambiados" se calculó como (D4+D5+E3+E5+f4)/(suma de todos los 96) y se muestra en la Figura 65.

Ejemplo 19 - Disminución del tamaño del inserto de la genoteca al poblar más densamente los complejos de transposomas en las perlas de estreptavidina

Las perlas magnéticas de estreptavidina se cargaron con concentraciones 1x, 6x y 12x del complejo de transposomas TsTn5. Se realizó el protocolo Epi-CPT seq para cada tipo de perla. El producto de PCR final se cargó en el bioanalizador Agilent para análisis y se muestra en la Figura. Los fragmentos de las genotecas de Epi-CPT seq son más pequeños y tienen un rendimiento mayor cuando se carga más TsTn5 en las perlas.

Ejemplo 20 - Fragmentación de la genoteca de ADN durante la conversión de bisulfato de sodio

Después de la conversión de bisulfito, el ADN se daña, lo que da lugar a una pérdida de las secuencias comunes (CS2) necesarias para la amplificación PCR. Las genotecas de CPTSeq y Epi-CPTSeq (Me-CPTSeq) de fragmentos de ADN se analizaron por medio de bioanalizador. Debido al daño del ADN durante la conversión de bisulfito, la genoteca de Epi-CPTSeq tiene un rendimiento 5 veces inferior y una distribución de tamaño de genoteca más pequeña en comparación con la genoteca de CPTSeq como se muestra en la Figura 70.

Ejemplo 21 - Reacción de fijación de ADN monocatenario mediada por TdT

Se sometió a prueba la viabilidad de la recuperación de extremos de ADN por medio de fijación mediada por transferasa terminal (TdT). En síntesis, 5 pmoles de molde de ADN monocatenario se incubaron con TdT (10/50 U), dúplex atenuador/adaptador (0/15/25 pmoles) y ADN ligasa (0/10 U) durante 15 min a 37 °C. Se analizaron los productos de ADN de la extensión/fijación en un gel de TBE-Urea y los resultados se muestran en la Figura 71. La adición de todos los componentes de la reacción dio lugar a la fijación casi completa de la molécula de adaptador (Carriles 5-8).

Se sometió a prueba la viabilidad de la recuperación de extremos de ADN por medio de fijación mediada por transferasa terminal (TdT) para genoteca unida a perlas convertidas con bisulfato de sodio y se muestra en la Figura 72. En síntesis, se tagmentó ADN en perlas (primeros dos carriles), se trató con el kit de conversión de bisulfato MethylEdge de Promega (carriles 3 y 4) y se sometió a protocolo de rescate de ADN (carriles 5 y 6). Existe un aumento obvio en el rendimiento y en el tamaño de la genoteca de ADN después de la reacción de rescate. Existe también un aumento en la abundancia de transposones autoinsertados (SI) lo que indica una fijación eficaz de la molécula de adaptador.

Los resultados del ensayo de Methyl-CPTSeq se representan en la Figura 73.

Claims

REIVINDICACIONES

1. Un método para preparar una genoteca de fragmentos de ADN codificados con códigos de barras de un ácido nucleico diana que comprende:

a. poner en contacto un ácido nucleico diana con una pluralidad de complejos de transposomas, cada complejo de transposomas comprende:

transposones y transposasas, en donde los transposones comprenden cadenas transferidas y cadenas no transferidas, en donde al menos uno de los transposones del complejo de transposomas comprende una secuencia de adaptadores capaz de hibridar a una secuencia de captura complementaria;

b. fragmentar el ácido nucleico diana en una pluralidad de fragmentos e insertar una pluralidad de cadenas transferidas en el extremo 5' de al menos una cadena de fragmentos mientras se mantiene la contigüidad del ácido nucleico diana;

c. poner en contacto la pluralidad de fragmentos del ácido nucleico diana con una pluralidad de soportes sólidos, cada uno de los soportes sólidos en la pluralidad comprende una pluralidad de oligonucleótidos inmovilizados, cada uno de los oligonucleótidos comprende una secuencia de captura complementaria y una primera secuencia de códigos de barras, y

en donde la primera secuencia de códigos de barras de cada soporte sólido en la pluralidad de los soportes sólidos difiere de la primera secuencia de códigos de barras de otros soportes sólidos en la pluralidad de soportes sólidos; d. transferir la información de la secuencia de códigos de barras a los fragmentos del ácido nucleico diana, produciendo así una genoteca de fragmentos bicatenarios,

en donde al menos una cadena está marcada en el extremo 5' con el primer código de barras, en donde al menos dos fragmentos del mismo ácido nucleico diana reciben información idéntica de códigos de barras.

2. El método de la reivindicación 1 que comprende además:

e. determinar la secuencia de los fragmentos del ácido nucleico diana y las secuencias de códigos de barras; y f. determinar la información de contigüidad del ácido nucleico diana por medio de identificación de las secuencias de códigos de barras.

3. El método de la reivindicación 1 que comprende además:

e. someter los fragmentos del ácido nucleico diana que comprenden códigos de barras a tratamiento de bisulfito, generando así fragmentos del ácido nucleico diana tratados con bisulfito que comprenden códigos de barras; f. determinar la secuencia de los fragmentos del ácido nucleico diana tratados con bisulfito y las secuencias de códigos de barras; y

g. determinar la información de contigüidad del ácido nucleico diana por medio de identificación de las secuencias de códigos de barras,

en donde la información de secuencia es indicativa del estado de metilación del ácido nucleico diana y la información de contigüidad es indicativa de la información de haplotipo.

4. El método de cualquiera de las reivindicaciones 1-3, en donde;

i) una única secuencia de códigos de barras está presente en la pluralidad de oligonucleótidos inmovilizados en cada soporte sólido individual, o

ii) diferentes secuencias de códigos de barras están presentes en la pluralidad de oligonucleótidos inmovilizados en cada soporte sólido individual.

5. El método de cualquiera de las reivindicaciones 1-4, en donde la transferencia de la información de secuencia de códigos de barras a los fragmentos del ácido nucleico diana es por medio de

(i) fijación,

(ii) extensión de polimerasa o

(iii) tanto fijación como extensión de polimerasa,

en donde, opcionalmente, la extensión de polimerasa es por medio de extensión del extremo 3' de la cadena de transposón no fijada con una ADN polimerasa utilizando el oligonucleótido inmovilizado fijado como molde.

6. El método de cualquiera de las reivindicaciones 1-5, en donde al menos una porción de las secuencias de adaptadores comprende además una segunda secuencia de códigos de barras,

en donde, opcionalmente, los complejos de transposomas son multiméricos, y en donde las secuencias de adaptadores de los transposones de cada unidad monomérica son diferentes a la otra unidad monomérica en el mismo complejo de transposomas,

en donde, opcionalmente, la secuencia de adaptadores comprende además una primera secuencia de unión a cebador,

en donde, opcionalmente, el primer sitio de unión a cebador no tiene homología de secuencia con la secuencia de captura o con el complemento de la secuencia de captura,

en donde, opcionalmente, los oligonucleótidos inmovilizados en el soporte sólido comprenden además una segunda secuencia de unión a cebador,

en donde, opcionalmente, los complejos de transposomas son multiméricos, y

en donde

(i) las unidades monoméricas de transposoma se unen entre sí en el mismo complejo de transposomas o

(ii) la transposasa de una unidad monomérica de transposoma se une a otra transposasa de otra unidad monomérica de transposoma del mismo complejo de transposomas o;

(iii) los transposones de una unidad monomérica de transposoma se unen a los transposones de otra unidad monomérica de transposoma del mismo complejo de transposomas.

7. El método de cualquiera de las reivindicaciones 1-6, en donde la información de contigüidad de una secuencia de ácidos nucleicos diana es indicativo de la información de haplotipo o de variantes genómicas,

en donde, opcionalmente, las variantes genómicas se seleccionan de entre el grupo que consiste en deleciones, translocaciones, fusiones de genes intercromosómicas, duplicaciones y parálogos.

8. El método de cualquiera de las reivindicaciones 1-7, en donde los oligonucleótidos inmovilizados en el soporte sólido comprenden una región parcialmente bicatenaria y una región parcialmente monocatenaria,

en donde, opcionalmente, la región parcialmente monocatenaria del oligonucleótido comprende la segunda secuencia de códigos de barras y la segunda secuencia de unión a cebador.

9. El método de cualquiera de las reivindicaciones 1-8, en donde los fragmentos del ácido nucleico diana que comprenden los códigos de barras se amplifican antes de determinar la secuencia de los fragmentos del ácido nucleico diana, y

en donde, opcionalmente, las etapas (a)-(d) y la subsecuente amplificación se llevan a cabo en un único compartimento de reacción antes de determinar la secuencia de los fragmentos del ácido nucleico diana, o en donde una tercera secuencia de códigos de barras se introduce en los fragmentos del ácido nucleico diana durante la amplificación.

10. El método de cualquiera de las reivindicaciones 1 -9, que comprende además:

combinar los fragmentos del ácido nucleico diana que comprenden los códigos de barras de la etapa (d) de una pluralidad de un primer conjunto de compartimentos de reacción en un grupo de fragmentos del ácido nucleico diana que comprenden los códigos de barras;

redistribuir el grupo de fragmentos del ácido nucleico diana que comprenden los códigos de barras a una segunda pluralidad de un segundo conjunto de compartimentos de reacción;

introducir un tercer código de barras en los fragmentos del ácido nucleico diana al amplificar los fragmentos del ácido nucleico diana en el segundo conjunto de compartimentos de reacción antes de la secuenciación.

11. El método de cualquiera de las reivindicaciones 1 -10, que comprende además:

fragmentación previa del ácido nucleico diana antes de poner en contacto el ácido nucleico diana con los complejos de transposomas.

12. El método de la reivindicación 11, en donde la fragmentación previa del ácido nucleico diana es por medio de un método seleccionado de entre el grupo que consiste en someter a sonicación o en digestión de restricción.