ES2247848T3

ES2247848T3 - Metodo de secuenciacion que utiliza señales de amplificacion.

Info

Publication number: ES2247848T3
Application number: ES99962453T
Authority: ES
Inventors: Preben Lexow
Original assignee: Individual
Current assignee: Individual
Priority date: 1998-12-23
Filing date: 1999-12-23
Publication date: 2006-03-01
Anticipated expiration: 2019-12-23
Also published as: US20040076998A1; CN101240330A; ATE302286T1; JP4741079B2; NO996337D0; DE69926797T2; NO996335D0; DE69926797D1; EP1141399A1; CA2354635C; US6723513B2; JP2011172573A; IL143732A; NO996339D0; EE200100340A; NO996336D0; NO996331D0; NO986133D0; AU1881000A; AU774389B2

Abstract

Método de conversión de la totalidad o parte de una molécula diana de ácido nucleico en una señal o secuencia ampliada que comprende por lo menos las etapas siguientes: a) si no está ya en forma soluble para unirse a una molécula adaptadora, convertir por lo menos una fracción de dicha secuencia diana en una forma adecuada para unir dicha molécula adaptadora, preferentemente en una forma de cadena simple; b) unirse a por lo menos una fracción de dicha zona adecuada para unir una molécula adaptadora que comprende una o más señales de amplificación o que comprende un medio para fijar una o más señales de amplificación, señales que representan una señal o secuencia detectable que corresponde a una o más bases de dicha secuencia diana, correspondiendo preferentemente a una o más bases de dicha zona adecuada para unir dicha molécula adaptadora a la que se une dicha molécula adaptadora o en la proximidad de dicha zona en la que si la señal de amplificación es una secuencia de ácido nucleico, comprende por lo menos dos bases; c) si no está ya fijada, fijando una o más de dichas señales de amplificación a dicha molécula adaptadora d) opcionalmente, cuando la molécula diana es de doble cadena, ligar dicha molécula adaptadora a la cadena de la molécula diana a la que no está unida de manera que por lo menos dichas señales de amplificación permanezcan asociadas a dicha molécula diana; e) repetir las etapas a) a d) en las que dicha molécula adaptadora se une a una zona adicional o solapante de dicha molécula diana en la que dichas moléculas adaptadoras y por consiguiente dichas señales de amplificación de cada ciclo de las etapas a) a d) forman una cadena simple que comprende una serie definida de señales o secuencias ampliadas.

Description

Método de secuenciación que utiliza señales de amplificación.

La presente invención se refiere a nuevos métodos de secuenciación en los que la información incorporada en cada base se amplía de manera eficaz, y a procedimientos que son particularmente adecuados para la secuenciación de moléculas largas de ácidos nucleicos en los que la información de la secuencia para fracciones de la secuencia y los detalles sobre las posiciones de los fragmentos en el interior de la secuencia están combinados, y a kits para la realización de dichos procedimientos.

Desde que Watson y Crick aclararon la estructura de la molécula de ADN en 1953, los investigadores genéticos han necesitado encontrar formas rápidas y económicas de secuenciar las moléculas individuales de ADN. Sanger/Barrell y Maxam/Gilbert desarrollaron dos nuevos métodos para la secuenciación del ADN entre 1975 y 1977 lo que representó la principal innovación en la tecnología de la secuenciación. Todos los métodos cuyo uso se extiende hoy en día están basados en el método de Sanger/Barrell y los desarrollos en la secuenciación del ADN en los últimos 23 años han consistido más o menos en modificaciones de este método.

En 1988, sin embargo, la tecnología de la secuenciación del ADN adquirió un enfoque enteramente nuevo. Liderados por los Estados Unidos, dieciocho países se unieron en el mayor proyecto individual quizás de la historia de la ciencia, la secuenciación del genoma humano completo de 3x10^{9} bp (el Proyecto del Genoma Humano, denominado también HGP) además de varios otros genomas más pequeños. En cuanto al día de hoy, el objetivo es acabar durante el año 2003. A pesar del hecho de que el proyecto invierte grandes recursos científicos y comporta un alto coste, los beneficios del proyecto se consideran lo suficientemente importantes como para justificar el coste.

Una parte importante del proyecto consiste en desarrollar nuevos métodos de secuenciación de ADN que sean tanto más valorados de manera razonable como más rápidos que la tecnología actual. En principio, estos pueden dividirse en técnicas a base de gel (principalmente nuevas variantes del método de Sanger/Barrell) y sin gel. Las técnicas sin gel probablemente presentan un potencial mayor y algunos de los métodos que se están probando son la espectrometría de masas, la citometría de flujo y la utilización de fragmentos génicos que hibridan pequeñas moléculas del ADN. Los métodos que son sustancialmente mejores que los métodos actuales producirían una revolución no solamente para la investigación génica sino también para la medicina moderna ya que proporcionarían la oportunidad para la experimentación génica extensa del paciente y pueden desempeñar una función importante en la identificación y desarrollo de fármacos. El potencial económico de tales métodos es naturalmente muy grande.

Utilizando las técnicas de secuenciación conocidas actualmente, se ha comprobado que es difícil ampliar la longitud de las secuencias que pueden leerse para cada reacción de secuenciación y la mayoría de los métodos utilizados actualmente están limitados entre aproximadamente 7 a 800 pares de bases por reacción de secuenciación. No es posible secuenciar más de una secuencia por reacción de secuenciación con los métodos ampliamente utilizados actualmente.

Para secuenciar muchas o largas secuencias, generalmente es necesario realizar muchas reacciones de secuenciación en paralelo (por ejemplo, para secuenciar un genoma humano biploide de seis billones de pares de bases, serían necesarias varios millones de reacciones de secuenciación paralelas). Este es un cuello de botella considerable porque el número total de procesos, la utilización de enzimas y reactivos, el número de cebadores exclusivos requeridos, etc. son a menudo directamente proporcionales al número de reacciones de secuenciación que se deben realizar. Además, con frecuencia han de dedicarse recursos a las secuencias solapantes de la secuenciación. Además, deben realizarse diferentes tipos de trabajo de organización, tales como la formación y clasificación de un banco de ADN. Asimismo es necesario invertir recursos para aislar una posible secuencia diana si se encuentra entre otras secuencias.

A fin de ilustrar los problemas fundamentales que limitan la longitud de las reacciones de secuenciación, es apropiado dividir los métodos de secuenciación utilizados actualmente y en desarrollo en dos grandes grupos (existen métodos individuales que caen fuera de esta división, pero representan una pequeña minoría). En el primer grupo, se tienen los métodos basados en el intervalo de tamaño de los polinucleótidos. El punto de partida consiste en construir uno o más escalones de polinucleótido en los que todas las moléculas tengan un extremo común y otro arbitrario. Por ejemplo, los métodos de secuenciación clásicos de Sanger y Maxam-Gilbert están basados en cuatro escalones de secuencia que representan cada una de las cuatro bases A, C, G y T.

El factor limitativo con respecto a la longitud de una reacción de secuenciación que puede ser leída es que uno debe ser capaz de distinguir entre los polinucleótidos que varían solamente en un monómero. Cuanto más largos sean los polinucleótidos en el escalón de la secuencia, más cortas serán las diferencias relativas de tamaño entre los polinucleótidos. La mayoría de estos métodos de determinación del tamaño de las moléculas alcanza rápidamente por esta razón un límite en el que no es posible distinguir entre dos polinucleótidos adyacentes.

En el otro grupo los métodos se basan en un principio diferente. Mediante la identificación de piezas cortas de secuencias que están presentes en una molécula diana, puede reconstruirse la secuencia diana utilizando los solapamientos entre las piezas de la secuencia.

Por esta razón, en muchos métodos de secuenciación las moléculas diana se fragmentan en piezas más pequeñas, se deduce la composición de cada fragmento y al encontrar las secuencias de solapamiento se construye la secuencia original. Por ejemplo, se han creado micromatrices con 65.536 direcciones en las que cada dirección contiene octámeros exclusivos. De este modo se incluyen todas las permutaciones con los octámeros (4_{8}=65.536). Si a continuación las moléculas diana se señaln con fluorescencia y se hibridan con los octámeros, puede obtenerse la información acerca de qué piezas de la secuencia están presentes en la secuencia diana registrando las direcciones que han sido marcadas con fluorescencia.

Un factor limitativo importante con respecto a la longitud de las reacciones de secuenciación que puede utilizarse es el siguiente problema de combinatoria. Cuanto más larga es la reacción de secuenciación que se debe realizar, más largas deben ser las secuencias para realizar la reconstrucción de la posible secuencia diana. Sin embargo, el número de permutaciones que han de probarse aumenta exponencialmente con la longitud de las piezas de la secuencia que han de identificarse. Esto aumenta de manera equivalente la necesidad de direcciones únicas en las micromatrices.

Una utilización alternativa de las micromatrices es la resecuenciación de secuencias conocidas, por ejemplo, por cribado de las mutaciones génicas en una población. Con este propósito, pueden ajustarse los oligonucleótidos a la secuencia conocida para que pueda reducirse el número de direcciones requeridas y pueda aumentarse la longitud de las piezas de la secuencia que se identifican. Sin embargo, el diseño de micromatrices con fines específicos es costoso y requiere recursos y actualmente existen solamente micromatrices para unas pocas secuencias de ADN. Como el genoma humano consta de más o menos entre 100 y 140.000 genes, sería muy oneroso en recursos agrupar los genomas de la secuencia humana de esta manera.

Otro inconveniente de utilizar micromatrices es que las limitaciones de la tecnología de construcción actual (por ejemplo, fotolitografía) no permiten crear píxeles de menos de aproximadamente 10x10 micrómetros. Por esta razón, sólo se utiliza una fracción del potencial de resolución del escáner de fluorescencia. Los escáneres de fluorescencia actuales son capaces de distinguir píxeles de 0,1x0,1 micrómetros, lo que significa que las micromatrices pueden contener 10.000 veces como mucho la información que contienen actualmente. Por consiguiente presentaría ventajas desarrollar nuevos métodos/principios de identificación de piezas de secuencias largas en las que los problema de combinación mencionados anteriormente podrían evitarse.

Asimismo presentaría ventajas desarrollar nuevos métodos/principios que permitan la secuenciación de secuencias diana largas sin que la longitud de las piezas de secuencia que deben ser identificadas aumente exponencialmente con la longitud de la secuencia diana.

Otro método de secuenciación (por ejemplo como el incorporado en la solicitud de patente U.S. nº 5.714.330) que se basa en la identificación de piezas de secuencias consiste en distribuir ADN diana fragmentado sobre una placa de lectura. Después, se trata el ADN diana para que una señal de fluorescencia que representa uno o varios de los primeros pares de bases se fije al ADN diana. Las señales de fluorescencia para cada posición se leen antes de que se repita el procedimiento con el/los siguiente(s) par(es) de bases en el ADN diana. Cuando las moléculas de ADN hayan fijado las posiciones en la placa de lectura, es posible construir piezas más largas con la información de la secuencia ejecutando varios ciclos.

La capacidad para leer varios pares de bases por ciclo está limitada debido a que el número de señales únicas de fluorescencia que se necesita aumenta exponencialmente con el número de pares de bases. Para leer un par de bases, se necesitan cuatro colores, dos requieren 16, tres requieren 64, etc. Es dudoso que la tecnología actual permita distinguir entre 64 colores diferentes de fluorescencia. No obstante, las solicitudes de tiempo de lectura y los costes incrementarían considerablemente con la utilización de múltiples colores. La solución sería entonces realizar muchos ciclos. Esto significa a su vez un aumento del número de etapas enzimáticas y de lecturas de fluorescencia.

Incluso si fuese posible identificar piezas de secuencia relativamente largas con la estrategia mencionada anteriormente, se encontrarían importantes problemas en la reconstrucción. El ADN biológico es muy poco aleatorio en su composición. Las secuencias cortas y largas se repiten con frecuencia en varios lugares en un nivel "macro" y "microscópico". La reconstrucción es particularmente difícil en las áreas con secuencias de ADN repetidas. Estas con frecuencia pueden ser de interés biológico; por ejemplo la longitud de "repeticiones" de trinucleótidos.

Hasta ahora no se ha desarrollado un nuevo método que permita superar los problemas mencionados anteriormente. Sorprendentemente se ha descubierto que si la información de la secuencia que se obtiene está ligada a la información de la posición (es decir, la información de la posición de esta secuencia en una secuencia diana), pueden identificarse secuencias largas con precisión. Además, la presente invención proporciona nuevos métodos de secuenciación que pueden utilizarse con o sin información de la posición en los que la señal asociada a una o más bases está ampliada, denominados en la presente memoria amplificación.

Por lo tanto, según un primer aspecto, la presente invención proporciona un método de secuenciación de todas o parte de las moléculas diana de ácido nucleico que comprende por lo menos las etapas siguientes:

a) determinar la secuencia de un fragmento de dicha molécula de ácido nucleico;

b) determinar la posición de dicho fragmento en dicha molécula de ácido nucleico; y

c) combinar la información obtenida en las etapas a) y b) para obtener la secuencia de dicha molécula.

Se determinan la secuencia y posición de las múltiples fracciones, de manera apropiada, y se combina esta información.

Tal como se utiliza en la presente memoria la molécula diana de ácido nucleico se refiere a cualquier molécula de polinucleótido natural o sintético, por ejemplo, ADN, tal como genómico o ADNc, ARN, por ejemplo, ARNm, APN y sus análogos, que cuando procede pueden ser de cadena simple, doble o triple. La parte que se debe secuenciar comprende preferentemente toda la molécula diana, pero, por ejemplo, puede ser menos de la molécula completa, por ejemplo, entre 4 bases y 1 kb, por ejemplo, 4 a 100 bases.

Preferentemente la fracción que se secuencia tiene 4 o más bases y/o la posición de dicha fracción en dicha molécula diana se determina con una precisión menor de 1 kb (es decir, con una resolución menor de 1 kb), en particular preferentemente menos de 100 bases, en especial preferentemente menos de 10 bases. A una resolución de unas pocas kb o mejor, normalmente no es necesario obtener la información de la secuencia en los fragmentos más largos de 8 a 10 bases la cual se consigue fácilmente por los métodos descritos en la presente memoria.

La información de la secuencia puede obtenerse de cualquier manera apropiada y se obtiene de manera apropiada para una o más bases, en especial preferentemente 2 o más bases, por ejemplo, 2 a 20 bases, de manera apropiada 4 a 10 bases. Como se apreciará es imperativo que la técnica de secuenciación descrita anteriormente que se basa en la colocación de las fracciones de la secuencia en la molécula diana, permita la retención de la información de la posición que puede ser evaluada simultánea o independientemente de la información de la secuencia. A continuación se describen numerosas técnicas apropiadas.

La información de la posición puede obtenerse igualmente de numerosas formas convenientes y estos métodos se describen también a continuación.

Tal como se mencionó anteriormente, en este aspecto de la invención, la secuencia que se obtiene debe estar ligada por la información a esta posición en la secuencia diana. Esto puede conseguirse de numerosas maneras, por ejemplo secuenciando la zona terminal o interna de una molécula de ácido nucleico y estableciendo su posición con referencia a un indicador de posición que puede ser, por ejemplo, el tamaño de la molécula (por ejemplo, la longitud o el volumen), la intensidad de una señal generada o la distancia a un marcador o anclaje de posición. Puede obtenerse información de la secuencia realizando uno o más ciclos de reacción de secuenciación.

Como se mencionó anteriormente, una de las dificultades en las moléculas largas de secuenciación es que cada vez es más difícil distinguir los diferentes tamaños relativos de las moléculas que varían únicamente en una sola base a medida que se hacen más largas. En una forma de realización, la presente invención supera este problema particular "ampliando" la diferencia de tamaño, intensidad, longitud o señal entre las moléculas. Por esta razón, en un aspecto preferido la presente invención proporciona un método de secuenciación de toda o parte de la secuencia de una molécula diana de ácido nucleico en la que 2 o más bases (por ejemplo, 3 o más, preferentemente 4 o más) son secuenciadas por ciclo de secuenciación y/o se amplia la señal asociada a cada base.

Tal como se utiliza en la presente memoria un "ciclo" de secuenciación se refiere a la ejecución de la serie de etapas resultantes de un producto final que puede ser procesado para obtener la información de la secuencia, por ejemplo, generando o leyendo una señal de la misma. Preferentemente en las reacciones de amplificación y secuenciación descritas en la presente memoria se realiza más de un ciclo, por ejemplo, 2 o más ciclos, en especial preferentemente más de 4 ciclos, por ejemplo, hasta 10 ciclos.

"Amplificación" de una señal asociada a una base se refiere al aumento de una señal que está asociado a una sola base o puede ser atribuido a la misma. Éste puede ser, por ejemplo, un aumento de tamaño (cuando la señal sea el tamaño de la base) o un desarrollo de una nueva señal, por ejemplo, la adición o asociación de una señal u otro medio de señalización con esta base.

El aumento de longitud de las fracciones de secuencia que se identifican puede compensar la baja precisión en la determinación del tamaño. Por consiguiente, el potencial de la espectrometría de masas, de la clasificación en el gel y de métodos similares que pueden utilizarse, al mismo tiempo que se permite la utilización de los métodos de determinación de tamaño que actualmente no son suficientemente precisos, por ejemplo, citometría de flujo, alargamiento del ADN, etc.

La amplificación de la diferencia entre las moléculas puede conseguirse de varias formas. En primer lugar, pueden secuenciarse varias bases (por ejemplo, 4 o más) por ciclo de modo que las moléculas resultantes difieran en longitud en 2 o más bases y por consiguiente puedan discriminarse por ejemplo, en un escalón de secuenciación que simultáneamente proporcione información de la posición (véase por ejemplo, el Ejemplo 17). Por otra parte la información incorporada por cada base puede ser ampliada haciendo más fácil la discriminación. A continuación se describen ejemplos de estas técnicas diferentes.

La secuenciación de 2 o más bases (por ejemplo, 4) por ciclo puede realizarse por cualquier técnica apropiada. En los métodos de secuenciación basados en la información de la posición, puede utilizarse cualquier técnica con la condición de que la información de la secuencia que se obtiene pueda volver a relacionarse con la posición de aquellas bases en la molécula diana. En dichos casos, por ejemplo, puede emplearse la hibridación con sondas complementarias (por ejemplo, transportadas en un soporte sólido) en la cual la identidad de las sondas a las que se unen las moléculas diana son indicadoras de la secuencia terminal de una molécula diana. Por ejemplo, pueden utilizarse los soportes sólidos que llevan sondas complementarias a todas las permutaciones de 2 bases, es decir que llevan 16 sondas diferentes. Asimismo, las sondas para todas las permutaciones de 4 bases, es decir 256 sondas diferentes pueden estar unidas a un soporte sólido para la captura de moléculas diana con secuencias complementarias.

En un procedimiento a título de ejemplo, todas las moléculas diana que no terminan en AAAA (cuando la sonda termina en TTTT) no se unirían y serían eliminadas. Asimismo en otros estudios, las moléculas diana con determinadas secuencias finales se unirían de manera selectiva. Las moléculas diana pueden ser de doble cadena (con prolongaciones de cadena simple) o de cadena simple de modo que las secuencias podrían estar unidas a los extremos terminales e identificadas con ellos o también internamente, respectivamente. Si se utilizó APN como sonda complementaria, como dichas moléculas son capaces de unirse a las formas de doble cadena, las secuencias internas de las formas de doble cadena también podrían estar unidas. En general, los términos de esta técnica se refieren en la presente memoria a la clasificación basada en un o varios pares de bases finales y puede realizarse en uno o más ciclos. Esta técnica puede acoplarse a otras técnicas descritas en la presente memoria.

Al contrario de la técnica descrita anteriormente, la secuenciación puede realizarse fijando el ADN diana de doble cadena a un sustrato sólido. El ADN diana puede mezclarse e hibridarse a continuación, por ejemplo con adaptadores de 16 fragmentos. Los adaptadores se describen a continuación, pero generalmente se refieren a moléculas que adaptan la secuencia diana a una secuencia diana con señal aumentada o ampliada. Los adaptadores que no han sido hibridazos se lavan por arrastre a continuación en la solución. Esto deja únicamente los adaptadores con prolongaciones que son complementarios con el ADN de una cadena simple. Con la ayuda, por ejemplo, de los métodos de análisis descritos en la presente memoria se puede demostrar qué adaptadores permanecen en la solución y por consiguiente qué piezas de secuencia de 16 pares de bases están contenidas en el ADN.

Esta técnica de secuenciación representa una particularidad preferida de la invención cuando se realiza juntamente con la información de la posición o cuando se utiliza una técnica de secuenciación sola. En este método se amplia la información realizada por una sola base, por ejemplo por multiplicación de esta base o sustitución o aumento de esta base con una señal de amplificación que puede utilizarse para generar una señal. (Amplificación tal como se menciona en la presente memoria se denomina también en algunos casos "conversión").

La amplificación de una molécula diana de ácido nucleico puede conseguirse por multiplicación, (por ejemplo, duplicando una molécula diana, o un fragmento de la misma que contenga el fragmento que debe secuenciarse, una o más veces. Se apreciará que la detección de las diferencias entre las moléculas por ejemplo, de 10 y 11 bases es más difícil que la detección de la diferencia entre las moléculas ampliadas de 320 y 352 bases (duplicadas 5 veces). Por consiguiente puede utilizarse el principio del duplicado, por ejemplo, para mejorar la mayoría de los métodos de análisis del ADN. En el Ejemplo 11 se describe una técnica apropiada para conseguir esto. Pueden utilizarse también otras técnicas apropiadas.

Este método puede utilizarse por consiguiente para mejorar la mayoría de los métodos basados en la detección de las diferencias de tamaño entre las moléculas de ácido nucleico, por ejemplo, las técnicas a base de gel o sin gel. Esta estrategia también permite analizar el material del ácido nucleico utilizando las técnicas que no son lo bastante sensibles para distinguir la diferencia de unos pocos pares de bases. Por ejemplo, es posible un método mejorado de Maxam-Gilbert en el que una molécula de ácido nucleico de una cadena simple (por ejemplo, con 5'-biotina) está unida a una placa que lleva estreptavidina. Se realiza a continuación la secuenciación y las placas lavadas después con las moléculas de ácido nucleico resultantes se multiplican, por ejemplo, 10 veces, produciendo etapas de 1.024 pares de bases. Estas longitudes pueden determinarse mediante una de las técnicas analíticas descritas a continuación.

Por lo tanto vista desde un aspecto adicional la presente invención proporciona un método de secuenciación de la totalidad o parte de una molécula diana tal como se describe en la presente memoria en el que la señal asociada a cada base (o más de una base) se amplía aumentando el número de veces que dicha base aparece en dicha secuencia.

Tal como se utiliza en la presente memoria la "señal" atribuida a una base determinada (o más de una base) se refiere a la posibilidad de detectar esta base (o conjunto de bases) en virtud de sus propiedades bien directa o indirectamente. Por lo tanto ésta podría referirse a sus propiedades, por ejemplo, de tamaño, carga o configuración espacial que pueden detectarse directa o indirectamente o por asociación a una o más moléculas adicionales, por ejemplo, marcando grupos con dicha base a partir de los cuales puede generarse una señal directa o indirectamente. De este modo puede proporcionarse una señal que puede ser detectada directamente o pueden proporcionarse unos medios de señalización mediante los cuales puede generarse una señal. La señal puede ser única para más de una base, es decir, la señal puede ser indicadora o representativa de un par de bases, por ejemplo, puede utilizarse una señal para AA que sea diferente de la señal utilizada para AT, etc. A continuación se describen con más detalle diferentes mecanismos para asociar dichas moléculas y señales que pueden generarse.

Una técnica de amplificación más preferida implica la asociación de una o más señales únicas (o medios de producción de dichas señales) con una o más bases en una secuencia. Cuando dichas señales se asocian con más de una base, ésta puede conseguirse utilizando una serie de señales (o medios de señalización) correspondiendo cada una a una o más bases o una sola señal (o medios de señalización) única para dos o más bases. Estas señales se realizan de manera apropiada en señales de amplificación que pueden llegar a estar unidas a la secuencia mediante una molécula adaptadora. "Asociación" tal como se utiliza en la presente memoria se refiere a ambas sustituciones de dicha base (o más de una base) con dicha señal (o medios de señalización) o a la adición de dicha señal (o medios de señalización) a dicha base (o más de una base) de modo que coexistan. La señal (o medios de señalización) no necesita necesariamente estar unida directamente (o sustituir específicamente) a la base (o más de una base) a la que está asociada y la asociación puede ser indirecta por ejemplo, mediante la intermediación de una o más moléculas adicionales. La asociación puede ser mediante cualquier interacción química apropiada, por ejemplo, hidrófoba, iónica, covalente, etc., pero preferentemente es mediante interacción covalente con la molécula diana de ácido nucleico o con la molécula asociada.

"Correspondiente" tal como se utiliza en la presente memoria se refiere a la relación entre una base y una señal, por ejemplo como la proporcionada por una señal de amplificación, que puede leerse como indicadora de la presencia de esta base determinada. Alternativamente en el contexto del procedimiento de cartografía esto se refiere a la relación entre una nucleasa y una señal utilizada como marcador indicador de escisión con esta nucleasa.

Tal como se utiliza en la presente memoria una "señal de amplificación" es una sola molécula o complejo de moléculas que comprende una parte de la señal que proporciona un medio para generar una o más señales, por ejemplo, que lleva una señal o un punto al que puede unirse una señal. Los medios para generar una o más señales pueden incorporarse en los casos en los que se necesita otra información aparte de la información de la secuencia, por ejemplo, como indicador de información relativa a la molécula diana o al protocolo de escisión que se utilice. Una señal de amplificación puede llevar inherentemente una fracción adicional para asociarse de manera específica con una o más bases de nucleótido, por ejemplo, cuando la señal de amplificación sea un polinucleótido. En este caso la señal se considera que comprende además el adaptador tal como se describe en la presente memoria. Alternativamente, la señal de amplificación puede unirse a un adaptador o contener los medios para su unión al mismo, lo que permite la unión a una secuencia diana.

En términos generales un ejemplo del procedimiento puede describirse de la forma siguiente. Los pares de bases en el material del ácido nucleico diana están relacionados con cuatro señales diferentes (denominadas en lo sucesivo señales de amplificación) que representan cada una de las cuatro bases Adenina, Citosina, Guanina y Timina. De este modo, cuando exista un par de bases A-T está asociado a la "señal A de amplificación", C-G está asociado a la "señal G de amplificación", etc. De este modo se generan nuevas moléculas de ADN en las que el orden de las bases originales por ejemplo, de ACGTT aumenta por la "señal A de amplificación", "señal C de amplificación", "señal G de amplificación", etc. Cada señal de amplificación proporciona medios para producir una señal y pueden consistir en una característica preferida en una molécula de polinucleótido. En este caso la longitud de las cuatro señales puede oscilar desde dos pares de bases hasta varios centenares de kbp (o más si se desea), según los requisitos. Según el caso, los fragmentos de ADN pueden contener genes indicadores y otras informaciones biológicas o estar constituidos únicamente por secuencias sin una función biológica conocida.

Puede utilizarse cualquier señal de amplificación conveniente, pero desde luego es imperativo para los fines de secuenciación que por lo menos existan 4 únicas señales, es decir, para cada base. Desde luego la señal que debe utilizarse depende de la técnica de secuenciación y, cuando se realice ésta, se utiliza el método para extraer la información de la posición.

Las señales pueden facilitarse de numerosas formas alternativas. La señal tiene medios de detección directa o indirecta mediante la generación de señales exclusivas, es decir la señal comprende uno o más medios de señalización. La fluorescencia, radiación, magnetismo, paramagnetismo, carga eléctrica, tamaño y volumen son ejemplos de las propiedades con las que las partículas de la señal de amplificación pueden estar equipadas para poder detectarlas y separarlas entre sí. Estas propiedades pueden estar presentes en una o más señales presentes en las señales de amplificación, cuyas señales pueden detectarse directa o indirectamente. Las señales apropiadas son aquellas que directa o indirectamente permiten la detección y/o determinación de la señal de amplificación mediante la generación de una señal. Dichas señales comprenden por ejemplo radiomarcadores, señales químicas (por ejemplo, EtBr, TOTO, YOYO y otros colorantes), cromóforos o fluoróforos (por ejemplo, colorantes tales como fluoresceína y rodamina) o reactivos de alta densidad electrónica tales como ferritina, hemocianina u oro coloidal. Alternativamente, la señal puede ser una enzima, por ejemplo peroxidasa o fosfatasa alcalina, en la que la presencia de la enzima se visualice mediante su interacción con una entidad adecuada, por ejemplo un sustrato. La señal puede también formar parte de un par de señalización en el que el otro elemento del par pueda introducirse en íntima proximidad, por ejemplo, pueden utilizarse un compuesto fluorescente y un sustrato fluorescente de extinción.

También puede proporcionarse una señal en una entidad diferente, tal como un anticuerpo, que reconozca por lo menos una zona de la señal de amplificación, por ejemplo, un fragmento de péptido de la señal de amplificación. Si la señal de amplificación es un polinucleótido, una manera en la cual puede introducirse una señal consiste, por ejemplo, en unir un socio de unión adecuado que lleve una señal, por ejemplo, sondas fluorescentes marcadas o proteínas de unión al ADN. De este modo, alternativamente la señal puede llevar una molécula o ser ella misma una molécula a la cual puede unirse una señal, por ejemplo, en virtud de su secuencia. Las señales pueden estar unidas como moléculas individuales o en forma de micropartículas, nanopartículas, liposomas u otras formas apropiadas de portador.

En un aspecto preferido, las propias señales de amplificación son secuencias de ácido nucleico de por lo menos dos bases, por ejemplo, de 30 a 1.000 bases, preferentemente de 6 a 100 bases, en especial preferentemente de 10 a 30 bases de longitud. Estas secuencias pueden presentar una o más señales unidas a ellas, por ejemplo mediante la utilización de sondas fluorescentes, proteínas y similares complementarias a estas secuencias, a partir de las cuales puede generarse una o más señales. Alternativamente, las moléculas de proteína pueden comprender la señal o estar unidas a la señal y pueden reconocerse, por ejemplo, mediante inmunorreactivos o mediante otros socios de unión apropiados, por ejemplo, ADN: proteínas que se unen al ADN. También pueden examinarse otras propiedades de dichas moléculas con señal, por ejemplo, modelos de escisión (por enzimas de restricción o proteinasas), carga, tamaño, forma, etc.

Las señales de amplificación pueden también contener información en virtud de su secuencia que puede utilizarse para generar una señal. Por lo tanto, otra estrategia alternativa consiste en crear cadenas que contengan genes indicadores, elementos cis-reguladores y similares. Éstos pueden transferirse o transformarse en las células en las que la composición por ejemplo de los genes indicadores o de los elementos cis-reguladores se transformen en una o varias señales. Aunque esta técnica requiere una etapa de transformación/transfección, las células pueden programarse para realizar la reacción de secuenciación completa incluyendo la etapa de conversión (es decir, la adición de señales de amplificación). Puede generarse un repertorio enorme de señales, tal como la utilización de genes que expresan proteínas de fluorescencia o proteínas de membrana que pueden marcarse con fluorescencia, genes que expresan resistencia a los antibióticos, etc. Puede aprovecharse la calidad, cantidad y posición de la señal además de los cambios a lo largo del tiempo y otras propiedades para indicar la presencia de determinadas bases en una secuencia.

En estos métodos se utilizan de manera apropiada células aisladas, aunque podrían también utilizarse organismos o estructuras multicelulares. Podrían también utilizarse células no vivas equivalentes para la generación de las señales o señales, por ejemplo, utilizando nanotecnología. Cuando proceda, las señales que se generan pueden dirigirse a diferentes posiciones para su identificación, por ejemplo, mediante la utilización de diferentes activadores. En el Ejemplo 18 se presentan ejemplos de cómo puede realizarse esta técnica.

Aunque pueden utilizarse de manera apropiada 4 señales de amplificación específicas para cada una de las bases de nucleótido, como se mencionó anteriormente, cuando proceda pueden utilizarse señales de amplificación para generar señales exclusivas a más de una base. De este modo, por ejemplo, para los métodos de lectura en los que, por ejemplo, pueden utilizarse 16 fluoróforos diferentes, puede ser apropiado utilizar 16 señales diferentes que se utilizan para generar 16 señales diferentes que representan todas las permutaciones de dos pares de bases.

En otros contextos, puede ser apropiado utilizar menos de cuatro señales diferentes. Por ejemplo, únicamente dos señales de amplificación en las que una sea para A/T mientras que la otra sea para C/G. Otra alternativa consiste en utilizar menos de 4 casos de señal única para crear 4 señales de amplificación que den lugar a 4 señales únicas (en los casos en los que las bases individuales estén señaldas) en virtud de determinadas combinaciones de los casos con señal. La información de secuenciación puede transformarse, por ejemplo, en un sistema binario. En este sistema, la adenina puede transformarse en una serie de casos con señal "0"+"0", citosina en "0"+"1", guanina en "1"+"0" y timina en "1"+"1". En principio, entonces es suficiente con tener uno o quizás dos colores o señales exclusivas para leer la información de la secuenciación. Esto puede a su vez significar que pueden utilizarse escáneres de fluorescencia menos costosos al mismo tiempo que la lectura es más rápida que si se han utilizado varias señales. La utilización de un solo medio de señalización ordenado espacialmente proporciona por lo menos 4 señales de amplificación exclusivas, por ejemplo, para producir una lectura de tipo binario que forme un aspecto preferido de la invención, es decir que dicha señal comprenda un modelo construido de un caso de una sola señal que cree una única señal en dicha señal de amplificación. En este caso un caso de señal se refiere a una señal que se puede medir por ejemplo, la fluorescencia de una sola molécula u otra de dichas señales. Cuando se utilizan múltiples señales de amplificación, preferentemente de 20 a 100 señales, éstas están preferentemente relacionadas linealmente, por ejemplo, como un fragmento largo de ADN, para permitir que se conserve la información de las posiciones cuando ésta se requiera.

La asociación de la señal (aunque no directamente necesaria, por ejemplo, ésta puede tener lugar mediante un adaptador) con la base (o más de una base) la cual representa se basa en el reconocimiento de la base específica por ejemplo, mediante complementariedad base a base. Sin embargo, la complementariedad mencionada en la presente memoria incluye el emparejamiento de nucleótidos en el emparejamiento de bases de Watson-Crick además del emparejamiento de nucleósidos análogos, por ejemplo, desoxiinosina que es capaz de hibridación específica con la base en la molécula de ácido nucleico diana y otros análogos que producen dicha hibridación específica, por ejemplo, APN, ARN, ADN y sus análogos.

Por lo tanto, podrían utilizarse sondas que estén construidas, por ejemplo, de secuencias de ADN, ARN o APN o híbridos de las mismas, tales como oligonucleótidos, por ejemplo, de 4 a 20 bases, preferentemente de 6 a 12 bases de longitud que se unen a zonas específicas de una molécula diana (en la que la secuencia de complementariedad está presente) y hayan acoplado a ésta una señal o serie de señales de amplificación, en la que cada señal representa una o más bases de nucleótido a las que se une la sonda. En este caso la sonda actúa como molécula adaptadora que facilita la unión de la señal a la secuencia diana. Alternativamente, pueden utilizarse mezclas de sondas degeneradas únicamente con una o más bases invariables específicas en una determinada posición, por ejemplo, NNNNAA. Preferentemente el número de señales de amplificación que están presentes corresponde al número de bases específicas de la sonda a la que se unen, que llegarás a estar unidas. Sin embargo, si se preparan señales exclusivas para 2 o más permutaciones de bases se requieren menos señales según el caso.

Esta técnica puede utilizarse para identificar fragmentos o partes discretos de una molécula diana o para obtener la secuencia de toda o esencialmente toda la secuencia de la molécula diana.

Una alternativa de secuenciación más elegante sin embargo consiste en proporcionar la producción de una cadena de señales de amplificación contigua a las señales a partir de las cuales puede leerse para deducir la secuencia. Aunque existen otros modos de conseguir este efecto la técnica más conveniente implica la inserción de las señales de amplificación en la molécula diana. En especial preferentemente esta reacción se realiza cíclicamente permitiendo la conversión y lectura de la secuencia última de una serie de bases.

A fin de insertar las señales de amplificación en la molécula diana conjuntamente con la base (o más de una base) que se debe ampliar es necesario utilizar la complementariedad con esta base (o más de una base) o el reconocimiento de la misma y de las bases circundantes. Esta complementariedad puede utilizarse para introducir directamente una señal de amplificación o puede utilizarse para iniciar un procedimiento que introduzca finalmente una señal correspondiente con esta base (véase el Ejemplo 4).

Esto se consigue de manera apropiada creando una prolongación (es decir, una zona que sea de una cadena simple) en la molécula diana de ácido nucleico que podría estar ligada a una señal de amplificación. (Dicha prolongación sin embargo no es necesaria cuando una molécula de señal o su intermediario, por ejemplo, su adaptador, pueda reconocer y unirse a las formas de doble cadena, por ejemplo, APN). Un método consiste en ligar los extremos de la molécula diana con las moléculas cortas de ADN que contienen un punto de unión para una enzima de restricción que se escinde fuera de su propia secuencia de reconocimiento, por ejemplo las enzimas de restricción de clase IP o IIS. Estas enzimas no presentan especificidad para la secuencia que se corta y pueden generar por consiguiente prolongaciones con todos los tipos de composiciones de bases. El punto de unión puede estar situado de modo que se forme una prolongación en el interior de la molécula diana existente, por ejemplo, ADN cuando las moléculas de ADN se incuban con la enzima de restricción en cuestión. En la práctica, se prefiere probablemente seleccionar las enzimas que generan 3 a 4 ampliaciones de pares de bases (véase el Ejemplo 19 que presenta el procedimiento general para producir dichas prolongaciones en las moléculas diana que se han ampliado y unido a un soporte sólido).

Se han identificado más de 70 clases de endonucleasas de restricción IIS y existen grandes variaciones tanto con respecto a la especificidad del sustrato como al modelo de escisión. Además, se ha demostrado que estas enzimas son muy apropiadas para experimentos de "intercambio de módulos" a fin de que se puedan crear nuevas enzimas para determinados requisitos (Huang-B, et al.; J-Protein-Chem., 1996, 15(5):481-9, Bickle, T.A.; 1993 en Nucleases (2ª ed.), Kim-YG et al., PNAS 1994, 91:883-887). Por consiguiente, según los principios descritos en la presente memoria, pueden utilizarse muchísimas combinaciones y variantes de estas enzimas.

Se han utilizado endonucleasas de restricción de clase IIS con varias finalidades diferentes. Por ejemplo, como endonucleasas de restricción universales que pueden escindir un sustrato de una cadena simple y casi cualquier secuencia predeterminada (Podhajska, A.J., Szybalski, W.; Gene 1985, 40:175-182, Podhajska, A.J., Kim. S.C., Szybalski, W.; Methods in Enzymology; 1992, 216:303-309, Szybalski, W.; Gene 1985, 40:169-173).

En los contextos de secuenciación se han utilizado en el método mencionado anteriormente descrito en la solicitud de patente U.S. nº 5.714.330. Sin embargo, en estos casos no se consideró la introducción de múltiples señales de amplificación que permanecen asociadas con la molécula diana.

La escisión con enzimas IIS produce prolongaciones de varias longitudes, por ejemplo, de -5 a +6 bases de longitud. Una vez se ha creado una prolongación, las señales de amplificación, que pueden ser transportadas en adaptadores, correspondientes a una o más de las bases en la prolongación pueden estar unidas a la prolongación.

A continuación se describen numerosas formas diferentes en las que las señales de amplificación pueden estar incorporadas utilizando el sistema IIS o sistemas similares.

La técnica descrita en primer lugar implica la utilización de adaptadores que llevan una o más señales de amplificación y que presentan una prolongación complementaria a la molécula diana de ácido nucleico que ha sido modificada para generar una zona de cadena simple, es decir, una prolongación. El propio adaptador también lleva el sitio de reconocimiento para una enzima IIS adicional que puede ser la misma o diferente de la enzima utilizada para generar la prolongación. En el Ejemplo 1 se ilustra un ejemplo de esta técnica.

En resumen, la secuencia diana está ligada a un vector que él mismo lleva una secuencia IIS próxima al punto de inserción o la secuencia diana está modificada genéticamente para contener dicho punto. La enzima IIS apropiada se utiliza a continuación para escindir la secuencia IIS que cuando se coloca de manera apropiada produce una prolongación en la secuencia diana. En una forma de realización, se trunca por lo menos un extremo del vector de corte, por ejemplo, mediante la utilización de un punto adicional en la enzima de restricción adyacente a la IIS.

A continuación pueden utilizarse adaptadores apropiados para unirse a una o más bases de la prolongación, y por consiguiente permitir la amplificación de la misma. En caso de amplificación de una sola base degeneran los adaptadores que tienen fragmentos de la forma de una cadena simple, por ejemplo, para una prolongación de cuatro bases, ANNN, TNNN, CNNN y GNNN y pueden utilizarse las señales de amplificación A, T, C y G, respectivamente. Alternativamente los adaptadores pueden llevar más de una señal de amplificación correspondiente a más de una de las bases de la prolongación, por ejemplo, con una prolongación de ATGC, con las correspondientes señales de amplificación para una o más de las bases unidas de manera lineal cuando proceda.

Una vez se han hibridado la prolongación del adaptador y el vector escindido, estas moléculas pueden ligarse. Esto se conseguirá únicamente cuando toda la complementariedad a lo largo de toda la extensión de la prolongación se alcance y ayude a la especificidad de la reacción. A continuación puede efectuarse la ligadura del extremo truncado para unir el otro extremo del adaptador al vector. Mediante la colocación apropiada de una secuencia IIS adicional (o de otra secuencia apropiada de la enzima de restricción) que puede ser igual o diferente a la enzima utilizada anteriormente, puede efectuarse la escisión de modo que se cree una prolongación en la secuencia diana corriente arriba de la secuencia a la que se dirigió el primer adaptador. De este modo las secuencias adyacentes o solapantes pueden convertirse sucesivamente en secuencias que llevan señales de amplificación, cuyas señales pueden leerse posteriormente para determinar la secuencia por los métodos descritos en la presente memoria. La secuenciación de las secuencias solapantes permite de manera eficaz la comprobación de la lectura de las secuencias que han sido leídas en los ciclos anteriores permitiendo la verificación.

En el Ejemplo 2 se presenta una ligera modificación de esta técnica en la que no se produce un extremo truncado, pero en su lugar una vez se ha producido el vector y se ha efectuado la escisión con la enzima IIS o similar, se utiliza una enzima de restricción adicional que crea una prolongación que es universalmente complementaria de la terminal de todos los adaptadores que se insertan en el vector. Esto igualmente permite la ligadura del adaptador y por consiguiente las señales de amplificación en el vector.

Un ejemplo similar pero más elaborado se ilustra en el Ejemplo 3. En este caso se crean prolongaciones no complementarias que corresponden a alargamientos adyacentes del ADN. Éstos se hibridan a adaptadores que han unido señales de amplificación apropiadas. Solamente uno de los adaptadores contiene la secuencia de la enzima de restricción para el ciclo siguiente para que la secuenciación tenga lugar en una dirección. Obviamente para permitir la unión de los adaptadores con estas propiedades diferentes, las prolongaciones de los alargamientos adyacentes del ADN deben ser discriminables, por ejemplo, ser de diferente longitud. Esto se puede conseguir utilizando diferentes enzimas de restricción que produzcan diferentes longitudes de prolongación. Los extremos de dos tipos diferentes de adaptadores son complementarios de forma intencionada y por esta razón se hibridarían y pueden ligarse para formar el vector. La secuencia de restricción en el adaptador que la contiene está colocada de manera apropiada de modo que el sitio de escisión se desplaza más en la secuencia diana para permitir la secuenciación de los puntos adyacentes.

Por esta razón, por ejemplo si se crean prolongaciones de 5+4, y el sitio de escisión se desplaza 4 bases en la secuencia diana, cuando las 9 bases siguientes se conviertan en prolongación y después de esto se asocien a señales de amplificación, 5 de estas bases se habrán asociado con señales de amplificación en el ciclo anterior. Esto permite la verificación de la intensidad de las 5 bases anteriores cuando se lee la secuencia y de este modo se introduce un mecanismo de comprobación de la lectura.

Otras técnicas que utilizan el sistema IIS incluyen la utilización del fragmento de Klenow de ADN polimerasa y se basan en el hecho de que la mayoría de las ADN ligasas no pueden ligar la prolongación de diferentes tamaños. Esto se presenta, por ejemplo, en el Ejemplo 5. En esta técnica se crea una prolongación que es mayor que la prolongación del adaptador. La prolongación diana es reducida mediante Klenow en presencia de un tipo de nucleótido. Solamente la diana que ha sido prolongada de manera apropiada por una base se unirá al adaptador permitiendo la identificación de la base que se introdujo en virtud de la correspondiente señal de amplificación unida a este adaptador.

Otras técnicas ilustradas en los Ejemplos 4 a 7 implican la hibridación de adaptadores que llevan señales de amplificación a una diana de una cadena simple que se ligan después a esta diana. El adaptador se utiliza a continuación como cebador en una reacción de extensión de polimerasa para formar moléculas de doble cadena. Una alternativa adicional utiliza adaptadores para clasificación (que en este caso no necesitan necesariamente estar asociados a las señales de amplificación y pueden simplemente unirse para su clasificación) en la cual los adaptadores se unen a un soporte sólido que presenta una prolongación en exceso de la prolongación creada en las moléculas diana. Por esta razón, por ejemplo, los adaptadores pueden presentar una prolongación de 8 a 10 bases. Si, por ejemplo, las piezas de ADN (en forma de doble cadena) presentan una prolongación de 4 bases, estas moléculas solamente se ligarán si las bases se complementan una a otra en las bases más internas de la prolongación. La extensión de polimerasa se realiza a continuación. El prerrequisito para una reacción de extensión de polimerasa lograda es que el resto de la prolongación del adaptador sea complementario con la pieza de ADN a fin de que pueda funcionar como cebador. De este modo la extensión de polimerasa solamente tendrá lugar si la secuencia terminal de la molécula diana es complementaria con la prolongación del adaptador.

Alternativamente puede utilizarse la hibridación sola y las señales de amplificación que están asociadas con los alargamientos de las secuencias que son adyacentes pueden ser ligados conjuntamente de manera apropiada.

Una alternativa adicional se basa en la especificidad de las enzimas metabólicas para sus sitios de reconocimiento. Dicha técnica está ilustrada en el Ejemplo que utiliza enzimas de restricción. Sin embargo también pueden utilizarse numerosas enzimas alternativas como las transposasas, etc. En este método las moléculas diana que se deben secuenciar se escinden para producir extremos truncados con cuatro enzimas de restricción normales diferentes y ligadas a 4 moléculas de ADN diferentes que finalizan cada una con una fracción de la secuencia de restricción para una de las 4 diferentes enzimas de restricción (que producen una prolongación o escisión). Éstas se ligan a continuación en las moléculas diana. Cuando las moléculas diana acaban en bases que proporcionan las restantes bases de la secuencia de restricción, se producirá una secuencia de restricción de reconocimiento. Ésta puede determinarse mediante escisión con esta enzima de restricción. Únicamente se escindirán las moléculas que presenten esta secuencia de restricción en forma completa. Para reconocer las moléculas que se han escindido, se pueden utilizar adaptadores que son complementarios de la prolongación. Estos adaptadores pueden llevar entonces una o más señales de amplificación apropiadas dependiendo del número de bases proporcionadas por la molécula diana para completar la secuencia de restricción. La molécula puede tomar a continuación forma de círculo para permitir que se repita el ciclo. De manera adecuada los adaptadores presentan en su secuencia de manera apropiada secuencias de restricción localizadas tanto para el extremo truncado como para las enzimas de restricción que producen prolongación, de modo que pueden realizarse ciclos reiterativos permitiendo la introducción de señales de amplificación correspondientes a las zonas de la secuencia diana adyacentes o solapantes.

La presente invención se refiere por lo tanto en un aspecto a un método de identificación de un fragmento de una molécula de ácido nucleico diana en la que una molécula adaptadora que comprende un grupo que reconoce y se une a dicho fragmento y un grupo que comprende una o más señales de amplificación, preferentemente una cadena de dichas señales que representa las bases en dicho fragmento, se une a dicho fragmento o está sustituido por el mismo.

Por lo tanto vista desde un aspecto preferido la presente invención proporciona un método de amplificación de toda o parte de la secuencia de una molécula diana de ácido nucleico en la que una o más señales de amplificación están asociadas a una o más bases en la secuencia diana, en la que dichas señales corresponden a una o más bases en dicha secuencia diana. Preferentemente dichas señales de amplificación corresponden en conjunto a por lo menos dos, preferentemente a por lo menos 4 bases. Preferentemente dichas señales de amplificación corresponden cada una a por lo menos dos, preferentemente a por lo menos 4 bases. En una forma de realización alternativa cada señal de amplificación corresponde con una base y una cadena de señales de amplificación juntas corresponden por lo menos con 4 bases, por ejemplo, se emplean 8 a 20 bases. Esto puede conseguirse, por ejemplo, realizando múltiples ciclos añadiendo una sola señal de amplificación en cada ciclo o utilizando cadena de señales que están asociadas en un solo ciclo.

Preferentemente dicho método comprende por lo menos las etapas siguientes:

a) convertir por lo menos una fracción de dicha secuencia diana en una forma adecuada para unir una molécula adaptadora, preferentemente a una forma de una cadena simple;

b) unir por lo menos una fracción de dicha zona adecuada para unir una molécula adaptadora preferentemente dicha región de cadena simple, creada en la etapa a) una molécula adaptadora que comprende una o más señales de amplificación o que comprende un medio para unir una o más señales de amplificación, cuyas señales representan una señal o secuencia detectable que corresponde a una o más bases de dicha secuencia diana, correspondiendo preferentemente a una o más bases de dicha zona adecuada para unir dicha molécula adaptadora preferentemente dicha región de cadena simple a la que se une dicha molécula adaptadora o en la proximidad de dicha zona

c) ligar opcionalmente dicha molécula diana a dicha molécula adaptadora de manera que por lo menos dichas señales de amplificación permanecen asociadas con dicha molécula diana;

d) repetir opcionalmente la etapa a), en la que dicha zona adecuada para unir dicho adaptador, preferentemente dicha zona de cadena simple, que se crea incluye una o más bases no asociadas con una señal de amplificación según la etapa b);

e) repetir opcionalmente las etapas b) a d) en las que dicha molécula adaptadora se une a una zona adyacente o solapante a dicha molécula diana correspondiente a la zona a la que se unió la molécula adaptadora del ciclo anterior.

La etapa e) puede omitirse en algunas técnicas, por ejemplo, cuando la secuenciación se consigue mediante amplificación por acoplamiento y clasificación, de modo que únicamente se realiza un ciclo de amplificación.

La "conversión" en una forma adecuada para unir una molécula adaptadora es necesaria únicamente si una molécula diana no está ya en una forma apropiada. Por lo tanto para unirse a moléculas de APN, no es necesaria la conversión de las moléculas diana de doble cadena. Asimismo, si una molécula es de conversión de una cadena simple no es necesario unir los adaptadores que sean oligonucleótidos. En algunos casos sin embargo la conversión puede ser necesaria, por ejemplo, fusionando fragmentos de ADN, para permitir la unión específica y selectiva del adaptador. No es necesario convertir la molécula completa en una forma diferente y en los casos apropiados únicamente se convertirá una fracción. Esta fracción debería comprender por lo menos la longitud de la fracción de unión del adaptador, por lo tanto preferentemente 4 a 500 bases, por ejemplo, 6 a 30 bases de longitud. La referencia en este contexto a la conversión de una forma en otra no debería confundirse con la utilización de la palabra conversión cuando se utiliza en relación con la amplificación.

Tal como se utiliza en la presente memoria una "molécula adaptadora" es una molécula que adapta la secuencia diana a una secuencia diana con señal mejorada o ampliada. Las moléculas adaptadoras utilizadas en la presente memoria son moléculas solas o complejos de moléculas que pueden ser de tipos iguales o diferentes. La secuencia adaptadora comprende un grupo de unión que se une a dicha secuencia diana, por ejemplo, una proteína que reconoce una determinada secuencia de bases o más preferentemente una secuencia de polinucleótidos complementaria con una o más bases de la secuencia diana. Preferentemente el punto de unión es de 3 a 30 bases, preferentemente de 4 a 10 bases de longitud. Las moléculas adaptadoras comprenden adicionalmente uno o más señales de amplificación o medios para unir dichas señales, por ejemplo, secuencias que sean complementarias o socios de unión. Los adaptadores contienen preferentemente uno o más sitios de reconocimiento de nucleasa, en especial preferentemente una secuencia de restricción (o por lo menos un sitio de reconocimiento) para una nucleasa que escinde por fuera su sitio de reconocimiento, en especial preferentemente las secuencias de restricción de la enzima IIS o sus análogos, particularmente FokI y otras enzimas descritas en la presente memoria. Preferentemente los puntos para otras enzimas de restricción están excluidos de los adaptadores.

De manera apropiada las moléculas adaptadoras pueden estar exclusivamente compuestas por una molécula de ácido nucleico en la que varias propiedades del adaptador son proporcionadas por las diferentes zonas del adaptador. Sin embargo, tal como se mencionó anteriormente las señales de amplificación pueden tomar varias formas, que incluyen señales tales como proteínas, etc. El adaptador por consiguiente puede proporcionar la molécula a la que pueden unirse las señales de amplificación, por ejemplo, proporcionar socios de unión apropiados además de la zona de unión a la diana.

En la etapa c) se indica que "por lo menos" dichas señales de amplificación permanecen asociadas. Por lo tanto está previsto que puedan eliminarse el adaptador o partes del mismo.

Tal como se utiliza en la presente memoria una "cadena" de señales de amplificación se refiere a las señales que han estado unidas ya sea antes de un ciclo de amplificación y unidas a un adaptador o unidas conjuntamente al final de cada ciclo o a una combinación de ambos. El enlace puede ser por cualquier medio apropiado sin embargo se prefiere el enlace por medio covalente.

Preferentemente el método anterior se utiliza en los métodos de secuenciación de la invención que comprenden las etapas anteriores además de la determinación de la secuencia de dicha molécula diana identificando las señales generadas en las señales de amplificación unidas a dicha secuencia diana. A fin de identificar las señales de amplificación debe generarse una señal legible desde las señales de amplificación. Ésta puede estar inherentemente presente, por ejemplo cuando las señales llevan marcador con determinadas propiedades (por ejemplo, un marcador radioactivo) o puede requerir más etapas para su generación, por ejemplo, la adición de más moléculas (por ejemplo, los propios socios de unión que llevan marcadores) o el tratamiento de las señales de amplificación en forma legible (por ejemplo, la conversión a una señal relegible, tal como mediante la expresión de un gen indicador en el cual la señal que se lee es la proteína expresada).

Por lo tanto en un aspecto preferido la presente invención proporciona un método de secuenciación de toda o parte de una molécula de ácido nucleico diana en la que se amplía por lo menos un fragmento de la secuencia de dicha molécula diana de ácido nucleico, preferentemente mediante la utilización de una o más señales de amplificación asociadas a una o más bases en la secuencia diana, en la que dicha secuencia ampliada se convierte opcionalmente en una señal legible y dicha secuencia se determina mediante evaluación de las señales que se generan.

"Evaluación" tal como se utiliza en la presente memoria se refiere tanto a la evaluación cuantitativa como cualitativa que puede determinarse en términos absolutos o relativos.

La ligadura puede conseguirse químicamente o mediante la utilización de ligasas naturales apropiadas o variantes de las mismas. Aunque la ligadura representa solamente una característica preferida de la invención, ésta se utiliza de manera apropiada para aumentar la especificidad. En comparación con la hibridación, la especificidad aumenta por un factor de diez si la ligadura se basa en la T4 ADN ligasa. Esto es importante ya que los métodos de secuenciación que están basados en la hibridación en muchos casos están asociados a una tasa de error inaceptablemente alta. Además, utilizando ligasas termoestables, tales como Pfu, Taq y TTH ADN ligasa la especificidad mejorará mientras que la eficacia aumenta drásticamente a fin de que el tiempo de incubación se reduzca.

Este método de secuenciación que utiliza señales de amplificación ofrece numerosas ventajas sobre los métodos de secuenciación conocidos. Más de una base puede ser convertida o ampliada en cada ciclo produciendo de este modo el número de ciclos necesario para secuenciar una determinada longitud de molécula diana. Dependiendo de la elección de las señales de amplificación y de las señales que producen, pueden producirse señales de lectura simplificada, por ejemplo, las señales pueden estar en forma de lectura binaria, es decir, se generan señales exclusivas para una o más bases por combinación apropiada, por ejemplo, disposición lineal o posicional, de un solo caso de señalización, por ejemplo, fluorescencia. Ésta reduce el número de casos de señalización única que se necesitan. Por lo tanto en lugar de necesitar por ejemplo 16 marcadores diferentes para cada combinación de 2 bases o 64 marcadores diferentes para cada combinación de 3 bases, en la presente invención pueden generarse 16, 64 o más señales únicas proporcionando en cada señal de amplificación un modelo de medio para producir un caso de señalización única, por ejemplo, un modelo de secuencias para unir una sonda fluorescente.

La información de la señal puede estar herméticamente empaquetada. Las señales no se limitan solamente a nucleótidos marcados permitiendo mayor flexibilidad en los tipos de señales de amplificación que pueden ser utilizadas y las señales que pueden ser generadas. En algunas formas de realización, aún cuando no se realice la ciclación, grandes fragmentos de una secuencia pueden ser secuenciados utilizando cadenas de señales de amplificación para este fragmento impidiendo de este modo las reacciones complejas implicadas en la repetición del ciclo y también la necesidad de relacionar la información de cada ciclo con una secuencia diana determinada, por ejemplo, utilizando moléculas diana fijadas a una placa de lectura, que limita cómo puede leerse la señal (por ejemplo, podrían no utilizarse micro/nanoporos o citómetros de flujo).

En los aspectos preferidos de la invención, la conversión de la molécula diana en por lo menos una forma parcialmente de una cadena simple se consigue utilizando una molécula de una cadena simple o creando una prolongación, por ejemplo, utilizando una nucleasa apropiada con un sitio de escisión separado de su sitio de reconocimiento, tales como las enzimas IIS.

Preferentemente cuando se realiza la reacción cíclicamente, las señales de amplificación de cada ciclo se unen, por ejemplo, por asociación o ligadura, conjuntamente, por ejemplo, mediante la producción de una cadena simple que las contiene. Además, tras la ligadura de dicha molécula diana a dicha molécula adaptadora, dicha molécula resultante toma la forma circular preferentemente. Esto se consigue de manera apropiada introduciendo la molécula diana en un vector (o uniendo un fragmento de la molécula diana a un soporte que permite la interacción libre tras la escisión sin la molécula, véase el Ejemplo 22) y utilizando etapas apropiadas de escisión y de ligadura después de que se ha introducido dicha molécula adaptadora. Alternativamente, las cadenas de señales de amplificación que se generan pueden ser transferidas o copiadas en un punto distante de la molécula diana sin necesidad de la forma de círculo eficaz. Un protocolo apropiado para realizar esto se muestra en el Ejemplo 9.

Otra técnica conveniente que impide la necesidad de ciclación excesiva implica la hibridación de fragmentos transformados más pequeños, es decir, moléculas de ácido nucleico con señales de amplificación unidas. Estos fragmentos pueden ellos mismos haber sido sometidos a uno o más ciclos de conversión y a continuación pueden ligarse por complementariedad a secuencias no transformadas o transportar la información en las señales de amplificación, por ejemplo, secuencias de nucleótidos de las señales (véase el Ejemplo 10).

Para efectuar el ciclado de la reacción es necesario el control de determinadas enzimas utilizadas en la reacción. Esto se puede conseguir de diferentes maneras dependiendo de las enzimas que se hayan utilizado. Por esta razón, puede utilizarse la metilación para impedir la unión a las secuencias de restricción y/o la escisión de las mismas. La ligadura puede evitarse o permitirse controlando el estado de fosforilación de las bases terminales por ejemplo, mediante la utilización apropiada de cinasas o fosfatasas. Puede utilizarse también grandes volúmenes de manera apropiada para impedir las ligaduras intermoleculares. Los volúmenes pequeños se utilizan preferentemente durante las reacciones de restricción para aumentar la eficacia.

Preferentemente en cada ciclo de amplificación (o secuenciación como se describe en la presente memoria), se transforman por lo menos dos bases, preferentemente entre 3 y 100, en especial preferentemente de 4 a 20 bases por ciclo. Más de una señal de amplificación está asociada de manera apropiada con una o más bases en cada ciclo. Por ejemplo en una forma de realización preferida, se introduce un conjunto (por ejemplo, una serie lineal o cadena) de señales, correspondientes cada una a una o más bases, correspondientes en conjunto a una fracción de dicha secuencia, por ejemplo, múltiples señales, por ejemplo, más de 4 señales, correspondientes, por ejemplo, de 4 a 12 bases contiguas. Éste puede acoplarse de manera apropiada con las propias señales que se dirigen a más de una base, por ejemplo, señales exclusivas para cada par de bases.

Como se apuntará en el Ejemplo 1 en una forma de realización preferida, se emplea una nucleasa que presenta las propiedades descritas anteriormente para generar la prolongación. Además dicho vector comprende adicionalmente un punto en la enzima de restricción para producir una escisión del extremo truncado en uno de los extremos resultantes de la escisión de la nucleasa para producir la prolongación. Alternativamente, puede utilizarse una enzima de restricción distinta a la enzima utilizada para crear la prolongación inicial, la cual produce una prolongación que presenta complementariedad exacta en un terminal de todos los adaptadores empleados en la reacción.

Para realizar el método del Ejemplo 3, se utilizan de manera adecuada los puntos de la nucleasa que producen zonas adyacentes o solapantes de prolongación. Estos puntos están preferentemente situados en los adaptadores que se emplean. En cada ciclo se utilizan dos adaptadores que se deja de manera apropiada que se liguen conjuntamente mediante la utilización de prolongaciones complementarias en los extremos terminales a las zonas de unión a las fracciones de una cadena simple de la secuencia diana. Por esta razón en los aspectos preferidos de la invención, particularmente para permitir que los adaptadores de comprobación de lectura que se utilizan comprendan los sitios de reconocimiento para 2 o más nucleasas con secuencias de escisión separadas de sus sitios de reconocimiento, en las que la escisión con dichas nucleasas produce zonas de cadena simple que son adyacentes o solapantes. Tal como se utiliza en la presente memoria "solapante" se refiere a las secuencias que tienen bases en común o que son complementarias a dichas secuencias, es decir, en la cadena correspondiente. Por esta razón, a fin de conseguir zonas solapantes, puede utilizarse cada cadena de una diana de doble cadena y el solapado, aunque las zonas complementarias pueden secuenciarse. Para conseguir de manera apropiada este efecto más de un adaptador se une a la molécula diana en cada ciclo. Este método permite la comprobación de la lectura si las zonas solapantes se secuencian a medida que más de una señal de amplificación correspondiente a una base o conjunto de bases determinadas se une permitiendo la generación de una señal repetida para esta base. Se apreciará que conforme a la invención no se requiere una señal por cada base y por lo tanto puede estar repetida una señal para un par de bases, etc.

Al ejecutar la forma de realización que implica la utilización del fragmento de Klenow, dicha zona de cadena simple que se crea en la etapa a) es una o más bases más larga que una zona de cadena simple de ácido nucleico presente en el adaptador. Además, se requiere una etapa adicional tras la etapa b) en la cual la longitud de la zona de cadena simple de la molécula diana se acorta por la reacción de amplificación de la polimerización.

Para ejecutar las técnicas que comportan moléculas diana de una cadena simple, la ciclación conlleva de manera apropiada la generación de moléculas de doble cadena, preferentemente mediante la utilización del adaptador como cebador en las reacciones de amplificación de polimerasa.

El método en el cual se completan los sitios de reconocimiento para identificar las moléculas con bases terminales necesarias para completar este punto proporciona una técnica ligeramente diferente a la descrita en términos generales anteriormente, dado que el adaptador se une a una prolongación pero lleva señales que pueden no corresponder necesariamente a una o más bases de la zona de cadena simple a la que se une la molécula adaptadora. La zona de cadena simple se construye de la amplificación creada por escisión de la secuencia de restricción que comprende alguna de las bases de la secuencia diana. Sin embargo, dependiendo del sitio de escisión, estas bases pueden estar o no en forma de una cadena simple, por ejemplo, la prolongación puede estar compuesta totalmente por bases de moléculas no diana. En lugar de eso la adición de la señal apropiada se basa en el hecho de que los adaptadores se unirán solamente cuando el punto de restricción se haya completado. Por lo tanto la etapa b) incluye la referencia a las señales que corresponde a una o más bases de dicha zona de cadena simple o en la proximidad de dicha zona, por ejemplo, adyacente a dicha zona. Además en este método antes de la etapa a), la pieza de ADN de unión que comprende una parte de un sitio de reconocimiento metabólico de la enzima se une a dicha molécula diana, seguido de la utilización de dicha enzima, por ejemplo, nucleasa para producir la forma de una cadena simple de la etapa a).

Como se mencionó anteriormente, la secuenciación puede realizarse basándose en la clasificación. Este método puede utilizarse independientemente de la técnica de amplificación descrita anteriormente o en combinación con ella. Por ejemplo, el protocolo de secuenciación puede efectuarse por clasificación de moléculas diana de ácido nucleico basándose en los cuatro pares de bases, y posteriormente los pares de bases adyacentes pueden convertirse para determinar su secuencia. Por ejemplo, una estrategia de clasificación puede consistir en la creación de prolongaciones con cuatro bases en las moléculas diana de ácido nucleico como se describió anteriormente. Se distribuyen a continuación entre los 256 pocillos que están todos cubiertos con moléculas cortas de ADN, adaptadores de clasificación (estos adaptadores no llevan necesariamente señales de amplificación). Los adaptadores de clasificación se fijan a las paredes del pocillo y presentan prolongaciones con cuatro bases que pueden complementar las prolongaciones que han sido creadas en el ADN diana. Además, los adaptadores de clasificación pueden contener un punto de unión para una enzima IIS u otra nucleasa apropiada. El punto de unión está situado de tal modo que la enzima IIS respectiva pueda crear una prolongación con los pares de bases que están localizados junto a la primera prolongación que se creó en el ADN diana. A fin de aumentar el área superficial con adaptadores de clasificación, una alternativa consiste en fijarlos a un soporte sólido tal como bolas paramagnéticas o similares.

Las moléculas de ADN en el pocillo 1 tienen prolongaciones AAAA, mientras que las moléculas de ADN en el pocillo 2 tienen prolongaciones AAAC etc. Los 256 pocillos cubren de este modo todas las permutaciones de las prolongaciones en las cuatro bases. Cuando se añaden ADN diana a los pocillos junto con ligasa, las moléculas de ADN con prolongaciones TTTT se unirán al pocillo 1, el ADN con prolongaciones TTTG al pocillo 2, etc. Una vez lavadas las moléculas de ADN diana que no se ligaron a los adaptadores de clasificación, se añade la enzima IIS para que las moléculas diana de ADN se liberen al mismo tiempo a medida que se crea una nueva prolongación que representa los cuatro pares de bases siguientes en la secuencia diana. Esta prolongación puede utilizarse entonces como punto de partida para una nueva ronda de clasificación o se puede seguir con la conversión/amplificación.

Las estrategias de clasificación en las que las moléculas de ADN se lavan por arrastre comportan una pérdida relativamente grande de moléculas de ADN. Sin embargo, la mayoría de los protocolos de secuenciación propuestos en la presente solicitud de patente se basan en el análisis de molécula individuales y esto significa que se necesitan muy pocas moléculas de ADN. Por esta razón, incluso una pérdida del 99,9% o más rara vez presenta un problema.

En lugar de utilizar diferentes pocillos, una alternativa consistiría en utilizar diferentes posiciones en una "micromatriz". En el estudio 1 solamente las moléculas de ADN que acaban en TTTT son las que se fijan, en el estudio 2 las moléculas de ADN con terminaciones TTTG son las que se fijan, etc. Otras alternativas son dejar las moléculas de ADN con diferentes terminaciones de ataque/conversión a diferentes tiempos, utilización de la clasificación en gel, etc.

Por ejemplo, se puede utilizar una estrategia en la que existen 256 adaptadores de clasificación diferentes distribuidos entre 256 cuadrículas en una "micromatriz". En la cuadrícula 1, existen adaptadores de clasificación con prolongaciones AAAA, en la cuadrícula 2, presentan prolongaciones AAAC, etc. Por lo tanto, las moléculas diana de ADN se clasificarán de modo que aquellas que presentan prolongaciones TTTT están unidas a la cuadrícula 1, las prolongaciones GTTT a la cuadrícula 2, etc. Fijando también el otro extremo de la pieza de ADN al sustrato, por ejemplo, con biotina/estreptavidina se puede continuar después con la siguiente etapa de conversión/amplificación sin las moléculas de ADN que dejan su posición en la placa de lectura. Otra estrategia para impedir que las moléculas de ADN dejen sus posiciones consiste en utilizar una placa de lectura que está dividida en 256 pocillos/espacios.

Debe indicarse asimismo que la clasificación desde luego puede hacerse con menos o más permutaciones de 256. La clasificación puede también realizarse en varias rondas. Por ejemplo, si se utiliza una "micromatriz" con 65.536 cuadrículas diferentes, sería posible identificar ocho bp por clasificación mediante hibridación sola. Esto sería suficiente para muchas aplicaciones a fin de realizar una reconstrucción lograda. La clasificación por consiguiente puede funcionar como un método de secuenciación por sí misma, sin tener que utilizar la conversión o la amplificación.

La clasificación puede también realizarse con estrategias no basadas en la ligasa. En principio, se puede utilizar cualquier método que sea adecuado para reconocer pares de bases, incluyendo todos los métodos mencionados relacionados con la amplificación.

Debe indicarse asimismo que la especificidad de un método de clasificación puede ajustarse a la mayoría de los objetivos repitiendo el mismo procedimiento de clasificación una o varias veces. Puede ser también ser apropiado utilizar sondas/prolongaciones de competencia a fin de aumentar la especificidad.

Por lo tanto en un aspecto preferido la presente invención proporciona un método de secuenciación de una molécula diana como se describe en la presente memoria, en la que dicha secuencia se determina por evaluación de la complementariedad de una fracción de dicha molécula mediante un procedimiento que comprende por lo menos las etapas siguientes:

a) transformar por lo menos una parte de dicha secuencia diana en una forma adecuada para unir una sonda complementaria unida a un soporte sólido o que lleva un medio para unirse a un soporte sólido, preferentemente a una forma de cadena simple;

b) unir dicha sonda complementaria a por lo menos una fracción, preferentemente de 4 a 12 bases de longitud, de dicha zona adecuada para unir una sonda complementaria, creada preferentemente dicha zona de cadena simple en la etapa a);

c) repetir opcionalmente las etapas a) y b) en las que dicha sonda complementaria se une a una zona adyacente o solapante de dicha molécula diana próxima a la zona a la que se une la sonda complementaria del ciclo anterior; y

d) determinar las secuencias de dicha secuencia diana identificando la(s) sonda(s) complementaria(s) a la(s) que se une dicha secuencia diana.

Tal como se utiliza en la presente memoria "sonda" se refiere a una molécula apropiada de ácido nucleico, por ejemplo, un oligonucleótido o molécula de APN.

Pueden también incluirse etapas adicionales, por ejemplo, la sonda complementaria puede actuar como sonda y en cuyo caso las reacciones de polimerasa pueden también realizarse cuando sea necesario.

Como se mencionó anteriormente, esta técnica de clasificación se realiza preferentemente mediante la utilización de múltiples sondas complementarias y preferentemente entre 2 y 8, en especial preferentemente 4 bases son identificables por ciclo aunque esta información puede solamente recogerse a la terminación de la reacción de secuenciación. En particular, preferentemente sondas complementarias con 2 a 8, preferentemente 4 bases invariables exclusivas están unidas en diferentes puntos discretos en dicho soporte sólido. En el segundo y ulteriores ciclos, las moléculas diana que se unen a dichas sondas se transfieren a uno o más soportes sólidos adicionales que llevan sondas complementarias a las zonas adyacentes o solapantes de la secuencia de dichas moléculas diana. Para conseguir esto, la etapa a) puede realizarse de manera análoga a la descrita para el procedimiento de amplificación, es decir, las propias sondas pueden contener una secuencia de restricción para una nucleasa, por ejemplo, una enzima IIS, que escinde fuera de su sitio de reconocimiento, de modo que se genera una prolongación apropiada.

El procedimiento anterior puede acoplarse con el procedimiento de amplificación de modo que la secuenciación puede realizarse mediante una combinación de clasificación y amplificación, por ejemplo, después de la etapa b), la prolongación puede generarse tal como se describió más o menos y pueden utilizarse los adaptadores que llevan señales de amplificación apropiadas para unir dichas prolongaciones. A continuación puede determinarse la secuencia mediante una combinación de lectura de las señales de amplificación y mediante la identificación de la sonda a la que se han unido las moléculas diana. Por lo tanto en una particularidad preferida la presente invención proporciona un método de secuenciación tal como se describe en la presente memoria en el que se determina una fracción de dicha secuencia mediante el método de amplificación descrito en la presente memoria y se determina una fracción adyacente o solapante mediante la utilización de sondas complementarias tal como se describe en la presente memoria.

En la mayoría de los casos la técnica adoptada para la colocación de las fracciones de la secuencia dependerá de cómo se genera el ADN diana para la secuenciación, por ejemplo, si comienza en un punto común o si se genera por fragmentación que produce moléculas diana que parten de diferentes puntos.

La molécula de ácido nucleico para la secuenciación puede generarse de diferentes modos. Mediante tratamiento de una pequeña cantidad de ADN con ADNasa, tratamiento con ultrasonidos, agitación intensa o técnicas similares las moléculas de ácido nucleico pueden fragmentarse en piezas. Dichas técnicas son bien conocidas en la materia, véase por ejemplo http://dna1.chem.ou.edu/protocol book/ protocol partII.html que describe protocolos para la generación aleatoria de subclones. Ajustando los parámetros de estas técnicas, es posible ajustar el tamaño medio de los fragmentos de ADN diana (como norma, el óptimo es tener tamaños medios de unos pocos centenares de pares de bases). Los métodos deberían ser además relativamente no específicos con respecto a donde cortan o rompen las moléculas de ADN para que se obtengan piezas de ADN estadísticamente que se cortan o rompen en la mayoría de los lugares en la secuencia original.

Los estudios han demostrado que los extremos de las moléculas de ADN fragmentadas consisten tanto en extremos truncados como en prolongaciones cortas de 1 a 2 bases. Es de desear que las prolongaciones puedan ser tratadas de modo que se conviertan en extremos truncados (sustitución de Klenow, etc.).

Para llevar a cabo de manera apropiada los métodos preferidos de la presente invención, que se basan en la producción de prolongaciones de una cadena simple, las moléculas de ácido nucleico pueden fragmentarse mediante procedimientos que produzcan dichas prolongaciones. Tal como se mencionó anteriormente, el tratamiento con ultrasonidos, la agitación intensa y la ADNasa I crean prolongaciones cortas. Se pueden también utilizar enzimas de restricción que escinden de manera no específica. Varios estudios han demostrado que las enzimas IIS son particularmente muy adecuadas a las pruebas de intercambio de dominio en las que puede sustituirse el dominio de unión al ADN. Por consiguiente, pueden crearse nuevas enzimas IIS en las que el dominio de corte esté ligado a un dominio de unión del ADN que se une de manera no específica al ADN.

Las prolongaciones generadas por enzimas IIS conocidas oscilan entre -5 y +6 bases. Si se desean prolongaciones de más de seis bases, puede ser apropiado utilizar otros sistemas o estrategias. Una posibilidad consiste en utilizar enzimas de corte que producen muescas en la parte externa de los ADNds de su propio punto de unión. Dos puntos de unión para dicha enzima de corte, que presentan una distancia interna de más de seis pares de bases y que se colocan en una de las dos caras de la doble hélice deben producir una prolongación de más de seis pares de bases. Además de las enzimas de corte existentes, también puede ser posible crear nuevas enzimas de corte, por ejemplo por mutación de las enzimas de restricción IP e IIS.

Alternativamente a la fragmentación, también es posible seleccionar una estrategia en la que los fragmentos de la secuencia diana se produzcan con ayuda de la PCR o de métodos similares. Por ejemplo, se puede partir de una secuencia conocida en el ADN diana y a continuación utilizar esta área como plantilla para un cebador en una amplificación de polimerasa. Si se utiliza un método que termina la reacción de amplificación de polimerasa en puntos arbitrarios, se crea un escalón de ADN, en el cual existen moléculas de ADN de muchas longitudes diferentes, pero que todas presentan un extremo en común. Alternativamente, se pueden utilizar cebadores cortos de modo que todas las posibles combinaciones de los fragmentos se produzcan en la secuencia diana. Sin embargo, un factor limitativo cuando se utiliza la amplificación polimerasa es las longitudes de amplificación de varias polimerasas.

Pueden acoplarse técnicas de amplificación a las técnicas de clasificación y conversión descritas en la presente memoria. Por ejemplo pueden utilizarse adaptadores como cebadores cuando se unen a dianas de una cadena simple. Las reacciones de polimerasa pueden proporcionar además medios de demostrar la existencia de complementariedad entre los adaptadores y las secuencias diana.

En una forma de realización preferida de la invención las moléculas diana se fijan a soportes sólidos. Esto puede conseguirse de numerosas formas diferentes. La molécula diana puede diseñarse para que esté unida a uno o más grupos que permitan la unión de esta molécula a un soporte sólido, por ejemplo los extremos (o varios puntos internos) pueden estar provistos de un socio de un par de unión, por ejemplo, con biotina que puede unirse a continuación a un soporte sólido que lleva estreptavidina.

Las moléculas diana pueden ser modificadas genéticamente para que lleven dicho grupo de unión de numerosas formas conocidas. Por ejemplo, se puede realizar una reacción de PCR para introducir el grupo de unión, por ejemplo, utilizando un cebador marcado de forma apropiada (véase por ejemplo, el Ejemplo 17). Alternativamente, ácido nucleico diana puede ligarse a un grupo de unión, por ejemplo, mediante escisión de la molécula de ácido nucleico diana con una enzima de restricción y a continuación ligándola a un adaptador/enlazador cuyo extremo ha sido marcado con un grupo de unión. Dicha estrategia sería particularmente adecuada si se utilizase una enzima de restricción IIS que forma una prolongación no palindrómica. Otra alternativa consiste en clonar la molécula diana en un vector que ya lleva un grupo de unión o que contiene secuencias que facilitan la introducción de dicho grupo. Dichos métodos podrían utilizarse igualmente para introducir los marcadores de posición tal como se describe con más detalle a continuación.

Alternativamente las moléculas de ácido nucleico pueden estar unidas a soportes sólidos sin necesidad de fijarse a un grupo de unión siempre que la propia molécula de ácido nucleico sea un socio del par de unión. Por esta razón, pueden utilizarse, por ejemplo, las moléculas de APN cortas que se fijan a un soporte sólido. Las moléculas de APN tienen capacidad para hibridar y unirse a un ADN de doble cadena y el material de ácido nucleico no disuelto puede fijarse por consiguiente a un soporte sólido con esta estrategia. Asimismo, pueden utilizarse sondas de oligonucleótido para unir secuencias complementarias a un soporte sólido. Dicha técnica puede utilizarse también para empezar la secuenciación uniendo determinadas moléculas de ácido nucleico en posiciones determinadas en un soporte sólido como se describe a continuación.

Los soportes sólidos apropiados adecuados como grupo de inmovilización para fijar las moléculas diana son bien conocidos en la técnica y están ampliamente descritos en la bibliografía y hablando en general, el soporte sólido puede ser cualquier soporte o matriz bien conocido que se usa ampliamente en la actualidad o se propone para inmovilización, separación, etc. en procedimientos químicos o bioquímicos. Así por ejemplo, los grupos de inmovilización pueden tener forma de bolas, partículas, láminas, geles, filtros, membranas, tiras de microfibra, tubos o placas, fibras o capilares, hechos por ejemplo de un material polimérico por ejemplo, agarosa, celulosa, alginato, teflón, látex o poliestireno. Se prefieren generalmente los materiales en partículas, por ejemplo, bolas. El grupo inmovilizante puede comprender, de manera apropiada, partículas magnéticas, tales como partículas superparamagnéticas. En una forma de realización más preferida, se utilizan placas o láminas para permitir la fijación de las moléculas en disposición lineal. Las placas pueden también comprender paredes perpendiculares a la placa en cuyas moléculas pueden fijarse.

La fijación al soporte sólido puede realizarse directa o indirectamente y las técnicas que se utilizan dependerán de si la molécula que debe fijarse es una sonda para la identificación de moléculas diana o las propias moléculas diana. Para fijar las moléculas diana, la fijación puede realizarse de manera conveniente indirectamente mediante la utilización de un grupo de fijación transportado en las moléculas de ácido nucleico y/o en soporte sólido. Así por ejemplo, puede utilizarse un par de socios de unión por afinidad, como por ejemplo avidina, estreptavidina o biotina, ADN o proteína de unión al ADN (por ejemplo, la proteína del represor lac I o la secuencia del operador lac a la que se une), anticuerpos (que pueden ser mono- o policlonales), fragmentos de anticuerpo o los epítopos o haptenos de anticuerpos. En estos casos, se fija un socio del par de unión al soporte sólido (o forma parte inherente de él) y el otro socio se une a las moléculas de ácido nucleico (o forma parte inherente de ellas). Pueden utilizarse otras técnicas de ajuste directo tales como, por ejemplo, si se utiliza un filtro, la fijación puede realizarse mediante reticulación inducida por UV. Cuando se fijan fragmentos de ADN, también puede utilizarse la propensión natural del ADN de adherirse al vidrio.

La fijación de grupos funcionales apropiados al soporte sólido puede realizarse por métodos bien conocidos en la técnica, que comprenden por ejemplo, la fijación mediante grupos hidroxilo, carboxilo, aldehído o amino que puede proporcionarse mediante el tratamiento del soporte sólido para proporcionar recubrimientos de la superficie adecuados. La fijación de los grupos funcionales apropiados a las moléculas de ácido nucleico de la invención puede realizarse por ligadura o producirse durante la síntesis o amplificación, por ejemplo utilizando cebadores que llevan un grupo apropiado, tal como biotina o una determinada secuencia para captura.

Tal como se describe en la presente memoria las moléculas diana se fijan de manera adecuada a sondas complementarias que se fijan al soporte sólido.

En las técnicas que utilizan sondas complementarias múltiples pero discretas los soportes sólidos a los que se fijan estas sondas diferentes están físicamente asociados de manera apropiada aunque las señales generadas por la fijación de una molécula diana a cada sonda debe poderse determinar por separado. Así por ejemplo, pueden utilizarse placas con múltiples pocillos como soporte sólido con diferentes sondas en pocillos diferentes o las zonas de un soporte sólido pueden comprender las diferentes direcciones, por ejemplo pueden unirse diferentes sondas a un filtro en puntos discretos.

La fijación a un soporte sólido puede producirse antes o después que se hayan producido los fragmentos de la molécula de ácido nucleico. Por ejemplo las moléculas diana de ácido nucleico que llevan grupos de unión pueden fijarse a un soporte sólido y a continuación tratarse con ADNasa I o similares. Alternativamente puede efectuarse la escisión y a continuación pueden fijarse los fragmentos al soporte.

En muchos contextos, el objetivo es secuenciar una o varias secuencias que están presentes en el interior o junto con otras secuencias. Por ejemplo, se supone que solamente del 5 al 10% de las secuencias del genoma humano son de importancia biológica directa. Por consiguiente, para los cribados en masa de los genomas humanos, sería útil poder evitar la secuenciación de las áreas que son de menor importancia biológica.

Por esta razón una estrategia que puede utilizarse consiste en fijar los polinucleótidos que complementan las secuencias diana que son las que han de aislarse en un soporte sólido (el interior de un pocillo, esferas monodispersas, micromatrices, etc.). Mediante hibridación de los polinucleótidos en el grupo de secuencias con polímeros en el soporte sólido, los polinucleótidos indeseables pueden lavarse por arrastre antes de seguir la etapa de secuenciación. Si se desea, puede aumentarse la especificidad realizando varios ciclos de hibridación y lavado. Incluso si puede presentar ventajas en aplicaciones individuales, no existe dependencia de si los polinucleótidos complementarios se fijan en una estructura regular. También son posibles estrategias similares basadas en la ligadura, la hibridación del
APN, etc.

Por ejemplo, para aislar moléculas específicas de ARNm/ADNc, las moléculas complementarias de ADNc/ARNm pueden fijarse a esferas paramagnéticas o similares. Las esferas pueden mezclarse a continuación en un tubo junto con la solución que contiene las secuencias diana. Cuando las moléculas de ARNm/ADNc han sido hibridadas con el ARNm/ADNc que se fija a las esferas, las moléculas indeseables pueden ser lavadas por arrastre al mismo tiempo que se mantienen las esferas en el tubo con un imán o similar. Las moléculas diana deseadas pueden ser liberadas a continuación aumentando la temperatura, cambiando el pH o utilizando otro método que disuelva las moléculas hibridadas.

Una estrategia similar que puede utilizarse para secuenciar protocolos realizados en una placa de lectura consiste en fijar secuencias diana específicas para determinar las direcciones. Por ejemplo, ADN diana de una cadena simple puede hibridarse a cebadores que se fijan a diferentes direcciones. Si se desea, los cebadores pueden utilizarse a continuación como plantillas para una amplificación del polímero. Ajustando los cebadores a la secuencia diana, se pueden dirigir como se desee.

Una estrategia correspondiente puede consistir en fijar las moléculas de APN a las diferentes direcciones. Las moléculas de APN son conocidas porque presentan la capacidad de reconocer secuencias específicas en los ADNds y dicha estrategia puede utilizarse por consiguiente para dirigir los ADNds utilizando las moléculas de APN que reconocen las secuencias que se quiere fijar.

Tal como se mencionó anteriormente las moléculas que se secuencian pueden dividirse en dos categorías. Aquellas que tienen un extremo común y un extremo arbitrario y las que tienen dos extremos arbitrarios. Puede obtenerse información de las posiciones de estos diferentes tipos de moléculas de diferentes formas.

Si todas las moléculas diana tienen un extremo común, la longitud de cada molécula diana será proporcional a la distancia entre el extremo común y el otro extremo arbitrario. Asimismo, la información de la secuencia que se atribuye a una fracción particular de la molécula diana puede colocarse calculando la distancia del extremo común al punto de información de la secuencia. Cuando esta información de la secuencia se asocia de manera conveniente al extremo de la molécula diana, su posición puede determinarse a partir de la longitud/tamaño de la molécula completa.

Si los fragmentos de ácido nucleico no parten de un extremo común, puede obtenerse información de la posición de diferentes formas. Una alternativa consiste en crear o identificar huellas características que varían de una secuencia a otra. De este modo, puede deducirse la posición de una pieza de secuencia registrando qué huella está ligada a la huella y posiblemente dónde se localiza. Pueden considerarse muchísimas técnicas para utilización destinadas a la creación de patrones característicos. Puede registrarse el patrón de escisión de las enzimas de restricción en una secuencia de ADN, por ejemplo, con la ayuda de "cartografía óptica" o métodos similares.

Un inconveniente de los conocidos métodos de "cartografía óptica" es que los puntos de corte para las enzimas de restricción que se utilizan no están siempre cortados. Asimismo, puede producirse la escisión incorrecta y puede existir alguna incertidumbre relacionada con las mediciones de longitud de los fragmentos de ADN. Por consiguiente, es necesario producir una imagen media de cada pieza de cartografía basada en el análisis de muchas moléculas de ADN idénticas. El problema es que puede ser difícil conocer qué moléculas de ADN son idénticas.

Otro problema con los métodos actuales de cartografía óptica es que el tratamiento con enzimas de restricción y similares debe tener lugar después que las moléculas de ADN han sido ordenadas para poder observar la colocación interna en los fragmentos de ADN. Esto reduce la disponibilidad de las moléculas de ADN para asuntos tales como la preparación enzimática. La presente invención que proporciona la secuenciación del extremo terminal además de la colocación de la posición permite superar dichos problemas. Véase por ejemplo la técnica descrita en el Ejemplo 23.

Se puede también utilizar sondas/señales fluorescentes que crean modelos característicos. Este es el principio subyacente a la técnica denominada "DIRVISH". Una estrategia similar consiste en utilizar la microscopía de fuerza atómica (AFM), microporos o nanoporos u otros métodos para registrar el tamaño y la posición de las proteínas que se unen en patrones característicos, etc.

Se puede utilizar también adaptadores celulares como se expuso anteriormente. Por ejemplo, si se transforma/trans-
fecta ADN diana ampliado en células, se puede aprovechar el hecho de que la frecuencia de transcripción de un gen indicador varía con la distancia a los elementos cis-reguladores. Si existe un potenciador en un extremo y una o más señales de amplificación en el otro que están constituidos por genes indicadores, puede utilizarse una cantidad relativa de proteínas indicadoras para calcular el valor de la posición.

Asimismo es posible marcar o incorporar las secuencias diana con elementos que se utilizan para deducir el valor de la posición. Dichas estrategias pueden presentar ventajas, por ejemplo, si es difícil distinguir entre las huellas de dos secuencias muy similares. Por ejemplo, si se desea secuenciar cromosomas hermanos, se puede integrar un gran número de elementos de inserción (transposones o similares) que se integran arbitrariamente. Si a continuación se amplían los cromosomas y se usan los elementos de inserción como marcadores de posición, existirán uno o varios patrones característicos para cada cromosoma hermano.

Una estrategia alternativa que puede utilizarse la cual puede introducir tanto un marcador de posición como permitir la identificación de una secuencia en este punto implica la utilización de adaptadores como cebadores para una reacción de PCR. El resultado de cada reacción PCR serán dos adaptadores que están conectados, en los que la distancia entre los dos adaptadores corresponde con la distancia de las secuencias del adaptador en el ADN diana y simultáneamente proporciona información de la posición.

La secuencia de la molécula diana puede proporcionar los medios necesarios para producir un marcador de posición sin modificación. Por ejemplo, si se conoce alguna información de la secuencia, puede utilizarse una sonda para hibridar esta secuencia, la cual proporciona entonces un marcador de posición. Alternativamente, pueden colocarse marcadores de posición apropiados en una molécula diana, por ejemplo, pueden colocarse diferentes marcadores de posición a intervalos regulares en un genoma. Para permitir la discriminación entre diferentes marcadores de posición, estos marcadores proporcionan diferentes señales, por ejemplo, tienen diferentes secuencias o longitudes que pueden ser probadas. El Ejemplo 21 describe un método en el que se utilizan marcadores de posición.

Vista de este modo en un aspecto preferido la presente invención proporciona un método de secuenciación (completa o parcialmente) de una molécula de ácido nucleico que comprende por lo menos las etapas siguientes:

a) determinación de la secuencia de un fragmento de dicha molécula de ácido nucleico;

b) determinación de la posición de dicho fragmento en dicha molécula de ácido nucleico con relación a un indicador de posición, preferentemente un marcador de posición; y

c) combinación de la información obtenida en las etapas a) y b) para obtener la secuencia de dicha molécula.

Tal como se mencionó anteriormente, se determinan preferentemente las múltiples secuencias y sus posiciones.

Tal como se utiliza en la presente memoria el indicador de posición puede ser, como se mencionó anteriormente, el tamaño de la molécula, la intensidad de una señal generada o la distancia a un marcador de posición, anclaje o huella.

A continuación para ilustrar la invención se describirán numerosas técnicas diferentes para la realización de estos métodos.

En principio, pueden utilizarse todos los métodos para la determinación del tamaño de los polímeros. La longitud de las piezas de la secuencia que se identifican deben ajustarse, sin embargo, a la precisión de la determinación del tamaño: cuanto más baja sea la precisión, más largas deben ser las piezas de la secuencia.

Existen en este campo numerosos métodos para la clasificación por tamaños; clasificación en gel, clasificación microcapilar, medición de las longitudes de los polímeros que se alargan en una placa de lectura, medición de la intensidad de la fluorescencia (u otras) de los polímeros que no están señaldos específicamente (con la ayuda de un citómetro de flujo, microscopio de fluorescencia, etc.), espectrometría de masas, el tiempo que utiliza un polímero para bloquear un micro o nanoporo, etc. Dichos procedimientos pueden realizarse antes o después de leer la señal para determinar la secuencia, por ejemplo, cuando se utiliza electroforesis en gel, puede realizarse la lectura en muestras separadas en un gel o eluidas del gel.

La longitud de una molécula de ácido nucleico también puede determinarse basándose en el principio de que la probabilidad de que la molécula de ADN se escinda (por ejemplo, por ADNasa I, tratamiento con ultrasonidos, etc.) es proporcional a la longitud de la molécula de ADN. Por ejemplo, una molécula de ADN con 200 pares de bases se cortará el doble de veces que una con 100 pares de bases en una solución con una cantidad limitada de ADNasa I. Esto podría conseguirse, por ejemplo, marcando el extremo de diferentes moléculas, sometiéndolas a escisión y a continuación controlando la cantidad de moléculas marcadas solas o dobles con relación a patrones de longitud conocida marcados igualmente.

Para determinar la longitud de una molécula de ADN o la distancia a un punto fijo, la molécula de ADN puede ampliarse o alargarse de manera apropiada. Un método de alargamiento de moléculas de ADN consiste en mezclarlas con un gran excedente de bolas pequeñas de vidrio (éstas unen moléculas de ADN de forma natural) de modo que se unan a las moléculas de ADN en una proporción 1:1. Las moléculas de ADN ofrecerán menos resistencia que las bolas de vidrio al flujo líquido de modo que tienden a desplazarse entre sí hasta que la molécula de ADN se alarga. Si el flujo de líquido es fuerte o las bolas de vidrio son grandes para que la diferencia en la resistencia entre las moléculas de ADN y las bolas de vidrio sea grande, la molécula de ADN puede desgarrarse. Sin embargo, este problema puede evitarse reduciendo la velocidad del flujo o utilizando bolas de vidrio más pequeñas. El método se vuelve particularmente eficaz si las moléculas de ADN están ordenadas de manera regular a fin de que la cantidad de información de la secuencia aumente por unidad de área. Una manera de realizar esto es marcar las moléculas de ADN con biotina y a continuación fijarlas a una placa con un patrón regular de estreptavidina. De manera alternativa la fijación puede conseguirse utilizando un rayo láser, denominado trampa de láser.

En lugar de utilizar un flujo de líquido para ordenar las moléculas de ADN, se puede utilizar una carga positiva que empuje las moléculas de ADN cargadas negativamente en una dirección. La eficacia de lectura probablemente aumenta al utilizar esta estrategia. El método más fácil, en principio, consiste en colocar una carga puntual positiva o negativa enfrente de la placa de lectura. Según la ley de Coulomb, la fuerza de la carga en las moléculas de ADN es inversamente proporcional a la distancia. Las moléculas de ADN más próximas a la carga se alargarán entonces con una fuerza mayor que las que están más abajo. Para que todas las moléculas de ADN estén afectadas igualmente en el momento de la lectura, será necesario por consiguiente mover la carga puntual en la etapa de la unidad de lectura. La carga puntual puede también colocarse distante bajo la placa de lectura de modo que se reduzca la diferencia de fuerzas sobre la placa. Alternativamente, es posible disponer la carga en un arco de modo que los vectores de fuerza sean igualmente grandes en una línea recta en el centro del arco. Entonces la carga solamente necesita ser desplazada cuando se desplace la unidad de lectura lateralmente.

Alternativamente, para reducir la fuerza en el anclaje de la molécula se puede utilizar una técnica diferente. Dos placas cargadas eléctricamente pueden colocarse bajo la placa de lectura en las cuales están las moléculas diana que deben alargarse. La placa superior tiene una carga negativa débil mientras que la placa inferior tiene una carga positiva relativamente fuerte. Si una partícula cargada negativamente (por ejemplo, ADN) se coloca correctamente encima de la placa negativa, las fuerzas de repulsión procedentes de ella serán mayores que las fuerzas de atracción procedentes de la placa positiva. Entonces la partícula será forzada hacia arriba. Sin embargo, cambiándola de placa las condiciones se invertirán. La fuerza de atracción de la placa positiva es mayor que la fuerza de repulsión de la placa negativa. Ajustando las cargas de las placas, se producirá un equilibrio entre las fuerzas de repulsión y de atracción a una altura dada por encima de la placa de lectura. Las moléculas diana serán impulsadas a este plano de equilibrio. En este método la fuerza neta sobre las moléculas de ADN es igual a cero con la condición de que permanezcan en el plano de equilibrio. Esto reduce la probabilidad de ruptura.

Además de las dos placas cargadas también puede utilizarse una carga positiva a la izquierda de la placa de lectura. Esto producirá una fuerza neta en esta dirección. La misma puede conseguirse inclinando las dos placas cargadas una con relación a la otra y con relación a la placa de lectura.

Si las moléculas diana han de desplazarse mientras se alargan a través de un citómetro de flujo o dispositivo similar, puede utilizarse un tubo cargado negativamente. Utilizando dicha técnica, las moléculas diana serán impulsadas hacia la mitad del tubo donde las fuerzas de repulsión son más débiles.

Una técnica alternativa adicional de alargamiento se proporciona mediante alargamiento mecánico. En este método por ejemplo, pueden utilizarse dos placas adyacentes en las que se fijan los oligonucleótidos complementarios a uno de los extremos de las moléculas diana. Una vez las moléculas diana han sido hibridadas a estas sondas, las placas pueden separarse hasta que las moléculas se alarguen entre ellas.

La señal generada en los métodos descritos anteriormente puede leerse de numerosas o diferentes maneras, dependiendo de la señal que se genera y cómo ha de obtenerse la información de la posición. Por ejemplo, para localizar las sondas de ADN fluorescente unidas a un ADN diana, puede alargarse el ADN como se describió anteriormente. Por ejemplo, puede utilizarse un método desarrollado por Weier et al. (Hum. Mol. Gen., 1995, vol. 4(10), pág. 1903-1910) conocido como peinado molecular. En este método se colocó una solución con ADN diana en una superficie plana de vidrio preparada de modo que las propias moléculas de ADN se fijan por un extremo a la placa de vidrio. Las moléculas de ADN se ordenan a continuación utilizando un flujo líquido. Con la ayuda de un microscopio de fluorescencia podrán observarse a continuación las posiciones relativas de las sondas que fueron fijadas a las moléculas de ADN alargadas.

En la presente invención, utilizando, por ejemplo, cuatro sondas marcadas con diferentes fluoróforos y ampliando las señales que son alargamientos exclusivos de ADN, las sondas pueden dirigirse a estas señales de modo que hibriden a las cuatro señales de amplificación que representan a A, C, G y T, es decir, utilizando las técnicas DIRVISH descritas anteriormente. El orden de la secuencia puede leerse a continuación directamente con un microscopio de fluorescencia. Como se mencionó anteriormente, pueden utilizarse más o menos sondas dependiendo de cómo se construyan las señales de amplificación, por ejemplo, puede utilizarse una sola sonda en la cual la manera en la que se une a cada señal de amplificación produce una señal exclusiva, por ejemplo, el desarrollo de un código binario. Alternativamente, pueden utilizarse más de 4 sondas en las que la señal de amplificación corresponde a 2 o más bases. Desarrollando el programa informático que produce el microscopio al explorar la placa de vidrio mientras que se analiza al mismo tiempo automáticamente el orden de la secuencia, será posible leer muy rápidamente los pares de bases.

Alternativamente adicional, para la lectura rápida puede utilizarse un citómetro de flujo para leer las sondas fluorescentes. Un requisito previo para esto consiste en que las moléculas de ADN pasen la unidad de lectura de un citómetro de flujo en forma alargada de modo que las señales de amplificación que representan a A, C, G y T pasen en orden. Esto puede realizarse aprovechando las técnicas descritas anteriormente. Alternativamente para esta forma de realización particular, puede utilizarse un campo eléctrico o magnético en lugar de flujo líquido para arrastrar a las partículas a pasar por el detector de fluorescencia. Esto puede conseguirse utilizando el hecho de que las bolas de vidrio tienen carga positiva mientras que las moléculas de ADN están cargadas negativamente o utilizar bolas superparamagnéticas en lugar de vidrio. Las bolas arrastrarán a continuación las moléculas de ADN tras ellas como fibras largas.

Un parámetro crítico en esta estrategia son los límites inferiores de la detección de la fluorescencia del citómetro de flujo. Varios grupos han logrado detectar moléculas individuales de fluoróforo reduciendo la velocidad del flujo. Sin embargo, para utilizar citómetros de flujo convencionales con velocidades de análisis de 20.000 a 30.000 partículas por segundo, deben utilizarse sondas más largas de modo que puedan fijarse muchos fluoróforos a cada sonda.

Los citómetros de flujo más rápidos actualmente tienen capacidad para analizar aproximadamente 200.000 partículas fluorescentes por segundo, pero estos citómetros de flujo no están disponibles en el mercado. Además, no es cierto que la tolerancia a la alta velocidad de las moléculas de ADN esté en forma alargada antes de que se rompan. Sin embargo, es realista suponer que las moléculas de ADN toleren velocidades que permitan una lectura sumamente rápida.

Una alternativa adicional consiste en fijar las moléculas de ADN de modo regular sobre un soporte sólido, por ejemplo, una placa recubierta de estreptavidina. La secuencia (por ejemplo, las señales generadas por una serie de señales de amplificación) se lee mediante pequeños detectores insertados en la placa de lectura. Estos detectores se desactivan o activan mediante moléculas indicadoras, por ejemplo, en las señales de amplificación, fijadas a los fragmentos, por ejemplo, interrumpiendo o creando circuitos eléctricos al unirse a sensores sobre un soporte sólido. Por ejemplo, pueden formarse enlaces fuertes entre las moléculas indicadoras y los módulos sobre la placa de lectura. En el último caso los módulos pueden formarse de tal modo que puedan desprenderse de la placa de lectura si las moléculas de ADN son arrancadas. Cuando se desprenden las moléculas, interrumpen el circuito eléctrico de un modo que registra qué módulos han sido eliminados de la placa de lectura. Para aumentar la probabilidad de una unión efectiva, pueden fijarse varias moléculas indicadoras en la misma posición sobre el fragmento. Alguna podría utilizar cuatro moléculas indicadoras diferentes para cada una de las bases A, C, G y T o utilizar la misma molécula indicadora colocada en cuatro lugares diferentes en los fragmentos. Con entradas al ordenador múltiples y paralelas y otros medios electrónicos modernos, se cree que es posible registrar varios millones de señales por segundo que permitan una secuenciación rápida.

En una forma de realización preferida se utilizan estos métodos de manera apropiada juntamente con las técnicas de amplificación descritas en la presente memoria, es decir se determina una fracción de dicha molécula diana de ácido nucleico por la presencia de una o más, señales preferentemente una cadena de señales de amplificación. Estos métodos sin embargo también pueden utilizarse cuando no se realice una amplificación. En lugar de ampliar las moléculas de ADN se podrían incorporar diferentes fijaciones a las bases que los sensores pueden registrar.

Una vez se ha acumulado la información de la señal, se utiliza un programa de ordenador para reunir las piezas de la secuencia en la secuencia final. La probabilidad de que puedan ocurrir errores en esta etapa depende principalmente de cinco parámetros: la longitud de la molécula de ADN que se debe secuenciar, cómo está colocada al azar la composición de pares de bases de la secuencia de ADN, la longitud de las piezas de ADN que se deben leer, el número de piezas de ADN que se está leyendo y la tasa de error en las reacciones de secuenciación.

El inventor ha creado ya un programa informático para analizar la importancia de los parámetros mencionados anteriormente. Basándose en el ADN del genoma humano que ha sido ya secuenciado, los análisis demuestran que con una pieza de ADN de 30 fragmentos de longitud, la lectura de 6x10^{8} piezas de ADN y una tasa de error en la reacción de secuenciación del 10% (considerando mutaciones puntuales), leer un genoma humano se podría en una única reacción de secuencia y con muy pocas mutaciones/deleciones puntuales. Sin embargo, una excepción son las áreas no muy aleatorias (ADN satélite y otras áreas repetitivas) en las que deben aumentarse las longitudes de la pieza de ADN. La información biológica en estas áreas, sin embargo, es de importancia secundaria en comparación con las secuencias de codificación y los elementos cis-reguladores.

El análisis de datos demuestra también que incluso una tasa de error muy elevada en la reacción de secuenciación se compensa cuando las piezas de ADN se leen muchas veces. Por ejemplo, leyendo diez veces tantos pares de bases como la longitud de la secuencia, la mayoría de las deleciones y mutaciones puntuales se eliminarán incluso con una tasa de error elevada en la reacción de secuenciación.

Dependiendo de la técnica que se utilice para la secuenciación es posible en determinadas circunstancias realizar la secuenciación en una muestra heterogénea, por ejemplo, para realizar la secuenciación paralela. Los procedimientos que permiten esto forman aspectos preferidos de la invención. Dichas técnicas requieren que las señales procedentes de diferentes moléculas diana puedan discriminarse. Esto puede conseguirse de numerosas maneras, por ejemplo, por restricción a determinadas posiciones, inclusión o identificación de marcadores que identifican determinadas moléculas diana, etc. Por ejemplo, pueden utilizarse soportes sólidos que complementan una zona de una molécula diana de ácido nucleico para aislar y retener una molécula determinada. Esto puede realizarse con conocimiento de por lo menos una parte de una secuencia, es decir unir determinadas moléculas a un determinado punto o sin dicho conocimiento utilizando sondas de unión esencialmente aleatorias en las cuales diferentes moléculas se unan y las cuales puedan a continuación secuenciarse en paralelo, haciendo uso de una o más técnicas para relacionar la secuencia con esta molécula, por ejemplo, mediante marcador de dirección o de posición. Las técnicas descritas en la presente memoria son particularmente ventajosas ya que permiten secuenciar moléculas individuales ayudando de este modo más a facilitar las reacciones paralelas de secuenciación.

Pueden utilizarse numerosas técnicas descritas en la presente memoria para secuenciar únicamente una parte de una molécula diana o para la toma de huellas, el análisis del perfil o la cartografía, es decir, la identificación de fracciones discretas y distintivas de una molécula, por ejemplo, para el análisis de la expresión del ARN (que puede convertirse en primer lugar en ADNc para análisis). Por ejemplo, tal como se describe en el Ejemplo 23, una muestra diana puede digerirse con una enzima de restricción que produzca una determinada prolongación a la que pueda fijarse una señal de amplificación (preferentemente una cadena de señales de amplificación). Además al llevar la información relacionada con la secuencia, dichas señales pueden llevar además información relacionada con la enzima que produjo la escisión, es decir, como marcador de fragmentos resultante de esta escisión. Puede utilizarse más de una enzima de restricción simultáneamente si éstas producen diferentes prolongaciones de longitud a las que pueden unirse diferentes adaptadores. Alternativamente pueden utilizarse diferentes enzimas de restricción en ciclos consecutivos.

Los fragmentos resultantes pueden alinearse a continuación, por ejemplo, en virtud de las señales de amplificación unidas a las prolongaciones complementarias, por ejemplo, mediante la utilización de señales que reflejan esta complementariedad, por ejemplo, en las que las propias señales están construidas de bases de nucleótidos. A partir de esto puede construirse una cartografía de restricción como la descrita en el Ejemplo 23. Por lo tanto, en un aspecto adicional la presente invención proporciona un método de producción de una cartografía de una secuencia diana que comprende la obtención de la información de la secuencia en fracciones discretas de dicha secuencia tal como se describe en la presente memoria además de la información de las posiciones en dichos fragmentos tal como se describe en la presente memoria.

En una característica preferida dicha cartografía se produce obteniendo la información de la secuencia en fracciones discretas de dicha secuencia en la que dichas fracciones comprenden todas o parte de los sitios de escisión de una o más nucleasas y/o toda o parte de las secuencias de restricción de dichas nucleasas y las posiciones de dichas secuencias se determinan por comparación de las secuencias en los extremos terminales de los fragmentos de dicha molécula diana de ácido nucleico tras la digestión con dichas nucleasas.

La información de la secuencia se obtiene preferentemente mediante la escisión de dicha molécula diana por una o más nucleasas tal como se describe en la presente memoria, preferentemente para producir zonas complementarias de una cadena simple y la unión de una molécula adaptadora a una zona de dicha molécula diana (preferentemente en el sitio de escisión o adyacente a éste) en la que dicha molécula adaptadora lleva una o más señales de amplificación tal como se describe en la presente memoria, en la que dicha señal comprende un grupo de señalización que corresponde a una o más bases de dicha zona a la que dicha molécula adaptadora se une y comprende además un grupo de señalización adicional que corresponde a la nucleasa utilizada para la escisión. En los casos en los que se emplean suficientes nucleasas, este método puede utilizarse como un método de secuenciación.

Por ejemplo, una bacteria puede identificarse de la siguiente manera. Puede lisarse la bacteria y aislarse el ADN. Las moléculas pueden cortarse a continuación con endonucleasas de restricción de clase II u otras de dichas nucleasas como se describe en la presente memoria. Las moléculas de ADN pueden unirse a continuación a adaptadores para identificar las prolongaciones. Las moléculas de ADN pueden fijarse a continuación a una placa de lectura y alargarse. Mediante la exploración de la placa de lectura con un escáner de fluorescencia puede obtenerse información o patrón característico sobre las longitudes de restricción y la información de la secuencia deducida de los extremos de estas moléculas. Las técnicas en las cuales está implicada dicha amplificación permiten la discriminación de molécula del mismo tamaño en virtud de sus secuencias terminales. De este modo en una característica adicional de la invención, la presente invención proporciona un método de obtención de una huella de una molécula diana de ADN que comprende la utilización de una o más técnicas de secuenciación descritas en la presente memoria además de la obtención de la información de las posiciones tal como se describe en la presente memoria.

En las características preferidas de la invención, se obtiene información de las posiciones en relación con una cartografía de restricción característica de dicha molécula diana. Las características preferidas adicionales comprenden la utilización de la cartografía de restricción para identificar una o más señales de amplificación y la utilización de señales que pueden leerse eficazmente utilizando citómetros de flujo o análisis de nano o microporos.

Utilizando los principios y protocolos que están introducidos en esta solicitud de patente pueden reducirse las tasas de error utilizando técnicas de corrección tanto en las reacciones de secuenciación o clasificación como cuando se leen las señales.

Si se utiliza la clasificación, es posible clasificar la misma pieza de secuencia varias veces. Por ejemplo, todo el ADN diana que comienza con AAAA se clasifica en el pocillo 1. A continuación se repite el mismo procedimiento cuando las moléculas de ADN clasificadas de manera incorrecta que no acaban en AAAA se lavan por arrastre. El procedimiento puede repetirse en principio hasta que se obtenga el porcentaje de error deseado.

Si se utiliza amplificación o conversión, es posible convertir la misma pieza de secuencia en una molécula diana varias veces de modo que se obtiene una cadena repetitiva de señales de amplificación (cadena de señales). La mayoría de las conversiones con error pueden descubrirse a continuación cuando los productos de conversión repetidos no son parecidos. El fragmento de una molécula diana que debe utilizarse para deducir la información de la posición también puede copiarse de la misma manera.

Además, cada pieza de secuencia puede leerse muchas veces porque el número de moléculas diana que se analizan puede ser muy grande.

Los kits para realizar los métodos de secuenciación de amplificación descritos en la presente memoria forman un aspecto preferido de la invención. Vistos de este modo desde un aspecto adicional la presente invención proporciona un kit para la amplificación de una o más bases de una molécula diana de ácido nucleico que comprende por lo menos uno o más adaptadores tal como se describió en esta memoria anteriormente, opcionalmente fijados a uno o más soportes sólidos, que comprenden preferentemente una o las propias señales de amplificación que comprenden un medio de señalización.

Opcionalmente el kit puede contener otros componentes apropiados seleccionados de el grupo constituido por enzimas de restricción para su utilización en la reacción, vectores en los que las moléculas diana pueden estar ligadas, ligasas, enzimas necesarias para la inactivación y activación de secuencias de restricción o de ligadura, cebadores para amplificación y/o enzimas, tampones y soluciones apropiados. Los kits para realizar otros aspectos de las reacciones de secuenciación descritas en la presente memoria están también incluidos dentro del alcance de la invención. Así por ejemplo los kits para realizar la reacción de clasificación pueden comprender por lo menos un soporte sólido que lleva una o más sondas complementarias, preferentemente una serie de sondas discretas incompatibles con cada otra sonda en una dirección diferente en el soporte sólido, o un soporte sólido independiente, mediante una o más bases. En dichos kits pueden también estar incluidos medios de señaldo apropiados.

\newpage

La utilización de dichos kits para la amplificación de moléculas diana de ácido nucleico o para la secuenciación forman aspectos adicionales de la invención.

Los ejemplos siguientes se proporcionan solamente a título ilustrativo en los cuales las figuras citadas son las siguientes:

La Figura 1 representa un método de introducción de señales de amplificación en una secuencia diana utilizando dos enzimas de restricción, hibridación y ligadura;

la Figura 2 representa un método de introducción de señales de amplificación en una secuencia diana utilizando un vector que lleva 2 secuencias de restricción, los cuales producen tanto prolongaciones como adaptadores que también contienen dichas secuencias de restricción; la Figura 2A presenta el vector base que incluye el ADN diana, la Figura 2B presenta los adaptadores que pueden utilizarse y la Figura 2C presenta las cuatro etapas enzimáticas utilizadas para ampliar cada base.

la Figura 3 representa un método de secuenciación de nueve bases por ciclo con un mecanismo de corrección, la Figura 3A presenta los adaptadores que se utilizan y la Figura 3B presenta las etapas enzimáticas utilizadas para ampliar cada base;

la Figura 4 representa un método de secuenciación que incluye la terminación de una secuencia de restricción para identificar la base terminal de una molécula diana en la cual A) presenta adaptadores que pueden utilizarse en el proceso, B) presenta la molécula de enlace que contiene parte de la secuencia de restricción y C) presenta la molécula de enlace unida al ADN diana para completar la secuencia de restricción;

la Figura 5 representa un método de secuenciación que utiliza una reacción de sustitución de Klenow acoplada con hibridación y ligadura y en la cual A) presenta el vector base en el cual se ha ligado la molécula diana; B) presenta la estructura del adaptador A utilizada para los ciclos 1, 3, 5, etc.; y C) presenta la ligadura infructuosa y efectiva dependiendo de si se han creado prolongaciones comparables en tamaño;

la Figura 6 representa un método de secuenciación que utiliza adaptadores que funcionan como cebadores cuando se unen a moléculas diana de una cadena simple en el cual A) presenta los adaptadores que se utilizan como cebadores para unirse a las moléculas diana y B) presenta un adaptador unido a una molécula diana;

la Figura 7 representa adaptadores alineados uno al lado de otro que llevan señales de amplificación y que se hibridan a la diana y se autohibridan;

la Figura 8 representa un método de construcción de adaptadores que contienen señales de amplificación correspondientes a más de una base;

la Figura 9 representa un método de conversión basado en la utilización de adaptadores en horquilla y cuyas señales de amplificación se copian en ambos extremos de una molécula diana;

la Figura 10 representa un método de conversión basado en conectar entre sí fragmentos convertidos de ADN;

la Figura 11 representa un método de duplicado de moléculas de ácido nucleico;

la Figura 12 representa un método para la secuenciación de ADN utilizando una estrategia de clasificación basada en cebadores, en el cual A) ilustra el procedimiento general en el que un cebador de secuenciación se une a un soporte sólido (etapa 1), al cual se unen moléculas diana (etapa 2) y se amplía mediante amplificación con polimerasa (etapa 3), a continuación se unen los cebadores que llevan diferentes señales (etapa 4) y se amplían las cadenas (etapa 5), a continuación se liberan los productos resultantes de la amplificación para su clasificación (etapa 6); B) presenta cebadores representativos para su utilización en el pocillo 1 que tienen diferentes señales fijadas; y C) presenta la información de fluorescencia que se obtiene de cada uno de los 16 pocillos;

la Figura 13 representa el procedimiento para la secuenciación de ADN que utiliza una estrategia de clasificación basada en la hibridación y los resultados que se obtienen, en el cual A) presenta la unión de las moléculas diana marcadas con fluorescencia de una cadena simple a sondas de octámero en una superficie sólida con múltiples direcciones que se alargan a continuación; B) presenta una sección de una superficie de exploración que ilustra cómo se distribuyen las señales de fluorescencia en líneas rectas correspondientes a las diferentes longitudes en cada dirección; y C) presenta la intensidad de la fluorescencia en una dirección;

la Figura 14 representa un método de secuenciación de ADN en el cual las moléculas de ADN diana están fijadas a un punto de referencia fijo, en el cual A) presenta los adaptadores de conversión que están constituidos por APN y una cadena de señales de amplificación (identificada en la presente memoria como la cadena señal) con una composición correspondiente; B) ilustra la unión del ADN diana al soporte sólido, la fijación con los adaptadores de APN y el alargamiento; C) presenta el aspecto de la superficie de exploración una vez que se han alargado las moléculas;

la Figura 15 representa el método de conversión binaria del extremo antes de la secuenciación del nanoporo en el cual se presenta el procedimiento para producir moléculas diana que contienen adaptadores de conversión así como la señal resultante que consiste en la información de la posición y la secuencia así como en señales de dirección;

la Figura 16 representa cómo se utilizan las células para generar una señal que refleje una secuencia de bases, en el cual A) presenta cómo se añade un potenciador a las moléculas diana y después los cebadores que llevan señales de amplificación se fijan en forma de genes indicadores; y B) presenta un histograma que ilustra la distribución de señales;

la Figura 17 representa un método de secuenciación mediante la creación de escalones de secuenciación que se diferencian cada uno en tres bases ampliadas en el que las moléculas diana unidas se escinden no de manera específica, se unen a adaptadores que se escinden para generar prolongaciones a las que se fijan las señales de amplificación;

la Figura 18 representa un método de secuenciación mediante la creación de puntos de fijación a lo largo de la longitud de una molécula de ADN que se fija a un soporte sólido y los extremos del ADN fragmentado están ampliados;

la Figura 19 representa un método de secuenciación en el que se adhieren sucesivamente cadenas de señales ampliadas a un soporte sólido en el que se utilizan adaptadores que contienen un enlazador de ADN que espacia la señal del ADN que se está secuenciando, el cual puede eliminarse para permitir el acceso a la molécula que se está secuenciando en el ciclo siguiente;

la Figura 20 representa un método de introducción de marcadores de posición en una molécula que contiene un fragmento que debe secuenciarse, el cual se secuencia con la ayuda de adaptadores;

la Figura 21 representa un método de clasificación en el cual una molécula diana se une a los adaptadores presentes en un soporte sólido. El extremo terminal de la molécula se une a continuación al soporte sólido y el otro extremo se libera para permitir la conversión de una cadena adyacente del ADN. (4) presenta el ADN resultante después del alargamiento;

la Figura 22 representa un método de preparación de moléculas diana para procedimientos de cartografiado en el cual se utilizan varias enzimas de restricción que producen prolongaciones que difieren tanto en longitud como en orientación (prolongaciones 3' o 5') que se ligan a continuación a cadenas de señales de amplificación;

la Figura 23 representa el principio general de amplificación en el cual las cuatro bases más externas de una molécula de ADN diana se amplían mediante una reacción de ligadura con una cadena de señales de amplificación. La parte de la molécula de ADN diana que no se amplía puede utilizarse para obtener la información de la posición tal como se demuestra, en este caso leyendo con una estrategia basada en la cartografía óptica;

la Figura 24 representa el método de clasificación descrito en la presente memoria el cual se realiza en una micromatriz en la cual las prolongaciones de las 4 bases en el ADN diana están mezcladas con una micromatriz con 256 direcciones y ligada. La dirección 1 contiene las prolongaciones AAAA y por esta razón se une a las moléculas diana con las prolongaciones TTTT; y

la Figura 25 representa ejemplos de cómo las cadenas con señal pueden utilizarse para obtener tanto la información de la secuencia (izquierda) como la información de la posición (derecha) en los cuales A) presenta un método basado en DIRVISH que utiliza sondas marcadas con fluorescencia que se unen a las moléculas diana en un modelo característico, B) presenta un método basado en cartografía óptica en el cual se utiliza el modelo de restricción para proporcionar la posición de la secuencia, C) presenta un método en el cual un modelo característico de proteínas de unión al ADN que se registran a medida que pasan a través de un micro/nanoporo y D) presenta un método que utiliza sondas marcadas con fluorescencia, proteínas o similares que se registran a medida que pasan un detector de fluorescencia.

Ejemplo 1 Secuenciación mediante la introducción de señales de amplificación utilizando dos enzimas de restricción, una que crea una prolongación y la otra que crea terminales truncados Métodos

1. Una población de ADN puro que está constituida por la secuencia de ADN que se debe secuenciar se corta o se rompe de una manera no específica para que se forme una población de moléculas de ADN que está constituida por piezas (en lo sucesivo denominadas piezas de ADN) de la secuencia original.

2. Los pares de bases en las piezas de ADN estás sustituidos por cuatro secuencias de ADN diferentes (en lo sucesivo denominados fragmentos de ADN, correspondientes a las señales de amplificación) que representan cada una de las cuatro bases Adenina, Citosina, Guanina y Timina. Por lo tanto, donde existía un par de bases A-T se inserta el "fragmento A", C-G se sustituye por el "fragmento C", etc. De este modo se generan nuevas moléculas de ADN en las que el orden original de las bases de por ejemplo, ACGTT se sustituye por el fragmento A-fragmento C-fragmento G, etc. La longitud de estos cuatro fragmentos de ADN puede variar, en principio, desde dos pares de bases a varios centenares de kbp (o más si se desea), según los requisitos. Según el caso, los fragmentos de ADN pueden contener genes indicadores y otra información biológica o estar constituidos únicamente de secuencias sin una función biológica conocida.

3. Se lee el orden de los cuatro tipos de fragmentos de ADN para cada molécula individual de ADN. De este modo, se determina el orden de bases de las piezas originales del ADN.

4. Un programa informático utiliza los solapamientos entre las piezas de ADN para recopilar la información de la Etapa 3 para la secuencia de las secuencias del ADN que se utilizaron en el punto de partida.

La Figura 1 ilustra un método de realización de la etapa 2 que se basa en enzimas de restricción que cortan externamente su propio punto de unión al ADN. El método se realiza de la manera siguiente:

1) Las piezas de ADN de la Etapa 1 se ligan en un plásmido que tiene puntos de unión para una enzima de restricción (Enz1) que genera cortes en el extremo truncado y que corta fuera de su propio punto de unión al ADN y genera prolongaciones de un par de bases (Enz2). Además, se incorporan bases de biotina en el plásmido para que se adhiera al tubo de reactivo tratado con estreptavidina donde tiene lugar la reacción.

2) Se lava el tubo con el reactivo y se añade una nueva mezcla de reacción que contiene Enz1 y Enz2 y se incuba de modo que se forman un extremo truncado y un extremo en el que la primera base de la pieza de ADN constituye una prolongación.

3) Se lava otra vez el tubo de reactivo y se añade y se incuba una mezcla de reacción que contiene cuatro fragmentos diferentes de ADN junto con una ADN ligasa termoestable (por ejemplo, Pfu o Taq ADN ligasa). La ventaja de las ADN ligasas termoestables es que se ligan de manera muy específica mientras que al mismo tiempo no ligan los extremos truncados. De este modo el "fragmento A" se ligará cuando exista una prolongación de adenosina, el "fragmento C" cuando exista una citosina, etc.

4) Se lava el tubo del reactivo todavía otra vez y se añade una mezcla de reacción con T4 ligasa y se incuba para que se liguen los extremos truncados. Como los fragmentos insertados tienen puntos para Enz1 y Enz2 como el plásmido al principio, se vuelve al punto de partida para que la siguiente base pueda ser sustituida por un fragmento de ADN en un nuevo ciclo.

Ejemplo 2 Secuenciación mediante introducción de señales de amplificación utilizando dos enzimas de restricción que crean ambas prolongaciones

El punto de partida para el método es que todos los fragmentos de ADN diana que deben convertirse se tratan con BspMI-metilasa de modo que todos los puntos de BspMI se vuelven inactivos. Se ligan a continuación en el vector base como se ilustra en la Figura 2a que presenta el vector base con una pieza de ADN ligada en él y se fija a un sustrato de estreptavidina. El vector base contiene un punto BspMI que se utiliza para escindir el fragmento de ADN como se muestra en línea continua. La prolongación que se crea en este ejemplo tendrá una "T" en el interior de modo que únicamente son los adaptadores de A los que pueden estar ligados a la prolongación. El punto AatII se utiliza para dar forma circular al vector base una vez se ha ligado el adaptador A a la prolongación que se creó con BspMI. El vector base contiene también bases señaldas con biotina de modo que pueden fijarse a un sustrato recubierto con estreptavidina.

En la Figura 2b se presentan los adaptadores que se utilizan. La única diferencia entre el adaptador A1 (arriba) y A2 (abajo) es que el punto/prolongación de AatII ha cambiado sitios con el punto/prolongación de PstI. Los adaptadores A1 y A2 se utilizarán en todos los segundos ciclos de modo que A1 se utiliza en los ciclos 1, 3, 5, etc. mientras que A2 se utiliza en los ciclos 2, 4, 6, etc. La prolongación 5' consta de tres nucleótidos universales más adenina a lo largo de 5'. Estas prolongaciones ligarán de este modo a otras prolongaciones 5' con una quinina en el interior de la prolongación (junto a 3'). La línea gruesa fuera de la prolongación 5' en el adaptador inferior presenta la prolongación que se creará al escindir con BspMI una vez que el adaptador se ha ligado a un fragmento de ADN. Además de los adaptadores A, los adaptadores deben estar construidos para C, G y T.

Cuando los fragmentos de ADN se han ligado en el vector base, se fijan a un sustrato de estreptavidina, por ejemplo, esferas paramétricas. Utilizando el kit BINDER kilobase de Dynabead, se obtiene una unión muy fuerte biotina-estreptavidina, de modo que las soluciones de reacción pueden cambiarse rápida y eficazmente con una pérdida mínima de ADN incluso con muy pocos ciclos. (Biomagnetic Techniques in Molecular Biology, 3ª edición, págs. 158-60, distribuido por Dynal AS). El resto del procedimiento consta de un ciclo de cuatro reacciones enzimáticas en las que se transforma una base por ciclo (Fig. 2C).

En este procedimiento se inicia el ciclo cortando con BspMI de modo que la primera base del fragmento de ADN está en el interior de una prolongación 5'. En este caso, es la timina. A continuación, se añade un gran excedente de adaptadores A1, C1, G1 y T1. Éstos están diseñados para que el adaptador A1 se ligue a prolongaciones con timina en el interior, C1 con guanina en el interior, etc. Los adaptadores también se tratan con fosfatasa (por ejemplo, fosfatasa alcalina tal como AP intestinal de ternero, Promega), de modo que se impiden las ligaduras entre los adaptadores. Utilizando una ligasa termoestable, se obtiene gran especificidad en esta etapa. En la tercera etapa, la escisión se realiza con AatII de modo que se crea una prolongación que se utiliza para dar forma circular al vector en la última etapa. Ésta completa el procedimiento y se vuelve al punto de partida. La única diferencia es que la secuencia BspMI está colocada un par de bases más adelante, de modo que se crea una prolongación con la segunda base del fragmento de ADN en el interior. La secuencia AatII se sustituye también por una secuencia PstI de modo que en el ciclo siguiente deben utilizarse los adaptadores con prolongaciones PstI. (La razón por la cual se utilizan adaptadores AatII/PstI todas las segundas veces es para prevenir que los adaptadores se corten otra vez antes de dar forma circular al vector).

Ejemplo 3 Secuenciación por introducción de señales de amplificación utilizando dos enzimas de restricción, que crean prolongaciones en zonas adyacentes del ADN diana permitiendo la corrección

El punto de partida de esta variante son 256 adaptadores con todas las combinaciones de prolongaciones en cuatro bases y 1.024 adaptadores con todas las combinaciones de prolongaciones en cinco bases (Fig. 3A). Del tipo de adaptador de la parte superior, deben crearse 1.024 variantes, mientras que se crean 256 variantes del de la parte inferior. El tamaño relativo de los fragmentos es mayor que el que indica la figura. Obsérvese que ambos adaptadores tienen prolongaciones PstI, que les permiten unirse entre sí. Sin embargo, las prolongaciones tendrán que ser tratadas con fosfatasa de modo que la ligadura entre los adaptadores no pueda tener lugar hasta que hayan sido tratadas con una cinasa.

En el vector base, las secuencias BspMI y PstI están sustituidas por las secuencias HgaI y SfaI en comparación con el vector base utilizado en la primera variante (Fig. 2).

El resto del procedimiento consta de un ciclo de cuatro reacciones enzimáticas en las que nueve bases por ciclo se transforman (Fig. 3B). Al final de la conversión, el vector está en forma circular volviendo a llevar la reacción al punto de partida. La única diferencia es que las secuencias HgaI y SfaNI están desplazadas cuatro pares de bases más en el fragmento de ADN. En el ciclo siguiente se crean de este modo cuatro nuevos pares de bases, más cinco de los pares de bases que se transformaron también en este título. Verificando que los cuatro pares de bases mencionados últimamente se convirtieron del mismo modo en ambos ciclos, se puede comprobar si se produjeron una o varias conversiones incorrectas.

Método

1) Las moléculas del ADN diana se fragmentan con ADNasa1 o similar de modo que se forman los fragmentos de unos pocos centenares de pares de bases. Éstas se tratan para metilar las secuencias HgaI y SfaNI. Los fragmentos se ligan a continuación en un vector base que se fija a las bolas paramagnéticas.

2) Se realiza la escisión de HgaI.

3) Se realiza SfaNI.

4) Se realiza la metilación con HgaI y SfaNI metilasa y otras metilasas que inactivan las secuencias HgaI y SfaNI.

5) Se añade un gran exceso de adaptadores y se ligan, por ejemplo, utilizando Pfu o Taq, con las prolongaciones que se formaron mediante HgaI y SfaNI en las etapas 2) y 3). En esta etapa las prolongaciones de PstI no llegan a ligarse ya que han sido tratadas con fosfatasa.

6) Se fosforilan las prolongaciones PstI de los adaptadores y a continuación se ligan por ejemplo, con T4 ADN ligasa para dar forma circular al vector.

7) Se repite el ciclo el número de veces deseado volviendo a empezar en la etapa 2).

8) Las moléculas diana convertidas se liberan del vector base por escisión utilizando la secuencia de restricción para escisión en el vector base que flanquea las moléculas diana ligadas. Cualquier punto de corte que pueda existir en las señales de amplificación debe ser inactivado previamente.

9) Las moléculas de ADN transformadas se construyen de una cadena simple y se hibridan con sondas fluorescentes.

10) Las moléculas de ADN transformadas se anclan a una superficie de exploración, se alargan y las sondas fluorescentes se exploran con un escáner fluorescente o similar (como con DIRVISH).

11) Se utiliza un programa informático apropiado para reconocimiento por imagen y reconstrucción de la secuencia diana.

Una manera en la que se puede realizar esto es la siguiente, en la que todos los volúmenes se calculan sin el volumen de las bolas):

1) Se clonan fragmentos al azar en un vector base fijado a bolas paramagnéticas, tal como se describió anteriormente.

2) Se utiliza un imán para sedimentar las bolas y se lava el tubo con aproximadamente 100 \mul de 1X NE tampón 1.

3) Se añaden 10 \mul de 10X NE tampón 1, 4 unidades de HgaI por \mug de ADN y agua hasta un volumen final de 100 \mul. Se incuba esto a 37ºC durante 1 hora.

4) Se inactiva la enzima HgaI a 65ºC durante 20 minutos.

5) Se utiliza un imán para sedimentar las bolas y se lava el tubo con 1X NE tampón 3.

6) Se añaden 10 \mul de 10X NE tampón 3, 2 unidades de SfaNI por \mug de ADN y agua hasta un volumen final de 100 \mul. Se incuba esto a 37ºC durante 1 hora.

7) Se metilan las secuencias SfaNI y HgaI.

8) Se utiliza un imán para sedimentar las bolas y se lavan los tubos con 1X tampón de ligasa.

9) Se añade la solución que contiene los adaptadores de conversión. La proporción entre las moléculas de ADN diana y los adaptadores de conversión puede ser 1:50. Se añaden 100 \mul de 10X tampón de ligasa, 10 \mul de T4 ADN ligasa (400 U/\mul, NEB nº 202) y agua hasta un volumen final de 1 ml. Se incuba esto a 16ºC durante 12 a 16 horas.

10) Se utiliza un imán para sedimentar las bolas y se lavan los tubos con 1X tampón de cinasa.

11) Se añaden 2 \mul de ATPr 10 mM, 10 \mul de 10X tampón de cinasa, 2 \mul de T4 polinucleótido cinasa (3U/\mul) y agua hasta un volumen final de 100 \mul. Se incuba esto a 37ºC durante 10 a 30 minutos. (T4 polinucleótido cinasa (70031) procedente de United States Biochemicals).

12) Se utiliza un imán para sedimentar las bolas y se lavan los tubos con 1X tampón de ligasa.

13) Se añaden 100 \mul de 10X tampón de ligasa, 10 \mul de T4 ADN ligasa (400 U/\mul, NEB nº 202) y agua hasta un volumen final de 1 ml. Se incuba esto a 16ºC durante 12 a 16 horas.

14) Se repiten las etapas 2) a 13) una o varias veces.

Si se utiliza, por ejemplo, el método de Bensimon (Michalet et al., 1997, Science, 277, pág. 1518-1523) para alargamiento de moléculas de ADN, pueden alargarse aproximadamente 1 millón de moléculas de ADN de 500 kb por superficie de exploración. Si cada señal es aproximadamente de 5 kb, lo cual significa que cada molécula de ADN de 500 kb proporciona información acerca de las secuencias de 100 pares de bases. Esto significa que una superficie de exploración proporcionará información de aproximadamente 100 millones de pares de bases. Una reconstrucción lograda de la secuencia dianadependerá, sin embargo, de las piezas de la secuencia que se solapen, de modo que muchos pares de bases tendrán que ser explorados por lo menos dos veces.

Ejemplo 4 Método de secuenciación que implica la terminación de una secuencia de restricción para identificar la base terminal de una molécula diana

Este método se basa en la gran especificidad que presentan muchas de las enzimas activas en el metabolismo del ADN en los sustratos de reconocimiento. El método se ilustra a continuación con enzimas de restricción, pero también pueden utilizarse numerosas otras enzimas que metabolizan ADN, tales como las enzimas de restricción específicas del punto, transposasas, etc. Para la mayoría de las enzimas de restricción, la mutación de uno de los pares de bases en el sitio de escisión es una regla suficiente para impedir la escisión adicional por la enzima. En este método se liga una molécula diana a un enlazador que contiene únicamente una parte de una secuencia de restricción. Donde el ADN diana completa esta secuencia, se puede efectuar la escisión, después de lo cual puede unirse un adaptador complementario que indica a estas moléculas que completen la secuencia y por consiguiente presenten una base final determinada. En la Figura 4 se ilustra el método para la adenina.

Método

1) Las moléculas de ADN que deben ser secuenciadas se cortan con cuatro enzimas de restricción normales diferentes (EnzA, EnzC, EnzG y EnzT).

\newpage

2) Estas moléculas se ligan a continuación a cuatro moléculas de enlace de ADN diferentes (moléculas A, C, G y T). Cada una de estas moléculas presenta un punto casi completo para EnzA, C, G y T, respectivamente, en el extremo en el que únicamente carecen de un par de bases (A, C, G y T, respectivamente) a fin de obtener un par de bases completo. Un ejemplo de dicha molécula de enlace se presenta en la Figura 4B. En esta molécula existe una secuencia HindIII que carece del par de bases A/T. Si este enlazador se liga a piezas de ADN que no tienen el par de bases A/T, puede utilizarse la MnII para separar la molécula de la pieza de ADN. La Figura 4C presenta la molécula de enlace A ligada a una pieza de ADN con el par de bases A/T en el extremo, de modo que se ha creado una secuencia HindIII completa. En la etapa siguiente en la que se utiliza HindIII para el corte, se creará una prolongación de HindIII que pueda ligarse al adaptador A.

3) Las cuatro enzimas de restricción se añaden a la solución para permitir la escisión. Solamente serán completos los puntos de corte en los que cada molécula de enlace A, C, G y T se haya ligado a las moléculas de ADN que tienen el par de bases que falta en el extremo (A, C, G o T para la molécula A, C, G o T, respectivamente).

4) Se añaden adaptadores con prolongaciones que complementan las que se han generado con enzimas de restricción y ligado de modo que los adaptadores se fijan a las piezas de ADN correctas. En la Figura 4A se presentan los adaptadores apropiados. El adaptador de la parte superior se utiliza para los ciclos 1, 3, 5, etc. mientras que el adaptador de la parte inferior se utiliza para los ciclos 2, 4, 6, etc. Los adaptadores tienen prolongaciones que son complementarias de las prolongaciones producidas por HindIII. La prolongación AatII en el adaptador superior se utilizará para ligar el otro extremo del adaptador al vector base de modo que tome la forma circular. El punto MnII generará un extremo truncado en la pieza de ADN para que pueda iniciarse un nuevo ciclo. Se utilizará el punto PstI para ligar un nuevo adaptador en el ciclo siguiente en el que se utilizan adaptadores con prolongaciones
PstI.

5) El vector base toma la forma circular con la pieza/adaptador de ADN cortando, por ejemplo, con AatII de modo que el otro extremo del adaptador pueda ligarse al vector base. En los casos en que no haya sido creada ninguna secuencia HindIII, un pequeño fragmento con una secuencia PstI se liga en la prolongación de AatII del vector base.

6) La escisión se realiza con una enzima de restricción que genera un nuevo extremo truncado en la pieza de ADN de modo que puede iniciarse un nuevo ciclo.

Ejemplo 5 Método de secuenciación que utiliza una reacción de sustitución de Klenow acoplada con hibridación y ligadura

Este método se basa en la especificidad muy elevada que presenta el fragmento de Klenow de la ADN polimerasa para la incorporación de nucleótidos y al hecho de que la mayoría de las ADN ligasas carecen de capacidad para ligar prolongaciones de diferentes tamaños. El método se presenta en la Figura 5 en la cual se construye una prolongación en la molécula diana que es más larga que la prolongación en las moléculas adaptadoras. Únicamente aquellas moléculas diana que se prolonguen de manera apropiada para incluir la base más correcta para reducir la prolongación estarán ligadas al adaptador. La Figura 5 ilustra el método para la adenina.

Método

1) Las piezas de ADN se ligan en el vector base como se muestra en la Figura 5A. Aparte de la biotina que permite fijar la molécula a un sustrato de estreptavidina (por ejemplo, esferas magnéticas recubiertas con estreptavidina M280 de Dynal), la base del vector contiene un punto para una enzima de restricción que corta el interior del polinucleótido (por ejemplo, HgaI), así como un punto para una enzima de restricción normal (por ejemplo, EcoRI).

2) El vector se corta con HgaI de modo que se forma una prolongación con los cinco pares de bases procedentes del polinucleótido.

3) A continuación, se añaden por ejemplo, la base A junto con Klenow de modo que las prolongaciones que comienzan por "T" se acortarán hasta una prolongación de cuatro pares de bases.

4) Se sustituye a continuación la solución de reacción por una solución de ligasa y fragmentos de genes (adaptadores) con prolongaciones de las cuatro pares de bases. Las prolongaciones pueden consistir en nucleótidos universales o una combinación de todas las composiciones posibles de una prolongación con los cuatro pares de bases. La prolongación con nucleótidos universales tiene capacidad para ligar la prolongación 5' a cuatro bases en todas las combinaciones. Los fragmentos de genes también contienen un punto para una enzima de restricción que corta en el interior del polinucleótido (por ejemplo, HgaI), un punto para una enzima de restricción normal (por ejemplo, EcoRI) y una secuencia que contiene la señal "T" (secuencia que puede utilizarse como sonda, etc.) (Figura 5B). La prolongación AatII y la secuencia PstI hacen la misma función que en EX4,1. Dado que los polinucleótidos con prolongaciones de cinco pares de bases no pueden ligarse a fragmentos de genes con prolongaciones de cuatro pares de bases, únicamente aquellos polinucleótidos que originalmente tengan una "T" más interna son los que se ligan a los fragmentos del gen. En el Ejemplo 5C se presenta la ligadura lograda y no lograda. La pieza de ADN de la parte superior no logra ligar al adaptador A ya que no se incorporó ninguna base en el interior de la prolongación. Dado que únicamente las prolongaciones con una "A" en el interior han incorporado una base, son únicamente estas prolongaciones las que se ligan a un adaptador A tal como se muestra en la parte inferior. La línea llena en la pieza de ADN indica la prolongación que se formará mediante el corte de HgaI. El mismo proceso se repite a continuación con las bases C, G y T.

5) Por último, el vector base toma forma circular con una pieza/adaptador de ADN mediante corte con, por ejemplo, EcoRI y ligadura.

6) Se realiza a continuación la escisión con HgaI, la cual genera una nueva prolongación en la pieza de ADN, de modo que el ciclo de reacción puede iniciarse de nuevo.

En los casos en los que bases consecutivas sean adaptadores idénticos con prolongaciones de diferente tamaño pueden utilizarse, por ejemplo, prolongaciones de tres bases que permitan la sustitución de Klenow de 2 bases.

Ejemplo 6 Método de secuenciación que utiliza adaptadores que funcionan como cebadores cuando se unen a moléculas diana de una cadena simple Método

1) En el Ejemplo 6A se ilustran los adaptadores utilizados en este método que tienen prolongaciones que corresponden a la composición del fragmento. Obsérvese la composición del fragmento que corresponde a la composición de la base en la prolongación. Deben construirse los adaptadores de ADN que corresponden a todas las combinaciones de los fragmentos.

2) Se preparan piezas de ADN diana en piezas de una cadena simple y se ligan a los adaptadores en el extremo 3' y una plantilla de cebador en el extremo 5' con ayuda de la ARN ligasa (Figura 6B). El prerrequisito para una ligadura lograda entre el adaptador y la pieza de ADN consiste en que la prolongación del adaptador complemente el extremo 5' de la pieza de ADN. Esto asegura que los fragmentos correctos estén conectados a la pieza de ADN.

3) Las piezas de ADN diana están hibridadas con los adaptadores antes de que las moléculas se liguen entre sí. A continuación se ejecutan uno o varios ciclos de PCR. El prerrequisito para ciclos de PCR logrados es que las piezas de los ADNss hayan sido hibridadas y ligadas a un adaptador.

4) Se utiliza la secuencia EcoRI para dar forma circular a la molécula de ADN que se crea tras la ligadura entre el adaptador y la pieza de ADN. A continuación se utiliza la secuencia HgaI para crear un nuevo corte en la pieza de ADN para que pueda comenzar el ciclo siguiente. A fin de reducir las ligaduras intramoleculares tras el corte con EcoRI, puede presentar ventajas fijar las moléculas a un sustrato, por ejemplo, esferas recubiertas de estreptavidina.

Ejemplo 7 Método de secuenciación que utiliza adaptadores que se autohibridan

El punto de partida para este método son los adaptadores del ADN de una cadena simple o del ARN que tienen capacidad para hibridarse con la molécula de ADN que debe ser secuenciada, mientras que al mismo tiempo llevan fragmentos (señales de amplificación) que corresponden a las bases a las que se hibridan además de las zonas que se autohibridan (Figura 7). Al construir dichos adaptadores con todas las posibles combinaciones de los fragmentos y al hibridarlos con las moléculas de ADN que deben ser secuenciadas, pueden alinearse múltiples adaptadores uno al lado de otro (véase la Figura 7). Si los adaptadores están correctamente alineados, es decir, sin incompatibilidad para los dos primeros adaptadores, será posible ligarlos entre sí de modo que formen cadenas más largas.

Ejemplo 8 Método de construcción de adaptadores correspondientes a más de una base

Una estrategia para la construcción de adaptadores utiliza un principio similar al utilizado para construir segmentos de ADN. En este método, se preparan diferentes oligonucleótidos en varias direcciones de la misma manera que para la construcción de segmentos de ADN. El mismo principio se utiliza a continuación para fijar fragmentos de ADN a los oligonucleótidos de la misma manera que se fijan pares de bases a oligonucleótidos en desarrollo. Por último, las moléculas de ADN están sueltas de modo que se obtiene una solución de adaptadores.

Este ejemplo proporciona además un método alternativo para preparar adaptadores. Éste se ilustra en la Figura 8. Se utilizan ocho adaptadores diferentes con una señal cada uno para preparar 16 adaptadores diferentes con dos señales cada uno tal como se ilustra en la Figura 8. Partiendo de otros ocho adaptadores con una señal, se puede preparar 16 nuevos adaptadores con dos señales que a su vez pueden combinarse con los primeros 16 para producir 256 adaptadores diferentes con cuatro señales. De esta manera es posible producir mezclas de adaptadores en las que únicamente el número de moléculas diferentes que pueden fijarse en la solución limita el número de permutaciones. El número de adaptadores diferentes con una señal que se necesita inicialmente es igual a cuatro veces el número de señales en cada adaptador. Por ejemplo, si se quiere preparar adaptadores con 16 señales (4,29 x 10^{9} permutaciones), se necesitan inicialmente 16 x 4 diferentes adaptadores con una señal.

Método

1) Se utilizan ocho adaptadores diferentes con una señal como se ilustra en la Figura 8. Los adaptadores de la izquierda consisten en una prolongación de EcoRI, una señal que es específica para la base que está en la parte muy apropiada en la molécula y un punto de corte para BseMI. BseMI corta la parte externa de su propio punto y creará un corte truncado apropiado junto a la base en la parte apropiada de la molécula. Los adaptadores también se tratan con fosfatasa para que las ligaduras entre estos adaptadores se reduzcan. Los adaptadores a la derecha constan de una señal que corresponde a la base en la parte muy a la izquierda de la molécula y un punto de corte para EcoRI. Los adaptadores también se fijan a un sustrato para impedir las ligaduras entre estos adaptadores.

2) El procedimiento se inicia mezclando y ligando las poblaciones de dos adaptadores. Esto produce 16 moléculas diferentes de ADN que corresponden a todas las permutaciones con dos señales.

3) Se utiliza EcoRI para la escisión. A continuación se realiza la ligadura para dar forma circular a las moléculas.

4) Por último, se realiza la escisión con BseMI y ésta produce una población con 16 adaptadores diferentes con dos señales.

Ejemplo 9 Método de conversión basado en adaptadores en horquilla

Un punto central en varias de las alternativas de conversión descritas anteriormente consiste en que tras la conversión de los pares de bases, los fragmentos de ADN se transfieren al otro extremo de la molécula de ADN que está siendo convertido. Esto libera el extremo que está siendo convertido de modo que se puede continuar al nuevo ciclo mientras que al mismo tiempo se conservan los fragmentos de ADN. A continuación existe otra estrategia para transferir fragmentos de ADN al otro extremo de la pieza de ADN.

El punto de partida consiste en que muchas ligasas, incluyendo la T4 ADN ligasa, puedan ligar prolongaciones en el ADNds a los extremos del ADNss. Esto puede utilizarse de la manera ilustrada en la Figura 9.

Método

1) El ADN diana se convierte en una forma de una cadena simple.

2) Se añaden adaptadores de conversión y se ligan a los extremos 3' de las piezas de ADN.

3) Se realiza la amplificación de polimerasa.

4) Se añaden adaptadores en horquilla y se ligan. Se trata previamente el extremo del adaptador de la conversión a fin de que no se ligue al adaptador en horquilla (por ejemplo, se trata con fosfatasa).

5) Se disuelven las moléculas de ADN.

6) Las moléculas de ADN de una cadena simple se hibridan con las moléculas de ADN que complementan los fragmentos. Las moléculas de ADN complementario también tienen una prolongación con bases universales que están hibridadas con las primeras bases en el ADN diana.

7) Con ayuda de un punto de corte para una enzima que forma prolongaciones fuera de su propia secuencia de reconocimiento, se prepara el ADN para el siguiente ciclo de conversión.

En cada uno de los ciclos anteriores las señales de amplificación se duplican en cada ciclo. Esto permite la corrección que debe realizarse.

Ejemplo 10 Método de conversión basado en el acoplamiento de moléculas de ADN convertidas

Muchos de los métodos de conversión descritos anteriormente están basados en la conversión que tiene lugar en un procedimiento cíclico. El número de pares de bases convertidos por cada cadena de señales de amplificación (o cadena señal) aumenta de este modo linealmente con el número de ciclos. Una estrategia alternativa consiste en acoplar piezas de ADN convertidas en cadenas largas. Existen muchísimos métodos posibles basados en este principio y a continuación se halla una propuesta, y se ilustra en la Figura 10:

Método

El método comienza cortando y clasificando el ADN diana por tamaños. Las piezas de ADN de una longitud específica, por ejemplo, 30 pares de bases, se retiran a continuación del procedimiento.

1) Los extremos de las piezas de ADN se convierten utilizando los métodos descritos anteriormente.

2) Se da forma circular a la molécula de ADN transformada.

3) Se añade una enzima IIS que utiliza un sitio de escisión localizado en el extremo del adaptador de conversión. Éste corta la pieza de ADN tal como se ilustra en la Figura 10.

4) Se disuelven las moléculas de ADN y se hibridan con las moléculas de ADN que complementan los fragmentos, por ejemplo, sondas marcadas con fluorescencia.

5) Por último, las piezas de ADN transformadas se hibridan y se ligan, si se requiere, en la solución.

Dado que las ampliaciones con el ADN diana en el ejemplo mencionado anteriormente pretenden prolongaciones complementarias, cada pieza de ADN convertida se hibridará/ligará a las piezas de ADN encontradas. Esto crea una cadena de señales de amplificación (cadena con señal) que proporciona información acerca de las piezas de la secuencia de 8 pares de bases interrumpidas por 22 bases desconocidas (por ejemplo, AGCTGTGA N22 AGTCTGCA N22 TGAC). El número de pares de bases desconocido se determina por la longitud inicial de la pieza de ADN menos el número de pares de bases convertidos por la pieza de ADN. Basándose en las prolongaciones entre las cadenas con señal, es posible a continuación reconstruir la secuencia diana incluso en las áreas con secuencias repetitivas.

Ejemplo 11 Método de duplicación de ADN

Una molécula de ADN de una cadena simple se somete a dos ciclos de duplicado como se presenta en la Figura 1. La duplicación comienza con la ligadura de un adaptador en horquilla al extremo 3' de la molécula. De la misma manera que, por ejemplo, una transcriptasa inversa utiliza un bucle 3' en horquilla como cebador, el adaptador puede ser utilizado como cebador para una polimerasa que amplia la molécula. Por último, la molécula de ADN se disuelve de modo que se vuelve al punto de partida. Utilizando este método para duplicar una molécula de ADN de x bp n veces con ayuda de un adaptador que es y bp de longitud, la longitud del ADN será:

1)x \cdot 2^{n} + (2n-1)y

La diferencia entre dos moléculas de ADN que eran x y x+1 bp cada una antes del duplicado será entonces:

2)(x+1) \cdot 2n + (2n-1)y-x\cdot2n + (2n-1)y = 2n

La diferencia de longitud entre las dos moléculas de ADN duplicadas se determina por consiguiente solamente mediante sus diferencias absolutas y no relativas de longitud antes de la multiplicación.

Ejemplo 12 Método de secuenciación de ADN que utiliza una estrategia de clasificación basada en el cebador

Este ejemplo demuestra cómo preparar 256 escalones de secuenciación que pueden dividirse entre sí utilizando 16 separaciones de gel por separado y 16 marcadores diferentes, por ejemplo, fluoróforos. La longitud de las reacciones de la secuencia puede aumentarse sustancialmente en comparación con los métodos que utilizan solamente 4 escalones de secuenciación. De este modo es posible reducir entre otros la cantidad de trabajo de clasificación, el número de cebadores requerido, etc. cuando se secuencian secuencias largas. En este ejemplo se utilizan 16 escalones de secuenciación y 16 fluoróforos, pero obviamente el número de escalones de secuenciación y de fluoróforos puede adaptarse para satisfacer la mayoría de los requisitos y el equipo disponible. Cuantos más escalones de secuenciación y fluoróforos se utilicen, más prolongadas pueden ser las reacciones de secuenciación.

Métodos

En la Figura 12A se ilustra una visión general del método utilizado.

1) Una solución del ADN diana se divide en 16 pocillos que contiene cebadores de secuenciación anclados a los sustratos de los pocillos. Estos cebadores determinan el punto de partida fijado para la reacción de polimerasa y por consiguiente el origen común que permite que el tamaño de los últimos productos que se producen sea indicador de la distancia de la secuencia final a partir de este origen.

2) Se realiza una reacción de prolongación de polimerasa, se calientan las moléculas de ADN para producir la fusión y se lavan a continuación los pocillos.

3) Se añaden a continuación 16 cebadores diferentes a cada uno de los 16 pocillos (un total de 256 cebadores diferentes) tal como se ilustra en la Figura 12B. Todos los cebadores añadidos a cada pocillo son idénticos excepto para las bases 3 y 4 en el extremo 3'. Los cebadores con AA en esta posición están conectados a la señal 1, los cebadores con AC en esta posición están conectados a la señal 2, etc. Los cebadores en el pocillo 2 son idénticos excepto los que comienzan, por ejemplo, por AC en lugar de AA en el extremo 3', mientras que los cebadores en el pocillo 3 comienzan por AG, etc. Por lo tanto, en total existen 256 cebadores diferentes que abarcan las 256 permutaciones de 4 bases en el extremo 3'. Se fija una única señal de fluorescencia a cada uno de los 16 cebadores diferentes. A continuación se realiza una reacción más de prolongación de polimerasa.

4) A continuación se lavan los pocillos antes de disolver las moléculas de ADN. Las moléculas de ADN de una cadena simple liberadas de este modo se clasifican a continuación por tamaños con 16 separaciones en gel independientes (una por cada pocillo).

5) Se registran las señales de fluorescencia y se reconstruye la secuencia diana con un programa informático apropiado.

Resultados

En la Figura 12C se presentan los resultados. Cada señal de fluorescencia proporciona información acerca de una pieza de secuencia de 4 bases. La información acerca de las primeras dos bases puede deducirse con relación al pocillo del cual se lee la señal de fluorescencia, mientras que las dos últimas bases pueden determinarse basándose en la señal particular que está presente.

Ejemplo 13 Método para la secuenciación de ADN que utiliza una estrategia de clasificación basada en la hibridación

En este método se dirigen moléculas de ADN diana a diferentes puntos en una superficie de exploración mediante hibridación con octámeros en esta superficie. A continuación las moléculas se alargan y la distancia de una señal fluorescente a la línea perpendicular de anclaje se evalúa para proporcionar información acerca de la posición del octámero en la secuencia diana. En la Figura 13 se presenta el procedimiento general.

Métodos

1) El punto de partida es una superficie de exploración que consta de 65.536 direcciones. Se fija a cada dirección una línea perpendicular de anclaje con octámeros de una cadena simple. Los octámeros AAAAAAAA se anclan a la placa en la dirección 1, los octámeros AAAAAAAC a la placa en la dirección 2, etc., de modo que cada una de las 65.536 permutaciones del octámero tienen su propia dirección.

2) Las moléculas de ADN diana de una cadena simple con señaldo fluorescente en uno o ambos extremos se mezclan a continuación sobre la superficie de exploración de tal manera que pueden hibridarse con los octámeros. (Figura 13A)

3) Pueden reforzarse, si así se desea, los enlaces octámero/ADN diana exponiendo las moléculas a radiación UV, realizando una extensión de polimerasa con el octámero como cebador o por otros medios.

4) Las superficies de exploración se lavan a continuación y las moléculas de ADN se alargan. (Figura 13B)

5) Se explora la superficie utilizando un escáner fluorescente para registrar la intensidad de la fluorescencia en cada dirección en función de la distancia a la línea de anclaje y la secuencia diana se reconstruye utilizando un programa informático apropiado.

Resultados

En la Figura 13C se presentan los resultados que se obtienen. En la dirección ilustrada existen 7 longitudes diferentes de moléculas de ADN de aproximadamente 150, 300, 500, 550, 780, 870 y 1.040 kb (si las moléculas de ADN se alargan en 2 kb por micrómetro).

Ejemplo 14 Método para la secuenciación del ADN que utiliza un procedimiento de clasificación basado en la ligasa

Este ejemplo está basado en un procedimiento de clasificación basado en la ligasa en el cual se clasifican 65.536 escalones de secuenciación en 65.536 direcciones. Al contrario que otros métodos que utilizan 4 escalones de secuenciación que representa cada uno una base, en este método cada uno de los 65.536 escalones de secuenciación representará una pieza de secuencia de 8 bases. Esto reduce el requisito de precisión para la clasificación por tamaño en comparación con los métodos que utilizan solamente 4 escalones. La duración de las reacciones de secuencia puede aumentarse de este modo y asimismo es posible utilizar una gama amplia de métodos para clasificar los polímeros por tamaño.

En este ejemplo, se ilustra la clasificación por tamaños mediante un método en el cual se miden las longitudes de las moléculas de ADN alargadas. Sin embargo, son concebibles otras variaciones, en las cuales la clasificación por tamaño se realiza directamente en una superficie de exploración, por ejemplo, midiendo la intensidad de la señal de las moléculas de ADN después de utilizar un método de marcado mediante el cual la intensidad de la señal de las moléculas de ADN es proporcional a la longitud, etc. Son también concebibles variaciones en las que los escalones de secuenciación se mantienen físicamente aparte, se liberan del substrato en diferentes periodos, etc. permitiendo analizar cada uno de los 65.536 escalones de secuenciación por separado utilizando un citómetro de flujo, espectrometría de masas, análisis de nanoporos, clasificación en gel, etc.

Método

1) Se produce un escalón de secuenciación partiendo de una secuencia diana de por ejemplo, 1 Mb, preparado según se describe en la presente memoria.

2) El ADN diana se metila de modo que los sitios de escisión para las enzimas de restricción que se deben utilizar en las etapas 3) y 6) estén inactivados.

3) Se produce una prolongación de 4 bases en los extremos arbitrarios del ADN diana tal como se describe en la presente memoria. Los extremos arbitrarios de las moléculas de ADN pueden, por ejemplo, estar ligados a un enlazador de ADN que contiene un punto de unión para una enzima IIS que presenta una prolongación de 4 pares de bases. El punto de unión se coloca para construir una prolongación en el ADN diana existente. A continuación se escinden las moléculas con la enzima IIS.

4) Se clasifica a continuación el ADN diana tal como se describe en el Ejemplo 12 distribuyendo la solución entre 256 pocillos. Las paredes del pocillo se recubren con adaptadores de clasificación con prolongaciones de 4 bases que pueden complementar las prolongaciones realizadas en la etapa 3). Los adaptadores de clasificación contienen también un punto de unión a una enzima de restricción IIS, por ejemplo, FokI, que está colocado de modo que se pueden formar prolongaciones que comprenden los cuatro pares de bases que se encuentran junto a los cortes en la etapa 5).

5) El ADN diana está ligado con los adaptadores de clasificación y el tubo se lava a continuación de modo que se elimina el ADN que no se ha ligado.

6) La escisión con la enzima IIS se realiza de modo que se suelta el ADN y se forman nuevas prolongaciones de 4 bases.

7) El ADN diana se distribuye en los 256 pocillos entre 256 micromatrices, tal como se describe en el Ejemplo 12. Todas las micromatrices son similares y constan de 256 direcciones con adaptadores de clasificación con prolongaciones de 4 bases que pueden complementar las prolongaciones realizadas en la etapa 6). En la dirección 1 los adaptadores de clasificación presentan prolongaciones AAAA, en la dirección 2 presentan prolongaciones AAAC, etc.

8) Se añade ligasa y se incuba la mezcla. En la dirección 1 estará el ADN diana con prolongaciones TTTT, en la dirección 2 estará el ADN diana con prolongaciones TTTG, etc.

9) Se lavan las superficies de exploración, se dirigen y colorean las moléculas de ADN utilizando TOTO-1, YOYO-1 o similar.

10) Se utiliza una cámara CCD o similar para fotografiar las direcciones. La cámara CCD puede, por ejemplo, ser ajustada para tomar una foto por dirección.

11) Se utiliza un programa informático apropiado para reconocer las moléculas de ADN fluorescentes, medir sus longitudes y reconstruir después la secuencia diana existente.

Una manera en la que puede realizarse esto es la siguiente:

1) Se añade a cada pocillo una alícuota con moléculas de ADN diana que contiene prolongaciones arbitrarias de 4 bases, 10 \mul 10X tampón de ligasa, 1 \mul de T4 ADN ligasa (400 U/\mul, NEB nº 202) y agua hasta un volumen final de 100 \mul. Se incuba a 16ºC durante 12 a 16 horas.

2) Se elimina el líquido y se lavan los pocillos con 1X NE tampón 4, una o varias veces.

3) Se añade 10 \mul 10X NE tampón 4, 4 unidades de FokI (New England Biolabs, nº 109) por \mug de ADN y se añade agua hasta un volumen final de 100 \mul. Se incuba a 37ºC durante 1 hora.

4) Se inactiva a 65ºC durante 20 minutos.

5) EtOH precipita las moléculas de ADN de cada pocillo en tubos independientes.

6) Se disuelve el sedimento y se añade 10 \mul 10X tampón de ligasa, 1 \mul de T4 ADN ligasa (400 U/\mul, NEB nº 202) y agua hasta un volumen final de 100 \mul. Se incuba con las micromatrices a 16ºC durante 12 a 16 horas.

7) Se alargan, marcan y analizan las moléculas.

Resultados

La presencia o ausencia y el tamaño de las moléculas en determinadas direcciones indica tanto la información de la secuencia como su posición. Por lo tanto si la dirección 1 de la micromatriz 1 contiene moléculas de ADN de 100 micrómetros, esto indica que la secuencia correspondiente al octámero utilizado (a pesar la clasificación en 2 etapas) para unir esta molécula está presente a +200 kb (por ejemplo, TTTTTTTT). Igualmente la presencia de 2 moléculas de tamaños diferentes indicaría una repetición de una secuencia determinada. La ausencia de cualquier molécula en una dirección particular indicaría la ausencia de la secuencia complementaria para la inmovilización del octámero en la secuencia diana.

Una fuente potencial de clasificación errónea en el ejemplo anterior consiste en que los adaptadores de clasificación aproximada pueden funcionar también como adaptadores de clasificación fina. Sin embargo, este problema puede evitarse teniendo un punto de corte para otra endonucleasa de restricción en el adaptador de clasificación aproximada que permite que los adaptadores de clasificación aproximada ser cortados antes de la exploración. Aunque no haya sido mencionado en el ejemplo anterior, es importante también terminar el extremo de la pieza de ADN que no está fijado a los adaptadores de clasificación aproximada. Esto puede hacerse, por ejemplo, mediante la sustitución de Klenow.

Si se utiliza el método de Bensimon (Michalet et al., 1997, supra) en el método anterior para alargar las moléculas de ADN, de 1 a 2 millones de moléculas de ADN pueden alargarse en una superficie de exploración que mide 1,28 x 1,28 cm. Cada una de las 256 direcciones contendrá aproximadamente de 4.000 a 8.000 moléculas de ADN alargadas. Como una pieza de secuencia con 8 pares de bases se repetirá cada 65.536 pares de bases, existirán de promedio 15 longitudes diferentes en cada dirección si la secuencia diana es de 1 Mb (1.000.000/65.536=15,2). Cada longitud será medida de este modo de 260 a 520 veces de promedio (4 a 8.000/15,2=260-520).

Ejemplo 15 Método para la secuenciación de ADN en el que las moléculas de ADN diana se anclan a un punto de referencia fijo

En este método los octámeros de APN que llevan una disposición lineal de las señales de amplificación (cadena señal) se hibridan a un ADN diana fijado en una superficie de exploración que se explora a continuación y se determina la posición de la zona complementaria a los octámeros en la secuencia diana. En la Figura 14 se muestra el procedimiento general.

Métodos

1) El punto de partida para el protocolo es el anclaje de las moléculas de ADN diana de doble cadena a un punto de referencia fijado en una superficie de exploración tal como se describe en la presente memoria, por ejemplo, a una línea de anclaje que es perpendicular a la placa de exploración.

2) Se añaden a continuación 65.536 permutaciones de los adaptadores de conversión (es decir, los adaptadores que llevan señales de amplificación) constituidos por un octámero de APN fijado a una cadena con señal con una composición correspondiente al octámero. Las señales pueden ser esferas o bolas marcadas con fluorescencia o llevar otros marcadores apropiados. Las moléculas de APN se hibridan de este modo con las moléculas de ADN diana.

3) Se alargan las moléculas y se registran sus posiciones así como la composición de las cadenas con señal.

4) Se utiliza un programa informático apropiado para reconstruir la secuencia diana.

Resultados

Los resultados se presentan en la Figura 14. La distancia entre las cadenas con señal y el punto de anclaje fijado proporciona información acerca de la posición de cada pieza de secuencia en la secuencia diana.

\newpage

Ejemplo 16 Método de secuenciación y cartografía óptica basado en la clasificación o clasificación combinada con conversión

Este método permite cartografiar o secuenciar secuencias de ADN extralargas, por ejemplo, genomas, en una cartografía o reacción de secuencia. El método puede utilizarse para cartografías ópticas solas o para cartografía más secuenciada. Es importante observar que el método permite secuenciar muchas secuencias diana diferentes en la misma reacción de secuencia.

Método (clasificación sola)

Se sigue el método del Ejemplo 14 pero en lugar de la etapa 1 el ADN diana se corta con ADNasaI o similar de modo que se forman los fragmentos de unos pocos centenares de bases. Las etapas 2 a 8 se realizan tal como se describió en el Ejemplo 14. Las superficies de exploración se lavan a continuación y se alargan las moléculas de ADN. Se realiza a continuación un procedimiento de cartografía óptica o similar. La superficie de exploración se explora con un escáner fluorescente o similar y se utiliza un programa informático apropiado para reconstruir la secuencia.

Método (clasificación con conversión)

Se realizan las etapas 1 a 6 como en el método de cartografía óptico anterior, después de éstas;

7) Se añaden 256 adaptadores de conversión y se ligan con las prolongaciones formadas en la etapa 6). Los adaptadores de conversión pueden tener, por ejemplo, cadenas de señal binaria en las que las señales 1 son secuencias de ADN que contienen muchos sitios de escisión para una enzima de restricción específica, mientras que las señales 0 son secuencias de ADN que no contienen ninguno de dichos puntos.

8) Las moléculas de ADN convertidas de cada pocillo, se transfieren a su propia superficie de exploración y se realiza un procedimiento de cartografía óptica con la enzima de restricción que tiene puntos de corte en las señales 1.

9) La superficie de exploración se explora con un escáner fluorescente o similar y se utiliza un programa informático apropiado para reconstruir la secuencia.

Ejemplo 17 Método para la secuenciación de ADN basado en conversiones binarias del extremo y análisis de nanoporos

Se ha demostrado que un campo eléctrico puede dirigir moléculas de ARN de una cadena simple y de ADN por canales iónicos en una membrana de lípidos. El paso de las moléculas puede detectarse como una disminución transitoria de la corriente iónica. Se ha demostrado que es posible discriminar entre purinas y pirimidinas debido a su diferencia de tamaño. Se ha sugerido no obstante que el método podría utilizarse para secuenciación de alta velocidad. Sin embargo ha presentado dificultad discriminar entre diferentes purinas (adenina o guanina) y entre diferentes pirimidinas (citosina, timina o uracilo) debido a sus pequeñas diferencias de tamaño. En este ejemplo se muestra cómo puede resolverse este problema convirtiendo el ADN diana en un código binario constituido por señales de purina/pirimidina.

Método

1) Se producen fragmentos de ADN diana por escisión con ADNasaI o similares y se tratan para producir extremos truncados.

2) Se ligan las moléculas de ADN diana con enlazadores que contienen uno o más puntos de unión para las enzimas de restricción IIS (por ejemplo FokI).

3) Se generan prolongaciones en el ADN diana por escisión con la enzima de restricción IIS.

4) Se tratan las prolongaciones con una enzima fosfatasa.

5) Se ligan las prolongaciones con adaptadores de conversión. Los adaptadores contienen además señales de dirección para hacer más fácil el análisis por el programa informático.

6) Se lee la composición de las purinas/pirimidinas por análisis de nanoporos. La parte del ADN que no ha sido convertido puede utilizarse para obtener información de la posición.

7) Se utiliza un programa informático apropiado para reconstruir la secuencia diana. La zona de prolongación entre el adaptador de conversión y el ADN diana puede compararse con la información de la pieza de secuencia como mecanismo de corrección.

Resultados

La señal consta de un código binario purina/pirimidina en el que A=purina+purina, C=purina+pirimidina, etc. Esto se ilustra en la Figura 15.

Ejemplo 18 Utilización de células en la generación de señales en reacciones de secuenciación

Este ejemplo ilustra la utilización de células tanto para generar señales como para que ellas mismas actúen como señales de actuación indicadoras de una determinada base en una reacción de secuenciación.

Método

A) En este método se utilizan genes indicadores como señales de amplificación y su intensidad de señal relativa en la expresión se utiliza como indicador de la posición relativa de determinadas bases en la secuencia. En la Figura 16 se presentan la técnica que se utiliza y los resultados que se obtienen.

1): Se realiza una reacción de prolongación con polimerasa utilizando un ADN diana como plantilla y un cebador de secuenciación que se fija a una cadena sola o doble con un potenciador y un gen indicador tal como se ilustra en la Figura 16. Se utiliza el cebador de secuenciación para unir la secuencia conocida en el ADN diana indicador del comienzo de la secuencia que será secuenciada.

2): Se realiza una prolongación con polimerasa con una mezcla de cebadores que está constituida por cuatro cebadores diferentes. Cada cebador consiste en bases universales (U) o aleatorias (N) excepto para la mayoría de las bases en 3' que es A, C, G o T. Los cebadores se fijan a cuatro genes indicadores diferentes. Los cebadores con una A en la mayoría de las posiciones 3' se fijan al gen A indicador y así sucesivamente. Los cebadores de conversión utilizados en esta etapa se unen al ADN diana al azar, excepto para la mayoría de las bases 3' que es crítica para una amplificación de polimerasa lograda.

3): Se realizan una o más reacciones de amplificación con polimerasa con cebadores que son complementarios a los extremos 5' de los cebadores utilizados en la etapa 1 y 2.

4): Las moléculas de ADN convertidas se transforman/transfectan en células adecuadas.

5): Las células se cultivan en condiciones que permiten expresarse a los genes indicadores.

6): La expresión de los genes indicadores se analiza con un citómetro de flujo y se utiliza un programa informático adecuado para reconstruir las secuencias.

B) En este método se dirigen las señales asociadas a diferentes bases a diferentes posiciones en una célula u otra indicación de estructura de su posición en una cadena con señal.

1): El ADN diana se fragmenta con ADNasa I o mediante una técnica similar.

2): 16 pares de bases por molécula de ADN diana se convierten en una cadena con señal. Se utilizan 4 señales indicadoras de cada una de las bases A, C, G o T. Cada señal consiste en un gen indicador A, C, G o T, conectado a un promotor que se expresará en una posición diferente para cada señal, es decir, para los 16 pares de bases las señales son dirigidas a 16 posiciones diferentes por 16 activadores diferentes. La posición puede estar en una célula o un grupo de células en un organismo multicelular. Puede ser también una posición en una célula (por ejemplo, una parte de la membrana externa). La cadena con señal se transforma/transfecta en la célula que da lugar al organismo/estructura.

3): Las células se cultivan en condiciones que permitan al organismo/estructura desarrollarse.

4): La distribución de las cuatro señales diferentes en cada organismo/estructura se registra en las diferentes posiciones para construir una imagen de qué base aparece en qué posición a lo largo de la secuencia utilizada para desarrollar la cadena con señal.

Resultados

A) Puede examinarse la intensidad de la señal generada en determinadas posiciones. Esto se ilustra en la Figura 16. Dado que la intensidad de la señal es inversamente proporcional a la distancia entre el potenciador y el gen indicador, puede demostrarse la posición de una señal determinada (y por consiguiente de una base) en relación con la base de partida.

En teoría, para ayudar a distinguir entre las diferentes moléculas que se crean, las moléculas diana de ácido nucleico se clasifican inicialmente según su secuencia terminal de modo que los productos de la amplificación se diferencian en más de una base.

Ejemplo 19 Método de secuenciación creando escalones de secuenciación que se diferencian cada uno en tres bases ampliadas

Este método describe la formación de un escalón de secuenciación en el cual la conversión (es decir la amplificación) y la lectura de la secuencia se realizan en el mismo soporte sólido. Un punto importante en estos procedimientos consiste en que en la adición para la obtención de la composición de la base de las áreas cortas (6 a 9 bp o más, en incrementos de 3 bases) se obtiene también información acerca de sus posiciones internas en moléculas de ADN mayores (hasta varias kb). Esto es de importancia para la reconstrucción de la información de la secuencia y el método puede utilizarse, por ejemplo, para complementar la información de la secuencia deducida mediante las alternativas mencionadas anteriormente. En la Figura 17 se ilustra el principio para la secuenciación de un polinucleótido de 9 pares de bases de longitud.

Método

1) La secuencia de ADN que debe secuenciarse se amplía por PCR. Uno de los cebadores se marca con biotina en un extremo de modo que las moléculas de ADN puedan fijarse a un sustrato de estreptavidina. La estreptavidina se dispone en una línea fina, de modo que las moléculas de ADN se fijan una al lado de otra en una fila.

2) Las moléculas se tratan con ADNasa I (o similar) para generar cortes aleatorios. (etapa 1 de la Figura 17)

3) Los extremos del corte se ligan a un polinucleótido que contiene un punto de unión para una endonucleasa de restricción de clase II que corta fuera su propio punto de unión (en este caso EarI) (etapa 2 de la Figura 17).

4) Se añade a continuación endonucleasa de restricción para crear una prolongación en los polinucleótidos (etapa 3 de la Figura 17).

5) Se añaden adaptadores que reconocen y se ligan de manera específica a las prolongaciones del polinucleótido (etapa 4 de la Figura 17). Por consiguiente, el polinucleótido de la parte superior con una prolongación AGC se liga a un adaptador con la combinación del fragmento AGC, etc.

6) Las moléculas de ADN se alinean con ayuda de un flujo líquido, un campo eléctrico o similar, de modo que los adaptadores marcados con fluorescencia pueden leerse con un escáner de fluorescencia.

7) Se reconstruye la secuencia alineando las piezas con la información de la secuencia.

Obsérvese que la posición relativa de cada adaptador varía según donde corte la ADNasa I al polinucleótido. De este modo, cada pieza con información de la secuencia puede dar una posición relativa en el polinucleótido y esto facilita la reconstrucción de la secuencia.

Por último, debe destacarse que la lectura de varias secuencias de ADN diferentes en la misma placa de lectura (Figura 17) puede aumentar el potencial de lectura. Por ejemplo, con la ayuda de PCR, se puede ampliar un número mayor de genes con cebadores génicos específicos. A continuación se preparan prolongaciones exclusivas en las secuencias del gen amplificado. Esto puede realizarse, por ejemplo, utilizando cebadores más largos en el último ciclo e insertando puntos de corte para las endonucleasas de restricción que se cortan, etc. Se pueden hibridar de este modo los genes en un segmento de ADN en el que cada cuadrado está constituido por oligonucleótidos que son específicos para varios genes. Las moléculas de ADN que corresponden al gen A se hibridarán de este modo en el cuadrado A, el gen B en el cuadrado B, etc. Este método es particularmente apropiado para la identificación en masa de los genomas de individuos cuando es posible seleccionar aquellas áreas específicas en un genoma que son de interés
médico, etc.

La secuenciación paralela de diferentes genes también puede conseguirse por amplificación utilizando cebadores génicos específicos. Pueden generarse entonces prolongaciones que sean específicas para cada gen antes de que los genes se hibriden en los oligonucleótidos en un segmento de ADN. El segmento de ADN se construye de tal modo que los oligonucleótidos que son complementarios para diferentes genes tienen diferentes puntos. En realidad es posible crear varios centenares de direcciones diferentes en la misma placa de lectura de modo que sea posible secuenciar varios centenares de genes en paralelo.

Una alternativa adicional consiste en obtener información de las posiciones en dos dimensiones tal como se ilustra en la Figura 18.

1) El punto de partida para el procedimiento es que las moléculas de ADN que deben secuenciarse se corten en las moléculas de unos pocos kb o más largas. A continuación se incorpora la biotina en las moléculas de ADN de modo que sean, por término medio, bases con biotina, por ejemplo, a intervalos de unos pocos centenares de bases (más o menos dependiendo de lo que se necesite). A continuación se fijan las moléculas de ADN por un extremo a una placa que se cubre con estreptavidina. El mecanismo de fijación de los extremos debería ser algún otro aparte de estreptavidina/biotina.

2) Se alinean las moléculas con ayuda de un flujo de líquido, un campo eléctrico u otros medios. Las moléculas de ADN se anclan al sustrato añadiendo una solución de reacción que crea un enlace biotina-estreptavidina.

3) Se cortan a continuación las moléculas de ADN con ADNasa I u otros medios antes de que se liguen los extremos libres a los preadaptadores que contienen puntos de unión a endonucleasas de restricción de tipo IIS (no mostrados). Cortando a continuación con la endonucleasa respectiva, se producen prolongaciones que están ligadas a adaptadores con la información de la secuencia.

4) Un adaptador con una combinación del fragmento de ACGT se liga a continuación a la prolongación ACGT, etc.

5) Se utiliza un flujo de líquido, un campo eléctrico o un procedimiento similar para alinear los adaptadores de ADN en una dirección de 90 grados en la dirección de la molécula de ADN que debe secuenciarse, antes de que se anclen con el sistema biotina/estreptavidina. Cuando todas las moléculas de ADN se hayan anclado al sustrato, el procedimiento puede repetirse hasta que se haya convertido/ampliado el número de pares de bases deseado. Obsérvese también que las distancias relativas entre los adaptadores corresponden a las distancias internas de las piezas de secuencia en la molécula de ADN que debe secuenciarse. Debe mencionarse también que desde luego es posible secuenciar muchísimas moléculas de ADN en paralelo en una placa de lectura.

Ejemplo 20 Método de secuenciación que utiliza adaptadores con enlazadores para espaciar las fracciones ampliadas lejos de la molécula diana

El método descrito a continuación ilustra una técnica en la que se puede conseguir un ciclo de secuenciación. En este método, las señales de amplificación que se crean se fijan a un soporte sólido. Un enlazador que espacia las señales de la secuencia al cual corresponden se elimina posteriormente y una fracción adyacente de la secuencia diana puede ser ampliada a continuación. El procedimiento se muestra en la Figura 19.

Método

1) La molécula de ADN que debe secuenciarse, ACGTGAGCT se fija en un extremo a una placa recubierta de estreptavidina. El mecanismo de fijación sería otro mecanismo aparte del de estreptavidina/biotina.

2) La molécula de ADN se liga a un polinucleótido que contiene un punto de unión a una endonucleasa de restricción de tipo II con un punto de corte fuera del punto de unión (por ejemplo, BspMI tal como se muestra en la Figura 19).

3) En la etapa siguiente se añade la endonucleasa de restricción y la escisión forma una prolongación con las bases de la molécula de ADN que deben secuenciarse.

4) Se añade a continuación una solución con varios adaptadores y ligasas. La Figura 19 muestra un adaptador que ha reconocido y unido a la prolongación ACGT. Además de los fragmentos marcados con fluorescencia que corresponden a la prolongación ACGT, se han incorporado al adaptador dos o más moléculas de biotina.

5) La molécula de ADN se alinea con ayuda de un flujo de líquido o de un campo eléctrico, y los fragmentos pueden fijarse al sustrato como se muestra. (La función de la zona del enlazador del ADN consiste en espaciar los fragmentos lejos de la molécula de ADN que se está secuenciando. Esto deja espacio para un nuevo adaptador en la etapa siguiente).

6) Se realiza la escisión con SmaI y BspMI de modo que se elimina el enlace al ADN al mismo tiempo que se forma una nueva prolongación constituida por los cuatro pares de bases siguientes en la molécula de ADN. Esto permite ligar un nuevo adaptador con fragmentos marcados por fluorescencia. La única diferencia es que este adaptador no contiene un enlace al ADN. El adaptador marcado por fluorescencia se fijará a continuación en una nueva posición en el sustrato de estreptavidina. Utilizando enlaces de ADN de diferentes longitudes, es posible realizar múltiples ciclos de conversión consecutivos.

Ejemplo 21 Utilización de marcadores de posición en los métodos de secuenciación

En este método se asocian marcadores de posición con la molécula que se debe secuenciar para ayudar a la colocación de la información de la secuencia que se obtiene.

Método

El método que se utiliza se ilustra en la Figura 20. El punto de partida es, por ejemplo, una molécula circular de ADN diana de 100 kb. La molécula contiene dos secuencias marcadas en gris claro y oscuro (en la Figura 20), que se utilizarán como marcadores de posición.

1) Las moléculas de ADN se metilan con Bst71I metilasa.

2) Las moléculas se alinean con ADNasa I o similar, tras lo cual se añade un adaptador que contiene sitios de escisión para Bst71I por ligadura. (Los puntos de corte se colocan de modo que pueden utilizarse para construir una prolongación con las primeras cuatro bases en la molécula de ADN diana. Las dos prolongaciones de 4 bp serán capaces, por consiguiente, de proporcionar información en una secuencia continua en 8 bp).

3) Se realiza la escisión con Bst71I y se añaden adaptadores de fragmentos y se ligan.

4) Las moléculas de ADN se convierten en formas de una cadena simple antes de anclarse y alargarse en una sección mediante el peinado molecular, un campo eléctrico o similar, al mismo tiempo que se hibridan con sondas fluorescentes que reconocen los fragmentos y los marcadores de posición. Puede también ser relevante colorear las moléculas de ADN con YOYO-1 o similar.

5) Se exploran a continuación las piezas de la secuencia utilizando un microscopio/escáner y se mide a continuación la distancia a las sondas que se han fijado a los marcadores de posición. Esto permite asignar una posición aproximada a cada pieza de secuencia de 8 bp en la molécula de ADN que se debe secuenciar.

Ejemplo 22 Método de secuenciación que incluye clasificación seguida de amplificación

En este método se clasifican los fragmentos en un soporte sólido en virtud de sus 4 bases terminales tras lo cual el extremo terminal de la molécula se fija al soporte sólido. Las 4 bases adyacentes pueden evaluarse a continuación por amplificación. En la Figura 21 se muestra un ejemplo de este método.

Método

Se utiliza un segmento de ADN que se divide en 256 direcciones. Cada dirección contiene adaptadores de clasificación, una prolongación, un punto de enlace para una endonucleasa de restricción de clase IIS y un punto de unión para una endonucleasa de restricción que construye un extremo truncado cortado. Las prolongaciones varían de una dirección a otra de modo que la dirección 1 tiene adaptadores de clasificación con una prolongación AAAA, la dirección 2 tiene una prolongación AAAC, etc. Además todas las direcciones están abarcadas por una molécula con propiedades de unión, por ejemplo, estreptavidina.

1) La clasificación comienza cortando el ADN diana en piezas y tratando los extremos de las piezas de ADN para formar una prolongación con 4 bases.

2) Los fragmentos se introducen en el soporte sólido que lleva los adaptadores de clasificación al cual se ligan. Las piezas de ADN con una prolongación TTTT se ligarán a la dirección 1 en la que los adaptadores de clasificación presentan la prolongación complementaria AAAA, las piezas de ADN con una prolongación GTTT se ligarán a la dirección 2, etc.

3) La otra prolongación en la pieza de ADN se trata de modo que el extremo pueda anclarse al subyacente. Esto puede conseguirse, por ejemplo, mediante una reacción de sustitución de Klenow para marcar el extremo con biotina, ligar los extremos con adaptadores universales marcados con biotina, etc.

4) Se realiza la escisión con IIS y la enzima con extremo truncado (en este caso ilustrado con FokI y DraI). De este modo se obtiene una nueva prolongación en la pieza de ADN que representa las cuatro bases siguientes.

5) Se añaden adaptadores de conversión para convertir estas bases en una cadena con señal.

6) Las moléculas de ADN se alargan y exploran utilizando por ejemplo, un escáner fluorescente. La posición de un extremo de la molécula de ADN proporciona información acerca de las cuatro bases y la cadena con señal en el otro extremo proporciona información acerca de las cuatro siguientes.

\newpage

Ejemplo 23 Método para la preparación de moléculas diana destinadas a procedimientos de cartografía, análisis de perfiles y similares

El principio subyacente a este protocolo consiste en digerir el ADN diana con una o varias nucleasas que, preferentemente, hacen cortes fuera de su propia secuencia de reconocimiento, por ejemplo las enzimas IIS, pero también pueden utilizarse otros tipos de nucleasas, por ejemplo, para generar prolongaciones que oscilan entre -5 y +5. Las prolongaciones se ligan a continuación con las cadenas con señal constituidas por una parte que contiene la información de la secuencia y otra parte que contiene la información acerca de la naturaleza de la prolongación (es decir, la enzima de restricción que ha construido la prolongación). Cada una de las moléculas digeridas se convierte de este modo en distintivos que se diferencian por las composiciones de la señal en sus extremos y en la longitud entre los extremos. Alineando los extremos con secuencias complementarias (por ejemplo, la alineación de una o más señales de amplificación relacionadas con las prolongaciones complementarias creadas en la digestión) es posible utilizar la información para preparar una cartografía de restricción. Pueden también utilizarse distintivos para identificar secuencias diana en una población heterogénea de ADN. En la Figura 22 se muestra el principio que utiliza FokI.

Si se desea cartografiar puntos de FokI en un ADN diana que es un clon de BAC de 100 kb disuelto en agua puede utilizarse el siguiente protocolo:

1) Se añade 1 unidad de FokI (New England Biolabs nº 109), 2,5 \mul 10xNE tampón 4, 1 \mug de ADN de BAC y agua hasta un volumen final de 25 \mul.

2) Se incuba a 37ºC durante 1 h.

3) Inactivación térmica a 65ºC durante 20 min.

4) Se precipita el ADN con EtOH.

5) Se disuelve el sedimento en agua y se añaden adaptadores de conversión tratados con fosfatasa (la relación molar entre los adaptadores de conversión y el ADN diana debería ser por lo menos 50:1) 200 unidades de T4 ADN ligasa (New England Biolabs nº 202), 2,5 \mul 10X tampón de reacción de T4 ADN ligasa. Volumen final: 25 \mul.

6) Se incuba a 16ºC durante 4 a 16 h.

Ahora es posible realizar el análisis. Sin embargo puede ser preferible realizar un procedimiento para eliminar los adaptadores no ligados. Por ejemplo;

7) Se añade 1,5-2 x 10^{8} Estreptavidina M-280 de Dynabeads (Dynal nº 112.05 o nº 112.06) recubierta con adaptadores que contienen todas las permutaciones con prolongaciones 5' de 4 bases, 2.000 unidades de T4 ADN ligasa (New England Biolabs nº 202), 22,5 \mul 10X tampón de reacción de T4 ADN ligasa y agua hasta un volumen final de 250 \mul.

8) Se incuba a 16ºC durante 4 a 16 h.

9) Se precipitan las bolas con un imán como se explica en "Biomagnetic Techniques in Molecular Biology", 3ª edición (distribuido por Dynal AS, Noruega) y se elimina el sobrenadante.

10) Se precipitan las moléculas de ADN en el sobrenadante con EtOH.

11) Se disuelven las moléculas de ADN en una solución y volumen apropiados.

Los adaptadores de conversión utilizados en este protocolo pueden representar las 256 permutaciones de las prolongaciones, únicamente un subconjunto de las 256 prolongaciones o las prolongaciones con una o más bases degeneradas. Si las moléculas se van a analizar mediante una estrategia de cartografiado óptico las señales pueden estar constituidas, por ejemplo, por señales 0 que están exentas de secuencias EcoRI y por señales 1 que contienen un número enorme de secuencias EcoRI.

Los procedimientos anteriores también pueden repetirse una o más veces con otros conjuntos de enzimas de restricción y cadenas con señal antes de analizar las moléculas. No obstante, debe indicarse que las cadenas con señal ligadas con las prolongaciones generadas en la primera ronda deben protegerse de la digestión de las enzimas utilizadas en la segunda ronda. Esto puede llevarse a cabo utilizando cadenas con señal exentas de puntos de enlace para las enzimas de restricción utilizadas en la segunda ronda, metilando los puntos, etc.

El procedimiento también puede realizarse en relación con un procedimiento de clasificación u otros procedimientos que aumenten la longitud de la secuencia obtenida en cada extremo.

Pueden determinarse las posiciones de la secuencia de restricción en una secuencia diana determinando qué secuencias de restricción flanquean una secuencia de restricción determinada identificando parcialmente la secuencia de restricción que está presente en el otro extremo de los fragmentos resultantes del ADN diana y en parte identificando otros fragmentos diana que contengan una prolongación complementaria y los secuencias de restricción a la que se unen estos fragmentos. No es necesario determinar la longitud de cada fragmento ya que la posición puede determinarse completamente con precisión mediante la utilización de suficientes enzimas de restricción.

Este método presenta varias particularidades ventajosas e importantes en comparación con los métodos tradicionales para el cartografiado óptico:

1) La resolución es mucho mejor: Es posible distinguir entre secuencias de restricción separadas únicamente por unos pocos pares de bases aunque las técnicas convencionales requieren por lo menos unos pocos centenares de pares de bases.

2) Es más fácil preparar las cartografías de restricción con múltiples enzimas de restricción.

3) Los problemas estadísticos con la reconstrucción se reducen en gran medida ya que las alineaciones están basadas en la composición de las cadenas con señal en lugar de en mediciones dudosas de longitudes de ADN entre los secuencias de restricción que están solamente cortadas en parte.

4) Cuando se utilizan enzimas que escinden fuera de su sitio de reconocimiento, cada posición en la cartografía se basa en la longitud del punto de unión más la longitud de la prolongación (normalmente 9 o más bases). De este modo se puede identificar una secuencia de restricción basándose tanto en la secuencia del punto de enlace como en la prolongación que se crea. Esto presenta ventajas en comparación con las cartografías genómicas convencionales preparadas con enzimas de escisión raras (8 bases).

Claims

```
\global\parskip0.920000\baselineskip
```
1. Método de conversión de la totalidad o parte de una molécula diana de ácido nucleico en una señal o secuencia ampliada que comprende por lo menos las etapas siguientes:

a) si no está ya en forma soluble para unirse a una molécula adaptadora, convertir por lo menos una fracción de dicha secuencia diana en una forma adecuada para unir dicha molécula adaptadora, preferentemente en una forma de cadena simple;

b) unirse a por lo menos una fracción de dicha zona adecuada para unir una molécula adaptadora que comprende una o más señales de amplificación o que comprende un medio para fijar una o más señales de amplificación, señales que representan una señal o secuencia detectable que corresponde a una o más bases de dicha secuencia diana, correspondiendo preferentemente a una o más bases de dicha zona adecuada para unir dicha molécula adaptadora a la que se une dicha molécula adaptadora o en la proximidad de dicha zona en la que si la señal de amplificación es una secuencia de ácido nucleico, comprende por lo menos dos bases;

c) si no está ya fijada, fijando una o más de dichas señales de amplificación a dicha molécula adaptadora;

d) opcionalmente, cuando la molécula diana es de doble cadena, ligar dicha molécula adaptadora a la cadena de la molécula diana a la que no está unida de manera que por lo menos dichas señales de amplificación permanezcan asociadas a dicha molécula diana;

e) repetir las etapas a) a d) en las que dicha molécula adaptadora se une a una zona adicional o solapante de dicha molécula diana en la que dichas moléculas adaptadoras y por consiguiente dichas señales de amplificación de cada ciclo de las etapas a) a d) forman una cadena simple que comprende una serie definida de señales o secuencias ampliadas.
2. Método según la reivindicación 1, en el que cada señal de amplificación corresponde a por lo menos dos bases.
3. Método según la reivindicación 1 ó 2, en el que dichas señales de amplificación corresponden conjuntamente a por lo menos dos bases, preferentemente por lo menos a 4 bases.
4. Método según cualquiera de las reivindicaciones 1 a 3, en el que una cadena de señales de amplificación está asociada a dicha molécula, que comprende preferentemente 4 o más señales de amplificación que corresponden a por lo menos 4 bases contiguas.
5. Método según cualquiera de las reivindicaciones 1 a 4, en el que las señales de amplificación son secuencias de ácido nucleico de por lo menos 2 bases, preferentemente de 10 a 30 bases de longitud.
6. Método según cualquiera de las reivindicaciones 1 a 5, en el que dicho adaptador comprende un sitio de reconocimiento para una nucleasa con un sitio de escisión separado de su sitio de reconocimiento.
7. Método según cualquiera de las reivindicaciones 1 a 6, en el que dicho adaptador comprende sitios de reconocimiento para 2 o más nucleasas con sitios de escisión separados de sus sitios de reconocimiento, en el que la escisión con dichas nucleasas produce zonas de cadena simple que son adyacentes o solapantes.
8. Método según las reivindicaciones 6 ó 7, en el que en la escisión con una nucleasa se une un adaptador en la etapa b) a ambas zonas de cadena simple formadas en la escisión de la nucleasa.
9. Método según la reivindicación 8, en el que las secuencias a las que se unen los adaptadores son complementarias.
10. Método según cualquiera de las reivindicaciones 1 a 9, en el que se realiza la etapa d).
11. Método según cualquiera de las reivindicaciones 1 a 10, en el que se determinan el tipo, el orden y la posición de las señales de amplificación.
12. Método de secuenciación según la reivindicación 11, en el que se secuencian 2 o más bases, preferentemente 4 o más, por ciclo de secuenciación.
13. Método según la reivindicación 11, en el que dicha posición está determinada por la unión a dicha diana una molécula de ácido nucleico que presenta una secuencia complementaria a una zona de la diana que es adyacente o solapante con la parte secuenciada, y que determina la unión del ácido nucleico.
14. Método según la reivindicación 13, en el que dicha posición se determina con relación a un marcador de posición.
15. Método según la reivindicación 13 ó 14, en el que dicha posición se determina con relación a una cartografía de restricción de dicha molécula diana.