ES2969767T3

ES2969767T3 - Métodos de diagnóstico

Info

Publication number: ES2969767T3
Application number: ES16789867T
Authority: ES
Inventors: Helmy Eltoukhy; Amirali Talasaz
Original assignee: Guardant Health Inc
Current assignee: Guardant Health Inc
Priority date: 2015-05-01
Filing date: 2016-04-29
Publication date: 2024-05-22
Anticipated expiration: 2036-04-29
Also published as: WO2016179049A1; JP7594522B2; EP3288455B1; AU2023248050A1; CN107708556A; CN119214645A; EP3288455A4; EP3288455A1; CN114176582A; JP2018522531A; CN114176582B; EP3288455C0; JP6995625B2; US20180120291A1; JP2022037112A; CN107708556B; CA3234222A1; CA2983833A1; AU2016258914A1; EP4343788A3

Abstract

Un método para analizar el estado de una enfermedad de un sujeto incluye caracterizar la información genética del sujeto en dos o más momentos o momentos con un analizador genético, por ejemplo, un secuenciador de ácido desoxirribonucleico (ADN), y usar la información de los dos o más puntos de tiempo. o instancias para producir un resultado de prueba ajustado en la caracterización de la información genética del sujeto. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Métodos de diagnóstico

FONDO

[0001] El cáncer es una de las principales causas de enfermedad en todo el mundo. Cada año se diagnostica cáncer a decenas de millones de personas en todo el mundo, y más de la mitad de los pacientes acaban muriendo por esta causa. En muchos países, el cáncer es la segunda causa de muerte después de las enfermedades cardiovasculares.

[0002] Para detectar el cáncer, existen varias pruebas de cribado. La exploración física y la anamnesis examinan los signos generales de salud, incluida la búsqueda de signos de enfermedad, como bultos u otros síntomas físicos inusuales. También se hará un historial de los hábitos de salud del paciente y de sus enfermedades y tratamientos anteriores. Las pruebas de laboratorio son otro tipo de pruebas de cribado y pueden requerir procedimientos médicos para obtener muestras de tejido, sangre, orina u otras sustancias del organismo antes de realizar las pruebas de laboratorio. Los procedimientos de diagnóstico por imagen detectan el cáncer generando representaciones visuales de zonas del interior del cuerpo. Las pruebas genéticas detectan ciertas mutaciones genéticas deletéreas relacionadas con algunos tipos de cáncer. Las pruebas genéticas son especialmente útiles para varios métodos de diagnóstico.

[0003] Un enfoque para la detección del cáncer puede incluir la monitorización de una muestra derivada de ácidos nucleicos libres de células, una población de polinucleótidos que puede encontrarse en diferentes tipos de fluidos corporales. En algunos casos, la enfermedad puede caracterizarse o detectarse basándose en la detección de variaciones genéticas, como un cambio en la variación del número de copias y/o la variación de la secuencia de una o más secuencias de ácidos nucleicos, o el desarrollo de otras determinadas alteraciones genéticas raras. El ADN libre de células ("cfADN") puede contener variaciones genéticas asociadas a una enfermedad concreta. Con las mejoras en la secuenciación y las técnicas para manipular ácidos nucleicos, existe una necesidad en el arte de métodos y Sistemas mejorados para utilizar ADN libre de células para detectar y monitorizar enfermedades. El documento US 2014/100121 divulga métodos de análisis mutacional del ADN plasmático para la detección del cáncer.

RESUMEN

[0004] La invención proporciona un método para detectar una o más variaciones genéticas y/o cantidad de variación genética en un sujeto, que comprende:

a) secuenciar moléculas de ácido nucleico en una muestra de cfADN del sujeto con un analizador genético para generar un primer conjunto de lecturas de secuencia en un primer punto temporal;

b) comparar el primer conjunto de lecturas de secuencias con al menos un segundo conjunto de lecturas de secuencias obtenidas al menos en un segundo punto temporal antes del primer punto temporal para obtener una comparación del primer conjunto de lecturas de secuencias y el al menos segundo conjunto de lecturas de secuencias, en la que las lecturas de secuencias proceden de una pluralidad de muestras recogidas a lo largo de una pluralidad de puntos temporales y dos de los puntos temporales de muestreo están separados por al menos 1 día, 1 semana, 2 semanas, 3 semanas, un mes o un año;

c) utilizar la comparación para actualizar en consecuencia una indicación de confianza diagnóstica mediante:

i) aumentar la indicación de confianza diagnóstica si la información obtenida del primer conjunto de lecturas de secuencias en el primer punto temporal corrobora la información obtenida de al menos el segundo conjunto de lecturas de secuencias en el segundo punto temporal,

ii) disminuir la indicación de confianza diagnóstica si la información obtenida del primer conjunto de lecturas de secuencias en el primer punto temporal no corrobora o entra en conflicto con la información obtenida de al menos el segundo conjunto de lecturas de secuencias en el segundo punto temporal, o

iii) dejar tal cual la indicación de confianza diagnóstica en una caracterización posterior para obtener información de novo,

cuya indicación de confianza diagnóstica es indicativa de una probabilidad de identificar una o más variaciones genéticas en una muestra de cfADN del sujeto, en la que la indicación de confianza diagnóstica se ajusta además en función de la detección de variaciones covariantes; y

d) detectar la presencia o ausencia de una o más variaciones genéticas y/o la cantidad de variación genética en moléculas de ácido nucleico en una muestra de cfADN del sujeto basándose en la indicación de confianza diagnóstica,

en el que la indicación de confianza diagnóstica es un número, un rango, una puntuación, un grado o un valor asignado para indicar la presencia de la una o más variantes genéticas y en qué medida se confía en dicha presencia.

[0005] La presente divulgación proporciona un método para analizar un Estado de enfermedad de un sujeto, que comprende a) utilizar un analizador genético para generar datos genéticos a partir de moléculas de ácido nucleico en muestras biológicas del sujeto obtenidas en i) dos o más puntos temporales o ii) sustancialmente el mismo punto temporal, en el que los datos genéticos se refieren a información genética del sujeto, y en el que las muestras biológicas incluyen una muestra biológica libre de células; b) recibir los datos genéticos del analizador genético; c) con uno o más procesadores informáticos programados, utilizar los datos genéticos para producir un resultado de prueba ajustado en una caracterización de la información genética del sujeto; y d) enviar el resultado de prueba ajustado a la memoria del ordenador.

[0006] En algunas realizaciones, los datos genéticos comprenden lecturas de secuencias actuales y lecturas de secuencias anteriores, y donde c) comprende comparar las lecturas de secuencias actuales con las lecturas de secuencias anteriores y actualizar en consecuencia una indicación de confianza diagnóstica con respecto a la caracterización de la información genética del sujeto, cuya indicación de confianza diagnóstica es indicativa de una probabilidad de identificar una o más variaciones genéticas en una muestra biológica del sujeto.

[0007] En algunas realizaciones, el método comprende además generar un intervalo de confianza para las lecturas de la secuencia actual. En algunas realizaciones, el método comprende además comparar el intervalo de confianza con uno o más intervalos de confianza anteriores y determinar una progresión de la enfermedad basada en intervalos de confianza superpuestos.

[0008] En algunas realizaciones, las muestras biológicas se obtienen en dos o más puntos temporales que incluyen un primer punto temporal y un segundo punto temporal, y en las que c) comprende aumentar una indicación de confianza diagnóstica en una caracterización posterior o anterior si la información del primer punto temporal corrobora la información del segundo punto temporal. En algunas realizaciones, las muestras biológicas se obtienen en dos o más puntos temporales que incluyen un primer punto temporal y un segundo punto temporal, y en las que c) comprende aumentar una indicación de confianza diagnóstica en la caracterización posterior si la información del primer punto temporal corrobora la información del segundo punto temporal.

[0009] En algunas realizaciones, se detecta una primera variación covariante en los datos genéticos, y donde c) comprende aumentar una indicación de confianza diagnóstica en la caracterización posterior si se detecta una segunda variación covariante.

[0010] En algunas realizaciones, las muestras biológicas se obtienen en dos o más puntos temporales que incluyen un primer punto temporal y un segundo punto temporal, y en las que c) comprende disminuir una indicación de confianza diagnóstica en la caracterización posterior si la información de un primer punto temporal entra en conflicto con la información del segundo punto temporal.

[0011] En algunas realizaciones, el método comprende además obtener una caracterización posterior y dejar tal cual una indicación de confianza diagnóstica en la caracterización posterior para la información de novo. En algunas realizaciones, el método comprende además determinar una frecuencia de una o más variantes genéticas detectadas en una colección de lecturas de secuencias incluidas en los datos genéticos y producir el resultado ajustado de la prueba al menos en parte comparando la frecuencia de la una o más variantes genéticas en los dos o más puntos temporales. En algunas realizaciones, el método comprende además determinar una cantidad de variación del número de copias en uno o más loci genéticos detectados en una colección de lecturas de secuencias incluidas en los datos genéticos y producir el resultado ajustado de la prueba al menos en parte comparando la cantidad en los dos o más puntos temporales. En algunas realizaciones, el método comprende además utilizar el resultado ajustado de la prueba para proporcionar i) una intervención terapéutica o ii) un diagnóstico de una salud o enfermedad al sujeto.

[0012] En algunas realizaciones, los datos genéticos comprenden datos de secuencia de pociones de un genoma que comprenden variantes genéticas asociadas a enfermedades o cáncer.

[0013] En algunas realizaciones, el método comprende además utilizar el resultado ajustado de la prueba para aumentar una sensibilidad de detección de variantes genéticas aumentando la profundidad de lectura de polinucleótidos en una muestra del sujeto.

[0014] En algunas realizaciones, los datos genéticos comprenden un primer conjunto de datos genéticos y un segundo conjunto de datos genéticos, donde el primer conjunto de datos genéticos está en o por debajo de un umbral de detección y el segundo conjunto de datos genéticos está por encima del umbral de detección. En algunas realizaciones, el umbral de detección es un umbral de ruido. En algunas realizaciones, el método comprende, además, en c), ajustar un diagnóstico del sujeto de negativo o incierto a positivo cuando se detectan las mismas variantes genéticas en el primer conjunto de datos genéticos y en el segundo conjunto de datos genéticos en una pluralidad de instancias de muestreo o puntos temporales. En algunas realizaciones, el método comprende, además, en c), ajustar un diagnóstico del sujeto de negativo o incierto a positivo en una caracterización de un punto temporal anterior cuando se detectan las mismas variantes genéticas en el primer conjunto de datos genéticos en un punto temporal anterior y en el segundo conjunto de datos genéticos en un punto temporal posterior.

[0015] En algunas realizaciones, el Estado de enfermedad es cáncer y el analizador genético es un secuenciador de ácidos nucleicos.

[0016] En algunas realizaciones, las muestras biológicas incluyen al menos dos tipos diferentes de muestras biológicas.

En algunas realizaciones, las muestras biológicas incluyen el mismo tipo de muestra biológica. En algunas realizaciones, las muestras biológicas son muestras de sangre. En algunas realizaciones, las moléculas de ácido nucleico son ácido desoxirribonucleico (ADN) libre de células.

[0017] La presente divulgación también proporciona un método para detectar una tendencia en la cantidad de polinucleótidos de cáncer en una muestra biológica de un sujeto a lo largo del tiempo, que comprende determinar, utilizando o más procesadores Informáticos programados, una frecuencia de los polinucleótidos de cáncer en cada uno de una pluralidad de puntos temporales; determinar un intervalo de error para la frecuencia en cada uno de la pluralidad de puntos temporales para proporcionar al menos un primer intervalo de error en un primer punto temporal y un segundo intervalo de error en un segundo punto temporal posterior al primer punto temporal; y determinar si 1) el primer intervalo de error se solapa con el segundo intervalo de error, lo que indica estabilidad de la frecuencia de los polinucleótidos cancerígenos en una pluralidad de puntos temporales, 2) el segundo intervalo de error es mayor que el primer intervalo de error, lo que indica un aumento de la frecuencia de los polinucleótidos cancerígenos en una pluralidad de puntos temporales, o 3) el segundo intervalo de error es menor que el primer intervalo de error, lo que indica una disminución de la frecuencia de los polinucleótidos cancerígenos en una pluralidad de puntos temporales.

[0018] En algunas realizaciones, los polinucleótidos cancerígenos son moléculas de ácido desoxirribonucleico (ADN). En algunas realizaciones, el ADN es ADN libre de células.

[0019] En algunas realizaciones, la frecuencia en cada uno de la pluralidad de puntos temporales se determina secuenciando moléculas de ácido nucleico en muestras biológicas del sujeto. En algunas realizaciones, las muestras biológicas son muestras de sangre. En algunas realizaciones, las moléculas de ácido nucleico son ácido desoxirribonucleico (ADN) libre de células.

[0020] En un aspecto, la invención proporciona un método para detectar una o más variaciones genéticas y/o cantidad de variación genética en un sujeto, que comprende secuenciar moléculas de ácido nucleico en una muestra de cfADN del sujeto con un analizador genético para generar un primer conjunto de lecturas de secuencia en un primer punto temporal; comparar el primer conjunto de lecturas de secuencias con al menos un segundo conjunto de lecturas de secuencias obtenidas al menos en un segundo punto temporal antes del primer punto temporal para obtener una comparación del primer conjunto de lecturas de secuencias y el al menos segundo conjunto de lecturas de secuencias, en la que las lecturas de secuencias proceden de una pluralidad de muestras recogidas a lo largo de una pluralidad de puntos temporales y dos de los puntos temporales de muestreo están separados por al menos 1 día, 1 semana, 2 semanas, 3 semanas, un mes o un año; utilizar la comparación para actualizar en consecuencia una indicación de confianza diagnóstica mediante:

cuya indicación de confianza diagnóstica es indicativa de una probabilidad de identificar una o más variaciones genéticas en una muestra de cfADN del sujeto, en la que la indicación de confianza diagnóstica se ajusta además basándose en la detección de variaciones covariantes; y detectar una presencia o ausencia de la una o más variaciones genéticas y/o la cantidad de variación genética en moléculas de ácido nucleico en una muestra de cfADN del sujeto basándose en la indicación de confianza diagnóstica, en la que la indicación de confianza diagnóstica es un número, un rango, una puntuación, un grado o un valor asignado para indicar la presencia de la una o más variantes genéticas y el grado de confianza en dicha presencia.

[0021] En algunas realizaciones, el método comprende además la obtención de las moléculas de ácido nucleico libres de células a partir del sujeto.

[0022] En algunas realizaciones, el método comprende además secuenciar moléculas de ácido nucleico libres de células adicionales del sujeto para generar un tercer conjunto de lecturas de secuencia en un tercer punto temporal posterior al primer punto temporal, y detectar una presencia o ausencia de una o más variaciones genéticas y/o la cantidad de variación genética en las moléculas de ácido nucleico libres de células adicionales del sujeto basándose en la indicación de confianza diagnóstica.

[0023] La presente divulgación también proporciona un método para detectar una mutación en una muestra de ácido nucleico libre de células de un sujeto, que comprende: a) determinar secuencias consenso comparando lecturas de secuencia actuales obtenidas de un analizador genético con lecturas de secuencia anteriores de un periodo de tiempo anterior para producir una comparación, y actualizar una indicación de confianza diagnóstica basada en la comparación, en donde cada secuencia consenso corresponde a un polinucleótido único entre un conjunto de polinucleótidos parentales marcados derivados de la muestra de ácido nucleico libre de células, y b) basándose en la confianza diagnóstica, generar un perfil genético de polinucleótidos extracelulares en el sujeto, en donde el perfil genético comprende datos resultantes de análisis de variación del número de copias o de mutación.

[0024] En algunas realizaciones, el método comprende, además, antes de a), proporcionar una pluralidad de conjuntos de polinucleótidos parentales marcados derivados de la muestra de ácido nucleico libre de células, donde cada conjunto es mapeable a una secuencia de referencia diferente.

[0025] En algunas realizaciones, el método comprende, además: utilizar las secuencias de consenso para normalizar las proporciones o la frecuencia de varianza para cada posición de base mapeable y determinar la(s) variante(s) o mutación(es) rara(s) real(es) o potencial(es); y comparar un número resultante para cada región con variante(s) o mutación(es) rara(s) potencial(es) con números derivados de forma similar de una muestra de referencia.

[0026] La presente divulgación también proporciona un método para detectar actividad celular anormal, que comprende: proporcionar al menos un conjunto de polinucleótidos parentales marcados derivados de una muestra biológica de un sujeto; amplificar los polinucleótidos parentales marcados del conjunto para producir un conjunto correspondiente de polinucleótidos de progenie amplificados; utilizar un analizador genético para secuenciar un subconjunto del conjunto de polinucleótidos de progenie amplificados para producir un conjunto de lecturas de secuenciación; y colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias consenso comparando las lecturas de secuencia actuales con las lecturas de secuencia anteriores de al menos un periodo de tiempo anterior y actualizando en consecuencia una indicación de confianza diagnóstica, cuya indicación de confianza diagnóstica es indicativa de una probabilidad de identificar una o más variaciones genéticas en una muestra biológica del sujeto, en la que cada secuencia consenso corresponde a un polinucleótido único entre el conjunto de polinucleótidos parentales marcados.

[0027] En algunas realizaciones, el método comprende además aumentar la indicación de confianza diagnóstica si el conjunto de lecturas de secuenciación se identifica en el al menos un periodo de tiempo anterior. En algunas realizaciones, el método comprende además disminuir la indicación de confianza diagnóstica si el conjunto de lecturas de secuenciación no se identifica en el al menos un periodo de tiempo anterior. En algunas realizaciones, el método comprende además mantener sin cambios la indicación de confianza diagnóstica si el conjunto de lecturas de secuenciación se identifica en el al menos un periodo de tiempo anterior pero no es concluyente.

[0028] En algunas realizaciones, el conjunto de lecturas de secuenciación comprende al menos una lectura de secuenciación.

[0029] En algunas realizaciones, la muestra biológica es una muestra de sangre. En algunas realizaciones, la muestra biológica comprende moléculas de ácido nucleico libres de células, y al menos un conjunto de polinucleótidos parentales marcados se genera a partir de las moléculas de ácido nucleico libres de células.

[0030] En algunas realizaciones, el método comprende además generar un perfil genético de polinucleótidos del sujeto, cuyo perfil genético incluye un análisis de una o más variantes genéticas del sujeto. En algunas realizaciones, los polinucleótidos incluyen polinucleótidos extracelulares.

[0031] La presente divulgación también proporciona un método para detectar una mutación en una muestra libre de células o sustancialmente libre de células de un sujeto que comprende: a) secuenciar polinucleótidos extracelulares de una muestra corporal del sujeto con un analizador genético; b) para cada uno de los polinucleótidos extracelulares, generar una pluralidad de lecturas de secuenciación; c) filtrar las lecturas que no alcanzan un umbral establecido; d) mapear las lecturas de secuencia derivadas de la secuenciación en una secuencia de referencia; e) identificar un subconjunto de lecturas de secuencia mapeadas que se alinean con una variante de la secuencia de referencia en cada posición de base mapeable; f) para cada posición de base mapeable, calcular una relación entre i) un número de lecturas de secuencia mapeadas que incluyen una variante en comparación con la secuencia de referencia, y ii) un número de lecturas de secuencia totales para cada posición de base mapeable; y g) utilizar uno o más procesadores informáticos programados para comparar las lecturas de secuencia con otras lecturas de secuencia de al menos un punto temporal anterior y actualizar en consecuencia una indicación de confianza diagnóstica, cuya indicación de confianza diagnóstica es indicativa de una probabilidad de identificar la variante.

[0032] En algunas realizaciones, la muestra corporal es una muestra de sangre. En algunas realizaciones, los polinucleótidos extracelulares incluyen moléculas de ácido desoxirribonucleico (ADN) libres de células.

[0033] La presente divulgación también proporciona un método para operar un equipo de prueba genética, que comprende: proporcionar material genético inicial de partida obtenido a partir de una muestra corporal obtenida de un sujeto; convertir moléculas de polinucleótidos de doble cadena a partir del material genético inicial de partida en al menos un conjunto de polinucleótidos parentales no marcados de forma única, en el que cada polinucleótido de un conjunto es asignable a una secuencia de referencia; y para cada conjunto de polinucleótidos parentales marcados: i) amplificar los polinucleótidos parentales marcados del conjunto para producir un conjunto correspondiente de polinucleótidos progenie amplificados; ii) secuenciar el conjunto de polinucleótidos progenie amplificados para producir un conjunto de lecturas de secuenciación; iii) colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias consenso, en el que el colapso utiliza información de secuencia de una marcación y al menos una de: 1) información de secuencia en una región inicial de una lectura de secuencia, 2) una región final de la lectura de secuencia y 3) longitud de la lectura de secuencia, en la que cada secuencia consenso del conjunto de secuencias consenso corresponde a una molécula de polinucleótido entre el conjunto de polinucleótidos parentales marcados; y iv) analizar el conjunto de secuencias consenso para cada conjunto de moléculas parentales marcadas; v) comparar las lecturas de secuencia actuales con lecturas de secuencia anteriores de al menos otro punto temporal; y vi) actualizar en consecuencia una indicación de confianza diagnóstica, cuya indicación de confianza diagnóstica es indicativa de una probabilidad de identificar una o más variaciones genéticas en una muestra corporal del sujeto.

[0034] En algunas realizaciones, la muestra corporal es una muestra de sangre. En algunas realizaciones, el material genético inicial de partida incluye ácido desoxirribonucleico (ADN) libre de células.

[0035] En algunas realizaciones, el conjunto de secuencias consenso para cada conjunto de moléculas parentales marcadas se analiza por separado.

[0036] En algunas realizaciones, el análisis comprende detectar mutaciones,indels,variaciones en el número de copias, transversiones, translocaciones, inversiones, deleciones, aneuploidía, aneuploidía parcial, poliploidía, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones génicas fusiones cromosómicas, truncamientos génicos, amplificación génica, duplicaciones génicas, lesiones cromosómicas, lesiones del ADN, cambios anormales en las modificaciones químicas de los ácidos nucleicos, cambios anormales en los patrones epigenéticos, cambios anormales en la metilación de los ácidos nucleicos infección o cáncer.

[0037] En algunas realizaciones, vi) comprende aumentar la indicación de confianza diagnóstica en las lecturas de la secuencia actual si la información de las lecturas de la secuencia anterior corrobora la información de las lecturas de la secuencia actual. En algunas realizaciones, vi) comprende disminuir una indicación de confianza diagnóstica en las lecturas de la secuencia actual si la información de las lecturas de la secuencia anterior entra en conflicto con la información de las lecturas de la secuencia actual. En algunas realizaciones, vi) comprende mantener igual una indicación de confianza diagnóstica en las lecturas de la secuencia actual si la información de las lecturas de la secuencia anterior no es concluyente con respecto a la información de las lecturas de la secuencia actual.

[0038] En algunas realizaciones, v) comprende comparar una o más variaciones de lectura de secuencia actuales con una o más variaciones de lectura de secuencia anteriores.

[0039] La presente divulgación también proporciona un método para detectar una o más variantes genéticas en un sujeto, que comprende: a) obtener moléculas de ácido nucleico de una o más muestras biológicas libres de células de dicho sujeto; b) ensayar dichas moléculas de ácido nucleico para producir un primer conjunto de datos genéticos y un segundo conjunto de datos genéticos, en donde dicho primer conjunto de datos genéticos y/o dicho segundo conjunto de datos genéticos están dentro de un umbral de detección; c) comparar dicho primer conjunto de datos genéticos con dicho segundo conjunto de datos genéticos para identificar dicha una o más variantes genéticas en dicho primer conjunto de datos genéticos o dicho segundo conjunto de datos genéticos; y d) basándose en dicha una o más variantes genéticas identificadas en c), utilizar uno o más procesadores informáticos programados para actualizar una indicación de confianza diagnóstica para identificar dicha una o más variantes genéticas en una muestra biológica libre de células de dicho sujeto.

[0040] En algunas realizaciones, dicho primer conjunto de datos genéticos y dicho segundo conjunto de datos genéticos están dentro de dicho umbral de detección. En algunas realizaciones, dicho primer conjunto de datos genéticos está dentro de dicho umbral de detección y dicho segundo conjunto de datos genéticos está por encima de dicho umbral de detección. En algunas realizaciones, dicho umbral de detección es un umbral de ruido.

[0041] En algunas realizaciones, el método comprende además identificar dicha una o más variantes genéticas en dicho primer conjunto de datos genéticos, y aumentar dicha indicación de confianza diagnóstica.

[0042] En algunas realizaciones, subconjuntos de dichas moléculas de ácido nucleico se ensayan en diferentes puntos temporales. En algunas realizaciones, dichas moléculas de ácido nucleico se obtienen a partir de una pluralidad de muestras biológicas libres de células en el mismo punto temporal o en puntos temporales diferentes.

[0043] En algunas realizaciones, dichas moléculas de ácido nucleico son ácido desoxirribonucleico (ADN). En algunas realizaciones, dicho ADN es ADN libre de células (cfADN).

[0044] En algunas realizaciones, el método comprende además generar un perfil genético para dicho sujeto, en el que dicho perfil genético comprende dicha indicación de confianza diagnóstica para identificar dicha una o más variantes genéticas.

[0045] En algunas realizaciones, se identifica una variante covariante en dicho primer conjunto de datos genéticos en c), y además comprende actualizar dicha indicación de confianza diagnóstica para identificar una segunda variante covariante en una muestra biológica libre de células de dicho sujeto. En algunas realizaciones, el método comprende además aumentar dicha indicación de confianza diagnóstica en c) si dicho primer conjunto de datos genéticos se observa en dicho segundo conjunto de datos genéticos. En algunas realizaciones, el método comprende además disminuir dicha indicación de confianza diagnóstica en c) si dicho primer conjunto de datos genéticos difiere de dicho segundo conjunto de datos genéticos.

[0046] En algunas realizaciones, dicho umbral de detección comprende errores introducidos por secuenciación o amplificación.

[0047] En algunas realizaciones, dicho umbral de detección comprende una tasa de error por base del 0,5% al 5%. En algunas realizaciones, dicho umbral de detección comprende una tasa de error por base del 0,5% al 1%.

[0048] En algunas realizaciones, dichas moléculas de ácido nucleico se obtienen a partir de una segunda muestra biológica libre de células de dicho sujeto. En algunas realizaciones, dicha segunda muestra biológica libre de células se obtiene después de obtener dicha muestra biológica libre de células de a). En algunas realizaciones, dicha segunda muestra biológica libre de células se obtiene antes de obtener dicha muestra biológica libre de células de a). En algunas realizaciones, dicha segunda muestra biológica libre de células se obtiene concurrentemente con la obtención de dicha muestra biológica libre de células de a). En algunas realizaciones, dicho primer conjunto de datos genéticos corresponde a dicha muestra biológica libre de células de a) y dicho segundo conjunto de datos genéticos corresponde a dicha segunda muestra biológica libre de células.

[0049] En algunas realizaciones, el método comprende además: unir marcaciones a dichas moléculas de ácido nucleico para generar polinucleótidos parentales marcados; amplificar dichos polinucleótidos parentales marcados para producir polinucleótidos progenie marcados; y secuenciar dichos polinucleótidos progenie marcados para producir lecturas de secuenciación.

[0050] En algunas realizaciones, la fijación comprende el marcado único de las moléculas de ácido nucleico. En algunas realizaciones, la unión comprende la marcación no única de dichas moléculas de ácido nucleico de forma que no más del 5% de dichas moléculas de ácido nucleico estén marcadas de forma única.

[0051] En algunas realizaciones, el método comprende además el enriquecimiento selectivo de secuencias de interés antes de la secuenciación.

[0052] En algunas realizaciones, el método comprende además agrupar dichas lecturas de secuencia en familias basadas al menos en una marcación de secuencia. En algunas realizaciones, la agrupación de las lecturas de secuencia se basa además en una o más de las siguientes: información de secuencia al principio de una lectura de secuencia derivada de la molécula de ácido nucleico, información de secuencia al final de dicha secuencia derivada de la molécula de ácido nucleico, y una longitud de dicha lectura de secuencia.

[0053] En algunas realizaciones, el método comprende además comparar las lecturas de secuencia agrupadas dentro de cada familia para determinar secuencias consenso para cada familia, en las que cada una de las secuencias consenso corresponde a un polinucleótido único entre los polinucleótidos parentales marcados.

[0054] En algunas realizaciones, el método comprende además la obtención de menos de 100 ng de las moléculas de ácido nucleico.

[0055] La presente divulgación también proporciona un método para detectar una variante genética en ácidos nucleicos de desoxirribosa libres de células (cfADN) de un sujeto que comprende: a) usar un sistema de secuenciación de ADN para secuenciar cfADN de una muestra tomada en un primer punto temporal de un sujeto; b) detectar una variante genética en el cfADN secuenciado del primer punto temporal, en el que la variante genética se detecta a un nivel por debajo de un límite de diagnóstico; c) usar el sistema de secuenciación de ADN para secuenciar cfADN de una muestra tomada del sujeto en uno o más puntos temporales posteriores; d) detectar la variante genética en el cfADN secuenciado a partir de uno o más puntos temporales posteriores, en los que la variante genética se detecta a un nivel por debajo del límite de diagnóstico; e) calificar las muestras como positivas para la variante genética basándose en la detección de la variante genética por debajo del límite de diagnóstico en muestras tomadas en una pluralidad de puntos temporales.

[0056] En algunas realizaciones, el método comprende además f) detectar una tendencia, en la que, en el primer punto temporal, la variante genética se detecta por debajo del límite de diagnóstico y se denomina positiva, y, en uno o más puntos temporales posteriores, la variante genética se detecta por encima del límite de diagnóstico, por lo que la variante genética está aumentando.

[0057] En algunas realizaciones, el límite de diagnóstico es inferior o igual a aproximadamente 1,0%.

[0058] La presente divulgación también proporciona un método para llamar una variante genética en ácidos nucleicos de desoxirribosa libres de células (cfADN) de un sujeto que comprende: a) usar un sistema de secuenciación de ácido desoxirribonucleico (ADN) para secuenciar cfADN de una muestra de un sujeto; b) detectar una variante genética en el cfADN secuenciado, en el que la variante genética se detecta a un nivel por debajo de un límite de diagnóstico; c) usar el sistema de secuenciación de ADN para secuenciar cfADN de la muestra tomada del sujeto, en el que la muestra se resecuencializa una o más veces; d) detectar la variante genética en el cfADN secuenciado de una o más muestras resecuenciadas, en las que la variante genética se detecta a un nivel por debajo del límite de diagnóstico; y e) calificar las muestras como positivas para la variante genética basándose en la detección de la variante genética por debajo del límite de diagnóstico en las muestras resecuenciadas.

[0059] La presente divulgación también proporciona un medio legible por ordenador no transitorio que comprende código ejecutable por máquina que, al ser ejecutado por uno o más procesadores de ordenador, implementa cualquiera de los métodos anteriores o de cualquier otra parte del presente documento.

[0060] La presente divulgación también proporciona un sistema informático que comprende uno o más procesadores informáticos y memoria acoplada a los mismos. La memoria comprende un medio legible por ordenador no transitorio que comprende código ejecutable por máquina que, al ser ejecutado por uno o más procesadores de ordenador, implementa cualquiera de los métodos anteriores o de cualquier otra parte del presente documento.

[0061] Otros aspectos y ventajas de la presente divulgación resultarán evidentes para los expertos en la materia a partir de la siguiente descripción detallada, en la que sólo se muestran y describen realizaciones ilustrativas de la presente divulgación. Como se dará cuenta, la presente divulgación es capaz de otras y diferentes realizaciones, y sus diversos detalles son capaces de modificaciones en varios aspectos obvios, todo ello sin apartarse de la divulgación. Por consiguiente, los dibujos y la descripción deben considerarse de carácter ilustrativo y no restrictivo.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

[0062] Las características novedosas de la divulgación se exponen con particularidad en las reivindicaciones adjuntas. Una mejor comprensión de las características y ventajas de la presente divulgación se obtendrá por referencia a la siguiente descripción detallada que expone realizaciones ilustrativas, en las que se utilizan los principios de la divulgación, y los dibujos adjuntos de los cuales:

[0063] FIGS. 1A-1D ilustran Sistemas ejemplares para reducir las tasas de error y el sesgo en las lecturas de secuencias de ADN.

[0064] La FIG.2 ilustra un proceso ejemplar para analizar polinucleótidos en una muestra de material genético inicial.

[0065] La FIG.3 ilustra otro proceso ejemplar para analizar polinucleótidos en una muestra de material genético inicial.

[0066] La FIG.4 ilustra otro proceso ejemplar para analizar polinucleótidos en una muestra de material genético inicial.

[0067] Las FIGS. 5A y 5B muestran representaciones esquemáticas del acceso habilitado para Internet de informes generados a partir del análisis de variación del número de copias de un sujeto con cáncer.

[0068] La FIG.6 muestra una representación esquemática del acceso habilitado por Internet a los informes de un sujeto con cáncer.

[0069] La FIG.7 ilustra un sistema informático programado o configurado de otro modo para analizar datos genéticos.

[0070] La FIG.8 muestra la detección de secuencias en una muestra enriquecida con ácidos nucleicos portadores de mutantes cancerígenos.

[0071] La FIG.9 muestra un panel de genes que puede ser utilizado con los métodos y Sistemas de la presente divulgación.

DESCRIPCIÓN DETALLADA

[0072] Aunque se han mostrado y descrito aquí varias realizaciones de la invención, será obvio para los expertos en la materia que dichas realizaciones se proporcionan únicamente a modo de ejemplo.

[0073] La terminología utilizada en el presente documento tiene por objeto describir únicamente realizaciones particulares y no pretende ser limitativa de la invención. Tal y como se utilizan en este documento, las formas singulares "un", "una" y "el" incluyen también las formas plurales, a menos que el contexto indique claramente lo contrario. Además, en la medida en que los términos "incluyendo", "incluye", "teniendo", "tiene", "con", o variantes de los mismos se utilizan en la descripción detallada y/o en las reivindicaciones, dichos términos pretenden ser inclusivos de manera similar al término "que comprende".

[0074] El término "aproximadamente" significa dentro de un intervalo de error aceptable para el valor particular determinado por un experto en la materia, que dependerá en parte de cómo se mida o determine el valor, es decir, de las limitaciones del sistema de medición. Por ejemplo, "aproximadamente" puede significar dentro de 1 o más de 1 desviación estándar, según la práctica en el arte. Alternativamente, "aproximadamente" puede significar un intervalo de hasta el 20%, hasta el 10%, hasta el 5% o hasta el 1% de un valor determinado. Alternativamente, en particular con respecto a los sistemas o procesos biológicos, el término puede significar dentro de un orden de magnitud, como dentro de 5 veces o dentro de 2 veces, de un valor. Cuando se describan valores particulares en la solicitud y en las reivindicaciones, a menos que se indique lo contrario el

el término "aproximadamente" significa que debe asumirse dentro de un intervalo de error aceptable para el valor concreto.

[0075] En ciertas realizaciones, los diagnósticos implican detectar (por ejemplo, medir) una señal indicativa de enfermedad, como un biomarcador, y correlacionar la detección o medición con un Estado de enfermedad. Sin embargo, una señal puede ser débil debido a la baja concentración de la muestra, o puede estar oscurecida por el ruido. Si la señal es tan débil que está en o por debajo de un umbral de ruido o límite de detección, puede ser difícil diferenciar la señal del ruido producido por el sistema de detección o detectar la señal en absoluto. En estos casos, es posible que no se esté seguro de hacer un diagnóstico. Al considerar los datos genéticos o las variaciones detectadas de una pluralidad de puntos en el tiempo, una pluralidad de pruebas como señales confirmatorias, o una pluralidad de variantes genéticas covariantes detectadas comúnmente, se puede aumentar la confianza diagnóstica.

[0076] Los términos límite de detección y límite de diagnóstico, tal como se utilizan en el presente documento, se refieren en general a la capacidad de detectar la presencia o ausencia, o la cantidad, de un gen o variante determinado con un nivel de confianza predeterminado. Un umbral de detección, tal como se utiliza generalmente en el presente documento, se refiere a un intervalo en o por debajo del límite de detección en el que ciertas variantes genéticas son indetectables o no pueden diferenciarse del ruido. En algunos casos, un "límite de detección" puede ser la frecuencia o concentración más baja a la que se detecta una variante en una muestra positiva a variantes el 95% de las veces. Un límite de diagnóstico puede ser la frecuencia más baja a la que se puede realizar una llamada positiva. Un límite de diagnóstico puede ser de aproximadamente 0,01% a aproximadamente 1%. Un límite de diagnóstico puede ser inferior o igual a aproximadamente el 5%, aproximadamente el 1,0%, aproximadamente el 0,8%, aproximadamente el 0,5%, aproximadamente el 0,25%, aproximadamente el 0,1%, aproximadamente el 0,08%, aproximadamente el 0,05%, aproximadamente el 0,03%, aproximadamente el 0,01%, o menos. En algunos casos, el límite de detección puede ser el mismo que el límite de diagnóstico. El límite de detección o de diagnóstico puede ser un límite de ruido o un umbral de ruido. En este caso, el límite de detección o de diagnóstico es el límite en el que la señal no puede diferenciarse del ruido.

[0077] En algunos casos, el límite de diagnóstico puede ser inferior al límite de detección. Mediante los métodos y sistemas descritos en el presente documento, una variante o variantes genéticas presentes en una cantidad igual o inferior al límite de detección pueden denominarse positivamente con un nivel de confianza predeterminado (por ejemplo, al menos un 80%, 90% o 95% de confianza), incluso cuando la variante o variantes genéticas están presentes en un límite de detección o por debajo del mismo.

[0078] Así, por ejemplo, el análisis de la secuencia de una muestra puede revelar un número de variantes genéticas diferentes y una variedad de frecuencias o concentraciones en la muestra. El clínico puede fijar el límite de diagnóstico, por ejemplo, en el 1%, es decir, ninguna variante se declarará como "presente" en la muestra, o "denominada" en un informe, a menos que la variante esté presente en una concentración de al menos el 1%. Si se detecta una primera variante al 5%, esa variante se "llama" presente en la muestra y se notifica. Otra variante se detecta en el 0,5%. Esto está por debajo del límite de diagnóstico, y puede estar por debajo del límite de detección del sistema de secuenciación. En este caso, el clínico tiene varias opciones. En primer lugar, se puede volver a analizar la misma muestra. Si la variante se detecta de nuevo, por debajo o por encima del límite de detección, se considera que está presente en la muestra. En segundo lugar, los datos de la secuencia pueden examinarse para detectar la presencia de una variación covariante. Por ejemplo, la variante puede ser una mutación de resistencia conocida. Si se detecta una mutación impulsora en el mismo gen a partir de los datos de la secuencia, esto también indica que es probable que el mutante de resistencia no sea una detección de "ruido" y, de nuevo, se puede hacer una llamada positiva. En tercer lugar, el sujeto puede volver a someterse a la prueba en un momento posterior. Si la variante se detecta en la muestra posterior, la primera muestra puede considerarse "presente" para la variante. Alternativamente, si una prueba posterior muestra una cantidad de la variante con una puntuación de confianza que no se solapa con la de la primera prueba, se puede decir que la variante está aumentando o disminuyendo en el sujeto, según sea el caso.

[0079] Varios factores pueden afectar a la capacidad de detectar genes o variantes en o cerca del límite de detección o diagnóstico. Los genes o variantes detectados pueden estar presentes en cantidades o concentraciones tan bajas que un analizador de secuencias no pueda detectar un gen o variante. Por ejemplo, de un millón de moléculas de ácido nucleico libres de células analizadas, una mutación genética puede estar presente en una molécula de ácido nucleico libre de células analizada, por lo que la llamada base variante existe con una frecuencia de una en un millón. Un analizador de secuenciación puede caracterizar erróneamente la mutación genética como una llamada de base no variante porque la mutación genética se produce con una frecuencia baja en relación con todas las demás llamadas de base en el mismo sitio. En tales casos, un límite de detección puede referirse generalmente a la capacidad de un analizador o secuenciador genético para detectar variaciones genéticas presentes en frecuencias muy bajas. Además, los errores de secuencia o los artefactos introducidos por la secuenciación o la amplificación pueden dificultar o imposibilitar la diferenciación entre errores y/o artefactos y genes o variaciones genéticas detectados. En tales casos, un límite de detección puede referirse a la capacidad de distinguir entre llamadas de bases variantes y llamadas de error con confianza. La presente divulgación proporciona técnica(s) para detectar variaciones genéticas en o por debajo del límite de detección y/o dentro de un umbral de detección.

[0080] El término "indicación de confianza diagnóstica", tal como se utiliza en el presente documento, se refiere generalmente a una representación, un número, un rango, una puntuación, un grado o un valor asignado para indicar la presencia de una o más variantes genéticas y en qué medida se confía en dicha presencia. Una indicación de confianza diagnóstica puede ser indicativa de una probabilidad de identificar una o más variaciones genéticas en una muestra biológica del sujeto. Por ejemplo, la representación puede ser un valor binario o una clasificación alfanumérica de la A a la Z, entre otros. En otro ejemplo, la indicación de confianza diagnóstica puede tener cualquier valor de 0 a 100, entre otros. En otro ejemplo, la indicación de confianza diagnóstica puede representarse mediante un intervalo o grado, por ejemplo, "bajo" o "alto", "más" o "menos", "aumentado" o "disminuido". Una indicación de confianza diagnóstica baja indica que una variante genética detectada puede ser ruido (por ejemplo, que no se puede confiar demasiado en la presencia detectada de la variante genética). Una indicación de confianza diagnóstica alta significa que, para una variante genética detectada, la variante genética es probable que exista. En algunos casos, un resultado puede no ser fiable si su indicación de confianza diagnóstica es inferior a 25-30 sobre 100.

[0081] La indicación de confianza diagnóstica para cada variante puede ajustarse para indicar una confianza de predicción de una variación genética. La confianza puede aumentarse o disminuirse utilizando mediciones en una pluralidad de puntos temporales o a partir de una pluralidad de muestras en el mismo punto temporal o en puntos temporales diferentes. La confianza del diagnóstico puede ajustarse aún más en función de la detección de variaciones covariantes. La indicación de confianza en el diagnóstico puede asignarse mediante cualquiera de los métodos estadísticos y puede basarse, al menos en parte, en la frecuencia con la que se observan las mediciones durante un periodo de tiempo.

[0082] El término "variaciones covariantes" o "variantes covariantes", como se usa aquí, generalmente se refiere a variaciones genéticas que tienden a variar juntas, por ejemplo, la presencia de una variación está correlacionada con la presencia de la variación covariante. Por consiguiente, si se observa una variante por debajo del límite de diagnóstico o del límite de detección, y también se detecta una variante covariante, ya sea por encima o por debajo del límite de detección, entonces es más probable que la muestra sea positiva para ambas variantes, y pueden ser "llamadas" como presentes en la muestra. Un ejemplo de variaciones covariantes son las mutaciones impulsoras y las mutaciones de resistencia o de significado desconocido. Es decir, tras la presencia de una mutación impulsora, pueden aparecer otras mutaciones en el mismo gen, como las mutaciones de resistencia, especialmente tras el tratamiento y la recurrencia de un cáncer. Como ejemplo no limitativo, una mutación conductora puede detectarse por encima del límite de detección con una alta confianza diagnóstica. Sin embargo, debido a un muestreo insuficiente o al ruido, puede resultar difícil evaluar con seguridad si existe otra variación genética. Si la variación genética está típicamente presente con la mutación conductora de forma que las variantes son variantes covariantes (como una mutación pasajera o una mutación de resistencia), aumentará la indicación de confianza diagnóstica de la variante genética.

La fuerza de la asociación entre determinadas variantes detectadas conjuntamente puede aumentar la probabilidad, posibilidad y/o confianza de que los datos genéticos detectados por debajo de un límite de detección sean una variación genética.

[0083] El término "sistema de secuenciación de ADN", tal como se utiliza en el presente documento, se refiere generalmente a los protocolos de preparación de muestras de ADN utilizados junto con un instrumento de secuenciación. Los protocolos de preparación de muestras de ADN pueden dirigirse a la preparación de bibliotecas, amplificación, ligación de adaptadores, elongación de cadena sencilla, entre otros métodos de biología molecular. Un instrumento de secuenciación puede ser cualquier instrumento capaz de automatizar diversos métodos o procesos de secuenciación. Ejemplos no limitativos de diversos métodos o procesos de secuenciación incluyen: Secuenciación Sanger, secuenciación de alto rendimiento, pirosecuenciación, secuenciación por síntesis, secuenciación de molécula única, secuenciación por nanoporos, secuenciación por semiconductores, secuenciación por ligación, secuenciación por hibridación, RNA-Seq (Illumina),Digital Gene Expression(Helicos), secuenciación de próxima generación, secuenciación de molécula única por síntesis (SMSS) (Helicos), secuenciación masiva paralela, matriz clonal de molécula única (Solexa), secuenciación shotgun, secuenciación Maxim-Gilbert,primer walkingy cualquier otro método de secuenciación reconocido en la técnica. Un sistema de secuenciación de a Dn puede comprender todos los protocolos para preparar muestras para la secuenciación en un instrumento de secuenciación concreto.

[0084] El término "sujeto", tal como se utiliza aquí, se refiere generalmente a cualquier organismo que se utiliza en los métodos de la divulgación. En algunos ejemplos, un sujeto es un ser humano, mamífero, vertebrado, invertebrado, eucariota, arquea, hongo o procariota. En algunos casos, un sujeto puede ser un ser humano. Un sujeto puede estar vivo o muerto. Un sujeto puede ser un paciente. Por ejemplo, un sujeto puede padecer una enfermedad (o sospecharse que la padece) y/o estar bajo el cuidado de un médico. Un sujeto puede ser una persona sometida a tratamiento o diagnóstico por una enfermedad o dolencia. Un sujeto y/o familiar puede estar emparentado con otro sujeto utilizado en los métodos de la divulgación (por ejemplo, una hermana, un hermano, una madre, un padre, un sobrino, una sobrina, una tía, un tío, un abuelo, un bisabuelo, un primo).

[0085] El término "ácido nucleico", tal como se utiliza aquí, se refiere generalmente a una molécula que comprende una o más subunidades de ácido nucleico. Un ácido nucleico puede incluir una o más subunidades seleccionadas entre adenosina a), citosina c), guanina (G), timina (T) y uracilo (U), o variantes de las mismas. Un nucleótido puede incluir A, C, G, T o U, o variantes de los mismos. Un nucleótido puede incluir cualquier subunidad que pueda incorporarse a una cadena de ácido nucleico en crecimiento. Dicha subunidad puede ser una A, C, G, T o U, o cualquier otra subunidad que sea específica de una o más A, C, G, T o U complementarias, o complementaria de una purina (es decir, A o G, o variante de las mismas) o una pirimidina (es decir, C, T o U, o variante de las mismas). Una subunidad puede permitir la resolución de bases de ácido nucleico individuales o grupos de bases (por ejemplo, AA, TA, AT, GC, CG, CT, Tc , GT, TG, AC, CA, o sus contrapartes de uracilo). En algunos ejemplos, un ácido nucleico es ácido desoxirribonucleico (ADN) o ácido ribonucleico (ARN), o derivados de los mismos. Un ácido nucleico puede ser monocatenario o bicatenario.

[0086] El término "genoma" se refiere generalmente a la totalidad de la información hereditaria de un organismo. Un genoma puede codificarse en ADN o en ARN. Un genoma puede comprender regiones codificantes que codifican proteínas, así como regiones no codificantes. Un genoma puede incluir la secuencia de todos los cromosomas juntos en un organismo. Por ejemplo, el genoma humano tiene un total de 46 cromosomas. La secuencia de todos ellos constituye el genoma humano.

[0087] El término "muestra", tal como se utiliza aquí, se refiere generalmente a una muestra biológica. Una muestra puede ser o incluir sangre, suero, plasma, vítreo, esputo, orina, lágrimas, transpiración, saliva, semen, excreciones mucosas, moco, líquido cefalorraquídeo, líquido amniótico, líquido linfático y similares. Una muestra puede ser una muestra libre de células. Una muestra puede incluir moléculas de ácido nucleico, como polinucleótidos. Los polinucleótidos pueden ser ácido desoxirribonucleico (ADN) o ácido ribonucleico (ARN). Los polinucleótidos libres de células pueden ser de origen fetal (a través de fluido tomado de un sujeto embarazado) o pueden derivarse de tejido del propio sujeto.

Límite de detección/intervalo de ruido

[0088] La secuenciación de polinucleótidos puede compararse con un problema de la teoría de la comunicación. Un polinucleótido individual inicial o un conjunto de polinucleótidos puede conceptualizarse como un mensaje original. Marcar y/o amplificar puede considerarse como codificar el mensaje original en una señal. La secuenciación puede considerarse un canal de comunicación. La salida de un secuenciador, por ejemplo, las lecturas de secuencia, puede considerarse como una señal recibida. El procesamiento bioinformático puede concebirse como un receptor que descodifica la señal recibida para producir un mensaje transmitido, por ejemplo, una secuencia o secuencias de nucleótidos. La señal recibida puede incluir artefactos, como ruido y distorsión. El ruido puede considerarse una adición aleatoria no deseada a una señal. La distorsión puede considerarse una alteración de la amplitud de una señal o parte de una señal.

[0089] El ruido puede introducirse a través de errores en la copia y/o lectura de un polinucleótido. Por ejemplo, en un proceso de secuenciación, un polinucleótido único puede someterse primero a amplificación. La amplificación puede introducir errores, de modo que un subconjunto de los polinucleótidos amplificados puede contener, en un locus particular, una base que no es la misma que la base original en ese locus. Además, en el proceso de lectura, una base de un locus concreto puede leerse incorrectamente. Como consecuencia, la colección de lecturas de secuencias puede incluir un cierto porcentaje de llamadas de bases en un locus que no coinciden con la base original. En las tecnologías típicas de secuenciación, esta tasa de error puede ser de un solo dígito, por ejemplo, entre el 2% y el 3%. En algunos casos, la tasa de error puede ser de hasta aproximadamente el 10%, hasta aproximadamente el 9%, hasta aproximadamente el 8%, hasta aproximadamente el 7%, hasta aproximadamente el 6%, hasta aproximadamente el 5%, hasta aproximadamente el 4%, hasta aproximadamente el 3%, hasta aproximadamente el 2% o hasta aproximadamente el 1%. Cuando se secuencia una colección de moléculas que se supone que tienen todas la misma secuencia, este ruido puede ser lo suficientemente pequeño como para poder identificar la base original con gran fiabilidad.

[0090] Sin embargo, si una colección de polinucleótidos parentales incluye un subconjunto de polinucleótidos que varían en un locus particular, el ruido puede ser un problema significativo. Este puede ser el caso, por ejemplo, cuando el ADN libre de células incluye no sólo ADN de la línea germinal, sino ADN de otra fuente, como ADN fetal o ADN de una célula cancerosa. En este caso, si la frecuencia de moléculas con variantes de secuencia puede estar en el mismo intervalo que la frecuencia de errores introducidos por el proceso de secuenciación, entonces las verdaderas variantes de secuencia pueden no ser distinguibles del ruido. Esto podría interferir, por ejemplo, con la detección de variantes de secuencia en una muestra. Por ejemplo, las secuencias pueden tener una tasa de error por base del 0,5-1%. El sesgo de amplificación y los errores de secuenciación introducen ruido en el producto final de la secuenciación. Este ruido puede disminuir la sensibilidad de la detección. Como ejemplo no limitativo, las variantes de secuencia cuya frecuencia es inferior a la tasa de error de secuenciación pueden confundirse con ruido.

[0091] Un intervalo de ruido o límite de detección se refiere a los casos en los que la frecuencia de moléculas con variantes de secuencia está en el mismo intervalo que la frecuencia de errores introducidos por el proceso de secuenciación. Un "límite de detección" también puede referirse a casos en los que se secuencian muy pocas moléculas portadoras de variantes para que la variante pueda detectarse. La frecuencia de moléculas con variantes de secuencia puede estar en el mismo intervalo que la frecuencia de errores como resultado de una pequeña cantidad de moléculas de ácido nucleico. Como ejemplo no limitativo, una cantidad muestreada de ácidos nucleicos, por ejemplo 100 ng, puede contener un número relativamente pequeño de moléculas de ácidos nucleicos libres de células, por ejemplo, moléculas de ADN tumoral circulante, de tal forma que la frecuencia de una variante de secuencia puede ser baja, aunque la variante pueda estar presente en una mayoría de moléculas de ADN tumoral circulante. Alternativamente, la variante de secuencia puede ser rara o producirse sólo en una cantidad muy pequeña de los ácidos nucleicos muestreados, de forma que una variante detectada no se distinga del ruido y/o del error de secuenciación. Como ejemplo no limitativo, en un locus particular, una variante genética puede detectarse sólo en el 0,1% al 5% de todas las lecturas en ese locus.

[0092] La distorsión puede manifestarse en el proceso de secuenciación como una diferencia en la intensidad de la señal, por ejemplo, el número total de lecturas de secuencia, producida por moléculas en una población parental con la misma frecuencia. La distorsión puede introducirse, por ejemplo, a través de un sesgo de amplificación, un sesgo de GC o un sesgo de secuenciación. Esto podría interferir en la detección de la variación del número de copias en una muestra. El sesgo de GC se traduce en una representación desigual de las zonas ricas o pobres en contenido de GC en la lectura de la secuencia. Además, al proporcionar lecturas de secuencias en mayor o menor cantidad que su número real en una población, el sesgo de amplificación puede distorsionar las mediciones de la variación del número de copias.

[0093] Los artefactos o errores de secuenciación y/o amplificación, como el ruido y/o la distorsión, pueden reducirse en un proceso de secuenciación de polinucleótidos. Los artefactos o errores de secuenciación y/o amplificación pueden reducirse utilizando una amplia variedad de técnicas de secuenciación y análisis de secuencias. Varias técnicas pueden incluir metodologías de secuenciación y/o métodos estadísticos.

[0094] Una forma de reducir el ruido y/o la distorsión es filtrar las lecturas de secuencia. Como ejemplo no limitativo, las lecturas de secuencias pueden filtrarse exigiendo que las lecturas de secuencias cumplan un umbral de calidad, o reduciendo el sesgo GC. Estos métodos suelen aplicarse a la colección de lecturas de secuencias resultantes de un secuenciador, y pueden realizarse secuencia por secuencia, sin tener en cuenta la estructura familiar (subcolecciones de secuencias derivadas de una única molécula original).

[0095] Otra forma de reducir el ruido y/o la distorsión de una única molécula individual o de un conjunto de moléculas es agrupar las lecturas de secuencia en familias derivadas de moléculas individuales originales para reducir el ruido y/o la distorsión de una única molécula individual o de un conjunto de moléculas. La conversión eficiente de polinucleótidos individuales de una muestra de material genético inicial en polinucleótidos parentales marcados listos para secuencia puede aumentar la probabilidad de que los polinucleótidos individuales de una muestra de material genético inicial estén representados en una muestra lista para secuencia. Esto puede producir información sobre la secuencia de más polinucleótidos en la muestra inicial. Además, la generación de secuencias consenso de alto rendimiento para polinucleótidos parentales marcados mediante el muestreo a alta velocidad de polinucleótidos progenie amplificados a partir de los polinucleótidos parentales marcados, y el colapso de las lecturas de secuencias generadas en secuencias consenso que representan secuencias de polinucleótidos parentales marcados pueden reducir el ruido introducido por el sesgo de amplificación y/o los errores de secuenciación, y pueden aumentar la sensibilidad de la detección. Una forma de reducir el ruido en el mensaje recibido de una molécula es colapsar las lecturas de secuencia en una secuencia de consenso. El uso de funciones probabilísticas que convierten las frecuencias recibidas es otra forma de reducir el ruido y/o la distorsión. Con respecto a un conjunto de moléculas, agrupar las lecturas en familias y determinar una medida cuantitativa de las familias reduce la distorsión, por ejemplo, en la cantidad de moléculas en cada uno de una pluralidad de loci diferentes. Una vez más, el colapso de las lecturas de secuencias de diferentes familias en secuencias de consenso elimina los errores introducidos por la amplificación y/o el error de secuenciación. Además, la determinación de las frecuencias de las llamadas base a partir de probabilidades derivadas de la información familiar también reduce el ruido en el mensaje recibido de un conjunto de moléculas.

[0096] El ruido y/o la distorsión pueden reducirse aún más comparando las variaciones genéticas de una secuencia leída con las variaciones genéticas de otras secuencias leídas. Una variación genética observada en una lectura de secuencia y de nuevo en otras lecturas de secuencia aumenta la probabilidad de que una variante detectada sea de hecho una variante genética y no un mero error de secuenciación o ruido. Como ejemplo no limitativo, si se observa una variación genética en una primera lectura de secuencia y también se observa en una segunda lectura de secuencia, se puede hacer una inferencia bayesiana respecto a si la variación es de hecho una variación genética y no un error de secuenciación.

[0097] La presente divulgación proporciona métodos para detectar variaciones en moléculas de ácido nucleico, particularmente aquellas a una frecuencia dentro de un intervalo de ruido o por debajo de un límite de detección. Las variantes detectadas inicialmente en moléculas de ácido nucleico pueden compararse con otras variantes, como por ejemplo variantes en el mismo locus o variantes genéticas covariantes, para determinar si una variante tiene más o menos probabilidades de ser detectada con precisión. Las variantes pueden detectarse en moléculas de ácido nucleico amplificadas, en lecturas de secuencias o en lecturas de secuencias colapsadas.

[0098] La detección repetida de una variante puede aumentar la probabilidad y/o confianza de que una variante se detecte con precisión. Una variante puede detectarse repetidamente comparando dos o más conjuntos de datos genéticos o variaciones genéticas. Los dos o más conjuntos de variaciones genéticas pueden ser tanto muestras en múltiples puntos temporales como muestras diferentes en el mismo punto temporal (por ejemplo, una muestra de sangre reanalizada). Al detectar una variante en el intervalo de ruido o por debajo del umbral de ruido, el remuestreo o la detección repetida de una variante de baja frecuencia hace más probable que la variante sea de hecho una variante y no un error de secuenciación. El remuestreo puede realizarse a partir de la misma muestra, como en el caso de una muestra que se vuelve a analizar o ejecutar, o a partir de muestras en diferentes momentos.

[0099] Como ejemplo no limitativo, una variante genética que tenga una puntuación de confianza baja puede detectarse en una frecuencia o cantidad por debajo del límite de detección o intervalo de ruido. Sin embargo, si la variante genética se observa de nuevo, como por ejemplo en un momento posterior, en una muestra anterior o al volver a analizar una muestra, la puntuación de confianza puede aumentar. Así, la variante puede detectarse con mayor confianza a pesar de estar presente en una frecuencia o cantidad por debajo del límite de detección o del intervalo de ruido. En otros casos, cuando la variante genética no se observa de nuevo tras, por ejemplo, un nuevo muestreo, la puntuación de confianza puede permanecer constante o disminuir. Alternativamente, si una variante genética observada en un locus concreto entra en conflicto con un resultado de un nuevo muestreo, la puntuación de confianza puede disminuir.

[0100] La detección de covariantes puede aumentar la probabilidad y/o confianza de que una variante sea detectada con precisión. En el caso de las variantes genéticas covariantes, la presencia de una variante genética se asocia a la presencia de otra u otras variantes genéticas. Basándose en la detección de una variación genética covariante, puede ser posible inferir la presencia de una variación genética covariante asociada, incluso cuando la variación genética asociada esté presente por debajo de un límite de detección. Alternativamente, basándose en la detección de una variación genética covariante, puede aumentarse la indicación de confianza diagnóstica para la variación genética asociada. Además, en algunos casos en los que se detecta una variante covariante, puede disminuirse un umbral de detección para una variante covariante detectada por debajo de un límite de detección. Ejemplos no limitantes de variaciones o genes covariantes incluyen: mutaciones conductoras y mutaciones de resistencia, mutaciones conductoras y mutaciones pasajeras. Un ejemplo específico de covariantes o genes es la mutación activadora EGFR L858R y la mutación de resistencia EGFR T790M, que se encuentran en los cánceres de pulmón. Numerosas otras variantes covariantes y genes están asociados con diversas mutaciones de resistencia y serán reconocidas por un experto en la materia.

[0101] La presente divulgación proporciona métodos para detectar variantes genéticas donde al menos algunas variantes están en el intervalo o umbral de ruido. En el umbral o intervalo de ruido, puede ser difícil o imposible o difícil detectar variaciones genéticas con confianza. En algunos casos, un umbral de ruido proporciona un límite para detectar la variación genética con confianza estadística. El umbral o intervalo de ruido puede solaparse con una tasa de error de secuenciación. El umbral de ruido puede ser el mismo que la tasa de error de secuenciación. El umbral de ruido puede ser inferior a la tasa de error de secuenciación. El umbral de ruido puede ser de hasta aproximadamente el 10%, hasta aproximadamente el 9%, hasta aproximadamente el 8%, hasta aproximadamente el 7%, hasta aproximadamente el 6%, hasta aproximadamente el 5%, hasta aproximadamente el 4%, hasta aproximadamente el 3%, hasta aproximadamente el 2% o hasta aproximadamente el 1%. En algunos casos, el ruido oscila entre el 0,5% y el 10% de errores por base. En algunos casos, el umbral de ruido es de aproximadamente 0,5% a 5% de errores por base. En algunos casos, el umbral de ruido es de aproximadamente 0,5% a 1% de errores por base. Los términos ruido y umbral pueden utilizarse indistintamente.

[0102] Pueden detectarse varios tipos de variantes genéticas en moléculas de ácido nucleico. Las variaciones genéticas pueden denominarse indistintamente variantes genéticas o aberraciones genéticas. Las variaciones genéticas pueden incluir una sustitución de una sola base, una variación del número de copias, un indel y una fusión de genes. Puede detectarse una combinación de estas variantes genéticas. Ejemplos no limitativos de variantes genéticas adicionales pueden incluir también: una transversión, una translocación, una inversión, una deleción, una aneuploidía, una aneuploidía parcial, una poliploidía, una inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones cromosómicas, un truncamiento génico, una amplificación génica, una duplicación génica, una lesión cromosómica, una lesión del ADN, cambios anormales en las modificaciones químicas de los ácidos nucleicos, cambios anormales en los patrones epigenéticos y cambios anormales en la metilación de los ácidos nucleicos.

[0103] En una realización, utilizando mediciones de una pluralidad de muestras recogidas sustancialmente a la vez o a lo largo de una pluralidad de puntos temporales, la indicación de confianza diagnóstica para cada variante puede ajustarse para indicar una confianza de predecir la observación de la variación del número de copias (CNV) o mutación. La confianza puede aumentarse utilizando mediciones en una pluralidad de puntos temporales para determinar si el cáncer está avanzando, en remisión o estabilizado. La indicación de confianza en el diagnóstico puede asignarse mediante cualquiera de los métodos estadísticos y puede basarse, al menos en parte, en la frecuencia con la que se observan las mediciones durante un periodo de tiempo. Por ejemplo, puede hacerse una correlación estadística de los resultados actuales y los anteriores. Alternativamente, para cada diagnóstico, puede construirse un modelo oculto de Markov, de forma que pueda tomarse una decisión de máxima verosimilitud o máxima a posteriori basada en la frecuencia de aparición de un evento de prueba concreto a partir de una pluralidad de mediciones o de puntos temporales. Como parte de este modelo, también se puede emitir la probabilidad de error y la indicación de confianza de diagnóstico resultante para una decisión concreta. De este modo, las mediciones de un parámetro, estén o no en el intervalo de ruido, pueden estar provistas de un intervalo de confianza. Si se comprueba a lo largo del tiempo, se puede aumentar la confianza predictiva de si un cáncer está avanzando, estabilizado o en remisión comparando los intervalos de confianza a lo largo del tiempo. Dos puntos de tiempo de muestreo pueden estar separados por al menos aproximadamente 1 microsegundo, 1 milisegundo, 1 segundo, 10 segundos, 30 segundos, 1 minuto, 10 minutos, 30 minutos, 1 hora, 12 horas, 1 día, 1 semana, 2 semanas, 3 semanas, un mes o un año. Dos puntos temporales pueden estar separados por aproximadamente un mes a aproximadamente un año, aproximadamente un año a aproximadamente 5 años, o no más de aproximadamente tres meses, dos meses, un mes, tres semanas, dos semanas, una semana, un día o doce horas.

[0104] La FIG. 1A muestra un primer sistema ejemplar para reducir las tasas de error y el sesgo que pueden ser órdenes de magnitud superiores a lo que se requiere para detectar de forma fiable alteraciones genómicas de novo asociadas al cáncer. En primer lugar, el proceso captura la información genética recogiendo muestras de fluidos corporales como fuentes de material genético (sangre, saliva, sudor, entre otros) y, a continuación, el proceso secuencia los materiales 1). Por ejemplo, los polinucleótidos de una muestra pueden secuenciarse, produciendo una pluralidad de lecturas de secuencia. La carga tumoral en una muestra que comprende polinucleótidos puede estimarse como una relación entre el número relativo de lecturas de secuencias que presentan una variante y el número total de lecturas de secuencias generadas a partir de la muestra. Además, en el caso de las variantes del número de copias, la carga tumoral puede estimarse como el exceso relativo (en el caso de la duplicación de genes) o el déficit relativo (en el caso de la eliminación de genes) del número total de lecturas de secuencias en los loci de prueba y de control. Así, por ejemplo, un experimento puede producir 1.000 lecturas asignadas a un locus oncogénico, de las cuales 900 corresponden al tipo salvaje y 100 a un mutante cancerígeno, lo que indica una carga tumoral del 10%. Más detalles sobre la recogida y secuenciación ejemplares de los materiales genéticos se tratan a continuación en las FIGs. 2-4.

[0105] A continuación, se procesa la información genética 2). A continuación, se identifican las variantes genéticas. Las variantes pueden ser un polimorfismo de un solo nucleótido (SNP), en caso de que sea una variante genética común, una mutación, en caso de que sea una variante genética rara, o una variación del número de copias, por ejemplo. A continuación, el proceso determina la frecuencia de las variantes genéticas en la muestra que contiene el material genético. Como este proceso es ruidoso, el proceso separa la información del ruido 3).

[0106] Los métodos de secuenciación tienen tasas de error. Por ejemplo, el sistema mySeq de Illumina puede producir porcentajes de error de un solo dígito. Así, para 1.000 lecturas de secuencias asignadas a un locus, cabe esperar que unas 50 lecturas (alrededor del 5%) incluyan errores. Ciertas metodologías, como las descritas en el documento WO 2014/149134 (Talasaz y Eltoukhy), pueden reducir significativamente la tasa de error. Los errores crean ruido que puede oscurecer las señales de cáncer presentes a bajos niveles en una muestra. Así, si una muestra tiene una carga tumoral a un nivel en torno a la tasa de error del sistema de secuenciación, por ejemplo, en torno al 0,1%-5%, puede ser difícil distinguir una señal correspondiente a una variante genética debida al cáncer de otra debida al ruido.

[0107] El diagnóstico del cáncer puede realizarse analizando las variantes genéticas, incluso en presencia de ruido. El análisis puede basarse en la frecuencia de las variantes de secuencia o en el nivel de CNV 4) y puede establecerse una indicación o un nivel de confianza en el diagnóstico para detectar variantes genéticas en el intervalo de ruido 5).

[0108] A continuación, el proceso aumenta la confianza del diagnóstico. Esto puede hacerse utilizando una pluralidad de mediciones para aumentar la confianza del diagnóstico 6), o alternativamente utilizando mediciones en una pluralidad de puntos temporales para determinar si el cáncer está avanzando, en remisión o estabilizado 7).

[0109] La confianza diagnóstica puede utilizarse para identificar Estados de enfermedad. Por ejemplo, los polinucleótidos libres de células tomados de un sujeto pueden incluir polinucleótidos derivados de células normales, así como polinucleótidos derivados de células enfermas, como células cancerosas. Los polinucleótidos de las células cancerosas pueden presentar variantes genéticas, como mutaciones somáticas celulares y variantes en el número de copias. Cuando se secuencian polinucleótidos libres de células de una muestra de un sujeto, estos polinucleótidos cancerígenos se detectan como variantes de secuencia o como variantes del número de copias. La cantidad relativa de polinucleótidos tumorales en una muestra de polinucleótidos libres de células se denomina "carga tumoral".

[0110] Las mediciones de un parámetro, estén o no en el intervalo de ruido, pueden proporcionarse con un intervalo de confianza. Si se comprueba a lo largo del tiempo, se puede determinar si un cáncer está avanzando, estabilizado o en remisión comparando los intervalos de confianza a lo largo del tiempo. Cuando los intervalos de confianza no se solapan, esto indica la dirección de la enfermedad.

[0111] La FIG. 1B muestra un segundo sistema ejemplar para reducir las tasas de error y el sesgo que pueden ser órdenes de magnitud superiores a lo que se requiere para detectar de forma fiable alteraciones genómicas de novo asociadas al cáncer. Esto se hace generando una secuencia leída por un analizador genético, por ejemplo, un secuenciador de ADN a partir de una muestra (10). A continuación, el sistema caracteriza la información genética del sujeto a lo largo de dos o más muestras o puntos temporales (12). A continuación, el sistema utiliza la información de los dos o más puntos de muestreo o puntos temporales para producir un resultado de prueba ajustado en la caracterización de la información genética del sujeto (14).

[0112] El resultado de la prueba puede ajustarse aumentando o disminuyendo la indicación de confianza. Por ejemplo, el proceso incluye aumentar una indicación de confianza diagnóstica en una caracterización posterior o anterior si la información de un primer punto temporal corrobora la información del segundo punto temporal. Alternativamente, el proceso puede aumentar una indicación de confianza diagnóstica en la caracterización posterior si la información de un primer punto temporal corrobora la información del segundo punto temporal. La indicación de confianza diagnóstica en la caracterización posterior puede disminuir si la información de un primer punto temporal entra en conflicto con la información del segundo punto temporal. Alternativamente, el proceso puede dejar tal cual una indicación de confianza diagnóstica en la caracterización posterior para obtener información de novo.

[0113] En una realización de la FIG. 1B, el sistema compara las lecturas de secuencia actuales realizadas por un analizador genético, por ejemplo, un secuenciador de ADN, con lecturas de secuencia anteriores y actualiza en consecuencia una indicación de confianza diagnóstica. Basándose en la señal de confianza mejorada, el sistema genera con precisión un perfil genético de polinucleótidos extracelulares en el sujeto, en el que el perfil genético comprende una pluralidad de datos resultantes de la variación del número de copias y/o análisis de mutaciones.

[0114] La FIG. 1C muestra un tercer sistema ejemplar para reducir las tasas de error y el sesgo que pueden ser órdenes de magnitud superiores a lo que se requiere para detectar de forma fiable alteraciones genómicas de novo asociadas al cáncer. Como ejemplo no limitativo, el sistema realiza la detección del cáncer mediante la secuenciación de ácido nucleico libre de células, en el que se secuencia al menos una porción de cada gen en un panel de al menos cualquiera de 10, 25, 50 o 100 genes (20); comparando las lecturas de secuencia actuales con las lecturas de secuencia anteriores y actualizando en consecuencia una indicación de confianza diagnóstica (22). A continuación, el sistema detecta la presencia o ausencia de alteración genética y/o la cantidad de variación genética en un individuo basándose en la indicación de confianza diagnóstica de la lectura de secuencia actual (24).

[0115] La FIG. 1D muestra otro sistema ejemplar para reducir las tasas de error y el sesgo que pueden ser órdenes de magnitud superiores a lo que se requiere para detectar de forma fiable las alteraciones genómicas de novo asociadas al cáncer. El sistema realiza la detección del cáncer, por ejemplo, mediante la secuenciación de ácido nucleico libre de células (30); comparando las lecturas de secuencias actuales por el secuenciador de ADN con lecturas de secuencias anteriores y actualizando una confianza de diagnóstico en consecuencia, correspondiendo cada secuencia de consenso a un polinucleótido único entre un conjunto de polinucleótidos parentales marcados (32); y creando un perfil genético de polinucleótidos extracelulares en el sujeto, en el que el perfil genético comprende una pluralidad de datos resultantes de la variación del número de copias o de análisis de mutaciones raras (34).

[0116] Los sistemas de las FIGs. 1A-1D detectan con alta sensibilidad la variación genética en una muestra de material genético inicial. Los métodos consisten en utilizar de una a tres de las siguientes herramientas: En primer lugar, la conversión eficiente de polinucleótidos individuales de una muestra de material genético inicial en polinucleótidos parentales marcados listos para secuencia, con el fin de aumentar la probabilidad de que los polinucleótidos individuales de una muestra de material genético inicial estén representados en una muestra lista para secuencia. Esto puede producir información sobre la secuencia de más polinucleótidos en la muestra inicial. En segundo lugar, la generación de secuencias consenso de alto rendimiento para polinucleótidos parentales marcados mediante el muestreo a alta velocidad de polinucleótidos progenie amplificados a partir de los polinucleótidos parentales marcados, y el colapso de las lecturas de secuencias generadas en secuencias consenso que representan secuencias de polinucleótidos parentales marcados. Esto puede reducir el ruido introducido por el sesgo de amplificación y/o los errores de secuenciación, y puede aumentar la sensibilidad de la detección. En tercer lugar, el ruido en la detección de mutaciones y variaciones del número de copias se reduce comparando análisis de muestras anteriores con la muestra actual y aumentando una indicación de confianza diagnóstica si las mismas mutaciones y variaciones del número de copias han aparecido en análisis anteriores y, en caso contrario, disminuyendo la indicación de confianza diagnóstica si es la primera vez que se observa la secuencia.

[0117] El sistema detecta con alta sensibilidad la variación genética en una muestra de material genético inicial. En una implementación específica, el funcionamiento del sistema incluye la preparación de muestras, o la extracción y aislamiento de secuencias de polinucleótidos libres de células a partir de un fluido corporal; la posterior secuenciación de polinucleótidos libres de células mediante técnicas utilizadas en la técnica; y la aplicación de herramientas bioinformáticas para detectar mutaciones y variaciones en el número de copias en comparación con una referencia. La detección de mutaciones y variaciones en el número de copias se mejora comparando análisis de muestras anteriores con la muestra actual y aumentando una indicación de confianza diagnóstica si las mismas mutaciones y variaciones en el número de copias han aparecido en análisis anteriores y, en caso contrario, disminuyendo o manteniendo sin cambios la indicación de confianza diagnóstica si es la primera vez que se observa la secuencia. Los Sistemas y métodos también pueden contener una base de datos o colección de diferentes mutaciones o perfiles de variación del número de copias de diferentes enfermedades, para ser utilizados como referencias adicionales en la ayuda a la detección de mutaciones, perfiles de variación del número de copias o perfiles genéticos generales de una enfermedad.

[0118] Una vez recogidos los datos de secuenciación de las secuencias de polinucleótidos libres de células, pueden aplicarse uno o más procesos bioinformáticos a los datos de la secuencia para detectar características o variaciones genéticas tales como variación del número de copias, mutaciones o cambios en los marcadores epigenéticos, incluidos, entre otros, los perfiles de metilación. En algunos casos, en los que se desea analizar la variación del número de copias, los datos de la secuencia pueden ser: 1) alineado con un genoma de referencia; 2) filtrado y mapeado; 3) dividido en ventanas obinsde una secuencia; 4) recuento de las lecturas de cobertura de cada ventana; 5) las lecturas de cobertura pueden normalizarse mediante un algoritmo de modelado estocástico o estadístico; y 6) puede generarse un archivo de salida que refleje los estados discretos del número de copias en varias posiciones del genoma. En otros casos, en los que se desea realizar un análisis de mutaciones, los datos de la secuencia pueden 1) alinearse con un genoma de referencia; 2) filtrarse y mapearse; 3) calcularse la frecuencia de bases variantes basándose en lecturas de cobertura para esa base específica; 4) normalizarse la frecuencia de bases variantes utilizando un algoritmo de modelado estocástico, estadístico o probabilístico; y 5) puede generarse un archivo de salida que refleje los estados de mutación en varias posiciones del genoma. La información temporal de los análisis actuales y anteriores del paciente o sujeto se utiliza para mejorar el análisis y la determinación.

[0119] Una variedad de diferentes reacciones y/operaciones pueden ocurrir dentro de los Sistemas y métodos aquí divulgados, incluyendo pero no limitado a: secuenciación de ácido nucleico, cuantificación de ácido nucleico, optimización de secuenciación, detección de expresión génica, cuantificación de expresión génica, perfil genómico, perfil de cáncer, o análisis de marcadores expresados. Además, los sistemas y métodos tienen numerosas aplicaciones médicas. Por ejemplo, puede utilizarse para la identificación, detección, diagnóstico, tratamiento, seguimiento, estadificación o predicción del riesgo de diversas enfermedades y trastornos genéticos y no genéticos, incluido el cáncer. Puede utilizarse para evaluar la respuesta del sujeto a diferentes tratamientos de las enfermedades genéticas y no genéticas, o proporcionar información relativa a la progresión y el pronóstico de la enfermedad.

Aislamiento y Extracción de Polinucleótidos

[0120] Los Sistemas y métodos de esta divulgación pueden tener una amplia variedad de usos en la manipulación, preparación, identificación y/o cuantificación de ácidos nucleicos incluyendo polinucleótidos libres de células. Los ejemplos de ácidos nucleicos o polinucleótidos incluyen, entre otros: ADN, ARN, amplicones, ADNc, dsADN, ssADN, A d N plasmídico, ADN cósmido, ADN de alto peso molecular (MW), ADN cromosómico, ADN genómico, ADN virai, ADN bacteriano, ADNmt (ADN mitocondrial), ARNm, ARNr, ARNt, ARNt, ARNn, ARNsi, ARNsn, snoARN, scaARN, microARN, dARNd, ribozima, riboswitch y ARN vírico (por ej.g., ARN retroviral).

[0121] Los polinucleótidos libres de células pueden derivarse de una variedad de fuentes, incluyendo fuentes humanas, mamíferos, mamíferos no humanos, simios, monos, chimpancés, reptiles, anfibios o aves. Además, las muestras pueden extraerse de diversos fluidos animales que contengan secuencias libres de células, incluidos, entre otros, sangre, suero, plasma, vítreo, esputo, orina, lágrimas, transpiración, saliva, semen, excreciones mucosas, moco, líquido cefalorraquídeo, líquido amniótico, líquido linfático y similares. Los polinucleótidos libres de células pueden ser de origen fetal (a través de fluido tomado de un sujeto embarazado), o pueden derivarse de tejido del propio sujeto.

[0122] El aislamiento y la extracción de polinucleótidos libres de células pueden realizarse mediante la recogida de fluidos corporales utilizando diversas técnicas. En algunos casos, la recogida puede comprender la aspiración de un fluido corporal de un sujeto utilizando una jeringa. En otros casos, la recogida puede realizarse mediante pipeteo o recogida directa del fluido en un recipiente colector.

[0123] Después de la recolección del fluido corporal, los polinucleótidos libres de células pueden aislarse y extraerse utilizando una variedad de técnicas utilizadas en el arte. En algunos casos, el ADN libre de células puede aislarse, extraerse y prepararse utilizando kits disponibles en el mercado, como el protocolo Qiamp® Circulating Nucleic Acid Kit de Qiagen. En otros ejemplos, puede utilizarse el protocolo del kit Qiagen Qubit™ dsDNA HS Assay, el kit Agilent™ DNA 1000 o el protocolo TruSeq™ Sequencing Library Preparation; Low- Throughput (LT).

[0124] Generalmente, los polinucleótidos libres de células se extraen y aíslan de fluidos corporales a través de una etapa de partición en el que el ADN libre de células, como se encuentra en solución, se separa de las células y otros componentes no solubles del fluido corporal. La separación puede incluir, entre otras, técnicas como la centrifugación o la filtración. En otros casos, las células no se separan primero del ADN libre de células, sino que se lisan. En este ejemplo, el ADN genómico de células intactas se particiona mediante precipitación selectiva. Los polinucleótidos libres de células, incluido el ADN, pueden permanecer solubles y separarse del ADN genómico insoluble y extraerse. Generalmente, tras la adición de tampones y otras etapas de lavado específicas de los distintos kits, el a Dn puede precipitarse mediante precipitación con isopropanol. Pueden utilizarse otras etapas de limpieza, como columnas de sílice para eliminar contaminantes o sales. Las etapas generales pueden optimizarse para aplicaciones específicas. Los polinucleótidos portadores a granel no específicos, por ejemplo, pueden añadirse a lo largo de la reacción para optimizar ciertos aspectos del procedimiento, como el rendimiento.

[0125] El aislamiento y purificación del ADN libre de células puede realizarse utilizando cualquier metodología, incluyendo, pero sin limitarse a, el uso de kits comerciales y protocolos proporcionados por empresas como Sigma Aldrich, Life Technologies, Promega, Affymetrix, IBI o similares. También puede haber kits y protocolos no comercializados.

[0126] Tras el aislamiento, en algunos casos, los polinucleótidos libres de células se premezclan con uno o más materiales adicionales, como uno o más reactivos (por ejemplo, ligasa, proteasa, polimerasa) antes de la secuenciación.

[0127] Un método para aumentar la eficiencia de conversión implica el uso de una ligasa diseñada para una reactividad óptima en ADN monocatenario, como un derivado de ThermoPhage ssDNA ligasa. Dichas ligasas evitan las etapas tradicionales en la preparación de bibliotecas de reparación de extremos y de cola A, que pueden tener eficiencias pobres y/o pérdidas acumuladas debido a las etapas intermedias de limpieza, y permiten el doble de probabilidad de que el polinucleótido de partida sentido o antissentido se convierta en un polinucleótido marcado adecuadamente. También convierte polinucleótidos de doble cadena que pueden poseer salientes que no pueden ser lo suficientemente despuntados por la reacción típica de reparación de extremos. Las condiciones de reacción óptimas para esta reacción ssADN son: 1 x tampón de reacción (50 mM MOPS (pH 7,5), 1 mM DTT, 5 mM MgC12, 10 mM Kc 1). Con 50 mM de ATP, 25 mg/ml de BSA, 2,5 mM de MnC12, 200 pmol de 85 nt de ssADN oligómero y 5 U de ssADN ligasa incubados a 65°C durante 1 hora. La amplificación posterior mediante PCR puede convertir aún más la biblioteca monocatenaria marcada en una biblioteca bicatenaria y obtener una eficiencia de conversión global muy superior al 20%. Otros métodos para aumentar la tasa de conversión, por ejemplo, por encima del 10%, incluyen, por ejemplo, cualquiera de los siguientes, solos o en combinación: Sondas de inversión molecular optimizadas para el recocido, ligación de extremo romo con una gama de tamaños de polinucleótidos bien controlada, ligación de extremo pegajoso o una etapa previa de amplificación múltiplex con o sin el uso de iniciadores de fusión.

Código de barras molecular de polinucleótidos libres de células

[0128] Los Sistemas y métodos de esta divulgación también pueden permitir que los polinucleótidos libres de células sean marcados o rastreados para permitir la posterior identificación y origen del polinucleótido en particular. Esta característica contrasta con otros métodos que utilizan reacciones combinadas o multiplex y que sólo proporcionan mediciones o análisis como promedio de varias muestras. Aquí, la asignación de un identificador a individuos o subgrupos de polinucleótidos puede permitir asignar una identidad única a secuencias individuales o fragmentos de secuencias. Esto puede permitir la adquisición de datos de muestras individuales y no se limita a promedios de muestras.

[0129] En algunos ejemplos, los ácidos nucleicos u otras moléculas derivadas de una sola hebra pueden compartir una marcación o identificador común y por lo tanto pueden ser identificados posteriormente como derivados de esa hebra. Del mismo modo, todos los fragmentos de una única cadena de ácido nucleico pueden marcarse con el mismo identificador o marcación, permitiendo así la identificación posterior de los fragmentos de la cadena original. En otros casos, los productos de expresión génica (por ejemplo, ARNm) pueden marcarse para cuantificar la expresión, por lo que el código de barras, o el código de barras en combinación con la secuencia a la que está unido puede contarse. En otros casos, los sistemas y métodos pueden utilizarse como control de amplificación de la PCR. En tales casos, múltiples productos de amplificación de una reacción PCR pueden ser marcados con la misma marcación o identificador. Si los productos se secuencian posteriormente y muestran diferencias de secuencia, las diferencias entre los productos con el mismo identificador pueden atribuirse a un error de PCR.

[0130] Además, las secuencias individuales pueden ser identificadas basándose en las características de los datos de secuencia de la propia lectura. Por ejemplo, la detección de datos de secuencia únicos en las porciones inicial (inicio) y final (parada) de las lecturas de secuenciación individuales puede utilizarse, sola o en combinación, con la longitud, o el número de pares de bases de cada lectura de secuencia única para asignar identidades únicas a moléculas individuales. Los fragmentos de una única cadena de ácido nucleico, a los que se ha asignado una identidad única, pueden permitir la posterior identificación de fragmentos de la cadena original. Esto puede utilizarse junto con el estrangulamiento del material genético inicial para limitar la diversidad.

[0131] Además, el uso de datos de secuencia únicos en las porciones inicial (inicio) y final (parada) de las lecturas de secuenciación individuales y la longitud de la lectura de secuenciación pueden utilizarse, solos o combinados, con el uso de códigos de barras. En algunos casos, los códigos de barras pueden ser únicos, tal como se describe en el presente documento. En otros casos, los propios códigos de barras pueden no ser únicos. En este caso, el uso de códigos de barras no únicos, en combinación con los datos de secuencia en las partes inicial (inicio) y final (parada) de las lecturas de secuenciación individuales y la longitud de la lectura de secuenciación puede permitir la asignación de una identidad única a secuencias individuales. Del mismo modo, los fragmentos de una única cadena de ácido nucleico a los que se ha asignado una identidad única pueden permitir la identificación posterior de fragmentos de la cadena original.

[0132] Generalmente, los métodos y Sistemas aquí proporcionados son útiles para la preparación de secuencias de polinucleótidos libres de células para una reacción de secuenciación de aplicacióndown-stream.Un método de secuenciación puede ser la clásica secuenciación Sanger. Los métodos de secuenciación pueden incluir, entre otros: secuenciación de alto rendimiento, pirosecuenciación, secuenciación por síntesis, secuenciación de molécula única, secuenciación por nanoporos, secuenciación por semiconductores, secuenciación por ligación, secuenciación por hibridación, RNA-Seq (Illumina),Digital Gene Expression(Helicos), secuenciación de próxima generación, secuenciación de molécula única por síntesis (SMSS) (Helicos), secuenciación masiva paralela, matriz clonal de molécula única (Solexa), secuenciación shotgun, secuenciación Maxim-Gilbert,primer walkingy cualquier otro método de secuenciación reconocido en la técnica.

Asignación de códigos de barras a secuencias de polinucleótidos libres de células

[0133] Los Sistemas y métodos aquí divulgados pueden usarse en aplicaciones que implican la asignación de identificadores únicos o no únicos, o códigos de barras moleculares, a polinucleótidos libres de células. El identificador puede ser un oligonucleótido de código de barras que se utiliza para marcar el polinucleótido; pero, en algunos casos, se utilizan diferentes identificadores únicos. Por ejemplo, en algunos casos, el identificador único es una sonda de hibridación. En otros casos, el identificador único es un colorante, en cuyo caso la unión puede comprender la intercalación del colorante en la molécula de analito (como la intercalación en ADN o ARN) o la unión a una sonda marcada con el colorante. En otros casos, el identificador único puede ser un oligonucleótido de ácido nucleico, en cuyo caso la unión a las secuencias polinucleotídicas puede comprender una reacción de ligación entre el oligonucleótido y las secuencias o la incorporación mediante PCR. En otros casos, la reacción puede comprender la adición de un isótopo metálico, ya sea directamente al analito o mediante una sonda marcada con el isótopo. Generalmente, la asignación de identificadores únicos o no únicos, o códigos de barras moleculares en reacciones de esta divulgación puede seguir métodos y Sistemas descritos por, por ejemplo, la Publicación de Patente de EE. UU. N°. 2001/0053519, 2003/0152490, 2011/Ol60078; y Patente de EEUU N.° 6.582.908.

[0134] El método puede comprender la unión de códigos de barras de oligonucleótidos a analitos de ácido nucleico a través de una reacción enzimática que incluye, pero no se limita a una reacción de ligación. Por ejemplo, la enzima ligasa puede unir covalentemente un código de barras de ADN a ADN fragmentado (por ejemplo, ADN de alto peso molecular). Tras la fijación de los códigos de barras, las moléculas pueden someterse a una reacción de secuenciación.

[0135] Sin embargo, también pueden utilizarse otras reacciones. Por ejemplo, los iniciadores oligonucleotídicos que contienen secuencias de código de barras pueden utilizarse en reacciones de amplificación (por ejemplo, PCR, qPCR, PCR de transcriptasa inversa, PCR digital, etc.) de los analitos molde de ADN, produciendo así analitos marcados. Una vez asignados los códigos de barras a las secuencias individuales de polinucleótidos libres de células, se puede secuenciar el conjunto de moléculas.

[0136] En algunos casos, la PCR puede utilizarse para la amplificación global de secuencias polinucleotídicas libres de células. Esto puede incluir el uso de secuencias adaptadoras que pueden ligarse primero a diferentes moléculas seguidas de amplificación por PCR utilizando iniciadores universales. La PCR para secuenciación puede realizarse utilizando cualquier metodología, incluyendo, pero no limitándose al uso de kits comerciales proporcionados por Nugen (kit WGA), Fife Technologies, Affymetrix, Promega, Qiagen y similares. En otros casos, sólo pueden amplificarse determinadas moléculas diana dentro de una población de moléculas polinucleotídicas libres de células. Pueden utilizarse iniciadores específicos, junto con la ligación de adaptadores, para amplificar selectivamente determinadas dianas para la secuenciación posterior.

[0137] Los identificadores únicos (por ejemplo, códigos de barras de oligonucleótidos, anticuerpos, sondas, etc.) pueden introducirse en las secuencias de polinucleótidos libres de células de forma aleatoria o no aleatoria. En algunos casos, se introducen en una proporción esperada de identificadores únicos por microcélula. Por ejemplo, los identificadores únicos pueden cargarse de forma que se carguen más de aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50.000, 100.000, 500.000, 1.000.000, 10.000.000, 50.000.000 o 1.000.000.000 de identificadores únicos por muestra de genoma. En algunos casos, los identificadores únicos pueden cargarse de forma que se carguen menos de aproximadamente 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50.000, 100.000, 500.000, 1.000.000, 10.000. 000, 50.000.000 o 1.000.000.000 de identificadores únicos por muestra de genoma. En algunos casos, el número medio de identificadores únicos cargados por muestra genómica es inferior o superior a aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50.000, 100.000, 500.000, 1.000.000, 10.000.000, 50.000.000 o 1.000. 000.000 de identificadores únicos por muestra genómica.

[0138] En algunos casos, los identificadores únicos pueden tener una variedad de longitudes tales que cada código de barras tiene al menos aproximadamente 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000 pares de bases. En otros casos, los códigos de barras pueden comprender menos de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000 pares de bases.

[0139] En algunos casos, los identificadores únicos pueden ser oligonucleótidos de secuencia predeterminada o aleatoria o semialeatoria. En otros casos, se puede utilizar una pluralidad de códigos de barras de tal forma que los códigos de barras no sean necesariamente únicos entre sí en la pluralidad. En este ejemplo, los códigos de barras pueden ligarse a moléculas individuales de forma que la combinación del código de barras y la secuencia a la que puede ligarse crea una secuencia única que puede rastrearse individualmente. Como se describe en el presente documento, la detección de códigos de barras no únicos en combinación con los datos de secuencia de las partes inicial (inicio) y final (parada) de las lecturas de secuencia puede permitir la asignación de una identidad única a una molécula concreta. La longitud, o número de pares de bases, de una lectura de secuencia individual también puede utilizarse para asignar una identidad única a dicha molécula. Como se describe en el presente documento, los fragmentos de una única cadena de ácido nucleico a los que se ha asignado una identidad única pueden permitir la identificación posterior de fragmentos de la cadena original. De este modo, los polinucleótidos de la muestra pueden marcarse de forma única o sustancialmente única.

[0140] Los identificadores únicos pueden ser utilizados para marcar una amplia gama de analitos, incluyendo, pero no limitado a moléculas de ARN o ADN. Por ejemplo, se pueden unir identificadores únicos (por ejemplo, oligonucleótidos de código de barras) a cadenas enteras de ácidos nucleicos o a fragmentos de ácidos nucleicos (por ejemplo, ADN genómico fragmentado, ARN fragmentado). Los identificadores únicos (por ejemplo, oligonucleótidos) también pueden unirse a productos de expresión génica, ADN genómico, ADN mitocondrial, ARN, ARNm y similares.

[0141] En muchas aplicaciones, puede ser importante determinar si las secuencias individuales de polinucleótidos libres de células reciben cada una un identificador único diferente (por ejemplo, código de barras de oligonucleótidos). Si la población de identificadores únicos introducida en los sistemas y métodos no es significativamente diversa, es posible que diferentes analitos se marquen con identificadores idénticos. Los Sistemas y métodos aquí divulgados pueden permitir la detección de secuencias polinucleotídicas libres de células marcadas con el mismo identificador. En algunos casos, puede incluirse una secuencia de referencia con la población de secuencias polinucleotídicas libres de células que se van a analizar. La secuencia de referencia puede ser, por ejemplo, un ácido nucleico con una secuencia conocida y una cantidad conocida. Si los identificadores únicos son códigos de barras de oligonucleótidos y los analitos son ácidos nucleicos, los analitos marcados pueden secuenciarse y cuantificarse posteriormente. Estos métodos pueden indicar si a uno o más fragmentos y/o analitos se les puede haber asignado un código de barras idéntico.

[0142] Un método divulgado en el presente documento puede comprender la utilización de reactivos necesarios para la asignación de códigos de barras a los analitos. En el caso de las reacciones de ligación, pueden cargarse en los Sistemas y métodos reactivos que incluyan, entre otros, enzima ligasa, tampón, oligonucleótidos adaptadores, una pluralidad de códigos de barras de ADN identificadores únicos y similares. En el caso del enriquecimiento, pueden utilizarse reactivos que incluyan, entre otros, una pluralidad de iniciadores de PCR, oligonucleótidos que contengan una secuencia de identificación única, o una secuencia de código de barras, ADN polimerasa, DNTP, y tampón y similares para preparar la secuenciación.

[0143] Generalmente, el método y el sistema de esta divulgación pueden utilizar los métodos de la patente de EE.UU. US 7,537,897 en el uso de códigos de barras moleculares para contar moléculas o analitos.

[0144] En una muestra que comprende ADN genómico fragmentado, por ejemplo, ADN libre de células (cfADN), de una pluralidad de genomas, existe cierta probabilidad de que más de un polinucleótido de diferentes genomas tenga las mismas posiciones de inicio y parada ("duplicados" o "cognados"). El número probable de duplicados que comienzan en cualquier posición es una función del número de equivalentes del genoma haploide en una muestra y de la distribución de los tamaños de los fragmentos. Por ejemplo, el cfADN tiene un pico de fragmentos a unos 160 nucleótidos, y la mayoría de los fragmentos de este pico oscilan entre unos 140 nucleótidos y 180 nucleótidos. En consecuencia, el cfADN de un genoma de unos 3.000 millones de bases (por ejemplo, el genoma humano) puede estar compuesto por casi 20 millones (2xio7) de fragmentos polinucleotídicos. Una muestra de unos 30 ng de ADN puede contener unos 10.000 equivalentes haploides de genoma humano. (Del mismo modo, una muestra de unos 100 ng de ADN puede contener unos 30.000 equivalentes haploides de genoma humano). Una muestra que contenga unos 10.000 (104) equivalentes genómicos haploides de dicho ADN puede tener unos 200.000 millones (2x1011) de moléculas polinucleotídicas individuales. Se ha determinado empíricamente que, en una muestra de unos 10.000 equivalentes genómicos haploides de ADN humano, hay unos 3 polinucleótidos duplicados que comienzan en cualquier posición dada. Así, una colección de este tipo puede contener una diversidad de aproximadamente 6x1010-8x1010 (aproximadamente 60.000- 80.000 millones, por ejemplo, aproximadamente 70.000 millones (7x1010)) moléculas de polinucleótidos secuenciadas de forma diferente.

[0145] La probabilidad de identificar correctamente las moléculas depende del número inicial de equivalentes genómicos, de la distribución de longitudes de las moléculas secuenciadas, de la uniformidad de la secuencia y del número de marcaciones. Cuando el recuento de marcaciones es igual a uno, es decir, equivale a no tener marcaciones únicas o no marcar. En la tabla siguiente se indica la probabilidad de identificar correctamente una molécula como única, suponiendo una distribución de tamaños sin células típica como la anterior.

[0146] En este caso, al secuenciar el ADN genómico, puede que no sea posible determinar qué lecturas de secuencia se derivan de qué moléculas parentales. Este problema puede reducirse marcando las moléculas parentales con un número suficiente de identificadores únicos (por ejemplo, el recuento de marcaciones), de modo que exista la probabilidad de que dos moléculas duplicadas, es decir, moléculas con las mismas posiciones de inicio y parada, lleven identificadores únicos diferentes, de modo que las lecturas de secuencias puedan rastrearse hasta moléculas parentales concretas. Una forma de resolver este problema es marcar de forma única cada molécula parental de la muestra, o casi todas. Sin embargo, dependiendo del número de equivalentes génicos haploides y de la distribución de tamaños de fragmentos en la muestra, esto puede requerir miles de millones de identificadores únicos diferentes.

[0147] El método anterior puede ser engorroso y caro. Los fragmentos polinucleotídicos individuales de una muestra de ácido nucleico genómico (por ejemplo, una muestra de ADN genómico) pueden identificarse de forma única marcándolos con identificadores no únicos, por ejemplo, marcando de forma no única los fragmentos polinucleotídicos individuales. Tal y como se utiliza en el presente documento, se puede considerar que una colección de moléculas está "marcada de forma única" si cada una de al menos el 95% de las moléculas de la colección lleva una marcación identificativa ("identificador") que no comparte ninguna otra molécula de la colección ("marcación única" o "identificador único"). En el caso de las marcaciones únicas, el número de marcaciones puede ser inferior al número de moléculas únicas de la muestra. En el caso de las marcaciones únicas, el número de marcaciones puede ser inferior al 10% del número de moléculas de la muestra. En el caso de las marcaciones únicas, el número de marcaciones puede ser inferior al 1% del número de moléculas de la muestra. Se puede considerar que una colección de moléculas está "no marcada de forma única" si cada una de al menos el 1%, al menos el 5%, al menos el 10%, al menos el 15%, al menos el 20%, al menos el 25%, al menos el 30%, al menos el 35%, al menos el 40%, al menos el 45%, o al menos o aproximadamente el 50% de las moléculas de la colección lleva una marcación de identificación que es compartida por al menos otra molécula de la colección ("marcación no única" o "identificador no único"). En algunas realizaciones, para una población no marcada de forma única, no más del 1%, 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45% o 50% de las moléculas están marcadas de forma única. En algunas realizaciones, para la marcación único se utilizan al menos dos veces más marcaciones diferentes que el número estimado de moléculas en la muestra. El número de marcaciones de identificación diferentes utilizadas para marcar moléculas en una colección puede oscilar, por ejemplo, entre 2, 4, 8, 16 o 32 en el extremo inferior del intervalo, y entre 50, 100, 500, 1000, 5000 y 10.000 en el extremo superior del intervalo. Así, por ejemplo, una colección de entre 100.000 y 1 billón de moléculas puede marcarse con entre 4 y 100 marcaciones de identificación diferentes.

[0148] La presente divulgación proporciona métodos y composiciones en los que una población de polinucleótidos en una muestra de ADN genómico fragmentado se marca con n identificador único diferente. En algunas realizaciones, n es al menos 2 y no más de 100.000*z, donde z es una medida de tendencia central (por ejemplo, media, mediana, moda) de un número esperado de moléculas duplicadas que tienen las mismas posiciones de inicio y parada. En algunas realizaciones, z es 1,2, 3, 4, 5, 6, 7, 8, 9, 10, o más de 10. En algunas realizaciones, z es menor que 10, menor que 9, menor que 8, menor que 7, menor que 6, menor que 5, menor que 4, menor que 3. En ciertas realizaciones, n es al menos cualquiera de 2*z, 3*z, 4*z, 5*z, 6*z, 7*z, 8*z, 9*z, 10*z, ll*z, 12*z, 13*z, 14*z, 15*z, 16*z, 17*z, 18*z, 19*z, o 20*z (por ejemplo, límite inferior). En otras realizaciones, n no es superior a 100.000*z, 10.000*z, 1.000*z o 100*z (por ejemplo, límite superior). Así, n puede oscilar entre cualquier combinación de estos límites inferior y superior. En ciertas realizaciones, n está entre 5*z y 15*z, entre 8*z y 12*z, o alrededor de 10*z. Por ejemplo, un equivalente haploide del genoma humano tiene unos 3 picogramos de ADN. Una muestra de aproximadamente 1 microgramo de ADN contiene unos 300.000 equivalentes haploides de genoma humano. En algunas realizaciones, el número n puede estar comprendido entre 5 y 95, 6 y 80, 8 y 75, 10 y 70, 15 y 45, entre 24 y 36 o alrededor de 30. En algunas realizaciones, el número n es inferior a 96. Por ejemplo, el número n puede ser mayor o igual a 2, 3 ,4, 5, 6, 7, 8, 9, 10, 11, 12 ,13, 14 ,15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 3435, 36, 37, 38, 39, 40, 41,42, 43, 44, 45, 46, 47, 48 ,49, 50, 51, 52, 53, 54, 55 ,56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, o 95. En algunas situaciones, el número n puede ser mayor que cero pero menor que 100, 99, 98, 97, 96, 95, 94, 93, 92, 91 o 90. En algunos ejemplos, el número n es 64. El número n puede ser inferior a 75, inferior a 50, inferior a 40, inferior a 30, inferior a 20, inferior a 10 o inferior a 5. Se pueden conseguir mejoras en la secuenciación siempre que al menos algunos de los polinucleótidos duplicados o afines lleven identificadores únicos, es decir, lleven marcaciones diferentes.

Sin embargo, en ciertas realizaciones, el número de marcaciones utilizadas se selecciona de modo que haya al menos un 95% de posibilidades de que todas las moléculas duplicadas que comprenden las mismas secuencias inicial y final lleven identificadores únicos.

[0149] Algunas realizaciones proporcionan métodos para llevar a cabo una reacción de ligación en la que los polinucleótidos parentales de una muestra se mezclan con una mezcla de reacción que comprende y oligonucleótidos de código de barras diferentes, donde y = una raíz cuadrada de n. La ligación puede dar lugar a la unión aleatoria de oligonucleótidos de código de barras a polinucleótidos parentales de la muestra. A continuación, la mezcla de reacción puede incubarse en condiciones de ligación suficientes para efectuar la ligación de los oligonucleótidos del código de barras a los polinucleótidos parentales de la muestra. En algunas realizaciones, los códigos de barras aleatorios seleccionados entre los y oligonucleótidos de código de barras diferentes se ligan a ambos extremos de los polinucleótidos parentales. La ligación aleatoria de los códigos de barras y a uno o ambos extremos de los polinucleótidos parentales puede dar lugar a la producción de identificadores únicos y2. Por ejemplo, una muestra que comprenda unos 10.000 equivalentes de genoma humano haploide de cfADN puede marcarse con unos 36 identificadores únicos. Los identificadores únicos pueden comprender seis códigos de barras de ADN únicos. La ligación de 6 códigos de barras únicos a ambos extremos de un polinucleótido puede dar lugar a que se produzcan 36 posibles identificadores únicos.

[0150] En algunas realizaciones, una muestra que comprende aproximadamente 10.000 equivalentes de genoma humano haploide de ADN se marca con 64 identificadores únicos, en los que los 64 identificadores únicos se producen por ligación de 8 códigos de barras únicos a ambos extremos de polinucleótidos parentales. La eficacia de ligación de la reacción puede ser superior al 10%, superior al 20%, superior al 30%, superior al 40%, superior al 50%, superior al 60%, superior al 70%, superior al 80% o superior al 90%. Las condiciones de ligación pueden incluir el uso de adaptadores bidireccionales que puedan unirse a cualquiera de los extremos del fragmento y seguir siendo amplificables. Las condiciones de ligación pueden incluir ligación de extremo romo, en contraposición a la ligación de cola con adaptadores en horquilla. Las condiciones de ligación pueden comprender la titulación cuidadosa de una cantidad de oligonucleótidos adaptadores y/o de código de barras. Las condiciones de ligación pueden comprender el uso de un exceso molar de más de 2<x>, más de 5X, más de 10X, más de 20X, más de 40X, más de 60X, más de 80X, (por ejemplo, -100X) de oligonucleótidos adaptadores y/o de código de barras en comparación con una cantidad de fragmentos de polinucleótidos parentales en la mezcla de reacción. Las condiciones de ligación pueden comprender el uso de una ADN ligasa T4 (por ejemplo, NEBNExt Ultra Ligation Module). En un ejemplo, se utilizan 18 microlitros de mezcla maestra de ligasa con 90 microlitros de ligación (18 parte de los 90) y potenciador de ligación. En consecuencia, la marcación de polinucleótidos parentales con n identificadores únicos puede comprender el uso de un número y de códigos de barras diferentes, donde y= una raíz cuadrada de n. Las muestras marcadas de esta forma pueden ser aquellas con un intervalo de aproximadamente 10 ng a cualquiera de aproximadamente 100 ng, aproximadamente 1 pg, aproximadamente 10 pg de polinucleótidos fragmentados, por ejemplo, ADN genómico, por ejemplo cfADN. El número y de códigos de barras utilizados para identificar polinucleótidos parentales en una muestra puede depender de la cantidad de ácido nucleico en la muestra.

[0151] La presente divulgación también proporciona composiciones de polinucleótidos marcados. Los polinucleótidos pueden comprender ADN fragmentado, por ejemplo, cfADN. Un conjunto de polinucleótidos en la composición que mapean a una posición de base mapeable en un genoma puede ser marcado de forma no única, es decir, el número de identificadores diferentes puede ser al menos 2 y menor que el número de polinucleótidos que mapean a la posición de base mapeable. Una composición de entre aproximadamente 10 ng a aproximadamente 10 pg (por ejemplo, cualquiera de entre aproximadamente 10 ng-1 pg, aproximadamente 10 ng-100 ng, aproximadamente 100 ng-10 pg, aproximadamente 100 ng-1 pg, aproximadamente 1 pg-10 pg) puede llevar entre 2, 5, 10, 50 o 100 a cualquiera de 100, 1000, 10.000 o 100.000 identificadores diferentes. Por ejemplo, pueden utilizarse entre 5 y 100 identificadores diferentes para marcar los polinucleótidos de dicha composición.

[0152] La FIG.2 muestra un proceso ejemplar para analizar polinucleótidos en una muestra de material genético inicial. En primer lugar, se proporciona una muestra que contenga material genético inicial y se puede extraer ADN libre de células (50). La muestra puede incluir ácido nucleico diana en baja abundancia. Por ejemplo, el ácido nucleico de un genoma normal o de tipo salvaje (por ejemplo, un genoma de la línea germinal) puede predominar en una muestra que también incluya no más del 20%, no más del 10%, no más del 5%, no más del 1%, no más del 0,5% o no más del 0,1% de ácido nucleico de al menos otro genoma que contenga variación genética, por ejemplo, un genoma del cáncer o un genoma fetal, o un genoma de otro individuo o especie. La muestra puede incluir, por ejemplo, ácido nucleico libre de células o células que comprenden ácido nucleico con un sobremuestreo adecuado de los polinucleótidos originales por el proceso de secuenciación o análisis genético.

[0153] A continuación, el material genético inicial se convierte en un conjunto de polinucleótidos parentales marcados y secuenciados para producir lecturas de secuencia (52). Esta etapa genera una pluralidad de lecturas de secuencias de fragmentos genómicos. En algunos casos, estas secuencias leídas pueden contener información sobre códigos de barras. En otros ejemplos, no se utilizan códigos de barras. La marcación puede incluir la fijación de marcaciones secuenciadas a moléculas del material genético inicial. Las marcaciones secuenciadas pueden seleccionarse de forma que todos los polinucleótidos únicos que se correspondan con la misma secuencia de referencia tengan una marcación de identificación única. La conversión puede realizarse con un alto rendimiento, por ejemplo, al menos el 50%. El conjunto de polinucleótidos parentales marcados puede amplificarse para producir un conjunto de polinucleótidos progenie amplificados. La amplificación puede ser, por ejemplo, de 1.000 veces. El conjunto de polinucleótidos parentales amplificados se muestrea para la secuenciación a una velocidad de muestreo tal que las lecturas de secuencia producidas 1) cubran un número objetivo de moléculas únicas en el conjunto de polinucleótidos parentales marcados y 2) cubran moléculas únicas en el conjunto de polinucleótidos parentales marcados en un pliegue de cobertura objetivo (por ejemplo, de 5 a 10 veces la cobertura de los polinucleótidos parentales). El conjunto de lecturas de secuencias se colapsa para producir un conjunto de secuencias consenso correspondientes a polinucleótidos parentales marcados únicos. Las lecturas de secuencias pueden calificarse para su inclusión en el análisis. Por ejemplo, las lecturas de secuencias que no cumplan una puntuación de control de calidad pueden eliminarse del conjunto. Las lecturas de secuencias pueden clasificarse en familias que representan lecturas de moléculas parentales derivadas de una molécula parental única concreta. Por ejemplo, una familia de polinucleótidos progenie amplificados puede constituir aquellas moléculas amplificadas derivadas de un único polinucleótido parental. Comparando secuencias de progenie en una familia, puede deducirse una secuencia consenso del polinucleótido parental original. Esto produce un conjunto de secuencias consenso que representan polinucleótidos parentales únicos en el conjunto marcado.

[0154] A continuación, el proceso asigna una puntuación de confianza para la secuencia (54). Tras la secuenciación, a las lecturas se les asigna una puntuación de calidad. Una puntuación de calidad puede ser una representación de lecturas que indica si esas lecturas pueden ser útiles en análisis posteriores basados en un umbral. En algunos casos, algunas lecturas no son de suficiente calidad o longitud para realizar la etapa de mapeo posterior. Las lecturas de secuenciación con una puntuación de calidad predeterminada (superior al 90%, por ejemplo) pueden filtrarse de los datos. Las lecturas de fragmentos genómicos que alcanzan un determinado umbral de calidad se asignan a un genoma de referencia o a una secuencia plantilla que se sabe que no contiene variaciones en el número de copias. Tras la alineación, se asigna una puntuación a las lecturas de la secuencia. Una puntuación de mapeo puede ser una representación o lecturas mapeadas de vuelta a la secuencia de referencia indicando si cada posición es o no mapeable de forma única. En algunos casos, las lecturas pueden ser secuencias no relacionadas con el análisis de la variación del número de copias. Por ejemplo, algunas lecturas de secuencias pueden proceder de polinucleótidos contaminantes. Las lecturas de secuenciación con una puntuación de mapeo de al menos el 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden filtrarse del conjunto de datos. En otros casos, las lecturas de secuenciación a las que se asigna una puntuación de mapeo inferior a un porcentaje predeterminado pueden filtrarse del conjunto de datos.

[0155] Las lecturas de fragmentos genómicos que cumplen con un umbral de puntuación de calidad especificado se mapean a un genoma de referencia, o a una secuencia plantilla que se sabe que no contiene variaciones en el número de copias.

Tras la alineación, se asigna una puntuación a las lecturas de la secuencia. En algunos casos, las lecturas pueden ser secuencias no relacionadas con el análisis de la variación del número de copias. Tras el filtrado y el mapeo de los datos, la pluralidad de lecturas de secuencias genera una región cromosómica de cobertura. Estas regiones cromosómicas pueden dividirse en ventanas obinsde longitud variable. Una ventana obinpuede ser de al menos 5 kb, 10, kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb, o 1000 kb. Una ventana obintambién puede tener bases de hasta 5 kb, 10, kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb, o 1000 kb. Una ventana obintambién puede ser de aproximadamente 5 kb, 10, kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb, o 1000 kb.

[0156] Para la normalización de la cobertura, cada ventana obinse selecciona para contener aproximadamente el mismo número de bases mapeables. En algunos casos, cada ventana obinde una región cromosómica puede contener el número exacto de bases mapeables. En otros casos, cada ventana o bandeja puede contener un número diferente de bases asignables. Además, cada ventana o contenedor puede no solaparse con una ventana o contenedor adyacente. En otros casos, una ventana o bandeja puede solaparse con otra ventana o bandeja adyacente. En algunos casos, una ventana obinpuede solaparse al menos 1 pb, 2 pb, 3 pb, 4 pb, 5, pb, 10 pb, 20 pb, 25 pb, 50 pb, 100 pb, 200 pb, 250 pb, 500 pb o 1000 pb.

[0157] En algunos casos, cada una de las regiones ventana puede ser dimensionada para que contengan aproximadamente el mismo número de bases mapeables de forma única. La mapeabilidad de cada base que comprende una región de ventana se determina y se utiliza para generar un archivo de mapeabilidad que contiene una representación de las lecturas de las referencias que se mapean de nuevo a la referencia para cada archivo. El archivo de asignabilidad contiene una fila por cada posición, indicando si cada posición es o no asignable de forma única.

[0158] Además, las Ventanas predefinidas, conocidas en todo el genoma por ser difíciles de secuenciar, o por contener un sesgo de GC sustancialmente alto, pueden ser filtradas del conjunto de datos. Por ejemplo, se sabe que las regiones que se encuentran cerca del centrómero de los cromosomas (es decir, el ADN centromérico) contienen secuencias altamente repetitivas que pueden producir resultados falsos positivos. Estas regiones pueden filtrarse. Otras regiones del genoma, como las que contienen una concentración inusualmente alta de otras secuencias altamente repetitivas, como el ADN microsatélite, pueden filtrarse del conjunto de datos.

[0159] El número de ventanas analizadas también puede variar. En algunos casos, se analizan al menos 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, 5.000, 10.000, 20.000, 50.000 o 100.000 ventanas. En otros casos, el número de viudas analizadas es de hasta 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, se analizan 5.000, 10.000, 20.000, 50.000 o 100.000 ventanas.

[0160] Para un genoma ejemplar derivado de secuencias de polinucleótidos libres de células, la siguiente etapa comprende determinar la cobertura de lectura para cada región de ventana. Esto puede realizarse utilizando lecturas con códigos de barras o sin códigos de barras. En los casos sin códigos de barras, las etapas de mapeo anteriores proporcionarán cobertura de diferentes posiciones de base. Se pueden contar las lecturas de secuencias que tengan suficientes puntuaciones de mapeo y calidad y que se encuentren dentro de ventanas cromosómicas que no estén filtradas. Al número de lecturas de cobertura se le puede asignar una puntuación por cada posición asignable. En el caso de los códigos de barras, todas las secuencias con el mismo código de barras, las mismas propiedades físicas o una combinación de ambos pueden agruparse en una sola lectura, ya que todas proceden de la molécula parental de la muestra. Esta etapa reduce los sesgos que puedan haberse introducido durante cualquiera de las etapas precedentes, como las etapas que implican amplificación. Por ejemplo, si una molécula se amplifica 10 veces pero otra se amplifica 1000 veces, cada molécula sólo se representa una vez tras el colapso, anulando así el efecto de la amplificación desigual. Sólo las lecturas con códigos de barras únicos pueden contarse para cada posición asignable e influir en la puntuación asignada. Por esta razón, es importante que la etapa de ligación del código de barras se realice de una manera optimizada para producir la menor cantidad de sesgo. La secuencia de cada base se alinea como la lectura del nucleótido más dominante para esa ubicación específica. Además, se puede contar el número de moléculas únicas en cada posición para obtener una cuantificación simultánea en cada posición. Esta etapa reduce los sesgos que puedan haberse introducido durante cualquiera de las etapas precedentes, como las etapas que implican amplificación.

[0161] Los Estados discretos de número de copias de cada región ventana pueden utilizarse para identificar la variación de número de copias en las regiones cromosómicas. En algunos casos, todas las regiones ventana adyacentes con el mismo número de copia pueden fusionarse en un segmento para informar de la presencia o ausencia de variación del número de copia Estado. En algunos casos, se pueden filtrar varias ventanas antes de fusionarlas con otros segmentos.

[0162] Al determinar la cobertura de lectura de ácido nucleico para cada ventana, la cobertura de cada ventana puede normalizarse por la cobertura media de esa muestra. Con este enfoque, puede ser conveniente secuenciar tanto al sujeto de la prueba como al control en condiciones similares. La cobertura de lectura para cada ventana puede entonces expresarse como un ratio a través de Ventanas similares.

[0163] Las proporciones de cobertura de lectura de ácido nucleico para cada ventana del sujeto de prueba pueden determinarse dividiendo la cobertura de lectura de cada región de ventana de la muestra de prueba con la cobertura de lectura de una región de ventana correspondiente de la muestra de control.

[0164] A continuación, el proceso busca puntuaciones de confianza previas para cada familia de lectura del paciente (58). Esta información se almacena en una base de datos. El análisis previo del resultado de la prueba del paciente puede utilizarse para refinar la puntuación de confianza, como se detalla en la FIG. 2. La información se utiliza para inferir la frecuencia de cada lectura de secuencia en un locus en el conjunto de polinucleótidos parentales marcados basándose en puntuaciones de confianza entre familias de lecturas de secuencia (60). A continuación, la base de datos histórica se actualiza con la puntuación de confianza actual para su uso futuro (62). De este modo, se pueden generar secuencias consenso a partir de familias de lecturas de secuencias para mejorar la eliminación del ruido.

[0165] Volviendo ahora a la FIG. 3, el proceso recibe materiales genéticos de muestras de sangre u otras muestras corporales (102). El proceso convierte los polinucleótidos del material genético en nucleótidos parentales marcados (104). Los nucleótidos parentales marcados se amplifican para producir polinucleótidos progenie amplificados (106). Un subconjunto de los polinucleótidos amplificados se secuencia para producir lecturas de secuencia (108), que se agrupan en familias, cada una generada a partir de un único nucleótido padre marcado (110). En un locus seleccionado, el proceso asigna a cada familia una puntuación de confianza para cada familia (112). A continuación, se determina un consenso utilizando lecturas anteriores. Para ello, se revisa la puntuación de confianza anterior de cada familia y, si existen puntuaciones de confianza anteriores coherentes, se aumenta la puntuación de confianza actual (114). Si hay puntuaciones de confianza previas, pero son inconsistentes, la puntuación de confianza actual no se modifica en una realización (116). En otras realizaciones, la puntuación de confianza se ajusta de una manera predeterminada para puntuaciones de confianza previas inconsistentes. Si es la primera vez que se detecta la familia, la puntuación de confianza actual puede reducirse, ya que puede tratarse de una lectura falsa (118). El proceso puede inferir la frecuencia de la familia en el locus en el conjunto de polinucleótidos parentales marcados basándose en la puntuación de confianza (120).

[0166] Mientras que la información temporal ha sido utilizada en las FIGs. 1-2 para mejorar la información para la detección de mutaciones o variaciones en el número de copias, se pueden aplicar otros métodos de consenso. En otras realizaciones, la comparación histórica se puede utilizar junto con otras secuencias consenso que correspondan a una secuencia de referencia concreta para detectar casos de variación genética. Las secuencias de consenso que corresponden a determinadas secuencias de referencia pueden medirse y normalizarse con respecto a las muestras de control. Las medidas del mapeo de moléculas con secuencias de referencia pueden compararse a lo largo de un genoma para identificar las zonas del genoma en las que varía el número de copias o se pierde heterocigosidad. Los métodos de consenso incluyen, por ejemplo, métodos lineales o no lineales de construcción de secuencias de consenso (como la votación, el promedio, la detección estadística, máxima a posteriori o máxima verosimilitud, la programación dinámica, los métodos bayesianos, de Markov oculto o de máquina de vectores de soporte, etc.) derivados de la teoría de la comunicación digital, la teoría de la información o la bioinformática. Una vez determinada la cobertura de lectura de secuencia, se aplica un algoritmo de modelado estocástico para convertir la cobertura de lectura de secuencia de ácido nucleico normalizada para cada región de ventana en los Estados discretos de número de copias. En algunos casos, este algoritmo puede comprender uno o más de los siguientes elementos: Modelo de Markov oculto, programación dinámica, máquina de vectores soporte, red bayesiana, decodificación trellis, decodificación Viterbi, maximización de expectativas, metodologías de filtrado Kalman y redes neuronales.

[0167] Después de esto, se puede generar un informe. Por ejemplo, la variación del número de copias puede presentarse en forma de gráfico, indicando varias posiciones en el genoma y un correspondiente aumento o disminución o mantenimiento de la variación del número de copias en cada posición respectiva. Además, la variación del número de copias puede utilizarse para informar de una puntuación porcentual que indique cuánto material patológico (o ácidos nucleicos con una variación del número de copias) existe en la muestra de polinucleótidos libre de células.

[0168] En una realización, el informe incluye anotaciones para ayudar a los médicos. La anotación puede incluir la anotación de un informe para una afección de las Guías de Práctica Clínica en Oncología™ de la NCCN o de las guías de práctica clínica de la Sociedad Americana de Oncología Clínica (ASCO). La anotación puede incluir la inclusión en el informe de uno o más fármacos aprobados por la FDA para uso en una indicación no autorizada, uno o más fármacos incluidos en un compendio de tratamientos contra el cáncer de los Centros de Medicare y Servicios Médicos (CMS), y/o uno o más fármacos experimentales encontrados en la literatura científica. La anotación puede incluir la conexión de una opción de tratamiento farmacológico de la lista con una referencia que contenga información científica relativa a la opción de tratamiento farmacológico. La información científica puede proceder de un artículo revisado por pares de una revista médica. La anotación puede incluir el uso de información proporcionada por Ingenuity® Systems. La anotación puede incluir el suministro de un enlace a información sobre un ensayo clínicoi para una opción de tratamiento farmacológico en el informe. La anotación puede incluir la presentación de información en un cuadro emergente o volante cerca de las opciones de tratamiento farmacológico proporcionadas en un informe electrónico. La anotación puede incluir la adición de información a un informe seleccionado del grupo que consiste en una o más opciones de tratamiento farmacológico, información científica relativa a una o más opciones de tratamiento farmacológico, uno o más enlaces a información científica relativa a una o más opciones de tratamiento farmacológico, uno o más enlaces a citas de información científica relativa a una o más opciones de tratamiento farmacológico, e información de ensayos clínicos relativa a una o más opciones de tratamiento farmacológico.

[0169] Como se muestra en la FIG. 4, la comparación de la cobertura de la secuencia con una muestra de control o secuencia de referencia puede ayudar a la normalización entre ventanas. En esta realización, el ADN libre de células se extrae y aísla de un fluido corporal fácilmente accesible, como la sangre. Por ejemplo, el ADN libre de células puede extraerse utilizando una variedad de métodos reconocidos en la técnica, que incluyen, entre otros, la precipitación con isopropanol y/o la purificación basada en sílice. El ADN libre de células puede extraerse de cualquier número de sujetos, como sujetos sin cáncer, sujetos con riesgo de cáncer o sujetos que se sabe que tienen cáncer.

[0170] Tras la etapa de aislamiento/extracción, puede realizarse cualquiera de las diferentes operaciones de secuenciación en la muestra de polinucleótidos libres de células. Las muestras pueden procesarse antes de la secuenciación con uno o más reactivos (por ejemplo, enzimas, identificadores únicos (por ejemplo, códigos de barras), sondas, etc.). En algunos casos, si la muestra se procesa con un identificador único, como un código de barras, las muestras o fragmentos de muestras pueden marcarse individualmente o en subgrupos con el identificador único. A continuación, la muestra marcada puede utilizarse en una aplicación posterior como, por ejemplo, una reacción de secuenciación mediante la cual las moléculas individuales pueden rastrearse hasta las moléculas parentales.

[0171] Generalmente, como se muestra en la FIG. 4, la detección de mutaciones puede realizarse en regiones selectivamente enriquecidas del genoma o del transcriptoma purificado y aislado (302). Como se describe en el presente documento, regiones específicas, que pueden incluir pero no limitarse a genes, oncogenes, genes supresores de tumores, promotores, elementos de secuencias reguladoras, regiones no codificantes, miARN, snARN y similares, pueden amplificarse selectivamente a partir de una población total de polinucleótidos libres de células. Esto puede realizarse como se describe en el presente documento. En un ejemplo, puede utilizarse la secuenciación multiplex, con o sin marcaciones de código de barras para secuencias polinucleotídicas individuales. En otros ejemplos, la secuenciación puede realizarse utilizando cualquier plataforma de secuenciación de ácidos nucleicos reconocida en la técnica. Esta etapa genera una pluralidad de lecturas de secuencias de fragmentos genómicos (304). Además, se obtiene una secuencia de referencia a partir de una muestra de control, tomada de otro sujeto. En algunos casos, el sujeto de control puede ser un sujeto del que se sabe que no tiene variaciones genéticas o enfermedades conocidas. En algunos casos, estas lecturas de secuencias pueden contener información sobre códigos de barras. En otros ejemplos, no se utilizan códigos de barras. En otros ejemplos, se utilizan marcaciones de secuencia no únicas.

[0172] Tras la secuenciación, a las lecturas se les asigna una puntuación de calidad. Una puntuación de calidad puede ser una representación de lecturas que indica si esas lecturas pueden ser útiles en análisis posteriores basados en un umbral. En algunos casos, algunas lecturas no son de suficiente calidad o longitud para realizar la etapa de mapeo posterior. En la etapa 306, las lecturas de fragmentos genómicos que cumplen un umbral de puntuación de calidad especificado se asignan a un genoma de referencia, o a una secuencia de referencia que se sabe que no contiene mutaciones. Tras la alineación, se asigna una puntuación a las lecturas de la secuencia. Una puntuación de mapeo puede ser una representación o lecturas mapeadas de vuelta a la secuencia de referencia indicando si cada posición es o no mapeable de forma única. En algunos casos, las lecturas pueden ser secuencias no relacionadas con el análisis de mutaciones. Por ejemplo, algunas lecturas de secuencias pueden proceder de polinucleótidos contaminantes. Las lecturas de secuenciación con una puntuación de mapeo de al menos el 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden filtrarse del conjunto de datos. En otros casos, las lecturas de secuenciación a las que se asigne una puntuación de mapeo inferior al 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden filtrarse del conjunto de datos.

[0173] Para cada base mapeable, las bases que no alcanzan el umbral mínimo de mapeabilidad, o bases de baja calidad, pueden ser reemplazadas por las bases correspondientes tal y como se encuentran en la secuencia de referencia.

[0174] Una vez que la cobertura de la lectura puede ser determinada y las bases variantes relativas a la secuencia de control en cada lectura son identificadas, la frecuencia de las bases variantes puede ser calculada como el número de lecturas que contienen la variante dividido por el número total de lecturas (308). Esto puede expresarse como una proporción para cada posición asignable en el genoma.

[0175] Para cada posición de base, las frecuencias de los cuatro nucleótidos, citosina, guanina, timina, adenina se analizan en comparación con la secuencia de referencia (310). Se aplica un algoritmo de modelado estocástico o estadístico para convertir los ratios normalizados de cada posición mapeable en estados de frecuencia reflejados para cada variante de base. En algunos casos, este algoritmo puede comprender uno o más de los siguientes elementos: Modelo oculto de Markov, programación dinámica, máquina de vectores soporte, modelado bayesiano o probabilístico, descodificación trellis, descodificación Viterbi, maximización de expectativas, metodologías de filtrado Kalman y redes neuronales.

[0176] Los Estados discretos de mutación de cada posición de base pueden ser utilizados para identificar una variante de base con alta frecuencia de varianza en comparación con la línea base de la secuencia de referencia.

En algunos casos, la línea de base puede representar una frecuencia de al menos 0,0001%, 0,001%, 0,01%, 0,1%, 1,0%, 2,0%, 3,0%, 4,0% 5,0%, 10% o 25%. En otros casos, la línea de base puede representar una frecuencia de al menos 0,0001%, 0,001%, 0,01%, 0,1%, 1,0%, 2,0%, 3,0%, 4,0%, 5,0%, 10% o 25%. En algunos casos, todas las posiciones de base adyacentes con la variante de base o mutación pueden fusionarse en un segmento para informar de la presencia o ausencia de una mutación. En algunos casos, se pueden filtrar varias posiciones antes de fusionarlas con otros segmentos.

[0177] Tras el cálculo de las frecuencias de varianza para cada posición de base, la variante con mayor desviación para una posición específica en la secuencia derivada del sujeto en comparación con la secuencia de referencia se identifica como una mutación. En algunos casos, una mutación puede ser cancerígena. En otros casos, una mutación puede estar correlacionada con un estado de la enfermedad.

[0178] Una mutación o variante puede comprender una aberración genética que incluye, pero no se limita a una sustitución de una sola base, una transversión, una translocación, una inversión, una deleción, una aneuploidía, una aneuploidía parcial, una poliploidía, una inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones cromosómicas, un truncamiento génico, una amplificación génica, una duplicación génica, una lesión cromosómica, una lesión del ADN, cambios anormales en las modificaciones químicas de los ácidos nucleicos, cambios anormales en los patrones epigenéticos y cambios anormales en la metilación de los ácidos nucleicos. En algunos casos, una mutación puede tener como máximo 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 o 20 nucleótidos de longitud. En otros casos, una mutación puede tener al menos 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 15 o 20 nucleótidos de longitud.

[0179] A continuación, se determina un consenso utilizando lecturas previas. Para ello, se revisan las puntuaciones de confianza anteriores de las bases correspondientes y, si existen puntuaciones de confianza anteriores coherentes, se aumenta la puntuación de confianza actual (314). Si hay puntuaciones de confianza previas, pero son inconsistentes, la puntuación de confianza actual no se modifica en una realización (316). En otras realizaciones, la puntuación de confianza se ajusta de una manera predeterminada para puntuaciones de confianza previas inconsistentes. Si es la primera vez que se detecta la familia, la puntuación de confianza actual puede reducirse, ya que puede tratarse de una lectura falsa (318). A continuación, el proceso convierte la frecuencia de varianza por cada base en Estados de variantes discretos para cada posición de base (320).

[0180] La presencia o ausencia de una mutación puede reflejarse en forma gráfica, indicando diversas posiciones en el genoma y el correspondiente aumento o disminución o mantenimiento de una frecuencia de mutación en cada posición respectiva. Además, las mutaciones pueden utilizarse para informar de una puntuación porcentual que indique cuánto material patológico existe en la muestra de polinucleótidos libres de células. Cada mutación detectada puede ir acompañada de una puntuación de confianza, dadas las estadísticas conocidas de las varianzas típicas en las posiciones notificadas en secuencias de referencia no enfermas. Las mutaciones también pueden clasificarse por orden de abundancia en el sujeto o por importancia clínica.

[0181] A continuación se detallan las aplicaciones de la tecnología. Una de sus aplicaciones es la detección del cáncer. Los métodos y sistemas aquí descritos permiten detectar numerosos tipos de cáncer. Las células cancerosas, como la mayoría de las células, pueden caracterizarse por una tasa de recambio, en la que las células viejas mueren y son sustituidas por células nuevas. Generalmente, las células muertas, en contacto con la vasculatura de un sujeto determinado, pueden liberar ADN o fragmentos de ADN en el torrente sanguíneo. Lo mismo ocurre con las células cancerosas en las distintas fases de la enfermedad. Las células cancerosas también pueden caracterizarse, en función del estadio de la enfermedad, por diversas variaciones genéticas, como la variación del número de copias y las mutaciones. Este fenómeno puede utilizarse para detectar la presencia o ausencia de individuos con cáncer mediante los métodos y sistemas aquí descritos.

[0182] Por ejemplo, la sangre de sujetos con riesgo de cáncer puede extraerse y prepararse como se describe en el presente documento para generar una población de polinucleótidos libres de células. En un ejemplo, podría tratarse de ADN libre de células. Los Sistemas y métodos de la divulgación pueden emplearse para detectar mutaciones o variaciones en el número de copias que puedan existir en determinados cánceres presentes. El método puede ayudar a detectar la presencia de células cancerosas en el organismo, a pesar de la ausencia de síntomas u otros signos distintivos de la enfermedad.

[0183] Los tipos y el número de cánceres que pueden detectarse pueden incluir, entre otros, cánceres de sangre, cánceres de cerebro, cánceres de pulmón, cánceres de piel, cánceres de nariz, cánceres de garganta, cánceres de hígado, cánceres de hueso, linfomas, cánceres de páncreas, cánceres de piel, cánceres de intestino, cánceres de recto, cánceres de tiroides, cánceres de vejiga, cánceres de riñón, cánceres de boca, cánceres de estómago, tumores sólidos estatales, tumores heterogéneos, tumores homogéneos y similares.

[0184] En la detección temprana de cánceres, cualquiera de los Sistemas o métodos aquí descritos, incluyendo la detección de mutaciones o la detección de variaciones en el número de copias pueden ser utilizados para detectar cánceres. Estos sistemas y métodos pueden utilizarse para detectar cualquier número de variaciones genéticas que puedan causar o ser el resultado de cánceres. Pueden incluir, entre otros, mutaciones,indels,variaciones del número de copias, transversiones, translocaciones, inversiones, deleciones, aneuploidías, aneuploidías parciales, poliploidías, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones génicas fusiones cromosómicas, truncamientos génicos, amplificación génica, duplicaciones génicas, lesiones cromosómicas, lesiones del ADN, cambios anormales en las modificaciones químicas de los ácidos nucleicos, cambios anormales en los patrones epigenéticos, cambios anormales en la metilación de los ácidos nucleicos infección y cáncer.

[0185] Además, los Sistemas y métodos aquí descritos también pueden utilizarse para ayudar a caracterizar ciertos cánceres. Los datos genéticos producidos a partir del sistema y los métodos de esta divulgación pueden permitir a los profesionales ayudar a caracterizar mejor una forma específica de cáncer. Los cánceres pueden ser heterogéneos tanto en su composición como en su estadificación. Los datos del perfil genético pueden permitir la caracterización de subtipos específicos de cáncer que pueden ser importantes para el diagnóstico o el tratamiento de ese subtipo específico. Esta información también puede proporcionar al sujeto o al médico pistas sobre el pronóstico de un tipo específico de cáncer.

[0186] Los Sistemas y métodos aquí proporcionados pueden ser utilizados para monitorizar cánceres, u otras enfermedades en un sujeto particular. Esto puede permitir al sujeto o al profesional adaptar las opciones de tratamiento en función de la evolución de la enfermedad. En este ejemplo, los Sistemas y métodos aquí descritos pueden utilizarse para construir perfiles genéticos de un sujeto particular del curso de la enfermedad. En algunos casos, los cánceres pueden progresar, volviéndose más agresivos y genéticamente inestables. En otros ejemplos, los cánceres pueden permanecer benignos, inactivos o latentes. El sistema y los métodos de esta divulgación pueden ser útiles para determinar la progresión de la enfermedad.

[0187] Además, los Sistemas y métodos aquí descritos pueden ser útiles para determinar la eficacia de una opción de tratamiento particular. En un ejemplo, las opciones de tratamiento exitosas pueden en realidad aumentar la cantidad de variación del número de copias o mutaciones detectadas en la sangre del sujeto si el tratamiento tiene éxito, ya que más cánceres pueden morir y desprender ADN. En otros ejemplos, esto puede no ocurrir. En otro ejemplo, quizá determinadas opciones de tratamiento puedan correlacionarse con perfiles genéticos de los cánceres a lo largo del tiempo. Esta correlación puede ser útil a la hora de seleccionar una terapia.

Además, si se observa que un cáncer está en remisión después del tratamiento, los Sistemas y métodos aquí descritos pueden ser útiles para monitorizar la enfermedad residual o la recurrencia de la enfermedad.

[0188] Los métodos y Sistemas aquí descritos pueden no estar limitados a la detección de mutaciones y variaciones del número de copias asociadas únicamente con cánceres. Otras enfermedades e infecciones pueden dar lugar a otros tipos de afecciones que pueden ser adecuadas para la detección precoz y el seguimiento. Por ejemplo, en determinados casos, los trastornos genéticos o las enfermedades infecciosas pueden provocar un determinado mosaicismo genético en un sujeto. Este mosaicismo genético puede causar variaciones en el número de copias y mutaciones que podrían observarse. En otro ejemplo, el sistema y los métodos de la divulgación también pueden utilizarse para monitorizar los genomas de las células inmunitarias del organismo. Las células inmunitarias, como los linfocitos B, pueden experimentar una rápida expansión clonal ante la presencia de determinadas enfermedades. Las expansiones clonales pueden controlarse mediante la detección de variaciones en el número de copias y pueden controlarse determinados estados inmunitarios. En este ejemplo, el análisis de la variación del número de copias puede realizarse a lo largo del tiempo para producir un perfil de cómo puede estar progresando una enfermedad concreta.

[0189] Además, los Sistemas y métodos de esta divulgación también pueden utilizarse para monitorizar infecciones sistémicas en sí, como pueden ser causadas por un patógeno tal como una bacteria o virus.

La variación del número de copias o incluso la detección de mutaciones pueden utilizarse para determinar cómo cambia una población de patógenos durante el curso de la infección. Esto puede ser especialmente importante durante las infecciones crónicas, como las infecciones por VIH/sida o hepatitis, en las que los virus pueden cambiar de estado de ciclo vital y/o mutar a formas más virulentas durante el curso de la infección.

[0190] Otro ejemplo en el que el sistema y los métodos de la presente divulgación pueden utilizarse es la monitorización de sujetos trasplantados. Por lo general, los tejidos trasplantados sufren cierto grado de rechazo por parte del organismo en el momento del trasplante. Los métodos de la presente divulgación pueden utilizarse para determinar o perfilar las actividades de rechazo del organismo huésped, ya que las células inmunitarias intentan destruir el tejido trasplantado. Esto puede ser útil para controlar el estado del tejido trasplantado, así como para modificar el curso del tratamiento o prevenir el rechazo.

[0191] Además, los métodos de la divulgación pueden usarse para caracterizar la heterogeneidad de una condición anormal en un sujeto, comprendiendo el método generar un perfil genético de polinucleótidos extracelulares en el sujeto, en el que el perfil genético comprende una pluralidad de datos resultantes de análisis de variación de número de copias y de mutación. En algunos casos, incluido el cáncer, pero sin limitarse a él, una enfermedad puede ser heterogénea. Las células enfermas pueden no ser idénticas. En el ejemplo del cáncer, algunos tumores comprenden diferentes tipos de células tumorales, algunas células en diferentes etapas del cáncer. En otros ejemplos, la heterogeneidad puede comprender múltiples focos de enfermedad. De nuevo, en el ejemplo del cáncer, puede haber múltiples focos tumorales, tal vez cuando uno o más focos son el resultado de metástasis que se han extendido desde un sitio primario.

[0192] Los métodos de la presente divulgación pueden utilizarse para generar o un perfil, huella dactilar o conjunto de datos que sea una suma de información genética derivada de diferentes células en una enfermedad heterogénea. Este conjunto de datos puede incluir análisis de variación del número de copias y de mutaciones, solos o combinados.

[0193] Además, los Sistemas y métodos de la divulgación pueden utilizarse para diagnosticar, pronosticar, monitorizar u observar cánceres u otras enfermedades de origen fetal. Es decir, estas metodologías pueden emplearse en un sujeto embarazado para diagnosticar, pronosticar, monitorizar u observar cánceres u otras enfermedades en un sujeto nonato cuyo ADN y otros polinucleótidos pueden co-circular con moléculas maternas.

[0194] Además, estos informes se presentan y se accede a ellos electrónicamente a través de Internet.

El análisis de los datos de la secuencia se realiza en un lugar distinto al del sujeto. El informe se genera y se transmite al lugar donde se encuentra el sujeto. A través de un ordenador con conexión a Internet, el sujeto accede a los informes que reflejan su carga tumoral.

[0195] La información anotada puede ser utilizada por un proveedor de asistencia sanitaria para seleccionar otras opciones de tratamiento farmacológico y/o proporcionar información sobre opciones de tratamiento farmacológico a una compañía de seguros. El método puede incluir la anotación de las opciones de tratamiento farmacológico para una afección en, por ejemplo, las Guías de Práctica Clínica en Oncología de la NCCNTM o las guías de práctica clínica de la Sociedad Americana de Oncología Clínica (ASCO).

[0196] Las opciones de tratamiento farmacológico estratificadas en un informe pueden anotarse en el informe enumerando opciones adicionales de tratamiento farmacológico. Un tratamiento farmacológico adicional puede ser un medicamento aprobado por la FDA para un uso en una indicación no autorizada. Una disposición de la Ley Ómnibus de Reconciliación Presupuestaria (OBRA) de 1993 obliga a Medicare a cubrir los usos en una indicación no autorizada de los fármacos contra el cáncer incluidos en los compendios médicos estándar. Los fármacos utilizados para anotar las listas pueden encontrarse en compendios aprobados por los CMS, incluidos el National Comprehensive Cancer Network (NCCN) Drugs and Biologics Compendium™, Thomson Micromedex DrugDex®, el compendio de farmacología clínica de Elsevier Gold Standard y el American Hospital Formulary Service-Drug Information Compendium®.

[0197] Las opciones de tratamiento farmacológico pueden anotarse enumerando un fármaco experimental que puede ser útil en el tratamiento de un cáncer con uno o más marcadores moleculares de un estado particular. El fármaco experimental puede ser un fármaco para el que se disponga de datos in vitro, datos in vivo, datos de modelos animales, datos de ensayos preclínicos o datos de ensayos clínicos. Los datos pueden publicarse en la literatura médica revisada por pares que se encuentra en las revistas enumeradas en el Manual de políticas de prestaciones de Medicare de los CMS, incluidas, por ejemplo, American Journal of Medicine, Annals of Internal Medicine, Annals of Oncology, Annals of Surgical Oncology, Biology of Blood and Marrow Transplantation, Blood, Bone Marrow Transplantation, British Journal of Cancer, British Journal of Hematology, British Medical Journal, Cancer, Clinical Cancer Research, Drugs, European Journal of Cancer (antes European Journal of Cancer and Clinical Oncology), Gynecologic Oncology, International Journal of Radiation, Oncology, Biology, and Physics, The Journal of the American Medical Association, Journal of Clinical Oncology, Journal of the National Cancer Institute, Journal of the National Comprehensive Cancer Network (NCCN), Journal of Urology, Lancet, Lancet Oncology, Leukemia, The New England Journal of Medicine y Radiation Oncology.

[0198] Las opciones de tratamiento farmacológico pueden anotarse proporcionando un enlace en un informe electrónico que conecte un fármaco de la lista con información científica relativa al fármaco. Por ejemplo, se puede proporcionar un enlace a información sobre un ensayo clínico de un medicamento (clinicaltrials.gov). Si el informe se facilita a través de un sitio web de Ordenador o Ordenador, el enlace puede ser una nota a pie de página, un hipervínculo a un sitio web, un cuadro emergente o un cuadro volante con información, etc. El informe y la información anotada pueden facilitarse en un formulario impreso, y las anotaciones pueden ser, por ejemplo, una nota a pie de página de una referencia.

[0199] La información para anotar una o más opciones de tratamiento farmacológico en un informe puede ser proporcionada por una entidad comercial que almacena información científica, por ejemplo, Ingenuity® Systems. Un profesional sanitario puede tratar a un sujeto, como un paciente con cáncer, con un fármaco experimental incluido en la información anotada, y el profesional sanitario puede acceder a la opción de tratamiento farmacológico anotada, recuperar la información científica (por ejemplo, imprimir un artículo de una revista médica) y enviarla (por ejemplo, un artículo impreso de una revista) a una compañía de seguros junto con una solicitud de reembolso por proporcionar el tratamiento farmacológico. Los médicos pueden utilizar cualquiera de los diversos códigos de grupos relacionados por el diagnóstico (GRD) para permitir el reembolso.

[0200] Una opción de tratamiento farmacológico en un informe también se puede anotar con información relativa a otros componentes moleculares en una vía a la que afecta un fármaco (por ejemplo, información sobre un fármaco que se dirige a una quinasa corriente abajo de un receptor de superficie celular que es una diana farmacológica). La opción de tratamiento farmacológico puede anotarse con información sobre fármacos dirigidos a uno o más componentes de otras vías moleculares. La identificación y/o anotación de la información relacionada con las vías puede externalizarse o subcontratarse a otra empresa.

[0201] La información anotada puede ser, por ejemplo, el nombre de un fármaco (por ejemplo, un fármaco aprobado por la FDA para uso en una indicación no autorizada; un fármaco que se encuentra en un compendio aprobado por la c Ms , y/o un fármaco descrito en un artículo de una revista científica (médica)), información científica relativa a una o más opciones de tratamiento farmacológico, uno o más enlaces a información científica relativa a uno o más fármacos, información de ensayos clínicos relativos a uno o más fármacos (por ejemplo, información de clinicaltrials.gov/), uno o más enlaces a citas de información científica relativa a fármacos, etc.

[0202] La información anotada puede insertarse en cualquier lugar de un informe. La información anotada puede insertarse en varios lugares de un informe. La información anotada puede insertarse en un informe cerca de una sección sobre opciones de tratamiento farmacológico estratificado. La información anotada puede insertarse en un informe en una página separada de las opciones de tratamiento farmacológico estratificadas. Un informe que no contenga opciones estratificadas de tratamiento farmacológico puede anotarse con información.

[0203] Los métodos proporcionados también pueden utilizarse para investigar los efectos de fármacos en muestras (por ejemplo, células tumorales) aisladas de un sujeto (por ejemplo, paciente con cáncer). Puede establecerse un cultivo in vitro utilizando un tumor de un paciente con cáncer mediante técnicas reconocidas por los expertos en la materia.

[0204] El método proporcionado también puede incluir el cribado de alto rendimiento de fármacos con uso en una indicación no autorizada aprobados por la FDA o fármacos experimentales utilizando el cultivo in vitro y/o el modelo de xenoinjerto.

[0205] El método proporcionado también puede incluir la monitorización del antígeno tumoral para la detección de recurrencia.

[0206] Se pueden generar informes, mapeando las posiciones del genoma y la variación del número de copias para el sujeto con cáncer, como se muestra en las FIGs. 5A y 5B . Estos informes, en comparación con otros perfiles de sujetos con resultados conocidos, pueden indicar que un determinado cáncer es agresivo y resistente al tratamiento. Se controla al sujeto durante un tiempo y se le vuelve a hacer la prueba. Si al final del periodo, el perfil de variación del número de copias comienza a aumentar drásticamente, esto puede indicar que el tratamiento actual no está funcionando. Se realiza una comparación con los perfiles genéticos de otros sujetos con próstata. Por ejemplo, si se determina que este aumento en la variación del número de copias indica que el cáncer está avanzando, entonces el régimen de tratamiento original prescrito ya no está tratando el cáncer y se prescribe un nuevo tratamiento.

[0207] En una realización, el sistema soporta el panel genético mostrado en la FIG. 9. El panel de genes de FIG. 9 pueden utilizarse con los métodos y sistemas de la presente divulgación.

[0208] Estos informes pueden presentarse y consultarse electrónicamente a través de Internet. El análisis de los datos de la secuencia se realiza en un lugar distinto al del sujeto. El informe se genera y se transmite al lugar donde se encuentra el sujeto. A través de un ordenador con acceso a Internet, el sujeto accede a los informes que reflejan su carga tumoral (FIGs. 5A y 5B).

[0209] La FIG. 6 es una representación esquemática del acceso por Internet a los informes de un sujeto con cáncer. El sistema de la FIG. 6 puede utilizar un secuenciador de ADN portátil o un secuenciador de ADN de sobremesa. El secuenciador de ADN es un instrumento científico utilizado para automatizar el proceso de secuenciación del ADN. Dada una muestra de ADN, se utiliza un secuenciador de ADN para determinar el orden de las cuatro bases: adenina, guanina, citosina y timina. El orden de las bases de ADN se presenta como una cadena de texto, denominada lectura. Algunos secuenciadores de ADN también pueden considerarse instrumentos ópticos, ya que analizan señales luminosas procedentes de fluorocromos unidos a nucleótidos.

[0210] El secuenciador de ADN puede aplicar el método de secuenciación de Gilbert basado en la modificación química del<a>D<n>seguida de la escisión en bases específicas, o puede aplicar la técnica de Sanger que se basa en la terminación de la cadena de dideoxinucleótidos. El método Sanger se popularizó debido a su mayor eficacia y baja radiactividad. El secuenciador de ADN puede utilizar técnicas que no requieren la amplificación del ADN (reacción en cadena de la polimerasa - PCR), lo que acelera la preparación de la muestra antes de la secuenciación y reduce los errores. Además, se recogen datos de secuenciación de las reacciones provocadas por la adición de nucleótidos en la cadena complementaria en tiempo real. Por ejemplo, los secuenciadores de ADN pueden utilizar un método denominado molécula única en tiempo real (SMRT), en el que los datos de secuenciación se producen mediante la luz (captada por una cámara) emitida cuando se añade un nucleótido a la cadena complementaria mediante enzimas que contienen colorantes fluorescentes. Como alternativa, los secuenciadores de ADN pueden utilizar sistemas electrónicos basados en tecnologías de detección de nanoporos.

[0211] Los datos son enviados por los secuenciadores de ADN a través de una conexión directa o por internet a un Ordenador para su procesamiento. Los aspectos de procesamiento de datos del sistema pueden implementarse en circuitos electrónicos digitales, o en hardware informático, firmware, software, o en combinaciones de ellos. El aparato de procesamiento de datos puede implementarse en un producto de programa informático tangiblemente incorporado en un dispositivo de almacenamiento legible por máquina para su ejecución por un procesador programable; y las etapas del método de procesamiento de datos de la invención pueden ser realizados por un procesador programable que ejecuta un programa de instrucciones para realizar funciones de la invención operando sobre datos de entrada y generando salida. Los aspectos de procesamiento de datos de la invención pueden implementarse ventajosamente en uno o más Programas de ordenador que son ejecutables en un sistema programable que incluye al menos un procesador programable acoplado para recibir datos e instrucciones desde y para transmitir datos e instrucciones a un sistema de almacenamiento de datos, al menos un dispositivo de entrada y al menos un dispositivo de salida. Cada programa informático puede implementarse en un lenguaje de programación de alto nivel procedimental u orientado a objetos, o en lenguaje ensamblador o de máquina, si se desea; y, en cualquier caso, el lenguaje puede ser un lenguaje compilado o interpretado. Los procesadores adecuados incluyen, a modo de ejemplo, microprocesadores de propósito general y especial. Generalmente, un procesador recibirá instrucciones y datos de una memoria de sólo lectura y/o de una memoria de acceso aleatorio. Los dispositivos de almacenamiento adecuados para incorporar de forma tangible instrucciones y datos de programas informáticos incluyen todas las formas de memoria no volátil, incluyendo, a modo de ejemplo, dispositivos de memoria semiconductores, como EPROM, EEPROM y dispositivos de memoria flash; discos magnéticos, como discos duros internos y discos extraíbles; discos magneto-ópticos; y discos CD-ROM. Todo lo anterior puede complementarse con ASIC (circuitos integrados de aplicación específica) o incorporarse a ellos.

[0212] Para permitir la interacción con un usuario, la invención puede implementarse utilizando un sistema informático que tenga un dispositivo de visualización, como un monitor o una pantalla LCD (pantalla de cristal líquido) para mostrar información al usuario, y dispositivos de entrada mediante los cuales el usuario pueda proporcionar información al sistema informático, como un teclado, un dispositivo señalador bidimensional, como un ratón o una bola rastreadora, o un dispositivo señalador tridimensional, como un guante de datos o un ratón giroscópico. El sistema informático puede programarse para proporcionar una interfaz gráfica de usuario a través de la cual los programas informáticos de Internet con los usuarios. El sistema informático puede programarse para proporcionar una interfaz de visualización tridimensional de realidad virtual.

Sistemas informáticos de control

[0213] La presente divulgación proporciona Sistemas de control por ordenador que están programados para implementar métodos de la divulgación. La FIG. 7 muestra un sistema informático 701 que está programado o configurado de otro modo para analizar datos genéticos. Los métodos aquí descritos para detectar variaciones genéticas por debajo de un límite de detección pueden proporcionar un procesamiento más eficiente de los datos genéticos, mejorando así el funcionamiento de un sistema Informático. Por ejemplo, el sistema informático puede ser capaz de procesar datos genéticos e identificar una variante genética de forma más rápida o eficiente (por ejemplo, puede que no sea necesario volver a procesar los datos genéticos o procesar datos genéticos adicionales si el sistema informático puede identificar la variante genética por debajo del límite de detección).

[0214] El Sistema Informático 701 puede regular varios aspectos de la detección de variaciones genéticas por debajo de un intervalo de ruido o límite de detección de la presente divulgación, tales como, por ejemplo, detectar variaciones genéticas en moléculas de ácido nucleico, comparar conjuntos de variaciones genéticas, determinar indicaciones de confianza de diagnóstico, determinar intervalos de confianza, secuenciar ácidos nucleicos, incluyendo secuenciación masiva en paralelo, agrupar lecturas de secuencia en familias, colapsar lecturas de secuencia agrupadas, determinar secuencias consenso. El sistema informático 801 puede ser un dispositivo electrónico de un usuario o un sistema informático que se encuentra a distancia con respecto al dispositivo electrónico. El dispositivo electrónico puede ser un dispositivo electrónico móvil.

[0215] El sistema informático 701 incluye una unidad central de procesamiento (CPU, también "procesador" y "procesador informático" en el presente documento) 705, que puede ser un procesador de núcleo único o multi-núcleo, o una pluralidad de procesadores para procesamiento paralelo. El Sistema Informático 701 también incluye memoria o ubicación de memoria 710 (por ejemplo, memoria de acceso aleatorio, memoria de sólo lectura, memoria flash), unidad de almacenamiento electrónico 715 (por ejemplo, disco duro), interfaz de comunicación 720 (por ejemplo, adaptador de red) para comunicarse con uno o más Sistemas, y dispositivos periféricos 725, como caché, otra memoria, almacenamiento de datos y/o adaptadores de pantalla electrónica. La memoria 710, la unidad de almacenamiento 715, la interfaz 720 y los dispositivos periféricos 725 están en comunicación con la CPU 705 a través de un bus de comunicación (líneas continuas), como una placa base. La unidad de almacenamiento 715 puede ser una unidad de almacenamiento de datos (o repositorio de datos) para almacenar datos. El sistema informático 701 puede acoplarse operativamente a una red informática ("red") 730 con la ayuda de la interfaz de comunicación 720. La red 730 puede ser Internet, una Internet y/o extranet, o una intranet y/o extranet que esté en comunicación con Internet. En algunos casos, la red 730 es una red de telecomunicaciones y/o de datos. La red 730 puede incluir uno o más servidores informáticos, que pueden permitir la computación distribuida, como la computación en nube. La red 730, en algunos casos con la ayuda del Sistema Informático 701, puede implementar una red peer-to-peer, que puede permitir a los dispositivos acoplados al Sistema Informático 701 comportarse como un cliente o un servidor.

[0216] La CPU 705 puede ejecutar una secuencia de instrucciones legibles por máquina, que pueden estar incorporadas en un programa o software. Las instrucciones pueden almacenarse en una ubicación de memoria, como la memoria 710. Las instrucciones pueden dirigirse a la CPU 705, que posteriormente puede programar o configurar de otro modo la CPU 705 para implementar métodos de la presente divulgación. Ejemplos de operaciones realizadas por la CPU 705 pueden incluir búsqueda, decodificación, ejecución y escritura.

[0217] La CPU 705 puede ser parte de un circuito, tal como un circuito integrado. Uno o más componentes del sistema 701 pueden incluirse en el circuito. En algunos casos, el circuito es un circuito integrado de aplicación específica (ASIC).

[0218] La unidad de almacenamiento 715 puede almacenar archivos, como controladores, bibliotecas y programas guardados. La unidad de almacenamiento 715 puede almacenar datos de usuario, por ejemplo, preferencias de usuario y programas de usuario. En algunos casos, el sistema informático 701 puede incluir una o más unidades de almacenamiento de datos adicionales que son externas al sistema informático 701, como las ubicadas en un servidor remoto que está en comunicación con el sistema informático 701 a través de una intranet o Internet.

[0219] El Sistema Informático 701 puede comunicarse con uno o más Sistemas Informáticos remotos a través de la red 730. Por ejemplo, el sistema informático 701 puede comunicarse con un sistema informático remoto de un usuario (por ejemplo, un médico, un técnico de laboratorio, un asesor genético, un científico, entre otros). Algunos ejemplos de sistemas informáticos remotos son los ordenadores personales (p. ej., PC portátiles), las tabletas (p. ej., Apple® iPad, Samsung® Galaxy Tab), los teléfonos, los teléfonos inteligentes (p. ej., Apple® iPhone, dispositivos con Android, Blackberry®) o los asistentes personales digitales. El usuario puede acceder al sistema informático 701 a través de la red 730.

[0220] Los métodos aquí descritos pueden implementarse mediante código ejecutable por máquina (por ejemplo, procesador de ordenador) almacenado en una ubicación de almacenamiento electrónico del sistema informático 701, como, por ejemplo, en la memoria 710 o en la unidad de almacenamiento electrónico 715. El código ejecutable o legible por máquina puede proporcionarse en forma de software. Durante su uso, el código puede ser ejecutado por el procesador 705. En algunos casos, el código puede recuperarse de la unidad de almacenamiento 715 y almacenarse en la memoria 710 para que el procesador 705 pueda acceder a él. En algunas situaciones, la unidad de almacenamiento electrónico 715 puede excluirse, y las instrucciones ejecutables por máquina se almacenan en la memoria 710.

[0221] El código puede ser pre-compilado y configurado para su uso con una máquina que tenga un procesador adaptado para ejecutar el código, o puede ser compilado durante el tiempo de ejecución. El código puede suministrarse en un lenguaje de programación que puede seleccionarse para permitir que el código se ejecute de forma precompilada o ascompilada.

[0222] Aspectos de los Sistemas y métodos aquí proporcionados, tales como el Sistema Informático 801, pueden ser incorporados en programación. Varios aspectos de la tecnología pueden considerarse "productos" o "artículos de fabricación", normalmente en forma de código ejecutable por máquina (o procesador) y/o datos asociados que se transportan o incorporan en un tipo de medio legible por máquina. El código ejecutable por máquina puede almacenarse en una unidad de almacenamiento electrónico, como una memoria (por ejemplo, memoria de sólo lectura, memoria de acceso aleatorio, memoria flash) o un disco duro. Los medios de tipo "almacenamiento" pueden incluir cualquiera o todas las memorias tangibles de los ordenadores, procesadores o similares, o módulos asociados a los mismos, como diversas memorias semiconductoras, unidades de cinta, unidades de disco y similares, que pueden proporcionar almacenamiento no transitorio en cualquier momento para la programación del software. En ocasiones, la totalidad o parte del software puede comunicarse a través de Internet o de otras redes de telecomunicaciones. Dichas Comunicaciones, por ejemplo, pueden permitir la carga del software desde un Ordenador o procesador a otro, por ejemplo, desde un servidor de gestión u Ordenador anfitrión a la plataforma Informática de un servidor de aplicaciones. Así pues, otro tipo de medios que pueden portar los elementos de software incluyen las ondas ópticas, eléctricas y electromagnéticas, como las utilizadas a través de interfaces físicas entre dispositivos locales, a través de redes fijas cableadas y ópticas y a través de diversos enlaces aéreos. Los elementos físicos que transportan dichas ondas, como los enlaces por cable o inalámbricos, los enlaces ópticos o similares, también pueden considerarse medios portadores del software. Tal y como se utilizan en el presente documento, a menos que se restrinjan a medios de "almacenamiento" tangibles no transitorios, términos como "medio legible" por ordenador o máquina se refieren a cualquier medio que participe en el suministro de instrucciones a un procesador para su ejecución.

[0223] Por lo tanto, un medio legible por máquina, como un código ejecutable por ordenador, puede adoptar muchas formas, incluyendo, pero sin limitarse a, un medio de almacenamiento tangible, un medio de onda portadora o un medio de transmisión físico. Los medios de almacenamiento no volátiles incluyen, por ejemplo, discos ópticos o magnéticos, como cualquiera de los dispositivos de almacenamiento de cualquier ordenador(es) o similar(es), como los que pueden utilizarse para implementar las bases de datos, etc. que se muestran en los dibujos. Los medios de almacenamiento volátiles incluyen la memoria dinámica, como la memoria principal de dicha plataforma informática. Los medios de transmisión tangibles incluyen cables coaxiales, cables de cobre y fibra óptica, incluidos los cables que componen un bus dentro de un sistema informático. Los medios de transmisión de ondas portadoras pueden adoptar la forma de señales eléctricas o electromagnéticas, u ondas acústicas o luminosas como las generadas durante las comunicaciones de datos por radiofrecuencia (RF) e infrarrojos (IR). Las formas comunes de medios legibles por ordenador incluyen por ejemplo: un disquete, un disco flexible, un disco duro, una cinta magnética, cualquier otro medio magnético, un CD-ROM, DVD o DVD-ROM, cualquier otro medio óptico, tarjetas perforadas, cinta de papel, cualquier otro medio de almacenamiento físico con patrones de agujeros, una RAM, una ROM, una PROM y EPROM, una FLASH-EPROM, cualquier otro chip o cartucho de memoria, una onda portadora que transporte datos o instrucciones, cables o enlaces que transporten dicha onda portadora, o cualquier otro medio a partir del cual un Ordenador pueda leer código de programación y/o datos. Muchas de estas formas de medios legibles por ordenador pueden participar en el transporte de una o más secuencias de una o más instrucciones a un procesador para su ejecución.

[0224] El Sistema Informático 701 puede incluir o estar en comunicación con una pantalla electrónica 735 que comprende una interfaz de usuario (UI) 740 para proporcionar, por ejemplo, informes personales o individualizados del paciente identificando variaciones o alteraciones genómicas, que pueden incluir alteraciones genómicas específicas del tumor y opciones de tratamiento asociadas. Ejemplos de interfaces de usuario incluyen, sin limitación, una interfaz gráfica de usuario (GUI) y una interfaz de usuario basada en web. A los datos generados y mostrados mediante una interfaz de usuario (740) puede acceder un usuario, como un profesional sanitario, un técnico de laboratorio, un asesor genético o un científico, en la red.

[0225] Los métodos y sistemas de la presente divulgación pueden implementarse mediante uno o más algoritmos. Un algoritmo puede implementarse mediante software al ser ejecutado por la unidad central de procesamiento 705. El algoritmo puede, por ejemplo, secuenciar ácidos nucleicos (por ejemplo, secuenciación paralela masiva), agrupar secuencias de ácidos nucleicos, colapsar secuencias de ácidos nucleicos agrupadas, generar secuencias consenso, detectar variaciones genéticas, actualizar intervalos de confianza de diagnóstico, anotar secuencias, generar informes y ejecutar otros procesos que pueden comprender uno o más de los siguientes: Modelo de Markov oculto, programación dinámica, red bayesiana, descodificación trellis, descodificación Viterbi, maximización de expectativas, metodologías de filtrado Kalman y redes neuronales.

[0226] Los siguientes ejemplos se ofrecen a título ilustrativo y no limitativo.

EJEMPLOS

[0227] La FIG.8 muestra un gráfico de frecuencia de cambios de base detectados (en comparación con un genoma de referencia) en una muestra de ADN a lo largo de 70 kb de secuencia de una pluralidad de oncogenes amplificados y secuenciados utilizando protocolos apropiados para la secuenciación Illumine. La muestra se enriqueció con un bajo porcentaje de ADN de control portador de variantes de secuencia en lugares conocidos. Estas variantes se representan mediante ojeras. Las variantes que aparecen en log 0 (100%) o log -0,3 (0,5 o 50%) representan loci homocigotos o heterocigotos. Las variantes a menos de log -2 (menos del 1%) se producen en el intervalo de ruido de este sistema, y pueden representar errores de secuenciación (ruido) o variantes reales (información). Para cualquier variante detectada en el intervalo de ruido, puede que no sea posible determinar si la variante representa ruido o información. En medio del "ruido", uno tiene menos confianza en que las llamadas de bases en las posiciones mutantes representen información (mutantes reales) en lugar de ruido. Sin embargo, si el ADN de control se introduce en una segunda muestra, debería aparecer de nuevo con una frecuencia similar. En cambio, la probabilidad de que se vuelva a detectar un error en el mismo locus es función de la tasa de error, y es menos probable que se vea. La detección independiente de la misma variante aumenta la probabilidad de que se esté detectando información, en lugar de ruido, y proporciona una mayor confianza en que el diagnóstico de cáncer sea correcto.

[0228] En la medida en que un error de secuenciación es el resultado del azar, la probabilidad de detectar el mismo error de secuenciación varias veces puede ser exponencialmente menor que detectarlo una sola vez. Así, si una señal concreta se detecta varias veces, lo más probable es que se trate de información y no de ruido. Esta característica puede utilizarse para aumentar la probabilidad de que una variante genética detectada a bajo nivel represente un polinucleótido o conjunto de polinucleótidos real, en lugar de un artefacto de secuenciación.

[0229] En un ejemplo, se detecta una señal que indica una patología en una pluralidad de instancias. En ciertas realizaciones, la señal es un polinucleótido portador de una mutación somática asociada al cáncer o de una variación del número de copias asociada al cáncer. La detección repetida de la señal aumenta la probabilidad de que ésta represente información y no ruido. Las instancias repetidas incluyen, sin limitación, 1) pruebas repetidas de la misma muestra, 2) pruebas de dos muestras tomadas al mismo tiempo de un sujeto o 3) pruebas de dos muestras tomadas en diferentes momentos de un sujeto. La determinación de la probabilidad aumentada es especialmente útil cuando la primera señal detectada está a un nivel que no puede diferenciarse de forma fiable del ruido. Los métodos de esta divulgación encuentran uso, entre otras cosas, en la monitorización de un sujeto a lo largo del tiempo para la detección precoz de patología, por ejemplo, cuando pruebas repetidas detectan patología a niveles que, en una sola prueba, son demasiado bajos para hacer un diagnóstico fiable de patología.

[0230] En otro ejemplo que describe variantes covariantes asociadas con el cáncer de pulmón, una señal asociada con una variación de alta confianza detectada se detecta por debajo del límite de detección. Si se detecta la mutación activadora EGFR L858R, se relaja el umbral de detección de una mutación de resistencia covariante, la mutación de resistencia EGFR T790M. La detección independiente de la mutación activadora o impulsora aumenta la confianza en que también se detecte una variante covariante dentro del umbral de detección.

[0231] Los métodos y sistemas de la presente divulgación pueden combinarse con otros métodos y sistemas, tales como, por ejemplo, los descritos en las Publicaciones de Patente del Tratado de Cooperación en materia de Patentes (PCT) N°. WO/2014/039556, WO/2014/149134, WO/2015/100427 y WO/2015/175705.

Claims

REIVINDICACIONES

1. Un método para detectar una o más variaciones genéticas y/o cantidad de variación genética en un sujeto, que comprende:

iii) dejar como está la indicación de confianza diagnóstica en una caracterización posterior para la Información de novo,

2. El método de la reivindicación 1, que comprende además secuenciar moléculas adicionales de cfADN del sujeto para generar un tercer conjunto de lecturas de secuencia en un tercer punto temporal posterior al primer punto temporal, y detectar una presencia o ausencia de una o más variaciones genéticas y/o la cantidad de variación genética en las moléculas adicionales de cfADN del sujeto basándose en la indicación de confianza diagnóstica.

3. El método de la reivindicación 1 o de la reivindicación 2, en el que la variación genética se selecciona de una o más de una sustitución de una sola base, una variación del número de copias, unindel,una fusión génica, una transversión, una translocación, una inversión, una deleción, una aneuploidía, una aneuploidía parcial, una poliploidía, una inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones cromosómicas, un truncamiento génico, una amplificación génica, una duplicación génica, una lesión cromosómica, una lesión del ADN, cambios anormales en las modificaciones químicas de los ácidos nucleicos, cambios anormales en los patrones epigenéticos y cambios anormales en la metilación de los ácidos nucleicos.

4. El método de cualquiera de las reivindicaciones 1 a 3, en el que la una o más variaciones genéticas que se detectan es una variación del número de copias y en el que el método comprende además:

1) alinear las lecturas de secuencia con un genoma de referencia;

2) filtrar y mapear las lecturas de secuencias;

3) particionar las lecturas de la secuencia en ventanas obinsde una secuencia;

4) recuento de las lecturas de cobertura de cada ventana;

5) normalizar las lecturas de cobertura mediante un algoritmo de modelización estocástica o estadística; y 6) generar un archivo de salida que refleje los estados discretos del número de copias en varias posiciones del genoma.

5. El método de la reivindicación 1 o de la reivindicación 2, en el que la una o más variaciones genéticas que se detectan son mutaciones y en el que el método comprende además:

1) alinear las lecturas de secuencia con un genoma de referencia;

2) filtrar y mapear las lecturas de secuencias;

3) calcular la frecuencia de las bases variantes basándose en las lecturas de cobertura para esa base específica; 4) normalizar la frecuencia de base de las variantes mediante un algoritmo de modelización estocástica, estadística o probabilística; y

5) generar un archivo de salida que refleje los estados de mutación en varias posiciones del genoma.

6. El método de cualquiera de las reivindicaciones 1 a 5, en el que las lecturas de secuencia se filtran exigiendo que las lecturas de secuencia cumplan un umbral de calidad.

7. El método de cualquiera de las reivindicaciones 1 a 6, en el que el método comprende además enriquecer selectivamente secuencias de interés antes de la secuenciación. interés antes de la secuenciación.

8. El método de cualquiera de las reivindicaciones 1 a 7, que comprende además unir etiquetas a dichas moléculas de cfADN para generar polinucleótidos parentales etiquetados; amplificar dichos polinucleótidos parentales etiquetados para producir polinucleótidos progenie etiquetados; y secuenciar dichos polinucleótidos progenie etiquetados para producir dichas lecturas de secuenciación.

9. El método de la reivindicación 8, en el que las etiquetas se unen a las moléculas de cfADN mediante una reacción de ligación.

10. El método de la reivindicación 8 o de la reivindicación 9 comprende además agrupar dichas lecturas de secuenciación en familias basadas al menos en la etiqueta de secuencia.

11. El método de la reivindicación 10, en el que la agrupación de las lecturas de secuencia se basa además en una o más de las siguientes: información de secuencia información de secuencia al principio de una lectura de secuencia derivada de la molécula de cfADN, información de secuencia al final de dicha secuencia derivada de la molécula de cfADN, y una longitud de dicha lectura de secuencia.

12. El método de la reivindicación 10 o de la reivindicación 11, en el que el método comprende además comparar las lecturas de secuencia agrupadas dentro de cada familia para determinar secuencias de consenso para cada familia, en donde cada una de las secuencias de consenso corresponde a un polinucleótido único entre los polinucleótidos parentales marcados.