ES3033720T3

ES3033720T3 - Methods for disease detection

Info

Publication number: ES3033720T3
Application number: ES22728889T
Authority: ES
Inventors: Kruusmaa Kristi; Pol Canal Noguer; Arianna Bertossi; Marko Chersicola; Primoz Knap
Original assignee: Universal Diagnostics SA
Current assignee: Universal Diagnostics SA
Priority date: 2021-05-14
Filing date: 2022-05-13
Publication date: 2025-08-07
Anticipated expiration: 2042-05-13
Also published as: WO2022238560A1; EP4320276A1; EP4320276B1; TW202311533A; EP4320276C0

Abstract

La presente divulgación proporciona, entre otras cosas, métodos para la detección del cáncer (p. ej., cribado) y composiciones relacionadas con los mismos. En diversas realizaciones, la presente divulgación proporciona métodos para la detección de adenomas colorrectales y/o avanzados (p. ej., cribado) y composiciones relacionadas con los mismos. En diversas realizaciones, la presente divulgación proporciona métodos para el cribado que incluyen el análisis del estado de metilación de uno o más biomarcadores de metilación, y composiciones relacionadas con los mismos. En diversas realizaciones, la presente divulgación proporciona métodos para la detección (p. ej., cribado) que incluyen la detección (p. ej., cribado) del estado de metilación de uno o más biomarcadores de metilación en cfDNA, p. ej., en ctDNA. En diversas realizaciones, la presente divulgación proporciona métodos para el cribado que incluyen la detección (p. ej., cribado) del estado de metilación de uno o más biomarcadores de metilación en cfDNA, p. ej., en ctDNA, utilizando técnicas de secuenciación de próxima generación. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Métodos para la detección de enfermedades

CAMPO TÉCNICO

Esta invención se refiere en general a métodos y sistemas para identificar biomarcadores para la detección de una enfermedad o afección, tal como cáncer.

ANTECEDENTES

La detección de enfermedades es un componente importante de la prevención de la progresión de enfermedades, el diagnóstico y el tratamiento. Por ejemplo, se ha demostrado que la detección temprana de cáncer colorrectal (CCR) mejora drásticamente los resultados de aquellos que padecen CCR a través del tratamiento temprano de CCR. Sin embargo, a pesar de la disponibilidad de las herramientas actuales para cribar y diagnosticar CCR y otros cánceres, millones de individuos todavía mueren anualmente por enfermedades, tales como el CCR, que son tratables a través de una intervención y detección tempranas. Las herramientas actuales para cribar y diagnosticar enfermedades son insuficientes.

La metilación del ADN es un mecanismo de control que afecta a numerosos procesos celulares incluyendo, por ejemplo, diferenciación celular. La desregulación de la metilación, por tanto, puede conducir a enfermedades, incluyendo cáncer. La acumulación de cambios en la metilación del ADN (por ejemplo, hipermetilación o hipometilación), especialmente cuando los cambios se localizan en genes cruciales, puede dar como resultado células cancerosas. Estos cambios en el estado de metilación, si se detectan, pueden usarse para predecir la susceptibilidad de un sujeto a desarrollar cáncer, así como el desarrollo o la presencia de cáncer y, potencialmente, otras enfermedades.

El método más común para analizar el estado de metilación en todo el genoma de un organismo dado es la secuenciación con bisulfito del genoma completo (WGBS). En este método, el estado de metilación de citosinas individuales del ADN de muestra se determina tratando en primer lugar el ADN (por ejemplo, en forma fragmentada) con bisulfito de sodio antes de la secuenciación. Está presente metilación del ADN en mamíferos principalmente en dinucleótidos CpG (un dinucleótido CpG es una región de ADN donde un nucleótido de citosina va seguido por un nucleótido de guanina en la secuencia lineal de bases a lo largo de su dirección 5’ ® 3’. En WGBS, se usa bisulfito de sodio para convertir citosinas sin metilar en uracilo, mientras que las formas metiladas de citosina (por ejemplo, 5-metilcitosina y 5-hidroximetilcitosina) permanecen sin cambios. Los fragmentos de ADN tratados con bisulfito se secuencian después, por ejemplo, por medio de una técnica de secuenciación de última generación. Se requieren algoritmos y/o herramientas específicos tales como Bismark para mapear las lecturas de secuencia y la llamada de metilación en el contexto de CpG, CHG y CHH con una resolución de una sola base. Por tanto, la técnica de WGBS identifica los sitios de metilación de una sola citosina en todo el genoma. Sin embargo, el método puede tener baja resolución de regiones genómicas cortas específicas que podrían ser útiles como biomarcadores de una enfermedad o afección particular en un contexto de análisis de regiones metiladas diferencialmente adicional.

Por tanto, existe la necesidad de métodos, sistemas y aparatos mejorados para analizar el estado de metilación del ADN e identificar biomarcadores de metilación. En particular, existe la necesidad de métodos para su uso en el diagnóstico y/o la clasificación de neoplasias colorrectales.

SUMARIO

La presente divulgación proporciona, entre otras cosas, diversos sistemas, métodos y aparatos para identificar biomarcadores para la detección de una enfermedad o afección. Una enfermedad o afección comentada en el presente documento puede ser, por ejemplo, adenoma avanzado, cáncer colorrectal, otros cánceres u otras enfermedades o afecciones asociadas con un estado de metilación aberrante (por ejemplo, enfermedades neurodegenerativas, trastornos gastrointestinales, y similares).

En diversas realizaciones, la presente divulgación proporciona métodos para detectar cáncer colorrectal y/o adenoma avanzado que incluyen el análisis de uno o más biomarcadores de metilación en ADNlc (por ejemplo, ADNct) de un sujeto. En diversas realizaciones, la presente divulgación proporciona métodos para la detección de cáncer colorrectal y/o adenoma avanzado que incluyen determinar el estado de metilación de uno o más biomarcadores de metilación en ADN, por ejemplo, ADNlc usando una técnica de secuenciación de última generación (NGS) (por ejemplo, una técnica de NGS dirigida, una técnica de NGS basada en captura híbrida). Diversos métodos proporcionados en el presente documento son útiles en el cribado de cáncer colorrectal y/o adenoma avanzado mediante el análisis de una muestra de tejido accesible de un sujeto, por ejemplo, un amuestra de tejido que es sangre con un componente sanguíneo (por ejemplo, ADNlc, por ejemplo, ADNct).

En diversas realizaciones, los métodos descritos en el presente documento incluyen el cribado de mutaciones de uno o más marcadores de mutación en ADNlc, por ejemplo, ADNct. Las mutaciones identificadas a través de los métodos de detección descritos en el presente documento pueden usarse para clasificar y/o diagnosticar adicionalmente una enfermedad o afección en combinación con el/los estado(s) de metilación de los biomarcadores de metilación. Por ejemplo, la presencia de mutaciones en marcadores de mutación y el/los estado(s) de metilación de marcadores de metilación puede adquirirse (por ejemplo, simultáneamente) en el mismo ensayo (por ejemplo, un ensayo de NGS) realizado sobre una única muestra. La obtención de información correspondiente a marcadores de metilación y mutación en el mismo ensayo permite una disminución de los costes y un aumento de la eficiencia al no tener que realizar ensayos separados.

Adicional o alternativamente, los marcadores de mutación pueden permitir una clasificación adicional de una enfermedad o afección (por ejemplo, cáncer). La presencia y/o ausencia de una o más mutaciones puede permitir también la identificación o recomendación de terapias para el tratamiento de la enfermedad y/o afección.

En diversas realizaciones, la presente divulgación se refiere a métodos y/o sistemas para identificar el estado de metilación de un biomarcador de metilación en ADNlc de a sujeto (por ejemplo, un sujeto humano) y/o detectar (por ejemplo, cribar) una enfermedad y/o afección (por ejemplo, cáncer) basándose en el estado de metilación de uno o más biomarcadores conocidos.

La presente divulgación se refiere a un método de detección de cáncer colorrectal en un sujeto humano, comprendiendo el método: determinar un estado de metilación de al menos una porción de cada de las DMR de la tabla 9, tabla 10, tabla 11 y/o figura 2; identificadas en ADN de una muestra obtenida del sujeto, y determinar si el sujeto tiene cáncer colorrectal basándose al menos en parte en que el estado de metilación determinado de al menos una porción de cada una de las DMR de las tablas 9, 10, 11 y/o la figura 2 es mayor o menor que en comparación con una muestra de referencia de un sujeto no afectado por la enfermedad.

En determinadas realizaciones, cada una de las DMR de la tabla 9, tabla 10, tabla 11 y/o figura 2 es un locus de metilación que comprende al menos una porción que comprende al menos tres (3) CpG y cada dicho locus de metilación tiene una longitud igual a o menor de 5000 pb.

En determinadas realizaciones, se usan los valores de metilación de lectura obtenidos de lecturas de biomarcadores de metilación para identificar o diagnosticar una enfermedad, por ejemplo, usando un modelo de clasificación. En determinadas realizaciones, un valor de metilación de lectura para un biomarcador de metilación puede basarse en una comparación de un número de lecturas metiladas de una muestra de ADN de control no afectada por la enfermedad y/o afección (por ejemplo, ADNlc de un sujeto “sano”, ADN de capa leucocitaria, ADN de un tejido “sano”) en comparación con un número de lecturas metiladas de una muestra de ADN patológica afectada por la enfermedad o afección (por ejemplo, ADNlc, por ejemplo, ADNct).

En diversas realizaciones, la presente divulgación se refiere a métodos y/o sistemas para obtener valores de metilación de lectura de uno o más biomarcadores diana (por ejemplo, DMR) usando datos de secuenciación de NGS. Aunque se entiende que el estado de metilación de marcadores individuales puede cambiar en el ADN de un sujeto aquejado de una enfermedad, las herramientas actuales basadas en bioinformática usadas para identificar la metilación anómala son insuficientes para detectar con precisión patrones de metilación anómalos. Por ejemplo, las herramientas actuales no son suficientemente sensibles a cambios en los estados de metilación entre los estados de control y patológico para detectar cambios de metilación significativos en los marcadores de metilación. Adicionalmente, tales herramientas padecen de una alta relación de señal con respecto a ruido, particularmente cuando se usa ADNlc como fuente de muestra ya que, en determinadas enfermedades, la cantidad de ADNlc en una muestra puede ser pequeña en muestras de sangre o plasma. Una evaluación de lectura de metilación permite una identificación y evaluación de metilación más apropiadas.

En diversas realizaciones, la presente divulgación se refiere a métodos y/o sistemas para realizar secuenciación de última generación (NGS) en muestras de ADN, por ejemplo, ADNlc. La secuenciación de NGS en muestras de ADN se realiza normalmente usando conjuntos convencionales de kits fabricados y técnicas. Sin embargo, las técnicas de NGS convencionales pueden cubrir insuficientemente regiones diana, particularmente ya que el contenido de GC de las regiones puede variar ampliamente de una región a otra. Por ejemplo, los marcadores de metilación pueden tener un alto contenido de GC mientras que los marcadores de mutación pueden tener un bajo contenido de GC. En determinadas condiciones de secuenciación de NGS, las variaciones en el contenido de G<c>pueden conducir a la sobrerrepresentación de regiones que tienen alto contenido de GC y/o a la subrepresentación de regiones de bajo contenido de GC. Las etapas tomadas para mejorar la cobertura de GC de regiones de alto contenido de GC pueden, a su vez, disminuir la cobertura de regiones de bajo contenido de GC (o viceversa). Además, las técnicas de secuenciación de NGS actuales carecen de medios suficientes para determinar la calidad de datos de las muestras.

En determinadas realizaciones, los métodos y sistemas dados a conocer en el presente documento pueden mejorar la calidad de los datos de secuenciación de NGS. En determinadas realizaciones, la cobertura de regiones de bajo contenido de GC puede mejorarse alterando el diseño de la sonda y/o los parámetros experimentales relacionados con el procesamiento de muestras de ADN. Por ejemplo, la secuenciación de un marcador de mutación con bajo contenido de CG puede mejorarse aumentando la densidad de embaldosado de sondas y/o solapando sondas sobre la región de bajo contenido de GC. En determinadas realizaciones, la tasa de pérdida de GC se usa como valor de control de calidad para evaluar la cobertura de secuenciación de NGS. La tasa de pérdida de GC es indicativa de la cobertura de regiones diana de alto contenido de GC (por ejemplo, regiones que tienen más del 50 % de contenido de GC). En determinadas realizaciones, son deseables datos de secuenciación que tienen una baja tasa de pérdida de GC (por ejemplo, 6 % o menos).

En determinadas realizaciones, se usan tasas de conversión de ADN para evaluar cuantitativamente la calidad de los datos de NGS. Por ejemplo, la conversión de una secuencia de control de ADN (por ejemplo, un control de adición conocida) puede usarse para evaluar las tasas de conversión (por ejemplo, conversión enzimática o bisulfito) de citosinas no metiladas y/o metiladas a uracilo. Una alta eficiencia de conversión de citosinas no metiladas en uracilo es deseable cuando, por ejemplo, se usa bisulfito o tratamiento enzimático de ADN. Las citosinas sin convertir se identifican normalmente como metiladas cuando se revisan los datos del ADN convertido y secuenciado. En determinadas realizaciones, son deseables bajas tasas de conversión de citosinas metiladas en uracilo. En determinadas realizaciones, los parámetros relacionados con la conversión de ADN se cambian para potenciar o alterar las tasas de conversión. Por ejemplo, puede usarse un aumento de la razón de reactivo bisulfito con respecto a ADN para alterar las tasas de conversión. En determinadas realizaciones, la alteración de una etapa de termociclador que incluye varios ciclos (por ejemplo, varias etapas de desnaturalización y conversión), el tiempo de una etapa en un ciclo, la temperatura de un ciclo, o una combinación de los mismos, puede ajustarse para afectar a una tasa de conversión.

En un aspecto, la invención se refiere a un método que comprende: convertir citosinas no metiladas de una pluralidad de fragmentos de ADN en una muestra en uracilos para generar una pluralidad de fragmentos de ADN convertidos, en donde la pluralidad de fragmentos de ADN se obtuvieron de una muestra biológica; y secuenciar la pluralidad de fragmentos de ADN convertidos para generar una pluralidad de lecturas de secuencia, en donde cada lectura de secuencia corresponde a un fragmento de ADN convertido.

En determinadas realizaciones, convertir las citosinas no metiladas de la pluralidad de fragmentos de ADN comprende someter la pluralidad de fragmentos de ADN a tratamiento con bisulfito. En determinadas realizaciones, la pluralidad de fragmentos de ADN comprende fragmentos de ADN bicatenario y el tratamiento con bisulfito comprende: (i) desnaturalizar la pluralidad de fragmentos de ADN en la muestra para generar una pluralidad de fragmentos de ADN monocatenario, y (ii) convertir citosinas no metiladas de la pluralidad de fragmentos de ADN monocatenario en uracilos para generar la pluralidad de fragmentos de ADN convertidos. En determinadas realizaciones, la etapa de desnaturalización de (i) se realiza a una temperatura de 90-97 °C. En determinadas realizaciones, la etapa de desnaturalización de (i) se realiza durante menos de 10 minutos, menos de 5 minutos, o menos de 2 minutos (por ejemplo, para cada repetición si se repite la etapa (i)). En determinadas realizaciones, la etapa de conversión de (ii) se realiza a una temperatura de 55-65 °C. En determinadas realizaciones, la etapa de conversión de (ii) se realiza durante menos de 5 horas, menos de 4,5 horas, menos de 4 horas, menos de 3 horas, menos de 2 horas, menos de 1 hora, menos de 30 minutos, o menos de 15 minutos, menos de 5 min (por ejemplo, para cada repetición si se repite la etapa (i)). En determinadas realizaciones, la etapa de desnaturalización de (i) se realiza a una temperatura en un intervalo de 93 °C a 97 °C (por ejemplo, a aproximadamente 95 °C) durante aproximadamente 1 minuto, y la etapa de conversión de (ii) se realiza a una temperatura en un intervalo de 58 °C a 62 °C (por ejemplo, a 60 °C) durante aproximadamente 10 minutos. En determinadas realizaciones, la etapa de desnaturalización de (i) y la etapa de conversión de (ii) se repiten. En determinadas realizaciones, la etapa de desnaturalización de (i) y la etapa de conversión de (ii) se repiten al menos cinco veces, al menos diez veces, al menos quince veces o al menos 20 veces.

En determinadas realizaciones, convertir las citosinas no metiladas de la pluralidad de fragmentos de ADN comprende someter la pluralidad de fragmentos de ADN a un tratamiento enzimático.

En determinadas realizaciones, convertir las citosinas no metiladas de la pluralidad de fragmentos de ADN comprende desnaturalizar la pluralidad de fragmentos de ADN (por ejemplo, usando formamida, usando hidróxido de sodio).

En determinadas realizaciones, la desnaturalización de la pluralidad de fragmentos de ADN se realiza antes de someter la pluralidad de fragmentos de ADN al tratamiento enzimático.

En determinadas realizaciones, el tratamiento enzimático comprende poner en contacto la pluralidad de fragmentos de ADN con un miembro de la familia similar a polipéptido catalítico de edición de ARNm de apoliproteína B (APOBEC) (por ejemplo, APOBEC-1, APOBEC-2, APOBEC-3A, APOBEC-3B, APOBEC-3C, APOBEC-3D, APOBEC-3E, ApOb Ec -3F, APOBEC-3G. APOBEC-3H, APOBEC-4, y/o desaminasa inducida por activación (citidina) (AID)) (por ejemplo, en donde la pluralidad de fragmentos de ADN se pone en contacto con APOBEC, por ejemplo, un tampón de reacción de APOBEC).

En determinadas realizaciones, someter la pluralidad de fragmentos de ADN a un tratamiento enzimático se realiza durante menos de 4 horas, menos de 3 horas, menos de 2 horas, menos de 1 hora, menos de 30 minutos o menos de 15 minutos (por ejemplo, en donde la pluralidad de fragmentos de ADN se somete a tratamiento con APOBEC de aproximadamente 2 a aproximadamente 4 h, por ejemplo, aproximadamente 3 h).

En determinadas realizaciones, la pluralidad de fragmentos de ADN comprende una pluralidad de fragmentos de ADN libre de células (ADNlc).

En determinadas realizaciones, la pluralidad de fragmentos de ADN comprende fragmentos de ADN celular.

En determinadas realizaciones, la pluralidad de fragmentos de ADN (en total) comprende al menos 1 ng, al menos 5 ng, al menos 10 ng, o al menos 20 ng de ADN.

En determinadas realizaciones, la pluralidad de fragmentos de ADN consiste esencialmente en fragmentos de ADN cada uno de los cuales tiene una longitud en un intervalo de 100 pb a 600 pb (por ejemplo, de aproximadamente 125 pb a aproximadamente 200 pb, o de aproximadamente 140 pb a aproximadamente 160 pb (por ejemplo, para ADNlc)) (por ejemplo, de aproximadamente 150 pb a aproximadamente 350 pb, o de aproximadamente 200 pb a aproximadamente 300 pb (por ejemplo, para ADN cortado)).

En determinadas realizaciones, la pluralidad de fragmentos de ADN consiste esencialmente en fragmentos de ADN cada uno de los cuales tiene una longitud en un intervalo de 1000 pb a 200.000 pb [por ejemplo, que tiene una longitud promedio de aproximadamente 10.000 pb (por ejemplo, para ADN genómico, por ejemplo, de una muestra que comprende tejido o capa leucocitaria)].

En determinadas realizaciones, la pluralidad de lecturas de secuencia son al menos 50 pb, al menos 100 pb, al menos 150 pb, al menos 200 pb, al menos 300 pb, al menos 400 pb, al menos 500 pb o más.

En determinadas realizaciones, la etapa de secuenciación comprende secuenciación de extremos emparejados.

En determinadas realizaciones, la etapa de secuenciación comprende secuenciación de un solo extremo.

En determinadas realizaciones, la muestra biológica comprende sangre, suero, orina, plasma o heces.

En determinadas realizaciones, la muestra biológica comprende células colorrectales, células de pólipos, células glandulares o células cancerosas.

En determinadas realizaciones, la muestra biológica es una muestra biológica de un mamífero.

En determinadas realizaciones, la muestra biológica es una muestra biológica de un ser humano.

En determinadas realizaciones, el método comprende además fragmentar ADN de la muestra biológica para generar la pluralidad de fragmentos de ADN.

En determinadas realizaciones, el método comprende unir adaptadores a la pluralidad de fragmentos de ADN convertidos (por ejemplo, antes de la etapa de secuenciación). En determinadas realizaciones, el método comprende unir un adaptador a ambos extremos 5’ y 3’ de la pluralidad de fragmentos de ADN convertidos. En determinadas realizaciones, la etapa de unión se realiza de manera que al menos el 40 %, al menos el 50 %, al menos el 60 %, al menos el 70 % de los fragmentos de ADN convertidos se unen al adaptador. En determinadas realizaciones, los adaptadores comprenden un índice de muestra. En determinadas realizaciones, los adaptadores comprenden un código de barras de fragmento. En determinadas realizaciones, unir un adaptador comprende ligación. En determinadas realizaciones, unir un adaptador comprende PCR. En determinadas realizaciones, la etapa de unión se realiza de manera que al menos el 40 %, al menos el 50 %, al menos el 60 %, al menos el 70 % de los fragmentos de ADN convertidos tienen un adaptador unidor a ambos extremos 5’ y 3’. En determinadas realizaciones, el adaptador en el extremo 5’, el extremo 3’ ambos de los fragmentos de ADN monocatenario convertidos comprende un índice de muestra. En determinadas realizaciones, el adaptador en el extremo 5’, el extremo 3’ o ambos de los fragmentos de ADN monocatenario convertidos comprende un código de barras de fragmento. En determinadas realizaciones, el código de barras de fragmento en cada uno de los fragmentos de ADN monocatenario convertidos es diferente. En determinadas realizaciones, el código de barras de fragmento en al menos dos de los fragmentos de ADN monocatenario convertidos es el mismo, en donde los al menos dos fragmentos de ADN monocatenario convertidos no están en un apareamiento de Watson-Crick entre sí en la muestra biológica.

En determinadas realizaciones, el método comprende amplificar la pluralidad de fragmentos de ADN convertidos a los que se han unido adaptadores (por ejemplo, en donde el método comprende amplificar una biblioteca preparada usando fragmentos de ADN convertidos).

En determinadas realizaciones, el método comprende además enriquecer los fragmentos de ADN convertidos. En determinadas realizaciones, enriquecer comprende enriquecer selectivamente. En determinadas realizaciones, enriquecer selectivamente comprende amplificación. En determinadas realizaciones, enriquecer selectivamente comprende captura híbrida. En determinadas realizaciones, la captura híbrida comprende capturar un subconjunto de fragmentos de ADN convertidos con sondas de captura que se dirigen a una o más regiones genómicas (por ejemplo, DMR) en un genoma de interés.

En determinadas realizaciones, la una o más regiones genómicas comprenden regiones que comprenden uno o más sitios CpG.

En determinadas realizaciones, la una o más regiones genómicas comprenden regiones de alto contenido de GC (por ejemplo, de aproximadamente el 70 % a aproximadamente 80 % de contenido de GC) o bajo contenido de GC (por ejemplo, de aproximadamente el 30 % a aproximadamente el 40 % de contenido de GC).

En determinadas realizaciones, la una o más regiones genómicas comprenden regiones de contenido de GC que varía de aproximadamente el 50 % a aproximadamente el 60 % de contenido de GC.

En determinadas realizaciones, la una o más regiones genómicas comprenden una o más mutaciones genómicas. En determinadas realizaciones, la una o más regiones genómicas comprenden tanto (i) regiones que comprenden uno o más sitios CpG como (ii) regiones que se sabe que incluyen una o más mutaciones genómicas.

En determinadas realizaciones, la una o más mutaciones genómicas comprenden una variante de un solo nucleótido, una inversión, una deleción, una inserción, una transversión, una translocación, una fusión, un truncamiento, una amplificación, o una combinación de los mismos.

En determinadas realizaciones, la una o más regiones genómicas comprenden al menos una porción de un gen NRAS, un gen PTEN, un gen PIK3CA, un gen STK11, un gen TP53, un gen K it , un gen MET, un gen KRAS, un gen BRAF o un gen EGFR.

En determinadas realizaciones, las sondas de captura son sondas de captura solapantes (por ejemplo, en donde las sondas de captura están embaldosadas). En determinadas realizaciones, las sondas de captura se solapan en al menos 10 pb, al menos 20 pb, al menos 30 pb, al menos 40 pb, al menos 50 pb, al menos 60 pb, al menos 70 pb, al menos 80 pb, al menos 90 pb o al menos 100 pb.

En determinadas realizaciones, las sondas de captura son de aproximadamente 50 pb a aproximadamente 200 pb de longitud (por ejemplo, aproximadamente 120 pb de longitud).

En determinadas realizaciones, las sondas de captura comprenden al menos una sonda de captura que se dirige a una región genómica completamente metilada.

En determinadas realizaciones, las sondas de captura comprenden al menos una sonda de captura que se dirige a una región genómica completamente no metilada.

En determinadas realizaciones, las sondas de captura comprenden al menos una sonda de captura que se dirige a una región genómica parcialmente metilada (por ejemplo, en donde al menos 1 sitio CpG está metilado).

En determinadas realizaciones, las sondas de captura dirigidas a una región genómica (por ejemplo, una región completamente metilada, una región parcialmente metilada, una región completamente no metilada) no capturan un fragmento de ADN que se corresponde exactamente con la secuencia seleccionada como diana. Una sonda de captura puede unirse (por ejemplo, hibridarse) a un fragmento de ADN y formar un enlace apareado erróneamente entre algunos pares de bases (por ejemplo, apareamientos de bases distintos de Watson-Crick). Por ejemplo, en determinadas realizaciones, pueden tolerarse hasta 8 apareamientos erróneos (por ejemplo, apareamientos de bases distintos de Watson-Crick) cuando una sonda de captura se une a (por ejemplo, se hibrida con) un fragmento de ADN. Los apareamientos erróneos permiten que las sondas de captura que, por ejemplo, se dirigen a una región genómica completamente metilada se hibride con fragmentos de ADN que pueden estar parcialmente metilados.

En determinadas realizaciones, las sondas de captura comprenden al menos una sonda de captura que se dirige a una hebra codificante.

En determinadas realizaciones, las sondas de captura comprenden al menos una sonda de captura que se dirige a una hebra molde (por ejemplo, hebra no codificante).

En determinadas realizaciones, las sondas de captura comprenden un grupo de sondas de captura que se dirigen a al menos una de la una o más regiones genómicas, en donde el grupo de sondas de captura comprende: (i) al menos una sonda de captura que se dirige a una hebra molde completamente metilada de la región genómica; (ii) al menos una sonda de captura que se dirige a una hebra codificante completamente metilada de la región genómica; (iii) al menos una sonda de captura que se dirige a una hebra molde completamente no metilada de la región genómica; y (iv) al menos una sonda de captura que se dirige a una hebra codificante completamente no metilada de la región genómica (por ejemplo, en donde el grupo de sondas de captura tiene al menos cuatro sondas de captura que se dirigen a la región genómica - una sonda de captura dirigida a una versión metilada de la hebra directa (por ejemplo, codificante), una sonda de captura dirigida a una versión no metilada de la hebra directa (por ejemplo, codificante), una sonda de captura dirigida a una versión metilada de la hebra inversa (por ejemplo, no codificante), y una sonda de captura dirigida a una versión no metilada de la hebra inversa (por ejemplo, no codificante)).

En determinadas realizaciones, las sondas de captura que se dirigen a una o más regiones genómicas en el genoma de interés se dirigen a no más de 1000 regiones similares, no más de 500 regiones similares, no más de 400 regiones similares, no más de 300 regiones similares, no más de 200 regiones similares, no más de 100 regiones similares, no más de 25 regiones similares, no más de 10 regiones similares, no más de 5 regiones similares a la una o más regiones genómicas en el genoma de interés (por ejemplo, en donde la sonda de captura que se dirige a una de la una o más regiones genómicas se hibrida con no más de 1000 regiones similares a la región de interés seleccionada como diana) (por ejemplo, en donde la similitud de una región genómica diana y otra región similar se cuantifica usando una ventana de secuencia de 24 pb). En determinadas realizaciones, (i) un primer conjunto de sondas de captura se dirige a una o más regiones genómicas que comprenden regiones que comprenden uno o más sitios CpG y un segundo conjunto de sondas de captura se dirige a una o más regiones genómicas que se sabe que incluyen una o más mutaciones genómicas, y (ii) el primer conjunto de sondas de captura no incluye sondas de captura solapantes y el segundo conjunto de sondas de captura sí incluye sondas de captura solapantes. En determinadas realizaciones, las sondas solapantes se solapan al menos el 10 %, al menos el 20 %, al menos el 30 %, al menos el 40 %, al menos el 50 %, al menos el 60 % o más.

En determinadas realizaciones, al menos dos de las sondas de captura se dirigen a la misma región genómica.

En determinadas realizaciones, al menos 2, al menos 4, al menos 9, al menos 10, al menos 25, al menos 50, al menos 75, al menos 100, al menos 150, al menos 200, al menos 203, al menos 220 regiones genómicas se seleccionan como diana por las sondas de captura.

En determinadas realizaciones, las sondas de captura son sondas de ARN.

En determinadas realizaciones, las sondas de captura son sondas de ADN.

En determinadas realizaciones, cada una de la una o más regiones genómicas es igual a o menor de 5000 pb, 4000 pb, 3000 pb, 2000 pb, 1000 pb, 950 pb, 900 pb, 850 pb, 800 pb, 750 pb, 700 pb, 650 pb, 600 pb, 550 pb, 500 pb, 450 pb, 400 pb, 350 pb, 300 pb, 250 pb, 200 pb, 150 pb, 100 pb, 50 pb, 40 pb, 30 pb, 20 pb o 10 pb de longitud.

En determinadas realizaciones, al menos una de la una o más regiones genómicas tiene una longitud de al menos 5000 pb, 4000 pb, 3000 pb, 2000 pb, 1000 pb, 950 pb, 900 pb, 850 pb, 800 pb, 750 pb, 700 pb, 650 pb, 600 pb, 550 pb, 500 pb, 450 pb, 400 pb, 350 pb, 300 pb, 250 pb, 200 pb, 150 pb, 100 pb, 50 pb, 40 pb, 30 pb, 20 pb o 10 pb.

En determinadas realizaciones, el método comprende además amplificar los fragmentos de ADN convertidos. En determinadas realizaciones, la etapa de amplificación se produce después de la etapa de enriquecimiento selectivo.

En determinadas realizaciones, la pluralidad de fragmentos de ADN convertidos que se secuencian corresponden a al menos el 30 %, al menos el 40 % o al menos el 50 % de los fragmentos de ADN convertidos que se capturaron mediante captura híbrida.

En determinadas realizaciones, el método comprende además añadir moléculas de ADN de control a la muestra, en donde la secuencia, el número de bases metiladas y el número de bases no metiladas de las moléculas de ADN de control se habían determinado antes de la adición del ADN de control la muestra. En determinadas realizaciones, el método comprende además convertir citosinas no metiladas de las moléculas de ADN de control en la muestra en uracilos para generar moléculas de ADN de control convertidas; y secuenciar las moléculas de ADN de control convertidas para generar una pluralidad de lecturas de secuencia de control. En determinadas realizaciones, la conversión de citosinas no metiladas de las moléculas de ADN de control y los fragmentos de ADN se produce simultáneamente. En determinadas realizaciones, la secuenciación de las moléculas de ADN de control convertidas y los fragmentos de ADN se produce simultáneamente. En determinadas realizaciones, el método comprende además determinar el número de citosinas no metiladas de las moléculas de ADN de control que se convirtieron en uracilos.

En determinadas realizaciones, al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 % de las citosinas no metiladas de las moléculas de ADN de control se convierten en uracilos.

En determinadas realizaciones, el método comprende además determinar el número de citosinas metiladas de las moléculas de ADN de control que se convirtieron en uracilos. En determinadas realizaciones, como máximo el 5 %, como máximo el 4 %, como máximo el 3 %, como máximo el 2 % o como máximo el 1 % de las citosinas metiladas de la pluralidad de fragmentos de ADN se convierten en uracilos.

En otro aspecto, la invención se refiere a un método que comprende: mapear una pluralidad de lecturas de secuencia en una secuencia de referencia, en donde la pluralidad de lecturas de secuencia corresponde a una pluralidad de fragmentos de ADN convertidos en una muestra (por ejemplo, una muestra de ADNlc de un sujeto para el que se desconoce si el sujeto padece una enfermedad, un trastorno o una afección asociado con niveles aberrantes de metilación del ADN), en donde las citosinas no metiladas de una pluralidad de fragmentos de ADN en la muestra se habían convertido en uracilos para generar la pluralidad de fragmentos de ADN convertidos, la pluralidad de lecturas de secuencia comprende uno o más subconjuntos de lecturas de secuencia que (por ejemplo, colectivamente) se mapean en una o más regiones genómicas, y cada subconjunto de lecturas de secuencia comprende lecturas de secuencia que se mapean en una región genómica única (por ejemplo, una DMR); y determinar un nivel de metilación para cada uno del uno o más subconjuntos de lecturas de secuencia [(por ejemplo, determinar un nivel de metilación para cada subconjunto de lecturas de secuencia) (por ejemplo, determinar un nivel de metilación para cada región genómica) (por ejemplo, en donde el nivel de metilación para un subconjunto dado corresponde a un número de lecturas de secuencia en el subconjunto que cumplen una condición umbral (por ejemplo, normalizada por un tamaño de biblioteca), por ejemplo, en donde la condición umbral comprende un recuento de CpG total mínimo y un recuento de CpG metilado mínimo (por ejemplo, % mínimo de CpG que están metilados)) (por ejemplo, en donde una lectura dada para una DMR no cubre necesariamente toda la DMR)].

En determinadas realizaciones, el método comprende además: mapear la pluralidad de lecturas de secuencia en una secuencia de referencia, en donde la pluralidad de lecturas de secuencia corresponde a una pluralidad de fragmentos de ADN convertidos en una muestra, en donde las citosinas no metiladas de una pluralidad de fragmentos de ADN en una muestra se habían convertido en uracilos para generar la pluralidad de fragmentos de ADN convertidos, la pluralidad de lecturas de secuencia comprende uno o más subconjuntos de lecturas de secuencia que (por ejemplo, colectivamente) se mapean en una o más regiones genómicas, y cada subconjunto de lecturas de secuencia comprende lecturas de secuencia que se mapean en una región genómica única (por ejemplo, una DMR); y determinar un nivel de metilación para cada uno del uno o más subconjuntos de lecturas de secuencia [(por ejemplo, determinar un nivel de metilación para cada subconjunto de lecturas de secuencia) (por ejemplo, un nivel de metilación para cada región genómica) (por ejemplo, en donde el nivel de metilación para un subconjunto dado corresponde a un número de lecturas de secuencia en el subconjunto que cumplen una condición umbral (por ejemplo, normalizada por un tamaño de biblioteca), por ejemplo, en donde la condición umbral comprende un recuento de CpG total mínimo y un recuento de CpG metilado mínimo (por ejemplo, el % mínimo de CpG que están metilados)) (por ejemplo, en donde una lectura dada para una DMR no cubre necesariamente toda la DMR)].

En determinadas realizaciones, al menos una de la una o más regiones genómicas tiene una longitud de al menos 5000 pb, 4000 pb, 3000 pb, 2000 pb, 1000 pb, 950 pb, 900 pb, 850 pb, 800 pb, 750 pb, 700 pb, 650 pb, 600 pb, 550 pb, 500 pb, 450 pb, 400 pb, 350 pb, 300 pb, 250 pb, 200 pb, 150 pb, 100 pb, 50 pb, 40 pb, 30 pb, 20 pb, 10 pb o 8 pb.

En determinadas realizaciones, la una o más regiones genómicas comprenden al menos 2, al menos 4, al menos 9, al menos 10, al menos 25, al menos 50, al menos 75, al menos 100, al menos 150, al menos 200, al menos 203, al menos 220 regiones genómicas.

En determinadas realizaciones, la secuencia de referencia es un genoma convertido con bisulfito.

En determinadas realizaciones, la secuencia de referencia es un genoma humano convertido con bisulfito. En determinadas realizaciones, determinar un nivel de metilación para cada uno del uno o más subconjuntos de lecturas de secuencia comprende: determinar, para una lectura de secuencia dada, un número total de sitios CpG y un número total de sitios CpG metilados. En determinadas realizaciones, determinar un nivel de metilación para cada uno del uno o más subconjuntos de lecturas de secuencia comprende: asignar un valor (por ejemplo, un valor binario) a la lectura de secuencia dada, en donde el valor se determina mediante una comparación de (i) el número total de sitios CpG en la lectura, o el número total de sitios CpG metilados en la lectura, o un número basado en el número total de sitios CpG y el número total de sitios CpG metilados en la lectura (por ejemplo, un porcentaje del número total de sitios CpG que están metilados) con (ii) uno o más valores de referencia (por ejemplo, un umbral para el número total de sitios CpG y un umbral para el porcentaje de sitios CpG que están metilados).

En determinadas realizaciones, determinar el nivel de metilación para un subconjunto dado de lecturas de secuencia que se mapean en una región genómica dada comprende sumar los valores asignados a lecturas de secuencia en el subconjunto, y repetir esta determinación para cada subconjunto de lecturas de secuencia (por ejemplo, en donde cada subconjunto de lecturas de secuencia se mapea en una DMR única, y en donde se determina un nivel de metilación para cada DMR). En determinadas realizaciones, el método comprende detectar (por ejemplo, usando un algoritmo de aprendizaje automático) una enfermedad, un trastorno o una afección asociado con niveles aberrantes de metilación del ADN basándose al menos en parte en los valores sumados.

En determinadas realizaciones, el método comprende detectar (por ejemplo, usando un algoritmo de aprendizaje automático) una enfermedad, un trastorno o una afección asociado con niveles aberrantes de metilación del ADN basándose al menos en parte en los niveles de metilación para cada uno del uno o más subconjuntos de lecturas de secuencia.

En determinadas realizaciones, el método comprende además desduplicar lecturas de secuenciación. En determinadas realizaciones, la desduplicación de lecturas de secuenciación se realiza antes de determinar un nivel de metilación para lecturas de secuencia individuales en el uno o más subconjuntos de lecturas de secuencia.

En determinadas realizaciones, la desduplicación de lecturas de secuencia incluye la desduplicación de lecturas de secuencia duplicadas ópticas. En determinadas realizaciones, las lecturas de secuencia duplicadas ópticas comparten una baldosa (por ejemplo, un punto en una celda de flujo usada para NGS). En determinadas realizaciones, una distancia entre las lecturas de secuencia duplicadas ópticas es menor de 2500 pb, menor de 2000 pb, menor de 1500 pb, menor de 1000 pb, menor de 500 pb, menor de 100 pb.

En determinadas realizaciones, la desduplicación de lecturas de secuencia incluye la desduplicación de lecturas de secuenciación duplicadas por PCR y/o lecturas de secuencia duplicadas por sobresecuenciación. En determinadas realizaciones, dos o más lecturas de secuencia se consideran lecturas de secuenciación duplicadas por PCR y/o lecturas de secuencia duplicadas por sobresecuenciación si las dos o más lecturas de secuencia tienen (1) una coordenada de extremo 5’, (2) una coordenada de extremo 3’ y (3) un estado de metilación de cada ubicación de CpG específica dada en la lectura son iguales (por ejemplo, un valor binario asignado a cada ubicación de CpG específica dada en la lectura es el mismo), en donde la coordenada de extremo 5’ y la coordenada de extremo 3’ de una lectura de secuencia corresponden a la posición en la que el nucleótido más 5’ y el nucleótido más 3’, respectivamente, de la lectura de secuencia se mapean en la secuencia de referencia.

En determinadas realizaciones, la desduplicación de lecturas de secuencia no comprende eliminar lecturas de secuencia duplicadas que tienen un estado de metilación diferente en una ubicación de CpG específica.

En determinadas realizaciones, la desduplicación de lecturas de secuencia incluye la desduplicación de lecturas de secuencia correspondientes a hebras encontradas en un par de Watson-Crick entre sí en una muestra biológica.

En determinadas realizaciones, el método comprende eliminar una o más bases de ácido nucleico de uno o ambos extremos de cada una de la pluralidad de lecturas de secuencia antes del mapeo (por ejemplo, en donde la una o más bases de ácido nucleico corresponden a una secuencia adaptadora, un índice y/o un código de barras).

En determinadas realizaciones, el método comprende además determinar una tasa de pérdida de GC para cada subconjunto de lecturas de secuencia. En determinadas realizaciones, la tasa de pérdida de GC es menor del 6 %.

En determinadas realizaciones, mapear la pluralidad de lecturas de secuencia en la secuencia de referencia comprende además determinar una razón en la diana (por ejemplo, porcentaje), en donde la razón en la diana es una razón del número de bases en la diana y/o casi en la diana de la pluralidad de lecturas de secuencia con respecto al número total de bases mapeadas de la pluralidad de lecturas de secuencia. En determinadas realizaciones, la razón en la diana es de al menos el 10 %, al menos el 20 %, al menos el 30 %, al menos el 40 %, al menos el 50 %, al menos el 60 %, al menos el 70 %, al menos el 80 %, al menos el 90 %, al menos el 95 %, al menos el 99 %.

En determinadas realizaciones, mapear la pluralidad de lecturas de secuencia en la secuencia de referencia comprende además determinar una razón fuera de la diana (por ejemplo, porcentaje), en donde la razón fuera de la diana es una razón del número de bases fuera de la diana de la pluralidad de lecturas de secuencia con respecto al número total de bases mapeadas de la pluralidad de lecturas de secuencia. En determinadas realizaciones, la razón fuera de la diana es menor del 95 %, menor del 90 %, menor del 85 %, menor del 80 %, menor del 70 %, menor del 60 %, menor del 50 %, menor del 40 %, menor del 30 %, menor del 20 %, menor del 10 %, menor del 5 %.

En determinadas realizaciones, mapear la pluralidad de lecturas de secuencia en la secuencia de referencia comprende además determinar una puntuación de calidad de mapeo para cada una de la pluralidad de lecturas de secuencia mapeadas, en donde la puntuación de calidad de mapeo es un valor correspondiente a la probabilidad de que una lectura de secuencia esté más colocada (por ejemplo, en donde la posición de mapeo de la secuencia leída es incorrecta) (por ejemplo, en donde la puntuación de calidad de mapeo es una función del logaritmo de la probabilidad de que la secuencia leída esté mal colocada).

En determinadas realizaciones, el método comprende determinar un nivel de metilación para las lecturas de secuencia en el uno o más subconjuntos si la puntuación de calidad de mapeo para la lectura de secuencia es al menos 10, al menos 15, al menos 20, al menos 25, al menos 30.

En determinadas realizaciones, la puntuación de calidad de mapeo es una puntuación de calidad de mapeo de un solo extremo. En determinadas realizaciones, la puntuación de calidad de mapeo es una puntuación de calidad de mapeo de extremos emparejados.

En determinadas realizaciones, el método comprende además detectar la presencia o ausencia de una o más mutaciones basándose en la información de secuencia de la pluralidad de lecturas de secuencia. En determinadas realizaciones, la una o más mutaciones genómicas comprenden una variante de un solo nucleótido, una inversión, una deleción, una inserción, una transversión, una translocación, una fusión, un truncamiento, una amplificación o una combinación de los mismos. En determinadas realizaciones, la una o más mutaciones están presentes en uno o más de un gen NRAS, gen PTEN, gen PIK3CA, gen STK11, gen TP53, gen KIT, gen MET, gen KRAS, gen BRAF y gen EGFR.

En determinadas realizaciones, una de la una o más regiones genómicas es un locus de metilación que comprende al menos una porción de (por ejemplo, al menos el 5 %, al menos el 10 %, al menos el 15 %, al menos el 20 %, al menos el 25 %, al menos el 30 %, al menos el 35 %, al menos el 40 %, al menos el 45 %, al menos el 50 %, al menos el 55 %, al menos el 60 %, al menos el 65 %, al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 85 %, al menos el 90 % o al menos el 95 % de) una región metilada diferencialmente (DMR) seleccionada de las DMR de la figura 2 o la figura 3.

En determinadas realizaciones, la una o más regiones genómicas comprenden un locus de metilación dentro del gen DLX6-AS1; y un locus de metilación dentro del gen GDF6.

En determinadas realizaciones, la una o más regiones genómicas comprenden un locus de metilación dentro del gen ZAN. En determinadas realizaciones, la una o más regiones genómicas comprenden además un locus de metilación dentro de [cro14:97412990-97413410](SEQ ID NO: 374).

En determinadas realizaciones, el método es un método de detección de uno o más biomarcadores asociados con cáncer.

En determinadas realizaciones, el método es un método de detección de uno o más biomarcadores asociados con adenoma avanzado.

En determinadas realizaciones, el método es un método de detección de uno o más biomarcadores asociados con cáncer colorrectal.

En determinadas realizaciones, el método es un método de detección de uno o más biomarcadores asociados con una enfermedad, un trastorno o una afección asociado con niveles aberrantes de metilación del ADN. En determinadas realizaciones, la enfermedad, el trastorno o la afección es o comprende un trastorno gastrointestinal o un trastorno neurodegenerativo.

En otro aspecto, la invención se refiere a un método de detección de (por ejemplo, cribado de) cáncer colorrectal en un sujeto humano, comprendiendo el método: determinar un estado de metilación de cada uno de al menos dos o más marcadores identificados en ADN de una muestra obtenida del sujeto, y determinar si el sujeto tiene cáncer colorrectal basándose al menos en parte en el estado de metilación determinado de cada uno de los dos o más marcadores, en donde cada uno de los dos o más marcadores es un locus de metilación que comprende al menos una porción de (por ejemplo, al menos el 5 %, al menos el 10 %, al menos el 15 %, al menos el 20 %, al menos el 25 %, al menos el 30 %, al menos el 35 %, al menos el 40 %, al menos el 45 %, al menos el 50 %, al menos el 55 %, al menos el 60 %, al menos el 65 %, al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 85 %, al menos el 90 % o al menos el 95 % de) una región metilada diferencialmente (DMR) seleccionada de las DMR de la figura 2.

En determinadas realizaciones, el método comprende determinar un estado de metilación de al menos una porción de (por ejemplo, al menos el 5 %, al menos el 10 %, al menos el 15 %, al menos el 20 %, al menos el 25 %, al menos el 30 %, al menos el 35 %, al menos el 40 %, al menos el 45 %, al menos el 50 %, al menos el 55 %, al menos el 60 %, al menos el 65 %, al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 85 %, al menos el 90 % o al menos el 95 % de) cada una de las siguientes DMR:

Tabla 8: Panel de 2 DMR para CRC

Tabla 9: Panel de 4 DMR para CRC

En determinadas realizaciones, el método comprende determinar un estado de metilación de al menos una porción de (por ejemplo, al menos el 5 %, al menos el 10 %, al menos el 15 %, al menos el 20 %, al menos el 25 %, al menos el 30 %, al menos el 35 %, al menos el 40 %, al menos el 45 %, al menos el 50 %, al menos el 55 %, al menos el 60 %, al menos el 65 %, al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 85 %, al menos el 90 %, o al menos el 95 % de) cada una de las siguientes DMR:

Tabla 10: Panel de 9 DMR para CRC

En determinadas realizaciones, la muestra es una muestra de tejido (por ejemplo, tejido colorrectal, por ejemplo, un pólipo, un adenoma), una muestra de sangre, una muestra de heces o una muestra de producto sanguíneo (por ejemplo, una muestra de plasma).

En determinadas realizaciones, la muestra comprende ADN que se aísla de la sangre o plasma del sujeto humano 2.

En determinadas realizaciones, el ADN es ADN libre de células (ADNlc) del sujeto humano.

En determinadas realizaciones, el método comprende determinar el estado de metilación de cada uno del uno o más marcadores usando secuenciación de última generación (NGS).

En determinadas realizaciones, el método comprende usar uno o más cebos de captura que enriquecen una región diana para capturar uno o más locus / loci de metilación correspondientes. En determinadas realizaciones, cada locus de metilación es igual a o menor de 5000 pb de longitud. En determinadas realizaciones, el método comprende además para un sujeto que se determina mediante el método que tiene cáncer colorrectal, determinar (por ejemplo, determinar simultáneamente) la presencia de una mutación (por ejemplo, una variación de un solo nucleótido) en uno o más marcadores de mutación identificados en una muestra obtenida del sujeto.

En determinadas realizaciones, el uno o más marcadores de mutación comprenden al menos una porción de uno o más de los siguientes genes: NRAS, PTEN, KRAS, PIK3CA, EGFR, BRAF, STK11, TP53, KIT y MET.

En determinadas realizaciones, el método comprende además clasificar el cáncer colorrectal basándose en la presencia de una o más mutaciones identificadas en los marcadores de mutación. En determinadas realizaciones, la clasificación comprende identificar que el cáncer colorrectal es tratable mediante una terapia particular (por ejemplo, agente terapéutico, fármaco, etc.) basándose al menos en parte en la una o más mutaciones identificadas en los marcadores de mutación.

En otro aspecto, la invención se refiere a un método de detección de cáncer colorrectal en un sujeto humano, comprendiendo el método: determinar un estado de metilación para ambos de los siguientes en ácido desoxirribonucleico (ADN) a partir de una muestra de un sujeto humano: (i) un locus de metilación dentro del gen DLX6-AS1 ; y (ii) un locus de metilación dentro del gen GDF6; y diagnosticar cáncer colorrectal en el sujeto humano basándose en al menos dicho estado de metilación determinado.

En determinadas realizaciones, el método comprende determinar un estado de metilación para un locus de metilación dentro del gen DLX6-AS1, en donde el locus de metilación dentro del gen DLX6-AS1 comprende al menos una porción de (por ejemplo, al menos el 5 %, al menos el 10 %, al menos el 15 %, al menos el 20 %, al menos el 25 %, al menos el 30 %, al menos el 35 %, al menos el 40 %, al menos el 45 %, al menos el 50 %, al menos el 55 %, al menos el 60 %, al menos el 65 %, al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 85 %, al menos el 90 % o al menos el 95 % de) [cro7: 96997902-96999222] (SEQ ID NO.: 92).

En determinadas realizaciones, el método comprende determinar un estado de metilación para un locus de metilación dentro del gen GDF6, en donde el locus de metilación dentro del gen GDF6 comprende al menos una porción de (por ejemplo, al menos el 5 %, al menos el 10 %, al menos el 15 %, al menos el 20 %, al menos el 25 %, al menos el 30 %, al menos el 35 %, al menos el 40 %, al menos el 45 %, al menos el 50 %, al menos el 55 %, al menos el 60 %, al menos el 65 %, al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 85 %, al menos el 90 % o al menos el 95 % de) [cro8: 96145538-96145718] (SEQ ID NO.: 108).

En determinadas realizaciones, el método comprende además identificar la presencia de una o más mutaciones (por ejemplo, una variación de un solo nucleótido) en uno o más de los siguientes genes: NRAS, PTEN, KRAS, PIK3CA, EGFR, BRAF, STK11, TP53, KIT y MET.

En determinadas realizaciones, el método comprende además clasificar el cáncer colorrectal basándose al menos en parte en la(s) mutación/mutaciones identificada(s). En determinadas realizaciones, la clasificación comprende identificar que el cáncer colorrectal es tratable mediante una terapia particular (por ejemplo, agente terapéutico, fármaco, etc.) basándose al menos en parte en la(s) mutación/mutaciones identificada(s).

En determinadas realizaciones, el ADN es ADN libre de células del sujeto humano.

En determinadas realizaciones, el método comprende determinar el estado de metilación que se determina usando secuenciación de última generación (NGS).

En determinadas realizaciones, el ADN se aísla de sangre o plasma del sujeto humano. En determinadas realizaciones, cada locus de metilación es igual a o menor de 5000 pb de longitud.

En determinadas realizaciones, el estado de metilación es un valor de metilación de lectura.

En otro aspecto, la invención se refiere a un método de detección de (por ejemplo, cribado de) adenoma avanzado en un sujeto humano, comprendiendo el método: determinar un estado de metilación de cada uno de al menos dos o más marcadores identificados en ADN de una muestra obtenida del sujeto, y determinar si el sujeto tiene adenoma avanzado basándose al menos en parte en el estado de metilación determinado de cada uno de los dos o más marcadores, en donde cada uno de los dos o más marcadores es un locus de metilación que comprende al menos una porción de (por ejemplo, al menos el 5 %, al menos el 10 %, al menos el 15 %, al menos el 20 %, al menos el 25 %, al menos el 30 %, al menos el 35 %, al menos el 40 %, al menos el 45 %, al menos el 50 %, al menos el 55 %, al menos el 60 %, al menos el 65 %, al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 85 %, al menos el 90 % o al menos el 95 % de) una región metilada diferencialmente (DMR) seleccionada de las DMR de la figura 3 (por ejemplo, la tabla de 220 marcadores).

Tabla 15: Panel de 2-DMR para AA

Tabla 16: Panel de 4-DMR para AA

Tabla 17: Panel de 10-DMR para AA

En determinadas realizaciones, la muestra comprende ADN que se aísla de sangre o plasma del sujeto humano. En determinadas realizaciones, el ADN es ADN libre de células (ADNlc) del sujeto humano.

En determinadas realizaciones, el método comprende usar uno o más cebos de captura que enriquecen una región diana para capturar uno o más locus / loci de metilación correspondientes. En determinadas realizaciones, cada locus de metilación es igual a o menor de 5000 pb de longitud. En determinadas realizaciones, el método comprende además, para un sujeto que se determina mediante el método que tiene adenoma avanzado, determinar (por ejemplo, determinar simultáneamente) la presencia de una mutación (por ejemplo, una variación de un solo nucleótido) en uno o más marcadores de mutación identificados en una muestra obtenida del sujeto.

En determinadas realizaciones, el método comprende además clasificar el adenoma avanzado basándose en la presencia de una o más mutaciones identificadas en los marcadores de mutación. En determinadas realizaciones, la clasificación comprende identificar que el adenoma avanzado es tratable mediante una terapia particular (por ejemplo, agente terapéutico, fármaco, etc.) basándose al menos en parte en la una o más mutaciones identificadas en los marcadores de mutación.

En otro aspecto, la invención se refiere a un método de detección de adenoma avanzado en un sujeto humano, comprendiendo el método: determinar un estado de metilación para ambos de los siguientes en ácido desoxirribonucleico (ADN) a partir de una muestra de un sujeto humano: (i) un locus de metilación dentro del gen ZAN; y (ii) un locus de metilación que comprende al menos una porción de (por ejemplo, al menos el 5 %, al menos el 10 %, al menos el 15 %, al menos el 20 %, al menos el 25 %, al menos el 30 %, al menos el 35 %, al menos el 40 %, al menos el 45 %, al menos el 50 %, al menos el 55 %, al menos el 60 %, al menos el 65 %, al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 85 %, al menos el 90 % o al menos el 95 % de) [cro14:97412990-97413410] (SEQ ID NO.: 374); y diagnosticar adenoma avanzado en el sujeto humano basándose en al menos dicho estado de metilación determinado.

En determinadas realizaciones, el método comprende determinar un estado de metilación para un locus de metilación dentro del gen ZAN, en donde el locus de metilación dentro del gen ZAN comprende al menos una porción de (por ejemplo, al menos el 5 %, al menos el 10 %, al menos el 15 %, al menos el 20 %, al menos el 25 %, al menos el 30 %, al menos el 35 %, al menos el 40 %, al menos el 45 %, al menos el 50 %, al menos el 55 %, al menos el 60 %, al menos el 65 %, al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 85 %, al menos el 90 % o al menos el 95 % de) [cro7:100785927-100786167] (SEQ ID NO.: 221).

En determinadas realizaciones, el método comprende además clasificar el adenoma avanzado basándose al menos en parte en la(s) mutación/mutaciones identificada(s). En determinadas realizaciones, la clasificación comprende identificar que el adenoma avanzado es tratable mediante una terapia particular (por ejemplo, agente terapéutico, fármaco, etc.) basándose al menos en parte en la(s) mutación/mutaciones identificada(s).

En determinadas realizaciones, el ADN se aísla de sangre o plasma del sujeto humano. En determinadas realizaciones, cada locus de metilación es igual a o menor de 5000 pb de longitud. En determinadas realizaciones, el estado de metilación es un valor de metilación de lectura.

En otro aspecto, la invención se refiere a un sistema que comprende: un procesador de un dispositivo informático; y una memoria que tiene instrucciones almacenadas en la misma, en donde las instrucciones, cuando se ejecutan por el procesador, hacen que el procesador realice una o más etapas de cualquiera de los métodos descritos en el presente documento.

En diversos aspectos, los métodos y composiciones de la presente invención pueden usarse en combinación con biomarcadores conocidos en la técnica, por ejemplo, tal como se dan a conocer en la patente estadounidense n.° 10.006.925 y la patente estadounidense n.° 63, 011970.

En otros aspectos, la invención se refiere a un sistema para realizar cualquiera de los métodos a los que se hace referencia en los párrafos anteriores, comprendiendo el sistema un procesador; y una memoria que tiene instrucciones en la misma, haciendo las instrucciones, cuando se ejecutan por el procesador, que el procesador realice una o más (hasta todas) las etapas del método.

DEFINICIONES

Un o una:Los artículos “un” y “una” se usan en el presente documento para referirse a uno o a más de uno (es decir, a al menos uno) del objeto gramatical del artículo. A modo de ejemplo, “un elemento” se refiere a un elemento o más de un elemento.

Aproximadamente:El término “aproximadamente”, cuando se usa en el presente documento en referencia a un valor, se refiere a un valor que es similar, en contexto, al valor al que se hace referencia. En general, los expertos en la técnica, familiarizados con el contexto, apreciarán el grado de varianza relevante abarcado por “aproximadamente” en ese contexto. Por ejemplo, en algunas realizaciones, por ejemplo, tal como se expone en el presente documento, el término “aproximadamente” puede abarcar un intervalo de valores que están dentro del 25 %, 20 %, 19 %, 18 %, 17 %, 16 %, 15 %, 14 %, 13 %, 12 %, 11 %, 10 %, 9 %, 8 %, 7 %, 6 %, 5 %, 4 %, 3 %, 2 %, 1 %, o con una fracción de un porcentaje, del valor al que se hace referencia.

Adenoma avanzado:Tal como se usa en el presente documento, el término “adenoma avanzado” se refiere normalmente a células que presentan primeras indicaciones de crecimiento relativamente anómalo, incontrolado y/o autónomo pero que aún no se clasifican como alteraciones cancerosas. En el contexto del tejido de colon, “adenoma avanzado” se refiere al crecimiento neoplásico que muestra signos de displasia de alto grado, y/o tamaño que es >=10 mm, y/o tipo histológico velloso, y/o tipo histológico serrado con cualquier tipo de displasia.

Administración:Tal como se usa en el presente documento, el término “administración” se refiere normalmente a la administración de una composición a un sujeto o sistema, por ejemplo para lograr la administración de un agente que está, está incluido en o se administra de otro modo por, la composición.

Agente:Tal como se usa en el presente documento, el término “agente” se refiere a una entidad (por ejemplo, por ejemplo, una molécula pequeña, péptido, polipéptido, ácido nucleico, lípido, polisacárido, complejo, combinación, mezcla, sistema o fenómeno tal como calor, corriente eléctrica, campo eléctrico, fuerza magnética, campo magnético, etc.).

Mejora:Tal como se usa en el presente documento, el término “mejora” se refiere a la prevención, reducción, paliación o mejoramiento de un estado de un sujeto. La mejora incluye, pero no requiere, la recuperación completa o la prevención completa de una enfermedad, trastorno o afección.Amplicón o molécula de amplicón:Tal como se usa en el presente documento, el término “amplicón” o “molécula de amplicón” se refiere a una molécula de ácido nucleico generada por transcripción a partir de una molécula de ácido nucleico molde, o una molécula de ácido nucleico que tiene una secuencia complementaria a la misma, o un ácido nucleico bicatenario que incluye cualquiera de tales moléculas de ácido nucleico. La transcripción puede iniciarse a partir de un cebador.

Amplificación:Tal como se usa en el presente documento, el término “amplificación” se refiere al uso de una molécula de ácido nucleico molde en combinación con diversos reactivos para generar moléculas de ácido nucleico adicionales a partir de la molécula de ácido nucleico molde, moléculas de ácido nucleico adicionales que pueden ser idénticas o similares a (por ejemplo, al menos el 70 % idénticas, por ejemplo, al menos el 75 %, 80 %, 85 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % o 100 % idénticas a) un segmento de la molécula de ácido nucleico molde y/o una secuencia complementaria a la misma.

Mezcla de reacción de amplificación:Tal como se usa en el presente documento, los términos “mezcla de reacción de amplificación” o “reacción de amplificación” se refieren a una molécula de ácido nucleico molde junto con reactivos suficientes para la amplificación de la molécula de ácido nucleico molde.

Muestra biológica:Tal como se usa en el presente documento, el término “muestra biológica” se refiere normalmente a una muestra obtenida o derivada de una fuente biológica (por ejemplo, un tejido u organismo o cultivo celular) de interés, tal como se describe en el presente documento. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una fuente biológica es o incluye un organismo, tal como un animal o un ser humano. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una muestra biológica es o incluye tejido o fluido biológico. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una muestra biológica puede ser o incluir células, tejido o fluido corporal. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una muestra biológica puede ser o incluir sangre, células sanguíneas, ADN libre de células, ácidos nucleicos flotantes libres, ascitis, muestras de biopsia, especímenes quirúrgicos, fluidos corporales que contienen células, esputos, saliva, heces, orina, líquido cefalorraquídeo, líquido peritoneal, líquido pleural, linfa, fluidos ginecológicos, secreciones, excreciones, frotis de piel, frotis vaginales, frotis orales, frotis nasales, lavados o lavajes tales como lavados de conductos o lavados broncoalveolares, aspirados, raspados, médula ósea. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una muestra biológica es o incluye células obtenidas de un único sujeto o de una pluralidad de sujetos. Una muestra puede ser una “muestra primaria” obtenida directamente de una fuente biológica, o puede ser una “muestra procesada”. Una muestra biológica también puede denominarse “muestra”.

Biomarcador:Tal como se usa en el presente documento, el término “biomarcador”, consistente con su uso en la técnica, se refiere a una entidad cuya presencia, nivel o forma se correlaciona con un evento o estado biológico particular de interés, de modo que se considera que es un “marcador” de ese evento o estado. Los expertos en la técnica apreciarán, por ejemplo, en el contexto de un biomarcador de ADN, que un biomarcador puede ser o incluir un locus (tal como uno o más locus de metilación) y/o el estado de un locus (por ejemplo, el estado de uno o más locus de metilación). Para dar solo unos pocos ejemplos de biomarcadores, en algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un biomarcador puede ser o incluir un marcador para una enfermedad, trastorno o afección particular, o puede ser un marcador para probabilidad cualitativa o cuantitativa de que una enfermedad, trastorno o afección particular pueda desarrollarse, producirse o reaparecer, por ejemplo, en un sujeto. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un biomarcador puede ser o incluir un marcador para un resultado terapéutico particular, o cualitativo de probabilidad cuantitativa del mismo. Por tanto, en diversas realizaciones, por ejemplo, tal como se expone en el presente documento, un biomarcador puede ser predictivo, pronóstico y/o diagnóstico del evento biológico relevante o estado de interés. Un biomarcador puede ser una entidad de cualquier clase química. Por ejemplo, en algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un biomarcador puede ser o incluir un ácido nucleico, un polipéptido, un lípido, un hidrato de carbono, una molécula pequeña, un agente inorgánico (por ejemplo, un metal o ion), o una combinación de los mismos. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un biomarcador es un marcador de superficie celular. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un biomarcador es intracelular. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un biomarcador se encuentra fuera de las células (por ejemplo, se secreta o se genera o está presente de otro modo fuera de las células, por ejemplo, en un fluido corporal tal como sangre, orina, lágrimas, saliva, líquido cefalorraquídeo y similares). En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un biomarcador es el estado de metilación de un locus de metilación. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un biomarcador puede denominarse “marcador”. Por poner solo un ejemplo de un biomarcador, en algunas realizaciones, por ejemplo, tal como se expone en el presente documento, el término se refiere a la expresión de un producto codificado por un gen, cuya expresión es característica de un tumor particular, subclase de tumor, estadio del tumor, etc. Alternativa o adicionalmente, en algunas realizaciones, por ejemplo, tal como se expone en el presente documento, la presencia o nivel de un marcador particular puede correlacionarse con la actividad (o nivel de actividad) de una ruta de señalización particular, por ejemplo, de una ruta de señalización cuya actividad es característica de una clase particular de tumores.

Los expertos en la técnica apreciarán que un biomarcador puede ser individualmente determinante de un evento biológico o estado de interés particular, o puede representar o contribuir a una determinación de la probabilidad estadística de un evento biológico o estado de interés particular. Los expertos en la técnica apreciarán que los marcadores pueden diferir en su especificidad y/o sensibilidad en relación con un evento biológico o estado de interés particular.

Componente sanguíneo:Tal como se usa en el presente documento, el término “componente sanguíneo” se refiere a cualquier componente de sangre completa, incluidos glóbulos rojos, glóbulos blancos, plasma, plaquetas, células endoteliales, células mesoteliales, células epiteliales y ADN libre de células. Los componentes de la sangre también incluyen los componentes del plasma, incluidos proteínas, metabolitos, lípidos, ácidos nucleicos e hidratos de carbono, y cualquier otra célula que pueda estar presente en la sangre, por ejemplo, debido a embarazo, trasplante de órganos, infección, lesión o enfermedad.

Cáncer:Tal como se usa en el presente documento, los términos “cáncer”, “neoplasia maligna”, “neoplasia”, “tumor” y “carcinoma”, se usan indistintamente para referirse a una enfermedad, trastorno o afección en la que las células presentan o presentaban un crecimiento relativamente anómalo, incontrolado y/o autónomo, de modo que muestran o mostraban una tasa de proliferación elevada de manera anómala y/o fenotipo de crecimiento aberrante. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un cáncer puede incluir uno o más tumores. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un cáncer puede ser o incluir células que son precancerosas (por ejemplo, benignas), malignas, premetastásicas, metastásicas y/o no metastásicas. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un cáncer puede ser o incluir un tumor sólido. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un cáncer puede ser o incluir un tumor hematológico. En general, los ejemplos de diferentes tipos de cánceres conocidos en la técnica incluyen, por ejemplo, cáncer colorrectal, cánceres hematopoyéticos que incluyen leucemias, linfomas (de Hodgkin y no Hodgkin), mielomas y trastornos mieloproliferativos; sarcomas, melanomas, adenomas, carcinomas de tejido sólido, carcinomas de células escamosas de la boca, garganta, laringe y pulmón, cáncer de hígado, cánceres genitourinarios tales como cáncer de próstata, cuello uterino, vejiga, útero y endometrio y carcinomas de células renales, cáncer óseo, cáncer pancreático, cáncer de piel, melanoma cutáneo o intraocular, cáncer del sistema endocrino, cáncer de la glándula tiroidea, cáncer de la glándula paratiroidea, cánceres de cabeza y cuello, cáncer de mama, cánceres gastrointestinales y cánceres del sistema nervioso, lesiones benignas tales como papilomas, y similares.

Agente quimioterápico:Tal como se usa en el presente documento, el término “agente quimioterápico”, consistente con su uso en la técnica, se refiere a uno o más agentes conocidos, o que tienen características conocidas para, tratar o contribuir al tratamiento del cáncer. En particular, los agentes quimioterápicos incluyen agentes proapoptóticos, citostáticos y/o citotóxicos. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un agente quimioterápico puede ser o incluir agentes alquilantes, antraciclinas, disruptores citoesqueléticos (por ejemplo, restos dirigidos a microtúbulos tales como taxanos, maitansina y análogos de los mismos, de), epotilonas, inhibidores de histona desacetilasa HDAC), inhibidores de topoisomerasa (por ejemplo, inhibidores de topoisomerasa I y/o topoisomerasa II), inhibidores de quinasa, análogos de nucleótidos o análogos de precursores de nucleótidos, antibióticos peptídicos, agentes basados en platino, retinoides, alcaloides de la vinca y/o análogos que comparten una actividad antiproliferativa relevante. En algunas realizaciones particulares, por ejemplo, tal como se expone en el presente documento, un agente quimioterápico puede ser o incluir actinomicina, ácido todo-trans-retinoico, una auiristatina, azacitidina, azatioprina, bleomicina, bortezomib, carboplatino, capecitabina, cisplatino, clorambucilo, ciclofosfamida, curcumina, citarabina, daunorubicina, docetaxel, doxifluridina, doxorubicina, epirubicina, epotilona, etopósido, fluorouracilo, gemcitabina, hidroxiurea, idarubicina, imatinib, irinotecán, maitansina y/o análogos de los mismos (por ejemplo, DM1), mecloretamina, mercaptopurina, metotrexato, mitoxantrona, un maitansinoide, oxaliplatino, paclitaxel, pemetrexed, tenipósido, tioguanina, topotecán, valrubicina, vinblastina, vincristina, vindesina, vinorelbina, o una combinación de los mismos. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, puede utilizarse un agente quimioterápico en el contexto de un conjugado de anticuerpo-fármaco. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un agente quimioterápico es uno encontrado en un conjugado de anticuerpo-fármaco seleccionado del grupo que consiste en: hLL1-doxorubicina, hRS7-SN-38, hMN-14-SN-38, hLL2-SN-38, hA20-SN-38, hPAM4-SN-38, hLL1-SN-38, hRS7-Pro-2-P-Dox, hMN-14-Pro-2-P-Dox, hLL2-Pro-2-P-Dox, hA20-Pro-2-P-Dox, hPAM4-Pro-2-P-Dox, hLL1-Pro-2-P-Dox, P4/D10-doxorubicina, gemtuzumab ozogamicina, brentuximab vedotina, trastuzumab emtansina, inotuzumab ozogamicina, glembatumomab vedotina, SAR3419, SAR566658, BIIB015, BT062, SGN-75, SGN-CD19A, AMG-172, AMG-595, BAY-94-9343, ASG-5ME, ASG-22ME, ASG-16M8F, MDX-1203, MLN-0264, ADC anti-PSMA, RG-7450, RG-7458, RG-7593, RG-7596, RG-7598, RG-7599, RG-7600, Rg -7636, a Bt -414, IMGN-853, IMGN-529, vorsetuzumab mafodotina y lorvotuzumab mertansina. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un agente quimioterápico puede ser o comprender ácido farnesil-tiosalicílico (FTS), 4-(4-cloro-2-metilfenoxi)-N-hidroxibutanamida (CMH), estradiol (E2), tetrametoxiestilbeno (TMS), S-tocatrienol, salinomicina o curcumina.

Terapia de combinación:Tal como se usa en el presente documento, el término “terapia de combinación” se refiere a la administración a un sujeto de dos o más agentes o regímenes de manera que los dos o más agentes o regímenes juntos tratan una enfermedad, afección o trastorno del sujeto. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, los dos o más agentes o regímenes terapéuticos pueden administrarse de manera simultánea, secuencial o en regímenes de dosificación superpuestos. Los expertos en la técnica apreciarán que la terapia de combinación incluye, pero no requiere, que los dos agentes o regímenes se administren juntos en una única composición, ni al mismo tiempo.

Comparable:Tal como se usa en el presente documento, el término “comparable” se refiere a miembros dentro de conjuntos de dos o más condiciones, circunstancias, agentes, entidades, poblaciones, etc., que pueden no ser idénticos entre sí pero que son suficientemente similares como para permitir la comparación entre los mismos, de modo que un experto en la técnica apreciará que pueden extraerse conclusiones razonablemente basándose en las diferencias o similitudes observadas. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, conjuntos comparables de condiciones, circunstancias, agentes, entidades, poblaciones, etc. se caracterizan normalmente por una pluralidad de características sustancialmente idénticas y cero, uno o una pluralidad de características diferentes. Los expertos en la técnica entenderán, en contexto, qué grado de identidad se requiere para hacer comparables los miembros de un conjunto. Por ejemplo, los expertos en la técnica apreciarán que los miembros de conjuntos de condiciones, circunstancias, agentes, entidades, poblaciones, etc., son comparables entre sí cuando se caracterizan por un número y tipo suficientes de características sustancialmente idénticas como para garantizar una conclusión razonable de que las diferencias observadas pueden atribuirse en su totalidad o en parte a características no idénticas de las mismas.

Correspondiente a:Tal como se usa en el presente documento, el término “correspondiente a” se refiere a una relación entre dos o más entidades. Por ejemplo, el término “correspondiente a” puede usarse para designar la posición/identidad de un elemento estructural en un compuesto o composición en relación con otro compuesto o composición (por ejemplo, con un compuesto o composición de referencia apropiado). Por ejemplo, en algunas realizaciones, un residuo monomérico en un polímero (por ejemplo, un residuo de ácido nucleico en un polinucleótido) puede identificarse como “correspondiente a” un residuo en un polímero de referencia apropiado. Los expertos en la técnica apreciarán fácilmente cómo identificar ácidos nucleicos“correspondiente”.Por ejemplo, los expertos en la técnica serán conscientes de diversas estrategias de alineación de secuencias, incluidos programas de software tales como, por ejemplo, BLAST, CS-BLAST, CUSASW++, DIAMOND, FASTA, GGSEARCH/GLSEARCH, Genoogle, HMMER, HHpred/HHsearch, IDF, Infernal, KLAST, USEARCH, parasail, PSI-BLAST, PSI-Search, ScalaBLAST, Sequilab, SAM, SSEATCH, SWAPHI, SWAPHI-LS, SWIMM o SWIPE que pueden utilizarse, por ejemplo, para identificar residuos “correspondientes” en ácidos nucleicos según la presente divulgación. Los expertos en la técnica también apreciarán que, en algunos casos, el término “correspondiente a” puede usarse para describir un evento o entidad que comparte una similitud relevante con otro evento o entidad (por ejemplo, un evento o entidad de referencia apropiado). Por poner solo un ejemplo, un fragmento de ADN en una muestra de un sujeto puede describirse como “correspondiente a” un gen con el fin de indicar, en algunas realizaciones, que muestra un grado particular de identidad u homología de secuencia, o comparte un elemento de secuencia característico particular.

Resto detectable:El término “resto detectable”, como se usa en el presente documento, se refiere a cualquier elemento, molécula, grupo funcional, compuesto, fragmento u otro resto que sea detectable. En algunas realizaciones, por ejemplo, tal como se describe en el presente documento, se proporciona o se utiliza solo un resto detectable. En algunas realizaciones, por ejemplo, tal como se describe en el presente documento, se proporciona y/o se utiliza un resto detectable en asociación con (por ejemplo, unido a) otro agente. Los ejemplos de restos detectables incluyen, pero no se limitan a, diversos ligandos, radionúclidos (por ejemplo, 3H, 14C, 18F, 19F, 32P, 35S, 135I, 125I, 123I, 64Cu, 187Re, 111In, 90Y, 99mTc, 177Lu, 89Zr, etc.), colorantes fluorescentes, agentes quimioluminiscentes, agentes bioluminiscentes, nanocristales semiconductores fluorescentes inorgánicos que pueden resolverse espectralmente (es decir, puntos cuánticos), nanopartículas metálicas, nanoagrupamientos, iones metálicos paramagnéticos, enzimas, marcadores colorimétricos, biotina, dioxigenina, haptenos y proteínas para las que están disponibles antisueros o anticuerpos monoclonales.

Diagnóstico:Tal como se usa en el presente documento, el término “diagnóstico” se refiere a determinar si, y/o la probabilidad cualitativa o cuantitativa de que, un sujeto tenga o desarrolle una enfermedad, trastorno, afección o estado. Por ejemplo, en el diagnóstico del cáncer, el diagnóstico puede incluir una determinación con respecto al riesgo, tipo, estadio, malignidad u otra clasificación de un cáncer. En algunos casos, por ejemplo, tal como se expone en el presente documento, un diagnóstico puede ser o incluir una determinación relacionada con el pronóstico y/o la probable respuesta a uno o más agentes o regímenes terapéuticos generales o particulares.

Información de diagnóstico:Tal como se usa en el presente documento, el término “información de diagnóstico” se refiere a información útil para proporcionar un diagnóstico. La información de diagnóstico puede incluir, sin limitación, información de estado de biomarcadores.

Metilado diferencialmente:Tal como se usa en el presente documento, el término “metilado diferencialmente” describe un sitio de metilación para el que el estado de metilación difiere entre una primera condición y una segunda condición. Un sitio de metilación que está metilado diferencialmente puede denominarse sitio metilado diferencialmente. En algunos casos, por ejemplo, tal como se expone en el presente documento, una DMR se define por el amplicón producido por amplificación usando cebadores oligonucleotídicos, por ejemplo, un par de cebadores oligonucleotídicos seleccionados para la amplificación de la DMR o para la amplificación de una región de ADN de interés presente en el amplicón. En algunos casos, por ejemplo, tal como se expone en el presente documento, una DMR se define como una región de ADN amplificada por un par de cebadores oligonucleotídicos, incluida la región que tiene la secuencia de, o una secuencia complementaria a, los cebadores oligonucleotídicos. En algunos casos, por ejemplo, tal como se expone en el presente documento, una DMR se define como una región de ADN amplificada por un par de cebadores oligonucleotídicos, excluida la región que tiene la secuencia de, o una secuencia complementaria a, los cebadores oligonucleotídicos. Tal como se usa en el presente documento, una DMR proporcionada específicamente puede identificarse inequívocamente por el nombre de un gen asociado seguido de tres dígitos de una posición de partida, de modo que, por ejemplo, una DMR que comienza en la posición 100785927 de ZAN puede identificarse como ZAN '927. Tal como se usa en el presente documento, una DMR proporcionada específicamente puede identificarse inequívocamente por el número de cromosoma seguido de las posiciones inicial y final de una DMR.

Región metilada diferencialmente:Tal como se usa en el presente documento, el término “región metilada diferencialmente” (DMR) se refiere a una región de ADN que incluye uno o más sitios metilados diferencialmente. Una DMR que incluye un mayor número o frecuencia de sitios metilados en una condición de interés seleccionada, tal como un estado canceroso, puede denominarse DMR hipermetilada. Una DMR que incluye un número o frecuencia más pequeña de sitios metilados en una condición de interés seleccionada, tal como un estado canceroso, puede denominarse DMR hipometilada. Una DMR que es un biomarcador de metilación para cáncer colorrectal puede denominarse DMR de cáncer colorrectal. Una DMR que es un biomarcador de metilación para adenoma avanzado puede denominarse DMR de adenoma avanzado. En algunos casos, por ejemplo, tal como se expone en el presente documento, una DMR puede ser un único nucleótido, único nucleótido que es un sitio de metilación. En algunos casos, por ejemplo, tal como se expone en el presente documento, una DMR tiene una longitud de al menos 10, al menos 15, al menos 20, al menos 30, al menos 50 o al menos 75 pares de bases. En algunos casos, por ejemplo, tal como se expone en el presente documento, una DMR tiene una longitud igual a o menor de 5000 pb, 4.000 pb, 3.000 pb, 2.000 pb, 1.000 pb, 950 pb, 900 pb, 850 pb, 800 pb, 750 pb, 700 pb, 650 pb, 600 pb, 550 pb, 500 pb, 450 pb, 400 pb, 350 pb, 300 pb, 250 pb, 200 pb, 150 pb, 100 pb, 50 pb, 40 pb, 30 pb, 20 pb o 10 pb (por ejemplo, cuando el estado de metilación se determina usando reacción en cadena de la polimerasa cuantitativa (qPCR), por ejemplo, reacción en cadena de la polimerasa cuantitativa con enzimas de restricción sensibles a metilación (MSRE-qPCR)) (por ejemplo, cuando el estado de metilación se determina usando una técnica de secuenciación de última generación, por ejemplo, secuenciación de última generación dirigida). En algunos casos, por ejemplo, tal como se expone en el presente documento, una DMR que es un biomarcador de metilación para adenoma avanzado también puede ser útil en la identificación de cáncer colorrectal y viceversa.

Región de ADN:Tal como se usa en el presente documento, “región de ADN” se refiere a cualquier porción contigua de una molécula de ADN más grande. Los expertos en la técnica estarán familiarizados con las técnicas para determinar si una primera región de ADN y una segunda región de ADN se corresponden, basándose, por ejemplo, en la similitud de secuencia (por ejemplo, identidad u homología de secuencia) de las regiones de ADN primera y segunda y/o el contexto (por ejemplo, la identidad u homología de secuencia de ácidos nucleicos aguas arriba y/o aguas abajo de las regiones de ADN primera y segunda).

Excepto que se especifique lo contrario en el presente documento, las secuencias encontradas en o relacionadas con seres humanos (por ejemplo, que se hibridan con ADN humano) se encuentran en, se basan en y/o se derivan de la secuencia del genoma humano representativa de ejemplo a la que se hace referencia comúnmente, y conocida por los expertos en la técnica, como conjunto de genoma deHomo sapiens(ser humano) GRCh38, hg38 y/o construcción del consorcio de referencia del genoma humano 38. Los expertos en la técnica apreciarán además que puede hacerse referencia a las regiones de ADN de hg38 mediante un sistema conocido que incluye la identificación de posiciones de nucleótidos particulares o intervalos de las mismas según la numeración asignada.

Régimen de dosificación:Tal como se usa en el presente documento, el término “régimen de dosificación” puede referirse a un conjunto de una o más dosis unitarias iguales o diferentes administradas a un sujeto, que incluye normalmente una pluralidad de dosis unitarias, estando la administración de cada una de las cuales separada de la administración de las otras por un período de tiempo. En diversas realizaciones, por ejemplo, tal como se expone en el presente documento, una o más o todas las dosis unitarias de un régimen de dosificación pueden ser iguales o pueden variar (por ejemplo, aumentar con el tiempo, disminuir con el tiempo, o ajustarse según el sujeto y/o con la determinación de un médico). En diversas realizaciones, por ejemplo, tal como se expone en el presente documento, uno o más o todos los períodos de tiempo entre cada dosis pueden ser iguales o pueden variar (por ejemplo, aumentar con el tiempo, disminuir con el tiempo, o ajustarse según el sujeto y/o con la determinación de un médico). En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un agente terapéutico dado tiene un régimen de dosificación recomendado, que puede implicar una o más dosis. Normalmente, los expertos en la técnica conocen al menos un régimen de dosificación recomendado de un fármaco comercializado. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un régimen de dosificación se correlaciona con un resultado deseado o beneficioso cuando se administra a través de una población relevante (es decir, es un régimen de dosificación terapéutica).

Aguas abajo:Tal como se usa en el presente documento, el término “aguas abajo” significa que una primera región de ADN está más cerca, en relación con una segunda región de ADN, del extremo C-terminal de un ácido nucleico que incluye la primera región de ADN y la segunda región de ADN.

Gen:Tal como se usa en el presente documento, el término “gen” se refiere a una única región de ADN, por ejemplo, en un cromosoma, que incluye una secuencia codificante que codifica un producto (por ejemplo, un producto de ARN y/o un producto polipeptídico), junto con todas, algunas o ninguna de las secuencias de ADN que contribuyen a la regulación de la expresión de la secuencia codificante. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un gen incluye una o más secuencias no codificantes. En algunas realizaciones particulares, por ejemplo, tal como se expone en el presente documento, un gen incluye secuencias exónicas e intrónicas. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un gen incluye uno o más elementos reguladores que, por ejemplo, pueden controlar o afectar a uno o más aspectos de la expresión génica (por ejemplo, expresión específica de tipo celular, expresión inducible, etc.). En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un gen incluye un promotor. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un gen incluye uno o ambos de (i) nucleótidos de ADN que se extienden un número predeterminado de nucleótidos aguas arriba de la secuencia codificante y (ii) nucleótidos de ADN que se extienden un número predeterminado de nucleótidos aguas abajo de la secuencia codificante. En diversas realizaciones, por ejemplo, tal como se expone en el presente documento, el número predeterminado de nucleótidos puede ser de 500 pb, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 75 kb o 100 kb.

Homología:Tal como se usa en el presente documento, el término “homología” se refiere a la relación global entre moléculas poliméricas, por ejemplo, entre moléculas de ácido nucleico (por ejemplo, moléculas de ADN y/o moléculas de ARN) y/o entre moléculas de polipéptidos. Los expertos en la técnica apreciarán que la homología puede definirse, por ejemplo, mediante un porcentaje de identidad o mediante un porcentaje de homología (similitud de secuencia). En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, se considera que las moléculas poliméricas son “homólogas” entre sí si sus secuencias son al menos el 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 99 % idénticas. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, se considera que las moléculas poliméricas son “homólogas” entre sí si sus secuencias son al menos el 25 %, 30 %, 35 %, 40 %, 45 %, 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 % o 99 % similares.

Hibrídar:Tal como se usa en el presente documento, “hibridar” se refiere a la asociación de un primer ácido nucleico con un segundo ácido nucleico para formar una estructura bicatenaria, asociación que se produce a través del emparejamiento complementario de nucleótidos. Los expertos en la técnica reconocerán que las secuencias complementarias, entre otras, pueden hibridarse. En diversas realizaciones, por ejemplo, tal como se expone en el presente documento, la hibridación puede producirse, por ejemplo, entre secuencias de nucleótidos que tienen al menos el 70 % de complementariedad, por ejemplo, al menos el 75 %, 80 %, 85 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % o 100 % de complementariedad. Los expertos en la técnica apreciarán además que si la hibridación de un primer ácido nucleico y un segundo ácido nucleico se produce o no puede depender de diversas condiciones de reacción. En la técnica se conocen condiciones en las que puede producirse la hibridación.

Hipometilación:Tal como se usa en el presente documento, el término “hipometilación” se refiere al estado de un locus de metilación que tiene al menos un menor número de nucleótidos metilados en un estado de interés en comparación con un estado de referencia (por ejemplo, al menos un menor número de nucleótidos metilados en cáncer colorrectal que en un control sano).

Hipermetilación:Tal como se usa en el presente documento, el término “hipermetilación” se refiere al estado de un locus de metilación que tiene al menos un nucleótido más metilado en un estado de interés en comparación con un estado de referencia (por ejemplo, al menos un nucleótido más metilado en cáncer colorrectal que en un control sano).

Identidad, idéntico:Tal como se usa en el presente documento, los términos “identidad” e “idéntico” se refieren a la relación global entre moléculas poliméricas, por ejemplo, entre moléculas de ácido nucleico (por ejemplo, moléculas de ADN y/o moléculas de ARN) y/o entre moléculas de polipéptidos.

En la técnica se conocen métodos para el cálculo de un porcentaje de identidad entre dos secuencias proporcionadas. El cálculo del porcentaje de identidad de dos secuencias de ácido nucleico o polipéptido, por ejemplo, puede realizarse alineando las dos secuencias (o el complemento de una o ambas secuencias) con fines de comparación óptima (por ejemplo, pueden introducirse huecos en una o ambas de una primera y una segunda secuencias para alineación óptima y pueden ignorarse secuencias no idénticas con fines de comparación). Entonces se comparan los nucleótidos o aminoácidos en posiciones correspondientes. Cuando una posición en la primera secuencia está ocupada por el mismo residuo (por ejemplo, nucleótido o aminoácido) que la posición correspondiente en la segunda secuencia, entonces las moléculas son idénticas en esa posición. El porcentaje de identidad entre las dos secuencias es una función del número de posiciones idénticas compartidas por las secuencias y, opcionalmente, teniendo en cuenta el número de huecos y la longitud de cada hueco, que puede ser necesario introducir para la alineación óptima de las dos secuencias. La comparación de secuencias y la determinación del porcentaje de identidad entre dos secuencias pueden lograrse usando un algoritmo computacional, tal como BLAST (herramienta de búsqueda de alineación local básica).

“Mejorado", “aumentado"o"reducido":Tal como se usan en el presente documento, estos términos, o términos comparativos gramaticalmente comparables, indican valores que son relativos a una medición de referencia comparable. Por ejemplo, en algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un valor evaluado logrado con un agente de interés puede “mejorarse” en relación con el obtenido con un agente de referencia comparable o sin agente. Alternativa o adicionalmente, en algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un valor evaluado en un sujeto o sistema de interés puede “mejorarse” en relación con el obtenido en el mismo sujeto o sistema en diferentes condiciones o en un punto en el tiempo diferente (por ejemplo, antes o después de un evento tal como la administración de un agente de interés), o en un sujeto comparable diferente (por ejemplo, en un sujeto o sistema comparable que difiere del sujeto o sistema de interés en presencia de uno o más indicadores de una enfermedad, trastorno o afección de interés particular, o en la exposición previa a una afección o agente, etc.). En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, los términos comparativos se refieren a diferencias estadísticamente relevantes (por ejemplo, diferencias de una prevalencia y/o magnitud suficiente para lograr relevancia estadística). Los expertos en la técnica serán conscientes, o podrán determinar fácilmente, en un contexto dado, un grado y/o prevalencia de diferencia que se requiere o es suficiente para lograr tal significación estadística.

Metilación:Tal como se usa en el presente documento, el término “metilación” incluye metilación en cualquiera de (i) posición C5 de citosina; (ii) posición N4 de citosina; y (iii) la posición N6 de adenina. La metilación también incluye (iv) otros tipos de metilación de nucleótidos. Un nucleótido que está metilado puede denominarse “nucleótido metilado” o “base de nucleótido metilado”. En determinadas realizaciones, por ejemplo, tal como se expone en el presente documento, metilación se refiere específicamente a metilación de residuos de citosina. En algunos casos, metilación se refiere específicamente a metilación de residuos de citosina presentes en sitios CpG.

Ensayo de metilación:Tal como se usa en el presente documento, el término “ensayo de metilación” se refiere a cualquier técnica que puede usarse para determinar el estado de metilación de un locus de metilación.

Biomarcador de metilación:Tal como se usa en el presente documento, el término “biomarcador de metilación” se refiere a un biomarcador que es o incluye al menos un locus de metilación y/o el estado de metilación de al menos un locus de metilación, por ejemplo, un locus hipermetilado. En particular, un biomarcador de metilación es un biomarcador caracterizado por un cambio entre un primer estado y un segundo estado (por ejemplo, entre un estado canceroso y un estado no canceroso) en el estado de metilación de uno o más loci de ácidos nucleicos.

Locus de metilación:Tal como se usa en el presente documento, el término “locus de metilación” se refiere a una región de ADN que incluye al menos una región metilada diferencialmente. Un locus de metilación que incluye un mayor número o frecuencia de sitios metilados en una condición seleccionada de interés, tal como un estado canceroso, puede denominarse locus hipermetilado. Un locus de metilación que incluye un número o frecuencia más pequeña de sitios metilados en una condición seleccionada de interés, tal como un estado canceroso, puede denominarse locus hipometilado. En algunos casos, por ejemplo, tal como se expone en el presente documento, un locus de metilación tiene una longitud de al menos 10, al menos 15, al menos 20, al menos 30, al menos 50 o al menos 75 pares de bases. En algunos casos, por ejemplo, tal como se expone en el presente documento, un locus de metilación tiene una longitud de menos de 5000 pb, 4.000 pb, 3.000 pb, 2.000 pb, 1.000 pb, 950 pb, 900 pb, 850 pb, 800 pb, 750 pb, 700 pb, 650 pb, 600 pb, 550 pb, 500 pb, 450 pb, 400 pb, 350 pb, 300 pb, 250 pb, 200 pb, 150 pb, 100 pb, 50 pb, 40 pb, 30 pb, 20 pb o 10 pb (por ejemplo, cuando el estado de metilación se determina usando reacción en cadena de la polimerasa cuantitativa (qPCR), por ejemplo, reacción en cadena de la polimerasa cuantitativa con enzimas de restricción sensibles a metilación (MSRE-qPCR)).

Sitio de metilación:Tal como se usa en el presente documento, un sitio de metilación se refiere a un nucleótido o posición de nucleótido que está metilado en al menos una afección. En su estado metilado, un sitio de metilación puede denominarse sitio metilado.

Estado de metilación:Tal como se usa en el presente documento, “estado de metilación”, “estatus de metilación” o “perfil de metilación” se refiere al número, frecuencia o patrón de metilación en sitios de metilación dentro de un locus de metilación. Por consiguiente, un cambio en el estado de metilación entre un primer estado y un segundo estado puede ser o incluir un aumento en el número, frecuencia o patrón de sitios metilados, o puede ser o incluir una disminución en el número, frecuencia o patrón de sitios metilados. En diversos casos, se produce un cambio en el estado de metilación en un cambio en el valor de metilación.

Valor de metilación:Tal como se usa en el presente documento, el término “valor de metilación” se refiere a una representación numérica de un estado de metilación, por ejemplo, en forma de número que representa la frecuencia o razón de metilación de un locus de metilación. En algunos casos, por ejemplo, tal como se expone en el presente documento, puede generarse un valor de metilación mediante un método que incluye cuantificar la cantidad de ácido nucleico intacto presente en una muestra después de la digestión por restricción de la muestra con una enzima de restricción dependiente de metilación. En algunos casos, por ejemplo, tal como se expone en el presente documento, puede generarse un valor de metilación mediante un método que incluye comparar perfiles de amplificación después de la reacción con bisulfito de una muestra. En algunos casos, por ejemplo, tal como se expone en el presente documento, puede generarse un valor de metilación comparando secuencias de ácidos nucleicos tratados y no tratados con bisulfito. En algunos casos, por ejemplo, tal como se expone en el presente documento, un valor de metilación es, incluye o se basa en un resultado de PCR cuantitativa. En algunos casos, por ejemplo, tal como se expone en el presente documento, un valor de metilación

Mutación:Tal como se usa en el presente documento, el término “mutación” se refiere a una variación genética en una biomolécula (por ejemplo, un ácido nucleico o una proteína) en comparación con una biomolécula de referencia. Por ejemplo, una mutación en un ácido nucleico puede, en algunas realizaciones, comprender una sustitución de nucleobases, una deleción de una o más nucleobases, una inserción de una o más nucleobases, una inversión de dos o más nucleobases, o un truncamiento, en comparación con una molécula de ácido nucleico de referencia. De manera similar, una mutación en una proteína puede comprender una sustitución, inserción, inversión o truncamiento de aminoácidos, en comparación con un polipéptido de referencia. Los expertos en la técnica conocen mutaciones adicionales, por ejemplo, fusiones e indeles. En algunas realizaciones, una mutación comprende una variante genética que está asociada con una pérdida de función de un producto génico. Una pérdida de función puede ser una supresión completa de la función, por ejemplo, una supresión de la actividad enzimática de una enzima, o una pérdida parcial de la función, por ejemplo, una actividad enzimática disminuida de una enzima. En algunas realizaciones, un mutante comprende una variante genética que está asociada con una ganancia de función, por ejemplo, con una alteración negativa o indeseable en una característica o actividad en un producto génico. En algunas realizaciones, un mutante se caracteriza por una reducción o pérdida en un nivel o actividad deseable en comparación con una referencia; en algunas realizaciones, un mutante se caracteriza por un aumento o ganancia de un nivel o actividad indeseable en comparación con una referencia. En algunas realizaciones, la biomolécula de referencia es una biomolécula de tipo silvestre.

Ácido nucleico:Tal como se usa en el presente documento, en su sentido más amplio, el término “ácido nucleico” se refiere a cualquier compuesto y/o sustancia que está o puede incorporarse en una cadena de oligonucleótido. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un ácido nucleico es un compuesto y/o sustancia que se incorpora o puede incorporarse en una cadena de oligonucleótido por medio de un enlace fosfodiéster. Como resultará evidente a partir del contexto, en algunas realizaciones, por ejemplo, tal como se expone en el presente documento, el término ácido nucleico se refiere a un residuo de ácido nucleico individual (por ejemplo, un nucleótido y/o nucleósido), y en algunas realizaciones, por ejemplo, tal como se expone en el presente documento se refiere a una cadena polinucleotídica que comprende una pluralidad de residuos de ácido nucleico individuales. Un ácido nucleico puede ser o incluir ADN, ARN o combinaciones de los mismos. Un ácido nucleico puede incluir residuos de ácido nucleico naturales, análogos de ácido nucleico y/o residuos sintéticos. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un ácido nucleico incluye nucleótidos naturales (por ejemplo, adenosina, timidina, guanosina, citidina, uridina, desoxiadenosina, desoxitimidina, desoxiguanosina y desoxicitidina). En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un ácido nucleico es o incluye uno o más análogos de nucleótidos (por ejemplo, 2-aminoadenosina, 2-tiotimidina, inosina, pirrolo-pirimidina, 3-metiladenosina, 5-metilcitidina, C-5-propinil-citidina, C-5-propinil-uridina, 2-aminoadenosina, C5-bromouridina, C5-fluorouridina, C5-yodouridina, C5-propinil-uridina, C5-propinil-citidina, C5-metilcitidina, 2-aminoadenosina, 7-deazaadenosina, 7-deazaguanosina, 8-oxoadenosina, 8-oxoguanosina, 0(6)-metilguanina, 2-tiocitidina, bases metiladas, bases intercaladas y combinaciones de las mismas).

En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un ácido nucleico tiene una secuencia de nucleótidos que codifica un producto génico funcional tal como un ARN o proteína. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un ácido nucleico incluye uno o más intrones. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un ácido nucleico incluye uno o más genes. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, se preparan ácidos nucleicos mediante uno o más de aislamiento a partir de una fuente natural, síntesis enzimática mediante polimerización basada en un molde complementario(in vivooin vitro),reproducción en una célula o sistema recombinante, y síntesis química.

En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un análogo de ácido nucleico difiere de un ácido nucleico en que no utiliza una estructura principal de fosfodiéster. Por ejemplo, en algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un ácido nucleico puede incluir uno o más ácidos nucleicos peptídicos, que se conocen en la técnica y tienen enlaces peptídicos en lugar de enlaces fosfodiéster en la estructura principal. Alternativa o adicionalmente, en algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un ácido nucleico tiene uno o más enlaces fosforotioato y/o 5’-N-fosforamidita en lugar de enlaces fosfodiéster. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un ácido nucleico comprende uno o más azúcares modificados (por ejemplo, 2’-fluororribosa, ribosa, 2’-desoxirribosa, arabinosa y hexosa) en comparación con los de los ácidos nucleicos naturales.

En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un ácido nucleico es o incluye al menos 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 20, 225, 250, 275, 300, 325, 350, 375, 400, 425, 450, 475, 500, 600, 700, 800, 900, 1000, 1500, 2000, 2500, 3000, 3500, 4000, 4500, 5000 o más residuos. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un ácido nucleico es parcial o totalmente monocatenario, o parcial o totalmente bicatenario.

Ensayo de detección de ácidos nucleicos:Tal como se usa en el presente documento, la expresión “ensayo de detección de ácidos nucleicos” se refiere a cualquier método de determinación de la composición de nucleótidos de un ácido nucleico de interés. Los ensayos de detección de ácidos nucleicos incluyen, pero no se limitan a, métodos de secuenciación de ADN (por ejemplo, métodos de secuenciación de última generación), métodos basados en reacción en cadena de la polimerasa, métodos de hibridación de sondas, reacción en cadena de la ligasa, etc.

Nucleótido:Tal como se usa en el presente documento, el término “nucleótido” se refiere a un componente estructural, o bloque de construcción, de polinucleótidos, por ejemplo, de polímeros de ADN y/o ARN. Un nucleótido incluye una base (por ejemplo, adenina, timina, uracilo, guanina o citosina) y una molécula de azúcar y al menos un grupo fosfato. Tal como se usa en el presente documento, un nucleótido puede ser un nucleótido metilado o un nucleótido no metilado. Los expertos en la técnica apreciarán que la terminología de ácidos nucleicos, tal como, como ejemplos, “locus” o “nucleótido”, puede referirse tanto a un locus o nucleótido de una única molécula de ácido nucleico y/o a la población acumulada de locus o nucleótidos dentro de una pluralidad de ácidos nucleicos (por ejemplo, una pluralidad de ácidos nucleicos en una muestra y/o representativos de un sujeto) que son representativos del locus o nucleótido (por ejemplo, que tiene la misma secuencia de ácido nucleico y/o contexto de secuencia de ácido nucleico idénticos, o que tiene una secuencia de ácido nucleico y/o contexto de ácido nucleico sustancialmente idénticos).

Cebador oligonucleotídico:Tal como se usa en el presente documento, el término cebador oligonucleotídico, o cebador, se refiere a una molécula de ácido nucleico usada, capaz de usarse, o para su uso en, generar amplicones a partir de una molécula de ácido nucleico molde. En condiciones permisivas a la transcripción (por ejemplo, en presencia de nucleótidos y una ADN polimerasa, y a una temperatura y pH adecuados), un cebador oligonucleotídico puede proporcionar un punto de inicio de la transcripción a partir de un molde al que se hibrida el cebador oligonucleotídico. Normalmente, un cebador oligonucleotídico es un ácido nucleico monocatenario de entre 5 y 200 nucleótidos de longitud. Los expertos en la técnica apreciarán que la longitud óptima del cebador para generar amplicones a partir de una molécula de ácido nucleico molde puede variar con condiciones que incluyen parámetros de temperatura, composición del cebador y método de transcripción o amplificación. Un par de cebadores oligonucleotídicos, como se usa en el presente documento, se refiere a un conjunto de dos cebadores oligonucleotídicos que son respectivamente complementarios a una primera hebra y una segunda hebra de una molécula de ácido nucleico bicatenario molde. Los miembros primero y segundo de un par de cebadores oligonucleotídicos pueden denominarse cebador oligonucleotídico “directo” y cebador oligonucleotídico “inverso”, respectivamente, con respecto a una hebra de ácido nucleico molde, en el sentido de que el cebador oligonucleotídico directo es capaz de hibridarse con una hebra de ácido nucleico complementaria a la hebra de ácido nucleico molde, el cebador oligonucleotídico inverso es capaz de hibridarse con la hebra de ácido nucleico molde y la posición del cebador oligonucleotídico directo con respecto a la hebra de ácido nucleico molde es 5’ de la posición de la secuencia de cebador oligonucleotídico inverso con respecto a la hebra de ácido nucleico molde. Los expertos en la técnica entenderán que la identificación de un primer y segundo cebador oligonucleotídico como cebadores oligonucleotídicos directo e inverso, respectivamente, es arbitraria, ya que estos identificadores dependen de si una hebra de ácido nucleico dada o su complemento se utiliza como molécula de ácido nucleico molde.

Solapamiento:El término “solapamiento” se usa en el presente documento en referencia a dos regiones de ADN, cada una de las cuales contiene una subsecuencia que es sustancialmente idéntica a una subsecuencia de la misma longitud en la otra región (por ejemplo, las dos regiones de ADN tienen una subsecuencia común). “Sustancialmente idénticas” significa que las dos subsecuencias de longitud idéntica difieren en menos de un número dado de pares de bases. En determinados casos, por ejemplo, tal como se expone en el presente documento, cada subsecuencia tiene una longitud de al menos 20 pares de bases que difieren entre sí en menos de 4, 3, 2 o 1 pares de bases (por ejemplo, las dos subsecuencias que tienen al menos el 80 %, al menos el 85 %, al menos el 90 %, al menos el 95 % de similitud, al menos el 97 % de similitud, al menos el 98 % de similitud, al menos el 99 % de similitud o al menos el 99,5 % de similitud). En determinados casos, por ejemplo, tal como se expone en el presente documento, cada subsecuencia tiene una longitud de al menos 24 pares de bases que difieren en menos de 5, 4, 3, 2 o 1 pares de bases (por ejemplo, las dos subsecuencias que tienen al menos el 80 %, al menos el 85 %, al menos el 90 %, al menos el 95 % de similitud, al menos el 97 % de similitud, al menos el 98 % de similitud, al menos el 99 % de similitud o al menos el 99,5 % de similitud). En determinados casos, por ejemplo, tal como se expone en el presente documento, cada subsecuencia tiene una longitud de al menos 50 pares de bases que difieren en menos de 10, 9, 8, 7, 6, 5, 4, 3, 2 o 1 pares de bases (por ejemplo, las dos subsecuencias que tienen al menos el 80 %, al menos el 85 %, al menos el 90 %, al menos el 95 % de similitud, al menos el 97 % de similitud, al menos el 98 % de similitud, al menos el 99 % de similitud o al menos el 99,5 % de similitud). En determinados casos, por ejemplo, tal como se expone en el presente documento, cada subsecuencia tiene una longitud de al menos 100 pares de bases que difieren en menos de 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 o 1 pares de bases (por ejemplo, las dos subsecuencias que tienen al menos el 80 %, al menos el 85 %, al menos el 90 %, al menos el 95 % de similitud, al menos el 97 % de similitud, al menos el 98 % de similitud, al menos el 99 % de similitud o al menos el 99,5 % de similitud). En determinados casos, por ejemplo, tal como se expone en el presente documento, cada subsecuencia tiene una longitud de al menos 200 pares de bases que difieren en menos de 40, 30, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 o 1 pares de bases (por ejemplo, las dos subsecuencias que tienen al menos el 80 %, al menos el 85 %, al menos el 90 %, al menos el 95 % de similitud, al menos el 97 % de similitud, al menos el 98 % de similitud, al menos el 99 % de similitud o al menos el 99,5 % de similitud). En determinados casos, por ejemplo, tal como se expone en el presente documento, cada subsecuencia tiene una longitud de al menos 250 pares de bases que difieren en menos de 50, 40, 30, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 o 1 pares de bases (por ejemplo, las dos subsecuencias que tienen al menos el 80 %, al menos el 85 %, al menos el 90 %, al menos el 95 % de similitud, al menos el 97 % de similitud, al menos el 98 % de similitud, al menos el 99 % de similitud o al menos el 99,5 % de similitud). En determinados casos, por ejemplo, tal como se expone en el presente documento, cada subsecuencia tiene una longitud de al menos 300 pares de bases que difieren en menos de 60, 50, 40, 30, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 o 1 pares de bases (por ejemplo, las dos subsecuencias que tienen al menos el 80 %, al menos el 85 %, al menos el 90 %, al menos el 95 % de similitud, al menos el 97 % de similitud, al menos el 98 % de similitud, al menos el 99 % de similitud o al menos el 99,5 % de similitud). En determinados casos, por ejemplo, tal como se expone en el presente documento, cada subsecuencia tiene una longitud de al menos 500 pares de bases que difieren en menos de 100, 60, 50, 40, 30, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 o 1 pares de bases (por ejemplo, las dos subsecuencias que tienen al menos el 80 %, al menos el 85 %, al menos el 90 %, al menos el 95 % de similitud, al menos el 97 % de similitud, al menos el 98 % de similitud, al menos el 99 % de similitud o al menos el 99,5 % de similitud). En determinados casos, por ejemplo, tal como se expone en el presente documento, cada subsecuencia tiene una longitud de al menos 1000 pares de bases que difieren en menos de 200, 100, 60, 50, 40, 30, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 o 1 pares de bases (por ejemplo, las dos subsecuencias que tienen al menos el 80 %, al menos el 85 %, al menos el 90 %, al menos el 95 % de similitud, al menos el 97 % de similitud, al menos el 98 % de similitud, al menos el 99 % de similitud o al menos el 99,5 % de similitud). En determinados casos, por ejemplo, tal como se expone en el presente documento, la subsecuencia de una primera región de las dos regiones de ADN puede comprender la totalidad de la segunda región de las dos regiones de ADN (o viceversa) (por ejemplo, la subsecuencia común puede contener la totalidad de cualquiera o ambas regiones). En determinadas realizaciones, cuando un locus de metilación tiene una secuencia que comprende “al menos una porción de” una secuencia de DMR enumerada en el presente documento (por ejemplo, al menos el 20 %, al menos el 30 %, al menos el 40 %, al menos el 50 %, al menos el 60 %, al menos el 70 %, al menos el 80 % o al menos el 90 % de la secuencia de DMR), la porción solapante del locus de metilación tiene al menos el 95 % de similitud, al menos el 98 % de similitud o al menos el 99 % de similitud con la porción solapante de la secuencia de DMR (por ejemplo, si la porción solapante es de 100 pb, la porción del locus de metilación que solapa con la porción de la DMR difiere en no más de 1 pb, no más de 2 pb o no más de 5 pb). En determinadas realizaciones, cuando un locus de metilación tiene una secuencia que comprende “al menos una porción de” una secuencia de DMR enumerada en el presente documento, esto significa que el locus de metilación tiene una subsecuencia en común con la secuencia de DMR que tiene una serie consecutiva de bases que cubre al menos el 20 %, al menos el 30 %, al menos el 40 %, al menos el 50 %, al menos el 60 %, al menos el 70 %, al menos el 80 % 0 al menos el 90 % de la secuencia de DMR, por ejemplo, en donde la subsecuencia en común difiere en no más de 1 pb, no más de 2 pb o no más de 5 pb). En determinadas realizaciones, cuando un locus de metilación tiene una secuencia que comprende “al menos una porción de” una secuencia de DMR enumerada en el presente documento, esto significa que el locus de metilación contiene al menos una porción de (por ejemplo, al menos el 20 %, al menos el 30 %, al menos el 40 %, al menos el 50 %, al menos el 60 %, al menos el 70 %, al menos el 80 % o al menos el 90 % de) los dinucleótidos de CpG correspondientes a los dinucleótidos de CpG dentro de la secuencia de DMR.

Composición farmacéutica:Tal como se usa en el presente documento, el término “composición farmacéutica” se refiere a una composición en la que un agente activo se formula junto con uno o más portadores farmacéuticamente aceptables. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, el agente activo está presente en una cantidad de dosis unitaria apropiada para su administración a un sujeto, por ejemplo, en un régimen terapéutico que muestra una probabilidad estadísticamente significativa de lograr un efecto terapéutico predeterminado cuando se administra a una población relevante. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una composición farmacéutica puede formularse para su administración en una forma particular (por ejemplo, en una forma sólida o una forma líquida), y/o puede adaptarse específicamente para, por ejemplo: administración oral (por ejemplo, tal como un drenaje (disoluciones o suspensiones acuosas o no acuosas), comprimido, cápsula, bolo, polvo, gránulo, pasta, etc., que puede formularse específicamente, por ejemplo, para absorción bucal, sublingual o sistémica); administración parenteral (por ejemplo, mediante inyección subcutánea, intramuscular, intravenosa o epidural como, por ejemplo, una disolución o suspensión estéril, o formulación de liberación sostenida, etc.); aplicación tópica (por ejemplo, como una crema, pomada, parche o pulverización aplicada, por ejemplo, a la piel, los pulmones o la cavidad oral); administración intravaginal o intrarrectal (por ejemplo, tal como un pesario, supositorio, crema o espuma); administración ocular; administración nasal o pulmonar, etc.

Farmacéuticamente aceptable:Tal como se usa en el presente documento, la expresión “farmacéuticamente aceptable”, tal como se aplica a uno o más, o todos, el/los componente(s) para la formulación de una composición tal como se divulga en el presente documento, significa que cada componente debe ser compatible con los otros ingredientes de la composición y no perjudicial para el receptor de la misma.

Portador farmacéuticamente aceptable:Tal como se usa en el presente documento, la expresión “portador farmacéuticamente aceptable” se refiere a un material, composición o vehículo farmacéuticamente aceptable, tal como una carga líquida o sólida, diluyente, excipiente o material de encapsulación de disolvente, que facilita la formulación y/o modifica la biodisponibilidad de un agente, por ejemplo, un agente farmacéutico. Algunos ejemplos de materiales que pueden servir como portadores farmacéuticamente aceptables incluyen: azúcares, tales como lactosa, glucosa y sacarosa; almidones, tales como almidón de maíz y almidón de patata; celulosa, y sus derivados, tales como carboximetilcelulosa de sodio, etilcelulosa y acetato de celulosa; tragacanto en polvo; malta; gelatina; talco; excipientes, tales como manteca de cacao y ceras para supositorios; aceites, tales como aceite de cacahuete, aceite de semilla de algodón, aceite de cártamo, aceite de sésamo, aceite de oliva, aceite de maíz y aceite de soja; glicoles, tales como propilenglicol; polioles, tales como glicerina, sorbitol, manitol y polietilenglicol; ésteres, tales como oleato de etilo y laurato de etilo; agar; agentes tamponantes, tales como hidróxido de magnesio e hidróxido de aluminio; ácido algínico; agua libre de pirógenos; solución salina isotónica; solución de Ringer; alcohol etílico; disoluciones de pH tamponado; poliésteres, policarbonatos y/o polianhídridos; y otras sustancias compatibles no tóxicas empleadas en formulaciones farmacéuticas.

Síndromes de poliposis:Los términos “poliposis” y “síndrome de poliposis”, tal como se usan en el presente documento, se refieren a afecciones hereditarias que incluyen, pero no se limitan a, poliposis adenomatosa familiar (FAP), cáncer colorrectal sin poliposis hereditario (HNPCC)/síndrome de Lynch, síndrome de Gardner, síndrome de Turcot, poliposis MUTYH, síndrome de Peutz-Jeghers, enfermedad de Cowden, poliposis juvenil familiar y poliposis hiperplásica. En determinadas realizaciones, la poliposis incluye síndrome de poliposis serrada. La poliposis serrada se clasifica por un sujeto que tiene 5 o más pólipos serrados proximales al colon sigmoide con dos o más de al menos 10 mm de tamaño, que tiene un pólipo serrado proximal al colon sigmoide en el contexto de antecedentes familiares de poliposis serrada, y/o que tiene 20 o más pólipos serrados en todo el colon.

Preveniroprevención:Los términos “prevenir” y “prevención”, tal como se usan en el presente documento en relación con la aparición de una enfermedad, trastorno o afección, se refieren a reducir el riesgo de desarrollar la enfermedad, el trastorno o la afección; retrasar el inicio de la enfermedad, el trastorno o la afección; retrasar el inicio de una o más características o síntomas de la enfermedad, el trastorno o la afección; y/o reducir la frecuencia y/o gravedad de una o más características o síntomas de la enfermedad, el trastorno o la afección. La prevención puede referirse a la prevención en un sujeto particular o a un impacto estadístico en una población de sujetos. La prevención puede considerarse completa cuando el inicio de una enfermedad, trastorno o afección se ha retrasado durante un periodo de tiempo predefinido.

Sonda:Tal como se usan en el presente documento, los términos “sonda”, “sonda de captura” o “cebo” se refieren a una molécula de ácido nucleico bicatenario o monocatenario que es capaz de hibridarse con una diana complementaria e incluye un resto detectable. En determinadas realizaciones, por ejemplo, tal como se expone en el presente documento, una sonda es un producto de digestión por restricción o es un ácido nucleico producido sintéticamente, por ejemplo, un ácido nucleico producido por recombinación o amplificación. En algunos casos, por ejemplo, tal como se expone en el presente documento, una sonda es una sonda de captura útil en la detección, identificación y/o aislamiento de una secuencia diana, tal como una secuencia génica. En diversos casos, por ejemplo, tal como se expone en el presente documento, un resto detectable de sonda puede ser, por ejemplo, una enzima (por ejemplo, ELISA, así como ensayos histoquímicos basados en enzimas), resto fluorescente, resto radiactivo o resto asociado con una señal de luminiscencia.

Pronostico:Tal como se usa en el presente documento, el término “pronóstico” se refiere a determinar la probabilidad cualitativa o cuantitativa de al menos un posible resultado o evento futuro. Tal como se usa en el presente documento, un pronóstico puede ser una determinación del curso probable de una enfermedad, trastorno o afección tal como cáncer en un sujeto, una determinación con respecto a la expectativa de vida de un sujeto o una determinación con respecto a la respuesta a la terapia, por ejemplo, a una terapia particular.Información de pronóstico:Tal como se usa en el presente documento, el término “información de pronóstico” se refiere a información útil para proporcionar un pronóstico. La información de pronóstico puede incluir, sin limitación, información de estado de biomarcadores.

Promotor:Tal como se usa en el presente documento, un “promotor” puede referirse a una región reguladora de ADN que se asocia directa o indirectamente (por ejemplo, a través de proteínas o sustancias unidas al promotor) con una ARN polimerasa y participa en el inicio de la transcripción de una secuencia codificante.

Referencia:Tal como se usa en el presente documento, describe un patrón o control en relación con el cual se realiza una comparación. Por ejemplo, en algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un agente, sujeto, animal, individuo, población, muestra, secuencia o valor de interés se compara con un agente, sujeto, animal, individuo, población, muestra, secuencia o valor de referencia o control. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una referencia o característica de la misma se somete a prueba y/o se determina sustancialmente de manera simultánea con la prueba o determinación de la característica en una muestra de interés. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una referencia es una referencia histórica, realizada opcionalmente en un medio tangible. Normalmente, tal como entenderán los expertos en la técnica, se determina o caracteriza una referencia en condiciones o circunstancias comparables a las que están en evaluación, por ejemplo, con respecto a una muestra. Los expertos en la técnica apreciarán cuándo están presentes similitudes suficientes para justificar la dependencia y/o comparación con una referencia o control particular posible.

Riesgo:Tal como se usa en el presente documento con respecto a una enfermedad, trastorno o afección, el término “riesgo” se refiere a la probabilidad cualitativa o cuantitativa (ya se exprese como un porcentaje o de otro modo) de que un individuo particular desarrolle la enfermedad, el trastorno o la afección. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, el riesgo se expresa como un porcentaje. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un riesgo es una probabilidad cualitativa o cuantitativa que es igual o mayor del 0, 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90 o 100 %. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, el riesgo se expresa como un nivel cualitativo o cuantitativo de riesgo con respecto a un riesgo o nivel de referencia o el riesgo del mismo resultado atribuido a una referencia. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, el riesgo relativo aumenta o disminuye en comparación con la muestra de referencia en un factor de 1,1, 1,2, 1,3, 1,4, 1,5, 1,6, 1,7. 1.8, 1.9, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más.

Muestra:Tal como se usa en el presente documento, el término “muestra” se refiere normalmente a una alícuota de material obtenido o derivado de una fuente de interés. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una fuente de interés es una fuente biológica o ambiental. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una muestra es una “muestra primaria” obtenida directamente de una fuente de interés. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, tal como resultará evidente a partir del contexto, el término “muestra” se refiere a una preparación que se obtiene procesando una muestra primaria (por ejemplo, eliminando uno o más componentes de y/o añadiendo uno o más agentes a una muestra primaria). Tal “muestra procesada” puede incluir, por ejemplo, células, ácidos nucleicos o proteínas extraídos de una muestra u obtenidos sometiendo una muestra primaria a técnicas tales como amplificación o transcripción inversa de ácidos nucleicos, aislamiento y/o purificación de determinados componentes,etc.

En determinados casos, por ejemplo, tal como se expone en el presente documento, una muestra procesada puede ser una muestra de ADN que se ha amplificado (por ejemplo, preamplificado). Por tanto, en diversos casos, por ejemplo, tal como se expone en el presente documento, una muestra identificada puede referirse a una forma primaria de la muestra o a una forma procesada de la muestra. En algunos casos, por ejemplo, tal como se expone en el presente documento, una muestra que es ADN digerido enzimáticamente puede referirse a ADN primario digerido enzimáticamente (el producto inmediato de la digestión enzimática) o una muestra procesada adicionalmente tal como ADN digerido enzimáticamente que se ha sometido a una etapa de amplificación (por ejemplo, una etapa de amplificación intermedia, por ejemplo, preamplificación) y/o a una etapa de filtración, etapa de purificación o etapa que modifica la muestra para facilitar una etapa adicional, por ejemplo, en un proceso de determinación del estado de metilación (por ejemplo, estado de metilación de una muestra primaria de ADN y/o de ADN tal como existía en su contexto de fuente original).

Cribado:Tal como se usa en el presente documento, el término “cribado” se refiere a cualquier método, técnica, proceso o tarea destinada a generar información de diagnóstico y/o información de pronóstico. Por consiguiente, los expertos en la técnica apreciarán que el término cribado abarca el método, la técnica, el proceso o la tarea que determina si un individuo tiene, es probable que tenga o desarrolle, o está en riesgo de tener o desarrollar una enfermedad, trastorno o afección, por ejemplo, cáncer colorrectal, adenoma avanzado.

Especificidad:Tal como se usa en el presente documento, la “especificidad” de un biomarcador se refiere al porcentaje de muestras que se caracterizan por la ausencia del evento o estado de interés para el que la medición del biomarcador indica con precisión la ausencia del evento o estado de interés (tasa de verdaderos negativos). En diversas realizaciones, por ejemplo, tal como se expone en el presente documento, la caracterización de las muestras negativas es independiente del biomarcador, y puede lograrse mediante cualquier medida relevante, por ejemplo, cualquier medida relevante conocida por los expertos en la técnica. Por tanto, la especificidad refleja la probabilidad de que el biomarcador detecte la ausencia del evento o estado de interés cuando se mide en una muestra no caracterizada por ese evento o estado de interés. En realizaciones particulares en las que el evento o estado de interés es cáncer colorrectal, por ejemplo, tal como se expone en el presente documento, especificidad se refiere a la probabilidad de que un biomarcador detecte la ausencia de cáncer colorrectal en un sujeto que carece de cáncer colorrectal. La falta de cáncer colorrectal se puede determinar, por ejemplo, mediante histología.

Sensibilidad:Tal como se usa en el presente documento, la “sensibilidad” de un biomarcador se refiere al porcentaje de muestras que se caracterizan por la presencia del evento o estado de interés para el que la medición del biomarcador indica con precisión la presencia del evento o estado de interés (tasa de verdaderos positivos). En diversas realizaciones, por ejemplo, tal como se expone en el presente documento, la caracterización de las muestras positivas es independiente del biomarcador, y puede lograrse mediante cualquier medida relevante, por ejemplo, cualquier medida relevante conocida por los expertos en la técnica. Por tanto, la sensibilidad refleja la probabilidad de que un biomarcador detecte la presencia del evento o estado de interés cuando se mide en una muestra caracterizada por la presencia de ese evento o estado de interés. En realizaciones particulares en las que el evento o estado de interés es cáncer colorrectal, por ejemplo, tal como se expone en el presente documento, la sensibilidad se refiere a la probabilidad de que un biomarcador detecte la presencia de cáncer colorrectal en un sujeto que tiene cáncer colorrectal. La presencia de cáncer colorrectal puede determinarse, por ejemplo, mediante histología.

Polimorfismo de un solo nucleótido (SNP):Tal como se usa en el presente documento, el término “polimorfismo de un solo nucleótido” o “SNP” se refiere a una posición de base particular en el genoma donde se sabe que bases alternativas distinguen un alelo de otro. En algunas realizaciones, uno o unos pocos SNP y/o CNP es/son suficiente(s) para distinguir variantes genéticas complejas entre sí de modo que, para fines analíticos, uno o un conjunto de SNP y/o CNP puede considerarse que es característico de una variante, rasgo, tipo celular, individuo, especie, etc. particular, o conjunto de los mismos. En algunas realizaciones, puede considerarse que uno o un conjunto de SNP y/o CNP definen una variante, rasgo, tipo celular, individuo, especie, etc. particular, o un conjunto de los mismos.

Tumor sólido:Tal como se usa en el presente documento, el término “tumor sólido” se refiere a una masa anómala de tejido que incluye células cancerosas. En diversas realizaciones, por ejemplo, tal como se expone en el presente documento, un tumor sólido es o incluye una masa anómala de tejido que no contiene quistes o áreas líquidas. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un tumor sólido puede ser benigno; en algunas realizaciones, un tumor sólido puede ser maligno. Los ejemplos de tumores sólidos incluyen carcinomas, linfomas y sarcomas. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, los tumores sólidos pueden ser o incluir tumores suprarrenales, del conducto biliar, de la vejiga, óseos, cerebrales, de mama, de cuello uterino, de colon, de endometrio, de esófago, de ojo, de vesícula biliar, del tracto gastrointestinal, de riñón, de laringe, de hígado, de pulmón, de cavidad nasal, de nasofaringe, de cavidad oral, de ovario, de pene, de hipófisis, de próstata, de retina, de glándula salival, de piel, de intestino delgado, de estómago, de testículos, de timo, de tiroides, uterino, vaginal y/o vulvar.

Estadio del cáncer:Tal como se usa en el presente documento, el término “estadio del cáncer” se refiere a una evaluación cualitativa o cuantitativa del nivel de avance de un cáncer. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, los criterios usados para determinar el estadio de un cáncer pueden incluir, pero no se limitan a, uno o más de dónde está ubicado el cáncer en un cuerpo, tamaño del tumor, si el cáncer se ha diseminado a los ganglios linfáticos, si el cáncer se ha diseminado a una o más partes diferentes del cuerpo, etc. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, el cáncer puede estadificarse usando el denominado sistema TNM, según el cual T se refiere al tamaño y extensión del tumor principal, denominado habitualmente tumor primario; N se refiere al número de ganglios linfáticos cercanos que tienen cáncer; y M se refiere a si el cáncer ha metastatizado. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un cáncer puede denominarse estadio 0 (están presentes células anómalas pero no se han diseminado al tejido cercano, también llamado carcinomain situ,o CIS; CIS no es cáncer, pero puede convertirse en cáncer), estadio I-III (el cáncer está presente; cuanto mayor es el número, mayor es el tumor y más se ha diseminado en tejidos cercanos), o estadio IV (el cáncer se ha diseminado a partes distantes del cuerpo). En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un cáncer puede asignarse a un estadio seleccionado del grupo que consiste en:in situ(están presentes células anómalas pero no se han diseminado a tejido cercano); localizado (el cáncer está limitado al lugar donde comenzó, sin signo de que se haya diseminado); regional (el cáncer se ha diseminado a ganglios linfáticos, tejidos u órganos cercanos): distante (el cáncer se ha diseminado a partes distantes del cuerpo); y desconocido (no hay suficiente información para identificar el estadio del cáncer).

Susceptible a:Un individuo que es “susceptible a” una enfermedad, trastorno o afección está en riesgo de desarrollar la enfermedad, trastorno o afección. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un individuo que es susceptible a una enfermedad, trastorno o afección no muestra ningún síntoma de la enfermedad, trastorno o afección. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, a un individuo que es susceptible a una enfermedad, trastorno o afección no se le ha diagnosticado la enfermedad, trastorno y/o afección. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un individuo que es susceptible a una enfermedad, trastorno o afección es un individuo que se ha expuesto a afecciones asociadas con, o presenta un estado de biomarcador (por ejemplo, un estado de metilación) asociado con el desarrollo de la enfermedad, trastorno o afección. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un riesgo de desarrollar una enfermedad, trastorno y/o afección es un riesgo basado en población (por ejemplo, miembros de la familia de individuos que padecen la enfermedad, trastorno o afección).

Sujeto:Tal como se usa en el presente documento, el término “sujeto” se refiere a un organismo, normalmente un mamífero (por ejemplo, un ser humano). En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un sujeto padece una enfermedad, trastorno o afección. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un sujeto es susceptible a una enfermedad, trastorno o afección. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un sujeto muestra uno o más síntomas o características de una enfermedad, trastorno o afección. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un sujeto no padece una enfermedad, trastorno o afección. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un sujeto no muestra ningún síntoma o característica de una enfermedad, trastorno o afección. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un sujeto es alguien con uno o más rasgos característicos de susceptibilidad a o riesgo de una enfermedad, trastorno o afección. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un sujeto es un paciente. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un sujeto es un individuo al que se le ha realizado el diagnóstico y/o al que se le ha administrado la terapia. En algunos casos, por ejemplo, tal como se expone en el presente documento, un sujeto humano puede denominarse indistintamente “individuo”.

Agente terapéutico:Tal como se usa en el presente documento, el término “agente terapéutico” se refiere a cualquier agente que produzca un efecto farmacológico deseado cuando se administra a un sujeto. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, se considera que un agente es un agente terapéutico si demuestra un efecto estadísticamente significativo a través de una población apropiada. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, la población apropiada puede ser una población de organismos modelo o una población humana. En realizaciones, por ejemplo, tal como se expone en el presente documento, una población apropiada puede definirse mediante diversos criterios, tales como un cierto grupo de edad, género, antecedentes genéticos, afecciones clínicas preexistentes, etc. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un agente terapéutico es una sustancia que puede usarse para el tratamiento de una enfermedad, trastorno o afección. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un agente terapéutico es un agente que ha sido o se requiere que esté aprobado por una agencia gubernamental antes de que pueda comercializarse para su administración a seres humanos. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un agente terapéutico es un agente para el que se requiere una prescripción médica para su administración a seres humanos.

Cantidad terapéuticamente eficaz:Tal como se usa en el presente documento, el término “cantidad terapéuticamente eficaz” se refiere a una cantidad que produce un efecto deseado para el que se administra.

En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, el término se refiere a una cantidad que es suficiente, cuando se administra a una población que padece o es susceptible a una enfermedad, trastorno o afección, según un régimen de dosificación terapéutica, para tratar la enfermedad, trastorno o afección. Los expertos en la técnica apreciarán que el término cantidad terapéuticamente eficaz no requiere de hecho que se logre un tratamiento satisfactorio en un individuo particular. Más bien, una cantidad terapéuticamente eficaz puede ser una cantidad que proporcione una respuesta farmacológica deseada particular en un número significativo de sujetos cuando se administra a individuos que necesitan tal tratamiento. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, la referencia a una cantidad terapéuticamente eficaz puede ser una referencia a una cantidad medida en uno o más tejidos específicos (por ejemplo, un tejido afectado por la enfermedad, trastorno o afección) o fluidos (por ejemplo, sangre, saliva, suero, sudor, lágrimas, orina, etc.). Los expertos en la técnica apreciarán que, en algunas realizaciones, una cantidad terapéuticamente eficaz de un agente particular puede formularse y/o administrarse en una única dosis. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un agente terapéuticamente eficaz puede formularse y/o administrarse en una pluralidad de dosis, por ejemplo, tal como parte de un régimen de dosificación multidosis.

Tratamiento:Tal como se usa en el presente documento, el término “tratamiento” (también “tratar” o “que trata”) se refiere a la administración de una terapia que, parcial o completamente, alivia, mejora, palia, inhibe, retrasa la aparición de, reduce la gravedad de y/o reduce la incidencia de uno o más síntomas, características y/o causas de una enfermedad, trastorno o afección particular, o se administra con el propósito de lograr cualquier resultado de este tipo. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, tal tratamiento puede ser de un sujeto que no muestra signos de la enfermedad, trastorno o afección relevante y/o de un sujeto que muestra solo signos tempranos de la enfermedad, trastorno o afección. Alternativa o adicionalmente, tal tratamiento puede ser de un sujeto que muestra uno o más signos establecidos de la enfermedad, trastorno y/o afección relevante. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, el tratamiento puede ser de un sujeto al que se le ha diagnosticado que padece la enfermedad, trastorno y/o afección relevante. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, el tratamiento puede ser de un sujeto que se sabe que tiene uno o más factores de susceptibilidad que están estadísticamente correlacionados con un mayor riesgo de desarrollo de la enfermedad, trastorno o afección relevante. En diversos ejemplos, el tratamiento es de un cáncer.

Aguas arriba:Tal como se usa en el presente documento, el término “aguas arriba” significa que una primera región de ADN está más cerca, en relación con una segunda región de ADN, del extremo N-terminal de un ácido nucleico que incluye la primera región de ADN y la segunda región de ADN.

Dosis unitaria:Tal como se usa en el presente documento, el término “dosis unitaria” se refiere a una cantidad administrada como una única dosis y/o en una unidad físicamente diferenciada de una composición farmacéutica. En muchas realizaciones, por ejemplo, tal como se expone en el presente documento, una dosis unitaria contiene una cantidad predeterminada de un agente activo. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una dosis unitaria contiene una única dosis completa del agente. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, se administra más de una dosis unitaria para lograr una única dosis. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, se requiere la administración de múltiples dosis unitarias, o se espera que se requiera, para lograr un efecto previsto. Una dosis unitaria puede ser, por ejemplo, un volumen de líquido (por ejemplo, un portador aceptable) que contiene una cantidad predeterminada de uno o más restos terapéuticos, una cantidad predeterminada de uno o más restos terapéuticos en forma sólida, una formulación de liberación sostenida o dispositivo de administración de fármacos que contiene una cantidad predeterminada de uno o más restos terapéuticos, etc. Se apreciará que una dosis unitaria puede estar presente en una formulación que incluye cualquiera de una variedad de componentes además del/de los agente(s) terapéutico(s). Por ejemplo, pueden incluirse portadores aceptables (por ejemplo, portadores farmacéuticamente aceptables), diluyentes, estabilizantes, tampones, conservantes, etc. Los expertos en la técnica apreciarán, en muchas realizaciones, por ejemplo, tal como se expone en el presente documento, que una dosificación diaria apropiada total de un agente terapéutico particular puede comprender una porción, o una pluralidad, de dosis unitarias, y puede decidirse, por ejemplo, por un médico dentro del alcance del criterio médico correcto. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, el nivel de dosis eficaz específica para cualquier sujeto u organismo particular puede depender de una variedad de factores que incluyen el trastorno que está tratándose y la gravedad del trastorno; la actividad del compuesto activo específico empleado; la composición específica empleada; la edad, el peso corporal, la salud general, el sexo y la dieta del sujeto; el tiempo de administración y la tasa de excreción del compuesto activo específico empleado; la duración del tratamiento; los fármacos y/o terapias adicionales usados en combinación o coincidentes con compuesto(s) específico(s) empleado(s), y factores similares bien conocidos en las técnicas médicas.

No metilado:Tal como se usa en el presente documento, los términos “no metilado” y “sin metilar” se usan indistintamente y significan que una región de ADN identificada no incluye nucleótidos metilados.

Variante:Tal como se usa en el presente documento, el término “variante” se refiere a una entidad que muestra identidad estructural significativa con una entidad de referencia pero difiere estructuralmente de la entidad de referencia en presencia, ausencia o nivel de uno o más restos químicos en comparación con la entidad de referencia.

En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una variante también difiere funcionalmente de su entidad de referencia. En general, si una entidad particular se considera apropiadamente que es una “variante” de una entidad de referencia se basa en su grado de identidad estructural con la entidad de referencia. Una variante puede ser una molécula comparable, pero no idéntica, a una referencia. Por ejemplo, un ácido nucleico variante puede diferir de un ácido nucleico de referencia en una o más diferencias en la secuencia de nucleótidos. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, un ácido nucleico variante muestra una identidad de secuencia global con un ácido nucleico de referencia que es al menos del 85 %, 86 %, 87 %, 88 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 % o 99 %. En muchas realizaciones, por ejemplo, tal como se expone en el presente documento, un ácido nucleico de interés se considera que es una ‘variante” de un ácido nucleico de referencia si el ácido nucleico de interés tiene una secuencia que es idéntica a la de la referencia pero para un pequeño número de alteraciones de secuencia en posiciones particulares. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una variante tiene 10, 9, 8, 7, 6, 5, 4, 3, 2 o 1 residuos sustituidos en comparación con una referencia. En algunas realizaciones, por ejemplo, tal como se expone en el presente documento, una variante no tiene más de 5, 4, 3, 2 o 1 adiciones, sustituciones o deleciones de residuos en comparación con la referencia. En diversas realizaciones, por ejemplo, tal como se expone en el presente documento, el número de adiciones, sustituciones o deleciones es menor de aproximadamente 25, aproximadamente 20, aproximadamente 19, aproximadamente 18, aproximadamente 17, aproximadamente 16, aproximadamente 15, aproximadamente 14, aproximadamente 13, aproximadamente 10, aproximadamente 9, aproximadamente 8, aproximadamente 7, aproximadamente 6 y, comúnmente, son menores de aproximadamente 5, aproximadamente 4, aproximadamente 3 o aproximadamente 2 residuos.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

Los anteriores y otros objetos, aspectos, características y ventajas de la presente divulgación resultarán más evidentes y se entenderán mejor haciendo referencia a la siguiente descripción tomada junto con los dibujos adjuntos, en los que:

La figura 1 es un diagrama de flujo de un método de captura híbrida a modo de ejemplo, según una realización ilustrativa.

La figura 2 es una lista de 203 DMR (regiones metiladas diferencialmente) identificadas para su uso en la detección de cáncer colorrectal, según una realización ilustrativa.

La figura 3 es una lista de 220 DMR (regiones metiladas diferencialmente) identificadas para su uso en la detección de adenoma avanzado, según una realización ilustrativa.

La figura 4 es una lista de regiones de biomarcadores de mutación, según una realización ilustrativa.

La figura 5 es un diagrama de flujo de un método de captura híbrida a modo de ejemplo, según una realización ilustrativa.

La figura 6 es un diagrama de flujo de un método de preparación de bibliotecas a modo de ejemplo, según una realización ilustrativa.

La figura 7 es un flujo de trabajo bioinformático a modo de ejemplo, según una realización ilustrativa.

La figura 8 es un gráfico que muestra una curva de características operativas del receptor (ROC) de un panel de 203 marcadores en un conjunto de validación para cáncer colorrectal, según una realización ilustrativa.

La figura 9 es un gráfico de barras que muestra valores de sensibilidad y la especificidad global de un modelo de clasificación a modo de ejemplo para cáncer colorrectal.

Las figuras 10A y 10B son gráficos de cajas que muestran valores a modo de ejemplo para determinar umbrales de muestras de metilación, para cada muestra en un conjunto de validación de sujetos para dos regiones de marcadores de metilación individuales, según una realización ilustrativa.

La figura 11 es un gráfico de barras que muestra valores de sensibilidad y la especificidad global según el tipo de adenoma avanzado para un modelo de clasificación a modo de ejemplo para adenoma avanzado.

La figura 12 es un gráfico de barras que muestra valores de sensibilidad y la especificidad global de un modelo de clasificación a modo de ejemplo para adenoma avanzado.

La figura 13 es un diagrama de flujo para etapas de procesamiento bioinformático, según una realización ilustrativa.

La figura 14 es una serie de gráficos de barras que comparan la calidad de la muestra para muestras convertidas con bisulfito (BS) y muestras convertidas enzimáticamente (EM), según una realización ilustrativa.

La figura 15 es un gráfico de PCA que compara grupos de muestras preparadas usando conversión con bisulfito (BS) o conversión enzimática (EM), según una realización ilustrativa.

La figura 16 es un diagrama de bloques de un entorno informático en la nube a modo de ejemplo usado en determinadas realizaciones.

La figura 17 es un diagrama de bloques de un dispositivo informático de ejemplo y un dispositivo informático móvil de ejemplo usados en determinadas realizaciones.

DESCRIPCIÓN DETALLADA

Se contempla que los sistemas, arquitecturas, dispositivos, métodos y procesos de la invención reivindicada abarquen variaciones y adaptaciones desarrolladas usando información de las realizaciones descritas en el presente documento. La adaptación y/o modificación de los sistemas, arquitecturas, dispositivos, métodos y procesos descritos en el presente documento puede realizarse tal como se contempla en esta descripción.

A lo largo de la descripción, cuando los artículos, dispositivos, sistemas y arquitecturas se describen como que tienen, incluyen o comprenden componentes específicos, o cuando los procesos y métodos se describen como que tienen, incluyen o comprenden etapas específicas, se contempla que, adicionalmente, hay artículos, dispositivos, sistemas y arquitecturas de la presente invención que consisten esencialmente en, o consisten en, los componentes mencionados, y que hay procesos y métodos según la presente invención que consisten esencialmente en, o consisten en, las etapas de procesamiento mencionadas.

Debe entenderse que el orden de las etapas u orden para realizar cierta acción es irrelevante siempre que la invención siga siendo operativa. Además, pueden realizarse simultáneamente dos o más etapas o acciones.

La mención en el presente documento de cualquier publicación, por ejemplo, en la sección de antecedentes, no es una admisión de que la publicación sirva como técnica anterior con respecto a cualquiera de las reivindicaciones presentadas en el presente documento. La sección de antecedentes se presenta con fines de claridad y no se pretende que sea una descripción de la técnica anterior con respecto a cualquier reivindicación. Cuando hay cualquier discrepancia en el significado de un término particular, el significado proporcionado en la sección de definiciones anterior prevalece.

Detección de metilación en neoplasias colorrectales usando un ensayo de colon UDX

En determinadas realizaciones, los métodos, sistemas y técnicas descritos en el presente documento se usan para realizar una prueba de colon UDX. La prueba de colon UDX es un diagnósticoin vitrocualitativo basado en secuenciación de última generación (NGS) que usa captura basada en hibridación dirigida de alto rendimiento con procesos bioinformáticos para detectar metilación en más de 300 loci de metilación asociados a neoplasia colorrectal (por ejemplo, cáncer colorrectal, adenoma avanzado) en ADN, por ejemplo, ADNlc de un sujeto humano. En determinadas realizaciones, una prueba de colon UDX utiliza ADN libre de células (ADNlc) de plasma de sangre completa para identificar locus metilados.

Un resultado positivo puede indicar la presencia de cáncer colorrectal (CCR) o adenoma avanzado (AA). Un resultado positivo puede ir seguido de colonoscopia de diagnóstico u otro ensayo de confirmación de diagnóstico. Puede usarse una prueba de colon UDX para detectar (por ejemplo, cribar) una neoplasia colorrectal en adultos de 45 años o más, que tienen un riesgo promedio de CCR. En determinadas realizaciones, una prueba de colon UDX incluye reactivos, software, procedimientos o una combinación de los mismos, para someter a prueba ADNlc de muestras de sangre completa.

La figura 1 muestra un diagrama de flujo de un método a modo de ejemplo (100) para procesar muestras de ADN usando los métodos y técnicas descritos en el presente documento. En determinadas realizaciones, una prueba usa de aproximadamente 10 a aproximadamente 20 ng de ADNlc extraído de aproximadamente 4 ml de plasma (110). El ADNlc extraído puede someterse a conversión (por ejemplo, conversión enzimática o con bisulfito) (120). A continuación, se construye una biblioteca de secuenciación (130) usando ADN convertido. Las regiones de interés (por ejemplo, marcadores de metilación y marcadores de mutación) pueden enriquecerse usando una estrategia de enriquecimiento de diana (por ejemplo, captura hibridada) (140). Las dianas capturadas se secuencian después usando una técnica de secuenciación de última generación (150). Los datos de secuenciación se procesan usando canal de análisis bioinformático personalizado (160) diseñado para detectar (por ejemplo, cribar) alteraciones genómicas que incluyen metilación y mutaciones (por ejemplo, sustituciones de nucleótidos).

Detección de cáncer colorrectal y adenoma avanzado

En diversas realizaciones, se selecciona un biomarcador de metilación de la presente divulgación usado para la detección de cáncer colorrectal de un locus de metilación que es o incluye al menos una porción de una DMR enumerada en la figura 2. La figura 2 enumera la región de ADN en la que se encuentra la DMR, que incluye el número de cromosoma (cro), las posiciones de inicio (“inicio”) y fin (“fin”) de la DMR en el cromosoma, y el tamaño (por ejemplo, “ancho”) de la región de DMR (“tamaño de la región”). También se enumeran características adicionales de la DMR, incluyendo la presencia de cualquier potenciador (1 para “presente”, blanco para “no presente”), cualquier nombre de genes que se sabe que tienen un promotor en la región (“promotores”), cualquier región de 1-5 kb aguas arriba del sitio de inicio de la transcripción (TSS) (“1 a 5 kb”) de genes, regiones no traducidas en 5’ (“5’UTR”), nombres de genes que tienen exones en la región (“exones”), nombres de genes que tienen intrones en la región, regiones no traducidas en 3’ (“3’UTR”) y notaciones con respecto a la presencia de islas CpG, orillas CpG, estantes CpG y mares abiertos CpG (CpG_inter). Si se menciona que un gen de una DMR está asociado con otra DMR diferente, la columna “genes solapantes” dirá “sí”.

En diversas realizaciones, se selecciona un biomarcador de metilación de la presente divulgación usado para la detección de adenoma avanzado de un locus de metilación que es o incluye al menos una porción de una DMR enumerada en la figura 3. La figura 3 enumera la región de ADN en la que se encuentra la DMR, que incluye el número de cromosoma (cro), las posiciones de inicio (“inicio”) y fin (“fin”) de la DMR en el cromosoma, y también se enumera el tamaño (por ejemplo, “ancho”) de la región DMR (“tamaño de la región”). También se enumeran características adicionales de las DMR, que se identificaron anteriormente.

Para evitar cualquier duda, cualquier biomarcador de metilación proporcionado en el presente documento en la figura 2 o la figura 3 puede ser, o incluirse en, entre otras cosas, un marcador de cáncer colorrectal y/o un marcador de adenoma avanzado. Adicionalmente, cualquier biomarcador de metilación en el presente documento puede ser, o incluirse en, un biomarcador de metilación de adenoma avanzado.

En algunas realizaciones, dicho biomarcador de metilación puede ser o incluir un único locus de metilación. En algunas realizaciones, un biomarcador de metilación puede ser o incluir dos o más loci de metilación. En algunas realizaciones, un biomarcador de metilación puede ser o incluir una única región metilada diferencialmente (DMR) (por ejemplo, (i) una DMR seleccionada de las enumeradas en la figura 2 o la figura 3, (ii) una DMR que abarca una DMR seleccionada de las enumeradas en la figura 2 o la figura 3, (iii) una DMR que se solapa con una o más DMR seleccionadas de las enumeradas en la figura 2 o la figura 3, o (iv) una DMR que es una porción de una DMR seleccionada de las enumeradas en la figura 2 o la figura 3). En algunas realizaciones, un locus de metilación puede ser o incluir dos o más DMR (por ejemplo, dos, tres, cuatro o más DMR seleccionadas de las enumeradas en la figura 2 o la figura 3, o dos, tres, cuatro, cinco, seis, siete, ocho, nueve, diez, once, doce, trece, catorce, quince, dieciséis, diecisiete, dieciocho, diecinueve, veinte, veintiuno, veintidós, veintitrés, veinticuatro o más DMR, cada una de las cuales se solapa con y/o abarca una DMR seleccionada de las enumeradas en la figura 2 o la figura 3). En algunas realizaciones, un biomarcador de metilación puede ser o incluir un único sitio de metilación (por ejemplo, un único sitio CpG, un residuo de citosina metilada). En otras realizaciones, un biomarcador de metilación puede ser o incluir dos o más sitios de metilación. En algunas realizaciones, un locus de metilación puede incluir dos o más DMR e incluir además regiones de ADN adyacentes a una o más de las DMR incluidas.

En algunos casos, un locus de metilación es o incluye un gen, tal como un gen proporcionado en la figura 2 o la figura 3. En algunos casos, un locus de metilación es o incluye una porción de un gen, por ejemplo, una porción de un gen proporcionado en la figura 2 o la figura 3. En algunos casos, un locus de metilación incluye, pero no se limita a, límites de ácido nucleico identificados de un gen. Por ejemplo, un locus de metilación puede incluir una región de 1 a 5 kb aguas arriba del sitio de inicio de la transcripción (TSS) de un gen. Un locus de metilación puede no estar actualmente asociado con ningún gen conocido.

En algunos casos, un locus de metilación es o incluye una región codificante de un gen, tal como una región codificante de un gen proporcionado en la figura 2 o la figura 3. En algunos casos, un locus de metilación es o incluye una porción de la región codificante del gen, por ejemplo, una porción de la región codificante de un gen proporcionado en la figura 2 o la figura 3. En algunos casos, un locus de metilación incluye, pero no se limita a, límites de ácido nucleico identificados de una región codificante de gen. En algunos casos, un locus de metilación es o incluye un promotor, potenciador y/u otra región reguladora de un gen, tal como un gen proporcionado en la figura 2 o la figura 3. En algunos casos, un locus de metilación es o incluye una porción del promotor, potenciador y/o región reguladora de un gen, por ejemplo, una porción del promotor y/o región reguladora de un gen proporcionado en la figura 2 o la figura 3. En algunos casos, un locus de metilación incluye, pero no se limita a, límites de ácido nucleico identificados de un promotor y/u otra región reguladora del gen. En algunas realizaciones, un locus de metilación es o incluye un promotor de alta densidad de CpG, o una porción del mismo.

En algunas realizaciones, un locus de metilación es o incluye una secuencia no codificante. En algunas realizaciones, un locus de metilación es o incluye uno o más exones, y/o uno o más intrones.

En algunas realizaciones, un locus de metilación incluye una región de ADN que se extiende un número predeterminado de nucleótidos aguas arriba de una secuencia codificante, y/o una región de ADN que se extiende un número predeterminado de nucleótidos aguas abajo de una secuencia codificante. En diversos casos, un número predeterminado de nucleótidos aguas arriba y/o aguas abajo y son o incluyen, por ejemplo, 500 pb, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 75 kb o 100 kb. Los expertos en la técnica apreciarán que los biomarcadores de metilación capaces de afectar a la expresión de una secuencia codificante pueden estar normalmente dentro de cualquiera de estas distancias de la secuencia codificante, aguas arriba y/o aguas abajo.

Los expertos en la técnica apreciarán que no es necesario que un locus de metilación identificado como biomarcador de metilación se someta a ensayo necesariamente en un único experimento, reacción o amplicón. Un único locus de metilación identificado como biomarcador de metilación de cáncer colorrectal puede someterse a ensayo, por ejemplo, en un método que incluye amplificación separada (o proporcionar cebadores oligonucleotídicos y condiciones suficientes para la amplificación de) una o más regiones de ADN distintas o solapantes dentro de un locus de metilación, por ejemplo, una o más DMR distintas o solapantes. Los expertos en la técnica apreciarán además que no es necesario analizar un locus de metilación identificado como biomarcador de metilación para determinar el estado de metilación de cada nucleótido, ni cada CpG, presente dentro del locus de metilación. Más bien, un locus de metilación que es un biomarcador de metilación puede analizarse, por ejemplo, mediante análisis de una única región de ADN dentro del locus de metilación, por ejemplo, mediante análisis de una única DMR dentro del locus de metilación.

Las DMR de la presente divulgación pueden ser un locus de metilación o incluir una porción de un locus de metilación. En algunos casos, una DMR es una región de ADN con un locus de metilación que tiene, por ejemplo, de 1 a 5.000 pb de longitud. En diversas realizaciones, una DMR es una región de ADN con un locus de metilación que es igual o menor de 5000 pb, 4.000 pb, 3.000 pb, 2.000 pb, 1.000 pb, 950 pb, 900 pb, 850 pb, 800 pb, 750 pb, 700 pb, 650 pb, 600 pb, 550 pb, 500 pb, 450 pb, 400 pb, 350 pb, 300 pb, 250 pb, 200 pb, 150 pb, 100 pb, 50 pb, 40 pb, 30 pb, 20 pb o 10 pb de longitud. En algunas realizaciones, una<d>M<r>tiene 1,2, 3, 4, 5, 6, 7, 8 o 9 pb de longitud.

Los biomarcadores de metilación, incluyendo sin limitación loci de metilación y DMR proporcionados en el presente documento, pueden incluir al menos un sitio de metilación que es un biomarcador de cáncer colorrectal.

Para mayor claridad, los expertos en la técnica apreciarán que el término biomarcador de metilación se usa ampliamente, de manera que un locus de metilación puede ser un biomarcador de metilación que incluye una o más DMR, cada una de las cuales DMR también es en sí misma un biomarcador de metilación, y cada una de las cuales DMR puede incluir uno o más sitios de metilación, cada uno de los cuales sitios de metilación también es en sí mismo un biomarcador de metilación. Además, un biomarcador de metilación puede incluir dos o más loci de metilación. Por consiguiente, el estado como biomarcador de metilación no se basa en la contigüidad de los ácidos nucleicos incluidos en un biomarcador, sino más bien en la existencia de un cambio en el estado de metilación para región/regiones de ADN incluida(s) entre un primer estado y un segundo estado, tal como entre cáncer colorrectal y controles, adenoma avanzado y controles, o tanto cáncer colorrectal como adenoma avanzado y controles. Tal como se proporciona en el presente documento, un locus de metilación puede ser cualquiera de uno o más loci de metilación, cada uno de los cuales loci de metilación es, incluye o es una porción de un gen (o DMR específica) identificado en la figura 2 o la figura 3. En algunas realizaciones, un biomarcador de metilación de cáncer colorrectal y/o adenoma avanzado incluye un único locus de metilación que es, incluye o es una porción de un gen identificado en la figura 2 o la figura 3.

En algunas realizaciones, un biomarcador de metilación incluye dos o más loci de metilación, cada uno de los cuales es, incluye o es una parte de un gen identificado en la figura 2 o la figura 3. En algunas realizaciones, un biomarcador de metilación de cáncer colorrectal y/o adenoma avanzado incluye una pluralidad de loci de metilación, cada uno de los cuales es, incluye o es una parte de un gen identificado en la figura 2 o la figura 3.

En diversas realizaciones, un biomarcador de metilación puede ser o incluir uno o más nucleótidos individuales (por ejemplo, un único residuo de citosina individual en el contexto de una CpG) o una pluralidad de residuos de citosina individuales (por ejemplo, de una pluralidad de CpG) presentes dentro de uno o más loci de metilación (por ejemplo, una o más DMR) proporcionados en el presente documento. Por tanto, en determinadas realizaciones, un biomarcador de metilación es o incluye el estado de metilación de una pluralidad de sitios de metilación individuales.

En diversas realizaciones, un biomarcador de metilación es, incluye o se caracteriza por un cambio en el estado de metilación que es un cambio en la metilación de uno o más sitios de metilación dentro de uno o más loci de metilación (por ejemplo, una o más DMR). En diversas realizaciones, un biomarcador de metilación es o incluye un cambio en el estado de metilación que es un cambio en el número de sitios metilados dentro de uno o más loci de metilación (por ejemplo, uno o más DMR) (por ejemplo, uno o más sitios CpG). En diversas realizaciones, un biomarcador de metilación es o incluye un cambio en el estado de metilación que es un cambio en la frecuencia de sitios de metilación dentro de uno o más loci de metilación (por ejemplo, una o más DMR). En diversas realizaciones, un biomarcador de metilación es o incluye un cambio en el estado de metilación que es un cambio en el patrón de sitios de metilación dentro de uno o más loci de metilación (por ejemplo, una o más DMR).

En diversas realizaciones, el estado de metilación de uno o más loci de metilación (por ejemplo, una o más DMR) se expresa como una fracción o porcentaje del uno o más loci de metilación (por ejemplo, la una o más DMR) presentes en una muestra que están metilados, por ejemplo, como una fracción del número de hebras de ADN individuales de ADN en una muestra que están metiladas en uno o más loci de metilación particulares (por ejemplo, una o más DMR particulares). Los expertos en la técnica apreciarán que, en algunos casos, la fracción o el porcentaje de metilación puede calcularse a partir de la razón de DMR metiladas con respecto a DMR no metiladas para una o más DMR analizadas, por ejemplo, dentro de una muestra.

En diversas realizaciones, el estado de metilación de uno o más loci de metilación (por ejemplo, una o más DMR) se compara con un valor de estado de metilación de referencia y/o con el estado de metilación del uno o más loci de metilación (por ejemplo, una o más DMR) en una muestra de referencia o un grupo de muestras de referencia. Por ejemplo, en determinadas realizaciones, el grupo de muestras de referencia es una pluralidad de muestras obtenidas de individuos en los que se sabe que dichas muestras representan un estado particular (por ejemplo, un estado “normal” no canceroso o un estado canceroso). En determinados casos, una referencia es una muestra no contemporánea de la misma fuente, por ejemplo, una muestra anterior de la misma fuente, por ejemplo, del mismo sujeto. En determinados casos, una referencia para el estado de metilación de uno o más loci de metilación (por ejemplo, una o más DMR) es el estado de metilación de uno o más loci de metilación (por ejemplo, una o más<d>M<r>) en una muestra (por ejemplo, una muestra de un sujeto), o una pluralidad de muestras, que se sabe que representan un estado particular (por ejemplo, un estado canceroso o un estado no canceroso). Por tanto, una referencia puede ser o incluir uno o más umbrales predeterminados, umbrales que pueden ser cuantitativos (por ejemplo, un valor de metilación) o cualitativos. Los expertos en la técnica apreciarán que una medición de referencia se produce normalmente mediante medición usando una metodología idéntica a, similar a o comparable a aquella mediante la que se tomó la medición que no es de referencia.

En diversas realizaciones, el estado de metilación de uno o más loci de metilación (por ejemplo, una o más DMR) se compara con un valor de estado de metilación de referencia y/o con el estado de metilación del uno o más loci de metilación (por ejemplo, una o más DMR) en una muestra de referencia. En determinados casos, una referencia es una muestra no contemporánea de la misma fuente, por ejemplo, una muestra anterior de la misma fuente, por ejemplo, del mismo sujeto. En determinados casos, una referencia para el estado de metilación de uno o más loci de metilación (por ejemplo, una o más DMR) es el estado de metilación del uno o más loci de metilación (por ejemplo, una o más DMR) en una muestra (por ejemplo, una muestra de un sujeto), o una pluralidad de muestras, que se sabe que representan un estado particular (por ejemplo, un estado canceroso o un estado no canceroso). Por tanto, una referencia puede ser o incluir uno o más umbrales predeterminados, umbrales que pueden ser cuantitativos (por ejemplo, un valor de metilación) o cualitativos. Los expertos en la técnica apreciarán que una medición de referencia se produce normalmente mediante medición usando una metodología idéntica a, similar a o comparable a aquella mediante la que se tomó la medición que no es de referencia.

En diversas realizaciones, un estado de metilación de un locus de metilación puede basarse en la metilación de una o más lecturas (por ejemplo, obtenidas usando una técnica de NGS) mapeadas en los loci de metilación. Por ejemplo, cuando se analizan datos de secuenciación obtenidos de una técnica de secuenciación, por ejemplo, una técnica de secuenciación de NGS, por ejemplo, una técnica de secuenciación de NGS dirigida, los datos de secuenciación pueden incluir una secuencia inferida o probabilística de pares de bases de un fragmento de ADN. La secuencia inferida o probabilística de pares de bases del fragmento de ADN se conoce como lectura. La lectura puede mapearse en una secuencia de referencia de loci de metilación (por ejemplo, una DMR, un marcador de mutación), por ejemplo, en un genoma (por ejemplo, un genoma de referencia, por ejemplo, un genoma de referencia convertido con bisulfito). Basándose en una comparación de la secuencia leída con una secuencia de referencia, pueden identificarse CpG o residuos de citosina individuales como hipermetilados o hipometilados en comparación con un estado de referencia. En determinadas realizaciones, se determina un valor de metilación de lectura (por ejemplo, una puntuación de metilación de lectura) para umbrales mínimos predeterminados, basados en lectura que tienen en cuenta un número de sitios de metilación (por ejemplo, CpG) y un porcentaje de metilación. En determinadas realizaciones, un valor de metilación de lectura es un valor binario.

Adenomas avanzados

En determinadas realizaciones, los métodos y composiciones presentados en el presente documento son útiles para cribar adenomas avanzados. Los adenomas avanzados incluyen, sin limitación: crecimiento adenomatoso neoplásico en el colon y/o en el recto, adenomas ubicados en la parte proximal del colon, adenomas ubicados en la parte distal del colon y/o el recto, adenomas de displasia de bajo grado, adenomas de displasia de alto grado, crecimiento(s) neoplásico(s) de tejido de colorrecto que muestra signos de displasia de alto grado de cualquier tamaño, crecimiento(s) neoplásico(s) de tejido de colorrecto que tiene un tamaño mayor o igual a 10 mm de cualquier grado de histología y/o displasia, crecimiento(s) neoplásico(s) de tejido de colorrecto con tipo histológico velloso de cualquier tipo de displasia y cualquier tamaño, y tejido de colorrecto que tiene un tipo histológico serrado con cualquier grado de displasia y/o tamaño.

Cánceres colorrectales

En determinadas realizaciones, los métodos y composiciones de la presente descripción son útiles para el cribado de cáncer colorrectal. Los cánceres colorrectales incluyen, sin limitación, cáncer de colon, cáncer rectal y combinaciones de los mismos. Los cánceres colorrectales incluyen cánceres colorrectales metastásicos y cánceres colorrectales no metastásicos. Los cánceres colorrectales incluyen cáncer localizado en la parte proximal del cáncer de colon y cáncer localizado en la parte distal del colon.

Los cánceres colorrectales incluyen cánceres colorrectales en cualquiera de los diversos estadios posibles conocidos en la técnica, incluyendo, por ejemplo, cánceres colorrectales de estadio I, estadio II, estadio III y estadio IV (por ejemplo, estadios 0, I, IIA, IIB, IIC, IIIA, IIIB, IIIC, IVA, IVB y IVC). Los cánceres colorrectales incluyen todos los estadios del sistema de estadificación de tumor/nodo/metástasis (TNM). Con respecto al cáncer colorrectal, T puede referirse a si el tumor ha crecido en la pared del colon o recto, y si es así en cuántas capas; N puede referirse a si el tumor se ha diseminado a los ganglios linfáticos, y si es así a cuántos ganglios linfáticos y dónde se encuentran; y M puede referirse a si el cáncer se ha diseminado a otras partes del cuerpo, y si es así qué partes y en qué magnitud. Los estadios particulares de T, N y M se conocen en la técnica. Los estadios T pueden incluir TX, T0, Tis, T1, T2, T3, T4a y T4b; los estadios N pueden incluir NX, N0, N1a, N1b, N1c, N2a y N2b; los estadios M pueden incluir M0, M1a y M1b. Además, los grados de cáncer colorrectal pueden incluir GX, G1, G2, G3 y G4. Diversos medios de estadificación del cáncer y el cáncer colorrectal en particular, se conocen bien en la técnica resumida, por ejemplo, en Internet en cancer.net/cancer-types/colorectal-cancer/stages.

En determinados casos, la presente divulgación incluye el cribado de cáncer colorrectal en estadio temprano. Los cánceres colorrectales en estadio temprano pueden incluir, por ejemplo, cánceres colorrectales localizados dentro de un sujeto, por ejemplo, en que todavía no se han diseminado a los ganglios linfáticos del sujeto, por ejemplo, ganglios linfáticos cercanos al cáncer (estadio N0), y no se han diseminado a sitios distantes (estadio M0). Los cánceres en estadio temprano incluyen cánceres colorrectales correspondientes a, por ejemplo, los estadios 0 a IIC.

Por tanto, los cánceres colorrectales de la presente divulgación incluyen, entre otras cosas, cáncer colorrectal premaligno y cáncer colorrectal maligno. Los métodos y composiciones de la presente divulgación son útiles para el cribado de cáncer colorrectal en todas sus formas y estadios, incluyendo sin limitación los nombrados en el presente documento o conocidos de otro modo en la técnica, así como todos los subconjuntos de los mismos. Por consiguiente, el experto en la técnica apreciará que todas las referencias al cáncer colorrectal proporcionadas en el presente documento incluyen, sin limitación, cáncer colorrectal en todas sus formas y estadios, incluyendo sin limitación los nombrados en el presente documento o conocidos de otro modo en la técnica, así como todos los subconjuntos de los mismos.

Sujetos y muestras

Una muestra analizada usando los métodos y composiciones proporcionados en el presente documento puede ser cualquier muestra biológica y/o cualquier muestra incluidos ácidos nucleicos. En diversas realizaciones particulares, una muestra analizada usando los métodos y composiciones proporcionados en el presente documento puede ser una muestra de un mamífero. En diversas realizaciones particulares, una muestra analizada usando los métodos y composiciones proporcionados en el presente documento puede ser una muestra de un sujeto humano. En diversas realizaciones particulares, una muestra analizada usando los métodos y composiciones proporcionados en el presente documento puede ser una muestra de un ratón, rata, cerdo, caballo, pollo o vaca.

En diversos casos, un sujeto humano es un sujeto diagnosticado como o que busca diagnóstico como que tiene, diagnosticado como o que busca diagnóstico como que está en riesgo de tener y/o diagnosticado como o que busca diagnóstico como que está en riesgo inmediato de tener una neoplasia colorrectal (por ejemplo, cáncer colorrectal, adenoma avanzado). En diversos casos, un sujeto humano es un sujeto identificado como un sujeto que necesita cribado de una neoplasia colorrectal (por ejemplo, cáncer colorrectal, adenoma avanzado). En determinados casos, un sujeto humano es un sujeto identificado como que necesita cribado de cáncer colorrectal por un médico. En diversos casos, se identifica a un sujeto humano que necesita cribado de cáncer colorrectal debido a la edad, por ejemplo, debido a una edad igual o mayor de 40 años, por ejemplo, una edad igual o mayor de 49, 45, 50, 55, 60, 65, 70, 75, 80, 85 o 90 años, aunque en algunos casos puede identificarse a un sujeto de 18 años o más como en riesgo y/o que necesita cribado de una neoplasia colorrectal (por ejemplo, cáncer colorrectal, adenoma avanzado). En diversos casos, se identifica que un sujeto humano tiene alto riesgo y/o necesita cribado para una neoplasia colorrectal (por ejemplo, cáncer colorrectal, adenoma avanzado) basándose en, sin limitación, los antecedentes familiares, diagnósticos previos y/o una evaluación por un médico. En diversos casos, un sujeto humano es un sujeto al que no se le ha diagnosticado que tiene, no está en riesgo de tener, no está en riesgo inmediato de tener, no se le ha diagnosticado que tiene y/o no busca el diagnóstico de un cáncer tal como un cáncer colorrectal, o cualquier combinación de los mismos.

Una muestra de un sujeto, por ejemplo, un sujeto humano u otro mamífero, puede ser una muestra de, por ejemplo, sangre, componente sanguíneo (por ejemplo, plasma, capa leucocitaria), ADNIc (ADN libre de células), ADNct (ADN tumoral circulante), heces o tejido (por ejemplo, adenoma avanzado y/o tejido colorrectal). En algunas realizaciones particulares, una muestra es una excreción o fluido corporal de un sujeto (por ejemplo, heces, sangre, plasma, linfa u orina de un sujeto) o una muestra de tejido de una neoplasia colorrectal, tal como un pólipo colónico, un adenoma avanzado y/o cáncer colorrectal. Una muestra de un sujeto puede ser una muestra de célula o tejido, por ejemplo, una muestra de célula o tejido que es de un cáncer o incluye células cancerosas, por ejemplo, de un tumor o de un tejido metastásico. Por ejemplo, la muestra puede incluir células colorrectales, células pólipos o células glandulares. En diversas realizaciones, una muestra de un sujeto, por ejemplo, un sujeto humano u otro mamífero, puede obtenerse mediante biopsia (por ejemplo, resección por colonoscopia, aspiración con aguja fina o biopsia de tejido) o cirugía.

En diversas realizaciones particulares, una muestra es una muestra de ADN libre de células (ADNlc). El ADNlc se encuentra normalmente en fluidos biológicos (por ejemplo, plasma, suero u orina) en fragmentos cortos bicatenarios. La concentración de ADNlc es normalmente baja, pero puede aumentar significativamente en condiciones particulares, incluyendo sin limitación embarazo, trastorno autoinmunitario, infarto de miocardio y cáncer. El ADN tumoral circulante (ADNct) es el componente del ADN circulante derivado específicamente de células cancerosas. El ADNct puede estar presentes en fluidos humanos. Por ejemplo, en algunos casos, puede encontrarse ADNct unido a y/o asociado con leucocitos y eritrocitos. En algunos casos, puede encontrarse ADNct no unido a ni asociado con leucocitos y eritrocitos. Diversas pruebas para la detección de ADNlc derivado de tumor se basan en la detección de modificaciones genéticas o epigenéticas que son características del cáncer (por ejemplo, de un cáncer relevante). Las modificaciones genéticas o epigenéticas características del cáncer pueden incluir, sin limitación, mutaciones oncogénicas o asociadas al cáncer en genes supresores de tumores, oncogenes activados, hipermetilación y/o trastornos cromosómicos. La detección de modificaciones genéticas o epigenéticas características del cáncer o precáncer puede confirmar que el ADNc detectado es ADNct.

El ADNlc y el ADNct proporcionan una métrica en tiempo real o casi en tiempo real del estado de metilación de un tejido fuente. El ADNlc y el ADNct tienen una semivida en sangre de aproximadamente 2 horas, de manera que una muestra tomada en un momento dado proporciona un reflejo relativamente oportuno del estado de un tejido fuente.

En la técnica se conocen diversos métodos de aislamiento de ácidos nucleicos a partir de una muestra (por ejemplo, de aislamiento de ADNlc de sangre o plasma). Los ácidos nucleicos pueden aislarse, por ejemplo, sin limitación, mediante técnicas de purificación de ADN convencionales, mediante captura génica directa (por ejemplo, mediante clarificación de una muestra para eliminar agentes inhibidores del ensayo y capturando un ácido nucleico diana, si está presente, de la muestra clarificada con un agente de captura para producir un complejo de captura, y aislando el complejo de captura para recuperar el ácido nucleico diana).

En determinadas realizaciones, una muestra puede tener una cantidad mínima requerida de ADN (por ejemplo, ADNlc, ADNg) (por ejemplo, fragmentos de ADN) para determinar posteriormente un estado de metilación. Por ejemplo, en determinadas realizaciones, puede requerirse que una muestra tenga al menos 5 ng, al menos 10 ng, al menos 20 ng (o más) de ADN.

Métodos de medición del estado de metilación

El estado de metilación puede medirse mediante una variedad de métodos conocidos en la técnica y/o mediante métodos proporcionados en esta memoria descriptiva. Los expertos en la técnica apreciarán que un método para medir el estado de metilación puede aplicarse generalmente a muestras de cualquier fuente y de cualquier tipo, y serán además conscientes de las etapas de procesamiento disponibles para modificar una muestra en una forma adecuada para su medición mediante una metodología dada.

En determinadas realizaciones, las etapas de procesamiento implican fragmentar o cizallar el ADN de la muestra. Por ejemplo, el ADN genómico (por ejemplo, ADNg) obtenido de una célula, tejido u otra fuente puede requerir fragmentación antes de la secuenciación. En determinadas realizaciones, el ADN puede fragmentarse antes de la medición del estado de metilación usando un método físico (por ejemplo, usando un ultrasonicador, una técnica de nebulizador, cizallamiento hidrodinámico, etc.). En determinadas realizaciones, el ADN puede fragmentarse usando un método enzimático (por ejemplo, usando una endonucleasa o una transposasa). Determinadas muestras, por ejemplo, muestras de ADNlc, pueden no requerir fragmentación. Los fragmentos de ADNlc tienen aproximadamente 200 pb de longitud y pueden ser apropiados para determinados métodos proporcionados en el presente documento. Los fragmentos de ADN de aproximadamente 100-1000 pb de longitud son adecuados para su análisis en determinadas técnicas de NGS descritas en el presente documento incluyendo, por ejemplo, técnicas basadas en Illumina®. Determinadas tecnologías pueden requerir fragmentos de ADN de aproximadamente 100-1000 pb. Por el contrario, los fragmentos de ADN de aproximadamente 10 kb o más son adecuados para tecnologías de secuenciación de lectura larga.

Los métodos para medir el estado de metilación incluyen, sin limitación, métodos que incluyen secuenciación con bisulfito de genoma completo, secuenciación con bisulfito dirigida, secuenciación de metilación enzimática dirigida, reacción en cadena de la polimerasa (PCR) específica del estado de metilación, métodos que incluyen espectrometría de masas, matrices de metilación, métodos que incluyen nucleasas específicas de metilación, métodos que incluyen separación basada en masa, métodos que incluyen captura específica de diana (por ejemplo, captura híbrida) y métodos que incluyen cebadores oligonucleotídicos específicos de metilación. Determinados ensayos particulares para metilación utilizan un reactivo de bisulfito (por ejemplo, iones de hidrogenosulfito) o reactivos de conversión enzimática (por ejemplo, Tet metilcitosina dioxigenasa 2).

Los reactivos bisulfito pueden incluir, entre otras cosas, bisulfito, disulfito, hidrogenosulfito, metabisulfito de sodio, o combinaciones de los mismos, reactivos que pueden ser útiles para distinguir ácidos nucleicos metilados y no metilados. El bisulfito interactúa de manera diferente con citosina y 5-metilcitosina. En los métodos típicos basados en bisulfito, la puesta en contacto de ADN (por ejemplo, ADN monocatenario, ADN bicatenario) con bisulfito desamina (por ejemplo, convierte) citosina no metilada a uracilo, mientras que la citosina metilada permanece sin afectar. Las citosinas metiladas, pero no las citosinas no metiladas, se retienen selectivamente. Por tanto, en una muestra procesada con bisulfito, los residuos de uracilo sustituyen a, y por tanto proporcionan una señal de identificación para, residuos de citosina no metilada, mientras que los residuos de citosina restantes (metilada) proporcionan por tanto una señal de identificación para residuos de citosina metilada. Las muestras procesadas con bisulfito pueden analizarse, por ejemplo, mediante secuenciación de última generación (NGS) u otros métodos dados a conocer en el presente documento.

En algunas realizaciones, las muestras procesadas con bisulfito pueden tratarse usando una razón de bisulfito de bisulfito con respecto a ADN que es al menos. En determinadas realizaciones, la muestra procesada con bisulfito comprende fragmentos de ADN monocatenario o fragmentos de ADN bicatenario.

En algunas realizaciones, el tratamiento con bisulfito incluye someter fragmentos de ADN (por ejemplo, ADN bicatenario) a uno o más ciclos de desnaturalización-conversión con el fin de convertir citosinas de no metilación en uracilos en los fragmentos de ADN. La desnaturalización convierte fragmentos de ADN bicatenario en la muestra en fragmentos de ADN monocatenario. La conversión cambia las citosinas no metiladas del ADN monocatenario a uracilos. En algunas realizaciones, solo se realiza un ciclo de desnaturalización-conversión. En algunas realizaciones, se realizan dos, tres, cuatro, cinco, seis, siete, ocho, nueve, diez, quince, veinte o más ciclos de desnaturalizaciónconversión. En algunas realizaciones, la temperatura de la etapa de desnaturalización se realiza a una temperatura de aproximadamente 80-100 °C (por ejemplo, aproximadamente 90-97 °C, por ejemplo, aproximadamente 96 °C). En algunas realizaciones, la etapa de desnaturalización se realiza durante menos de 10 minutos (por ejemplo, menos de 5 minutos, menos de 5 minutos, menos de 2 minutos o menos). En determinadas realizaciones, la etapa de conversión se realiza durante menos de 2,5 h (por ejemplo, menos de 2 h, menos de 1 h, menos de 30 minutos, menos de 15 minutos o menos). En determinadas realizaciones, la etapa de conversión se realiza a una temperatura de 55 a 65 °C. En determinadas realizaciones, los fragmentos de ADN convertidos pueden almacenarse a una temperatura de aproximadamente 4 °C después de realizar el/los ciclo(s) de desnaturalización-conversión. En algunas realizaciones, el tratamiento con bisulfito puede aplicarse antes de la preparación de la biblioteca. En algunas realizaciones, el tratamiento con bisulfito puede aplicarse después de la preparación de la biblioteca.

Los reactivos de conversión enzimática pueden incluir Tet metilcitosina dioxigenasa 2 (TET2). TET2 oxida la 5-metilcitosina y, por tanto, la protege de la desaminación consecutiva por APOBEC. APOBEC desamina citosina no metilada a uracilo, mientras que la 5-metilcitosina oxidada permanece sin afectar. Por tanto, en una muestra procesada con TET2, los residuos de uracilo sustituyen a, y por tanto proporcionan una señal de identificación para, residuos de citosina no metilada, mientras que los residuos de citosina restantes (metilada) proporcionan por tanto una señal de identificación para residuos de citosina metilada. Las muestras procesadas con TET2 pueden analizarse, por ejemplo, mediante secuenciación de última generación (NGS). En determinadas realizaciones, APOBEC se refiere a un miembro (o pluralidad de miembros) de la familia similar a polipéptido catalítico de edición de ARNm de apolipoproteína B (APOBEC). En determinadas realizaciones, APOBEC puede referirse a APOBEC-1, APOBEC-2, AP<o>B<e>C-3A, APOBEC-3B, APOBEC-3C, APOBEC-3D, APOBEC-3E, APOBEC-3F, APOBEC-3G. APOBEC-3H, APOBEC-4 y/o desaminasa inducida por activación (citidina) (AID).

Los métodos de medición del estado de metilación pueden incluir, sin limitación, secuenciación masivamente paralela (por ejemplo, secuenciación de última generación) para determinar el estado de metilación, por ejemplo, secuenciación por síntesis, secuenciación en tiempo real (por ejemplo, molécula única), secuenciación en emulsión de perlas, secuenciación de nanoporos u otras técnicas de secuenciación conocidas en la técnica. En algunas realizaciones, un método de medición del estado de metilación puede incluir secuenciación de genoma completo, por ejemplo, medición del estado de metilación del genoma completo a partir material tratado con bisulfito o enzimáticamente con resolución de pares de bases.

En algunas realizaciones, un método de medición del estado de metilación incluye secuenciación con bisulfito de representación reducida, por ejemplo, utilizando el uso de enzimas de restricción para medir el estado de metilación de regiones de alto contenido de CpG a partir de material tratado con bisulfito o enzimáticamente con resolución de pares de bases.

En algunas realizaciones, un método de medición del estado de metilación puede incluir secuenciación dirigida, por ejemplo, medición del estado de metilación de la ubicación genómica preseleccionada a partir de material tratado con bisulfito o enzimáticamente con resolución de pares de bases.

En algunas realizaciones, la preselección (captura) (por ejemplo, enriquecimiento) de regiones de interés (por ejemplo, DMR) puede realizarse mediante secuencias de oligonucleótidos sintetizadosin vitrocomplementarios (por ejemplo, cebos/sondas de captura). Las sondas de captura (por ejemplo, sondas de captura de oligonucleótidos, cebos de captura de oligonucleótidos) son útiles en técnicas de secuenciación dirigida (por ejemplo, NGS) para enriquecer regiones particulares de interés en una secuencia de oligonucleótidos (por ejemplo, ADN). Por ejemplo, el enriquecimiento de regiones diana es útil cuando se secuencian secuencias de regiones de ADN predeterminadas particulares. En determinadas realizaciones, las sondas de captura tienen de aproximadamente 10 a 1000 pb de longitud (por ejemplo, de aproximadamente 10 a aproximadamente 200 pb de longitud) (por ejemplo, aproximadamente 120 pb de longitud). En determinadas realizaciones, una o más sondas de captura se dirigen a capturar una región de interés (por ejemplo, un marcador genómico) correspondiente a uno o más loci de metilación (por ejemplo, loci de metilación que comprenden al menos una porción de una o más DMR, por ejemplo, como se encuentra en la figura 2 y/o la figura 3). En determinadas realizaciones, las sondas de captura se dirigen a loci de metilación que están hipometilados o hipermetilados. Por ejemplo, una sonda de captura puede dirigirse a un locus de metilación particular. Sin embargo, si los fragmentos de ADN correspondientes a un locus de metilación se convierten (por ejemplo, se convierten con bisulfito o enzimáticamente) antes del enriquecimiento usando una sonda de captura, la secuencia de los fragmentos de ADN convertidos cambiará como se describe en el presente documento debido a que los residuos de citosina particulares no están metilados. Por tanto, dirigirse a una región de ADN no convertida puede dar como resultado algunos apareamientos erróneos si las citosinas están hipometiladas. Aunque la hibridación sonda de captura-secuencia diana puede tolerar algunos apareamientos erróneos, puede requerirse una segunda sonda para enriquecer las regiones de ADN que están hipometiladas.

En determinadas realizaciones, se evalúan sondas de captura (por ejemplo, antes de la secuenciación) para determinar su capacidad para dirigirse a múltiples regiones del genoma de interés. Por ejemplo, cuando se diseña una sonda de captura para dirigirse a una región particular de interés (por ejemplo, una Dm R), puede considerarse la capacidad de una sonda de captura para dirigirse a múltiples regiones del genoma. Como se comenta en el presente documento, los apareamientos erróneos en el emparejamiento (por ejemplo, emparejamiento distinto de Watson-Crick) permiten que las sondas de captura hibriden con otras regiones no previstas de un genoma. Además, una secuencia diana particular puede repetirse en otro lugar de un genoma. Las secuencias repetidas son comunes para secuencias que son altamente repetitivas. En determinadas realizaciones, las sondas de captura se diseñan de manera que solo se dirigen a unas pocas regiones similares del genoma. En determinadas realizaciones, las sondas de captura pueden hibridarse con 500 o menos, 100 o menos, 50 o menos, 10 o menos, 5 o menos regiones similares en un genoma. En determinadas realizaciones, se calcula una región similar a la diana de la región de interés usando una ventana de 24 pb que se mueve alrededor de un genoma y haciendo coincidir la región de la ventana con una secuencia de referencia según la similitud del orden de secuencia. Pueden usarse ventanas de otros tamaños y/o técnicas.

Por ejemplo, la captura híbrida de uno o más fragmentos de ADN (por ejemplo, ADNct, ADNg fragmentado) puede realizarse usando sondas de captura dirigidas a regiones predeterminadas de interés de un genoma. En determinadas realizaciones, las sondas de captura se dirigen a al menos 2 (por ejemplo, al menos 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 50, 75, 100, 150 o más) regiones predeterminadas de interés (por ejemplo, marcadores genómicos, por ejemplo, DMR). En determinadas realizaciones, las sondas de captura se solapan. En determinadas realizaciones, las sondas solapantes se solapan al menos un 10 %, al menos un 20 %, al menos un 30 %, al menos un 40 %, al menos un 50 %, al menos un 60 % o más.

En determinadas realizaciones, las sondas de captura son sondas de ácido nucleico (por ejemplo, sondas de ADN, sondas de ARN). En algunas realizaciones, un método también puede incluir identificar regiones mutadas (por ejemplo, bases de nucleótidos individuales) usando secuenciación dirigida, por ejemplo, determinando la presencia de una mutación en una o más ubicaciones genómicas preseleccionadas (por ejemplo, un marcador genómico, por ejemplo, un marcador de mutación). En determinadas realizaciones, también pueden identificarse mutaciones a partir de ADN tratado con bisulfito o enzimáticamente con resolución de pares de bases.

En algunas realizaciones, un método para medir el estado de metilación puede incluir ensayos de metilación de Illumina, por ejemplo, que miden más de 850.000 sitios de metilación cuantitativamente a través de un genoma a una resolución de un solo nucleótido.

Pueden usarse diversos procedimientos de ensayo de metilación junto con el tratamiento con bisulfito para determinar el estado de metilación de una secuencia diana tal como una DMR. Tales ensayos pueden incluir, entre otros, qPCR con enzimas de restricción específicas de metilación, secuenciación de ácido nucleico tratado con bisulfito, PCR (por ejemplo, con amplificación específica de secuencia), PCR de enriquecimiento de alelos minoritarios asistido por nucleasa específica de metilación y fusión de alta resolución sensible a metilación. En algunas realizaciones, las DMR se amplifican a partir de fragmentos de ADN convertidos (por ejemplo, convertidos con bisulfito o enzimáticamente) para la preparación de bibliotecas.

En algunas realizaciones, pueden prepararse una biblioteca de secuenciación usando fragmentos de oligonucleótidos convertidos (por ejemplo, convertidos con bisulfito o enzimáticamente) (por ejemplo, ADNlc, fragmentos de ADNg, secuencias de nucleótidos sintéticos, etc.) según, por ejemplo, un protocolo de Illumina, un protocolo de kit de biblioteca de ADN de Accel-NGS® Methyl-Seq (Swift Bioscience), un protocolo de Nextera XT basado en transposiciones, o similares. En algunas realizaciones, los fragmentos de oligonucleótidos son fragmentos de ADN que se han convertido (por ejemplo, convertido con bisulfito o enzimáticamente). En determinadas realizaciones, los fragmentos de ADN usados en la preparación de una biblioteca de secuenciación pueden ser fragmentos de ADN monocatenario o fragmentos de ADN bicatenario. En determinadas realizaciones, puede prepararse una biblioteca uniendo adaptadores a fragmentos de ADN. Los adaptadores contienen secuencias cortas (por ejemplo, de aproximadamente 100 a aproximadamente 1000 pb) (por ejemplo, secuencias de oligonucleótidos) que permiten que fragmentos de oligonucleótidos de una biblioteca (por ejemplo, una biblioteca de ADN) se unan a y generen agrupaciones en una celda de flujo usada en, por ejemplo, secuenciación de última generación (NGS). Los adaptadores pueden ligarse a fragmentos de biblioteca antes de la NGS. En determinadas realizaciones, una enzima ligasa une covalentemente el adaptador y los fragmentos de biblioteca. En determinadas realizaciones, los adaptadores se unen a uno o ambos extremos 5’ y 3’ de fragmentos de ADN convertidos. En determinadas realizaciones, la etapa de unión se realiza de manera que al menos el 40 %, al menos el 50 %, al menos el 60 %, al menos el 70 % de los fragmentos de ADN convertidos se unen al adaptador. En determinadas realizaciones, la etapa de unión se realiza de manera que al menos el 40 %, al menos el 50 %, al menos el 60 %, al menos el 70 % de los fragmentos de ADN convertidos tienen un adaptador unido en ambos extremos 5’ y 3’

En determinadas realizaciones, los adaptadores usados en el presente documento contienen una secuencia de oligonucleótidos que ayudan en la identificación de muestras. Por ejemplo, en determinadas realizaciones, los adaptadores incluyen un índice de muestra. Un índice de muestra es una secuencia corta (por ejemplo, de aproximadamente 8 a aproximadamente 10 bases) de ácidos nucleicos (por ejemplo, ADN, ARN) que sirven como identificadores de muestra y permiten, entre otras cosas, la multiplexación y/o agrupación de múltiples muestras en una única ejecución de secuenciación y/o en una celda de flujo (por ejemplo, usada en una técnica de NGS). En determinadas realizaciones, un adaptador en un extremo 5’, un extremo 3’ o ambos de un fragmento de ADN monocatenario convertido incluye un índice de muestra. En determinadas realizaciones, una secuencia adaptadora puede incluir un código de barras molecular. Un código de barras molecular puede servir como identificador molecular único para identificar una molécula diana durante, por ejemplo, la secuenciación de ADN. En determinadas realizaciones, los códigos de barras de ADN pueden generarse aleatoriamente. En determinadas realizaciones, los códigos de barras de ADN pueden estar predeterminados o prediseñados. En determinadas realizaciones, los códigos de barras de ADN son diferentes en cada fragmento de ADN. En determinadas realizaciones, los códigos de barras de ADN pueden ser los mismos para dos fragmentos de ADN monocatenario que no son complementarios entre sí (por ejemplo, en un par de Watson-Crick entre sí) en la muestra biológica. En determinadas realizaciones, los fragmentos de ADN pueden amplificarse (por ejemplo, usando PCR) después de la ligación de adaptadores a fragmentos de ADN. En determinadas realizaciones, al menos el 40 % (por ejemplo, al menos el 50 %, al menos el 60 %, al menos el 70 %) de los fragmentos de ADN convertidos tienen un adaptador unido en ambos extremos 5’ y 3’.

En determinadas realizaciones, se usan técnicas de secuenciación de alto rendimiento y/o de última generación (NGS) para lograr la resolución a nivel de pares de bases de una secuencia de oligonucleótidos (por ejemplo, un ADN), permitiendo el análisis del estado de metilación y/o la identificación de mutaciones. Por ejemplo, en determinadas realizaciones, la NGS puede incluir secuenciación de un solo extremo o de extremos emparejados. En la secuenciación de un solo extremo, una técnica lee un fragmento secuenciado en una dirección (desde un extremo de un fragmento hasta el extremo opuesto del fragmento). En determinadas realizaciones, esto produce una única secuencia de ADN que después puede alinearse con una secuencia de referencia. En la secuenciación de extremos emparejados, un fragmento secuenciado se lee en una primera dirección desde un extremo del fragmento hasta el extremo opuesto del fragmento. El fragmento secuenciado puede leerse hasta que se alcanza una longitud de lectura especificada. A continuación, el fragmento secuenciado se lee en una segunda dirección, que es opuesta a la primera dirección. En determinadas realizaciones, tener múltiples pares de lecturas puede ayudar a mejorar la alineación de lectura y/o identificar mutaciones (por ejemplo, inserciones, deleciones, inversión, etc.) que pueden no detectarse mediante lectura de un solo extremo.

Otro método, que puede usarse para la detección de metilación, incluye amplificación por PCR con cebadores oligonucleotídicos específicos de metilación (métodos de MSP), por ejemplo, tal como se aplica a una muestra tratada con bisulfito (véase, por ejemplo, Herman 1992 Proc. Natl. Acad. Sci. USA 93: 9821-9826). El uso de cebadores oligonucleotídicos específicos del estado de metilación para la amplificación de ADN tratado con bisulfito permite la diferenciación entre ácidos nucleicos metilados y no metilados. Los pares de cebadores oligonucleotídicos para su uso en métodos de MSP incluyen al menos un cebador oligonucleotídico capaz de hibridarse con una secuencia que incluye un sitio de metilación, por ejemplo, un sitio CpG. Un cebador oligonucleotídico que incluye un residuo de T en una posición complementaria a un residuo de citosina se hibridará selectivamente con moldes en los que la citosina no estaba metilada antes del tratamiento con bisulfito, mientras que un cebador oligonucleotídico que incluye un residuo de G en una posición complementaria a un residuo de citosina se hibridará selectivamente con moldes en los que la citosina era citosina metilada antes del tratamiento con bisulfito. Los resultados de MSP pueden obtenerse con o sin amplicones de secuenciación, por ejemplo, usando electroforesis en gel. La MSP (PCR específica de metilación) permite la detección altamente sensible (nivel de detección del 0,1 % de los alelos, con especificidad completa) de metilación de ADN específica de locus, usando amplificación por PCR de ADN convertido con bisulfito.

Otro método que puede usarse para determinar el estado de metilación después del tratamiento con bisulfito de una muestra es la PCR de fusión de alta resolución sensible a metilación (MS-HRM) (véase, por ejemplo, Hussmann 2018 Methods Mol Biol. 1708:551-571). MS-HRM es un método basado en PCR en tubo para detectar niveles de metilación en loci específicos de interés basándose en fusión de hibridación. El tratamiento con bisulfito del ADN antes de realizar la MS-HRM garantiza una composición de bases diferente entre el ADN metilado y no metilado, que se usa para separar los amplicones resultantes mediante fusión de alta resolución. Un diseño de cebador único facilita una alta sensibilidad de los ensayos que permiten la detección de alelos metilados de hasta el 0,1-1 % en un fondo no metilado. Los cebadores oligonucleotídicos para ensayos de MS-HRM se diseñan para que sean complementarios al alelo metilado, y una temperatura de hibridación específica permite que estos cebadores se hibriden con los alelos tanto metilado como no metilado, aumentando de ese modo la sensibilidad de los ensayos.

Otro método que puede usarse para determinar el estado de metilación después del tratamiento con bisulfito de una muestra es la PCR específica de metilación múltiple cuantitativa (QM-MSP). La QM-MSP usa cebadores específicos de metilación para la cuantificación sensible de la metilación del ADN (véase, por ejemplo, Fackler 2018 Methods Mol Biol. 1708:473-496). QM-MSP es un enfoque de PCR de dos etapas, donde, en la primera etapa, un par de cebadores específicos de gen (directo e inverso) amplifica las copias metiladas y no metiladas del mismo gen simultáneamente y en múltiplex, en una reacción de PCR. Esta etapa de amplificación independiente de metilación produce amplicones de hasta 109 copias por ml después de 36 ciclos de PCR. En la segunda etapa, los amplicones de la primera reacción se cuantifican con una curva patrón usando PCR en tiempo real y dos fluoróforos independientes para detectar ADN metilado/no metilado de cada gen en el mismo pocillo (por ejemplo, 6FAM y VIC). Una copia metilada es detectable en 100.000 copias de genes de referencia.

Otro método que puede usarse para determinar el estado de metilación después del tratamiento con bisulfito de una muestra es el enriquecimiento de alelos minoritarios asistido por nucleasa específica de metilación (MS-NaME) (véase, por ejemplo, Liu 2017 Nucleic Acids Res. 45(6):e39). Ms-NaME se basa en la hibridación selectiva de sondas a secuencias diana en presencia de ADN nucleasa específica para ADN bicatenario (bc) (DSN), de modo que la hibridación da como resultado regiones de ADN bicatenario que posteriormente se digieren por la DSN. Por tanto, las sondas oligonucleotídicas que se dirigen a secuencias no metiladas generan regiones bicatenarias locales que dan como resultado la digestión de dianas no metiladas; las sondas oligonucleotídicas capaces de hibridarse con secuencias metiladas generan regiones bicatenarias locales que dan como resultado la digestión de dianas metiladas, dejando intactas las dianas metiladas. Además, las sondas oligonucleotídicas pueden dirigir la actividad de DSN a múltiples dianas en ADN tratado con bisulfito, simultáneamente. La amplificación posterior puede enriquecer secuencias no digeridas. Puede usarse Ms-NaME independientemente o en combinación con otras técnicas proporcionadas en el presente documento.

Otro método que puede usarse para determinar el estado de metilación después del tratamiento con bisulfito de una muestra es la extensión de cebador de nucleótido único sensible a metilación (Ms-SNuPE™) (véase, por ejemplo, Gonzalgo 2007 Nat Protoc. 2(8):1931-6). En Ms-SNuPE, se realiza una PCR específica de hebra para generar un molde de ADN para el análisis cuantitativo de metilación usando Ms-SNuPE. A continuación, se realiza SNuPE con oligonucleótido(s) diseñado(s) para hibridarse inmediatamente aguas arriba del/de los sitio(s) CpG que está(n) analizándose. Los productos de reacción pueden someterse a electroforesis en geles de poliacrilamida para su visualización y cuantificación mediante análisis de imágenes de fósforo. Los amplicones también pueden portar marcadores detectables directa o indirectamente tales como un marcador fluorescente, radionúclido, o un fragmento de molécula separable u otra entidad que tenga una masa que puede distinguirse por espectrometría de masas. La detección puede llevarse a cabo y/o visualizarse por medio de, por ejemplo, espectrometría de masas de desorción/ionización por láser asistida por matriz (MALDI) o usando espectrometría de masas de pulverización electrónica (ESI).

Determinados métodos que pueden usarse para determinar el estado de metilación después del tratamiento con bisulfito de una muestra utilizan un primer cebador oligonucleotídico, un segundo cebador oligonucleotídico y una sonda oligonucleotídica en un método basado en amplificación. Por ejemplo, los cebadores oligonucleotídicos y la sonda pueden usarse en un método de reacción en cadena de la polimerasa (PCR) en tiempo real o PCR digital en gotas (ddPCR). En diversos casos, el primer cebador oligonucleotídico, el segundo cebador oligonucleotídico y/o la sonda oligonucleotídica hibridan selectivamente ADN metilado y/o ADN no metilado, de modo que la amplificación o la señal de la sonda indican el estado de metilación de una muestra.

Otros métodos basados en bisulfito para detectar el estado de metilación (por ejemplo, la presencia de nivel de 5 metilcitosina) se describen, por ejemplo, en Frommer (1992 Proc Natl Acad Sci U S A. 1; 89(5):1827-31).

En determinadas realizaciones de MSRE-qPCR, la cantidad de ADN total se mide en una alícuota de muestra en forma nativa (por ejemplo, no digerida) usando, por ejemplo, PCR en tiempo real o PCR digital.

Pueden usarse diversas tecnologías de amplificación solas o junto con otras técnicas descritas en el presente documento para la detección del estado de metilación. Los expertos en la técnica, habiendo revisado la presente memoria descriptiva, entenderán cómo combinar diversas tecnologías de amplificación conocidas en la técnica y/o descritas en el presente documento junto con diversas otras tecnologías para la determinación del estado de metilación conocidas en la técnica y/o proporcionadas en el presente documento. Las tecnologías de amplificación incluyen, sin limitación, PCR, por ejemplo, PCR cuantitativa (qPCR), PCR en tiempo real y/o PCR digital. Los expertos en la técnica apreciarán que la amplificación de polimerasa puede multiplexar la amplificación de múltiples dianas en una única reacción. Los amplicones de PCR tienen normalmente una longitud de 100 a 2000 pares de bases. En diversos casos, una tecnología de amplificación es suficiente para determinar el estado de metilaciones.

Los métodos basados en PCR digital (dPCR) implican dividir y distribuir una muestra a través de los pocillos de una placa con 96, 384 o más pocillos, o en gotas de emulsión individuales (ddPCR), por ejemplo, usando un dispositivo microfluídico, de modo que algunos pocillos incluyen una o más copias del molde y otros no incluyen copias del molde. Por tanto, el número promedio de moléculas del molde por pocillo es menor de uno antes de la amplificación. El número de pocillos en los que se produce la amplificación del molde proporciona una medida de la concentración del molde.

Si la muestra se ha puesto en contacto con MSRE, el número de pocillos en los que se produce la amplificación del molde proporciona una medida de la concentración del molde metilado.

En diversas realizaciones, puede usarse un ensayo de PCR en tiempo real basado en fluorescencia, tal como MethyLight™, para medir el estado de metilación (véase, por ejemplo, Campan 2018 Methods Mol Biol. 1708:497-513). MethyLight es un método de PCR cuantitativa, basada en fluorescencia, en tiempo real para detectar y cuantificar de manera sensible la metilación del ADN de regiones candidatas del genoma. MethyLight es especialmente adecuado para detectar regiones de ADN metilado de baja frecuencia contra un fondo alto de ADN no metilado, ya que combina cebado específico de metilación con sondeo fluorescente específico de metilación. Adicionalmente, MethyLight puede combinarse con PCR digital, para la detección altamente sensible de moléculas metiladas individuales, con uso en la detección y el cribado de enfermedades.

Los métodos basados en PCR en tiempo real para su uso en la determinación del estado de metilación incluyen normalmente una etapa de generación de una curva patrón para ADN no metilado basándose en el análisis de patrones externos. Puede construirse una curva patrón a partir de al menos dos puntos y puede permitir la comparación de un valor de Ct en tiempo real para ADN digerido y/o un valor de Ct en tiempo real para ADN no digerido con patrones cuantitativos conocidos. En casos particulares, los valores de Ct de la muestra pueden determinarse para muestras o alícuotas de muestra digeridas y/o no digeridas con MSRE, y los equivalentes genómicos de ADN pueden calcularse a partir de la curva patrón. Los valores de Ct del ADN digerido y no digerido con MSRE pueden evaluarse para identificar amplicones digeridos (por ejemplo, digeridos eficientemente; por ejemplo, produciendo un valor de Ct de 45). También pueden identificarse amplicones no amplificados en condiciones digeridas o no digeridas. Los valores de Ct corregidos para los amplicones de interés pueden entonces compararse directamente a través de las condiciones para establecer diferencias relativas en el estado de metilación entre las condiciones. Alternativa o adicionalmente, la diferencia delta entre los valores de Ct del ADN digerido y no digerido puede usarse para establecer diferencias relativas en el estado de metilación entre las condiciones.

En determinadas realizaciones particulares, la secuenciación con bisulfito dirigida (por ejemplo, usando captura híbrida) entre otras técnicas, puede usarse para determinar el estado de metilación de un biomarcador de metilación para una enfermedad y/o afección. Por ejemplo, un biomarcador de metilación de neoplasia colorrectal (por ejemplo, adenoma avanzado y/o cáncer colorrectal) que es o incluye un único locus de metilación. En determinadas realizaciones particulares, la secuenciación con bisulfito dirigida, entre otras técnicas, puede usarse para determinar el estado de metilación de un biomarcador de metilación que es o incluye dos o más loci de metilación.

Los expertos en la técnica apreciarán que, en realizaciones en las que se analiza una pluralidad de loci de metilación (por ejemplo, una pluralidad de DMR) para determinar el estado de metilación en un método de cribado para cáncer colorrectal proporcionado en el presente documento, el estado de metilación de cada locus de metilación puede medirse o representarse en cualquiera de una variedad de formas, y los estados de metilación de una pluralidad de loci de metilación (preferiblemente cada uno medido y/o representado de una misma manera, similar o comparable) pueden analizarse o representarse juntos o acumulativamente en cualquiera de una variedad de formas. En diversas realizaciones, el estado de metilación de cada locus de metilación puede medirse como porción de metilación. En diversas realizaciones, el estado de metilación de cada locus de metilación puede representarse como el valor en porcentaje de lecturas metiladas de lecturas de secuenciación totales en comparación con la muestra de referencia.

En diversas realizaciones, el estado de metilación de cada locus de metilación puede representarse como una comparación cualitativa con una referencia, por ejemplo, mediante identificación de cada locus de metilación como hipermetilado o hipometilado. En algunas realizaciones en las que se analiza un único locus de metilación, la hipermetilación del único locus de metilación constituye un diagnóstico de que un sujeto padece o probablemente padece una afección (por ejemplo, cáncer) (por ejemplo, adenoma avanzado, cáncer colorrectal), mientras que la ausencia de hipermetilación del único locus de metilación constituye un diagnóstico de que el sujeto probablemente no padece una afección. En algunas realizaciones, la hipermetilación de un único locus de metilación (por ejemplo, una única DMR) de una pluralidad de loci de metilación analizados constituye un diagnóstico de que un sujeto padece o probablemente padece la afección, mientras que la ausencia de hipermetilación en cualquier locus de metilación de una pluralidad de loci de metilación analizados constituye un diagnóstico de que un sujeto probablemente no padece la afección. En algunas realizaciones, la hipermetilación de un porcentaje determinado (por ejemplo, un porcentaje predeterminado) de loci de metilación (por ejemplo, al menos el 10 % (por ejemplo, al menos el 10 %, al menos el 20 %, al menos el 30 %, al menos el 40 %, al menos el 50 %, al menos el 60 %, al menos el 70 %, al menos el 80 %, al menos el 90 % o el 100 %)) de una pluralidad de loci de metilación analizados constituye un diagnóstico de que un sujeto padece o probablemente padece la afección, mientras que la ausencia de hipermetilación de un porcentaje determinado (por ejemplo, un porcentaje predeterminado) de loci de metilación (por ejemplo, al menos el 10 % (por ejemplo, al menos el 10 %, al menos el 20 %, al menos el 30 %, al menos el 40 %, al menos el 50 %, al menos el 60 %, al menos el 70 %, al menos el 80 %, al menos el 90 % o el 100 %)) de una pluralidad de loci de metilación analizados constituye un diagnóstico de que un sujeto no padece probablemente la afección. En algunas realizaciones, la hipermetilación de un número determinado (por ejemplo, un número predeterminado) de loci de metilación (por ejemplo, al menos 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 50, 100, 150 o más DMR) de una pluralidad de loci de metilación analizados (por ejemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 50, 100, 150 o más DMR) constituye un diagnóstico de que un sujeto padece o probablemente padece la afección, mientras que la ausencia de hipermetilación de un número determinado (por ejemplo, un número predeterminado) de loci de metilación (por ejemplo, al menos 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 50, 100, 150, o más DMR) de una pluralidad de loci de metilación analizados (por ejemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24, 25, 26, 50, 100, 150 o más DMR) constituye un diagnóstico de que un sujeto no padece probablemente la afección.

En algunas realizaciones, el estado de metilación de una pluralidad de loci de metilación (por ejemplo, una pluralidad de DMR) se mide cualitativa o cuantitativamente y la medición para cada uno de la pluralidad de loci de metilación se combina para proporcionar un diagnóstico. En algunas realizaciones, el estado de metilación medido cuantitativamente de cada uno de una pluralidad de loci de metilación se pondera individualmente, y los valores ponderados se combinan para proporcionar un único valor que puede ser comparativo con una referencia con el fin de proporcionar un diagnóstico.

En algunas realizaciones, el estado de metilación puede incluir la determinación de lecturas metiladas y/o no metiladas mapeadas en una región genómica (por ejemplo, una DMR). Por ejemplo, cuando se usan tecnologías de secuenciación particulares tal como se dan a conocer en el presente documento (por ejemplo, NGS, secuenciación con bisulfito de genoma completo, etc.), se producen lecturas de secuencia. Una lectura de secuencia es una secuencia inferida de pares de bases (por ejemplo, una secuencia probabilística) correspondiente a la totalidad o parte de un fragmento de oligonucleotido secuenciado (por ejemplo, ADN) (por ejemplo, fragmentos de ADNlc, fragmentos de ADNg). En determinadas realizaciones, las lecturas de secuencia pueden mapearse (por ejemplo, alinearse) en una región particular de interés usando una secuencia de referencia (por ejemplo, una secuencia de referencia convertida con bisulfito) con el fin de determinar si hay alteraciones o variaciones en una lectura. Las alteraciones pueden incluir metilación y/o mutaciones. Una región de interés puede incluir uno o más marcadores genómicos que incluyen un marcador de metilación (por ejemplo, una DMR), un marcador de mutación u otro marcador tal como se da a conocer en el presente documento.

Por ejemplo, en el caso de fragmentos de ADN tratados con bisulfito o enzimáticamente, el tratamiento convierte citosinas no metiladas en uracilos, mientras que las citosinas metiladas no se convierten en uracilos. Por consiguiente, una lectura de secuencia producida para un fragmento de ADN que tiene citosinas metiladas será diferente de una lectura de secuencia producida para el mismo fragmento de ADN que no tiene citosina metilada. La metilación en sitios donde un nucleótido de citosina va seguido de un nucleótido de guanina (por ejemplo, sitios CpG) puede ser de particular interés.

Protocolo de control de calidad

En determinadas realizaciones, pueden implementarse etapas de control de calidad. Las etapas de control de calidad se usan para determinar si las etapas o procesos particulares se realizaron o no dentro de parámetros particulares. En determinadas realizaciones, pueden usarse etapas de control de calidad para determinar la validez de los resultados de un análisis dado. Además o alternativamente, pueden usarse etapas de control de calidad para determinar la calidad de los datos secuenciados. Por ejemplo, pueden usarse etapas de control de calidad para determinar la cobertura de lectura de una o más regiones de ADN. Las métricas cuantitativas para el control de calidad incluyen, pero no se limitan a, tasa de pérdida de AT, tasa de pérdida de GC, tasa de conversión con bisulfito (por ejemplo, eficiencia de conversión con bisulfito) y similares. No poder cumplir una condición de control de calidad umbral (por ejemplo, una tasa de conversión mínima, una tasa de pérdida de CG máxima, etc.) puede indicar, por ejemplo, que una o más de las etapas de conversión no se realizaron dentro de parámetros apropiados.

Por ejemplo, en los métodos descritos en el presente documento, pueden optimizarse diversas etapas de un protocolo de conversión para disminuir la tasa de pérdida de AT y/o GC. Tal como entienden los expertos en la técnica, las métricas de pérdida de AT y GC indican el grado de cobertura inadecuada de una región diana particular basándose en su contenido de AT o GC. En determinadas realizaciones, las muestras que tienen una baja tasa de pérdida de GC son útiles en la identificación de qué muestras se procesaron apropiadamente. Por ejemplo, una tasa de pérdida de GC que se encuentra que es menor del 10 %, menor del 9 %, menor del 8 %, menor del 7 %, menor del 6 %, menor del 5 %, menor del 4 %, o menor puede ser útil para identificar muestras procesadas apropiadamente.

En determinadas realizaciones, una etapa de control de calidad puede implicar determinar una razón en la diana y/o fuera de la diana. Las lecturas de secuencia que se alinean con una región de interés (por ejemplo, una DMR) se considera que están en la diana, mientras que las lecturas de secuencia que no se alinean con la región de interés (por ejemplo, una DMR) se considera que están fuera de la diana. En determinadas realizaciones, la razón en la diana se representa como un porcentaje de bases en la diana con respecto al número total de bases alineadas. En determinadas realizaciones, la razón en la diana se representa como un porcentaje de bases en la diana y cerca de la diana con respecto al número total de bases alineadas. Las bases casi en la diana pueden ser una base dentro de un cierto número de bases (por ejemplo, dentro de 500 pb, dentro de 200 pb, dentro de 100 pb) de la región diana. En determinadas realizaciones, la razón en la diana es de al menos un 10 %, al menos un 20 %, al menos un 30 %, al menos un 40 %, al menos un 50 %, al menos un 60 %, al menos un 70 %, al menos un 80 %, al menos un 90 %, al menos un 95 %, al menos un 99 % o más para que un experimento de secuenciación pase el control de calidad. En determinadas realizaciones, la razón fuera de la diana se representa como un porcentaje de bases fuera de la diana con respecto al número total de bases alineadas. En determinadas realizaciones, una razón fuera de la diana es menor del 95 %, menor del 90 %, menor del 85 %, menor del 80 %, menor del 70 %, menor del 60 %, menor del 50 %, menor del 40 %, menor del 30 %, menor del 20 %, menor del 10 %, menor del 1 % para que un experimento de secuenciación pase el control de calidad.

En determinadas realizaciones, una etapa de control de calidad puede incluir determinar puntuaciones de calidad para lecturas de secuencia mapeadas. Una puntuación de calidad es un valor que cuantifica una probabilidad de que una lectura de secuencia se mapee incorrectamente. Por ejemplo, cuando se mapean secuencias cortas o repetitivas, es posible que una secuencia se mapee en múltiples lugares en un genoma de referencia. La puntuación de calidad considera la mejor alineación de la secuencia leída con el genoma de referencia en comparación con otras posibles alineaciones de la secuencia leída con el genoma de referencia. En determinadas realizaciones, la puntuación de calidad es una puntuación de calidad de mapeo (MAPQ). La MAPQ es la probabilidad negativa, de escala logarítmica de que una lectura está alineada incorrectamente. Una puntuación alta indica una confianza alta de que una lectura esté alineada correctamente, mientras que una puntuación baja indica una confianza baja de que una lectura esté alineada correctamente. En determinadas realizaciones, la puntuación de MAPQ puede calcularse usando la siguiente ecuación:

Puntuación de MAPQ = -10 log<10>Pr{la posición de mapeo es incorrecta}.

En determinadas realizaciones, la puntuación de MAPQ se redondea al número entero más cercano. En determinadas realizaciones Pr es una probabilidad de que la secuencia leída se mapee incorrectamente tal como se obtiene de una herramienta de alineación (por ejemplo, mapeo). En determinadas realizaciones, el factor de escala es 1 (en lugar de 10) u otro número.

Control de adición conocida

Pueden usarse moléculas de ácido nucleico de control (por ejemplo, ADN) (por ejemplo, “controles de adición conocida”) para evaluar o estimar la eficiencia de conversión de citosinas no metiladas y metiladas en uracilos. Pueden usarse moléculas de ácido nucleico de control en métodos de secuenciación que implican la conversión (por ejemplo, conversión con bisulfito o enzimática) de muestras de ADN.

Cuando se somete ADN a conversión (por ejemplo, conversión con bisulfito o enzimática) tal como se describe en el presente documento, la conversión puede ser incompleta. Es decir, un cierto número de citosinas no metiladas pueden no convertirse en uracilos. Si la conversión no es completa de manera que las citosinas no metiladas no se convierten en su mayoría, las citosinas no metiladas no convertidas pueden identificarse como metiladas cuando se secuencia el ADN. Por consiguiente, con el fin de determinar si la conversión con bisulfito está completa o no, una molécula de ADN de control puede someterse a conversión junto con fragmentos de ADN de una muestra. En determinadas realizaciones, la secuenciación de las moléculas de ADN de control convertidas (por ejemplo, usando una técnica de NGS como se describe en el presente documento) genera una pluralidad de lecturas de secuencia de control. Las lecturas de secuencia de control pueden usarse para determinar las tasas de conversión de citosinas no metiladas y/o metiladas en uracilos.

Las técnicas anteriores no reconocían que era útil incluir controles (por ejemplo, una molécula de ADN de control) en cada muestra. En su lugar, suponían que las eficiencias de conversión permanecían relativamente constantes entre muestras para una ejecución dada. Sin embargo, los inventores han identificado que la tasa de conversión de citosinas no metiladas en uracilos en fragmentos de ADN puede variar significativamente de una muestra a otra. Por ejemplo, la eficiencia de conversión puede variar del 10 % al 110 % dentro de un solo lote de muestras procesadas. Obsérvese que puede haber una sobreconversión de manera que la eficiencia de conversión pueda ser mayor del 100 %, por ejemplo, la eficiencia de conversión es del 110 % cuando se convierte el 10 % de la citosina metilada. En determinadas realizaciones, la eficiencia de conversión varía del 30 % al 110 %. En otras realizaciones, la eficiencia de conversión varía del 50 % al 100 %.

En determinadas realizaciones, puede añadirse una molécula de ADN de control a una muestra después de la fragmentación y antes de la conversión usando, por ejemplo, reactivos enzimáticos o de bisulfito. En determinadas realizaciones, puede añadirse una pluralidad (por ejemplo, dos, tres, cuatro o más) secuencias de ADN de control a fragmentos de ADN de una muestra. Una molécula de ADN de control puede ser una secuencia conocida. Por ejemplo, la secuencia, el número de bases metiladas y el número de bases no metiladas de la secuencia de control se habían determinado antes de la adición de la molécula de ADN de control a la muestra. En determinadas realizaciones, una secuencia de control puede ser una secuencia de ADN que se producein vitropara contener nucleótidos no metilados o metilados artificialmente (por ejemplo, citosinas metiladas). En determinadas realizaciones, una secuencia de control puede ser una secuencia de ADN que se produce para que contenga nucleótidos de ADN completamente no metilados.

Puede usarse una alta eficiencia de conversión de la secuencia de control de adición conocida para inferir la eficiencia de conversión de fragmentos de ADN que experimentan el mismo proceso de conversión que un control de adición conocida. Por ejemplo, la desaminación de al menos el 98 % de las citosinas no metiladas en la secuencia de ADN de control de adición conocida no metilada indica que la eficiencia de conversión es alta y que una muestra puede pasar una evaluación de control de calidad. En determinadas realizaciones, al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 % de las citosinas no metiladas de una pluralidad de fragmentos de ADN de una secuencia de ADN de control se convierten en uracilos. Una alta eficiencia de conversión es importante ya que es ideal para que todas (o casi todas) las citosinas no metiladas se conviertan en uracilos cuando se somete el ADN a tratamientos con bisulfito o enzimáticos. Como se describió anteriormente, las citosinas no metiladas, sin convertir, pueden servir como una fuente de ruido en los datos.

Además, la conversión de citosinas metiladas en uracilos es indeseable cuando el ADN se trata usando un proceso de conversión. La conversión de citosinas metiladas de un control de adición conocida es indicativa de que las citosinas metiladas se han convertido en uracilos en una muestra de ADN sometida al mismo tratamiento que el control de adición conocida metilado. Las citosinas metiladas en un control de adición conocida metilado no deben convertirse en uracilos. Por los mismos motivos que se describieron anteriormente, las citosinas metiladas que se convierten en uracilos pueden dar como resultado una identificación errónea de citosinas supuestamente no metiladas durante el análisis de metilación. En determinadas realizaciones, como máximo el 5 %, como máximo el 4 %, como máximo el 3 %, como máximo el 2 % o como máximo el 1 % de las citosinas metiladas de una pluralidad de fragmentos de ADN de una secuencia de ADN de control se convierten en uracilos. Por ejemplo, la desaminación de como máximo el 2 % de las citosinas metiladas en una secuencia de ADN control de adición conocida metilada indica que la eficiencia de conversión es alta y que una muestra puede pasar una evaluación de control de calidad.

identificación de mutaciones

En determinadas realizaciones como se da a conocer en el presente documento, pueden identificarse mutaciones genómicas en uno o más biomarcadores de mutación predeterminados. En diversas realizaciones, un biomarcador de mutación de la presente divulgación se usa para la detección adicional (por ejemplo, cribado) y/o clasificación de una afección además de biomarcadores de metilación. En determinadas realizaciones, la información con respecto al estado de metilación de uno o más biomarcadores de cáncer colorrectal puede combinarse con un biomarcador de mutación para clasificar adicionalmente el cáncer colorrectal identificado. Además o alternativamente, pueden usarse biomarcadores de mutación para determinar o recomendar (por ejemplo, o bien a favor o bien en contra) un curso particular de tratamiento para la enfermedad y/o afección identificada.

En determinadas realizaciones, la identificación de mutaciones genómicas puede realizarse usando una técnica de secuenciación tal como se comenta en el presente documento (por ejemplo, una técnica de secuenciación de NGS). En determinadas realizaciones, los oligonucleótidos (por ejemplo, fragmentos de ADNlc, fragmentos de ADNg) se secuencian a una profundidad de lectura suficiente para detectar una mutación genómica (por ejemplo, en un biomarcador de mutación, en marcadores tumorales) a una frecuencia en una muestra tan baja como el 1,0 %, 0,75 %, 0,5 %, 0,25 %, 0,1 %, 0,075 %, 0,05 %, 0,025 %, 0,01 % o 0,005 %.

Las mutaciones genómicas incluyen generalmente cualquier variación en las secuencias de pares de bases de nucleótidos del ADN como se entiende en la técnica. Una mutación en un ácido nucleico puede incluir, en algunas realizaciones, una variante de un solo nucleótido, una inversión, una deleción, una inserción, una transversión, una translocación, una fusión, un truncamiento, una amplificación o una combinación de los mismos, en comparación con una secuencia de ADN de referencia.

La figura 4 enumera regiones de ADN en las que se encuentran mutaciones genómicas útiles. Las regiones de ADN incluyen las posiciones de número de cromosoma (cro), inicio (“inicio”) y fin (“fin”) de una región diana que contiene un marcador de mutación en un cromosoma, y los nombres de genes (por ejemplo, NRAS, PTEN, KRAs , PIK3CA, EGFR, BRAF, STK22, TP53, KIT y MET) en los que se encuentran los marcadores de mutación junto con un identificador para el codón en el que se ha identificado la mutación. Para evitar dudas, cada uno de los genes enumerados en la figura 4 también puede incluir otras mutaciones no enumeradas en la figura 4.

A modo de ejemplo, NRAS_p.A146 enumerado en la primera fila de la figura 4, identifica que el gen NRAS tiene una mutación en el codón 146. Una región de ADN a la que se dirige una o más sondas se identifica por el cromosoma número 1 y las posiciones de inicio y fin 114709462 y 114709702, respectivamente. En el mismo cromosoma, las posiciones de inicio y fin 114709581 (“i.start”) y 114709583 (“i.end”) corresponden a la secuencia de ADN que codifica el codón mutado. En la mutación identificada, el aminoácido alanina (“A”) se altera a prolina (“P”) como se muestra en la figura 4. En el ensayo particular, la mutación se identifica en la hebra no codificante (“-1 ”) del fragmento de ADN. La secuencia proporcionada corresponde a los pares de bases del codón mutado, que se identifican usando letras mayúsculas. Se proporciona un tampón de 30 pb a cada lado del codón para la identificación adicional de la región.

Las mutaciones pueden identificarse usando técnicas de secuenciación de NGS (por ejemplo, técnicas de secuenciación de NGS dirigida, técnicas de secuenciación de NGS de hibridación, o similares) u otras técnicas de secuenciación dadas a conocer en el presente documento. En determinadas realizaciones tal como se da a conocer en el presente documento, las mutaciones pueden identificarse en fragmentos de ADN convertidos (por ejemplo, convertidos con bisulfito o enzimáticamente). En determinadas realizaciones, las mutaciones y los loci metilados pueden identificarse en paralelo (por ejemplo, simultáneamente) usando un único ensayo de secuenciación (por ejemplo, un ensayo de NGS). En determinadas realizaciones, una o más sondas de captura se dirigen a capturar y/o enriquecer una región de interés de una secuencia de oligonucleótido (por ejemplo, ADN) correspondiente a uno o más marcadores de mutaciones (por ejemplo, regiones de mutación y sitios como se encuentra en la figura 4).

En determinadas realizaciones, los marcadores de mutación contienen regiones de bajo contenido de GC. Debido al bajo contenido de GC, puede no obtenerse suficiente cobertura de una región cuando se secuencia una región de bajo contenido de GC usando protocolos adaptados para regiones de alto contenido de GC. Por ejemplo, la secuenciación de NGS dirigida (por ejemplo, secuenciación con bisulfito dirigida) de una región de bajo contenido de GC usando solo una densidad de embaldosado 1x de una región diana puede no proporcionar suficiente cobertura de una región de mutación. El embaldosado (por ejemplo, densidad de embaldosado, frecuencia de embaldosado) se refiere a un número de sondas dirigidas a una región. Puede usarse una densidad de embaldosado de sonda aumentada (por ejemplo, mediante el aumento del número de sondas dirigidas a una región) con el fin de proporcionar cobertura adicional para una región. Por ejemplo, la cobertura de una región de bajo contenido de GC puede mejorarse mediante un aumento del embaldosado. Por consiguiente, aumentar la densidad de embaldosado de una región hasta al menos embaldosado 2x (por ejemplo, 3x, 4x o más) puede ser beneficioso para mejorar el enriquecimiento de una región diana. Por ejemplo, con un embaldosado 2x, una región cubierta por una sonda puede cubrirse con dos sondas que se solapan entre sí. Además o alternativamente, las sondas pueden solaparse para permitir una cobertura mejorada de una región. Por ejemplo, las sondas pueden solaparse en al menos un 10 %, 20 %, 30 %, 40 %, 50 % o más. La cantidad en que dos sondas se solapan entre sí puede depender de la densidad de embaldosado deseada, la secuencia de una región diana u otros factores. Para evitar dudas, el embaldosado y/o solapamiento de sondas también puede cambiarse en regiones de alto contenido de GC (por ejemplo, loci de metilación) también.

Etapas de desduplicación a modo de ejemplo

En determinadas realizaciones como se comenta en el presente documento, se encuentran secuencias duplicadas en los datos de secuenciación. Las secuencias duplicadas surgen de varias posibles fuentes como se comenta en el presente documento , y por consiguiente puede ser necesario que se eliminen de los datos de secuenciación. Los duplicados son particularmente importantes de eliminar en un análisis ya que las señales del cáncer son bajas. Las señales cancerosas se perderían en ruido si no se eliminasen los duplicados.

Por ejemplo, en determinadas realizaciones, los datos de secuenciación pueden incluir un gran número de lecturas obtenidas de la secuenciación de fragmentos de oligonucleótidos (por ejemplo, fragmentos de ADN, por ejemplo, ADNlc, fragmentos de ADNg) de una muestra. Múltiples lecturas correspondientes a un fragmento de ADN particular pueden dar como resultado falsas llamadas de variantes (por ejemplo, identificación de múltiples variantes del mismo fragmento de ADN), que interferirían con la identificación de un sitio CpG metilado y/o una mutación. En determinadas realizaciones, se eliminan secuencias duplicadas antes de determinar los valores de metilación de lectura. En determinadas realizaciones, puede usarse un paquete bioinformático (por ejemplo, Picard, SAMTools) para marcar y eliminar duplicados de los datos de secuenciación.

La figura 13 muestra una serie de etapas bioinformáticas (1300) realizadas sobre datos de secuenciación para eliminar secuencias duplicadas, según una realización ilustrativa. Se proporcionan y/o adquieren datos leídos adquiridos de, por ejemplo, una técnica de secuenciación de NGS (por ejemplo, tal como se describe en el presente documento) (1310). En determinadas realizaciones, los datos de secuenciación se obtienen a partir de fragmentos de ADN convertidos con bisulfito o enzimáticamente tal como se describe en el presente documento. Las lecturas obtenidas de los datos de secuenciación pueden alinearse a continuación con una secuencia de referencia (1320). En determinadas realizaciones, la secuencia de referencia es un genoma convertido con bisulfito (por ejemplo, un genoma humano convertido con bisulfito). Las lecturas que corresponden a duplicados ópticos pueden eliminarse entonces (1330). Pueden surgir duplicados ópticos durante la preparación de una muestra para secuenciación. Los duplicados ópticos pueden conectarse al tipo de celda de flujo. Por ejemplo, los secuenciadores de NGS con celdas de flujo con patrón tienen un problema de salto de molde y, por tanto, duplicación de agrupaciones. El salto de molde se produce cuando una secuencia “salta” de un punto en una celda de flujo a otro punto en la celda de flujo. Las agrupaciones duplicadas pueden dar como resultado una sobrerrepresentación de lecturas particulares en un conjunto de datos. También pueden surgir agrupaciones duplicadas de un sensor del secuenciador de NGS que identifica incorrectamente una única agrupación de amplificación en un sustrato (por ejemplo, una celda de flujo) como múltiples agrupaciones. En determinadas realizaciones, se identifican duplicados ópticos cuando dos lecturas comparten una secuencia idéntica de bases. En determinadas realizaciones, una lectura se denomina duplicado óptico si un par de lecturas están ambas en la misma baldosa (por ejemplo, un punto en una celda de flujo usada para NGS), y la distancia entre lecturas es menor de 100 pb (por ejemplo, cuando se usa equipo NExtSeq) y 2500 pb (por ejemplo, cuando se usa equipo NovaSeq).

En determinadas realizaciones, también pueden eliminarse duplicados de PCR (también conocidos como duplicados de biblioteca) y/o duplicados de sobresecuenciación (1340). Los duplicados de PCR y duplicados de sobresecuenciación son lecturas de secuencia que resultan de secuenciar dos o más copias del mismo fragmento de ADN exacto. Los duplicados de PCR y duplicados de sobresecuenciación pueden surgir durante la preparación de la biblioteca. En determinadas realizaciones, las lecturas de secuencia se consideran duplicados de PCR o duplicados de sobresecuenciación si las lecturas de secuencia tienen (1) una coordenada de extremo 5’, (2) una coordenada de extremo 3’ y (3) un nivel de metilación que son iguales, en donde la coordenada de extremo 5’ y la coordenada de extremo 3’ de una lectura de secuencia corresponden a la posición en la que el nucleótido más 5’ y el nucleótido más 3’, respectivamente, de la lectura de secuencia se mapean en una secuencia de referencia. Finalmente, las lecturas desduplicadas se someten a filtrado de calidad (1350), lo que da como resultado la eliminación de lecturas adicionales.

En determinadas realizaciones, la desduplicación de lecturas de secuencia no comprende la eliminación de lecturas de secuencia duplicadas que tienen un nivel de metilación diferente. Por ejemplo, una muestra puede tener dos lecturas de secuencia que son idénticas. Sin embargo, una lectura de secuencia puede tener un sitio CpG que está metilado, mientras que el mismo sitio CpG en la otra hebra no está metilado. En determinadas realizaciones, ambas hebras pueden mantenerse para análisis bioinformático adicional. Sin desear estar ligado a ninguna teoría particular, la presencia de diferentes niveles de metilación dentro de fragmentos duplicados puede deberse a errores de secuenciación o a una fuente diferente de un fragmento.

Aplicaciones

Los métodos y composiciones de la presente descripción pueden usarse en cualquiera de una variedad de aplicaciones. Por ejemplo, los métodos y composiciones de la presente divulgación pueden usarse para cribar, o ayudar en el cribado de una afección (por ejemplo, cáncer). En particular, los métodos y composiciones pueden usarse para cribar, o ayudar en el cribado de una neoplasia colorrectal, por ejemplo, adenoma avanzado y/o cáncer colorrectal. En diversos casos, el cribado usando los métodos y composiciones de la presente divulgación puede detectar cualquier estadio de cáncer colorrectal, incluyendo, sin limitación, cáncer colorrectal en estadio temprano. En algunas realizaciones, el cribado usando los métodos y composiciones de la presente divulgación se aplica a individuos de 40 años o más, por ejemplo, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85 o 90 años o más. En particular, los individuos de 40 años o más son de interés para el cribado de cáncer colorrectal y/o adenoma avanzado. En algunas realizaciones, el cribado usando los métodos y composiciones de la presente divulgación se aplica a individuos de 18 años o más, por ejemplo, 18, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85 o 90 años o más. En algunas realizaciones, el cribado usando los métodos y composiciones de la presente divulgación se aplica a individuos de 18 a 40 años de edad. En diversas realizaciones, el cribado usando los métodos y composiciones de la presente divulgación se aplica a individuos que experimentan dolor o malestar abdominal, por ejemplo, que experimentan dolor o malestar abdominal no diagnosticado o diagnosticado de manera incompleta. En diversas realizaciones, el cribado usando los métodos y composiciones de la presente divulgación se aplica a individuos que no experimentan síntomas que probablemente estén asociados con un cáncer o una neoplasia colorrectal tal como adenoma avanzado, poliposis y/o cáncer colorrectal. Por tanto, en determinadas realizaciones, el cribado usando los métodos y composiciones de la presente divulgación es completa o parcialmente preventivo o profiláctico, al menos con respecto a estadios tardíos o no tempranos del cáncer.

En diversas realizaciones, el cribado de cáncer usando los métodos y composiciones de la presente divulgación puede aplicarse a un sujeto humano asintomático. En particular, un sujeto puede denominarse “asintomático” si el sujeto no notifica ni demuestra mediante indicios observables de manera no invasiva (por ejemplo, sin uno, varios o todos los sondeos basados en dispositivos, análisis de muestras de tejido, análisis de fluidos corporales, cirugía o cribado de cáncer), características suficientes de la afección como para soportar una sospecha médicamente razonable de que el sujeto probablemente padece la afección. La detección de una neoplasia colorrectal, tal como adenoma avanzado y/o cáncer colorrectal en estadio temprano, es particularmente probable en individuos asintomáticos cribados según los métodos y composiciones de la presente divulgación.

Los expertos en la técnica apreciarán que el cribado regular, preventivo y/o profiláctico de una neoplasia colorrectal tal como adenoma avanzado y/o cáncer colorrectal mejora el diagnóstico. Tal como se indicó anteriormente, los cánceres en estadio temprano incluyen, según al menos un sistema de estadificación del cáncer, estadios 0 a II C de cáncer colorrectal. Por tanto, la presente divulgación proporciona, entre otras cosas, métodos y composiciones particularmente útiles para el diagnóstico y tratamiento de neoplasias colorrectales que incluyen adenoma avanzado, poliposis y/o cáncer colorrectal en estadio temprano. Generalmente, y en particular en realizaciones en las que el cribado según la presente divulgación se lleva a cabo anualmente, y/o en las que un sujeto es asintomático en el momento del cribado, los métodos y composiciones de la presente invención son especialmente propensos a detectar cáncer colorrectal en estadio temprano.

En diversas realizaciones, el cribado de cáncer colorrectal según la presente divulgación se realiza una vez para un sujeto dado o múltiples veces para un sujeto dado. En diversas realizaciones, el cribado de cáncer colorrectal según la presente divulgación se realiza de manera regular, por ejemplo, cada seis meses, anualmente, cada dos años, cada tres años, cada cuatro años, cada cinco años o cada diez años.

En diversas realizaciones, el cribado usando los métodos y composiciones dados a conocer en el presente documento proporcionará un diagnóstico de una afección (por ejemplo, un tipo o clase de una neoplasia colorrectal). En otros casos, el cribado de neoplasias colorrectales usando los métodos y composiciones dados a conocer en el presente documento será indicativo de tener una o más afecciones, pero no definitivo para el diagnóstico de una afección particular. Por ejemplo, el cribado puede usarse para clasificar a un sujeto como que tiene una o más afecciones o combinación de afecciones que incluyen, pero no se limitan a, adenoma avanzado y/o cáncer colorrectal. En diversos casos, el cribado usando los métodos y composiciones de la presente divulgación puede ir seguido de un ensayo de confirmación de diagnóstico adicional, ensayo adicional que puede confirmar, apoyar, socavar o rechazar un diagnóstico resultante del cribado previo, por ejemplo, el cribado según la presente divulgación.

En diversas realizaciones, el cribado según los métodos y composiciones de la presente divulgación reduce la mortalidad por cáncer colorrectal, por ejemplo, mediante diagnóstico temprano de cáncer colorrectal. Los datos apoyan que el cribado de cáncer colorrectal reduce la mortalidad por cáncer colorrectal, efecto que persistió durante más de 30 años (véase, por ejemplo, Saukat 2013 N Engl J Med. 369 (12): 1106-14). Además, el cáncer colorrectal es particularmente difícil de tratar al menos en parte porque el cáncer colorrectal, sin cribado oportuno, puede no detectarse hasta que el cáncer supere los estadios tempranos. Por al menos este motivo, el tratamiento del cáncer colorrectal a menudo no tiene éxito. Para maximizar la mejora de los resultados del cáncer colorrectal en toda la población, la utilización del cribado según la presente divulgación puede emparejarse con, por ejemplo, el reclutamiento de sujetos elegibles para garantizar un cribado extendido.

En diversas realizaciones, el cribado de neoplasias colorrectales que incluye uno o más métodos y/o composiciones dados a conocer en el presente documento va seguido por el tratamiento del cáncer colorrectal, por ejemplo, el tratamiento del cáncer colorrectal en estadio temprano. En diversas realizaciones, el tratamiento del cáncer colorrectal, por ejemplo, cáncer colorrectal en estadio temprano, incluye la administración de un régimen terapéutico que incluye uno o más de cirugía, radioterapia y quimioterapia. En diversas realizaciones, el tratamiento del cáncer colorrectal, por ejemplo, cáncer colorrectal en estadio temprano, incluye la administración de un régimen terapéutico que incluye uno o más de los tratamientos proporcionados en el presente documento para el tratamiento del cáncer colorrectal en estadio 0, cáncer colorrectal en estadio I y/o cáncer colorrectal en estadio II.

En diversas realizaciones, el tratamiento del cáncer colorrectal incluye el tratamiento del cáncer colorrectal en estadio temprano, por ejemplo, cáncer colorrectal en estadio 0 o cáncer colorrectal en estadio I, mediante una o más de extirpación quirúrgica de tejido canceroso, por ejemplo, mediante escisión local (por ejemplo, mediante colonoscopio), colectomía parcial o colectomía completa.

En diversas realizaciones, el tratamiento del cáncer colorrectal incluye el tratamiento del cáncer colorrectal en estadio temprano, por ejemplo, cáncer colorrectal en estadio II, mediante una o más de extirpación quirúrgica de tejido canceroso (por ejemplo, mediante escisión local (por ejemplo, mediante colonoscopio), colectomía parcial o colectomía completa), cirugía para extirpar ganglios linfáticos cerca del tejido de cáncer colorrectal identificado y quimioterapia (por ejemplo, administración de uno o más de 5-FU y leucovorina, oxaliplatino o capecitabina).

En diversas realizaciones, el tratamiento del cáncer colorrectal incluye el tratamiento del cáncer colorrectal en estadio III, mediante una o más de extirpación quirúrgica de tejido canceroso (por ejemplo, mediante escisión local (por ejemplo, mediante escisión basada en colonoscopia), colectomía parcial o colectomía completa), extirpación quirúrgica de ganglios linfáticos cerca del tejido de cáncer colorrectal identificado, quimioterapia (por ejemplo, administración de uno o más de 5-FU, leucovorina, oxaliplatino, capecitabina, por ejemplo, en una combinación de (i) 5-FU y leucovorina, (ii) 5-FU, leucovorina y oxaliplatino (por ejemplo, FOLFOX) o (iii) capecitabina y oxaliplatino (por ejemplo, CAPEOX)) y radioterapia.

En diversas realizaciones, el tratamiento del cáncer colorrectal incluye el tratamiento del cáncer colorrectal en estadio IV, mediante una o más de extirpación quirúrgica de tejido canceroso (por ejemplo, mediante escisión local (por ejemplo, mediante colonoscopio), colectomía parcial o colectomía completa), extirpación quirúrgica de ganglios linfáticos cerca del tejido de cáncer colorrectal identificado, extirpación quirúrgica de metástasis, quimioterapia (por ejemplo, administración de uno o más de 5-FU, leucovorina, oxaliplatino, capecitabina, irinotecán, agente terapéutico dirigido a VEGF (por ejemplo, bevacizumab, ziv-aflibercept o ramucirumab), agente terapéutico dirigido a EGFR (por ejemplo, cetuximab o panitumumab), regorafenib, trifluridina y tipiracilo, por ejemplo, en una combinación de o que incluye (i) 5-FU y leucovorina, (ii) 5-FU, leucovorina y oxaliplatino (por ejemplo, FOLFOX), (iii) capecitabina y oxaliplatino (por ejemplo, CAPEOX), (iv) leucovorina, 5-F<u>, oxaliplatino e irinotecán (FOLFOXIRI), y (v) trifluridina y tipiracilo (Lonsurf)), radioterapia, infusión de arteria hepática (por ejemplo, si el cáncer ha metastatizado al hígado), ablación de tumores, embolización de tumores, endoprótesis de colon, colorectomía, colostomía (por ejemplo, colostomía de desviación) e inmunoterapia (por ejemplo, pembrolizumab).

Los expertos en la técnica apreciarán que los tratamientos del cáncer colorrectal proporcionados en el presente documento pueden utilizarse, por ejemplo, tal como se determina por un médico, solos o en cualquier combinación, en cualquier orden, régimen y/o programa terapéutico. Los expertos en la técnica apreciarán además que pueden ser apropiadas opciones de tratamiento avanzadas para cánceres en estadio más temprano en sujetos que han padecido previamente un cáncer o cáncer colorrectal, por ejemplo, sujetos diagnosticados con un cáncer colorrectal recurrente.

En algunas realizaciones, los métodos y composiciones para el cribado de neoplasias colorrectales proporcionados en el presente documento pueden informar sobre decisiones y/o acciones de tratamiento y/o pago (por ejemplo, reembolso o reducción del coste de la atención médica, tal como cribado o tratamiento), por ejemplo, por individuos, centros sanitarios, profesionales sanitarios, proveedores de seguros sanitarios, organismos gubernamentales u otras partes interesadas en el coste de la atención sanitaria. En algunas realizaciones, los métodos y composiciones para el cribado de neoplasias colorrectales proporcionados en el presente documento pueden informar sobre la toma de decisiones con respecto a si los proveedores de seguros sanitarios reembolsan a un pagador o receptor de costes sanitarios (o no), por ejemplo, para (1) el propio cribado (por ejemplo, reembolso para el cribado de otro modo no disponible, disponible solo para cribado periódico/regular, o disponible solo para cribado motivado temporal y/o incidentalmente); y/o para (2) el tratamiento, incluyendo iniciar, mantener y/o alterar la terapia, por ejemplo, basándose en los resultados del cribado. Por ejemplo, en algunas realizaciones, los métodos y composiciones para el cribado de neoplasias colorrectales proporcionados en el presente documento se usan como base para, contribuir a o apoyar una determinación en cuanto a si se proporcionará un reembolso o reducción de costes a un pagador o receptor de costes sanitarios. En algunos casos, una parte que busca reembolso o reducción de costes puede proporcionar los resultados de un cribado realizado según la presente memoria descriptiva junto con una solicitud de tal reembolso o reducción de costes de un coste de asistencia sanitaria. En algunos casos, una parte que realiza una determinación en cuanto a si proporcionar o no un reembolso o reducción de costes de un coste sanitario alcanzará una determinación basada en su totalidad o en parte en la recepción y/o revisión de resultados de un cribado realizado según la presente memoria descriptiva. Para evitar cualquier duda, los expertos en la técnica apreciarán a partir de la presente divulgación que los métodos y composiciones para el diagnóstico de cáncer colorrectal de la presente memoria descriptiva son al menos para usoin vitro.Por consiguiente, todos los aspectos y realizaciones de la presente divulgación pueden realizarse y/o usarse al menosin vitro.

Kits

La presente divulgación incluye, entre otras cosas, kits que incluyen una o más composiciones para su uso en el cribado como se proporciona en el presente documento, opcionalmente en combinación con instrucciones para su uso en el cribado (por ejemplo, cribado de adenoma avanzado, cáncer colorrectal, otros cánceres u otras enfermedades o afecciones asociadas con un estado de metilación aberrante, por ejemplo, enfermedades neurodegenerativas, trastornos gastrointestinales y similares). En diversas realizaciones, un kit para cribar una enfermedad o afección asociada con un estado de metilación aberrante puede incluir una o más sondas oligonucleotídicas (por ejemplo, una o más sondas oligonucleotídicas biotiniladas). En determinadas realizaciones, el kit para cribado incluye opcionalmente uno o más reactivos de conversión de bisulfito tal como se da a conocer en el presente documento. En determinadas realizaciones, el kit para cribado incluye opcionalmente uno o más reactivos de conversión enzimática tal como se da a conocer en el presente documento. En determinadas realizaciones, el kit para cribado puede incluir uno o más adaptadores tal como se da a conocer en el presente documento. En determinadas realizaciones, el kit puede incluir uno o más reactivos usados en la preparación de bibliotecas. En determinadas realizaciones, el kit puede incluir software (por ejemplo, para analizar el estado de metilación de las DMR).

EJEMPLOS

Ejemplo 1: identificación de marcadores asociados con cáncer colorrectal y adenoma avanzado

El propósito de este ejemplo es identificar regiones metiladas diferencialmente (DMR) en ADN de muestras de cáncer colorrectal y adenoma de colon (por ejemplo, muestras de sujetos que tienen adenoma avanzado). La identificación de las DMR se realizó comparando el<a>D<n>de sujetos que tenían cáncer colorrectal y/o adenomas colónicos con muestras de control coincidentes. Esta comparación permitió el desarrollo de métodos que dilucidarían los patrones de metilación relacionados con cáncer colorrectal y adenoma avanzado a partir de ADN libre de células (ADNlc).

Se usó secuenciación con bisulfito de genoma completo (WGBS) para identificar diferencias en el estado de metilación en muestras de ADN genómico (ADNg) y ADNlc obtenidas de una variedad de fuentes. Se obtuvo ADNg de muestras de tejido con diferentes antecedentes histológicos (por ejemplo, cáncer colorrectal, adenoma colónico, cáncer de pulmón, cáncer de mama, cáncer pancreático, cáncer gástrico y controles coincidentes) y muestras de capa leucocitaria. Se extrajo ADN genómico (ADNg) de muestras de tejido y capa leucocitaria usando un kit DNeasy Blood & Tissue (Qiagen) según el protocolo del fabricante. El ADNg extraído se procesó luego adicionalmente para fragmentarlo. Por ejemplo, se fragmentó ADNg en segmentos que tenían longitudes de aproximadamente 400 pb con un ultrasonicador Covaris S220. Se extrajo ADNlc de muestras de plasma usando el kit de ácido nucleico circulante QIAamp (Qiagen) según el protocolo del fabricante.

El ADNg (ADN genómico) extraído y fragmentado y el ADNlc se convirtieron con bisulfito con el kit EZ DNA Methylation-Lightning (ZymoResearch). Se prepararon bibliotecas de secuenciación a partir de los fragmentos de ADN convertidos con bisulfito usando el kit de biblioteca de ADN Accel-NGS Methyl-seq (Swift Biosciences). Los fragmentos de ADN convertidos se secuenciaron con una profundidad promedio de 37,5x con el equipo NovaSeq6000 (Illumina), usando secuenciación de extremos emparejados. Para este experimento, se realizó secuenciación de extremos emparejados de manera que se cubrieron 150 pb de cada extremo de un fragmento de ADN convertido (por ejemplo, 2x150). Las lecturas secuenciadas se alinearon con un genoma humano convertido con bisulfito (conjunto Ensembl 91) usando Bisulfite Read Mapper con Bowtie 2. Se usaron las siguientes etapas para alinear lecturas secuenciadas con un genoma humano convertido con bisulfito:

1. Evaluación de la calidad de secuenciación

2. Alineamiento con un genoma de referencia (hG38)

3. Desduplicación y limpieza a partir de dímeros adaptadores

4. Llamada de metilación (por ejemplo, identificación de ácidos nucleicos metilados)

El análisis de la región metilada diferencialmente se realizó comparando los valores beta (b) de CpG individuales de las muestras de tejido de cáncer de colon y/o adenoma colónico con un tejido de control coincidente. El valor b refleja el nivel de metilación de lecturas de CpG en una muestra. Un valor b de 0 indica que no se encontraron lecturas metiladas en una ubicación específica de CpG, mientras que un valor b de 1 indica que todas las lecturas estaban completamente metiladas. Las puntuaciones individuales del valor de metilación de CpG se combinaron en regiones que tenían un mínimo de 3 CpG dentro de una distancia de 50 pb entre sí. El valor q de la región, que es el valor p corregido con una prueba de permutación de marcadores entre grupos, se evaluó con el fin de seleccionar regiones de ADN de sujetos con cáncer colorrectal y/o adenoma colónico que estaban significativamente metiladas de manera diferente de la misma región en ADN obtenido de un sujeto de control. Se consideró que un valor q < 0,05 mostraba una alta significación estadística de una región metilada diferencialmente (DMR). Se evaluaron adicionalmente regiones significativas para determinar si había una señal de metilación significativa en comparación con muestras de tejido con origen de cáncer no colorrectal, muestras de tejido de control de origen no colorrectal, muestras de capa leucocitaria y ADNlc de individuos sanos.

En total, se identificaron inicialmente 6061 DMR como significativas para cáncer colorrectal y/o adenoma avanzado. Estas DMR incluyen regiones que son más indicativas de cáncer colorrectal, DMR que son más indicativas de diferentes subtipos histológicos de adenomas colónicos y regiones que son indicativas tanto de cáncer colorrectal como de adenoma avanzado.

Se realizó un análisis adicional de la señal del cáncer usando en las regiones diana seleccionadas de los datos de secuenciación del genoma completo usando un método de puntuación de señal de lectura. Se calcularon los umbrales en muestras emparejadas de control de tejido para permitir la máxima separación entre las lecturas de cáncer y control.

Las puntuaciones calculadas se aplicaron a cada lectura obtenida a partir de ADNIc en plasma de sujetos.

Ejemplo 2: Evaluación de características y desarrollo de algoritmos

El propósito de este ejemplo fue identificar qué regiones metiladas diferencialmente (DMR) del ejemplo 1 eran más indicativas de cáncer colorrectal y/o adenoma avanzado y podrían usarse para el desarrollo posterior del panel. El trabajo realizado en este ejemplo evaluó aproximadamente 2000 DMR que se encontró que eran más indicativas de cáncer colorrectal. Se emplearon las regiones diana iniciales y un modelo de predicción en el conjunto de muestras de aproximadamente 2000 DMR en un ajuste de verificación de entrenamiento. Los resultados obtenidos del conjunto de muestras más grande sirvieron como base para la definición adicional de la canalización de QC y la optimización de los métodos de detección de señales de cáncer descritos en el presente documento.

Métodos

La figura 5 es un diagrama de flujo de un método de captura híbrida (500) como se realiza en el presente documento. Las etapas del método de captura híbrida (500) se describen adicionalmente en el presente documento. En la etapa (505), se extrajo ADNlc del plasma. Se requirieron aproximadamente 10-20 ng de ADN para el procesamiento. A continuación, se añadió un control de adición conocida (510) a la muestra de ADNlc. El control de adición conocida se usó para monitorizar las tasas de conversión de citosinas metiladas y/o citosinas no metiladas en uracilos en etapas de control de calidad posteriores. La muestra de ADN se sometió entonces a conversión (por ejemplo, conversión con bisulfito o enzimática) (515). La etapa de ligación de adaptasa (520) fue una reacción que realizó simultáneamente la adición de la cola de reparación de extremo y la ligación de un primer adaptador al extremo 3' de fragmentos de ADN (por ejemplo, fragmentos de ADNlc). Una etapa de extensión (525) generó una molécula de biblioteca complementaria libre de uracilo. Una etapa de ligación de adaptadores (530) añadió un segundo adaptador a la molécula de biblioteca recién generada. A continuación, se evaluó un número óptimo de ciclos para la amplificación de bibliotecas usando qPCR (535). A continuación se realizó una PCR de indexación (540) para aumentar el rendimiento e incorporar adaptadores de longitud completa para la indexación individual o doble (545) de los fragmentos de la biblioteca. Las sondas de captura de metilación y/o mutación se hibridaron a continuación con conjuntos de bibliotecas indexadas (550). Los fragmentos de ADN diana se enriquecieron entonces uniendo las sondas de captura hibridadas y biotiniladas hibridadas a perlas recubiertas con estreptavidina. Después de la captura, las moléculas capturadas se amplificaron después usando PCR (555). Esta etapa de amplificación tras la captura iba acompañada de etapas de purificación y control de calidad. Finalmente, las moléculas capturadas y amplificadas se secuenciaron después usando una técnica NGS para obtener lecturas correspondientes a fragmentos de ADN (560). Se realizaron análisis bioinformáticos posteriores (565) para identificar dianas secuenciadas que estaban metiladas y/o mutadas.

Conjunto de muestras

El estudio se realizó bajo la aprobación del Comité de Ética de Investigación del Hospital Virgen del Rocío de Sevilla, España (ref. de aprobación del Comité Ético: 2014PI/155). Todos los pacientes proporcionaron su consentimiento informado por escrito antes de la recogida de muestras.

Cohortes de pacientes

Se recogieron muestras de sangre en unidades de endoscopia y clínicas de pacientes con riesgo promedio antes de la colonoscopia para cribado o debido a sangre oculta fecal (muestras antes de la colonoscopia). Los números de CCR (cáncer colorrectal) se enriquecieron a través de inclusión prospectiva de pacientes con CCR de unidades oncológicas antes del tratamiento con CCR, y muestras obtenidas de biobancos (muestras después de la colonoscopia). El estadio de los pacientes con cáncer colorrectal se definió según el AJCC Cancer Staging Manual 8a edición.

Se recogieron muestras de sangre antes de la colonoscopia un máximo de 60 días antes de la colonos día de la colonoscopia, pero antes de la administración de cualquier sedante para el procedimiento. Para incluir un paciente, la colonoscopia tenía que alcanzar el ciego y la visibilidad tenía que ser “Buena” o “Excelente” para cada segmento del colorrecto. Los pacientes se asignaron a un grupo de afecciones basándose en los hallazgos de colonoscopia y patología. Los hallazgos de colonoscopia y patología incluyeron hallazgos de cáncer colorrectal (CCR), adenoma avanzado (AA), adenoma no avanzado (NAA), pólipos hiperplásicos o colorrecto sano (por ejemplo, “normal”). Los sujetos que tenían AA se definieron como sujetos que tenían un adenoma igual o mayor de 1 cm, histología tubulovellosa, displasia de alto grado y/o adenoma serrado con displasia, carcinomain situ.

Se recogieron muestras de sangre de pacientes después de la colonoscopia que esperaban tratamiento con CCR al menos 3 días después de la colonoscopia. El tiempo promedio para la recogida fue de 15 días después de la colonoscopia. El tiempo para la recogida osciló entre 3 y 75 días.

Criterios de inclusión del estudio

Los participantes podrían ser mujeres o hombres y se requirió que tuvieran una edad de al menos 45 años.

Criterios de exclusión del estudio

Los criterios de exclusión fueron: (1) diagnóstico previo del cáncer, excepto para pacientes con cáncer colorrectal recién diagnosticado, (2) antecedentes familiares de CCR, (3) antecedentes personales o familiares de predisposición genética al cáncer, (4) diagnóstico previo de enfermedad gastrointestinal benigna, (5) embarazo y (6) para participantes con cáncer colorrectal, terapia actual o previa para el cáncer actual. La terapia actual o previa incluía: manejo quirúrgico más allá del requerido para establecer diagnóstico, quimioterapia, inmunoterapia, terapia hormonal y/o radioterapia.

Protocolo de recogida de muestras de plasma

Se recogieron muestras de plasma usando uno de dos métodos. En el primer método, se recogió plasma usando tubos de EDTA K2. El plasma recogido con estos tipos de tubos se extrajo con centrifugación de doble giro en el plazo de 2 horas de la recogida. En el segundo método, se recogió plasma con tubos Cell-Free DNA BCT® Streck. Después se extrajo el plasma con centrifugación de doble giro en el plazo de 2 días de la recogida. En ambos métodos, el plasma se almacenó a -80 °C hasta que se analizó.

Extracción de ADNlc de muestras de plasma y control de calidad

Se extrajo ADNlc de 4 ml de plasma humano usando un kit QIAamp MinQuick ccfDNA Midi (Qiagen) según las especificaciones del fabricante.

La concentración de ADNlc se midió usando el kit de ensayo HS de ADNbc Qubit® (Thermo Fisher Scientific).

La calidad del ADNlc se evaluó con el kit de fragmentos de NGS DNF-474 en un analizador de fragmentos (Agilent).

Se requiere un mínimo de 10 ng de ADNlc extraído para pasar a la siguiente etapa.

Conversión de ADN con bisulfito y enzimática

Entre 10 ng y 20 ng de ADNlc de cada paciente se trató con bisulfito usando un kit optimizado EZ DNA Methylation-Direct (Zymo). Se usó el kit NEBNext Enzymatic Methyl-seq Conversion Module (NEB) junto con la desnaturalización de formamida en 16 muestras replicadas. Los resultados de las muestras replicadas preparadas con un método enzimático se comparan con muestras convertidas con bisulfito en el ejemplo 3. La desaminación del ADNlc ayuda en la identificación de residuos de citosina metilados y no metilados, particularmente en sitios CpG.

El kit NEB es un método alternativo basado en enzimas para la conversión con bisulfito para la desaminación del ADNlc. En el método enzimático, TET2 oxida citosinas metiladas (tanto 5-metilcitosina (5-mC) como 5-hidroximetilcitosina (5-hmC)). Después de la oxidación, se usó APOBEC (enzima de edición de ARNm de apolipoproteína B, similar a polipéptido catalítico) para tratar el ADN. Las citosinas no modificadas (por ejemplo, citosinas no metiladas no afectadas por la oxidación de TET2), se desaminan a uracilos.

En el método enzimático, se añadieron 10 ml de tampón de reacción TET2, 1 ml de DTT (ditiotreitol), 1 ml de suplemento de oxidación y 1 ml de TET2 a 28 ml de ADN. Se añadieron 5 ml de solución diluida de Fe(II) y se incubaron durante 1 h a 37 °C. Después se detuvo la oxidación del ADN. A continuación, se limpió el ADN oxidado. Se añadieron 4 ml de formamida a 16 ml de ADN oxidado para la desnaturalización. Después se añadió lo siguiente a 20 ml de ADN desnaturalizado: 68 ml de agua, 10 ml de tampón de reacción de APOBEC, 1 ml de BSA y 1 ml de APOBEC. La solución se incubó luego a 37 °C durante 3 horas.

Se usó una versión optimizada del protocolo del kit EZ DNA Methylation-Direct (Zymo) como se presenta a continuación. La versión optimizada del protocolo contiene diversos controles de calidad y parámetros experimentales que son importantes para mantener la integridad del ADNlc secuenciado y/o identificar si hay errores presentes en los procesos.

Se añadieron secuencias de control de adición conocida no metiladas y metiladas artificialmente (kit Premium RRBS [Diagenode]) a todas las muestras de ADNlc antes de la conversión del ADNlc. Las secuencias de control de adición conocida se añadieron usando una razón 1:10000 (en volumen) de control de adición conocida a ADNlc.

En la versión optimizada del protocolo presentado a continuación, la razón del reactivo de conversión de CT con respecto a la muestra es menor que una razón estándar. Por ejemplo, en un protocolo estándar, pueden usarse 20 ml de muestra y 130 ml de reactivo de conversión de CT. En el protocolo presentado a continuación, se usaron 117 ml de reactivo de conversión de CT para 33 ml de muestra. La cantidad aumentada de muestra representó bajas cantidades de material de partida. Además, puede hacerse un aumento de la cantidad de muestra y/o una disminución de la cantidad de reactivo de bisulfito para compensar la naturaleza agresiva del reactivo de bisulfito, que puede fragmentar aún más el ADN.

Adicionalmente, se cambiaron las temperaturas de los ciclos de desnaturalización y conversión y el número de ciclos de desnaturalización-conversión. En un protocolo estándar, se ejecuta un ciclo de desnaturalización-conversión una sola vez. Además, bajo protocolos estándar, la desnaturalización se realiza a 98 °C durante 8 minutos, mientras que la conversión se realiza a 64 °C durante 3,5 horas.

El reactivo de conversión de CT era un reactivo que contenía metabisulfito de sodio. El reactivo se usó en la conversión con bisulfito del ADNlc. Tal como proporciona el fabricante, cada tubo de reactivo de conversión de CT se diseñó para 10 tratamientos de ADN separados.

El reactivo de conversión de CT se preparó como sigue:

1. Se añadieron 790 ml de tampón de solubilización M y 300 ml de tampón de dilución M a un tubo de reactivo de conversión de CT.

2. La solución se mezcló a temperatura ambiente con agitación o agitación con vórtex frecuente durante 10 minutos (mantener en la oscuridad).

3. Se añadieron a la solución 160 ml de tampón de reacción M y se mezclaron durante 1 minuto adicional. Nota: Era normal observar cantidades traza de reactivo no disuelto en el reactivo de conversión de CT. El reactivo de conversión de CT era sensible a la luz, se minimizó su exposición a la luz.

- Se añadieron 117 ml de reactivo de conversión de CT a 33 ml de muestra. La solución se pipeteó arriba y abajo aproximadamente 5 veces.

- La muestra se mezcló por inversión y luego se centrifugó brevemente para garantizar que no hubiera gotitas en la tapa o los lados del tubo.

- Las muestras se colocaron en el termociclador y se ejecutaron usando el siguiente protocolo:

- Si las muestras no estaban listas, el tampón de lavado M añadiendo 24 ml de etanol al 100 % a los 6 ml de concentrado de tampón de lavado M (D5020) o 96 ml de etanol al 100 % a los 24 ml de concentrado de tampón de lavado M (D5021).

- Se añadieron 600 ml de tampón de unión M a una columna Zymo-Spin™ IC y la columna se colocó en un tubo de recogida proporcionado.

- La muestra se cargó en la columna Zymo-Spin™ IC que contenía el tampón de unión M. Se cerró la tapa y la muestra se mezcló invirtiendo la columna varias veces.

- La columna se centrifugó a velocidad máxima (13000 g) durante 1 minuto. La fracción no retenida se desechó. - Se añadieron 100 ml de tampón de lavado M a la columna. La columna se centrifugó a velocidad máxima (13000 g) durante 1 minuto.

- Se añadieron 200 ml de tampón de desulfonación M a la columna y se incubaron a temperatura ambiente (20-30 °C) durante exactamente 30 minutos. Después de este período de incubación, la columna se centrifugó a velocidad completa (13000 g) durante 1 minuto.

- Se añadieron 200 ml de tampón de lavado M a la columna. La columna se centrifugó a velocidad máxima (13000 g) durante 1 minuto. La fracción no retenida se desechó.

- Se añadieron otros 200 ml de tampón de lavado M a la columna y la columna se centrifugó a una velocidad mayor (15000 g) durante 1,5 min.

- La columna se colocó en un tubo de microcentrífuga de 1,5 ml. Se añadieron 17 ml de tampón de elución M directamente a la matriz de la columna y se incubaron durante 2 minutos. La columna se centrifugó durante 1,5 min a velocidad completa (20000 g) para eluir el ADN.

- Se realizó una segunda elución transfiriendo el eluato a la membrana de la columna y esperando durante 2 minutos. La columna se centrifugó durante 1,5 min a velocidad completa (20000 g) para eluir el ADN.

- Se transfirieron 15 ml de cada muestra de ADNlc con bisulfito a tubos de 8 tiras con tapa libre de ARNasa/ADNasa y se congelaron a -20 °C para la preparación posterior de la biblioteca. La calidad del ADNlc convertido se evaluó usando el kit RNA 6000 Pico (Agilent) en un instrumento Fragment Analyzer™ (Agilent).

Preparación de la biblioteca

Se usó ADNlc convertido como entrada para la preparación de la biblioteca de NGS (secuenciación de última generación). Se usó el kit Accel-NGS® Methyl-Seq DNA (Swift Bioscience) para preparar una biblioteca usando el ADNlc convertido. La figura 6 muestra una serie de etapas implicadas en la adición de secuencias adaptadoras a fragmentos de ADN (600). Los fragmentos de ADN monocatenario convertido con bisulfito se sometieron en primer lugar a una etapa de ligación de adaptasa (610). La etapa de ligación de adaptasa es una reacción altamente eficiente, independiente del molde, que simultáneamente realiza la adición de cola de reparación de extremos y la ligación de un primer adaptador (adaptador truncado 1) al extremo 3' del fragmento de ADN. A continuación, se realizó una etapa de extensión (620) para generar una molécula de biblioteca complementaria, libre de uracilo. Después de la extensión, la ligación (630) añadió un segundo adaptador (adaptador truncado 2) a la molécula de biblioteca recién generada. A continuación, se realizó una PCR de indexación (640) para aumentar el rendimiento e incorporar adaptadores de longitud completa para la indexación individual o doble de los fragmentos de la biblioteca. Se usaron etapas de limpieza basadas en perlas para eliminar tanto oligonucleótidos como fragmentos pequeños.

La amplificación óptima de la biblioteca se evaluó mediante qPCR usando KAPA SYBR® FAST (Sigma-Aldrich) en el sistema LightCycler® 96 (Roche). Se usó qPCR para medir una concentración total de una biblioteca preparada, tal como se describe en el presente documento. La cantidad mínima de material de biblioteca requerida fue de aproximadamente 200 ng. qPCR determina el número óptimo de ciclos de PCR que pueden ser necesario realizar con el fin de obtener la cantidad mínima de material de biblioteca. Las bibliotecas de ADN generadas se purificaron primero en el sistema automatizado compacto IP-Star® (n.° de cat. de Diagenode B03000002) usando Agencourt® AMPure® XP (Beckman Coulter), luego se cuantificaron usando el kit de ensayo HS de ADNbc Qubit™ (Thermo Fisher Scientific) y finalmente su tamaño se evaluó con el kit de análisis de fragmentos de NGS de alta sensibilidad (DNF-474) en un instrumento Fragment Analyzer™ (Agilent).

Captura híbrida

Se diseñaron sondas de ADN biotiniladas de 120 pb para el enriquecimiento dirigido (por ejemplo, selectivo) de ADN convertido con bisulfito o enzimáticamente. Se diseñaron sondas de 120 pb para dirigirse a fragmentos hipermetilados (CpG metiladas al 100 %) o fragmentos hipometilados (CpG no metiladas al 100 %) de regiones predeterminadas (por ejemplo, marcadores de metilación, marcadores de mutación). Las sondas se diseñaron de manera que hubiera al menos una sonda por hebra y una sonda por estado de metilación. Es decir, había dos sondas que se dirigían a la cadena codificante y dos sondas que se dirigían a la cadena no codificante. Una de las dos sondas en cada par se dirigió a un fragmento metilado, mientras que la otra sonda se dirigió a un fragmento no metilado. Para capturar regiones parcialmente metiladas, se usa un recuento de apareamientos erróneos de 8 para la sonda y la región diana (por ejemplo, hasta aproximadamente 8 bases pueden estar apareadas erróneamente (por ejemplo, formando apareamientos de bases distintos de Watson-Crick) entre un fragmento de ADN que pertenece a una región diana y una sonda de captura).

En este experimento, se diseñaron sondas para dianas de metilación usando una densidad de embaldosado 1x. Las sondas para dianas de mutación se diseñaron usando densidad de embaldosado 3x, estando cubierta cada base en la diana por al menos 3 sondas diferentes (por ejemplo, donde hay un solapamiento sustancial entre las sondas). Las sondas de mutación se diseñaron usando un embaldosado 3x para garantizar una mayor eficiencia de captura para regiones de bajo contenido de CG (por ejemplo, regiones que tienen de aproximadamente el 30 % a aproximadamente el 40 % de contenido de GC) que de lo contrario estarían subrepresentadas. La densidad de embaldosado se refiere a la cobertura de la región diana por sondas. Por ejemplo, sondas diseñadas que tienen una densidad de embaldosado 1x cubrirían cada base de la región diana al menos una vez. Las sondas con densidad de embaldosado 3x cubrirían la región diana al menos 3x.

Un algoritmo personalizado alineó las sondas candidatas con el genoma y puntuó el posible número de eventos de mapeo en y fuera de la diana. Las sondas con >250 regiones genómicas que se mapean globalmente en regiones fuera de la diana se omitieron del diseño del panel final. Se sintetizaron sondas biotiniladas y se combinaron en un panel de metilación dirigido final. El mapeo fuera de la diana también se realizó después del diseño del ensayo inicial y las pruebas. Se omitieron las dianas si causaban más del 1 % de captura fuera de la diana en un panel real. Se combinaron bibliotecas purificadas (aproximadamente 187,5 ng cada una) juntas en 8-plex, se secaron usando un concentrador plus (Eppendorf) y se capturaron usando un protocolo de enriquecimiento de dianas de hibridación rápida por Twist® y sondas de panel personalizadas como se describe en el presente documento, que se diseñaron para capturar dianas de metilación y mutación de interés. Los fragmentos unidos a sondas biotiniladas se capturaron usando perlas recubiertas con estreptavidina.

Los fragmentos capturados de las bibliotecas purificadas se reamplificaron usando amplificación por PCR durante 11 ciclos siguiendo el protocolo del fabricante. Las bibliotecas amplificadas se purificaron luego con perlas Twist.

A continuación, se presenta un método a modo de ejemplo que describe el protocolo de enriquecimiento de dianas de hibridación rápida por Twist. Cabe destacar que mantener una temperatura de 70 °C del tampón de lavado rápido 1 durante las etapas (por ejemplo, las etapas 23-28) fue importante para las regiones ricas en GC. Las diferencias en las temperaturas en estas etapas conducen a tasas de pérdida de GC superiores a las esperadas (por ejemplo, una tasa de pérdida de GC mayor del 6 %). Por ejemplo, cuando se usó el tampón de lavado rápido 1 a 65 °C, las tasas de pérdida de GC fueron de aproximadamente el 30 %, que fue sorprendentemente alto. Por consiguiente, fueron importantes minimizar el tiempo de pipeteo y mantener la temperatura de las mezclas de tampón de lavado rápido 1 y tampón de lavado rápido de muestra 1.

Protocolo de enriquecimiento de dianas de hibridación rápida por Twist

Antes de empezar

Todos los reactivos requeridos se descongelaron en hielo, después se sometieron a agitación con vórtex por pulsos durante 2 segundos para mezclar y centrifugar por pulsos.

En la preparación para la hibridación de sondas de captura con conjuntos de bibliotecas, los conjuntos de bibliotecas también se descongelaron en hielo:

A partir de los reactivos de hibridación rápida por Twist:

Mezcla de hibridación rápida

Potenciador de hibridación

1. La concentración de cada biblioteca amplificada e indexada se usó para calcular el volumen (en ml) de cada biblioteca necesario para la hibridación. Los volúmenes calculados de cada biblioteca indexada amplificada se transfirieron a un tubo de reacción de hibridación (por ejemplo, un tubo de tira de PCR de pared fina de 0,2 ml, una placa de 96 pocillos) para cada reacción de hibridación que iba a realizarse.

PREPARACIÓN DE LA DISOLUCIÓN DE PREHIBRIDACIÓN

2. Se añadieron los siguientes volúmenes de reactivos a cada biblioteca indexada amplificada para crear una disolución de prehibridación tal como se muestra en la tabla 1 a continuación. La disolución se mezcló sacudiendo los tubos.

Tabla 1. Volúmenes de reactivos para la disolución de prehibridación

3. Los tubos se centrifugaron por pulsos y se garantizó que había un número mínimo de burbujas presentes en la disolución.

4. La solución de prehibridación (que incluía biblioteca, sondas, bloqueantes) se secó en los tubos usados para la reacción de hibridación usando un sistema SpeedVac (o un dispositivo evaporador similar) usando poco o nada de calor.

IMPORTANTE: Las etapas 12 a 18 (a continuación) se realizaron simultáneamente con el secado de la disolución de prehibridación y para las hibridaciones en menos de 30 minutos.

Se usaron las bibliotecas alicuotadas y la disolución de reacción de hibridación de la etapa 1, así como la mezcla de hibridación rápida descongelada y el potenciador de hibridación.

IMPORTANTE: Antes de proceder con esta etapa, se sometió a prueba la compatibilidad del termociclador y los tubos o placas de PCR incubándolos a 95 °C durante hasta 5 minutos para garantizar que no se agrietaban bajo calor y presión. Se ajustó la estanqueidad de la tapa del termociclador y/o se usó un espaciador específico para el modelo del termociclador.

Reactivos requeridos

• Reacción de hibridación seca (de la etapa 4)

• Reactivos descongelados:

• Mezcla de hibridación rápida

• Potenciador de hibridación

Antes de empezar

Se programó un termociclador de 96 pocillos con las siguientes condiciones en la tabla 2 y la tapa calentada se ajustó a 85 °C:

Tabla 2. Etapas del programa del termociclador.

RESUSPENSIÓN DE LA DISOLUCIÓN DE PREHIBRIDACIÓN

5. La mezcla de hibridación rápida se calentó hasta 65 °C durante 10 minutos, o hasta que se disolvió todo el precipitado. La mezcla se agitó con vórtex y se usó inmediatamente. La mezcla de hibridación rápida no se dejó enfriar hasta temperatura ambiente.

6. La solución de prehibridación seca de la etapa 4 se resuspendió en 20 ml de mezcla de hibridación rápida.

Se presentan algunas notas a considerar cuando se sigue este proceso tal como sigue. Si esta disolución resuspendida requería transferencia a un recipiente secundario para la hibridación, la disolución resuspendida se mezcló sacudiendo y se añadieron 5 minutos adicionales a la incubación para resuspensión. La mezcla de hibridación rápida es viscosa. La mezcla se pipeteó lentamente para garantizar la precisión. Las partículas blancas pequeñas presentes en las sondas de captura no afectaron al producto de captura final.

7. Los tubos se centrifugaron por pulsos y se garantizó que no hubiera burbujas presentes.

8. Se añadieron 30 ml de potenciador de hibridación a la parte superior de la disolución de prehibridación.

9. Los tubos se centrifugaron por pulsos para garantizar que toda la disolución estaba en el fondo de los tubos. NOTA: Potenciador de hibridación depositado encima de la reacción de hibridación después de la centrifugación por pulsos. Esto no afectó al producto de captura final.

Los tubos se transfirieron al termociclador precalentado. El programa se movió entonces a las etapas 2 y 3 del programa del termociclador.

IMPORTANTE: Los tubos se sellaron herméticamente para evitar la evaporación durante el período de tiempo de incubación.

UNIÓN DE DIANAS HIBRIDADAS A PERLAS DE ESTREPT AVI DINA

Reactivos requeridos

• Reacciones de hibridación preparadas como anteriormente.

• A partir de los tampones de lavado rápido por Twist:

Tampón de unión rápida

Tampón de lavado rápido 1

Lavar el tampón 2

• A partir de perlas de unión y purificación por Twist

Perlas de unión de estreptavidina

Antes de empezar

Se inspeccionó el precipitado de los siguientes reactivos. Si se observaba un precipitado, el reactivo se calentó a 48 °C hasta que el precipitado se disolvió:

Tampón de unión rápida

Tampón de lavado rápido 1

Lavar el tampón 2

Para cada reacción de hibridación:

Precalentar 450 ml de tampón de lavado rápido 1 hasta 70 °C

Precalentar 700 ml de tampón de lavado 2 hasta 48 °C

Las perlas de unión de estreptavidina se equilibraron a temperatura ambiente durante al menos 30 minutos.

Era importante mantener la temperatura del tampón de lavado rápido 1 a 70 °C. Por consiguiente, se minimizó el tiempo de pipeteo. Adicionalmente, el tampón de lavado rápido 1 permaneció en un bloque de calentamiento durante todo el tiempo de pipeteo.

En la preparación para las etapas de amplificación por PCR tras la captura, purificación y realización de QC:

Las perlas de purificación de ADN (de las perlas de unión y purificación por Twist) se equilibraron a temperatura ambiente durante al menos 30 minutos

Se descongeló KAPA HiFi HotStart ReadyMix en hielo

Se descongelaron cebadores de amplificación (del kit de lavado e hibridación rápida Twist) en hielo

Una vez que estos reactivos se descongelaron, los reactivos se sometieron a agitación con vórtex por pulsos durante 2 segundos para mezclar.

PREPARACIÓN DE LAS PERLAS

12. Las perlas de unión de estreptavidina preequilibradas se agitaron con vórtex hasta que se mezclaron.

13. Se añadieron 100 ml de perlas de unión de estreptavidina a un tubo de microcentrífuga de 1,5 ml. Se preparó un tubo para cada reacción de hibridación.

14. Se añadieron 200 ml de tampón de unión rápida a cada uno de los tubos y se mezclaron pipeteando.

15. Los tubos se colocaron en un soporte magnético durante 1 minuto, después se retiraron. El sobrenadante transparente se desechó. El sedimento de perlas no se alteró. El tubo se retiró del soporte magnético.

16. Se repitieron las etapas de lavado (etapas 14 y 15) dos veces más durante un total de tres lavados.

17. Después de retirar el sobrenadante transparente del tercer lavado, se añadieron 200 ml finales de tampón de unión rápida. Las perlas se resuspendieron mediante agitación con vórtex hasta que se homogeneizaron.

18. Después de que se completara la hibridación, se abrió la tapa del termociclador y el volumen de cada reacción de hibridación se transfirió rápidamente (incluyendo potenciador de hibridación) a un tubo correspondiente de perlas de unión de estreptavidina lavadas de la etapa 18. La solución se mezcló pipeteando y sacudiendo.

NOTA: La transferencia rápida directamente desde el termociclador a 60 °C era una etapa crítica para minimizar la unión fuera de la diana. Los tubos de reacción de hibridación no se retiraron del termociclador ni se dejaron enfriar de otro modo hasta menos de 60 °C antes de transferir la disolución a las perlas de unión de estreptavidina lavadas.UNIÓN DE LAS DIANAS

19. Los tubos de la reacción de hibridación se mezclaron con las perlas de unión de estreptavidina durante 30 minutos a temperatura ambiente en un agitador, balancín o rotador a una velocidad suficiente para mantener la disolución mezclada.

NOTA: Las soluciones no se agitaron con vórtex. No se requirió un mezclado agresivo.

20. Los tubos que contenían la reacción de hibridación con perlas de unión de estreptavidina se retiraron del mezclador y se centrifugaron por pulsos para garantizar que toda la disolución estaba en el fondo de los tubos.

21. Los tubos se colocaron en un soporte magnético durante 1 minuto.

22. El sobrenadante transparente que incluía el potenciador de hibridación se retiró y se desechó. El sedimento de perlas no se alteró.

NOTA: Una cantidad traza de potenciador de hibridación fue visible después de la retirada del sobrenadante y a lo largo de cada etapa de lavado en determinadas muestras. No afectó al producto de captura final.

23. Los tubos se retiraron del soporte magnético y se añadieron 200 ml de tampón de lavado rápido 1 precalentado. La disolución se mezcló pipeteando.

24. Los tubos se incubaron durante 5 minutos a 70 °C.

25. Los tubos se colocaron en un soporte magnético durante 1 minuto.

26. El sobrenadante transparente se retiró y se desechó. El sedimento de perlas no se alteró.

27. Los tubos se retiraron del soporte magnético y se añadieron 200 ml adicionales de tampón de lavado rápido 1 precalentado. Las disoluciones se mezclaron pipeteando.

28. Los tubos se incubaron durante 5 minutos a 70 °C.

29. Todo el volumen de la etapa 28 (~200 ml) se transfirió a un nuevo tubo de microcentrífuga de 1,5 ml, con uno por reacción de hibridación. Los tubos se colocaron en un soporte magnético durante 1 minuto.

Nota: Se necesitó una transferencia de tubo en esta etapa ya que redujo el fondo debido a la biblioteca no dirigida que puede pegarse a la superficie del tubo.

30. El sobrenadante transparente se retiró y se desechó. El sedimento de perlas no se alteró.

31. Los tubos se retiraron del soporte magnético y se añadieron 200 ml de tampón de lavado 2 a 48 °C a cada uno. La disolución se mezcló pipeteando y después se centrifugó por pulsos para garantizar que toda la disolución estaba en el fondo de los tubos.

32. Los tubos se incubaron durante 5 minutos a 48 °C.

33. Los tubos se colocaron en un soporte magnético durante 1 minuto.

34. El sobrenadante transparente se retiró y se desechó. El sedimento de perlas no se alteró.

35. Se realizó el lavado (etapas 31 -34) dos veces más, para un total de tres lavados.

36. Después del lavado final, se usó una pipeta de 10 ml para eliminar todas las trazas de sobrenadante. Se siguió inmediatamente la siguiente etapa. Las perlas no se dejaron secar.

37. Los tubos se retiraron del soporte magnético y se añadieron 45 ml de agua. La disolución se mezcló pipeteando hasta homogeneizarla. La disolución, denominada a continuación en el presente documento suspensión de perlas de unión de estreptavidina, se incubó en hielo.

AMPLIFICACIÓN POR PCR TRAS LA CAPTURA, PURIFICACIÓN Y REALIZACIÓN DE QC

Reactivos requeridos

Suspensión de perlas de unión de estreptavidina (de la etapa 38)

Etanol

Agua de calidad de biología molecular

Reactivos descongelados y equilibrados:

Perlas de purificación de ADN

KAPA HiFi HotStart ReadyMix (o equivalente)

Cebadores de amplificación

Kit de ADN de alta sensibilidad de bioanalizador Agilent (o equivalente)

Ensayo de cuantificación de alta sensibilidad de ADNbc Qubit de Thermo Fisher Scientific.

Antes de empezar

Se prepararon 500 ml de etanol al 80 % para cada suspensión de perlas de unión de estreptavidina que iba a procesarse.

PREPARACIÓN DE LAS PERLAS, TERMOCICLADOR Y MEZCLA DE PCR

38. Se programó un termociclador con las siguientes condiciones como se presenta en la tabla 3 a continuación. La tapa calentada se ajustó a 105 °C. Tal como se indicó anteriormente, la amplificación por PCR se realizó durante 11 ciclos según el programa a continuación. Sin embargo, para determinadas muestras, se realizaron más o menos ciclos basándose en los resultados de los resultados de una evaluación de qPCR realizada como se comentó anteriormente. Tabla 3. Condiciones del termociclador para la PCR.

39. Si la suspensión de perlas de unión de estreptavidina se sedimentaba, se mezcló pipeteando.

40. Se transfirieron 22,5 ml de la suspensión de perlas de unión de estreptavidina a tubo(s) de tiras de PCR de pared fina de 0,2 ml.

41. La disolución se mantuvo en hielo hasta que estuvo lista para su uso en la siguiente etapa.

NOTA: La suspensión restante de 22,5 ml de agua/perlas de unión de estreptavidina se almacenó a -20 °C para su uso futuro.

Se preparó una mezcla de PCR añadiendo los siguientes reactivos a los tubos que contenían la suspensión de perlas de unión de estreptavidina. La disolución se mezcló pipeteando.

AMPLIFICACIÓN POR PCR

42. Los tubos se centrifugaron por pulsos y se transfirieron al termociclador. A continuación se inició el programa de ciclado.

43. Cuando se completó el programa del termociclador, los tubos se retiraron del bloque y le siguieron etapas de purificación.

44. Las perlas de purificación de ADN se agitaron con vórtex para mezclar.

45. Se añadieron 90 ml (1 ,8X) de perlas de purificación de ADN homogeneizadas a cada uno de los tubos de la etapa 44. La disolución se mezcló bien mediante agitación con vórtex.

NOTA: No fue necesario recuperar el sobrenadante o eliminar las perlas de unión de estreptavidina del producto de PCR amplificado.

46. La disolución se incubó durante 5 minutos a temperatura ambiente.

47. Los tubos se colocaron en una placa magnética durante 1 minuto.

48. Sin retirar los tubos de la placa magnética, se retiró el sobrenadante transparente y se desechó.

49. El sedimento de perlas de purificación de ADN se lavó con 200 ml de etanol al 80 % recién preparado durante 1 minuto, después se retiró. El etanol se desechó. Este lavado se repitió una vez, durante un total de dos lavados, mientras el tubo se mantenía en la placa magnética.

50. Usando una pipeta de 10 ml, se eliminó todo el etanol residual. El sedimento de perlas no se alteró.

51. El sedimento de perlas se secó al aire en una placa magnética durante 5-10 minutos o hasta que el sedimento de perlas se secó. Se tuvo cuidado de no secar excesivamente el sedimento de perlas.

52. Se retiraron los tubos de la placa magnética y se añadieron 32 ml de agua. La disolución se mezcló pipeteando hasta que se homogeneizó y se incubó a temperatura ambiente durante 2 minutos.

53. Los tubos se colocaron en una placa magnética y se dejaron reposar durante 3 minutos o hasta que las perlas se sedimentaron completamente.

54. Se transfirieron 30 ml del sobrenadante transparente que contenía la biblioteca enriquecida a un tubo de tiras de 0,2 ml de PCR de pared fina limpio, asegurándose de que no alteraba el sedimento de perlas.

55. Cada biblioteca enriquecida se validó y cuantificó usando un kit de ADN de alta sensibilidad de bioanalizador Agilent y un ensayo de cuantificación de alta sensibilidad de ADNbc Qubit de Thermo Fisher Scientific.

NOTA: Cuando se usa el kit de ADN de alta sensibilidad de bioanalizador Agilent, se cargaron 0,5 ml de la muestra final.

56. La longitud de fragmento promedio fue de aproximadamente 375-425 pb usando un ajuste de intervalo de 150 1.000 pb. La concentración final para las muestras fue mayor o igual a 15 ng/ml, pero esto dependía del tamaño de la reacción de hibridación, el tiempo de hibridación y el número de ciclos de PCR usados.

Las agrupaciones de bibliotecas capturadas se combinaron después para secuenciarse en Illumina NovaSeq SP PE150 (1 carril cada 96 muestras).

Flujo de trabajo bioinformático

Análisis de los datos de secuenciación

El flujo de trabajo bioinformático incluyó la preparación del genoma según regiones de interés predeterminadas. La alineación se realizó para regiones de interés predeterminadas y se descartan las secuencias que no están dentro de estas regiones. Un flujo de trabajo bioinformático (700) usado en el presente documento se muestra en la figura 7. Los archivos FASTQ sin procesar (701) se recortaron (702) para eliminar los extremos adaptadores y se combinaron usando una herramienta de alineación (por ejemplo, BISMARK) (703) con el genoma preparado (704). Los archivos FASTQ son archivos de texto que contienen datos de secuencia de agrupaciones que pasan el filtro en una celda de flujo. A continuación, se marcaron y retiraron duplicados ópticos (705). Para las ejecuciones de extremos emparejados, se generaron lecturas directa e inversa para cada hebra y se combinaronin silicopara producir una lectura de secuencia que correspondía a una sola hebra de un fragmento bicatenario (706). Los archivos alineados se clasificaron (707, 708), se marcaron para duplicados y se pusieron en archivos .bam diana de interés (707) o archivos .bam de control de adición conocida (SI) (708). Los archivos .bam se desduplicaron adicionalmente y se sometieron a filtrado de calidad y se ejecutaron a través de métricas Picard y flujo de trabajo de resumen de QC.

Los resultados finales del flujo de trabajo bioinformático fueron:

Archivos .bam que incluyen lecturas recortadas, alineadas, desduplicadas y sometidas a filtrado de calidad para las dianas (por ejemplo, marcadores de metilación y/o mutación) de interés;

archivos .bam que incluyen lecturas recortadas, alineadas, desduplicadas y sometidas a filtrado de calidad para las secuencias de control de adición conocida. Se usaron secuencias de control de adición conocida para el control de la calidad de la conversión (por ejemplo, determinación de una tasa de conversión, por ejemplo, eficiencia de conversión); y

archivos .xsl con resúmenes de estadísticas por muestra y por región analizada (usados para control de calidad de muestra y región).

Algoritmo de predicción y deducción de señales de cáncer

Los archivos .bam de las muestras se usaron adicionalmente para asignar valores de metilación de lectura. Se aplicaron umbrales predefinidos basados en lecturas que tienen un número mínimo predeterminado de CpG y un porcentaje mínimo de metilación a cada lectura de secuenciación en una región diana de interés. Cada lectura en cada región diana (por ejemplo, una DMR) recibió una puntuación de 1 o 0 dependiendo de si la lectura pasó un umbral o no. Las puntuaciones se sumaron entonces para encontrar un número total de lecturas de una DMR que pasó la condición umbral. Los valores de metilación de lectura se normalizaron adicionalmente usando un tamaño de biblioteca eficaz de una muestra individual. Los valores resultantes se sometieron a transformación log2 y se usaron como entradas en la construcción, el entrenamiento y la validación del algoritmo de predicción.

Modelo de cáncer colorrectal

Se usó un conjunto de entrenamiento de muestras de cáncer colorrectal y muestras de control negativo de colonoscopia para el filtrado de características inicial usando una validación cruzada de Monte Carlo de 50 veces. En cada iteración, se usó el 50 % de las muestras como muestras de entrenamiento y se usó el 50 % de las muestras como muestras de validación. Se usó selección secuencial hacia atrás (SBS) para la reducción de dimensionalidad para evitar el sobreajuste reduciendo la complejidad del edificio de modelo de predicción adicional con bosque aleatorio. La selección secuencial hacia atrás aprende qué características (por ejemplo, DMR) son más informativas en cada etapa, y luego elige la siguiente característica dependiendo de las características ya seleccionadas. La SBS es un proceso secuencial en el que las características del subconjunto de características completo se eliminaron hasta que el nuevo subespacio de características contenía un conjunto de características con las que un modelo no mejoró. Se seleccionó un conjunto de 203 regiones marcadoras (enumeradas en la figura 2) usando SBS. Se construyó un algoritmo de aprendizaje automático de bosque aleatorio (RF) en un conjunto de entrenamiento y se aplicó a un conjunto de validación independiente que no se usó en la fase de filtrado de características o entrenamiento del algoritmo de predicción. Las predicciones individuales del modelo en el conjunto de validación se compararon después con el estado real del paciente. Luego se calcularon los valores de sensibilidad y especificidad.

Modelo de adenoma avanzado

Se desarrolló un análisis preliminar de marcadores para el potencial de detección de adenoma avanzado de manera similar al modelo de cáncer colorrectal. Usando una lista de regiones preseleccionadas y umbrales de puntuación AMBER definidos en muestras de tejido de cáncer colorrectal, los resultados obtenidos de muestras de adenoma avanzado y de control se evaluaron por separado en un ajuste de validación cruzada. Se usó validación cruzada de Monte Cario de 50 veces en cada iteración como anteriormente. En cada iteración, se usó el 50 % de las muestras como entrenamiento y se usó el 50 % de las muestras para pruebas y validación. Se usó selección secuencial hacia atrás (SBS) para la reducción de dimensionalidad para evitar el sobreajuste reduciendo la complejidad para la construcción de modelos de predicción. Usando SBS, se seleccionó un conjunto de 220 regiones marcadoras (enumeradas en la figura 3). Se construyeron modelos de predicción usando modelos de bosque aleatorio (RF), PLS-DA y máquina de vectores de soporte (SVM). Los resultados de muestras individuales se presentaron como predicciones de consenso para todas las veces en las que se sometió a prueba una muestra particular.

Resultados y filtrado de calidad

Basándose en la evaluación de la calidad del mapeo, el nivel de duplicación, la conversión y la cobertura, se consideraron inválidas 37 muestras para análisis adicionales y se excluyeron. Esto dejó 70 muestras de cáncer colorrectal, 81 muestras de adenoma avanzado, 37 muestras de adenoma no avanzado, 14 muestras de enfermedad gastrointestinal y 142 muestras negativas para colonoscopia para el análisis adicional.

Modelo de cáncer colorrectal

Se usaron valores de metilación de lectura para entrenar un modelo de aprendizaje automático en 68 muestras de ADNct como se presenta en la tabla 4 a continuación. Las muestras analizadas fueron de 18 pacientes con CCR en estadio temprano (I-II) y 16 en estadio tardío (III-IV) y 34 controles sin neoplasia emparejados por edad, IMC, género y país de origen. La mediana de edad de los sujetos era de 63 [50-74], el IMC medio era de 27 [19,5-37], el 50 % de los sujetos eran mujeres, el 50 % de los CRC eran cánceres distales. Los sujetos eran de Ucrania o España.

Tabla 4. Datos demográficos de los sujetos de entrenamiento

C o n tro le s C R C

Este modelo se aplicó después a un conjunto de validación independiente de sujetos como se presenta en la tabla 5 a continuación. Los sujetos procedían de España, Ucrania y Alemania. Los sujetos incluyeron 36 pacientes con cáncer en estadio I-IV (mediana de edad 61,5 [55-82], IMC 28 [16-39], mujeres 47 %, el 42 % de los tumores eran distales) y 159 controles emparejados por edad y sexo. 87 de los sujetos de control tenían un hallazgo de colonoscopia negativo (cNEG), 19 tenían pólipos hiperplásicos (HP), 37 tenían adenomas pequeños no avanzados (NAA) y a 16 se les diagnosticó otras enfermedades gastrointestinales benignas (GID).

Tabla 5. Datos demográficos de los sujetos de validación.

ControlesHP NAA G ID CRC

Característicasfn _ Q "7\(n= 19}f n = 371 / p _ -j£2 \</ n __o £“ \>

Edad (años,

media IQR)) 63 (46 -79 )62 (50-71)61 (45 -78 ) 58 (50 -78 ) 62 (55 -82 )

Género (n (% ) )

Femenino 48 (55% ) 6 (32% ) 20 (54% ) 9 (56% ) 17 (47% )

Masculino 39 (45% ) 13 (68% ) 17 (46% ) 7 (44% ) 19 (53% )

índice de masa

corporal (kg/m2,

media IQR))27 (20 -41.5 ) 28 (22 -41 ) 29 (20 -43 ) 27 (20 -39 )29 (16-39)

Estadio

Estadio I 6

Estadio II 13

Estadio III12Desconocido 3

Ubicación del cáncer

Colon proximal21

Colon distal 15

Usando un panel de 203 marcadores como se presenta en la figura 2, el modelo clasificó correctamente el 92 % (33/36) de los pacientes con CCR en el grupo de sujetos de validación. La figura 8 es una curva ROC que muestra el rendimiento del panel de CRC de 203 marcadores en el conjunto de validación.

La figura 9 muestra los valores de sensibilidad a CRC por estadio de CRC, especificidades globales, sensibilidad en el conjunto de validación. La sensibilidad por estadio de CRC osciló entre el 83 % (5/6) para CRC en estadio I, el 92 % (11/12) para CRC en estadio II, el 92 % (12/13) para CRC en estadio III hasta el 100 % (5/5) para CRC en estadio IV. La especificidad del modelo fue del 97 % (154/159), con el 100 % (37/37) de pacientes con NAA, el 94 % (15/16) con GID, el 95 % (18/19) con HP y el 97 % con cNEG identificados correctamente como que no tenían CRC. La ubicación de la lesión, el género, el IMC, la edad y el país de origen no se correlacionaron significativamente con el resultado de la predicción.

Las figuras 10A y 10B son gráficos de cajas de valores de puntuación AMBER en cada muestra en el conjunto de validación para dos DMR individuales. Tal como puede observarse a partir de los gráficos de cajas, las dos DMR individuales tienen una fuerte capacidad para distinguir CRC de otras afecciones. Las muestras de control (CNT) incluyen todas las muestras de sujetos que no se determinó que tenían CRC (por ejemplo, cNEG, HP, NAA, GID).

Se realizó un análisis adicional sobre las 203 DMR (figura 2) usando análisis de la ruta KEGG. El análisis de la ruta KEGG identifica rutas clave implicadas en procesos metabólicos celulares. Los resultados del análisis se presentan a continuación en la tabla 6. Se identificó que las principales rutas identificadas como que contribuyen al panel de DMR estaban vinculadas con el cáncer, así como con la ruta de señalización que regula la pluripotencia celular, que se ve comúnmente afectada por el cáncer.

Tabla 6. Resultados del análisis de la ruta KEGG.

El análisis de subconjuntos de 203 DMR mostró que subconjuntos de DMR se comportaron sorprendentemente bien en la distinción entre muestras de CRC y de control en el conjunto de validación. Se encontró que las combinaciones de 2, 4, 9 y 24 DMR se comportaron bien en la identificación de sujetos con CCR de sujetos de control. Por ejemplo, un panel de solo dos DMR mostró un AUC del 78 %. Aunque la precisión mejora con el aumento del número de d Mr , estos paneles de DMR más pequeños también pueden ser útiles en la identificación de sujetos que padecen CCR. Los resultados de estos subconjuntos de combinaciones de DMR se presentan a continuación en la tabla 7.

Tabla 7. Estadísticas de paneles de DMR de CRC.

Las tablas 8, 9, 10 y 11 (presentadas a continuación) corresponden a las combinaciones de 2, 4, 9 y 24 DMR, respectivamente, indicadas en la Tabla 7. Las DMR enumeradas en las Tablas 8, 9, 10 y 11 también se encuentran en el panel de 203 DMR mostrado en la figura 2. Aunque el panel de DMR de mejor rendimiento fue el panel de 203 DMR (figura 2), paneles más pequeños también demostraron ser sorprendentemente útiles. Por ejemplo, el panel de dos marcadores tiene valores de AUC, precisión y kappa sorprendentemente altos en comparación con los paneles de 4, 9 y 24 DMR.

Tabla 8. Panel de 2 DMR para CRC.

Tabla 9. Panel de 4 DMR para CRC.

Tabla 10. Panel de 9 DMR para CRC.

Tabla 11. Panel de 24 DMR para CRC.

En algunas realizaciones, la presente divulgación incluye combinaciones de DMR en las que cada una de las DMR es, incluye todas, incluye una porción de, o está presente en un gen identificado como asociado con una DMR de la tabla 8 (por ejemplo, tal como se muestra en la figura 2). En algunas realizaciones, la presente divulgación incluye combinaciones de DMR en las que cada una de las DMR es, incluye todas, incluye una porción de, o está presente en un gen identificado como asociado con una DMR de la tabla 9 (por ejemplo, tal como se muestra en la figura 2). En algunas realizaciones, la presente divulgación incluye combinaciones de DMR en las que cada una de las DMR es, incluye todas, incluye una porción de, o está presente en un gen identificado como asociado con una DMR de la tabla 10 (por ejemplo, tal como se muestra en la figura 2). En algunas realizaciones, la presente divulgación incluye combinaciones de DMR en las que cada una de las DMR es, incluye todas, incluye una porción de, o está presente en un gen identificado como asociado con una DMR de la tabla 11 (por ejemplo, tal como se muestra en la figura 2).

Modelo de adenoma avanzado

Los valores de metilación de lectura calculados correspondientes a las DMR individuales se usaron para construir y validar de manera cruzada un modelo de aprendizaje automático en 217 muestras de ADNct de 81 pacientes con adenomas avanzados y 136 controles libres de neoplasia emparejados por edad, IMC, género y país de origen. Las estadísticas con respecto a los sujetos con adenomas avanzados usados en la validación y entrenamiento del modelo se presentan tal como sigue: mediana de edad 63 [46-79], IMC medio 28 [19-48], mujeres 51 %. Los sujetos procedían de poblaciones españolas, ucranianas y alemanas. La distribución de pacientes con diferentes formas de adenomas avanzados puede observarse tal como se enumera a continuación en la tabla 12.

Tabla 12. Datos demográficos de los sujetos de validación y entrenamiento

El método de filtrado de características de SBS se evaluó en combinación con modelos de clasificación de RF, PLS-DA y SVM para identificar las DMR de interés. Un modelo de clasificación de SVM basado en características seleccionadas por SBS (DMR) mostró el mejor rendimiento en un ajuste de validación cruzada.

Los resultados estadísticos con respecto a la sensibilidad del modelo a sujetos diagnosticados con diversas clasificaciones y tipos de adenomas avanzados se presentan en las figuras 11 y 12. El modelo de adenoma avanzado clasificó correctamente el 58 % (47/81) de los pacientes con AA y tenía una especificidad del 90 % (123/136) globalmente. Las estadísticas con respecto al porcentaje de subclases de AA identificadas correctamente usando el modelo se proporcionan como sigue: 40 % (2/5) para aquellos diagnosticados con adenoma avanzado con una lesión serrada <10 mm con displasia, 44 % (8/18) para adenomas con componente velloso, 50 % (8/16) para adenoma tubular de bajo grado >=1 cm, 68 % (17/25) para pacientes con displasia de alto grado, 70 % (7/10) para lesión serrada >=1 cm y 71 % (5/7) para carcinomain situ.Adicionalmente, se proporcionan estadísticas en la figura 12 con respecto a la sensibilidad del modelo para AA encontrado en diversas localizaciones en el colon y el recto. Por ejemplo, la sensibilidad del modelo fue del 52,5 % para AA proximales (AA proximales a la flexión esplénica y localizados en el colon), del 70 % para AA distales (AA distales a la flexión esplénica y localizados en el colon) y del 50 % para AA localizados en el recto.

Las 220 regiones contribuyentes también se analizaron adicionalmente usando un análisis de la ruta KEGG. Los resultados del análisis de la ruta KEGG se presentan a continuación en la tabla 13. Las principales rutas contribuyentes estaban vinculadas con el cáncer, así como con las rutas de señalización, afectadas en el desarrollo del cáncer.

Tabla 13. Resultados del análisis de la ruta KEGG.

El análisis de subconjuntos de 220 DMR (tal como se muestra en la figura 3) mostró que subconjuntos de DMR se comportaron sorprendentemente bien en la distinción entre muestras de AA y de control en el conjunto de validación. Se encontró que las combinaciones de 2, 4, 9 y 24 DMR se comportaron bien en la identificación de sujetos con AA de sujetos de control. Por ejemplo, un panel de solo dos DMR mostró un AUC del 82 %. Aunque la precisión mejora con el aumento del número de DMR, estos paneles de DMR más pequeños también pueden ser útiles en la identificación de sujetos que padecen AA. Los resultados de estos subconjuntos de combinaciones de DMR se presentan a continuación en la tabla 14.

Tabla 14. Estadísticas de paneles de DMR de adenoma avanzado (AA).

Las tablas 15, 16 y 17 (presentadas a continuación) corresponden a las combinaciones de 2, 4 y 10 DMR, respectivamente, indicadas en la tabla 14. Las DMR enumeradas en las tablas 15, 16 y 17 también se encuentran en el panel de 220 DMR mostrado en la figura 3. Aunque el panel de DMR de mejor rendimiento fue el panel de 220 DMR, paneles más pequeños también demostraron ser sorprendentemente útiles. Por ejemplo, el panel de 2 DMR tenía una especificidad sorprendentemente alta en comparación con los paneles de 4 y 10 DMR. Además, el valor de AUC del panel de 2 marcadores demostró que las d Mr del panel de 2 DMR contribuyeron significativamente a la AUC del panel de 220 DMR.

Tabla 15. Panel de 2 DMR para AA.

Tabla 16. Panel de 4 DMR para AA.

Tabla 17. Panel de 10 DMR para AA.

En algunas realizaciones, la presente divulgación incluye combinaciones de DMR en las que cada una de las DMR es, incluye todas, incluye una porción de, o está presente en un gen identificado como asociado con una DMR de la tabla 15 (por ejemplo, tal como se muestra en la figura 2). En algunas realizaciones, la presente divulgación incluye combinaciones de DMR en las que cada una de las DMR es, incluye todas, incluye una porción de, o está presente en un gen identificado como asociado con una DMR de la tabla 16 (por ejemplo, tal como se muestra en la figura 2). En algunas realizaciones, la presente divulgación incluye combinaciones de DMR en las que cada una de las DMR es, incluye todas, incluye una porción de, o está presente en un gen identificado como asociado con una DMR de la tabla 17 (por ejemplo, tal como se muestra en la figura 2).

Ejemplo 3: Conversión con bisulfito frente a conversión enzimática

El propósito de este ejemplo es demostrar la utilidad de la conversión tanto con bisulfito como enzimática en la identificación de sitios de metilación usando ensayos de NGS. En particular, se muestra en el presente documento que ambos métodos son útiles para determinar la presencia de cáncer colorrectal. Además, este ejemplo muestra el efecto de diferentes etapas de procesamiento, tales como la eliminación de duplicados (por ejemplo, duplicados ópticos, duplicados de PCR), sobre la cantidad de datos obtenidos de ensayos de NGS. Se muestra que la desduplicación elimina un número significativo de lecturas de la canalización de análisis bioinformático.

La figura 13 muestra una serie de etapas bioinformáticas (1300) realizadas sobre datos de secuenciación para eliminar secuencias duplicadas. Los datos de lecturas adquiridos de una técnica de secuenciación de NGS se adquirieron tal como se describe en el presente documento (1310). En este ejemplo, se obtienen datos de secuenciación a partir de fragmentos de ADN convertidos con bisulfito y enzimáticamente. Las lecturas obtenidas de los datos de secuenciación se alinearon después con una secuencia de referencia (1320). Las lecturas que corresponden a duplicados ópticos se eliminaron (1330). Después de la eliminación de duplicados ópticos, se eliminaron entonces duplicados de PCR (también conocidos como duplicados de biblioteca) (1340). Finalmente, las lecturas desduplicadas se sometieron a filtrado de calidad (1350), lo que dio como resultado la eliminación de lecturas adicionales.

En este ejemplo, se realizó un análisis comparativo para 16 pares de muestras preparadas con conversión con bisulfito y enzimática con el fin de comparar el rendimiento de los dos métodos de conversión. La figura 14 muestra una serie de paneles que comparan la calidad de los datos de conversión con bisulfito (BS) y enzimática (EM) después de someter las muestras a diferentes análisis bioinformáticos. El eje y indica el número de lecturas presentes en diversas fases del análisis. Las muestras tratadas con el método de conversión enzimática presentaron inicialmente datos en mayor cantidad (por ejemplo, más lecturas) adquiridos tal como se muestra en el panel titulado “todos”. Después de la alineación, las lecturas que no se alinean con regiones diana se eliminaron del análisis adicional. El número de lecturas alineadas se muestra en el panel titulado “sin procesar”. Estaban presentes menos lecturas después de la alineación en ambas condiciones, aunque todavía había más lecturas (en promedio) presentes en las muestras del conjunto de datos EM. Después de la alineación de lectura, se retiraron las lecturas correspondientes a duplicados ópticos (“optical_rm”). El panel titulado “optical_rm” muestra el número de lecturas restantes después de que se eliminaran los duplicados ópticos. Después de la eliminación de duplicados ópticos, se eliminaron duplicados de PCR (“deDup”) de las muestras. Finalmente, los archivos se sometieron a filtrado de calidad (“filtradas”) para eliminar cualquier lectura errónea restante. Tal como puede observarse en la figura 14, el número de lecturas que quedaban en las muestras convertidas tanto con bisulfito como enzimáticamente fue similar.

A continuación, se realizó PCA (análisis de componentes principales) sobre los datos resultantes usando un panel de 203 marcadores de CRC (figura 2). Los diferentes grupos de condiciones se definieron como sigue: muestras de CRC preparadas con conversión con bisulfito (CRC_Bis), muestras de CRC preparadas con conversión enzimática (CRC_EM), muestras de control preparadas con conversión con bisulfito (CNT_Bis) y muestras de control preparadas con conversión enzimática (CNT_EM). Obsérvese que cada una de las 16 muestras se prepararon usando conversión tanto con bisulfito como enzimática. Idealmente, los resultados entre los dos grupos deben ser los mismos, independientemente de si se usa conversión con bisulfito o enzimática. Tal como puede observarse en el gráfico de PCA en la figura 15, puede observarse la mayor separación entre las dos afecciones (muestras de cáncer colorrectal y de control) y no entre los métodos de conversión. Tal como puede observarse en el gráfico de PCA, los pares de muestras aparecen representados estrechamente juntos.

El análisis adicional usando el algoritmo de predicción desarrollado previamente sobre las 68 muestras dio como resultado pares de muestras que se clasifican de manera similar con puntuaciones de predicción similares tal como se muestra en la tabla 18 a continuación.

Tabla 18. Muestras emparejadas preparadas con conversión con bisulfito o enzimática.

El nombre de la muestra proporciona una ID de muestra única, junto con el método de preparación - conversión enzimática (_EM) o conversión con bisulfito (_Bis). Se generó una puntuación de predicción para cada muestra usando un modelo de predicción de bosque aleatorio (RF). En este caso, el modelo de predicción de RF es un modelo de predicción de cáncer colorrectal, que usó el estado de metilación de los 203 marcadores de la figura 2 para predecir si un sujeto particular padecía o no CCR. Una puntuación de predicción por encima de 0,5 se correlacionó con un sujeto que tenía CCR, mientras que una puntuación de predicción por debajo de 0,5 se correlacionó con un sujeto que estaba en un grupo de control. El grupo al que se predice que pertenece la muestra se muestra en la columna de “predicción”. La columna de “referencia” es indicativa del grupo al que pertenecía realmente el sujeto. Tal como puede observarse a partir de los resultados, una muestra tratada con bisulfito y la muestra tratada enzimáticamente correspondiente produjeron puntuaciones de predicción similares y dieron como resultado el mismo diagnóstico. El único par de muestras de CRC clasificadas erróneamente (UDX019715_Bis y UDX019715_EM) procede de un sujeto que tenía CRC en estadio II.

Sistema informático y entorno de red

Como se muestra en la figura 16, se muestra y describe una implementación de un entorno de red 2300 para su uso en la provisión de sistemas, métodos y arquitecturas para identificar biomarcadores para la detección de una enfermedad o afección tal como adenoma avanzado, cáncer colorrectal, otros cánceres u otras enfermedades o afecciones asociadas con un estado de metilación aberrante tal como se describe en el presente documento. En una breve visión general, con referencia ahora a la FIG. 16, se muestra y describe un diagrama de bloques de un entorno informático en la nube 2300 a modo de ejemplo. El entorno informático en la nube 2300 puede incluir uno o más proveedores de recursos 2302a, 2302b, 2302c (colectivamente, 2302). Cada proveedor de recursos 2302 puede incluir recursos informáticos. En algunas implementaciones, los recursos informáticos pueden incluir cualquier hardware y/o software usado para procesar datos. Por ejemplo, los recursos informáticos pueden incluir hardware y/o software capaz de ejecutar algoritmos, programas informáticos y/o aplicaciones informáticas. En algunas implementaciones, los recursos informáticos a modo de ejemplo pueden incluir servidores de aplicaciones y/o bases de datos con capacidades de almacenamiento y recuperación. Cada proveedor de recursos 2302 puede conectarse a cualquier otro proveedor de recursos 2302 en el entorno informático en la nube 2300. En algunas implementaciones, los proveedores de recursos 2302 pueden conectarse a través de una red informática 2308. Cada proveedor de recursos 2302 puede conectarse a uno o más dispositivos informáticos 2304a, 2304b, 2304c (colectivamente, 2304), a través de la red informática 2308.

El entorno informático en la nube 2300 puede incluir un gestor de recursos 2306. El gestor de recursos 2306 puede conectarse a los proveedores de recursos 2302 y los dispositivos informáticos 2304 a través de la red informática 2308. En algunas implementaciones, el gestor de recursos 2306 puede facilitar la provisión de recursos informáticos por uno o más proveedores de recursos 2302 a uno o más dispositivos informáticos 2304. El gestor de recursos 2306 puede recibir una solicitud de un recurso informático desde un dispositivo informático particular 2304. El gestor de recursos 2306 puede identificar uno o más proveedores de recursos 2302 capaces de proporcionar el recurso informático solicitado por el dispositivo informático 2304. El gestor de recursos 2306 puede seleccionar un proveedor de recursos 2302 para proporcionar el recurso informático. El gestor de recursos 2306 puede facilitar una conexión entre el proveedor de recursos 2302 y un dispositivo informático particular 2304. En algunas implementaciones, el gestor de recursos 2306 puede establecer una conexión entre un proveedor de recursos particular 2302 y un dispositivo informático particular 2304. En algunas implementaciones, el gestor de recursos 2306 puede redirigir un dispositivo informático particular 2304 a un proveedor de recursos particular 2302 con el recurso informático solicitado.

La figura 17 muestra un ejemplo de un dispositivo informático 2400 y un dispositivo informático móvil 2450 que pueden usarse para implementar las técnicas descritas en esta divulgación. El dispositivo informático 2400 está destinado a representar diversas formas de ordenadores digitales, tales como ordenadores portátiles, ordenadores de escritorio, estaciones de trabajo, asistentes digitales personales, servidores, servidores blade, ordenadores centrales y otros ordenadores apropiados. El dispositivo informático móvil 2450 está destinado a representar diversas formas de dispositivos móviles, tales como asistentes digitales personales, teléfonos celulares, teléfonos inteligentes y otros dispositivos informáticos similares. Los componentes mostrados en el presente documento, sus conexiones y relaciones, y sus funciones, pretenden ser solo ejemplos, y no pretenden ser limitativos.

El dispositivo informático 2400 incluye un procesador 2402, una memoria 2404, un dispositivo de almacenamiento 2406, una interfaz de alta velocidad 2408 que se conecta a la memoria 2404 y múltiples puertos de expansión de alta velocidad 2410, y una interfaz de baja velocidad 2412 que se conecta a un puerto de expansión de baja velocidad 2414 y el dispositivo de almacenamiento 2406. Cada uno del procesador 2402, la memoria 2404, el dispositivo de almacenamiento 2406, la interfaz de alta velocidad 2408, los puertos de expansión de alta velocidad 2410 y la interfaz de baja velocidad 2412 se interconectan usando diversos buses, y pueden montarse en una placa base común o de otras maneras según sea apropiado. El procesador 2402 puede procesar instrucciones para su ejecución dentro del dispositivo informático 2400, incluyendo instrucciones almacenadas en la memoria 2404 o en el dispositivo de almacenamiento 2406 para mostrar información gráfica para una GUI en un dispositivo de entrada/salida externo, tal como una pantalla 2416 acoplada a la interfaz de alta velocidad 2408. En otras implementaciones, pueden usarse múltiples procesadores y/o múltiples buses, según sea apropiado, junto con múltiples memorias y tipos de memoria. Además, pueden conectarse múltiples dispositivos informáticos, proporcionando cada dispositivo porciones de las operaciones necesarias (por ejemplo, como un banco de servidores, un grupo de servidores blade o un sistema multiprocesador). Por tanto, tal como se usa el término en el presente documento, cuando se describe que una pluralidad de funciones se realizan por “un procesador”, esto abarca realizaciones en donde la pluralidad de funciones se realizan por cualquier número de procesadores (uno o más) de cualquier número de dispositivos informáticos (uno o más). Además, cuando se describe que una función se realiza por “un procesador”, esto abarca realizaciones en las que la función se realiza por cualquier número de procesadores (uno o más) de cualquier número de dispositivos informáticos (uno o más) (por ejemplo, en un sistema informático distribuido). La memoria 2404 almacena información dentro del dispositivo informático 2400. En algunas implementaciones, la memoria 2404 es una unidad o unidades de memoria volátil. En algunas implementaciones, la memoria 2404 es una unidad o unidades de memoria no volátil. La memoria 2404 también puede ser otra forma de medio legible por ordenador, tal como un disco magnético u óptico.

El dispositivo de almacenamiento 2406 es capaz de proporcionar almacenamiento masivo para el dispositivo informático 2400. En algunas implementaciones, el dispositivo de almacenamiento 2406 puede ser o contener un medio legible por ordenador, tal como un dispositivo de disquete, un dispositivo de disco duro, un dispositivo de disco óptico o un dispositivo de cinta, una memoria flash u otro dispositivo de memoria de estado sólido similar, o una matriz de dispositivos, incluyendo dispositivos en una red de área de almacenamiento u otras configuraciones. Las instrucciones pueden almacenarse en un soporte de información. Las instrucciones, cuando se ejecutan por uno o más dispositivos de procesamiento (por ejemplo, el procesador 2402), realizan uno o más métodos, tales como los descritos anteriormente. Las instrucciones también pueden almacenarse mediante uno o más dispositivos de almacenamiento tales como medios legibles por ordenador o máquina (por ejemplo, la memoria 2404, el dispositivo de almacenamiento 2406 o la memoria en el procesador 2402).

La interfaz 2408 de alta velocidad gestiona operaciones intensivas de ancho de banda para el dispositivo informático 2400, mientras que la interfaz de baja velocidad 2412 gestiona operaciones intensivas de ancho de banda más bajas. Tal asignación de funciones es un ejemplo solamente. En algunas implementaciones, la interfaz de alta velocidad 2408 está acoplada a la memoria 2404, la pantalla 2416 (por ejemplo, a través de un procesador gráfico o acelerador), y a los puertos de expansión de alta velocidad 2410, que pueden aceptar diversas tarjetas de expansión (no mostradas). En la implementación, la interfaz de baja velocidad 2412 está acoplada al dispositivo de almacenamiento 2406 y al puerto de expansión de baja velocidad 2414. El puerto de expansión de baja velocidad 2414, que puede incluir diversos puertos de comunicación (por ejemplo, USB, Bluetooth®, Ethernet, Ethernet inalámbrica), puede acoplarse a uno o más dispositivos de entrada/salida, tales como un teclado, un dispositivo apuntador, un escáner o un dispositivo de red tal como un conmutador o enrutador, por ejemplo, a través de un adaptador de red.

El dispositivo informático 2400 puede implementarse en varias formas diferentes, tal como se muestra en la figura. Por ejemplo, puede implementarse como un servidor estándar 2420, o múltiples veces en un grupo de tales servidores. Además, puede implementarse en un ordenador personal tal como un ordenador portátil 2422. También puede implementarse como parte de un sistema de servidor en bastidor 2424. Alternativamente, los componentes del dispositivo informático 2400 pueden combinarse con otros componentes en un dispositivo móvil (no mostrado), tal como un dispositivo informático móvil 2450. Cada uno de tales dispositivos puede contener uno o más del dispositivo informático 2400 y el dispositivo informático móvil 2450, y un sistema completo puede estar constituido por múltiples dispositivos informáticos que se comunican entre sí.

El dispositivo informático móvil 2450 incluye un procesador 2452, una memoria 2464, un dispositivo de entrada/salida tal como una pantalla 2454, una interfaz de comunicación 2466 y un transceptor 2468, entre otros componentes. El dispositivo informático móvil 2450 también puede estar provisto de un dispositivo de almacenamiento, tal como un microdisco u otro dispositivo, para proporcionar almacenamiento adicional. Cada uno del procesador 2452, la memoria 2464, la pantalla 2454, la interfaz de comunicación 2466 y el transceptor 2468 se interconectan usando diversos buses, y varios de los componentes pueden montarse en una placa base común o de otras maneras según sea apropiado.

El procesador 2452 puede ejecutar instrucciones dentro del dispositivo informático móvil 2450, incluyendo instrucciones almacenadas en la memoria 2464. El procesador 2452 puede implementarse como un conjunto de chips de chips que incluye procesadores analógicos y digitales separados y múltiples. El procesador 2452 puede proporcionar, por ejemplo, la coordinación de los otros componentes del dispositivo informático móvil 2450, tal como control de interfaces de usuario, aplicaciones ejecutadas por el dispositivo informático móvil 2450 y comunicación inalámbrica por el dispositivo informático móvil 2450.

El procesador 2452 puede comunicarse con un usuario a través de una interfaz de control 2458 y una interfaz de visualización 2456 acoplada a la pantalla 2454. La pantalla 2454 puede ser, por ejemplo, una pantalla TFT (pantalla de cristal líquido de transistor de película delgada) o una pantalla OLED (diodo emisor de luz orgánico), u otra tecnología de pantalla apropiada. La interfaz de visualización 2456 puede comprender circuitos apropiados para accionar la pantalla 2454 para presentar información gráfica y de otro tipo a un usuario. La interfaz de control 2458 puede recibir comandos de un usuario y convertirlos para su presentación al procesador 2452. Además, una interfaz externa 2462 puede proporcionar comunicación con el procesador 2452, para permitir la comunicación de área cercana del dispositivo informático móvil 2450 con otros dispositivos. La interfaz externa 2462 puede proporcionar, por ejemplo, comunicación por cable en algunas implementaciones, o comunicación inalámbrica en otras implementaciones, y también pueden usarse múltiples interfaces.

La memoria 2464 almacena información dentro del dispositivo informático móvil 2450. La memoria 2464 puede implementarse como uno o más de un medio o medios legibles por ordenador, una unidad o unidades de memoria volátil o una unidad o unidades de memoria no volátil. También puede proporcionarse una memoria de expansión 2474 y conectarse al dispositivo informático móvil 2450 a través de una interfaz de expansión 2472, que puede incluir, por ejemplo, una interfaz de tarjeta SIMM (módulo de memoria en línea única). La memoria de expansión 2474 puede proporcionar espacio de almacenamiento adicional para el dispositivo informático móvil 2450, o también puede almacenar aplicaciones u otra información para el dispositivo informático móvil 2450. Específicamente, la memoria de expansión 2474 puede incluir instrucciones para llevar a cabo o complementar los procesos descritos anteriormente, y puede incluir también información segura. Por tanto, por ejemplo, la memoria de expansión 2474 puede proporcionarse como un módulo de seguridad para el dispositivo informático móvil 2450, y puede programarse con instrucciones que permitan el uso seguro del dispositivo informático móvil 2450. Además, pueden proporcionarse aplicaciones seguras a través de las tarjetas SIMM, junto con información adicional, tal como colocar información de identificación en la tarjeta SIMM de una manera no pirateable.

La memoria puede incluir, por ejemplo, memoria flash y/o memoria NVRAM (memoria de acceso aleatorio no volátil), como se comenta a continuación. En algunas implementaciones, las instrucciones se almacenan en un soporte de información, de manera que las instrucciones, cuando se ejecutan por uno o más dispositivos de procesamiento (por ejemplo, el procesador 2452), realizan uno o más métodos, tales como los descritos anteriormente. Las instrucciones también pueden almacenarse mediante uno o más dispositivos de almacenamiento, tales como uno o más medios legibles por ordenador o máquina (por ejemplo, la memoria 2464, la memoria de expansión 2474 o la memoria en el procesador 2452). En algunas implementaciones, las instrucciones pueden recibirse en una señal propagada, por ejemplo, a través del transceptor 2468 o la interfaz externa 2462. El dispositivo informático móvil 2450 puede comunicarse de manera inalámbrica a través de la interfaz 2466 de comunicación, que puede incluir circuitos de procesamiento de señales digitales cuando sea necesario. La interfaz de comunicación 2466 puede proporcionar comunicaciones bajo diversos modos o protocolos, tales como llamadas de voz GSM (sistema global de comunicaciones móviles), SMS (servicio de mensajes cortos), EMS (servicio de mensajería mejorada) o mensajería MMS (servicio de mensajería multimedia), CDMA (acceso múltiple por división de código), TDMA (acceso múltiple por división de tiempo), PDC (celular digital personal), WCDMA (acceso múltiple por división de código de banda ancha), CDMA2000 o GPRS (servicio general de radiocomunicaciones por paquetes), entre otros. Tal comunicación puede producirse, por ejemplo, a través del transceptor 2468 usando una radiofrecuencia. Además, puede producirse una comunicación de corto alcance, tal como usando un Bluetooth®, Wi-Fi™ u otro transceptor de este tipo (no mostrado). Además, un módulo receptor de GPS (sistema de posicionamiento global) 2470 puede proporcionar datos inalámbricos adicionales relacionados con navegación y ubicación al dispositivo informático móvil 2450, que pueden usarse según sea apropiado por aplicaciones que se ejecutan en el dispositivo informático móvil 2450.

El dispositivo informático móvil 2450 también puede comunicarse de manera audible usando un códec de audio 2460, que puede recibir información hablada de un usuario y convertirla en información digital utilizable. El códec de audio 2460 puede generar asimismo sonido audible para un usuario, tal como a través de un altavoz, por ejemplo, en un auricular del dispositivo informático móvil 2450. Tal sonido puede incluir sonido de llamadas telefónicas de voz, puede incluir sonido grabado (por ejemplo, mensajes de voz, archivos musicales, etc.) y también puede incluir sonido generado por aplicaciones que funcionan en el dispositivo informático móvil 2450.

El dispositivo informático móvil 2450 puede implementarse en varias formas diferentes, como se muestra en la figura. Por ejemplo, puede implementarse como un teléfono celular 2480. También puede implementarse como parte de un teléfono inteligente 2482, un asistente digital personal u otro dispositivo móvil similar.

Diversas implementaciones de los sistemas y técnicas descritos en el presente documento pueden realizarse en circuitos electrónicos digitales, circuitos integrados, ASIC (circuitos integrados específicos de la aplicación) especialmente diseñados, hardware informático, firmware, software y/o combinaciones de los mismos. Estas diversas implementaciones pueden incluir la implementación en uno o más programas informáticos que son ejecutables y/o interpretables en un sistema programable que incluye al menos un procesador programable, que puede ser de propósito especial o general, acoplado para recibir datos e instrucciones de, y para transmitir datos e instrucciones a, un sistema de almacenamiento, al menos un dispositivo de entrada y al menos un dispositivo de salida.

Estos programas informáticos (también conocidos como programas, software, aplicaciones o código de software) incluyen instrucciones de máquina para un procesador programable, y pueden implementarse en un lenguaje de programación de procedimiento y/u orientado a objetos de alto nivel, y/o en lenguaje de ensamblaje/máquina. Tal como se usa en el presente documento, los términos medio legible por máquina y medio legible por ordenador se refieren a cualquier producto, aparato y/o dispositivo de programa informático (por ejemplo, discos magnéticos, discos ópticos, memoria, dispositivos lógicos programables (PLD)) usados para proporcionar instrucciones de máquina y/o datos a un procesador programable, incluyendo un medio legible por máquina que recibe instrucciones de máquina como una señal legible por máquina. El término señal legible por máquina se refiere a cualquier señal usada para proporcionar instrucciones y/o datos de máquina a un procesador programable.

Para proporcionar interacción con un usuario, los sistemas y técnicas descritos en el presente documento pueden implementarse en un ordenador que tiene un dispositivo de visualización (por ejemplo, un monitor de CRT (tubo de rayos catódicos) o LCD (pantalla de cristal líquido)) para presentar información al usuario y un teclado y un dispositivo apuntador (por ejemplo, un ratón o una bola de seguimiento) mediante el cual el usuario puede proporcionar entrada al ordenador. También pueden usarse otros tipos de dispositivos para proporcionar interacción con un usuario; por ejemplo, la retroalimentación proporcionada al usuario puede ser cualquier forma de retroalimentación sensorial (por ejemplo, retroalimentación visual, retroalimentación auditiva o retroalimentación táctil); y la entrada del usuario puede recibirse en cualquier forma, incluyendo entrada acústica, de voz o táctil.

Los sistemas y técnicas descritos en el presente documento pueden implementarse en un sistema informático que incluye un componente de extremo del servidor (por ejemplo, tal como un servidor de datos), o que incluye un componente de middleware (por ejemplo, un servidor de aplicaciones), o que incluye un componente de extremo del usuario (por ejemplo, un ordenador cliente que tiene una interfaz gráfica de usuario o un navegador web a través del cual un usuario puede interactuar con una implementación de los sistemas y técnicas descritos en el presente documento), o cualquier combinación de tales componentes de extremo del servidor, middleware o de extremo del usuario. Los componentes del sistema pueden estar interconectados por cualquier forma o medio de comunicación de datos digitales (por ejemplo, una red de comunicación). Los ejemplos de redes de comunicación incluyen una red de área local (LAN), una red de área amplia (WAN) e Internet.

El sistema informático puede incluir clientes y servidores. Un cliente y un servidor están generalmente alejados entre sí e interactúan normalmente a través de una red de comunicación. La relación entre cliente y servidor surge en virtud de programas informáticos que se ejecutan en los respectivos ordenadores y que tienen una relación de clienteservidor entre sí.

Los elementos de diferentes implementaciones descritas en el presente documento pueden combinarse para formar otras implementaciones no expuestas de manera específica anteriormente. Los elementos pueden dejarse fuera de los procesos, programas informáticos, bases de datos, etc., descritos en el presente documento sin afectar negativamente a su funcionamiento. Además, los flujos lógicos representados en las figuras no requieren el orden particular mostrado, u orden secuencial, para lograr resultados deseables. Diversos elementos separados pueden combinarse en uno o más elementos individuales para realizar las funciones descritas en el presente documento.

A lo largo de la descripción, cuando se describen aparatos y sistemas como que tienen, que incluyen o que comprenden componentes específicos, o cuando se describen procesos y métodos como que tienen, que incluyen o que comprenden etapas específicas, se contempla que, adicionalmente, hay aparatos y sistemas de la presente invención que consisten esencialmente en, o consisten en, los componentes citados, y que hay procesos y métodos según la presente invención que consisten esencialmente en, o consisten en, las etapas de procesamiento citadas.

Claims

REIVINDICACIONES i. Método de detección de cáncer colorrectal en un sujeto humano, comprendiendo el método: determinar un estado de metilación de al menos una porción de cada una de las siguientes DMR de la tabla 9:

identificadas en ADN de una muestra obtenida del sujeto, y determinar si el sujeto tiene cáncer colorrectal basándose al menos en parte en el estado de metilación determinado de al menos una porción de cada una de las DMR de la tabla 9.
2. Método de la reivindicación 1, en donde el método comprende determinar un estado de metilación de al menos una porción de cada una de las siguientes DMR de la tabla 10:

identificadas en ADN de una muestra obtenida del sujeto, y determinar si el sujeto tiene cáncer colorrectal basándose al menos en parte en el estado de metilación determinado de al menos una porción de cada una de las DMR de la tabla 10.
3. Método de las reivindicaciones 1 -2, en donde el método comprende determinar un estado de metilación de al menos una porción de cada de las siguientes DMR de la tabla 11: