ES2807791T3

ES2807791T3 - ARN no codificantes y usos de los mismos

Info

Publication number: ES2807791T3
Application number: ES15867280T
Authority: ES
Inventors: Arul Chinnaiyan; Felix Y Feng; John Prensner; Matthew Iyer; Yashar Niknafs
Original assignee: University of Michigan System
Current assignee: University of Michigan System
Priority date: 2014-12-08
Filing date: 2015-12-08
Publication date: 2021-02-24
Anticipated expiration: 2035-12-08
Also published as: EP3230473A1; US10889864B2; EP3230473B1; US20160160295A1; WO2016094420A1; EP3230473A4

Abstract

Un procedimiento de selección de la presencia de cáncer en un sujeto, que comprende (a) poner en contacto una muestra biológica de un sujeto con un ensayo de detección de expresión génica, en el que dicho ensayo de detección de expresión génica comprende un reactivo informativo de expresión génica para la identificación del nivel de expresión de un ARN no codificante descrito por la SEQ ID NO: 2304; (b) detectar el nivel de expresión de dicho ARN no codificante en dicha muestra usando un ensayo in vitro; y (c) diagnosticar cáncer en dicho sujeto cuando se detecta un mayor nivel de expresión de dicho ARN no codificante en dicha muestra en relación con el nivel en células normales

Description

DESCRIPCIÓN

ARN no codificantes y usos de los mismos

Campo de la divulgación

En el presente documento se proporcionan composiciones y procedimientos para diagnóstico, investigación y terapia del cáncer, incluyendo, pero sin limitación, marcadores de cáncer. En particular, en el presente documento se proporcionan ARN no codificantes como marcadores diagnósticos y dianas clínicas del cáncer.

Antecedentes de la divulgación

Afectando a uno de cada nueve hombres mayores de 65 años, el cáncer de próstata (PCA) es una causa principal de muerte masculina relacionada con el cáncer, solo tras el cáncer de pulmón (Abate-Shen y Shen, Genes Dev 14:2410 [2000]; Ruijter y col., Endocr Rev, 20:22 [1999]). La Sociedad Americana del Cáncer estima que aproximadamente 184.500 varones estadounidenses serán diagnosticados con cáncer de próstata y 39.200 morirán en 2001.

El cáncer de próstata generalmente se diagnostica con un examen rectal digital y/o detección de antígeno prostático específico (PSA). Un nivel elevado de PSA en suero puede indicar la presencia de PCA. El PSA se usa como marcador para el cáncer de próstata porque solo es secretado por las células de la próstata. Una próstata sana producirá una cantidad estable, generalmente inferior a 4 nanogramos por mililitro, o una lectura de PSA de "4" o menos, mientras que las células cancerosas producen cantidades crecientes que se corresponden con la gravedad del cáncer. Un nivel entre 4 y 10 puede aumentar la sospecha de un médico de que un paciente tiene cáncer de próstata, mientras que cantidades superiores a 50 pueden mostrar que el tumor se ha diseminado a otras partes del cuerpo.

Cuando el PSA o las pruebas digitales indican una gran probabilidad de que haya cáncer presente, se utiliza un ultrasonido transrrectal (TRUS) para mapear la próstata y mostrar las áreas sospechosas. Se usan biopsias de varios sectores de la próstata para determinar si hay cáncer de próstata presente. Las opciones de tratamiento dependen de la etapa del cáncer. Los hombres con una esperanza de vida de 10 años o menos que tienen un número bajo de Gleason y cuyo tumor no se ha diseminado más allá de la próstata a menudo son tratados con espera vigilante (sin tratamiento). Las opciones de tratamiento para cánceres más agresivos incluyen tratamientos quirúrgicos como la prostatectomía radical (PR), en la que la próstata se extirpa por completo (con o sin técnicas de preservación nerviosa) y radiación, aplicadas a través de un haz externo que dirige la dosis a la próstata desde el exterior del cuerpo o mediante semillas radiactivas de baja dosis que se implantan dentro de la próstata para eliminar las células cancerosas localmente. También se usa terapia hormonal antiandrógenos, sola o junto con cirugía y radiación. La terapia hormonal usa análogos de las hormonas liberadoras de hormona luteinizante (LH-RH), que bloquean la producción de hormonas por la hipófisis que estimulan la producción de testosterona. Los pacientes deben recibir inyecciones de análogos de LH-RH durante el resto de sus vidas.

Si bien los tratamientos quirúrgicos y hormonales a menudo son efectivos para el PCA localizado, la enfermedad avanzada sigue siendo esencialmente incurable. La ablación de andrógenos es la terapia más común para el PCA avanzado, lo que conduce a apoptosis masiva de células malignas dependientes de andrógenos y regresión tumoral temporal. En la mayoría de los casos, sin embargo, el tumor reaparece con fuerza ypuede proliferar independientemente de las señales de andrógenos.

El advenimiento de la detección del antígeno prostático específico (PSA) ha llevado a una detección más temprana de PCA y redujo significativamente las muertes asociadas con PCA. Sin embargo, el impacto de la detección de PSA en la mortalidad específica por cáncer aún se desconoce a la espera de los resultados de los estudios prospectivos de detección aleatoria (Etzioni y col., J. Natl. Cancer Inst., 91:1033 [1999]; Maattanen y col., Br. J. Cancer 79:1210 [1999]; Schroder y col., J. Natl. Cancer Inst., 90:1817 [1998]). Una limitación importante de la prueba de PSA en suero es la falta de sensibilidad y especificidad para el cáncer de próstata, especialmente en el intervalo intermedio de detección de PSA (4-10 ng/ml). Los niveles elevados de PSA en suero a menudo se detectan en pacientes con afecciones no malignas, como hiperplasia prostática benigna (HPB) y prostatitis, y proporcionan poca información sobre la agresividad del cáncer detectado. Coincidente con el incremento de las pruebas de PSA en suero, se ha producido un aumento drástico en el número de biopsias con aguja de próstata realizadas (Jacobsen y col., JAMA 274: 1445 [1995]). Esto ha dad como resultado un aumento de biopsias con aguja de próstata equívocas (Epstein y Potter J. Urol., 166:402 [2001]). Por lo tanto, se necesita desarrollar biomarcadores adicionales de suero y tejido para complementar la detección de PSA.

Un ARN no codificante largo que se correlaciona con tejido de carcinoma de próstata metastásico diferente del de la presente invención, según se define en las reivindicaciones se conoce a partir de Francesco y col., 2014, "Identification of a long non-coding RNA as a novel biomarker and potential therapeutic target for metastatic prostate cancer", ONCOTARGET, vol. 5, n.° 3, páginas 764-774. Los autores de dicho documento han secuenciado ARN no codificantes largos a partir de tejido metastásico de carcinoma de próstata identificando mediante un tránscrito (LOC728606) que constituye un arnlnccon el nombre de PCAT18 que se expresa específicamente (regulado por aumento) en el carcinoma de próstata metastásico frente al primario, calificando esta larga molécula de ARN no codificante como biomarcador para el PcCa metastásico.

Sumario de la divulgación

La invención se expone en las reivindicaciones adjuntas. Las realizaciones de la descripción que no entran dentro del ámbito de dichas reivindicaciones se proporcionan solo con fines ilustrativos y no forman parte de la presente invención. En el presente documento se proporcionan composiciones y procedimientos para diagnóstico, investigación y terapia del cáncer, incluyendo, pero sin limitación, marcadores de cáncer. En particular, en el presente documento se proporcionan a Rn no codificantes como marcadores diagnósticos y dianas clínicas del cáncer.

La presente divulgación proporciona un procedimiento de detección de la presencia de cáncer en un sujeto, que comprende (a) poner en contacto una muestra biológica de un sujeto con un ensayo de detección de expresión génica, en el que dicho ensayo de detección de expresión génica comprende un reactivo informativo de expresión génica para la identificación del nivel de expresión de uno o más ARN no codificantes seleccionados del grupo que consiste en los descritos por las SEQ ID NO: 1-2309; (b) detectar el nivel de expresión de dicha no codificación en dicha muestra usando un ensayo in vitro; y (c) diagnosticar cáncer en dicho sujeto cuando se detecta un mayor nivel de expresión de dichos ARN no codificantes en dicha muestra en relación con el nivel en células normales. Los ARN pueden convertirse en ADNc antes o durante la detección. La muestra puede seleccionarse de entre, por ejemplo, tejido, sangre, plasma, suero, orina, sobrenadante de orina, sedimento celular en orina, semen, secreciones prostáticas o células prostáticas. La detección puede llevarse a cabo utilizando un procedimiento seleccionado de entre, por ejemplo, una técnica de secuenciación, una técnica de hibridación de ácido nucleico, o una técnica de amplificación de ácido nucleico. La técnica de amplificación de ácido nucleico se puede seleccionar de entre, por ejemplo, reacción en cadena de la polimerasa, reacción en cadena de la polimerasa con transcripción inversa, amplificación mediada por transcripción, reacción en cadena de la ligasa, amplificación por desplazamiento de cadena, o amplificación basada en secuencia de ácido nucleico. La presente divulgación no se limita a un cáncer particular. Los ejemplos incluyen, pero sin limitación, cáncer de próstata, cáncer de mama, leucemia mieloide aguda (LMA), leucemia mieloide crónica (LMC), neoplasia mieloproliferativa (NMP)), glioma de grado menor (LGG), glioblastoma multiforme (GBM)), cáncer de cuello uterino, cáncer de cabeza y cuello, cáncer de células escamosas de pulmón, adenocarcinoma de pulmón, cáncer de riñón, carcinoma de células papilares o cáncer de vejiga. El reactivo puede ser un par de oligonucleótidos de amplificación, un cebador de secuenciación o una sonda de oligonucleótidos. El reactivo puede comprender uno o más marcadores. El uno o más ARN no codificantes pueden ser dos o más (por ejemplo, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100 o más).

Además se proporciona un procedimiento para identificar la expresión génica asociada con el cáncer, que comprende (a) poner en contacto una muestra biológica de un sujeto con un ensayo de detección de expresión génica, en el que dicho ensayo de detección de expresión génica comprende un reactivo informativo de expresión génica para la identificación del nivel de expresión de uno o más ARN no codificantes seleccionados del grupo que consiste en aquellos descritos por las SEQ ID NO: 1-2309; (b) detectar el nivel de expresión de dicho ARN no codificante en dicha muestra usando un ensayo in vitro; y (c) identificar sujetos de expresión génica en riesgo de metástasis de cáncer de próstata cuando se detecta un mayor nivel de expresión de dicho ARN no codificante de dicha muestra en relación con el nivel en células de próstata normales.

Además, se proporciona un sistema para analizar un cáncer, que comprende: un conjunto de sondas que comprende una pluralidad de sondas, en el que la pluralidad de sondas comprende una secuencia que se hibrida con al menos una porción de uno o más ARN no codificantes seleccionados del grupo que consiste en aquellos descritos por las SEQ ID NO: 1-2309 o el ADNc correspondiente; y un modelo o algoritmo informático para analizar un nivel de expresión y/o perfil de expresión de dicho ARN no codificante hibridado con la sonda en una muestra de un sujeto. El sistema puede comprender además uno o más de la memoria informática para capturar y almacenar un perfil de expresión, un dispositivo de procesamiento de ordenador, opcionalmente conectado a una red informática, un módulo de software ejecutado por el dispositivo de procesamiento informático para analizar un perfil de expresión, un módulo de software ejecutado por el dispositivo de procesamiento informático para comparar el perfil de expresión con un patrón o control, un módulo de software ejecutado por el dispositivo de procesamiento informático para determinar el nivel de expresión del ARN no codificante, un módulo de software ejecutado por el dispositivo de procesamiento informático para transmitir un análisis del perfil de expresión al sujeto o un profesional médico que trata al sujeto o un módulo de software ejecutado por el dispositivo de procesamiento informático para transmitir un diagnóstico o pronóstico al sujeto o un profesional médico que trata al sujeto.

También se proporciona un conjunto de sondas para evaluar el estado del cáncer de un sujeto que comprende una pluralidad de sondas, en el que las sondas en el conjunto de sondas son capaces de detectar un nivel de expresión de uno o más ARN no codificantes seleccionados del grupo que consiste en los descritos por las SEQ ID NO: 1-2309 o el ADNc correspondiente.

Además se proporciona una composición que comprende una o más mezclas de reacción, en la que cada mezcla de reacción comprende un complejo de ARN no codificantes seleccionados de los descritos por las SEQ ID NO: 1-2309 o el ADNc correspondiente y una sonda que se une a dicho ARN no codificante.

Además, en el presente documento se proporcionan procedimientos para tratar el cáncer, que comprenden poner en contacto una célula cancerosa con un compuesto (por ejemplo, ARNip u oligonucleótido antisentido) que se dirige específicamente a uno o más ARN no codificantes seleccionados de los descritos por las SEQ ID NO: 1-2309. La célula puede estar en un sujeto.

Descripción de las figuras

La figura 1 muestra que el ensamblaje del transcriptoma Ab initio revela un panorama expansivo de la transcripción humana. (a) Gráfico circular que muestra la composición y los tamaños de cohorte para la reconstrucción del transcriptoma de ARN-Seq. (b) Diagrama de flujo de trabajo para la reconstrucción del transcriptoma. (c) Gráfico de barras que compara exones, sitios de corte y empalme, transcritos y genes en el ensamblaje MiTranscriptoma con RefSeq (diciembre de 2013), catálogos UCSC (diciembre de 2013) y GENCODE (versión 19).

La figura 2 muestra la caracterización del ensamblaje del MiTranscriptoma. (a) Gráfico circular de la composición y las cantidades de ARNlnc, tránscritos de potencial de codificación desconocido (TUCP), pseudogén expresado, lectura y genes de codificación de proteínas en el ensamblaje del MiTranscriptoma. (b) Gráficos circulares del número de ARNlnc y genes TUCP (arriba) sin anotar frente a anotados en relación con los catálogos de referencia y (abajo) intragénicos frente a intergénicos. (c) Vista genómica del locus del cromosoma 16p13.3. (d) Gráfico de distribución acumulativa empírica que compara la expresión máxima (FPKM) de la isoforma principal de cada gen en las categorías de genes. (e, f y g) Gráficos de enriquecimiento de intervalos de 10 kb que rodean los sitios de inicio de la transcripción expresados (TSS con RPM> 0,1) con datos de ENCODE agregados de 13 líneas celulares para (e) H3K4me3 ChIP-Seq, (f) sitios de unión del factor de transcripción PolII, y (g) hipersensibilidad a ADNasa. (h) Gráfico de dispersión con histogramas marginales que representan la distribución de los niveles completos de conservación de la transcripción (eje x) y los niveles máximos de conservación de la ventana de 200 pb (eje y) para ARNlnc y los tránscritos TUCP.

La figura 3 muestra una metodología de ejemplo para descubrir arnlncasociados con cáncer. (a) Flujo de trabajo de análisis de expresión de los tránscritos. (b) Mapa de calor que muestra la concordancia del algoritmo SSEA con las firmas de genes de cáncer obtenidas de la base de datos Oncomine. (c) Gráficos de densidad de enriquecimiento del conjunto de muestras que muestran el espectro de las puntuaciones de enriquecimiento de los tránscritos (ES) obtenidos del análisis SSEA de carcinomas de mama frente a muestras normales correspondientes. (d y e) Gráficos de enriquecimiento de SSEA y diagramas de caja de expresión para los arnlnc(d) HOTAIR y (e) MEG3. (f) Gráficos de densidad de enriquecimiento del conjunto de muestras que muestran el espectro de las puntuaciones de enriquecimiento de los tránscritos (ES) obtenidos del análisis SSEA de carcinomas de próstata frente a muestras normales correspondientes. (g y h) Gráficos de barras de enriquecimiento de los tránscritos para los arnlncespecíficos de cáncer de próstata (g) PCA3 y (h) SChLAP1 en conjuntos de muestras de cáncer frente a normal, de tipo cáncer y de tipo normal.

La figura 4 muestra el descubrimiento de arnlncasociados al linaje y al cáncer en los compendios de MiTranscriptoma. (a) Mapa de calor de arnlncespecíficos de linaje. (b) Mapa de calor de arnlncespecíficos de cáncer nominados por análisis de SSEA de cáncer frente a normal de 12 tipos de cáncer (columnas). (c) Gráficos de dispersión que muestran la puntuación de enriquecimiento para cáncer frente a normal (eje x) y linaje de cáncer (eje y) para todos los tránscritos de arnlncasociados con cáncer en 12 tipos de cáncer. (d) Diagrama de cajas que compara el rendimiento de los arnlncasociados con linaje y cáncer que corresponden a arnlncno anotados o anotados o tránscritos que codifican proteínas (incluidas las lecturas) en 12 tipos de cáncer. (e) Datos de expresión para MEAT6 en todas las cohortes de tipo de tejido MiTranscriptoma y de tejido normal. (f) Vista genómica del locus del cromosoma 2q35. (g) Datos de expresión para BRCAT49 en todas las cohortes de tipo de tejido MiTranscriptoma y de tejido normal.

La figura 5 muestra la curación y el procesamiento de muestras en los compendios de MiTrascriptoma. A. Gráfico circular que muestra el número de estudios seleccionados de TCGA, ENCODE, MCTP y otros conjuntos de datos.

La figura 6 muestra el filtrado de frag. trans. a) Gráfico circular que muestra el número de estudios seleccionados de conjuntos de datos. b) flujo de trabajo para el procesamiento bioinformático de bibliotecas individuales de ARN-SEQ. C) Gráfico de dispersión que muestra los fragmentos totales (eje x) y la fracción de fragmentos alineados (eje y para cada biblioteca de ARN-SEQ. D) Gráfico de puntos que muestra la fracción de bases alineadas correspondientes al ARNm, regiones intrónicas o regiones intergénicas. E) Gráfico circular que muestra el número de tumores primarios, tumores metastásicos, tejidos adyacentes benignos o tejidos sanos, o líneas celulares para bibliotecas de ARN-SEQ.

La figura 7 muestra el meta ensamblaje. a, esquema del algoritmo de meta-ensamblaje de transcriptoma usando un ejemplo simplificado con tres frag. trans. transcritos de izquierda a derecha. b, El gráfico de corte y empalme podado del panel a se somete a un meta-ensamblaje. c, Vista del genoma que muestra un ejemplo del procedimiento de meta-ensamblaje para frags. trans. de cohortes de mama en un locus del cromosoma 12q13.3 que contiene ARNlnc HOTAIR y el gen codificador de proteínas HOXC11 en cadenas opuestas (cr12: 54,349,995-54,377,376, hg19).

La figura 8 muestra la caracterización de tránscritos no anotados. a, Gráficos de barras que comparan números de bases no anotadas frente a diferentes de tránscritos anotados para cada una de las 18 cohortes. b, 001 gráficos que representan la comparación de MiTranscriptoma con los tránscritos de referencia de RefSeq, UCSC o GENCODE. c, Gráficos de puntos que comparan la precisión y sensibilidad en términos de bases, sitio de corte y empalme y patrón de corte y empalme del MiTranscriptoma y GENCODE utilizando RefSeq (izquierda) o Cabili y col. LARNnc (derecha)

La figura 9 muestra la clasificación de los tránscritos de potencial de codificación desconocido. a, Árbol de decisiones que muestra la categorización de los tránscritos ab initio. b, Curva ROC que compara la tasa de falsos positivos (eje x) con la tasa de verdaderos positivos (eje y) para las predicciones del potencial de codificación CPAT de ARNnc frente a genes que codifican proteínas. c, Curva de comparación del punto de corte de probabilidad (eje x) con precisión equilibrada (eje y). d, Gráfico de dispersión que compara las frecuencias de las ocurrencias del dominio Pfam en el espacio intergénico no transcrito frente a las regiones transcritas. e, Gráfico de dispersión tridimensional que compara la puntuación de Fickett (eje x), el tamaño del ORF (eje y) y la puntuación de Hexámero (eje z) para todas los tránscritos. f, g, h Gráficos de cajas que comparan el tamaño del ORF (f), la puntuación de Hexámero (g) y puntuación de Fickett (h).

La figura 10 muestra la caracterización del Mitranscriptoma. a, Comparación de la relación del número máximo de exones por gen con el número de isoformas por gen. b, Histograma de densidad que representa las puntuaciones de confianza para los arnlncanotados y no anotados. c, Gráfico de distribución acumulativa para la fracción de conservación de proteínas en términos de bases, lecturas, pseudogenes, TUCP, ARNlnc. d, Gráfico de barras que muestra estadísticas de la prueba de KS para clases de tránscritos frente a controles intergénicos aleatorios. e, Gráfico de distribución acumulativa para la conservación del promotor (leyenda compartida con a). f, Gráfico de barras que muestra las pruebas de KS para la conservación del promotor frente regiones intergénicas aleatorias. g, Curva ROC para predecir la conservación de genes codificadores de proteínas frente a controles intergénicos aleatorios.

La figura 11 muestra la validación de los tránscritos de ARNlnc.

La figura 12 muestra la validación de los tránscritos de ARNlnc. a, b, Ejemplo representativo de dos de veinte tránscritos de arnlncpreviamente no anotados que se analizaron mediante secuenciación de Sanger para asegurar la especificidad del cebador con sus cromatogramas asociados. c, Representación de mapa de calor de la correlación entre cPCR (cantidad de cambio sobre la mediana) con ARN-seq (FPKM) de 100 tránscritos seleccionados en las líneas celulares A549, LNCaP y MCF7.

La figura 13 muestra el enriquecimiento del ensamblaje de MiTranscriptoma para regiones asociadas a enfermedades. a, Diagrama de Venn que compara la cobertura de regiones genómicas asociadas a enfermedades o rasgos para el ensamblaje de MiTranscriptoma en comparación con el catálogo de referencia. b, Gráficos circulares que comparan distribuciones de cobertura SNP GWAs intrónica y exónica del ensamblaje de MiTranscriptoma (izquierda) y catálogos de referencia (derecha). c, Gráfico de puntos que muestra el enriquecimiento de SNP de GWAS (círculos) frente a SNP aleatorios (rombos) para nuevos ARNlnc y TUCP intergénicos.

La figura 14 muestra el descubrimiento de tránscritos asociados al linaje y al cáncer. a, Mapa de calor de tránscritos específicos de linaje (LAT) nominados por SSEA. b, Mapa de calor de tránscritos específicos de cáncer (CATS) nominados por SSEA.

La figura 15 muestra tránscritos específicos de linaje y específicos de cáncer. a, Cuadrícula de gráfico de dispersión que muestra tránscritos específicos de linaje y específicos de cáncer (CLAT) nominados por SSEA. b y c, Gráficos de cajas que comparan el rendimiento de (b) CLAT enriquecidos positivamente y c) CLAT enriquecidos negativamente para cada categoría de tránscrito en 12 tipos de cáncer.

La figura 16 muestra ejemplos de tránscritos asociados a cáncer y/o linaje). a, Vista genómica del locus cromosómico 6q26-q27. b, Datos de expresión para MEAT6 (delimitado por el asterisco en a). El perfil de expresión para el cáncer y los tránscritos asociados al linaje en todas las cohortes de tejido de MiTranscriptoma se muestran para c, adenocarcinoma de pulmón, y d, cáncer de tiroides

Definiciones

Para facilitar la comprensión de la presente divulgación, a continuación se definen varios términos y frases: Tal como se usa en el presente documento, los términos "detectar", "que detecta" o "detección" pueden describir el acto general de descubrir o discernir o la observación específica de una composición. La detección de una composición puede comprender determinar la presencia o ausencia de una composición. La detección puede comprender cuantificar una composición. Por ejemplo, detectar comprende determinar el nivel de expresión de una composición. La composición puede comprender una molécula de ácido nucleico. Por ejemplo, la composición puede comprender al menos una porción de los ARNnc desvelados en el presente documento. Como alternativa o adicionalmente, la composición puede ser una composición marcada detectablemente.

Tal como se usa en el presente documento, el término "sujeto" se refiere a cualquier organismo que se analiza utilizando los procedimientos de diagnóstico descritos en el presente documento. Tales organismos incluyen preferentemente, pero sin limitación, mamíferos (por ejemplo, murinos, simios, equinos, bovinos, porcinos, perros, felinos y similares), y, lo más preferentemente, incluye seres humanos. Como alternativa, el organismo es un ave, anfibio, reptil o pez.

El término "diagnosticado" tal como se usa en el presente documento, se refiere al reconocimiento de una enfermedad por sus signos y síntomas, o análisis genético, análisis patológico, análisis histológico y similares.

Tal como se usa en el presente documento, la expresión "caracterización del cáncer en un sujeto" se refiere a la identificación de una o más propiedades de una muestra de cáncer en un sujeto, incluyendo, pero sin limitación, la presencia de tejido benigno, precanceroso o canceroso, el estadio del cáncer y el pronóstico del sujeto. Los cánceres pueden caracterizarse por la identificación de la expresión de uno o más genes marcadores de cáncer, incluyendo, pero sin limitación, los ARNnc desvelados en el presente documento.

Tal como se usa en el presente documento, la expresión "estadio del cáncer" se refiere a una evaluación cualitativa o cuantitativa del nivel de avance de un cáncer. Los criterios utilizados para determinar el estadio de un cáncer incluyen, pero sin limitación, el tamaño del tumor y la extensión de las metástasis (por ejemplo, localizadas o distantes).

Tal como se usa en el presente documento, la expresión "molécula de ácido nucleico" se refiere a cualquier molécula que contenga ácido nucleico, incluyendo, pero sin limitación, ADN o ARN. La molécula de ácido nucleico puede comprender uno o más nucleótidos. El término abarca secuencias que incluyen cualquiera de los análogos de bases conocidos de ADN y ARN, que incluyen, pero sin limitación, 4-acetilcitosina, 8-hidroxi-N6-metiladenosina, aziridinilcitosina, pseudoisocitosina, 5-(carboxihidroximetil)uracilo, 5-fluorouracilo, 5-bromouracilo, 5-carboximetilaminometil-2-tiouracilo, 5-carboximetilaminometiluracilo, dihidrouracilo, inosina, N6-isopenteniladenina, 1-metiladenina, 1-metilpseudouracilo, 1-metilguanina, 1-metilinosina, 2 ,2-dimetilguanina, 2-metiladenina, 2-metilguanina, 3-metilcitosina, 5-metilcitosina, N6-metiladenina, 7-metilguanina, 5-metilaminometiluracilo, 5-metoxiaminometil-2-tiouracilo, beta-D-manosilqueosina, 5-metoxicarbonilmetiluracilo, 5-metoxiuracilo, 2-metiltio-N6-isopenteniladenina, éster metílico de ácido uracilo-5-oxiacético, ácido uracil-5-oxiacético, oxibutoxosina, pseudouracilo, queosina, 2-tiocitosina, 5-metil-2-tiouracilo, 2-tiouracilo, 4-tiouracilo, 5-metiluracilo, éster metílico de ácido N-uracilo-5-oxiacético, ácido uracil-5-oxiacético, pseudouracilo, queosina, 2-tiocitosina y 2,6-diaminopurina. El término "gen” se refiere a una secuencia de ácido nucleico (por ejemplo, ADN), que comprende secuencias de codificación necesarias para la producción de un polipéptido, precursor o ARN (por ejemplo, ARNr, ARNt). El polipéptido se puede codificar mediante una secuencia de codificación de longitud completa o por cualquier parte de la secuencia de codificación siempre que se conserve la actividad o propiedades funcionales deseadas (por ejemplo, actividad enzimática, unión del ligando, transducción de señales, la inmunogenicidad, etc.) de la longitud total o fragmentos. El término también abarca la región de codificación de un gen estructural y las secuencias localizadas adyacentes a la región de codificación en los extremos tanto 5' como 3' para una distancia de aproximadamente 1 kb o más en cualquier extremo de modo que el gen corresponda a la longitud del ARNm de longitud completa. Las secuencias localizadas en 5' de la región de codificación y presentes en el ARNm se denominan secuencias 5' no traducidas. Las secuencias localizadas en 3' o corriente abajo de la región de codificación y presentes en el ARNm se denominan secuencias 3' no traducidas. El término "gen" abarca tanto ADNc como las formas genómicas de un gen. Una forma genómica o clon de un gen contiene la región de codificación interrumpida con secuencias no codificantes denominadas "intrones” o "regiones intermedias” o "secuencias intermedias”. Los intrones son segmentos de un gen que se transcribe en ARN nuclear (ARNhn); los intrones pueden contener elementos reguladores tales como potenciadores. Los intrones se eliminan o "empalman" del tránscrito nuclear o primario; por lo tanto, los intrones están ausentes en el tránscrito de ARN mensajero (ARNm). El ARNm funciona durante la traducción para especificar la secuencia u ordenar los aminoácidos en un polipéptido naciente.

Tal como se usa en el presente documento, el término "oligonucleótido" se refiere a una longitud corta de cadena polinucleotídica monocatenaria. Sin embargo, los oligonucleótidos suelen tener menos de 200 residuos (por ejemplo, entre 15 y 100), tal como se usa en el presente documento, el término también pretende abarcar cadenas polinucleotídicas más largas. A menudo se hace referencia a los oligonucleótidos por su longitud. Por ejemplo, un oligonucleótido de 24 residuos se denomina un "24-mer”. Los oligonucleótidos pueden formar estructuras secundarias y terciarias mediante autohibridación o mediante hibridación con otros polinucleótidos. Dichas estructuras pueden incluir, pero sin limitación, dúplex, horquillas, cruciformes, curvas y triplex.

Tal como se usa en el presente documento, los términos "complementario” o "complementariedad” se usan en referencia a polinucleótidos (es decir, una secuencia de nucleótidos) de acuerdo con las reglas de apareamiento de bases. Por ejemplo, la secuencia "5-A-G-T-3"', es complementaria a la secuencia "3-T-C-A-5"'. La complementariedad puede ser "parcial" en la que solo algunas de las bases de los ácidos nucleicos se corresponden de acuerdo con las reglas de apareamiento de bases. O, puede haber complementariedad "completa” o "total” entre los ácidos nucleicos. El grado de complementariedad entre las cadenas de ácido nucleico tiene efectos significativos sobre la eficacia y la resistencia de la hibridación entre las cadenas de ácidos nucleicos. Esto es de particular importancia en las reacciones de amplificación, así como procedimientos de detección que dependen de la unión entre ácidos nucleicos.

El término "homología” se refiere a un grado de complementariedad. Puede haber homología parcial u homología completa (es decir, identidad). Una secuencia parcialmente complementaria es una molécula de ácido nucleico que inhibe al menos parcialmente la hibridación de una molécula de ácido nucleico completamente complementaria con un ácido nucleico diana que es "sustancialmente homólogo”. La inhibición de la hibridación de la secuencia completamente complementaria con la secuencia diana se puede analizar usando un ensayo de hibridación (de transferencia Southern o Northern, hibridación en solución y similares) en condiciones de rigurosidad baja. Una secuencia o sonda sustancialmente homóloga competirá e inhibirá la unión (es decir, la hibridación) de una molécula de ácido nucleico completamente homóloga a una diana en condiciones de rigurosidad baja. Esto no quiere decir que las condiciones de baja rigurosidad sean tales que se permita la unión no específica; las condiciones de baja rigurosidad requieren que la unión de dos secuencias entre sí sea una interacción específica (es decir, selectiva). La ausencia de unión no específica puede probarse mediante el uso de un segundo objetivo que es sustancialmente no complementario (por ejemplo, menos del 30 % de identidad); en ausencia de unión no específica, la sonda no se hibridará con el segundo objetivo no complementario.

Tal como se usa en el presente documento, el término "hibridación" se usa en referencia al emparejamiento de ácidos nucleicos complementarios. La hibridación y la fuerza de la hibridación (es decir, la fuerza de la asociación entre los ácidos nucleicos) se ve afectada por factores tales como el grado de complementariedad entre los ácidos nucleicos, la rigurosidad de las condiciones implicadas, la Tm del híbrido formado y la relación G:C dentro de los ácidos nucleicos. Se dice que una molécula sencilla que contiene apareamiento de ácidos nucleicos complementarios dentro de su estructura se "autohibrida”.

Tal como se usa en el presente documento, el término "rigurosidad" se usa en referencia a las condiciones de temperatura, fuerza iónica y la presencia de otros compuestos como disolventes orgánicos, bajo las cuales se realizan hibridaciones de ácido nucleico. En "condiciones de baja rigurosidad", una secuencia de ácido nucleico de interés se hibridará con su complementaria exacta, secuencias con apareamientos erróneos de una sola base, secuencias estrechamente relacionadas (por ejemplo, secuencias con un 90 % o más de homología) y secuencias que tienen solo una homología parcial (por ejemplo, secuencias con un 50-90 % de homología). En condiciones de "rigurosidad media", una secuencia de ácido nucleico de interés se hibridará solo con su complementaria exacta, secuencias con apareamientos erróneos de una sola base y secuencias estrechamente relacionadas (por ejemplo, homología del 90 % o más). En "condiciones de alta rigurosidad" una secuencia de ácido nucleico de interés hibridará solo con su complementaria exacta y (dependiendo de condiciones tales como la temperatura) secuencias con apareamientos erróneos de una sola base. En otras palabras, en condiciones de rigurosidad alta, la temperatura se puede elevar de modo que se excluya la hibridación con las secuencias con apareamientos erróneos de una sola base.

El término "aislado" cuando se usa en relación con un ácido nucleico, como en "un oligonucleótido aislado" o "polinucleótido aislado" se refiere a una secuencia de ácido nucleico que se identifica y se separa de al menos un componente o contaminante con el que normalmente se asocia en su fuente natural. El ácido nucleico aislado está tan presente en una forma o contexto que es diferente del que se encuentra en la naturaleza. Por el contrario, los ácidos nucleicos no aislados son ácidos nucleicos, tales como ADN y ARN, presentes en el estado en el que existen en la naturaleza. Por ejemplo, una secuencia de ADN dada (por ejemplo, un gen) se encuentra en el cromosoma de la célula huésped cerca de genes vecinos; secuencias de ARN, tal como una secuencia específica de ARNm que codifica una proteína específica, se encuentran en la célula como una mezcla con numerosos otros ARNm que codifican una multitud de proteínas. Sin embargo, el ácido nucleico aislado que codifica una proteína dada incluye, a modo de ejemplo, dicho ácido nucleico en células que habitualmente expresan la proteína dada cuando el ácido nucleico está en una localización cromosómica diferente de la de las células naturales o, por otro lado, está flanqueado por una secuencia de ácido nucleico diferente de la encontrada en la naturaleza. El ácido nucleico, oligonucleótido o polinucleótido aislado puede estar presente en forma monocatenaria o bicatenaria. Cuando un ácido nucleico, oligonucleótido o polinucleótido aislado se va a utilizar para expresar una proteína, el oligonucleótido o polinucleótido contendrá como mínimo la cadena sentido o codificante (es decir, el oligonucleótido o polinucleótido puede ser monocatenario), pero puede contener las cadenas sentido y antisentido (es decir, el oligonucleótido o polinucleótido puede ser bicatenario).

Tal como se usa en el presente documento, el término “purificado” o "para purificar” se refiere a la eliminación de componentes (por ejemplo, contaminantes) de una muestra. Por ejemplo, los anticuerpos se purifican mediante la eliminación de proteínas no inmunoglobulinas contaminantes; también se purifican mediante la eliminación de inmunoglobulina que no se une a la molécula diana. La eliminación de proteínas no inmunoglobulínicas y/o la eliminación de inmunoglobulinas que no se unen a la molécula diana tienen como resultado un incremento en el porcentaje de las inmunoglobulinas reactivas a la diana en la muestra. En otro ejemplo, los polipéptidos recombinantes se expresan en células huésped bacterianas y los polipéptidos se purifican mediante la eliminación de proteínas de la célula huésped; el porcentaje de polipéptidos recombinantes se incrementa así en la muestra. El término "marcador” como se usa en el presente documento se refiere a cualquier átomo o molécula que se puede usar para proporcionar un efecto detectable (preferentemente cuantificable) y que se puede unir a un ácido nucleico o a una proteína. Los marcadores incluyen, entre otros, colorantes; radiomarcadores, tales como 32P; restos de unión, tales como biotina; haptenos, tales como digoxgenina; restos luminogénicos, fosforescentes o fluorogénicos; y pigmentos fluorescentes solos o en combinación con restos que pueden suprimir o cambiar los espectros de emisión por transferencia de energía de resonancia de fluorescencia (FRET). Los marcadores pueden proporcionar señales detectables por fluorescencia, radioactividad, colorimetría, gravimetría, difracción o absorción de rayos X, magnetismo, actividad enzimática y similares. Un marcador puede ser un resto cargado (carga positiva o negativa) o, como alternativa, puede ser de carga neutral. Los marcadores pueden incluir o consistir en una secuencia de ácido nucleico o de proteínas, siempre que la secuencia que comprende el marcador sea detectable. Los ácidos nucleicos pueden detectarse directamente sin un marcador (por ejemplo, leyendo directamente una secuencia).

Tal como se usa en el presente documento, el término "muestra" se usa en su sentido más amplio. En un sentido, se pretende incluir un espécimen o cultivo obtenido de cualquier fuente, así como muestras biológicas y ambientales. Se pueden obtener muestras biológicas de animales (incluidos seres humanos) y abarcar fluidos, sólidos, tejidos y gases. Las muestras biológicas incluyen productos sanguíneos, tales como plasma, suero y similares. No obstante, estos ejemplos no se tienen que considerar como limitantes de los tipos de muestra aplicables a la presente divulgación.

Descripción detallada de la divulgación

La invención se expone en las reivindicaciones adjuntas. Las realizaciones de la descripción que no entran dentro del ámbito de dichas reivindicaciones se proporcionan solo con fines ilustrativos y no forman parte de la presente invención. En el presente documento se proporcionan composiciones y procedimientos para diagnóstico, investigación y terapia del cáncer, incluyendo, pero sin limitación, marcadores de cáncer. En particular, en el presente documento se proporcionan ^aRⁿno codificantes como marcadores diagnósticos y dianas clínicas del cáncer.

Muchos tránscritos de ARN no son genes clásicos que codifican proteínas. Hay una abundancia de especies de ARN desconocidas no caracterizadas en el transcriptoma humano (por ejemplo, arnlnco ARN largos no codificantes). En el presente documento se proporcionan composiciones y procedimientos para utilizar dichos ARN no codificantes en procedimientos de diagnóstico, investigación y detección.

I. Procedimientos de diagnóstico y detección

La presente divulgación proporciona procedimientos de diagnóstico y detección que utilizan la detección de uno o más ARN no codificantes. Los ARN no codificantes de ejemplo incluyen, pero sin limitación, los descritos en las SEQ ID NO: 1-2309. Los procedimientos no limitantes de ejemplo se describen en el presente documento.

Cualquier muestra de paciente sospechosa de contener ARN no codificantes puede analizarse de acuerdo con los procedimientos de la presente divulgación. A modo de ejemplos no limitantes, la muestra puede ser tejido (por ejemplo, una muestra de biopsia, una muestra de biopsia de próstata o una muestra de tejido obtenida por prostatectomía), sangre, orina, semen, secreciones prostáticas o una fracción de las mismas (por ejemplo, plasma, suero, sobrenadante de orina, sedimento celular en orina, células o células de próstata). Se puede recolectar una muestra de orina inmediatamente después de un examen rectal digital (DRE) cuidadoso, lo que hace que las células prostáticas de la glándula prostática se desprendan al tracto urinario.

La muestra del paciente puede someterse a un procesamiento preliminar diseñado para aislar o enriquecer la muestra para los ARN no codificantes o las células que contienen los ARN no codificantes. Se pueden utilizar diversas técnicas conocidas por los expertos en la materia para este fin, incluyendo, pero sin limitación: centrifugación; inmunocaptura; lisis celular; amplificación de ácido nucleico; y, captura de ácido nucleico objetivo (véase, por ejemplo, la patente EP n.° 1409727).

Los ARN no codificantes pueden detectarse junto con otros marcadores en un formato multiplex o panel. Los marcadores pueden seleccionarse por su valor predictivo solos o en combinación con los ARN no codificantes descritos en el presente documento (por ejemplo, una o más de las SEQ ID NO: 1-2309). Los marcadores de ejemplo de cáncer de próstata incluyen, pero sin limitación: AMACR/P504S (patente de Estados Unidos n.° 6,262,245); PCA3 (patente de Estados Unidos n.° 7,008,765); PCGEM1 (patente de Estados Unidos n.° 6,828,429); prosteína/P501S, P503S, P504S, P509S, P510S, próstata/P703P, P710P (publicación de Estados Unidos n.° 20030185830); RAS/KRAS (Bos, Cancer Res. 49:4682-89 (1989); Kranenburg, Biochimica et Biophysica Acta 1756:81-82 (2005)); y, los desvelados en las patentes de Estados Unidos 5,854,206 y 6,034,218, 7,229,774. Los Marcadores para otros tipos de cáncer. enfermedades, infecciones y condiciones metabólicas también se contemplan para su inclusión en un formato multiplex o panel.

Se pueden utilizar formatos multiplex o de matriz para detectar múltiples marcadores en combinación. Por ejemplo, el nivel de expresión de uno o más, 2 o más, 3 o más, 4 o más, 5 o más, 10 o más, 15 o más, 20 o más, 25 o más, 30 o más, 35 o más, 40 o más 45 o más, 50 o más, 60 o más, 70 o más, 80 o más, 90 o más, 100 o más ARN no codificantes (ARNnc) se usa en la investigación, detección selectiva, composiciones y procedimientos de diagnóstico y pronóstico descritos en el presente documento. El uno o más ARNnc pueden seleccionarse del grupo que comprende.

i. Detección de ADN y ARN

Los ARN no codificantes de la presente divulgación se detectan usando diversas técnicas de ácido nucleico conocidas por los expertos en la técnica, incluyendo, pero sin limitación: secuenciación de ácido nucleico; hibridación de ácidos nucleicos; y, amplificación de ácido nucleico.

Los procedimientos, composiciones y kits pueden comprender uno o más ARNnc. Los procedimientos, composiciones y kits pueden comprender 2 o más, 3 o más, 4 o más, 5 o más, 6 o más, 7 o más, 8 o más, 9 o más, 10 o más, 15 o más, 20 o más, 25 o más, 30 o más, 40 o más, 45 o más, 50 o más, 55 o más, 60 o más, 70 o más, 80 o más, 90 o más, 100 o más, 110 o más, 120 o más, 130 o más, 140 o más, 150 o más ARNnc.

El uno o más ARNnc pueden seleccionarse de, por ejemplo, los descritos en las SEQ ID NO: 1-2309.

1. Secuenciación

Se pueden utilizar procedimientos de secuenciación de ácido nucleico (por ejemplo, para la detección de ácidos nucleicos amplificados). La tecnología proporcionada en el presente documento puede ser utilizada en una tecnología de secuenciación de segunda generación (también conocida como Next Generation o Next-Gen), de tercera generación (también conocida como Next-Next-Gen) o cuarta generación (también conocida como N3-Gen) que incluye, pero sin limitación, pirosecuenciación, secuenciación por ligadura, secuenciación de una sola molécula, secuencia por síntesis (SBS), secuenciación de semiconductores, clonal paralelo masivo, SBS paralela masiva de molécula única, masiva paralela de molécula única en tiempo real, tecnología de nanoporos en tiempo real de una sola molécula paralela masiva, etc. Morozova y Marra proporcionan una revisión de algunas de esas tecnologías en Genomics, 92: 255 (2008). Los expertos en la materia reconocerán que debido a que el ARN es menos estable en la célula y más propenso al ataque de nucleasas experimentalmente, el ARN generalmente se transcribe inversamente a ADN antes de la secuenciación. Una serie de técnicas de secuenciación de ADN son adecuadas, incluyendo metodologías de secuenciación basadas en fluorescencia (véase, por ejemplo, Birren y col., Genome Analysis: Analyzing DNA, 1, Cold Spring Harbor, N.Y.). La tecnología puede encontrar uso en técnicas de secuenciación automática entendidas en dicha técnica. La tecnología presente puede encontrar uso en la secuenciación paralela de amplicones repartidos (publicación PCT N.°: WO2006084132 de Kevin McKernan y col.). La tecnología puede encontrar uso en la secuenciación de ADN mediante la extensión paralela de oligonucleótidos (véase, por ejemplo, la patente de Estados Unidos N.° 5,750,341 de Macevicz y col., y la patente de Estados Unidos n.° 6,306,597 de Macevicz y col.). Ejemplos adicionales de técnicas de secuenciación en las que la tecnología encuentra uso incluyen la tecnología de la polonia Church (Mitra y col., 2003, Analytical Biochemistry 320, 55-65; Shendure y col., 2005 Science 309, 1728-1732; la patente de Estados Unidos n.° 6,432,360, la patente de Estados Unidos n.° 6,485,944, la patente de Estados Unidos n.° 6,511,803), la tecnología de pirosecuenciación de 454 picotítulo (Margulies y col., 2005 Nature 437, 376-380; US 20050130173), la tecnología de adición de base única Solexa (Bennett y col., 2005, Pharmacogenomics, 6, 373-382; patente de los Estados Unidos n.° 6.787.308; patente de Estados Unidos n.° 6,833,246), la tecnología de secuenciación de firma masivamente paralela Lynx (Brenner y col. (2000). Nat. Biotechnol. 18:630-634; patente de Estados Unidos n.° 5.695.934; patente de Estados Unidos n.° 5,714,330), y la tecnología de colonia Adessi PCR (Adessi y col. (2000). Nucleic Acid Res. 28, E87; documento WO 00018957). Los procedimientos de secuenciación de próxima generación (NGS) comparten la característica común de estrategias de alto rendimiento masivamente paralelas, con el objetivo de reducir los costes en comparación con los procedimientos de secuenciación más antiguos (véase, por ejemplo, Voelkerding y col., Clinical Chem., 55: 641-658, 2009; MacLean y col., Nature Rev. Microbiol., 7: 287-296). Los procedimientos de NGS se pueden dividir en términos generales en los que normalmente utilizan la amplificación del molde y los que no. Los procedimientos que requieren amplificación incluyen pirosecuenciación comercializada por Roche como las plataformas tecnológicas 454 (por ejemplo, GS 20 y GS FLX), Tecnologías de la vida/Ion Torrent, la plataforma Solexa comercializada por Illumina, GnuBio y la plataforma de ligadura y detección de oligonucleótidos compatibles (SOLiD) comercializada por Applied Biosystems. Los abordajes de no amplificación, también conocidos como secuenciación de una sola molécula, están ilustrados por la plataforma HeliScope comercializada por Helicos BioSciences y las plataformas emergentes comercializadas por VisiGen, Oxford Nanopore Technologies Ltd., y Pacific Biosciences, respectivamente.

En pirosecuenciación (Voelkerding y col., Clinical Chem., 55: 641-658, 2009; MacLean y col., Nature Rev. Microbiol., 7: 287-296; patente de Estados Unidos n.° 6.210.891; patente de Estados Unidos 6,258,568), el ADN de molde está fragmentado, reparado por los extremos, ligado a adaptadores, y amplificado clonalmente in situ mediante la captura de moléculas molde individuales con perlas que llevan oligonucleótidos complementarios a los adaptadores. Cada perla portadora de un tipo de molde único se compartimenta en una microvesícula de agua en aceite y el molde se amplifica por clonación utilizando una técnica denominada PCR en emulsión. La emulsión se rompe después de la amplificación y las perlas se depositan en los pocillos individuales de una placa de picotitulación que funciona como una celda de flujo durante las reacciones de secuenciación. La introducción iterativa ordenada de cada uno de los cuatro reactivos dNTP se produce en la celda de flujo en presencia de enzimas secuenciadoras e indicadores luminiscentes, tal como luciferasa. En el caso de que se agregue un dNTP apropiado al extremo 3' del cebador de secuenciación, la producción resultante de ATP provoca una descarga de luminiscencia dentro del pocillo, que se graba con una cámara CCD. Es posible lograr longitudes de lectura mayores o iguales a 400 bases, y se pueden lograr 106 lecturas de secuencia, resultando en hasta 500 millones de pares de bases (Mb) de secuencia.

En la plataforma Solexa/Illumina (Voelkerding y col., Clinical Chem., 55: 641-658, 2009; MacLean y col., Nature Rev. Microbiol., 7: 287-296; patente de Estados Unidos n.° 6.833.246; patente de Estados Unidos n.° 7.115.400; patente de Estados Unidos n.° 6,969,488), los datos de secuenciación se producen en forma de lecturas de menor longitud. En este procedimiento, el ADN fragmentado de cadena sencilla se repara por los extremos para generar extremos romos fosforilados en 5', seguido de la adición mediada por Klenow de una sola base A en el extremo 3' de los fragmentos. La adición A facilita la adición de oligonucleótidos adaptadores sobresalientes en T, que posteriormente se utilizan para capturar las moléculas adaptadoras del molde en la superficie de una celda de flujo que está tachonada con anclajes de oligonucleótidos. El anclaje se usa como cebador de PCR, pero debido a la longitud del molde y su proximidad a otros oligonucleótidos de ancla cercanos, la extensión por PCR da como resultado el "arqueamiento" de la molécula para hibridarse con un oligonucleótido de anclaje adyacente para formar una estructura puente en la superficie de la celda de flujo. Estos bucles de ADN están desnaturalizados y escindidos. A continuación, las cadenas directas se secuencian con terminadores de colorante reversibles. La secuencia de nucleótidos insertados se determina mediante detección de la fluorescencia posterior a la incorporación, con cada flúor y bloque eliminados antes del siguiente ciclo de adición de dNTP. La longitud de lectura de secuencia varía de 36 nucleótidos a más de 250 nucleótidos, con una producción total superior a mil millones de pares de nucleótidos por análisis.

La secuenciación de moléculas de ácido nucleico utilizando la tecnología SOLiD (Voelkerding y col., Clinical Chem., 55: 641-658, 2009; MacLean y col., Nature Rev. Microbiol., 7: 287-296; patente de Estados Unidos n.° 5.912.148; patentes de Estados Unidos n.° 6,130,073) también implica fragmentación del molde, ligadura a los adaptadores de oligonucleótidos, fijación a las perlas y amplificación clonal por PCR de emulsión. Después de esto, las perlas portadoras del molde se inmovilizan sobre una superficie derivatizada de una celda de flujo de vidrio, y se hibrida un cebador complementario al oligonucleótido adaptador. Sin embargo, en lugar de utilizar este cebador para la extensión en 3', en su lugar, se usa para proporcionar un grupo fosfato 5 'para la ligadura a sondas de interrogación que contienen dos bases específicas de sonda seguidas por 6 bases degeneradas y uno de los cuatro marcadores fluorescentes. En el sistema SOLiD, las sondas problema tienen 16 combinaciones posibles de las dos bases en el extremo 3' de cada sonda y una de los cuatro flúor en el extremo 5'. color flúor, y por lo tanto identidad de cada sonda, corresponde a esquemas de codificación de espacio de color especificados. Múltiples ciclos (generalmente 7) de hibridación de la sonda, ligadura y detección de flúor son seguidas por desnaturalización, y, después, una segunda ronda de secuenciación usando un cebador que está desplazado una base con respecto al cebador inicial. De esta manera, la secuencia molde se puede reconstruir computacionalmente y las bases del molde se interrogan dos veces, resultando en una mayor precisión. La longitud de lectura de la secuencia promedia 35 nucleótidos y la producción general supera los 4 mil millones de bases por ciclo de secuenciación.

La tecnología puede encontrar uso en la secuenciación de nanoporos (véase, por ejemplo, Astier y col., J. Am. Chem. Soc. 2006 Feb 8; 128(5):1705-10). La teoría detrás de la secuenciación de nanoporos tiene que ver con lo que ocurre cuando un nanoporo se sumerge en un fluido conductor y se aplica un potencial (voltaje) a través de él. En estas condiciones, se puede observar una ligera corriente eléctrica debido a la conducción de iones a través del nanoporo, y la cantidad de corriente es extremadamente sensible al tamaño del nanoporo. A medida que cada base de un ácido nucleico pasa a través del nanoporo, esto provoca un cambio en la magnitud de la corriente a través del nanoporo que es diferente para cada una de las cuatro bases, permitiendo así que se determine la secuencia de la molécula de ADN.

La tecnología puede encontrar uso en HeliScope por Helicos BioSciences (Voelkerding y col., Clinical Chem., 55: 641-658, 2009; MacLean y col., Nature Rev. Microbiol., 7: 287-296; patente de Estados Unidos n.° 7.169.560; patente de Estados Unidos n.° 7.282.337; patente de Estados Unidos n.° 7.482.120; patente de Estados Unidos n.° 7.501.245; patente de Estados Unidos n.° 6.818.395; patente de Estados Unidos n.° 6.911.345; la patente de Estados Unidos n.° 7,501,245). El ADN molde está fragmentado y poliadenilado en el extremo 3', con la adenosina final portadora de un marcador fluorescente. Los fragmentos molde poliadenilados desnaturalizados se unen a oligonucleótidos poli(dT) en la superficie de una celda de flujo. Las ubicaciones físicas iniciales de las moléculas molde capturadas se registran con una cámara CCD y, a continuación, el marcador se escinde y se lava. La secuenciación se logra mediante la adición de polimerasa y la adición en serie de reactivos de dNTP marcados con fluorescencia. Los eventos de incorporación dan como resultado una señal fluorescente correspondiente al dNTP y la señal es capturada por una cámara CCD antes de cada ronda de adición de dNTP. La longitud de lectura de secuencia varía de 25 a 50 nucleótidos, con una producción total superior a mil millones de pares de nucleótidos por análisis.

La tecnología Ion Torrent es un procedimiento de secuenciación de ADN basado en la detección de iones de hidrógeno que se liberan durante la polimerización del ADN (véase, por ejemplo, Science 327 (5970): 1190 (2010); la solicitud de patente de Estados Unidos Pub. n.° 20090026082, 20090127589, 20100301398, 20100197507, 20100188073 y 20100137143). Un micropocillo contiene una cadena de ADN molde que se va a secuenciar. Debajo de la capa de micropocillos hay un sensor de iones ISFET hipersensible. Todas las capas están contenidas dentro de un chip semiconductor CMOS, similar al usado en la industria electrónica. Cuando se incorpora un dNTP en la cadena complementaria en crecimiento, se libera un ion hidrógeno, que activa un sensor de iones hipersensible. Si las repeticiones de homopolímero están presentes en la secuencia molde, se incorporarán múltiples moléculas de dNTP en un solo ciclo. Esto conduce a un número correspondiente de hidrógenos liberados y una señal electrónica proporcionalmente más alta. Esta tecnología difiere de otras tecnologías de secuenciación en que no se utilizan nucleótidos u ópticas modificados. La precisión por base del secuenciador Ion Torrent es ~ 99,6 % para 50 lecturas de bases, con ~ 100 Mb a 100 Gb generados por ciclo. La longitud de lectura es de 100-300 pares de bases. La precisión para las repeticiones de homopolímeros de 5 repeticiones de longitud es de ~ 98 %. Los beneficios de la secuenciación de semiconductores iónicos son la velocidad de secuenciación rápida y los bajos costes iniciales y operativos.

La tecnología se utiliza en otro enfoque de secuenciación de ácido nucleico desarrollado por Stratos Genomics, Inc. e implica el uso de Xpandomers. Este proceso de secuenciación típicamente incluye proporcionar una cadena hija producida por una síntesis dirigida por el molde. La cadena hija generalmente incluye una pluralidad de subunidades acopladas en una secuencia correspondiente a una secuencia contigua de nucleótidos de todo o una porción de un ácido nucleico diana en el que las subunidades individuales comprenden una unión, al menos una sonda o resto de nucleobase, y al menos un enlace selectivamente escindible. El o los enlaces que se pueden escindir de forma selectiva se escinden para producir un Xpandomero de una longitud más larga que la pluralidad de subunidades de la cadena hija. El Xpandómero incluye típicamente los enlaces y los elementos indicadores para analizar la información genética en una secuencia correspondiente a la secuencia de nucleótidos contigua de todo o una parte del ácido nucleico diana. A continuación se detectan los elementos indicadores del Xpandómero. Los detalles adicionales relacionados con los abordajes basados en Xpandómero se describen en, por ejemplo, la patente de Estados Unidos n.° 20090035777, titulada "Secuenciación de ácido nucleico de alto rendimiento por expansión" presentada el 19 de junio de 2008.

Otros procedimientos de secuenciación de una sola molécula incluyen la secuenciación en tiempo real por síntesis utilizando una plataforma VisiGen (Voelkerding y col., Clinical Chem., 55: 641-58, 2009; patente de Estados Unidos n.° 7.329.492; la solicitud de patente de Estados Unidos n.° de ser 11/671956; la solicitud de patente de Estados Unidos n.° de ser. 11/781166) en el que el molde de ADN cebado inmovilizado se somete a extensión de cadena usando una polimerasa modificada fluorescentemente y moléculas aceptoras fluorescentes, dando como resultado una transferencia de energía de resonancia de fluorescencia detectable (FRET) tras la adición de nucleótidos.

2. Hibridación

Ejemplos ilustrativos no limitantes de técnicas de hibridación de ácido nucleico incluyen, pero sin limitación, hibridación in situ (ISH), micromatriz y transferencia Southern o Northern. La hibridación in situ (ISH) es un tipo de hibridación que utiliza una cadena de ADN o ARN complementaria marcada como sonda para localizar una secuencia específica de ADN o ARN en una porción o sección de tejido (in situ), o, si el tejido es lo suficientemente pequeño, todo el tejido (ISH total). La ISH de ADN puede usarse para determinar la estructura de los cromosomas. La ISH de ARN se utiliza para medir y localizar ARNm y otros tránscritos (por ejemplo, ARNnc) dentro de las secciones de tejido o "montaje completo". Las células y los tejidos de la muestra se tratan, generalmente, para fijar los transcritos diana en su lugar y aumentar el acceso de la sonda. La sonda se hibrida con la secuencia diana a temperatura elevada y, luego, el exceso de sonda se lava. La sonda que estaba marcada con bases marcadas con radio, fluorescencia o antígeno se localiza y cuantifica en el tejido mediante autorradiografía, microscopia de fluorescencia o inmunohistoquímica, respectivamente. La ISH también puede usar dos o más sondas, marcada con radiactividad u otros marcadores no radiactivos, para detectar simultáneamente dos o más tránscritos.

Por ejemplo, los ARNnc se detectan usando hibridación fluorescente in situ (FISH). Los ensayos FISH pueden utilizar cromosomas artificiales bacterianos (BAC). Estos se han usado ampliamente n el proyecto de secuenciación del genoma humano (véase Nature 409: 953-958 (2001)) y los clones que contienen BAC específicos están disponibles a través de distribuidores que pueden localizarse a través de muchas fuentes, por ejemplo, NCBI. A cada clon BAC del genoma humano se le ha dado un nombre de referencia que lo identifica inequívocamente. Estos nombres se pueden usar para encontrar la secuencia GenBank correspondiente y para solicitar copias del clon a un distribuidor.

La presente divulgación proporciona además un procedimiento para realizar un ensayo FISH en la muestra del paciente. Los procedimientos desvelados en el presente documento pueden comprender realizar un ensayo FISH en una o más células, tejidos, órganos o fluidos que rodean tales células, tejidos y órganos. En algunos casos, los procedimientos desvelados en el presente documento comprenden además realizar un ensayo FISH en células de próstata humanas, tejido prostático humano o en el fluido que rodea dichas células prostáticas humanas o tejido prostático humano. Como alternativa o adicionalmente, los procedimientos desvelados en el presente documento comprenden realizar un ensayo FISH en células mamarias, células pulmonares, células pancreáticas, células hepáticas, tejido mamario, tejido pulmonar, tejido pancreático, tejido hepático, o en el líquido que rodea las células o tejidos. Los protocolos específicos son bien conocidos en la técnica y pueden adaptarse fácilmente para la presente divulgación. La orientación con respecto a la metodología se puede obtener de muchas referencias, que incluyen: In situ Hybridization: Medical Applications (eds. G. R. Coulton y J. de Belleroche), Kluwer Academic Publishers, Boston (1992); In situ Hybridization: En Neurobiology; Advances in Methodology (eds. J. H. Eberwine, K. L. Valentino y J. D. Barchas), Oxford University Press Inc., Inglaterra (1994); In situ Hybridization: A Practical Approach (ed. D. G. Wilkinson), Oxford University Press Inc., Inglaterra (1992)); Kuo y col., Am. J. Hum. Genet. 49:112-119 (1991); Klinger y col., Am. J. Hum. Genet. 51:55-65 (1992); y Ward y col., Am. J. Hum. Genet. 52:854-865 (1993)). También hay kits que están disponibles comercialmente y que proporcionan protocolos para realizar ensayos FISH (disponibles en, por ejemplo, Oncor, Inc., Gaithersburg, m D). Las patentes que proporcionan orientación sobre la metodología incluyen la patente de Estados Unidos 5,225,326; 5,545,524; 6.121.489 y 6.573.043. Todas estas referencias pueden usarse junto con referencias similares en la técnica y con la información provista en la sección de Ejemplos en el presente documento para establecer etapas de procedimiento convenientes para un laboratorio en particular.

El uno o más ARNnc pueden detectarse realizando una o más reacciones de hibridación. La una o más reacciones de hibridación pueden comprender una o más matrices de hibridación, reacciones de hibridación, reacciones en cadena de hibridación, reacciones de hibridación isotérmica, reacciones de hibridación de ácido nucleico, o una combinación de las mismas. La una o más matrices de hibridación pueden comprender genotipado de matrices de hibridación, hibridación de matriz de detección proporcional, matrices de hibridación de ADN, macromatrices, micromatrices, matrices de oligonucleótidos de alta densidad, matrices de hibridación genómica, matrices de hibridación comparativas, o una combinación de las mismas.

3. Micromatrices

Los diferentes tipos de ensayos biológicos se denominan micromatrices, que incluyen, pero sin limitación: micromatrices de ADN (por ejemplo, micromatrices de ADNc y micromatrices de oligonucleótidos); micromatrices de proteínas; micromatrices de tejidos; transfección o micromatrices celulares; micromatrices de compuestos químicos; y, micromatrices de anticuerpos. Una micromatriz de ADN, comúnmente conocida como chip genético, chip de ADN o biochip, es una colección de manchas microscópicas de ADN unidas a una superficie sólida (por ejemplo, chip de vidrio, plástico o de silicio) formando una matriz con el fin de crear perfiles de expresión o monitorizar niveles de expresión para miles de genes simultáneamente. Los segmentos de ADN fijados se conocen como sondas, miles de las cuales se pueden utilizar en una sola micromatriz de ADN. Las micromatrices se pueden usar para identificar genes o tránscritos de enfermedades (por ejemplo, ARNnc) mediante la comparación de la expresión de genes en enfermedades y células normales. Las micromatrices pueden fabricarse utilizando diversas tecnologías., incluyendo, pero sin limitación: impresión con alfileres de punta fina sobre portaobjetos de vidrio; fotolitografía con máscaras prefabricadas; fotolitografía utilizando dispositivos dinámicos de microespejo; impresión por chorro de tinta; o, electroquímica en matrices de microelectrodos.

3. Amplificación

Los procedimientos desvelados en el presente documento pueden comprender realizar una o más reacciones de amplificación. Los ácidos nucleicos (por ejemplo, ARNnc) pueden amplificarse antes o simultáneamente con la detección. La realización de una o más reacciones de amplificación puede comprender una o más amplificaciones basadas en PCR, amplificaciones no basadas en PCR, o una combinación de las mismas. Ejemplos ilustrativos no limitantes de técnicas de hibridación de ácido nucleico incluyen, pero sin limitación, reacción en cadena de la polimerasa (PCR), reacción en cadena de la polimerasa con transcriptasa inversa (RT-PCR), PCR anidada, amplificación lineal, amplificación de desplazamiento múltiple (MDA), SDA en tiempo real, amplificación por círculo rodante, amplificación de círculo a círculo amplificación mediada por transcripción (TMA), reacción en cadena de la ligasa (LCR), amplificación de desplazamiento de cadena (SDA) y amplificación basada en secuencia de ácido nucleico (NASBA). Los expertos en la materia reconocerán que ciertas técnicas de amplificación (por ejemplo, PCR) requieren que el ARN se transcriba de forma inversa al ADN antes de la amplificación (por ejemplo, RT-PCR), mientras que otras técnicas de amplificación amplifican directamente el ARN (por ejemplo, TMA y NASBA).

La reacción en cadena de la polimerasa (patentes de Estados Unidos n.° 4,683,195, 4,683,202, 4,800,159 y 4,965,188), habitualmente conocida como ^pC^r, usa múltiples ciclos de desnaturalización, hibridación de pares de cebadores a cadenas opuestas, y extensión de cebadores para aumentar exponencialmente el número de copias de una secuencia de ácido nucleico diana. En una variación llamada RT-PCR, la transcriptasa inversa (RT) se usa para hacer un ADN complementario (ADNc) a partir de ARNm, y, a continuación, el ADNc se amplifica mediante PCR para producir múltiples copias de ADN. Para otras diversas permutaciones de PCR, véase, por ejemplo, las patentes de Estados Unidos n.° 4,683,195, 4,683,202 y 4,800,159; Mullis y col., Meth. Enzymol. 155: 335 (1987); y, Murakawa y col., DNA 7: 287 (1988).

La amplificación mediada por transcripción (patentes de Estados Unidos n.° 5,480,784 y 5,399,491), habitualmente conocida como TMA, sintetiza múltiples copias de una secuencia de ácido nucleico diana autocatalíticamente en condiciones de temperatura, fuerza iónica y pH sustancialmente contantes en el que múltiples copias de ARN de la secuencia diana generan autocatalíticamente copias adicionales. Véase, por ejemplo, las patentes de Estados Unidos n.° 5,399,491 y 5,824,518. En una variación descrita en la publicación de Estados Unidos n.° 20060046265, la TMA incorpora opcionalmente el uso de restos bloqueantes, restos de terminación y otros restos modificadores para mejorar la sensibilidad y precisión del proceso TMA.

La reacción en cadena de la ligasa (Weiss, R., Science 254: 1292 (1991)), habitualmente conocida como LCR, utiliza dos conjuntos de oligonucleótidos de ADN complementarios que se hibridan con regiones adyacentes del ácido nucleico diana. Los oligonucleótidos de ADN están unidos covalentemente por una ADN ligasa en ciclos repetidos de desnaturalización térmica, hibridación y ligadura para producir un producto oligonucleotídico ligado bicatenario detectable.

La amplificación de desplazamiento de cadena (Walker, G. y col., Proc. Natl. Acad. Sci. USA 89: 392-396 (1992); patentes de Estados Unidos n.° 5,270,184 y 5,455,166), habitualmente conocida como SDA, usa ciclos de hibridación de pares de secuencias de cebadores para cadenas opuestas de una secuencia diana, extensión de cebadores en presencia de un dNTPaS para producir un producto dúplex de extensión de cebador hemifosforotioado, muesca mediada por endonucleasa de un sitio de reconocimiento de endonucleasa de restricción hemimodificada y extensión de cebador mediada por polimerasa desde el extremo 3' de la muesca para desplazar una cadena existente y producir una cadena para la siguiente ronda de hibridación del cebador, muesca y desplazamiento de cadena, dando como resultado la amplificación geométrica del producto. La SDA termofílico (tSDA) utiliza endonucleasas y polimerasas termofílicas a temperaturas más altas en esencialmente el mismo procedimiento (patente EP n.° 0684315).

Otros procedimientos de amplificación incluyen, por ejemplo: amplificación basada en secuencia de ácido nucleico (patente de Estados Unidos N.° 5,130,238), habitualmente conocida como NASBA; una que usa una ARN replicasa para amplificar la propia molécula de la sonda (Lizardi y col., BioTechnol. 6: 1197 (1988)), habitualmente conocida como Qp replicasa; un procedimiento de amplificación basado en transcripción (Kwoh y col., Proc. Natl. Acad. Sci. USA 86:1173 (1989)); y, replicación de secuencia autosostenida (Guatelli y col., Proc. Natl. Acad. Sci. USA 87: 1874 (1990)). Para más información sobre los procedimientos de amplificación conocidos, consulte Persing, David H.,"In Vitro Nucleic Acid Amplification Techniques" en Diagnostic Medical Microbiology: Principles and Applications (Persing y col., Eds.), pp. 51-87 (American Society for Microbiology, Washington, DC (1993)).

ii. Análisis de datos

Se puede usar un programa de análisis basado en ordenador para traducir los datos brutos generados por el ensayo de detección (por ejemplo, la presencia, ausencia o cantidad de un marcador o marcadores dados) en datos de valor predictivo para un clínico. El clínico puede acceder a los datos predictivos usando cualquier medio adecuado. Por lo tanto, la presente divulgación proporciona el beneficio adicional de que el clínico, quien probablemente no esté formado en genética o biología molecular, no tiene que entender los datos en bruto. Los datos se presentan directamente al clínico en su forma más útil. Después, el clínico podrá usar inmediatamente la información con el fin de optimizar los cuidados del sujeto.

La presente divulgación contempla cualquier procedimiento capaz de recibir, procesar y transmitir la información hacia y desde los laboratorios que realizan los ensayos, proveedores de información, personal médico y sujetos. Por ejemplo, se obtiene una muestra (por ejemplo, una biopsia o una muestra de suero u orina) de un sujeto y se envía a un servicio de elaboración de perfiles (por ejemplo, laboratorio clínico en un centro médico, negocio de perfiles genómicos, etc.), ubicado en cualquier parte del mundo (por ejemplo, en un país diferente al país donde reside el sujeto o donde la información se utiliza en última instancia) para generar datos sin procesar. Cuando la muestra comprende un tejido u otra muestra biológica, el sujeto puede visitar un centro médico para obtener la muestra y enviarla al centro de perfilado, o los sujetos pueden recolectar la muestra ellos mismos (por ejemplo, una muestra de orina) y enviarla directamente a un centro de creación de perfiles. Cuando la muestra comprende información biológica previamente determinada, el sujeto puede enviar directamente la información al servicio de creación de perfiles (por ejemplo, un ordenador puede escanear una tarjeta de información que contiene la información y transmitir los datos a un ordenador del centro de creación de perfiles utilizando un sistema de comunicación electrónica). Una vez recibida por el servicio de creación de perfiles, la muestra se procesa y se genera un perfil (es decir, datos de expresión), específico para la información diagnóstica o pronóstica deseada para el sujeto.

A continuación, los datos del perfil se preparan en un formato adecuado para la interpretación de uno o más personal médico (por ejemplo, un clínico encargado del tratamiento, asistente médico, enfermera o farmacéutico). Por ejemplo, en lugar de proporcionar datos de expresión en bruto, el formato preparado puede representar un diagnóstico o evaluación de riesgo (por ejemplo, presencia o ausencia de un ARNnc) para el sujeto, junto con recomendaciones para opciones de tratamiento particulares. Los datos pueden mostrarse al personal médico por cualquier procedimiento adecuado. Por ejemplo, el servicio de creación de perfiles genera un informe que puede imprimirse para el personal médico (por ejemplo, en el punto de atención) o mostrarse al personal médico en un monitor de ordenador.

La información se puede analizar primero en el centro de atención o en una instalación regional. Después, los datos brutos se envían a una instalación de procesamiento central para su posterior análisis y/o para convertir los datos brutos en información útil para el personal médico o un paciente. La instalación de procesamiento central ofrece la ventaja de la privacidad (todos los datos se almacenan en una instalación central con protocolos de seguridad uniformes), velocidad y uniformidad del análisis de datos. A continuación, la instalación de procesamiento central puede controlar el destino de los datos tras el tratamiento del sujeto. Por ejemplo, utilizando un sistema de comunicación electrónica, la instalación central puede proporcionar datos al personal médico, el sujeto o investigadores.

El sujeto puede ser capaz de acceder directamente a los datos usando el sistema de comunicación electrónica. Según los resultados, el sujeto puede elegir intervención o asesoramiento adicionales.

Los datos se pueden usar para fines de investigación. Por ejemplo, a continuación, los datos pueden usarse para optimizar aún más la inclusión o eliminación de marcadores como indicadores útiles de una condición o etapa particular de la enfermedad o como diagnóstico complementario para determinar el curso de acción del tratamiento.

Mi. Composiciones y kits

Las composiciones para su uso en los procedimientos de diagnóstico descritos en el presente documento incluyen, pero sin limitación, sondas, oligonucleótidos de amplificación, y similares.

Las composiciones y kits pueden comprender 1 o más, 2 o más, 3 o más, 4 o más, 5 o más, 6 o más, 7 o más, 8 o más, 9 o más, 10 o más, 11 o más, 12 o más, 13 o más, 14 o más, 15 o más, 20 o más, 25 o más, 30 o más, 35 o más, 40 o más, 45 o más, 50 o más, 60 o más, 70 o más, 80 o más, 90 o más, 100 o más, 110 o más, 120 o más sondas.

Las sondas pueden hibridarse a 1 o más, 2 o más, 3 o más, 4 o más, 5 o más, 6 o más, 7 o más, 8 o más, 9 o más, 10 o más, 11 o más, 12 o más, 13 o más, 14 o más, 15 o más, 20 o más, 25 o más, 30 o más, 35 o más, 40 o más, 45 o más, 50 o más, 60 o más, 70 o más, 80 o más, 90 o más, 100 o más, 110 o más, 120 o más moléculas diana. Las moléculas diana pueden ser un ARNnc, ARN, ADN, ADNc, ARNm, una porción o fragmento del mismo o una combinación de los mismos. En algunos casos, al menos una porción de las moléculas diana son ARNnc. Las sondas pueden hibridarse a 1 o más, 2 o más, 3 o más, 4 o más, 5 o más, 6 o más, 7 o más, 8 o más, 9 o más, 10 o más, 11 o más, 12 o más, 13 o más, 14 o más, 15 o más, 20 o más, 25 o más, 30 o más, 35 o más, 40 o más, 45 o más, 50 o más, 60 o más, 70 o más, 80 o más, 90 o más, 100 o más, 110 o más, 120 o más ARNnc desvelados en el presente documento (por ejemplo, SEQ ID NO: 1-2309).

Normalmente, las sondas comprenden una secuencia específica diana. La secuencia específica diana puede ser complementaria de al menos una porción de la molécula diana. La secuencia específica diana puede ser al menos aproximadamente un 50 % o más, 55 % o más, 60 % o más, 65 % o más, 70 % o más, 75 % o más, 80 % o más, 85 % o más, 90 % o más, 95 % o más, 97 % o más, 98 % o más, o 100 % complementaria de al menos una porción de la molécula diana.

La secuencia específica diana puede ser de al menos aproximadamente 5 o más, 6 o más, 7 o más, 8 o más, 9 o más, 10 o más, 11 o más, 12 o más, 13 o más, 14 o más, 15 o más, 16 o más, 17 o más, 18 o más, 19 o más, 20 o más nucleótidos de longitud. En algunos casos, la secuencia específica diana está entre aproximadamente 8 y aproximadamente 20 nucleótidos, 10 a aproximadamente 18 nucleótidos, o 12 a aproximadamente 16 nucleótidos de longitud.

Las composiciones y kits pueden comprender una pluralidad de sondas, en las que las dos o más sondas de la pluralidad de sondas comprenden secuencias específicas de la diana idénticas. Las composiciones y kits pueden comprender una pluralidad de sondas, en las que las dos o más sondas de la pluralidad de sondas comprenden diferentes secuencias específicas de la diana.

Las sondas pueden comprender además una secuencia única. La secuencia única no es complementaria al ARNnc. La secuencia única puede comprender un marcador, código de barras o identificador único. La secuencia única puede comprender una secuencia aleatoria, secuencia no aleatoria, o una combinación de las mismas. La secuencia única puede ser de al menos aproximadamente 5 o más, 6 o más, 7 o más, 8 o más, 9 o más, 10 o más, 11 o más, 12 o más, 13 o más, 14 o más, 15 o más, 16 o más, 17 o más, 18 o más, 19 o más, 20 o más, 22 o más, 24 o más, 26 o más, 28 o más, 30 o más nucleótidos de longitud. En algunos casos, la secuencia única tiene entre aproximadamente 8 y aproximadamente 20 nucleótidos, 10 a aproximadamente 18 nucleótidos, o 12 a aproximadamente 16 nucleótidos de longitud.

La secuencia única puede permitir la diferenciación de dos o más moléculas diana. Las dos o más moléculas diana pueden tener secuencias idénticas. Por lo tanto, la secuencia única puede permitir la cuantificación de una molécula diana. Como alternativa, las dos o más moléculas diana pueden tener diferentes secuencias. Por lo tanto, la secuencia única puede permitir la detección de las moléculas diana. Las composiciones y kits pueden comprender una pluralidad de sondas para cuantificar una o más moléculas diana. Las composiciones y kits pueden comprender una pluralidad de sondas para detectar una o más moléculas diana.

La secuencia única puede permitir la diferenciación de dos o más muestras. Las composiciones y kits pueden comprender 1 o más, 2 o más, 3 o más, 4 o más, 5 o más, 6 o más, 7 o más, 8 o más, 9 o más, 10 o más, 11 o más, 12 o más, 13 o más, 14 o más, 15 o más, 20 o más, 25 o más, 30 o más conjuntos de sondas para diferenciar dos o más muestras de uno o más sujetos. Las dos o más muestras pueden ser de dos o más sujetos diferentes. Por ejemplo, las composiciones y los kits comprenden un primer conjunto de sondas que comprende una primera secuencia única que es específica para un primer sujeto y un segundo conjunto de sondas que componen una segunda secuencia única que es específica para un segundo sujeto. Las composiciones y kits pueden comprender además uno o más conjuntos de sondas con una o más secuencias únicas para diferenciar uno o más sujetos adicionales.

Las composiciones y kits pueden comprender 2 o más conjuntos de sondas para diferenciar de 2 o más, 3 o más, 4 o más, 5 o más, 6 o más, 7 o más, 8 o más, 9 o más, 10 o más, 11 o más, 12 o más, 13 o más, 14 o más, 15 o más, 20 o más, 25 o más, 30 o más muestras de 1 o más sujetos.

Las composiciones y kits pueden comprender 2 o más conjuntos de sondas para diferenciar 1 o más, 2 o más, 3 o más, 4 o más, 5 o más, 6 o más, 7 o más, 8 o más, 9 o más, 10 o más, 11 o más, 12 o más, 13 o más, 14 o más, 15 o más, 20 o más, 25 o más, 30 o más muestras de una o más células, tejidos, órganos, fluido corporal, o una combinación de los mismos.

Las composiciones y kits pueden comprender 2 o más conjuntos de sondas para diferenciar muestras de 1 o más, 2 o más, 3 o más, 4 o más, 5 o más, 6 o más, 7 o más, 8 o más, 9 o más, 10 o más, 11 o más, 12 o más, 13 o más, 14 o más, 15 o más, 20 o más, 25 o más, 30 o más sujetos.

Como alternativa o adicionalmente, las dos o más muestras pueden ser de dos o más puntos de tiempo diferentes del mismo sujeto o sujetos diferentes. Por ejemplo, las composiciones y los kits comprenden un primer conjunto de sondas que comprende una primera secuencia única que es específica para un primer sujeto y un segundo conjunto de sondas que componen una segunda secuencia única que es específica para un segundo sujeto. Las composiciones y kits pueden comprender 2 o más conjuntos de sondas para diferenciar muestras de 1 o más, 2 o más, 3 o más, 4 o más, 5 o más, 6 o más, 7 o más, 8 o más, 9 o más, 10 o más, 11 o más, 12 o más, 13 o más, 14 o más, 15 o más, 20 o más, 25 o más, 30 o más puntos de tiempo. Los puntos de tiempo pueden ser cada 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24 o más horas. Los puntos de tiempo pueden ser cada 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 o más días. Los puntos de tiempo pueden ser cada 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 o más semanas. Los puntos de tiempo pueden ser cada 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 o más meses. Los puntos de tiempo pueden ser cada 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 o más. años. Los puntos de tiempo pueden ser antes del diagnóstico, después del diagnóstico, antes del tratamiento, durante el tratamiento, después del tratamiento, antes de la metástasis, después de la metástasis, antes de la remisión, durante la remisión, o una combinación de los mismos.

Las composiciones y kits pueden comprender una primera sonda que comprende una primera secuencia específica diana y una primera secuencia única y una segunda sonda que comprende una segunda secuencia específica diana y una segunda secuencia única, en las que la primera secuencia específica diana y la segunda secuencia específica de a diana son idénticas y la primera secuencia única y la segunda secuencia única son diferentes. Las composiciones y kits pueden comprender una primera sonda que comprende una primera secuencia específica diana y una primera secuencia única y una segunda sonda que comprende una segunda secuencia específica diana y una segunda secuencia única, en las que la primera secuencia específica diana y la segunda secuencia específica diana son diferentes y la primera secuencia única y la segunda secuencia única son diferentes. Las composiciones y kits pueden comprender una primera sonda que comprende una primera secuencia específica diana y una primera secuencia única y una segunda sonda que comprende una segunda secuencia específica diana y una segunda secuencia única, en las que la primera secuencia específica diana y la segunda secuencia específica diana son idénticas y la primera secuencia única y la segunda secuencia única son idénticas. Las composiciones y kits pueden comprender una primera sonda que comprende una primera secuencia específica diana y una primera secuencia única y una segunda sonda que comprende una segunda secuencia específica diana y una segunda secuencia única, en las que la primera secuencia específica diana y la segunda secuencia específica diana son diferentes y la primera secuencia única y la segunda secuencia única son idénticas.

Las sondas pueden comprender además una secuencia universal. La secuencia universal puede comprender un sitio de unión al cebador. La secuencia universal puede permitir la detección de la secuencia diana. La secuencia universal puede permitir la amplificación de la secuencia diana. La secuencia universal puede permitir la transcripción o la transcripción inversa de la secuencia diana. La secuencia universal puede permitir la secuenciación de la secuencia diana.

Las composiciones de sonda y anticuerpo de la presente divulgación también se pueden proporcionar sobre un soporte sólido. El soporte sólido puede comprender una o más perlas, placas, superficies sólidas, pocillos, chips, o una combinación de los mismos. Las perlas pueden ser magnéticas, recubiertas de anticuerpos, proteína A reticulada, proteína G reticulada, recubiertas con estreptavidina, conjugadas con oligonucleótido, recubiertas de sílice, o una combinación de los mismos. Ejemplos de perlas incluyen, pero sin limitación, perlas Ampure, perlas AMPure XP, perlas de estreptavidina, perlas de agarosa, perlas magnéticas, Dynabeads®, microperlas mAc S®, perlas conjugadas con anticuerpos (por ejemplo, microperla anti-inmunoglobulina), perlas conjugadas con proteína A, perlas conjugadas con proteína G, perlas conjugadas de proteína A/G, perlas conjugadas con proteína L, perlas conjugadas con oligo-dT, perlas de sílice, perlas de sílice, microperla anti-biotina, microperla anti-fluorocromo y perlas magnéticas con terminación carboxi BcMag™.

Las composiciones y kits pueden comprender cebadores y pares de cebadores capaces de amplificar moléculas diana, o fragmentos o subsecuencias o complementarios de las mismas. Las secuencias de nucleótidos de las moléculas diana pueden proporcionarse en medios legibles por ordenador para aplicaciones in silico y como base para el diseño de cebadores apropiados para la amplificación de una o más moléculas diana.

Los cebadores basados en las secuencias de nucleótidos de las moléculas diana pueden diseñarse para su uso en la amplificación de las moléculas diana. Para su uso en reacciones de amplificación como PCR, se puede usar un par de cebadores. La composición exacta de las secuencias del cebador no es crítica para la divulgación, pero para la mayoría de las aplicaciones, los cebadores pueden hibridarse con secuencias específicas de las moléculas diana o la secuencia universal de la sonda en condiciones estrictas, particularmente en condiciones de alta rigurosidad, como se conoce en la técnica. Los pares de cebadores se eligen generalmente para generar un producto de amplificación de al menos aproximadamente 15 o más, 20 o más, 30 o más, 40 o más, 50 o más, 60 o más, 70 o más, 80 o más, 90 o más, 100 o más, 125 o más, 150 o más, 175 o más, 200 o más, 250 o más, 300 o más, 350 o más, 400 o más, 450 o más, 500 o más, 600 o más, 700 o más, 800 o más, 900 o más o 1.000 o más nucleótidos. Los algoritmos para la selección de secuencias de cebadores son generalmente conocidos y están disponibles en paquetes de software comerciales. Estos cebadores pueden usarse en ensayos estándar cuantitativos o cualitativos basados en PCR para evaluar los niveles de expresión de los tránscritos de moléculas diana. Como alternativa, estos cebadores pueden usarse en combinación con sondas, tales como balizas moleculares, en amplificaciones usando PCR en tiempo real.

Un experto en la materia también aprecia que la secuencia de nucleótidos de toda la longitud del cebador no necesita derivarse de la secuencia diana. Por lo tanto, por ejemplo, el cebador puede comprender secuencias de nucleótidos en los extremos 5' y/o 3' que no se derivan de la molécula diana. Las secuencias de nucleótidos que no se derivan de la secuencia de nucleótidos de la molécula diana pueden proporcionar funcionalidad adicional al cebador. Por ejemplo, pueden proporcionar una secuencia de reconocimiento de enzimas de restricción o una "etiqueta" que facilite la detección, aislamiento, purificación o inmovilización sobre un soporte sólido. Como alternativa, los nucleótidos adicionales pueden proporcionar una secuencia autocomplementaria que permite que el cebador adopte una configuración de horquilla. Dichas configuraciones pueden ser necesarias para ciertos cebadores, por ejemplo, baliza molecular y cebadores Scorpion, que se pueden usar en técnicas de hibridación de soluciones.

Las sondas o cebadores pueden incorporar restos útiles en la detección, aislamiento, purificación o inmovilización, si se desea. Tales restos son bien conocidos en la técnica (véase, por ejemplo, Ausubel y col., (1997 y actualizaciones) Current Protocols in Molecular Biology, Wiley & Sons, Nueva York) y se eligen de manera que la capacidad de la sonda para hibridarse con su molécula diana no se vea afectada.

Ejemplos de restos adecuados son marcadores detectables, tales como radioisótopos, fluoróforos, quimiluminóforos, enzimas, partículas coloidales y micropartículas fluorescentes, así como antígenos, anticuerpos, haptenos, avidina/estreptavidina, biotina, haptenos, cofactores/sustratos enzimáticos, enzimas y similares.

Opcionalmente, se puede unir o incorporar un marcador a una sonda o cebador para permitir la detección y/o cuantificación de un polinucleótido diana que representa la molécula diana de interés. El polinucleótido diana puede ser la propia molécula diana de ARN expresada, una copia de ADNc del mismo, o un producto de amplificación derivado del mismo, y puede ser la cadena positiva o negativa, siempre que pueda detectarse específicamente en el ensayo que se utiliza. De forma similar, un anticuerpo puede estar marcado.

En ciertos formatos multiplex, los marcadores utilizados para detectar diferentes moléculas diana pueden ser distinguibles. El marcador se puede unir directamente (por ejemplo, mediante enlace covalente) o indirectamente, por ejemplo, a través de una molécula puente o una serie de moléculas (por ejemplo, una molécula o complejo que puede unirse a un componente de ensayo, o a través de miembros de un par de unión que puede incorporarse a componentes de ensayo, por ejemplo, biotina-avidina o estreptavidina). Muchos marcadores están disponibles comercialmente en formas activadas que pueden usarse fácilmente para dicha conjugación (por ejemplo, a través de la acilación de amina), o los marcadores pueden unirse mediante esquemas de conjugación conocidos o determinables, muchos de los cuales se conocen en la técnica.

Los marcadores útiles en la divulgación descrita en el presente documento incluyen cualquier sustancia que pueda detectarse cuando se une o incorpora a la molécula diana. Se puede usar cualquier procedimiento de detección efectivo, incluyendo óptico, espectroscópico, eléctrico, piezoeléctrico, magnético, dispersión de Raman, resonancia de plasmón superficial, colorimétrico, calorimétrico, etc. Un marcador se selecciona típicamente de un cromóforo, un lumíforo, un fluoróforo, un miembro de un sistema de inactivación, un cromógeno, un hapteno, un antígeno, una partícula magnética, un material que exhibe óptica no lineal, un nanocristal semiconductor, una nanopartícula de metal, una enzima, un anticuerpo o porción de unión o equivalente del mismo, un aptámero, y un miembro de un par de unión, y combinaciones de los mismos. Se pueden usar esquemas de inactivación, en los que un inactivador y un fluoróforo como miembros de un par de inactivación pueden usarse en una sonda, tal que se produce un cambio en los parámetros ópticos al unirse a la diana introducir o inactivar la señal del fluoróforo. Un ejemplo de tal sistema es una baliza molecular. Los sistemas de inactivador/fluoróforo adecuados son conocidos en la técnica. El marcador puede estar unido a través de diversos enlaces intermedios. Por ejemplo, un polinucleótido diana puede comprender una especie de unión a biotina, y un marcador ópticamente detectable puede conjugarse con biotina y luego unirse al polinucleótido diana marcado. De forma similar, un sensor polinucleotídico puede comprender una especie inmunológica tal como un anticuerpo o fragmento, y se puede agregar un anticuerpo secundario que contiene un marcador ópticamente detectable.

Los cromóforos útiles en los procedimientos descritos en el presente documento incluyen cualquier sustancia que pueda absorber energía y emitir luz. Para ensayos multiplexados, se puede usar una pluralidad de cromóforos de señalización diferentes con espectros de emisión detectablemente diferentes. El cromóforo puede ser un lumóforo o un fluoróforo. Los fluoróforos típicos incluyen pigmentos fluorescentes, nanocristales semiconductores, quelatos de lantánidos, colorantes específicos de polinucleótidos y proteína verde fluorescente.

Los esquemas de codificación pueden usarse opcionalmente, que comprenden partículas codificadas y/o etiquetas codificadas asociadas con diferentes polinucleótidos de la divulgación. Diversos esquemas de codificación diferentes son conocidos en la técnica, incluyendo fluoróforos, incluidos los SCNC, metales depositados y etiquetas de RF. Los polinucleótidos de las moléculas diana descritas pueden emplearse como sondas para detectar la expresión de moléculas diana, para esquemas de amplificación de ligadura, o pueden usarse como cebadores para esquemas de amplificación de toda o una porción de una molécula diana. Cuando se amplifica, cualquiera de las cadenas producidas por amplificación puede proporcionarse en forma purificada y/o aislada.

En algunos casos, las composiciones y kits comprenden una biblioteca de biomarcadores. La biblioteca de biomarcadores puede comprender 1 o más, 2 o más, 3 o más, 4 o más, 5 o más, 6 o más, 7 o más, 8 o más, 9 o más, 10 o más, 11 o más, 12 o más, 13 o más, 14 o más, 15 o más, 20 o más, 25 o más, 30 o más, 35 o más, 40 o más, 45 o más, 50 o más, 60 o más, 70 o más, 80 o más, 90 o más, 100 o más, 110 o más, 120 o más moléculas diana. Las moléculas diana pueden ser un ARNnc, ARN, ADN, ADNc, ARNm, una porción o fragmento del mismo o una combinación de los mismos. En algunos casos, al menos una porción de las moléculas diana son ARNnc. La biblioteca de biomarcadores puede comprender 1 o más, 2 o más, 3 o más, 4 o más, 5 o más, 6 o más, 7 o más, 8 o más, 9 o más, 10 o más, 11 o más, 12 o más, 13 o más, 14 o más, 15 o más, 20 o más, 25 o más, 30 o más, 35 o más, 40 o más, 45 o más, 50 o más, 60 o más, 70 o más, 80 o más, 90 o más, 100 o más, 110 o más, 120 o más ARNnc desvelados en el presente documento.

En algunas realizaciones, hay un kit para analizar un cáncer que comprende (a) un conjunto de sondas que comprende una pluralidad de sondas que comprenden secuencias específicas diana complementarias a una o más moléculas diana, en el que las una o más moléculas diana comprenden uno o más ARNnc; y (b) un modelo o algoritmo informático para analizar un nivel de expresión y/o perfil de expresión de una o más moléculas diana en una muestra. Las moléculas diana pueden comprender una o más de las descritas por las SEQ ID NO: 1-2309, o una combinación de las mismas.

En algunas realizaciones, es un kit para analizar un cáncer que comprende (a) un conjunto de sondas que comprende una pluralidad de sondas que comprenden secuencias específicas diana complementarias a una o más moléculas diana de una biblioteca de biomarcadores; y (b) un modelo o algoritmo informático para analizar un nivel de expresión y/o perfil de expresión de una o más moléculas diana en una muestra. Las muestras de control y/o ácidos nucleicos pueden proporcionarse opcionalmente en el kit. Las muestras de control pueden incluir tejidos y/o ácidos nucleicos obtenidos de o representativos de muestras tumorales de un sujeto sano, así como tejidos y/o ácidos nucleicos obtenidos de o representativos de muestras tumorales de sujetos diagnosticados con cáncer. Se pueden proporcionar instrucciones para usar el kit para realizar uno o más procedimientos de la divulgación, y se pueden proporcionar en cualquier medio fijo. Las instrucciones pueden estar ubicadas dentro o fuera de un recipiente o alojamiento, y/o pueden estar impresas en el interior o exterior de cualquier superficie del mismo. Un kit puede estar en forma multiplex para detectar y/o cuantificar simultáneamente uno o más polinucleótidos diana diferentes que representan las moléculas diana expresadas.

iv. Dispositivos

También se proporcionan dispositivos útiles para realizar procedimientos de la divulgación. Los dispositivos pueden comprender medios para caracterizar el nivel de expresión de una molécula diana de la divulgación, por ejemplo componentes para realizar uno o más procedimientos de extracción de ácido nucleico, amplificación y/o detección. Dichos componentes pueden incluir una o más de una cámara de amplificación (por ejemplo, un termociclador), un lector de placas, un espectrofotómetro, aparato de electroforesis capilar, un lector de chips y/o componentes robóticos de manejo de muestras. Estos componentes finalmente pueden obtener datos que reflejan el nivel de expresión de las moléculas diana utilizadas en el ensayo que se está empleando.

Los dispositivos pueden incluir un medio de excitación y/o detección. Cualquier instrumento que proporcione una longitud de onda que pueda excitar una especie de interés y sea más corta que la(s) longitud(es) de onda de emisión a detectar puede usarse para la excitación. Los dispositivos disponibles comercialmente pueden proporcionar longitudes de onda de excitación adecuadas, así como un componente de detección adecuado.

Las fuentes de excitación de ejemplo incluyen una fuente de luz UV de banda ancha, como una lámpara de deuterio con un filtro apropiado, la salida de una fuente de luz blanca como una lámpara de xenón o una lámpara de deuterio después de pasar a través de un monocromador para extraer las longitudes de onda deseadas, un láser de gas de onda continua (cw), un láser de diodo de estado sólido, o cualquiera de los láseres pulsados. La luz emitida se puede detectar a través de cualquier dispositivo o técnica adecuada; se conocen muchos enfoques adecuados en la técnica. Por ejemplo, se puede usar un fluorímetro o espectrofotómetro para detectar si la muestra de prueba emite luz de una longitud de onda característica de un marcador utilizada en un ensayo.

Los dispositivos típicamente comprenden un medio para identificar una muestra dada y para vincular los resultados obtenidos a esa muestra. Tales medios pueden incluir marcadores manuales, códigos de barras y otros indicadores que pueden vincularse a un recipiente de muestra y/o pueden incluirse opcionalmente en la muestra misma, por ejemplo, cuando se añade una partícula codificada a la muestra. Los resultados pueden estar vinculados a la muestra, por ejemplo en una memoria de ordenador que contiene una designación de muestra y un registro de los niveles de expresión obtenidos de la muestra. La vinculación de los resultados a la muestra también puede incluir una vinculación a un receptáculo de muestra particular en el dispositivo, que también está vinculado a la identidad de la muestra.

Los dispositivos también comprenden un medio para correlacionar los niveles de expresión de las moléculas diana que se estudian con un pronóstico del resultado de la enfermedad. Tales medios pueden comprender una o más de diversas técnicas correlativas, incluyendo tablas de búsqueda, algoritmos, modelos multivariados y combinaciones lineales o no lineales de modelos de expresión o algoritmos. Los niveles de expresión pueden convertirse en una o más puntuaciones de probabilidad, reflejando una probabilidad de que el paciente que proporciona la muestra pueda exhibir un resultado de enfermedad particular. Los modelos y/o algoritmos pueden proporcionarse en un formato legible por máquina y, opcionalmente, pueden designar además una modalidad de tratamiento para un paciente o clase de pacientes.

El dispositivo también comprende medios de salida para emitir el estado de la enfermedad, pronóstico y/o modalidad de tratamiento. Tales medios de salida pueden adoptar cualquier forma que transmita los resultados a un paciente y/o un proveedor de atención médica, y pueden incluir un monitor, un formato impreso, o ambos. El dispositivo puede usar un sistema informático para realizar una o más de las etapas proporcionadas.

Los procedimientos desvelados en el presente documento también pueden comprender la transmisión de datos/información. Por ejemplo, los datos/información derivados de la detección y/o cuantificación del objetivo pueden transmitirse a otro dispositivo y/o instrumento. En algunos casos, la información obtenida de un algoritmo también puede transmitirse a otro dispositivo y/o instrumento. La transmisión de los datos/información puede comprender la transferencia de datos/información de una primera fuente a una segunda fuente. Las fuentes primera y segunda pueden estar en la misma ubicación aproximada (por ejemplo, dentro de la misma habitación, edificio, bloque, campus). Como alternativa, las fuentes primera y segunda pueden estar en múltiples ubicaciones (por ejemplo, múltiples ciudades, estados, países, continentes, etc.).

La transmisión de los datos/información puede comprender transmisión digital o transmisión analógica. La transmisión digital puede comprender la transferencia física de datos (un flujo de bits digital) a través de un canal de comunicación punto a punto o punto a múltiples puntos. Ejemplos de tales canales son los cables de cobre, fibra óptica, canales de comunicación inalámbrica y medios de almacenamiento. Los datos pueden representarse como una señal electromagnética, tal como un voltaje eléctrico, onda de radio, microondas o señal infrarroja.

La transmisión analógica puede comprender la transferencia de una señal analógica que varía continuamente. Los mensajes pueden representarse mediante una secuencia de pulsos mediante un código de línea (transmisión de banda base) o mediante un conjunto limitado de formas de onda que varían continuamente (transmisión de banda de paso), utilizando un procedimiento de modulación digital. La modulación de la banda de paso y la desmodulación correspondiente (también conocida como detección) pueden llevarse a cabo mediante equipos modernos. Según la definición más común de señal digital, las señales de banda base y de banda de paso que representan flujos de bits se consideran transmisión digital, mientras que una definición alternativa solo considera la señal de banda base como digital, y la transmisión de datos digitales en banda de paso como una forma de conversión de digital a analógico.

v. Muestras

Las muestras para su uso con las composiciones y kits y en los procedimientos de la presente divulgación comprenden ácidos nucleicos adecuados para proporcionar información de expresión de ARN. En principio, la muestra biológica de la que se obtiene y analiza el ARN expresado para la expresión de la molécula diana puede ser cualquier material sospechoso de comprender tejido o células cancerosas. La muestra puede ser una muestra biológica utilizada directamente en un procedimiento de divulgación. Como alternativa, la muestra puede ser una muestra preparada a partir de una muestra biológica.

La muestra o porción de la muestra que comprende o se sospecha que comprende tejido o células cancerosas puede ser cualquier fuente de material biológico, incluyendo células, tejido, secreciones o fluidos, incluyendo fluidos corporales. Ejemplos no limitativos de la fuente de la muestra incluyen un aspirado, una biopsia con aguja, una pastilla de citología, una preparación de tejido a granel o una sección del mismo obtenida, por ejemplo, mediante cirugía o autopsia, líquido linfático, sangre, plasma, suero, tumores y órganos. Como alternativa o adicionalmente, la fuente de la muestra puede ser orina, bilis, excremento, sudor, lágrimas, fluido vaginal, líquido cefalorraquídeo y heces. En algunos casos, Las fuentes de la muestra son las secreciones. En algunos casos, las secreciones son exosomas.

Las muestras pueden ser muestras de archivo, que tienen un resultado médico conocido y documentado, o pueden ser muestras de pacientes actuales cuyo resultado médico final aún no se conoce.

La muestra se puede diseccionar antes del análisis molecular. La muestra puede prepararse mediante macrodisección de una muestra de tumor a granel o una porción de la misma, o puede tratarse mediante microdisección, por ejemplo a través de Microdisección de captura láser (LCM).

La muestra se puede proporcionar inicialmente en diversos estados, como tejido fresco, tejido fresco congelado, aspirados de aguja fina aspira y puede estar fijada o sin fijar. Con frecuencia, los laboratorios médicos preparan rutinariamente muestras médicas en un estado fijado, lo que facilita el almacenamiento de tejidos. Se pueden usar diversos fijadores para fijar el tejido para estabilizar la morfología de las células, y se pueden usar solos o en combinación con otros agentes. Los fijadores de ejemplo incluyen agentes de reticulación, alcoholes, acetona, solución de Bouin, solución Zenker, solución Hely, solución de ácido ósmico y solución de Carnoy.

Los fijadores de reticulación pueden comprender cualquier agente adecuado para formar dos o más enlaces covalentes, por ejemplo, un aldehído. Las fuentes de aldehídos típicamente utilizados para la fijación incluyen formaldehído, paraformaldehído, glutaraldehído o formalina. Preferentemente, el agente de reticulación comprende formaldehído, que puede incluirse en su forma nativa o en forma de paraformaldehído o formalina. Un experto en la materia apreciaría que para las muestras en las que se han utilizado fijadores de reticulación, pueden ser necesarios pasos preparatorios especiales que incluyen, por ejemplo, etapas de calentamiento y digestión con proteinasa-k. Se pueden usar uno o más alcoholes para fijar el tejido, solos o en combinación con otros fijadores. Los alcoholes de ejemplo utilizados para la fijación incluyen metanol, etanol e isopropanol.

La fijación en formalina se usa con frecuencia en laboratorios médicos. La formalina comprende tanto un alcohol, típicamente metanol y formaldehído, los cuales pueden actuar para fijar una muestra biológica.

Ya sea fijada o no fijada, la muestra biológica se puede incluir opcionalmente en un medio de inclusión. Medios de inclusión de ejemplo utilizados en histología, incluyendo parafina, Tissue-Tek® V.I.P.TM, Paramat, Paramat Extra, Paraplast, Paraplast X-tra, Paraplast Plus, Cera de inclusión en parafina despegable, Cera de poliéster, Carbowax Polietilenglicol, PolyfinTM, Medio de congelación de tejidos TFMFM, Compuesto Cryo-GefTM y OCT (Electron Microscopy Sciences, Hatfield, PA). Antes del análisis molecular, el material de inclusión puede eliminarse mediante cualquier técnica adecuada, como se conoce en la técnica. Por ejemplo, cuando la muestra está incluida en cera, el material de inclusión puede eliminarse mediante extracción con disolvente(s) orgánico(s), por ejemplo xilenos. Los kits están disponibles comercialmente para eliminar los medios de inclusión de los tejidos. Las muestras o secciones de las mismas pueden someterse a etapas de procesamiento adicionales según sea necesario, por ejemplo, etapas de hidratación o deshidratación en serie.

La muestra puede ser una muestra biológica fijada incluida en cera. Con frecuencia, las muestras de los laboratorios médicos se proporcionan como muestras fijadas incluidas en cera, más comúnmente como tejidos fijados en formalina incluidos en parafina (FFPE).

Cualquiera que sea la fuente de la muestra biológica, el polinucleótido diana que finalmente se analiza puede prepararse sintéticamente (en el caso de secuencias de control), pero típicamente se purifica de la fuente biológica y se somete a una o más etapas preparativas. El ARN puede purificarse para eliminar o disminuir uno o más componentes no deseados de la muestra biológica o para concentrarlo. Por el contrario, cuando el ARN está demasiado concentrado para el ensayo particular, se puede diluir.

II. Aplicaciones de selección de fármacos

La presente divulgación proporciona ensayos de selección de fármacos (por ejemplo, para detectar fármacos contra el cáncer). Los procedimientos de selección de la presente divulgación utilizan ARNnc. Por ejemplo, la presente divulgación proporciona procedimientos de selección de compuestos que alteran la expresión o actividad de los ARNnc. Los compuestos pueden aumentar la expresión o actividad de los ARNnc. Los compuestos pueden disminuir la expresión o actividad de los ARNnc. Los compuestos o agentes pueden interferir con la transcripción, interactuando, por ejemplo, con la región promotora. Los compuestos o agentes pueden interferir con el ARNm (por ejemplo, por interferencia de ARN, tecnologías de antisentido, etc.). Los compuestos o agentes pueden interferir con las vías que están corriente arriba o corriente abajo de la actividad biológica de los ARNnc. Los compuestos candidatos pueden ser agentes de ARN antisentido o interferentes (por ejemplo, oligonucleótidos) dirigidos contra ARNnc. Los compuestos candidatos pueden ser anticuerpos o moléculas pequeñas que se unen específicamente a un regulador de ARNnc. Como alternativa o adicionalmente, los compuestos candidatos son productos de expresión que inhiben la función biológica de los ARNnc.

En un procedimiento de selección, los compuestos candidatos se evalúan por su capacidad para alterar la expresión de los ARNnc poniendo en contacto un compuesto con una célula que expresa un ARNnc y luego analizando el efecto de los compuestos candidatos sobre la expresión. El efecto de los compuestos candidatos sobre la expresión de ARNnc puede analizarse detectando el nivel de ARNnc expresado por la célula. La expresión de ARNm se puede detectar por cualquier procedimiento adecuado.

III. Diagnóstico, pronóstico y monitorización

Los procedimientos, composiciones y kits desvelados en el presente documento pueden usarse para el diagnóstico, pronóstico y/o monitorización del estado o resultado de un cáncer en un sujeto. El diagnóstico, predicción y/o monitorización del estado o el resultado de un cáncer puede comprender determinar la malignidad o el potencial maligno del cáncer o tumor. Como alternativa, el diagnóstico, predicción y/o monitorización del estado o resultado de un cáncer comprende determinar el estadio del cáncer. El diagnóstico, predicción y/o monitorización del estado o el resultado de un cáncer puede comprender determinar el grado del tumor. Como alternativa, el diagnóstico, predicción y/o monitorización del estado o el resultado de un cáncer comprende evaluar el riesgo de desarrollar un cáncer. El diagnóstico, predicción y/o monitorización del estado o el resultado de un cáncer puede incluir evaluar el riesgo de recurrencia del cáncer. El diagnóstico, predicción y/o monitorización del estado o el resultado de un cáncer puede comprender determinar la eficacia del tratamiento.

El diagnóstico, predicción y/o monitorización del estado o el resultado de un cáncer puede comprender determinar un régimen terapéutico. La determinación de un régimen terapéutico puede comprender administrar un agente terapéutico contra el cáncer. Como alternativa, determinar el tratamiento para el cáncer puede comprender modificar un régimen terapéutico. La modificación de un régimen terapéutico puede comprender aumentar, disminuir o terminar un régimen terapéutico.

En algunos casos, los procedimientos desvelados en el presente documento pueden diagnosticar, pronosticar y/o monitorizar el estado o el resultado de un cáncer en un sujeto con una precisión de al menos aproximadamente el 50 %. En otros casos, los procedimientos desvelados en el presente documento pueden diagnosticar, pronosticar y/o monitorizar el estado o el resultado de un cáncer en un sujeto con una precisión de al menos aproximadamente el 60 %. Los procedimientos desvelados en el presente documento pueden diagnosticar, pronosticar y/o monitorizar el estado o el resultado de un cáncer en un sujeto con una precisión de al menos aproximadamente el 65 %. Como alternativa, los procedimientos desvelados en el presente documento pueden diagnosticar, pronosticar y/o monitorizar el estado o el resultado de un cáncer en un sujeto con una precisión de al menos aproximadamente el 70 %. En algunos casos, los procedimientos desvelados en el presente documento pueden diagnosticar, pronosticar y/o monitorizar el estado o el resultado de un cáncer en un sujeto con una precisión de al menos aproximadamente el 75 %. En otros casos, los procedimientos desvelados en el presente documento pueden diagnosticar, pronosticar y/o monitorizar el estado o el resultado de un cáncer en un sujeto con una precisión de al menos aproximadamente el 80 %. Los procedimientos desvelados en el presente documento pueden diagnosticar, pronosticar y/o monitorizar el estado o el resultado de un cáncer en un sujeto con una precisión de al menos aproximadamente el 85 %. Como alternativa, los procedimientos desvelados en el presente documento pueden diagnosticar, pronosticar y/o monitorizar el estado o el resultado de un cáncer en un sujeto con una precisión de al menos aproximadamente el 90 %. Los procedimientos desvelados en el presente documento pueden diagnosticar, pronosticar y/o monitorizar el estado o el resultado de un cáncer en un sujeto con una precisión de al menos aproximadamente el 95 %.

La divulgación también abarca cualquiera de los procedimientos desvelados en el presente documento donde la sensibilidad es al menos aproximadamente un 45 %. La sensibilidad puede ser al menos aproximadamente del 50 %. La sensibilidad puede ser al menos aproximadamente del 55 %. La sensibilidad puede ser al menos aproximadamente del 60 %. La sensibilidad puede ser al menos aproximadamente del 65 %. La sensibilidad puede ser al menos aproximadamente del 70 %. La sensibilidad puede ser al menos aproximadamente del 75 %. La sensibilidad puede ser al menos aproximadamente del 80 %. La sensibilidad puede ser al menos aproximadamente del 85 %. La sensibilidad puede ser al menos aproximadamente del 90 %. La sensibilidad puede ser al menos aproximadamente del 95 %.

La divulgación también abarca cualquiera de los procedimientos desvelados en el presente documento donde el nivel de expresión determina el estado o el resultado de un cáncer en el sujeto con al menos aproximadamente un 45 % de especificidad. El nivel de expresión puede determinar el estado o el resultado de un cáncer en el sujeto con al menos aproximadamente un 50 % de especificidad. El nivel de expresión puede determinar el estado o el resultado de un cáncer en el sujeto con al menos aproximadamente un 55 % de especificidad. El nivel de expresión puede determinar el estado o el resultado de un cáncer en el sujeto con al menos aproximadamente un 60 % de especificidad. El nivel de expresión puede determinar el estado o el resultado de un cáncer en el sujeto con al menos un 65 % de especificidad. El nivel de expresión puede determinar el estado o el resultado de un cáncer en el sujeto con al menos aproximadamente un 70 % de especificidad. El nivel de expresión puede determinar el estado o el resultado de un cáncer en el sujeto con al menos un 75 % de especificidad. El nivel de expresión puede determinar el estado o el resultado de un cáncer en el sujeto con al menos aproximadamente un 80 % de especificidad. El nivel de expresión puede determinar el estado o el resultado de un cáncer en el sujeto con al menos aproximadamente un 85 % de especificidad. El nivel de expresión puede determinar el estado o el resultado de un cáncer en el sujeto con al menos aproximadamente un 90 % de especificidad. El nivel de expresión puede determinar el estado o el resultado de un cáncer en el sujeto con al menos aproximadamente un 95 % de especificidad.

Cáncer

Los sistemas, composiciones y procedimientos desvelados en el presente documento pueden usarse para diagnosticar, monitorizar y/o predecir el estado o el resultado de un cáncer. En general, un cáncer se caracteriza por el crecimiento incontrolado de células anormales en cualquier parte del cuerpo. Las células anormales pueden denominarse células cancerosas, células malignas o células tumorales. Muchos cánceres y las células anormales que componen el tejido canceroso se identifican con el nombre del tejido del que se originaron las células anormales (por ejemplo, cáncer de mama, cáncer de pulmón, cáncer de colon, cáncer de próstata, cáncer de páncreas, cáncer de tiroides). El cáncer no está limitado a los seres humanos; los animales y otros organismos vivos pueden contraer cáncer.

En algunos casos, el cáncer puede ser maligno. Como alternativa, el cáncer puede ser benigno. El cáncer puede ser un cáncer recurrente y/o refractario. La mayoría de los cánceres se pueden clasificar como carcinoma, sarcoma, leucemia, linfoma, mieloma o cáncer del sistema nervioso central.

El cáncer puede ser un sarcoma. Los sarcomas son cánceres de hueso, cartílago, grasa, músculo, vasos sanguíneos u otro tejido conjuntivo o de soporte. Los sarcomas incluyen, pero sin limitación, cáncer de hueso, fibrosarcoma, condrosarcoma, sarcoma de Ewing, hemangioendotelioma maligno, schwanoma maligno, schwanoma vestibular bilateral, osteosarcoma, sarcomas de partes blandas (por ejemplo, sarcoma alveolar de partes blandas, angiosarcoma, cistosarcoma filoides, dermatofibrosarcoma, tumor desmoide, sarcoma epitelioide, osteosarcoma extraesquelético, fibrosarcoma, hemangiopericitoma, hemangiosarcoma, sarcoma de Kaposi, leiomiosarcoma, liposarcoma, linfangiosarcoma, linfosarcoma, histiocitoma fibroso maligno, neurofibrosarcoma, rabdomiosarcoma y sarcoma sinovial).

Como alternativa, el cáncer puede ser un carcinoma. Los carcinomas son cánceres que comienzan en las células epiteliales, que son células que cubren la superficie del cuerpo, producen hormonas y forman glándulas. A modo de ejemplo no limitante, los carcinomas incluyen cáncer de mama, cáncer de páncreas, cáncer de pulmón, cáncer de colon, cáncer colorrectal, cáncer rectal, cáncer de riñón, cáncer de vejiga, cáncer de estómago, cáncer de próstata, cáncer de hígado, cáncer de ovario, cáncer de cerebro, cáncer vaginal, cáncer vulvar, cáncer de útero, cáncer oral, cáncer peneano, cáncer testicular, cáncer de esófago, cáncer de piel, cáncer de las trompas de Falopio, cáncer de cabeza y cuello, cáncer del estroma gastrointestinal, adenocarcinoma, melanoma cutáneo o intraocular, cáncer de la región anal, cáncer del intestino delgado, cáncer del sistema endocrino, cáncer de la glándula tiroides, cáncer de la glándula paratiroides, cáncer de la glándula suprarrenal, cáncer de la uretra, cáncer de la pelvis renal, cáncer del uréter, cáncer del endometrio, cáncer de cuello uterino, cáncer de la glándula pituitaria, neoplasias del sistema nervioso central (SNC), linfoma primario del SNC, glioma del tronco encefálico y tumores del eje espinal. En algunos casos, el cáncer es un cáncer de piel, tal como un carcinoma basocelular, escamoso, melanoma, no melanoma o queratosis actínica (solar). Preferentemente, el cáncer es cáncer de próstata. Como alternativa, el cáncer puede ser un cáncer de tiroides. El cáncer puede ser un cáncer pancreático. En algunos casos, el cáncer es cáncer de vejiga.

En algunos casos, el cáncer es un cáncer de pulmón. El cáncer de pulmón puede comenzar en las vías respiratorias que se ramifican en la tráquea para llegar a los pulmones (bronquios) o los pequeños sacos aéreos de los pulmones (los alveolos). Los cánceres de pulmón incluyen carcinoma de pulmón no microcítico (CPNM), carcinoma de pulmón microcítico y mesotelioma. Los ejemplos de CPNM incluyen carcinoma de células escamosas, adenocarcinoma y carcinoma de células grandes. El mesotelioma puede ser un tumor canceroso del revestimiento del pulmón y la cavidad torácica (pleura) o el revestimiento del abdomen (peritoneo). El mesotelioma puede deberse a la exposición al asbesto. El cáncer puede ser un cáncer de cerebro, tal como un glioblastoma.

Como alternativa, el cáncer puede ser un tumor del sistema nervioso central (SNC). Los tumores del SNC pueden clasificarse como gliomas o no gliomas. El glioma puede ser glioma maligno, glioma de alto grado, glioma pontino intrínseco difuso. Ejemplos de gliomas incluyen astrocitomas, oligodendrogliomas (o mezclas de oligodendroglioma y elementos de astocitoma) y ependimomas. Los astrocitomas incluyen, pero sin limitación, astrocitomas de bajo grado, astrocitomas anaplásicos, glioblastoma multiforme, astrocitoma policítico, xantoastrocitoma pleomórfico y astrocitoma subependimario de células gigantes. Los oligodendrogliomas incluyen oligodendrogliomas de bajo grado (u oligoastrocitomas) y oligodendriogliomas anaplásicos. Los no gliomas incluyen meningiomas, adenomas hipofisiarios, linfomas primarios del SNC y meduloblastomas. En algunos casos, el cáncer es un meningioma.

El cáncer puede ser leucemia. La leucemia puede ser una leucemia linfocítica aguda, leucemia mielocítica aguda, leucemia linfocítica crónica o leucemia mielocítica crónica. Los tipos adicionales de leucemias incluyen leucemia de células pilosas, leucemia mielomonocítica crónica y leucemia mielomonocítica juvenil.

En algunos casos, el cáncer es un linfoma. Los linfomas son cánceres de los linfocitos y pueden desarrollarse a partir de linfocitos B o T. Los dos tipos principales de linfoma son el linfoma de Hodgkin, anteriormente conocida como enfermedad de Hodgkin, y el linfoma no Hodgkin. El linfoma de Hodgkin está marcado por la presencia de la célula de Reed-Sternberg. Los linfomas no Hodgkin son todos linfomas que no son linfomas de Hodgkin. Los linfomas no Hodgkin pueden ser linfomas indolentes y linfomas agresivos. Los linfomas no Hodgkin incluyen, pero sin limitación, linfoma difuso de linfocitos B grandes, linfoma folicular, linfoma de tejido linfático asociado a mucosa (MALT), linfoma linfocítico de células pequeñas, linfoma de células del manto, linfoma de Burkitt, linfoma mediastínico de linfocitos B grandes, macroglobulinemia de Waldenstrom, linfoma nodal de la zona marginal de células B (NMZL), linfoma esplénico de la zona marginal (SMZL), linfoma de células B de la zona marginal extranodal, linfoma intravascular de células B grandes, linfoma primario de derrame y granulomatosis linfomatoide.

Estadificación del cáncer

El diagnóstico, predicción y/o monitorización de un estado o resultado de un cáncer puede comprender determinar el estadio del cáncer. En general, el estadio de un cáncer es una descripción (generalmente los números I a IV con IV que tiene más progresión) de la extensión del cáncer. El estadio a menudo tiene en cuenta el tamaño de un tumor, cuán profundamente ha penetrado, si ha invadido órganos adyacentes, a cuántos ganglios linfáticos se ha metastatizado (si corresponde) y si se ha diseminado a órganos distantes. La estadificación del cáncer se puede usar como un predictor de supervivencia, y el tratamiento del cáncer se puede determinar por estadificación. La determinación del estadio del cáncer puede realizarse antes, durante o después del tratamiento. La estadificación del cáncer también puede determinarse en el momento del diagnóstico.

La estadificación del cáncer se puede dividir en un estadio clínico y un estadio patológico. La estadificación del cáncer puede comprender la clasificación TNM. En general, la clasificación TNM de tumores malignos (TNM) es un sistema de estadificación del cáncer que describe la extensión del cáncer en el cuerpo de un paciente. T puede describir el tamaño del tumor y si ha invadido el tejido cercano, N puede describir ganglios linfáticos regionales que están afectados y M puede describir metástasis a distancia (propagación del cáncer de una parte del cuerpo a otra). En el sistema TNM (tumor, Nodo, Metástasis), el estadio clínico y el estadio patológico se indican con una pequeña "c" o "p" antes del estadio (por ejemplo, cT3N1M0 o pT2N0).

A menudo, el estadio clínico y el estado patológico pueden diferir. El estadio clínico puede basarse en toda la información disponible obtenida antes de una cirugía para extirpar el tumor. Por lo tanto, puede incluir información sobre el tumor obtenido mediante un examen físico, examen radiológico y endoscopia. El estadio patológico puede agregar información adicional obtenida mediante el examen microscópico del tumor por un anatomopatólogo. La estadificación patológica puede permitir el examen directo del tumor y su diseminación, en contraste con la estadificación clínica, que puede estar limitada por el hecho de que la información se obtiene haciendo observaciones indirectas en un tumor que todavía está en el cuerpo. El sistema de estadificación TNM se puede usar para la mayoría de las formas de cáncer.

Como alternativa, la estadificación puede comprender la estadificación de Ann Arbor. En general, la estadificación de Ann Arbor es el sistema de estadificación para linfomas, tanto en el linfoma de Hodgkin (anteriormente llamado enfermedad de Hodgkin) como en el linfoma no Hodgkin (NHL abreviado). El estadio puede depender tanto del lugar donde se encuentra el tejido maligno (como se localiza con la biopsia, la tomografía computarizada y la tomografía por emisión de positrones creciente) y de los síntomas sistémicos debidos al linfoma ("síntomas B": sudores nocturnos, pérdida de peso > 10 % o fiebres). El estadio principal puede determinarse por la ubicación del tumor. El estadio I puede indicar que el cáncer se encuentra en una sola región, generalmente un ganglio linfático y el área circundante. El estadio I a menudo puede no tener síntomas externos. El estadio II puede indicar que el cáncer se encuentra en dos regiones separadas, un ganglio linfático u órgano afectado y una segunda área afectada, y que ambas áreas afectadas están confinadas a un lado del diafragma, es decir, ambas están por encima del diafragma o ambas están por debajo del diafragma. El estadio III a menudo indica que el cáncer se ha diseminado a ambos lados del diafragma, incluyendo un órgano o área cerca de los ganglios linfáticos o el bazo. El estadio IV puede indicar afectación difusa o diseminada de uno o más órganos extralinfáticos, incluyendo cualquier afectación del hígado, médula ósea o afectación nodular de los pulmones.

Los modificadores también pueden agregarse a algunos estadios. Por ejemplo, las letras A, B, E, X o S se pueden agregar a algunos estadios. En general, A o B pueden indicar que la ausencia de síntomas constitucionales (tipo B) se denota agregando una "A" al estadio; la presencia se denota agregando una "B" al estadio. E puede usarse si la enfermedad es "extranodal" (no en los ganglios linfáticos) o se ha diseminado desde los ganglios linfáticos al tejido adyacente. X se usa a menudo si el depósito más grande es > 10 cm de largo ("enfermedad voluminosa"), o si el mediastino es más ancho que 1/3 del tórax en una radiografía de tórax. S puede usarse si la enfermedad se ha extendido al bazo.

La naturaleza de la estadificación puede expresarse con CS o PS. CS puede denotar que el estadio clínico obtenido por los exámenes y pruebas del médico. PS puede denotar que el estadio patológico se obtiene mediante laparotomía exploratoria (cirugía realizada a través de una incisión abdominal) con esplenectomía (extirpación quirúrgica del bazo).

Regímenes terapéuticos

El diagnóstico, predicción o monitorización de un estado o resultado de un cáncer puede comprender tratar un cáncer o prevenir la progresión de un cáncer. Además, el diagnóstico, predicción o monitorización de un estado o resultado de un cáncer puede comprender identificar o predecir los respondedores a una terapia anticancerosa. En algunos casos, el diagnóstico, predicción o monitorización puede comprender determinar un régimen terapéutico. La determinación de un régimen terapéutico puede comprender administrar una terapia anticancerosa. Como alternativa, determinar un régimen terapéutico puede comprender modificar, recomendar, continuar o interrumpir un régimen anticanceroso. En algunos casos, si los patrones de expresión de la muestra son consistentes con el patrón de expresión para una enfermedad o resultado de enfermedad conocido, los patrones de expresión se pueden usar para designar una o más modalidades de tratamiento (por ejemplo, regímenes terapéuticos, régimen anticanceroso). Un régimen anticanceroso puede comprender una o más terapias anticancerosas. Los ejemplos de terapias anticancerosas incluyen la terapia dirigida contra el cáncer (por ejemplo, dirigida a los ARN no codificantes descritos en el presente documento), cirugía, quimioterapia, radioterapia, inmunoterapia/terapia biológica, terapia fotodinámica.

La presente divulgación también está dirigida a la expresión de marcadores de cáncer. Por ejemplo, la presente divulgación emplea composiciones que comprenden compuestos antisentido oligoméricos o compuestos de ARNi, particularmente oligonucleótidos (por ejemplo, los identificados en los procedimientos de detección de fármacos descritos anteriormente), para su uso en la modulación de la función de moléculas de ácido nucleico que codifican marcadores de cáncer de la presente divulgación, finalmente modulando la cantidad de marcador de cáncer expresado.

El ARNi se puede utilizar para apuntar a ARN no codificantes (por ejemplo, una o más de las SEQ ID NO: 1-2309).

El ARNi representa una defensa celular conservada en la evolución para controlar la expresión de genes extraños en la mayoría de los eucariotas, incluidos los seres humanos. El ^aR^nínormalmente procede del ARN bicatenario (ARNdc) y produce degradación del ARNm específica de secuencia de ARN monocatenarios diana homólogos en respuesta al ARNdc. Los mediadores de la degradación de ARNm son pequeños dúplex de ARN interferentes (ARNip), que normalmente se producen a partir de ARNdc largo por escisión enzimática en la célula. Los ARNip son generalmente de aproximadamente veintiún nucleótidos de longitud (por ejemplo, 21-23 nucleótidos de longitud) y tienen una estructura de pares de bases caracterizada por dos salientes de nucleótidos en 3'. Después de la introducción de un ARN pequeño o ARNi, en la célula, se cree que la secuencia se libera en un complejo enzimático llamado RISC (complejo silenciador inducido por ARN). El RISC reconoce la diana y la escinde con una endonucleasa. Se observa que si se liberan secuencias de ARN más grandes a una célula, la enzima RNasa III (Dicer) convierte el ARNdc más largo en fragmentos de 21-23 nt dc de ARNip.

Los ARNip sintetizados químicamente se han convertido en potentes reactivos para el análisis amplio del genoma de función génica de mamífero en células somáticas cultivadas. Más allá de su valor para la validación de la función genética, los ARNip también tienen un gran potencial como agentes terapéuticos específicos de genes (Tuschl y Borkhardt, Molecular Intervent. 2002; 2(3): 158-67).

La transfección de ARNip en células animales da como resultado el potente, silenciamiento postranscripcional de larga duración de genes específicos (Caplen y col., Proc Natl Acad Sci U.S.A. 2001; 98: 9742-7; Elbashir y col., Nature. 2001; 411:494-8; Elbashir y col., Genes Dev. 2001; 15: 188-200; y Elbashir y col., EMBO J. 2001; 20: 6877 88). Se describen procedimientos y composiciones para realizar ARNi con ARNip, por ejemplo, en la patente de Estados Unidos 6,506,559.

Los ARNip son extraordinariamente efectivos para reducir las cantidades de ARN diana y, por extensión, las proteínas, con frecuencia a niveles indetectables. El efecto silenciador puede durar varios meses y es extraordinariamente específico, porque un apareamiento erróneo de nucleótidos entre el ARN diana y la región central del ARNip es frecuentemente suficiente para evitar el silenciamiento (Brummelkamp y col., Science 2002; 296:550-3; y Holen y col., Nucleic Acids Res. 2002; 30:1757-66).

Un factor importante en el diseño de ARNip es la presencia de sitios accesibles para la unión de ARNip. Bahoia y col., (J. Biol. Chem., 2003; 278: 15991-15997) describen el uso de un tipo de matriz de ADN llamada matriz de exploración para encontrar sitios accesibles en ARNm para diseñar ARNip efectivos. Estas matrices comprenden oligonucleótidos que varían en tamaño desde monómeros hasta un cierto máximo, generalmente Comers, sintetizados usando una barrera física (máscara) mediante la adición gradual de cada base en la secuencia. Por lo tanto, las matrices representan un complemento oligonucleotídico completo de una región del gen diana. La hibridación del ARNm diana a estas matrices proporciona un perfil de accesibilidad exhaustivo de esta región del ARNm diana. Dichos datos son útiles en el diseño de oligonucleótidos antisentido (que van desde 7 unidades a 25 unidades), donde es importante lograr un compromiso entre la longitud del oligonucleótido y la afinidad de unión, para mantener la eficacia y la especificidad de la diana (Sohail y col., Nucleic Acids Res., 2001; 29(10): 2041-2045). Se describen procedimientos y problemas adicionales para seleccionar ARNip, por ejemplo, en los documentos WO 05054270, WO05038054A1, WO03070966A2, J Mol Biol. 2005 May 13;348(4): 883-93, J Mol Biol. 2005 May 13;348(4):871-81, y Nucleic Acids Res. 2003 Aug 1;31(15):4417-24. Además, el software (por ejemplo, la herramienta de diseño de ARNip siMAX en línea MWG) está disponible comercial o públicamente para su uso en la selección de ARNip.

La expresión de ARN no codificantes (por ejemplo, una o más de las SEQ ID NO: 1-2309) pueden modularse usando compuestos antisentido que hibridan específicamente con uno o más ácidos nucleicos que codifican los ARN. La hibridación específica de un compuesto oligomérico con su ácido nucleico diana interfiere con la función normal del ácido nucleico. Esta modulación de la función de un ácido nucleico diana por compuestos que hibridan específicamente con él se denomina, generalmente, "antisentido”. Las funciones del ADN a interferir incluyen la replicación y la transcripción. Las funciones del ARN que se va a interferir incluyen todas las funciones vitales, tales como, por ejemplo, translocación del ARN al sitio de traducción de la proteína, traducción de proteínas desde el ARN, corte y empalme del ARN para producir una o más especies de ARNm, y actividad catalítica que puede participar o ser facilitada por el ARN. El efecto general de dicha interferencia con la función del ácido nucleico diana es la modulación de la expresión de marcadores de cáncer de la presente divulgación. En el contexto de la presente divulgación, "modulación" significa un aumento (estimulación) o una disminución (inhibición) en la expresión de un gen. Por ejemplo, la expresión puede inhibirse para prevenir potencialmente la proliferación tumoral.

Se prefiere apuntar a ácidos nucleicos específicos para antisentido. "Apuntar a" un compuesto antisentido a un ácido nucleico particular, en el contexto de la presente divulgación, es un proceso de varias etapas. El proceso generalmente comienza con la identificación de una secuencia de ácido nucleico cuya función debe ser modulada. Esto puede ser, por ejemplo, un gen celular (o una forma transcrita de ARNm del gen) cuya expresión se asocia con un trastorno particular o estado de enfermedad o una molécula de ácido nucleico a partir de un agente infeccioso. En la presente divulgación, la diana es una molécula de ácido nucleico que codifica un marcador de cáncer de la presente divulgación. El proceso de orientación también incluye la determinación de un sitio o sitios dentro de este gen para que ocurra la interacción antisentido de manera que se producirá el efecto deseado, por ejemplo, detección o modulación de la expresión de la proteína. En el contexto de la presente divulgación, un sitio intragénico preferido es la región que abarca el codón de iniciación o terminación de la traducción del marco de lectura abierto (ORF) del gen. Dado que el codón de iniciación de la traducción normalmente es 5'-AUG (en las moléculas de ARNm transcritas; 5'-ATG en la molécula de ADN correspondiente), el codón de iniciación de la traducción también se conoce como "codón AUG", "codón de iniciación" o "codón de iniciación AUG". Una minoría de los genes tiene un codón de iniciación de la traducción que tiene la secuencia de ARN 5'-GUG, 5'-UUG o 5'-CUG, y 5'-AUA, 5'-ACG y 5'-CUG se ha demostrado que funcionan in vivo. Por lo tanto, las expresiones "codón de iniciación de la traducción" y "codón de inicio" pueden abarcar muchas secuencias de codones, a pesar de que el aminoácido iniciador en cada caso es típicamente metionina (en eucariotas) o formilmetionina (en procariotas). Los genes eucariotas y procariotas pueden tener dos o más codones de iniciación alternativos, cualquiera de los cuales puede utilizarse de forma preferente para el inicio de la traducción en un tipo celular o tejido en concreto o en un conjunto particular de condiciones. En el contexto de la presente divulgación, "codón de iniciación" y "codón de iniciación de la traducción" se refieren al codón o codones que se usan in vivo para iniciar la traducción de un ARN (por ejemplo, una o más de las SEQ ID NO: 1-2309).

El codón de terminación de la traducción (o "codón de parada") de un gen puede tener una de tres secuencias (es decir, 5'-UAA, 5'-UAG y 5'-UGA; las secuencias de ADN correspondientes son 5'-TAA, 5'-TAG y 5'-t Ga , respectivamente). Las expresiones "región del codón de inicio" y "región del codón de iniciación de la traducción" hacen referencia a una parte de dicho ARNm o gen que abarca desde aproximadamente 25 hasta aproximadamente 50 nucleótidos contiguos en cualquier dirección (es decir, 5' o 3') desde un codón de iniciación de l traducción. De forma similar, las expresiones "región del codón de parada" y "región del codón de terminación de la traducción" hacen referencia a una parte de dicho ARNm o gen que abarca desde aproximadamente 25 hasta aproximadamente 50 nucleótidos contiguos en cualquier dirección (es decir, 5' o 3') desde un codón de terminación de la traducción.

El marco de lectura abierto (ORF) o "región de codificación" que se refiere a la región entre el codón de iniciación de la traducción y el codón de terminación de la traducción, también es una región que se puede usar como diana de forma eficaz. Otras regiones diana incluyen la región no traducida en 5' (5'UTR), que hace referencia a la porción de un ARNm en la dirección 5' del codón de iniciación de la traducción, y por lo tanto incluye nucleótidos entre el sitio del capuchón 5' y el codón de iniciación de la traducción de un ARNm o los nucleótidos correspondientes en el gen, y la región no traducida en 3' (3'UTR), que hace referencia a la porción de un ARNm en la dirección 3' del codón de terminación de la traducción y, por lo tanto, incluye los nucleótidos entre el codón de terminación de la traducción y el extremo 3' de un ARNm o los nucleótidos correspondientes en el gen. El capuchón en 5' de un ARNm comprende un resto de guanosina metilada en N7 unida al resto más en 5' del ARNm a través de un enlace trifosfato 5'-5'. Se considera que la región del capuchón en 5' de un ARNm incluye la estructura del capuchón en 5' en sí misma, así como los primeros 50 nucleótidos adyacentes al capuchón. La región del capuchón también puede ser una región diana preferida.

Aunque algunos tránscritos de ARNm eucariotas se traducen directamente, muchos contienen una o más regiones, conocidas como "intrones" que se escinden de un tránscrito antes de que se traduzca. Las regiones restantes (y por lo tanto traducidas) se conocen como "exones" y se unen para formar una secuencia continua de ARNm. Los sitios de corte y empalme de ARNm (es decir, las uniones intronexonas) también pueden ser regiones objetivo preferidas, y son particularmente útiles en situaciones en las que el empalme aberrante está implicado en la enfermedad, o cuando una sobreproducción de un producto de corte y empalme de ARNm particular está implicado en la enfermedad. También se ha descubierto que los intrones también pueden ser regiones diana eficaces y, por tanto, preferidas para compuestos antisentido diana, por ejemplo, a ADN o pre-ARNm.

Los sitios diana para la inhibición antisentido pueden identificarse utilizando programas de software disponibles comercialmente (por ejemplo, Biognostik, Gottingen, Alemania; SysArris Software, Bangalore, India; Antisense Research Group, University of Liverpool, Liverpool, Inglaterra; GeneTrove, Carlsbad, CA). Los sitios diana para la inhibición antisentido pueden identificarse utilizando el procedimiento de sitio accesible descrito en la publicación PCT n.° WO0198537A2.

Una vez que se han identificado uno o más sitios diana, se seleccionan oligonucleótidos que son suficientemente complementarios a la diana (es decir, hibridan suficientemente bien y con suficiente especificidad) para dar el efecto deseado. Por ejemplo, los oligonucleótidos antisentido pueden dirigirse hacia o cerca del codón de iniciación.

En el contexto de esta divulgación, "hibridación", con respecto a las composiciones y procedimientos antisentido, significa enlace de hidrógeno, que puede ser de Watson-Crick, Hoogsteen o enlace de hidrógeno de Hoogsteen invertido, entre bases de nucleósidos o nucleótidos complementarias. Por ejemplo, la adenina y la timina son bases nitrogenadas complementarias que se emparejan mediante la formación de puentes de hidrógeno. Se entiende que la secuencia de un compuesto antisentido no necesita ser el 100 % complementaria a la de su ácido nucleico diana para que sea específicamente hibridable. Un compuesto antisentido es específicamente hibridable cuando la unión del compuesto a la molécula de ADN o ARN diana interfiere con la función normal del ADN o ARN objetivo para causar una pérdida de utilidad, y hay un grado suficiente de complementariedad para evitar la unión no específica del compuesto antisentido a secuencias no diana en condiciones en las que se desea una unión específica (es decir, en condiciones fisiológicas en el caso de ensayos in vivo o tratamiento terapéutico, y en el caso de ensayos in vitro, en condiciones en las que se realizan los ensayos).

La especificidad y sensibilidad del antisentido también se aplica para usos terapéuticos. Por ejemplo, se han usado oligonucleótidos antisentido como restos terapéuticos en el tratamiento de estados de enfermedad en animales y seres humanos. Los oligonucleótidos antisentido se han administrado de forma segura y eficaz a seres humanos y actualmente se están realizando numerosos ensayos clínicos. Por lo tanto, se establece que los oligonucleótidos son modalidades terapéuticas útiles que se pueden configurar para ser útiles en los regímenes de tratamiento para el tratamiento de las células, tejidos y animales, especialmente seres humanos.

Aunque los oligonucleótidos antisentido son una forma preferida del compuesto antisentido, la presente divulgación comprende otros compuestos antisentido oligoméricos, que incluyen, pero sin limitación, miméticos oligonucleotídicos, como se describen a continuación. Los compuestos antisentido de acuerdo con la presente divulgación comprenden, preferentemente, de aproximadamente 8 a aproximadamente 30 bases nitrogenadas (es decir, de aproximadamente 8 a aproximadamente 30 bases unidas), aunque tanto las secuencias más largas como las más cortas pueden encontrar uso con la presente divulgación. Los compuestos antisentido particularmente preferidos son oligonucleótidos antisentido, incluso más preferentemente aquellos que comprenden de aproximadamente 12 a aproximadamente 25 nucleobases.

Los ejemplos específicos de compuestos antisentido preferidos útiles en la presente divulgación incluyen oligonucleótidos que contienen cadenas principales modificadas o enlaces internucleosídicos no naturales. Como se define en esta especificación, los oligonucleótidos que tienen cadenas principales modificadas incluyen aquellos que retienen un átomo de fósforo en la cadena principal y aquellos que no tienen un átomo de fósforo en la cadena principal. Para los fines de la presente especificación, los oligonucleótidos modificados que no tienen un átomo de fósforo en su estructura principal internucleosídica también pueden considerarse oligonucleótidos.

Las cadenas principales de oligonucleótidos modificados preferidos incluyen, por ejemplo, fosforotioatos, fosforotioatos quirales, fosforoditioatos, fosfotriésteres, aminoalquilfosfotriésteres, alquilfosfonatos de metilo y otros alquilos, incluyendo 3'-alquilenofosfonatos y fosfonatos quirales, fosfinatos, fosforamidatos, incluyendo 3'-aminofosforoamidato y aminoalquilfosforamidatos, tionofosforamidatos, tioalquilfosfonatos, tioalquilfosfotriésteres y boranofosfatos con enlaces 3'-5' normales, análogos unidos por 2'-5' de estos y aquellos que tienen polaridad invertida en los que los pares adyacentes de unidades de nucleósidos están unidos 3'-5' a 5'-3' o 2'-5' a 5'-2. También se incluyen varias sales, sales mixtas y formas de ácido libre.

La presente divulgación contempla el uso de cualquier manipulación genética para usar en la modulación de la expresión de ARN no codificantes (por ejemplo, uno o más de las SEQ ID NO: 1-2309). Los ejemplos de manipulación genética incluyen, pero sin limitación, gen knockout (por ejemplo, eliminación del gen que codifica el ARN del cromosoma usando, por ejemplo, recombinación), expresión de construcciones antisentido con o sin promotores inducibles, y similares. La liberación de la construcción de ácido nucleico a las células in vitro o in vivo se puede llevar a cabo utilizando cualquier procedimiento adecuado. Un procedimiento adecuado es aquel que introduce la construcción de ácido nucleico en la célula de manera que se produce el evento deseado (por ejemplo, la expresión de una construcción antisentido). La terapia genética también puede usarse para administrar ARNip u otras moléculas interferentes que se expresan in vivo (por ejemplo, tras la estimulación por un promotor inducible (por ejemplo, un promotor sensible a los andrógenos)).

La introducción de moléculas que transportan información genética en las células se logra mediante cualquiera de los diversos procedimientos que incluyen, pero sin limitación, inyección dirigida de construcciones de ADN desnudo, bombardeo con partículas de oro cargadas con dichas construcciones, y transferencia de genes mediada por macromoléculas usando, por ejemplo, liposomas, biopolímeros y similares. Los procedimientos preferidos usan vehículos de liberación de genes derivados de virus, incluidos, pero sin limitación, adenovirus, retrovirus, virus vaccinia y virus adenoasociados. Debido a la mayor eficiencia en comparación con los retrovirus, los vectores derivados de adenovirus son los vehículos de liberación de genes preferidos para transferir moléculas de ácido nucleico a células huésped in vivo. Se ha demostrado que los vectores adenovirales proporcionan una transferencia de genes in vivo muy eficaz a una variedad de tumores sólidos en modelos animales y a xenoinjertos de tumor sólido humano en ratones inmunodeficientes. Los ejemplos de vectores adenovirales y procedimientos para la transferencia de genes se describen en las publicaciones PCT WO 00/12738 y WO 00/09675 y la solicitud de patente de Estados Unidos n.° 6,033,908, 6,019,978, 6,001,557, 5,994,132, 5,994,128, 5,994,106, 5,981,225, 5,885,808, 5,872,154, 5,830,730 y 5,824,544.

Los vectores se pueden administrar al sujeto de varias maneras. Por ejemplo, los vectores pueden administrarse en tumores o tejidos asociados con tumores usando inyección directa. La administración puede ser a través de la sangre o la circulación linfática (véase, por ejemplo, la publicación PCT 99/02685). Los niveles de dosis de ejemplo del vector adenoviral son preferentemente de 108 a 1011 partículas de vector añadidas al perfundido.

La oncología quirúrgica utiliza procedimientos quirúrgicos para diagnosticar, estadificar y tratar el cáncer y para aliviar ciertos síntomas relacionados con el cáncer. Se puede usar cirugía para extirpar el tumor (por ejemplo, escisiones, resecciones, cirugía reductora), reconstruir una parte del cuerpo (por ejemplo, cirugía reparadora) y/o aliviar síntomas como el dolor (por ejemplo, cirugía paliativa). La cirugía también puede incluir criocirugía. La criocirugía (también llamada crioterapia) puede usar frío extremo producido por nitrógeno líquido (o gas argón) para destruir el tejido anormal. La criocirugía se puede usar para tratar tumores externos, como los de la piel. Para tumores externos, el nitrógeno líquido se puede aplicar directamente a las células cancerosas con un bastoncillo de algodón o un dispositivo de pulverización. La criocirugía también se puede usar para tratar tumores dentro del cuerpo (tumores internos y tumores en los huesos). Para tumores internos, el nitrógeno líquido o el gas argón pueden circular a través de un instrumento hueco llamado criosonda, que se pone en contacto con el tumor. Se puede usar una ecografía o resonancia magnética para guiar la criosonda y controlar la congelación de las células, limitando así el daño al tejido sano cercano. Se puede formar una bola de cristales de hielo alrededor de la sonda, congelando células cercanas. Algunas veces se usa más de una sonda para administrar el nitrógeno líquido a varias partes del tumor. Las sondas se pueden colocar en el tumor durante la cirugía o a través de la piel (por vía percutánea). Después de la criocirugía, el tejido congelado se descongela y puede ser absorbido naturalmente por el cuerpo (para tumores internos), o puede disolverse y formar una costra (para tumores externos).

Los agentes quimioterapéuticos también pueden usarse para el tratamiento del cáncer. Los ejemplos de agentes quimioterapéuticos incluyen agentes alquilantes, antimetabolitos, alcaloides y terpenoides vegetales, alcaloides de la vinca, podofilotoxina, taxanos, inhibidores de topoisomerasa y antibióticos citotóxicos. Cisplatino, carboplatino y oxaliplatino son ejemplos de agentes alquilantes. Otros agentes alquilantes incluyen mecloretamina, ciclofosfamida, clorambucilo, ifosfamida. Los agentes alquilantes pueden afectar la función celular al formar enlaces covalentes con los grupos amino, carboxilo, sulfhidrilo y fosfato en moléculas biológicamente importantes. Como alternativa, los agentes alquilantes pueden modificar químicamente el ADN de una célula.

Los antimetabolitos son otro ejemplo de agentes quimioterapéuticos. Los antimetabolitos pueden enmascararse como purinas o pirimidinas y pueden evitar que las purinas y pirimidinas se incorporen al a Dn durante la fase "S" (del ciclo celular), deteniendo así el desarrollo y la división normales. Los antimetabolitos también pueden afectar a la síntesis de ARN. Los ejemplos de metabolitos incluyen azatioprina y mercaptopurina.

Los alcaloides pueden derivarse de plantas y la división celular en bloque también puede usarse para el tratamiento del cáncer. Los alquiloides pueden prevenir la función de los microtúbulos. Los ejemplos de alcaloides son los alcaloides de la vinca y los taxanos. Los alcaloides de la vinca pueden unirse a sitios específicos en la tubulina e inhibir el ensamblaje de la tubulina en microtúbulos (fase M del ciclo celular). Los alcaloides de la vinca pueden derivarse del bígaro de Madagascar, Catharanthus roseus (conocido anteriormente como Vinca rosea). Los ejemplos de alcaloides de la vinca incluyen, pero sin limitación, vincristina, vinblastina, vinorelbina o vindesina. Los taxanos son diterpenos producidos por las plantas del género Taxus (tejos). Los taxanos pueden derivarse de fuentes naturales o sintetizarse artificialmente. Los taxanos incluyen paclitaxel (Taxol) y docetaxel (Taxotere). Los taxanos pueden alterar la función de los microtúbulos. Los microtúbulos son esenciales para la división celular, y los taxanos pueden estabilizar la tubulina unida a GDP en los microtúbulos, inhibiendo así el proceso de división celular. Por lo tanto, en esencia, los taxanos pueden ser inhibidores mitóticos. Los taxanos también pueden ser radiosensibilizantes y a menudo contienen numerosos centros quirales.

Los agentes quimioterapéuticos alternativos incluyen podofilotoxina. La podofilotoxina es un compuesto derivado de plantas que puede ayudar con la digestión y puede usarse para producir fármacos citostáticos como el etopósido y el tenipósido. Pueden evitar que la célula entre en la fase G1 (el inicio de la replicación del ADN) y la replicación del ADN (la fase S).

Las topoisomerasas son enzimas esenciales que mantienen la topología del ADN. La inhibición de las topoisomerasas tipo I o tipo II puede interferir tanto con la transcripción como con la replicación del ADN al alterar el superenrollamiento de a Dn adecuado. Algunos agentes quimioterapéuticos pueden inhibir las topoisomerasas. Por ejemplo, Algunos inhibidores de la topoisomerasa tipo I incluyen camptotecinas: irinotecán y topotecán. Los ejemplos de inhibidores de tipo II incluyen amsacrina, etopósido, fosfato de etopósido y tenipósido.

Otro ejemplo de agentes quimioterapéuticos son los antibióticos citotóxicos. Los antibióticos citotóxicos son un grupo de antibióticos que se usan para el tratamiento del cáncer porque pueden interferir con la replicación del ADN y/o la síntesis de proteínas. Los antibióticos citotóxicos incluyen, pero sin limitación, actinomicina, antraciclinas, doxorrubicina, daunorrubicina, valrubicina, idarrubicina, epirrubicina, bleomicina, plicamicina y mitomicina.

En algunos casos, el tratamiento anticanceroso puede comprender radioterapia. La radiación puede provenir de una máquina fuera del cuerpo (radioterapia de haz externo) o de material radioactivo colocado en el cuerpo cerca de las células cancerosas (radioterapia interna, más comúnmente llamada braquiterapia). La radioterapia sistémica utiliza una sustancia radiactiva, administrada por vía oral o en una vena que viaja en la sangre a los tejidos de todo el cuerpo.

La radioterapia de haz externo se puede administrar en forma de haces de fotones (rayos X o rayos gamma). Un fotón es la unidad básica de luz y otras formas de radiación electromagnética. Un ejemplo de radioterapia de haz externo se llama radioterapia conformacional tridimensional (3D-CRT). 3D-CRT puede usar software de ordenador y máquinas de tratamiento avanzado para administrar radiación a áreas objetivo con formas muy precisas. Actualmente se están probando y utilizando muchos otros procedimientos de radioterapia de haz externo para el tratamiento del cáncer. Estos procedimientos incluyen, pero sin limitación, radioterapia de intensidad modulada (IMRT), radioterapia guiada por imagen (IGRT), radiocirugía estereotáctica (SRS), radioterapia estereotáctica corporal (SBRT) y terapia de protones.

La radioterapia de intensidad modulada (IMRT) es un ejemplo de radiación de haz externo y puede usar cientos de dispositivos diminutos que moldean el haz de radiación, llamados colimadores, para administrar una dosis única de radiación. Los colimadores pueden ser estacionarios o pueden moverse durante el tratamiento, permitiendo que la intensidad de los haces de radiación cambie durante las sesiones de tratamiento. Este tipo de modulación de dosis permite que diferentes áreas de un tumor o tejidos cercanos reciban diferentes dosis de radiación. La IMRT se planifica a la inversa (llamada planificación de tratamiento inverso). En la planificación del tratamiento inverso, las dosis de radiación a diferentes áreas del tumor y el tejido circundante se planifican de antemano, y luego un programa de ordenador de alta potencia calcula la cantidad requerida de haces y ángulos del tratamiento de radiación. Por el contrario, durante la planificación tradicional (hacia adelante) del tratamiento, el número y los ángulos de los haces de radiación se eligen de antemano y los ordenadores calculan la dosis que se puede administrar de cada uno de los haces planificados. El objetivo de la IMRT es aumentar la dosis de radiación en las áreas que la necesitan y reducir la exposición a la radiación en áreas sensibles específicas del tejido normal circundante.

Otro ejemplo de radiación de haz externo es la radioterapia guiada por imagen (IGRT). En la IGRT, se pueden realizar exploraciones de imagen (CT, MRI o PET) repetidas durante el tratamiento. Los ordenadores pueden procesar estas exploraciones de imagen para identificar cambios en el tamaño y la ubicación de un tumor debido al tratamiento y para permitir que la posición del paciente o la dosis de radiación planificada se ajuste durante el tratamiento según sea necesario. Las imágenes repetidas pueden aumentar la precisión del tratamiento de radiación y pueden permitir reducciones en el volumen planeado de tejido a tratar, disminuyendo así la dosis de radiación total al tejido normal.

La tomoterapia es un tipo de IMRT guiada por imágenes. Una máquina de tomoterapia es un híbrido entre un escáner de imágenes por TC y una máquina de radioterapia de haz externo. La parte de la máquina de tomoterapia que administra radiación para imágenes y tratamiento puede girar completamente alrededor del paciente de la misma manera que un escáner CT normal. Las máquinas de tomoterapia pueden capturar imágenes de CT del tumor del paciente inmediatamente antes de las sesiones de tratamiento, para permitir una focalización tumoral muy precisa y la preservación del tejido normal.

La radiocirugía estereotáctica (SRS) puede administrar una o más dosis altas de radiación a un tumor pequeño. La SRS utiliza una orientación del tumor extremadamente precisa guiada por imágenes y el posicionamiento del paciente. Por lo tanto, se puede administrar una dosis alta de radiación sin daño excesivo al tejido normal. La SRS se puede usar para tratar tumores pequeños con bordes bien definidos. Se usa más comúnmente en el tratamiento de tumores cerebrales o espinales y metástasis cerebrales de otros tipos de cáncer. Para el tratamiento de algunas metástasis cerebrales, los pacientes pueden recibir radioterapia en todo el cerebro (llamada radioterapia en todo el cerebro) además de SRS. La SRS requiere el uso de un marco para la cabeza u otro dispositivo para inmovilizar al paciente durante el tratamiento y garantizar que la alta dosis de radiación se administre con precisión.

La radioterapia estereotáctica corporal (SBRT) administra radioterapia en menos sesiones, utilizando campos de radiación más pequeños y dosis más altas que 3D-CRT en la mayoría de los casos. La SBRT puede tratar tumores que se encuentran fuera del cerebro y la médula espinal. Debido a que es más probable que estos tumores se muevan con el movimiento normal del cuerpo y, por lo tanto, no pueden ser dirigidos con tanta precisión como los tumores dentro del cerebro o la columna vertebral, la SBRT generalmente se administra en más de una dosis. La SBRT se puede utilizar para tratar tumores pequeños aislados, incluyendo cánceres de pulmón y de hígado. Los sistemas SBRT pueden ser conocidos por sus nombres de marca, tal como el CyberKnife®.

En la terapia de protones, la radioterapia de haz externo puede administrarse mediante protones. Los protones son un tipo de partícula cargada. Los haces de protones difieren de los haces de fotones principalmente en la forma en que depositan energía en el tejido vivo. Mientras que los fotones depositan energía en pequeños paquetes a lo largo de su camino a través del tejido, los protones depositan gran parte de su energía al final de su camino (llamado pico de Bragg) y depositan menos energía en el camino. El uso de protones puede reducir la exposición del tejido normal a la radiación, posiblemente permitiendo la administración de dosis más altas de radiación a un tumor.

Se pueden usar otros haces de partículas cargadas como los haces de electrones para irradiar tumores superficiales, tal como cáncer de piel o tumores cerca de la superficie del cuerpo, pero no pueden viajar muy lejos a través del tejido.

La radioterapia interna (braquiterapia) es radiación administrada por fuentes de radiación (materiales radiactivos) colocados dentro o sobre el cuerpo. En el tratamiento del cáncer se usan varias técnicas de braquiterapia. La braquiterapia intersticial puede usar una fuente de radiación colocada dentro del tejido tumoral, tal como dentro de un tumor de próstata. La braquiterapia intracavitaria puede usar una fuente colocada dentro de una cavidad quirúrgica o una cavidad corporal, tal como la cavidad torácica, cerca de un tumor. La braquiterapia epiescleral, que puede usarse para tratar el melanoma dentro del ojo, puede usar una fuente que esté acoplada al ojo. En la braquiterapia, los isótopos radiactivos pueden sellarse en pequeñas bolitas o "semillas". Estas semillas se pueden colocar en pacientes que utilizan dispositivos de entrega, como agujas, catéteres u otro tipo de transportador. A medida que los isótopos se descomponen naturalmente, emiten radiación que puede dañar las células cancerosas cercanas. La braquiterapia puede administrar dosis más altas de radiación a algunos tipos de cáncer que la radioterapia de haz externo mientras causa menos daño al tejido normal.

La braquiterapia se puede administrar como una velocidad de dosis baja o un tratamiento de velocidad de dosis alta. En el tratamiento de velocidad de dosis baja, las células cancerosas reciben radiación continua de baja dosis de la fuente durante un período de varios días. En el tratamiento de velocidad de dosis alta, Una máquina robótica unida a los tubos de administración colocados dentro del cuerpo puede guiar una o más fuentes radiactivas dentro o cerca de un tumor, y luego elimina las fuentes al final de cada sesión de tratamiento. El tratamiento con dosis altas se puede administrar en una o más sesiones de tratamiento. Un ejemplo de un tratamiento de velocidad de dosis alta es el sistema MammoSite®. La braquiterapia se puede usar para tratar pacientes con cáncer de mama que se han sometido a una cirugía para conservar la mama.

La colocación de fuentes de braquiterapia puede ser temporal o permanente. Para braquiterapia permanente, las fuentes pueden sellarse quirúrgicamente dentro del cuerpo y dejarse allí, incluso después de que se haya emitido toda la radiación. En algunos casos, el material restante (en el que se sellaron los isótopos radiactivos) no causa ninguna molestia o daño al paciente. La braquiterapia permanente es un tipo de braquiterapia de velocidad de dosis baja. Para la braquiterapia temporal, se utilizan tubos (catéteres) u otros soportes para administrar las fuentes de radiación, y tanto los soportes como las fuentes de radiación se eliminan después del tratamiento. La braquiterapia temporal puede ser un tratamiento de velocidad de dosis baja o alta. La braquiterapia se puede usar sola o además de la radioterapia de haz externo para proporcionar un "impulso" de radiación a un tumor mientras se preserva el tejido normal circundante.

En la radioterapia sistémica, un paciente puede tragar o recibir una inyección de una sustancia radiactiva, como el yodo radiactivo o una sustancia radiactiva unida a un anticuerpo monoclonal. El yodo radioactivo (131I) es un tipo de radioterapia sistémica que se usa habitualmente para ayudar a tratar el cáncer, tal como el cáncer de tiroides. Las células tiroideas absorben naturalmente el yodo radioactivo. Para la radioterapia sistémica para algunos otros tipos de cáncer, un anticuerpo monoclonal puede ayudar a dirigir la sustancia radiactiva al lugar correcto. El anticuerpo unido a la sustancia radiactiva viaja a través de la sangre, localizando y matando células tumorales. Por ejemplo, el fármaco ibritumomab tiuxetan (Zevalin®) se puede usar para el tratamiento de ciertos tipos de linfoma no Hodgkin de células B (LNH). La parte de anticuerpo de este medicamento reconoce y se une a una proteína que se encuentra en la superficie de los linfocitos B. El régimen farmacológico combinado de tositumomab y yodo 131I tositumomab (Bexxar®) puede usarse para el tratamiento de ciertos tipos de cáncer, como el NHL. En este régimen, los anticuerpos tositumomab no radioactivos pueden administrarse primero a los pacientes, seguido de tratamiento con anticuerpos tositumomab que tienen 131I unido. Tositumomab puede reconocer y unirse a la misma proteína en los linfocitos B que el ibritumomab. La forma no radiactiva del anticuerpo puede ayudar a proteger a los linfocitos B normales de ser dañados por la radiación del 131I.

Algunos fármacos de radioterapia sistémica alivian el dolor del cáncer que se ha extendido al hueso (metástasis óseas). Este es un tipo de radioterapia paliativa. Los fármacos radioactivos samario-153-lexidronam (Quadramet®) y el cloruro de estroncio-89 (Metastron®) son ejemplos de radiofármacos que pueden usarse para tratar el dolor de las metástasis óseas.

La terapia biológica (a veces llamada inmunoterapia, bioterapia o terapia de modificación de la respuesta biológica (BRM) utiliza el sistema inmunológico del cuerpo, tanto directa como indirectamente, para combatir el cáncer o para disminuir los efectos secundarios que pueden causar algunos tratamientos contra el cáncer. Las terapias biológicas incluyen interferones, interleucinas, factores estimulantes de colonias, anticuerpos monoclonales, vacunas, terapia génica y agentes inmunomoduladores inespecíficos.

Los interferones (IFN) son tipos de citocinas que se producen naturalmente en el cuerpo. El interferón alfa, interferón beta e interferón gamma son ejemplos de interferones que pueden usarse en el tratamiento del cáncer.

Al igual que los interferones, las interleucinas (IL) son citocinas que se producen naturalmente en el cuerpo y se pueden producir en el laboratorio. Se han identificado muchas interleucinas para el tratamiento del cáncer. Por ejemplo, interleucina-2 (IL-2 o aldesleucina), interleucina 7 e interleucina 12 pueden usarse como tratamiento contra el cáncer. La IL-2 puede estimular el crecimiento y la actividad de muchas células inmunes, tales como los linfocitos, que puede destruir las células cancerosas. Las interleucinas pueden usarse para tratar varios tipos de cáncer, incluyendo leucemia, linfoma y cáncer de cerebro, colorrectal, de ovarios, de mama, de riñón y de próstata.

Los factores estimulantes de colonias (LCR) (a veces llamados factores de crecimiento hematopoyéticos) también pueden usarse para el tratamiento del cáncer. Algunos ejemplos de CSF incluyen, pero sin limitación, G-CSF (filgrastim) y GM-CSF (sargramostim). Los CSF pueden promover la división de las células madre de la médula ósea y su desarrollo en glóbulos blancos, plaquetas y glóbulos rojos. La médula ósea es fundamental para el sistema inmunológico del cuerpo porque es la fuente de todas las células sanguíneas. Debido a que los fármacos contra el cáncer pueden dañar la capacidad del cuerpo para producir glóbulos blancos, glóbulos rojos y plaquetas, la estimulación del sistema inmunológico por los CSF puede beneficiar a los pacientes sometidos a otro tratamiento contra el cáncer, así, los CSF pueden combinarse con otras terapias contra el cáncer, tales como quimioterapia. Los CSF pueden usarse para tratar una gran variedad de cánceres, incluyendo linfoma, leucemia, mieloma múltiple, melanoma y cánceres de cerebro, de pulmón, de esófago, de mama, de útero, de ovarios, de próstata, de riñón, de colon y de recto.

Otro tipo de terapia biológica incluye anticuerpos monoclonales (MOAB o MoAB). Estos anticuerpos pueden ser producidos por un solo tipo de célula y pueden ser específicos para un antígeno particular. Para crear MOAB, las células cancerosas humanas pueden inyectarse en ratones. En respuesta, el sistema inmunitario del ratón puede producir anticuerpos contra estas células cancerosas. Las células plasmáticas de ratón que producen anticuerpos pueden aislarse y fusionarse con células cultivadas en laboratorio para crear células "híbridas" llamadas hibridomas. Los hibridomas pueden producir indefinidamente grandes cantidades de estos anticuerpos puros o MOAB. Los MOAB se pueden usar en el tratamiento del cáncer de varias maneras. Por ejemplo, los MOAB que reaccionan con tipos específicos de cáncer pueden mejorar la respuesta inmune de un paciente al cáncer. Los MOAB se pueden programar para actuar contra los factores de crecimiento celular, interfiriendo así con el crecimiento de las células cancerosas.

Los MOAB pueden estar relacionados con otras terapias contra el cáncer, como la quimioterapia, radioisótopos (sustancias radiactivas), otras terapias biológicas u otras toxinas. Cuando los anticuerpos se adhieren a las células cancerosas, liberan estas terapias contra el cáncer directamente al tumor, ayudando a destruirlo. Los MOAB que llevan radioisótopos también pueden resultar útiles para diagnosticar ciertos tipos de cáncer, tales como colorrectal, de ovarios y de próstata.

Rituxan® (rituximab) y Herceptin® (trastuzumab) son ejemplos de MOAB que pueden usarse como terapia biológica. Rituxan puede usarse para el tratamiento del linfoma no Hodgkin. Herceptin se puede usar para tratar el cáncer de seno metastásico en pacientes con tumores que producen cantidades excesivas de una proteína llamada HER2. Como alternativa, los MOAB se pueden usar para tratar el linfoma, leucemia, melanoma y cánceres de cerebro, de mama, pulmón, de riñón, de colon, de recto, de ovarios, de próstata y otras áreas.

Las vacunas contra el cáncer son otra forma de terapia biológica. Las vacunas contra el cáncer pueden diseñarse para alentar al sistema inmunitario del paciente a reconocer las células cancerosas. Las vacunas contra el cáncer pueden diseñarse para tratar los cánceres existentes (vacunas terapéuticas) o para prevenir el desarrollo del cáncer (vacunas profilácticas). Las vacunas terapéuticas pueden inyectarse en una persona después de que se diagnostica el cáncer. Estas vacunas pueden detener el crecimiento de tumores existentes, prevenir la recurrencia del cáncer o eliminar las células cancerosas que no fueron destruidas por tratamientos anteriores. Las vacunas contra el cáncer que se administran cuando el tumor es pequeño pueden erradicar el cáncer. Por otra parte, las vacunas profilácticas se administran a individuos sanos antes de que se desarrolle el cáncer. Estas vacunas están diseñadas para estimular el sistema inmunitario para que ataque los virus que pueden causar cáncer. Al dirigirse a estos virus que causan cáncer, se puede prevenir el desarrollo de ciertos tipos de cáncer. Por ejemplo, cervarix y gardasil son vacunas para tratar el virus del papiloma humano y pueden prevenir el cáncer cervical. Las vacunas terapéuticas pueden usarse para tratar el melanoma, linfoma, leucemia y cánceres de cerebro, de mama, de pulmón, de riñón, de ovarios, de próstata, de páncreas, de colon y de recto. Las vacunas contra el cáncer se pueden usar en combinación con otras terapias contra el cáncer.

La terapia génica es otro ejemplo de una terapia biológica. La terapia génica puede implicar la introducción de material genético en las células de una persona para combatir enfermedades. Los procedimientos de terapia génica pueden mejorar la respuesta inmune de un paciente al cáncer. Por ejemplo, se puede insertar un gen en una célula inmune para mejorar su capacidad de reconocer y atacar las células cancerosas. En otro enfoque, las células cancerosas pueden ser inyectadas con genes que causan que las células cancerosas produzcan citocinas y estimulen el sistema inmunitario.

En algunos casos, la terapia biológica incluye agentes inmunomoduladores inespecíficos. Los agentes inmunomoduladores inespecíficos son sustancias que estimulan o aumentan indirectamente el sistema inmunitario. A menudo, estos agentes se dirigen a las células clave del sistema inmunitario y pueden causar respuestas secundarias, como una mayor producción de citocinas e inmunoglobulinas. Dos agentes inmunomoduladores inespecíficos utilizados en el tratamiento del cáncer son el bacilo Calmette-Guerin (BCG) y el levamisol. El BCG puede usarse en el tratamiento del cáncer de vejiga superficial después de la cirugía. El BCG puede funcionar estimulando una respuesta inflamatoria, y posiblemente, inmunitaria. Se puede instilar una solución de BCG en la vejiga. El levamisol a veces se usa junto con la quimioterapia con fluorouracilo (5-FU) en el tratamiento del cáncer de colon en estadio III (Dukes 'C) después de la cirugía. El levamisol puede actuar para restaurar la función inmune deprimida.

La terapia fotodinámica (PDT) es un tratamiento contra el cáncer que puede usar un fármaco, llamado agente fotosensibilizador o fotosensibilizante, y un tipo particular de luz. Cuando los fotosensibilizadores están expuestos a una longitud de onda de luz específica, pueden producir una forma de oxígeno que mata las células cercanas. Un fotosensibilizador puede activarse a la luz de una longitud de onda específica. Esta longitud de onda determina lo lejos que puede viajar la luz en el cuerpo. Por lo tanto, los fotosensibilizadores y las longitudes de onda de la luz pueden usarse para tratar diferentes áreas del cuerpo con PDT.

En la primera etapa de la TFD para el tratamiento del cáncer, se puede inyectar un agente fotosensibilizante en el torrente sanguíneo. El agente puede ser absorbido por las células de todo el cuerpo, pero puede permanecer en las células cancerosas por más tiempo que en las células normales. Aproximadamente 24 a 72 horas después de la inyección, cuando la mayor parte del agente ha dejado células normales pero permanece en las células cancerosas, se puede exponer el tumor a la luz. El fotosensibilizador en el tumor puede absorber la luz y produce una forma activa de oxígeno que destruye las células cancerosas cercanas. Además de matar directamente las células cancerosas, la PDT puede reducir o destruir tumores de otras dos formas. El fotosensibilizador puede dañar los vasos sanguíneos en el tumor, evitando así que el cáncer reciba los nutrientes necesarios. La PDT también puede activar el sistema inmune para atacar las células tumorales.

La luz utilizada para la PDT puede provenir de un láser u otras fuentes. La luz láser se puede dirigir a través de cables de fibra óptica (fibras delgadas que transmiten luz) para suministrar luz a las áreas internas del cuerpo. Por ejemplo, se puede insertar un cable de fibra óptica a través de un endoscopio (un tubo delgado e iluminado que se usa para observar los tejidos dentro del cuerpo) en los pulmones o el esófago para tratar el cáncer en estos órganos. Otras fuentes de luz incluyen diodos emisores de luz (LED), que pueden usarse para tumores de superficie, tal como el cáncer de piel. La PDT generalmente se realiza como un procedimiento ambulatorio. La PDT también puede repetirse y usarse con otras terapias, tal como cirugía, radiación o quimioterapia.

La fotoféresis extracorpórea (ECP) es un tipo de PDT en el que se puede usar una máquina para recolectar las células sanguíneas del paciente. Las células sanguíneas del paciente pueden tratarse fuera del cuerpo con un agente fotosensibilizante, exponerlo a la luz, y luego devolver al paciente. La ECP puede usarse para ayudar a disminuir la gravedad de los síntomas cutáneos del linfoma cutáneo de linfocitos T que no ha respondido a otras terapias. La ECP se puede usar para tratar otros cánceres de sangre y también puede ayudar a reducir el rechazo después de los trasplantes.

Adicionalmente, el agente fotosensibilizante, como porfímero sódico o Photofrin®, puede usarse en la PDT para tratar o aliviar los síntomas del cáncer de esófago y el cáncer de pulmón no microcítico. El porfímero sódico puede aliviar los síntomas del cáncer de esófago cuando el cáncer obstruye el esófago o cuando el cáncer no puede tratarse satisfactoriamente con terapia con láser solo. El porfímero sódico puede usarse para tratar el cáncer de pulmón de células no pequeñas en pacientes para quienes los tratamientos habituales no son apropiados, y para aliviar los síntomas en pacientes con cáncer de pulmón no microcítico que obstruye las vías respiratorias. El porfímero sódico también puede usarse para el tratamiento de lesiones precancerosas en pacientes con esófago de Barrett, una afección que puede conducir al cáncer de esófago.

La terapia con láser puede usar luz de alta intensidad para tratar el cáncer y otras enfermedades. Los láseres se pueden usar para reducir o destruir tumores o crecimientos precancerosos. Los láseres se usan con mayor frecuencia para tratar los cánceres superficiales (cánceres en la superficie del cuerpo o el revestimiento de los órganos internos), como el cáncer de piel de células basales y las primeras etapas de algunos tipos de cáncer, tales como cáncer cervical, peneano, vaginal, vulvar, de pulmón no microcítico.

Los láseres también se pueden usar para aliviar ciertos síntomas de cáncer, tal como sangrado u obstrucción. Por ejemplo, los láseres se pueden usar para reducir o destruir un tumor que está bloqueando la tráquea (tráquea) o el esófago del paciente. Los láseres también se pueden usar para eliminar pólipos o tumores de colon que bloquean el colon o el estómago.

La terapia con láser a menudo se administra a través de un endoscopio flexible (un tubo delgado e iluminado que se usa para observar los tejidos dentro del cuerpo). El endoscopio está equipado con fibras ópticas (fibras delgadas que transmiten luz). Se inserta a través de una abertura en el cuerpo, tal como la boca, la nariz, el ano o la vagina. Entonces, la luz láser está dirigida con precisión para cortar o destruir un tumor.

Termoterapia intersticial inducida por láser (LITT), o fotocoagulación láser intersticial, también usa láseres para tratar algunos tipos de cáncer. La LITT es similar a un tratamiento contra el cáncer llamado hipertermia, que usa calor para reducir tumores al dañar o matar células cancerosas. Durante la LITT, se inserta una fibra óptica en un tumor. La luz láser en la punta de la fibra eleva la temperatura de las células tumorales y las daña o destruye. La LITT a veces se usa para reducir tumores en el hígado.

La terapia con láser se puede usar sola, pero la mayoría de las veces se combina con otros tratamientos, tal como cirugía, quimioterapia o radioterapia. Además, los láseres pueden sellar las terminaciones nerviosas para reducir el dolor después de la cirugía y sellar los vasos linfáticos para reducir la hinchazón y limitar la propagación de las células tumorales.

Los láseres utilizados para tratar el cáncer pueden incluir láseres de dióxido de carbono (CO2), láser de argón y neodimio: láseres de itrio-aluminio-granate (Nd: YAG). Cada uno de estos puede reducir o destruir tumores y puede usarse con endoscopios. Los láseres de CO2 y argón pueden cortar la superficie de la piel sin entrar en capas más profundas. Por lo tanto, pueden usarse para eliminar cánceres superficiales, tal como el cáncer de piel. Por el contrario, el láser de Nd: YAG se aplica más habitualmente a través de un endoscopio para tratar órganos internos, tal como el útero, el esófago y el colon. La luz láser Nd:YAG también puede viajar a través de fibras ópticas hacia áreas específicas del cuerpo durante la LITT. Los láseres de argón a menudo se usan para activar los fármacos utilizados en la PDT.

SECCIÓN EXPERIMENTAL

Se proporcionan los siguientes ejemplos.

Ejemplo 1

Procedimientos

Computación de alto rendimiento

El análisis computacional se realizó utilizando el grupo de ordenadores Flux de alto rendimiento alojado por Advanced Research Computing (ARC) en la Universidad de Michigan.

Procesamiento de datos de ARN-Seq

Se empleó una línea completa de análisis de ARNA-Seq en todas las muestras (Fig. 5b). La línea de análisis proporcionó métricas de calidad de secuencia, filtrado de lecturas de contaminantes, estimación del tamaño del fragmento, estimación de tipo de biblioteca específica de cadena, alineación de corte y empalme de lecturas al genoma de referencia humano (versión hg19/GrCh37), métricas de rendimiento de alineación, generación de pistas de visualización para navegadores genómicos y ensamblaje de transcripción ab initio. Las herramientas de terceros utilizadas para procesar datos de ARN-Seq se seleccionaron en función del rendimiento computacional, facilidad de uso, soporte y experiencia del usuario y la comunidad.

Las versiones de software se administraron de manera efectiva utilizando el sistema de gestión de entornos de módulos. El análisis computacional se realizó en un entorno Linux de 64 bits (Red Hat Enterprise Linux 6). Los binarios de Linux precompilados de 64 bits se descargaron cuando estaban disponibles.

Las métricas de control de calidad de secuencia inicial se calcularon usando FASTQC. A continuación, se realizó un filtrado para eliminar el mapeo de lecturas al ADN mitocondrial, ARN ribosómico, poli-A, poli-C, adaptadores de secuenciación Illumina y el genoma viral enriquecido con phiX174. Las secuencias se descargaron del servidor Illumina iGenomes (2012, 9 de marzo). El mapeo se realizó utilizando bowtie2 (2.0.2).

La distribución del tamaño del fragmento (para las bibliotecas de extremo emparejado) y el diseño del fragmento de cada biblioteca se determinaron automáticamente mediante el mapeo de un subconjunto de las lecturas a una referencia que consta de los 15.868 exones únicos de Ensembl v69 de más de 500 pb que no tenían otras características superpuestas en ninguna de las cadenas. Estos exones representan regiones genómicas contiguas donde ambas lecturas de extremo emparejado de un solo fragmento podrían alinearse con confianza. Se preparó un índice de alineación a partir de esta referencia utilizando la utilidad bowtie-build.

Las lecturas se mapearon usando Tophat2 (2.0.6 y 2.0.8) usando los parámetros predeterminados! Los archivos de anotación del genoma de referencia se descargaron del servidor FTP Illumina iGenomes. Se construyó una referencia del genoma humano a partir de la versión UCSC hgl9 cromosomas 1-22, X, Y y ADN mitocondrial. Se omitieron las referencias de alelos de haplotipos alternativos. Los archivos de índice de alineación para Bowtie versiones 0.12.8 y 2.0.2 se crearon a partir de esta referencia utilizando los programas bowtie-build y bowtie2-build, respectivamente. El conjunto de genes de referencia del transcriptoma Ensembl versión 69 se descargó del servidor FTP de Ensembl. Los nombres de los cromosomas se convirtieron del formato GRCh37 al formato UCSC (por ejemplo, "1" se convirtió en "cr1"). Se omitieron los genes encontrados en alelos de haplotipos alternativos. La utilidad cuffcompare se usó como se especifica en el manual del usuario de Cufflinks para asignar los atributos del sitio de inicio de la transcripción y el promotor a las características del gen en la referencia de Ensembl. Los archivos de índice de alineación para las versiones 0.12.8 y 2.0.2 de Bowtie se prepararon a partir de esta referencia utilizando la opción de índice de transcriptoma en Tophat versión 2.0.6.

Las métricas de alineación de secuencia se calcularon utilizando las herramientas Picard CollectMultipleMetrics y CollectRnaSe-qMetrics. La utilidad de diagnóstico Picard CollectRnaSeqMetrics requería anotaciones genéticas y archivos de intervalo ribosómico como entrada. La tabla "refFlat" proporcionada por el paquete de descarga Illumina iGenomes (9 de marzo de 2012) se utilizó como referencia de anotación genética. Los intervalos de ADN ribosómico se curaron de la tabla RepeatMasker descargada del navegador de la tabla UCSC (Karolchik, D. y col., Nucleic acids research 32, D493-496, (2004)). Esta tabla de elementos repetidos se proporcionó originalmente para hg19 por UCSC el 27/04/2009. Las pistas para la visualización en los navegadores genómicos se generaron utilizando la utilidad BEDTools 'genomecov' y la utilidad UCSC bedGraphToBigWig (Kent, y col., Bioinformatics 26, 2204-2207, (2010); Quinlan, A. R. y Hall, I. M. Bioinformatics 26, 841-842, (2010)).

El ensamblaje ab initio se realizó utilizando Gemelos (2.0.2) con corrección de lectura múltiple habilitada (Trapnell, C. y col., Nature biotechnology 28, 511-515, (2010)). Las características genéticas con el biotipo de ARN ribosómico "ARNr" se agregaron a un archivo de máscara para su uso con la opción --mask-file en Cufflinks.

Descripción general de la reconstrucción del transcriptoma

Para fusionar los fragmentos de los tránscritos ensamblados ab initio (frag. trans.) en un transcriptoma de consenso, se utilizó un procedimiento bioinformático que (1 ) clasifica y filtra las fuentes de ruido de fondo en bibliotecas individuales y (2) reensambla los frag. trans. ponderados por sus niveles de expresión de múltiples bibliotecas en un transcriptoma de consenso.

Control de calidad para los tránsenlos ensamblados ab initio

El ensamblaje ab initio produjo 312,883,292 fragmentos de transcripción (frag. trans.) en todas las bibliotecas, un promedio de 46.810 frag. trans. por biblioteca). Los artefactos de alineación y los tránscritos mal ensamblados se controlaron recortando el primer o último exón muy corto (<15 pb) y excluyendo los frag. trans. cortos (< 250 pb). Estos umbrales filtraron un promedio de 2,0 % de los frag. trans. de cada biblioteca, pero en casos raros hasta el 67 % de todos los frag. trans. en una biblioteca fueron excluidos (Fig. 4a). Después de implementar estas medidas, se mantuvieron 304.397.840 frag. trans. (97,2 % de la entrada).

Evaluación de ADN genómico y niveles de ARN procesados incompletamente

Los experimentos de secuenciación de ARN que aíslan ARN poliadenilado de células enteras capturan inadvertidamente cantidades variables de ARN procesado incompletamente y ADN genómico4. Estas secuencias de ruido se manifiestan dentro de los conjuntos de tránscritos ab initio como retenciones de intrones, frag. trans. intrónicos monoexónicos en la orientación de los sentidos, y frag. trans. expresados de forma relativamente baja dispersados por regiones intergénicas (Cabili, M. N. y col., Genes & development 25, 1915-1927, (2011)). Por lo tanto, el ruido de fondo complica el correcto ensamblaje de los tránscritos monoexónicos, los tránscritos intrónicos, o ambos. Para caracterizar el ruido, la población de frag. trans. intrónica (similar a intrónica) en orientación sentido no anotada total se usó como una medida sustituta de los niveles de ARN tanto genómico como procesado de manera incompleta, y la población de frag. trans intergénicos o en orientación antisentido (similar a intergénicos) no anotada como una medida sustituta de solo los niveles de ADN genómico. La comparación de los frag. trans. en cada categoría en las 6.503 bibliotecas reveló una variabilidad significativa tanto en el número como en la abundancia de frag. trans. correspondientes al ruido (Fig. 6b). De media, los frag. trans. de tipo intergénico constituyeron el 8,6 % de todos los frag. trans. (min: 0,65 %, máx: 43 %), pero solo el 0,88 % del total de FPKM por biblioteca (min: 0,16 %, máx: 16,8 %). Los frag. trans. de tipo intrónico constituyeron el 17 % (min: 0,56 %, máx: 64 %) de todos los frag. trans. y el 2,0 % (min: 0,18%, máx: 54%) del total de FPKM por biblioteca. Estos resultados implican la contaminación del ADN genómico y el ARN procesado de manera incompleta como contribuyentes aproximadamente iguales a los niveles de ruido total; sin embargo, estas dos fuentes de ruido no estaban necesariamente correlacionadas. Adicionalmente, las bibliotecas individuales contienen cantidades variables de ARN procesado de forma incompleta y contaminación de ADN genómico. Por lo tanto, se utilizó una estrategia de filtrado que discriminaba la transcripción verdadera no anotada del ruido de fondo de una manera específica de biblioteca.

Filtrar artefactos de contaminación de ADN genómico de ensamblajes ab initio

Para discriminar la contaminación del ADN genómico de la transcripción robusta, se desarrolló un procedimiento de clasificación que utiliza tanto la abundancia relativa de transcripción como la recurrencia en muestras biológicas independientes. El procedimiento requiere un catálogo de transcripción conocido (Ensembl versión 69) para determinar el estado de anotación de los frag. trans. ab initio (Flicek, P. y col., Ensembl 2014. Nucleic acids research 42, D749-755, (2014)). Los frag. trans. que superpusieron tránscritos conocidos en la orientación sentidos se denominaron "anotados", y los frag. trans. restantes se clasificaron como "intrónicos sentido" o "antisentido/intergénicos" en función de su relación con los tránscritos anotados (Fig. 6c,d). La abundancia relativa se determinó mediante el uso de la distribución empírica de los valores de FPKM para convertir los valores de transcripción de FPKM en cuantiles. Los niveles de recurrencia se calcularon primero por base contando muestras biológicas independientes con evidencia de transcripción (las réplicas de líneas celulares idénticas o tejidos tumorales del mismo paciente no se contaron para la recurrencia). Luego se calculó un único valor de recurrencia para cada frag. trans. promediando los valores de recurrencia de todas las bases de la frag. trans. Después de calcular la abundancia relativa y la recurrencia para todos los frag. trans., se entrenó un clasificador para discriminar frag. trans. anotados de no anotados como un sustituto para clasificar la transcripción verdadera del ruido de fondo. Específicamente, las estimaciones de densidad de grano bivariadas se convirtieron utilizando los ejes de recurrencia de abundancia por separado para frag. trans. anotados y no anotados. Estas densidades se mapearon en una cuadrícula cuadrada (50 x 50). A continuación, la densidad anotada se dividió por la densidad no anotada en cada punto de la cuadrícula después de agregar un valor nominal para evitar errores de desbordamiento de punto flotante. Esto dio como resultado una nueva cuadrícula que contenía razones de probabilidad para frag. trans. anotados frente a no anotados a lo largo de los ejes de recurrencia de abundancia. Para tener en cuenta el ruido total presente en la biblioteca, las estimaciones de probabilidad fueron ponderadas por la relación relativa de frag. trans. no anotados frente a anotados en la biblioteca que se clasifica. Este peso equivalía a la proporción de la fracción de transcripciones conocidas a no anotadas en una biblioteca dividida por la proporción de las medianas de estas fracciones en todas las bibliotecas. Por último, por cada frag. trans. en un ensamblaje ab initio, se calculó la probabilidad ponderada del frag. trans.anotado interpolando linealmente la abundancia y recurrencia del frag. trans. en la cuadrícula. Para cada biblioteca, se calculó una relación de probabilidad de corte optimizando la precisión equilibrada (promedio de sensibilidad y especificidad) del rendimiento del clasificador (Fig. 6e). Los frag. trans. con probabilidad por debajo de este límite se etiquetaron como "fondo" y el resto "expresado". Los resultados de las bibliotecas individuales se concatenaron para producir antecedentes separados y se expresaron catálogos de frag.

trans. como salida. Los tránscritos clasificados como ruido de fondo se descartaron y se realizó un meta-ensamblaje en la fracción expresada. Para evaluar la sensibilidad del procedimiento de clasificación, el enfoque de filtrado se calculó después de omitir el 10 % de los frag. trans. anotados como datos de "prueba". Luego se evaluó la capacidad de detectar estos genes utilizando los puntos de corte de probabilidad determinados sin los datos de prueba incluidos (Fig. 10f).

Meta-ensamblaje del transcriptoma

Se proporciona un algoritmo de meta-ensamblaje que produce isoformas a partir de gráficos de patrones de empalme después de podar fuentes de ARN procesado de manera incompleta que se manifiestan como retenciones de intrones y exones inapropiadamente largos. Los estudios de corte y empalme alternativos han revelado un sistema estrictamente controlado en el que a menudo solo se observa un pequeño número de isoformas posibles de los loci con innumerables posibilidades de empalme (Pickrell, J. K. y col., Nature 464, 768-772, (2010); Barash, Y. y col., Nature 465, 53-59, (2010)). Para incorporar estas observaciones biológicas, se utilizó un enfoque de programación dinámica y codiciosa que informa los tránscritos más abundantes y descarta las isoformas menores.

Para comenzar, los gráficos de corte y empalme acíclico dirigido donde los nodos en el gráfico reflejan regiones exónicas contiguas y los bordes corresponden a las posibilidades de corte empalme generadas (Fig. 7a). Los nodos en el gráfico de corte y empalme se podan de acuerdo con varios criterios. En primer lugar, las puntuaciones bajas terminan en el gráfico que corresponden a exones extremadamente largos o exones sobresalientes que se extienden en los intrones. En segundo lugar, los nodos dentro de los intrones se recortan cuando sus puntuaciones son menos de una fracción de los exones vecinos. Los componentes débilmente conectados de los gráficos de corte y empalme podados se extraen y procesan de forma independiente.

Un gráfico de corte y empalme abarca el entorno de posibles isoformas que podrían transcribirse. Enumerar todos los caminos posibles a través de gráficos de empalme no es práctico; muchos gráficos tienen millones de rutas de las cuales solo se observan fracciones diminutas in vivo. Los frag. trans. de entrada iniciales proporcionan rutas parciales a través del gráfico de empalme y también indican qué partes del gráfico son más abundantes. El enfoque descrito en el presente documento incorpora esta información de ruta parcial mediante la construcción de un gráfico de patrón de empalme que subsume el gráfico de corte y empalme original (Fig. 7b). El gráfico de patrón de corte y empalme es un tipo de gráfico de De Bruijn donde cada nodo representa una ruta contigua de longitud k a través del gráfico de empalme, y los bordes conectan rutas con nodos k-l en común. A medida que k aumenta, también lo hace la cantidad de información de ruta correlativa retenida en el gráfico a costa de perder frag. trans. cortos con una longitud inferior a k. Cada nodo en el gráfico tiene un peso igual a los pesos sumados de todas los tránscritos que comparten el nodo. Por lo tanto, para cada gráfico de corte empalme, la longitud de ruta parcial k se optimiza para maximizar el número de nodos en la gráfica de ruta con la restricción de que los pesos de nodo sumados de los frag. trans. con una longitud de ruta mayor o igual a k están por encima de una fracción especificada por el usuario de la puntuación total de todos los frag. trans. Después de que se haya construido el gráfico de ruta, cada frag. trans. de la ruta parcial se extiende en una transcripción completa transmitiendo el peso de la frag. trans. a lo largo de los bordes entrantes y salientes. Este peso se asigna proporcionalmente a los nodos con múltiples bordes entrantes o salientes. Este enfoque extiende efectivamente todos los fragmentos de transcripciones parciales en transcripciones de longitud completa y asegura que la suma de los pesos de los nodos entrantes y salientes sea equivalente. Por último, se predice un conjunto de isoformas a partir del gráfico utilizando un algoritmo codicioso. El algoritmo encuentra e informa el tránscrito de mayor abundancia atravesando el gráfico mediante programación dinámica. El peso del tránscrito es igual al peso mínimo de todos los nodos en la ruta. A continuación, el peso del tránscrito se resta de cada nodo en la ruta y se repite el procedimiento de programación dinámica. Los tránscritos subóptimos se enumeran hasta que el peso de la ruta cae por debajo de una fracción de la transcripción con el mayor peso (por ejemplo, la isoforma principal). El número total de isoformas producidas a partir de cada gen también se puede restringir explícitamente. Las isoformas meta-ensambladas se reportan en formato GTF y/o BED. Una pista del genoma con pesos de nodo sumados también se puede informar opcionalmente en formato BedGraph.

Assembly Line se desarrolló como un paquete de software escrito en Python y R para (1) caracterizar y filtrar fuentes de ruido de fondo en ensamblajes ARN-Seq y (2) realizar meta-ensamblaje para fusionar conjuntos de datos ARN-Seq a gran escala. AssemblyLine acepta como entrada un conjunto de archivos GTF que contienen frag. trans. ensamblados de bibliotecas individuales. Los frag. trans. de longitud inferior a 250 pb se omitieron del metaensamblaje, y los frag. trans. restantes se etiquetaron como 'anotados' o 'no anotados' en relación con un archivo GTF de referencia (GENCODE versión 16). Un frag. trans. ab initio se consideró "anotado" si sus exones se superponían a cualquier exón de transcripción de referencia en la cadena idéntica. Se calculó una puntuación de recurrencia para cada frag. trans. de ab initio como el número promedio de muestras (las bibliotecas replicadas de una sola línea celular o tejido se consideraron una sola muestra) por nucleótido con transcripción de la misma cadena.

La clasificación y el filtrado de frag. trans. "de fondo" y "expresados" se realizó modelando la abundancia (FPKM) y la recurrencia de transcripciones 'anotadas' y 'no anotadas' usando la estimación de densidad de núcleo bivariada en una cuadrícula cuadrada (tamaño de cuadrícula 50x50, ancho de banda determinado por Silverman regla de oro). Una cuadrícula de razones de probabilidad se derivó de las cuadrículas "anotadas" y "no anotadas" por división de elementos en cada punto de la cuadrícula. La probabilidad de que cada frag. trans. se "anotara" se determinó por interpolación lineal en esta cuadrícula, y esta probabilidad se usó como una medida sustituta de la probabilidad de que una transcripción representara el ruido de fondo. Se utilizó una relación de probabilidad menor o igual a uno como punto de corte para filtrar los tránscritos de "fondo".

Los tránscritos filtrados se sometieron al algoritmo de meta-ensamblaje AssemblyLine. Para limitar la salida de transcripción para loci complejos, se excluyeron las isoformas con una abundancia inferior al 10 % de la isoforma de tránscrito principal (--fracción-principal-isoforma 0,10), se permitió un máximo de 20 isoformas para cada gen (--trayectosmax 20). Durante la creación del gráfico de patrón de empalme, se determinó un parámetro de gráfico de De Bruijn óptimo k para maximizar el número de nodos del gráfico. Un valor máximo de k se limitó a 20 para mejorar la trazabilidad computacional del enfoque de optimización (--kmax 20). La salida del meta-ensamblaje fue un archivo con formato GTF, así como archivos con formato BED y BEDGraph (-gtf-bed - bedgraph).

Fusión de meta-ensamblajes

Para fusionar meta-ensamblajes de 18 cohortes, se usó la herramienta Cuffmerge (Trapnell, C. y col., Nature protocols 7, 562-578, (2012)); que produjo un archivo GTF transcriptoma final.

Comparaciones de MiTranscriptoma con catálogos de referencia

Los exones, los sitios de corte y empalme y los patrones de corte y empalme de todas los tránscritos ensamblados se compararon con RefSeq, UCSC, GENCODE (versión 19), y la unión fusionada de los tres catálogos de referencia utilizando scripts de python personalizados. Los valores de sensibilidad y precisión se calcularon utilizando el número de bases transcritas específicas de cadena compartidas, intrones y patrones de corte y empalme. La precisión también se calculó para el subconjunto de transcripciones ab initio que se superponen a cualquier parte de una transcripción de referencia. Los tránscritos que se superponen a una transcripción de referencia en el mismo capítulo se designaron anotados. Cuando un tránscrito ab initio coincidió con múltiples tránscritos de referencia, se eligió una mejor coincidencia utilizando los siguientes criterios: (1 ) patrón de corte y empalme equivalente, (2) fracción de intrones compartidos y (3) fracción de bases transcritas compartidas. El biotipo (proteína, lectura, pseudogen o ARNlnc) para los tránscritos anotados fue imputado de la mejor transcripción de referencia coincidente. Los arnlncanotados y los tránscritos sin anotar se reclasificaron como arnlnco TUCP.

Predicción de transcripciones de potencial de codificación desconocido (TUCP)

Potencial de codificación según lo previsto integrando dos fuentes de evidencia: (1) predicciones de la herramienta de evaluación del potencial de codificación sin codificación (CPAT) (Wang, L. y col., Nucleic acids research 41, e74, (2013) ) y (2) búsquedas para Pfam 27.0 coincidencias (Finn, R. D. y col., Nucleic acids research 42, D222-230, (2014) ). CPAT determina la probabilidad de codificación de secuencias de transcripción utilizando un modelo de regresión logística construido a partir del tamaño del ORF, Fickett TESTCODE statistic55, y sesgo de uso de hexámero. Se eligió un punto de corte de probabilidad de CPAT muestreando aleatoriamente 100.000 transcripciones putativas de codificación de proteínas y sin codificación y optimizando la métrica de precisión equilibrada (promedio de sensibilidad y especificidad) (Fig. 9b, c). El área promedio bajo la curva (AUC) en 100 iteraciones fue de 0,9310 (mínimo 0,9302, máximo 0,9320), y el límite de probabilidad óptimo promedio fue 0,5242 (mínimo 0,5090, máximo 0,5482). Este valor de corte logró una discriminación precisa de los arnlncy los genes que codifican proteínas (sensibilidad: 0,84, especificidad: 0,95, FDR: 0,076). De los supuestos tránscritos no codificantes, 9.903 (5,3 %) excedieron el límite de CPAT y cumplieron con los criterios para TUCP.

Como evidencia adicional de potencial de codificación, se exploraron todos los tránscritos para los dominios Pfam A o B en los tres marcos de lectura traducidos para los tránscritos de cadenas y seis marcos para tránscritos monoexónicos de cadena desconocida. Para controlar los falsos positivos, las regiones intergénicas no transcritas se exploraron de la misma manera. Se observaron 3.781.935 coincidencias a 12.430 dominios Pfam únicos en regiones transcritas en comparación con 1.774.937 visitas a 1.277 dominios únicos en el espacio intergénico no transcrito. Las apariciones de cada dominio Pfam en regiones transcritas frente a no transcritas se compararon utilizando la prueba exacta de Fisher y 750 dominios con una razón de probabilidades de menos de 10,0 o un valor de p mayor de 0,05, ya que los artefactos probables estaban marcados (Fig. 9d). Los restantes 11.726 dominios Pfam se consideraron válidos. Este procedimiento filtró 2.972.629 golpes de artefactos y retuvo 809.306 coincidencias válidas. Los supuestos tránscritos no codificantes albergaron solo 4.674 (0,40 %) de los dominios Pfam válidos. La presencia de dominios Pfam proporcionó un fuerte apoyo para las predicciones de codificación de CPAT. La presencia o ausencia de transcripciones estratificadas en un dominio Pfam por las tres características modeladas por CPAT, así como la probabilidad de codificación general (Fig.9e). Los tránscritos que poseen dominios Pfam tenían muchas más probabilidades de ser predichas positivas por CPAT que aquellas que carecen de un dominio Pfam (valor p <2,2e-16, razón de posibilidades = 90,3, prueba exacta de Fisher). Dados los aspectos complementarios del dominio Pfam y la predicción de CPAT, se diseñaron transcripciones putativas sin codificación con un dominio Pfam o una predicción positiva de CPAT como TUCP. En total, 11.603 tránscritos no caracterizadas se marcaron como TUCP, incluyendo 5.248 tránscritos previamente anotados como ARNlnc. Hubo 2.729 tránscritos no caracterizados con al menos un dominio Pfam, incluyendo 1.700 que cumplieron con los criterios de CPAT. Por el contrario, 8.874 tránscritos positivos de CPAT carecían de un dominio Pfam válido. Los tránscritos predichos por CPAT que también habían aojado dominios Pfam válidos tenían OFR más largos, mayores puntuaciones de hexámero y mayores puntuaciones de Fickett TESTCODE que otros TUCP, lo que indica que las llamadas de Pfam y CPAT pueden ser complementaros (Fig. 9f-h).

La herramienta de evaluación del potencial de codificación (CPAT) versión 1.2.1 se usó con parámetros predeterminados y se utilizó la tabla de hexámeros humanos y el modelo logit (Wang, L. y col., Nucleic acids research 41, e74, (2013)). Los resultados fueron escaneados para Pfam 27.0 (marzo de 2013) coincidencias A y B utilizando la utilidad pfam_scan.pl construida en HMMER 3.1b (Eddy, S. R. PLoS computational biology 7, e1002195, (2011); Finn, R. D. y col., Nucleic acids research 42, D222-230, (2014)). El análisis de la característica operativa del receptor (ROC) se realizó utilizando el paquete ROCR (Sing, y col., Bioinformatics 21, 3940-3941, (2005)).

Análisis proteómico

Los archivos Thermo.raw se obtuvieron de la base de datos PRIDE. Adult Kidney Gel Elite 55, Adult_Liver_Gel_Elite_56, Adult_Pancreas_Gel_Elite_60, Adult_Rectum_Gel_Elite_63, Adult_Urinarybladder_Gel_Elite_40, Fetal_Brain_Gel_Velos_16, Adult_Lung_Gel_Elite_56 y Adult_Prostate_Gel_Elite_62. Los archivos Thermo.raw se transformaron en mzXML usando MSConverter y se interrogaron contra la base de datos humana UniProt V.15.11 usando el motor de búsqueda en tándem X!. La base de datos se concatenó con todos los marcos de lectura abiertos posibles de más de 7 aminoácidos de longitud la base de datos de arnlncy con secuencias invertidas para la determinación de FDR. Los parámetros de búsqueda de X! Tandem fueron: escisión completamente tríptica, error de masa principal 5 ppm, error de masa de fragmento 0,5 Da, 2 escisiones perdidas permitidas. Modificaciones fijadas: Carbamidometilación en Cys. Modificaciones variables: Oxidación de Met. Los archivos de salida de X!Tandem se procesaron mediante Peptide-Prophet y ProteinProphet y para la salida final los datos se filtraron a la probabilidad de péptido 0,5 y a la probabilidad de proteína 0,9 para asegurar la proteína FDR <1 %.

Sistema de puntuación de confianza

Después del ensamblaje del MiTranscriptoma, los tránscritos fueron sometidas a una evaluación de confianza adicional. Los ARNlnc en el MiTranscriptoma se clasificaron en niveles según su estado de anotación y el grado de coincidencia de las uniones de corte y empalme con la anotación de referencia. Los tránscritos del Nivel 1 están todos anotados y los tránscritos del Nivel 2 no están anotados. Se desarrolló una función de distribución acumulativa empírica perfilando el segundo valor de expresión más alto (en todas las 6.503 muestras) para cada transcripción del nivel 1. El segundo valor más alto se usó para controlar la expresión atípica. El segundo valor de expresión más alto para cada tránscrito del nivel 2 se introdujo en la función de distribución para producir la puntuación de confianza. Validación del tránscrito de arnlncmediante cRT-PCR

Se seleccionaron 150 ARNlnc con al menos 1 expresión de FPKM en las células A549, LNCaP o MCF7 para la validación biológica. Para cada tránscrito, los pares de cebadores se diseñaron utilizando la herramienta Primer-BLAST. Se seleccionaron pares de cebadores con los siguientes parámetros: (1) longitud del amplicón entre 80-140 pb (2) contenido de cebador GC entre 35-65 % y (3) longitud del cebador mayor de 20 pb. Los cebadores se lanzaron contra el genoma humano para garantizar la especificidad del gen diana y los cebadores diseñados contra tránscritos multiexónicos abarcaron las uniones del exón. Se evitaron las regiones de cualquier tránscrito que solaparan directamente un exón en la cadena antisentido. Los pares de cebadores que cumplen estos criterios podrían diseñarse para 100 de 150 arnlnc (38 monoexónicos y 62 multiexónicos). Todos los cebadores oligonucleotídicos se obtuvieron de Integrated DNA Technologies (Coralville, IA).

Se aisló el ARN de las células A549, LNCaP y MCF7 en Trizol (Invitrogen) usando el RNeasy Mini Kit (Qiagen). Se convirtió una cantidad igual de ARN en ADNc usando cebadores aleatorios y el sistema de transcripción inversa Superscript III (Invitrogen). La PCR cuantitativa en tiempo real (cPCR) se realizó utilizando Power SYBR Green Mastermix (Applied Biosystems, Foster City, CA) en un sistema de PCR en tiempo real 7900HT de Applied Biosystems. Los genes de mantenimiento, CHMP2A, EMC7, GPI, PSMB2, PSMB4, RAB7A, REEP5, SNRPD3 se utilizaron como controles de carga56. Los datos se normalizaron primero a los genes de mantenimiento y luego al valor medio de todas las muestras utilizando el procedimiento Ct delta-delta y se representaron como la cantidad de cambio sobre la mediana. Para garantizar la especificidad de los cebadores, 20 amplicones se analizaron adicionalmente mediante secuenciación de Sanger.

Líneas celulares y reactivos:

Todas las líneas celulares se obtuvieron de la Colección Americana de Cultivos Tipo (Manassas, VA). Las líneas celulares se mantuvieron usando condiciones estándar. Específicamente, A549 se cultivaron en F-12K más 10 % de suero bovino fetal (FBS), LNCaP en RMPI1640 (Invitrogen) más 10 % de FBS y 1 % de penicilina-estreptomicina y MCF7 en medio esencial mínimo de Eagle (EMEM) más 10 % de FBS. Todas las líneas celulares se cultivaron a 37 °C en una incubadora de cultivo celular con CO2 al 5 %. Para garantizar la identidad, las líneas celulares se genotiparon en University of Michigan Sequencing Core utilizando Profiler Plus (Applied Biosystems) y se compararon con los perfiles de repetición en tándem corto (STR) de las líneas celulares respectivas disponibles en la base de datos de perfiles STR (ATCC). Todas las líneas celulares se analizaron de forma rutinaria y se descubrió que estaban libres de contaminación por Mycoplasma.

Evidencia de regulación activa de los sitios de iniciación de la transcripción

Para realizar el análisis de los intervalos TSS, los conjuntos de datos del proyecto ENCODE se descargaron del navegador de genomas UCSC (Karolchik, D. y col., Nucleic acids research 42, D764-770, (2014)). Para el análisis de H3K4me3, se usaron los picos H3K4me3 ChIP-Seq del Encode Project Broad Institute para las líneas celulares GM12878, H1-hESC, HeLa-S3, HepG2, HMEC, HSMM, HSM-Mtube, HUVEC, K562, NH-A, NHDF-Ad, NHEK y NHLF57. Para el análisis de ARN polimerasa II, se usaron sitios de unión POL2RA del archivo maestro Encode Project Uniform TFBS versión 3 para cualquiera de las líneas celulares con datos de H3k4me3 (Consortium, E. P. y col., Nature 489, 57-74, (2012)). Por último, para el análisis de hipersensibilidad a ADNasa, las regiones de hipersensibilidad combinadas UW y Duke DNasel del Proyecto Encode se descargaron como un archivo maestro de EMBL-EBI y se filtraron para cualquiera de las líneas celulares con datos H3k4me3. Los archivos de enriquecimiento de pico (formato BED) se añadieron en todas las líneas celulares.

Los intervalos de /- 10 kilobases alrededor de TSS de MiTranscriptoma únicos se generaron utilizando la herramienta de la "pendiente" de BEDTools (Quinlan, A. R. & Hall, 1. M. Bioinformatics 26, 841-842, (2010)). Los TSS se filtraron para la expresión en cada línea celular a RPKM> 0,1. Se generó una cobertura en términos de las bases para cada intervalo de TSS utilizando la función de "cobertura" de BEDTools y se resumió en subpoblaciones de TSS. Los histogramas de cobertura por base sumados se normalizaron dividiendo por el número de TSS expresados.

Análisis de conservación

La conservación evolutiva de los tránscritos en el ensamblaje se estudió utilizando dos métricas: (1) la fracción de bases significativamente conservadas (p < 0,01, algoritmo phyloP), y (2) la ventana deslizante de 200nt máximamente conservada (puntuaciones phastCons promediados dentro de cada ventana). Los primeros elementos conservados independientemente de las primeras capturas dentro de un tránscrito, independientemente de la posición, y las regiones de alta conservación de las últimas capturas. El tamaño de la ventana deslizante de 200 nt se eligió para ayudar en el descubrimiento de supuestos elementos ultraconservados (Bejerano, G. y col., Science 304, 1321-1325, (2004)). Como control negativo, la conservación de las regiones no transcritas se midió utilizando estas métricas mediante el muestreo aleatorio de intervalos contiguos de longitud coincidente desde el espacio intergénico e intrónico. El muestreo a intervalos de las no transcritas se restringió a regiones con datos válidos de conservación de 46 vías. Las medidas de conservación fraccional de bases y de conservación de ventanas contiguas se utilizaron para nominar tránscritos altamente conservados y ultraconservados, respectivamente. En ambos casos, los límites para los tránscritos significativos se determinaron controlando la tasa de observación de elementos con niveles de conservación similares dentro del espacio intergénico no transcrito a un nivel de 0,01. Para la conservación fraccional de bases, una puntuación de 0,0947 (9,5 % de las bases de transcripción conservadas con un valor p de phyloP <0,01) correspondió a una tasa de descubrimiento falso <0,01. En este punto de corte, la sensibilidad para detectar tránscritos de codificación de proteínas fue de 0,67. Para la conservación de las ventanas deslizantes contiguas, una probabilidad promedio de PhastCons de 0,9986 correspondió a una tasa de un descubrimiento falso <0,01. En este punto de corte, la sensibilidad para detectar elementos no codificantes ultraconservados positivos verdaderos descargados de UCNEbase fue de 0,6926. La aplicación de estos criterios al ensamblaje produjo 6.034 arnlnc (3,4 %) y 541 TUCP (4,7 %) con niveles significativos de conservación de bases. Adicionalmente, 1.686 arnlnc (0,96 %) y 121 TUCP (0,01 %) albergaban regiones ultraconservadas contiguas.

Análisis de GWAS

Se obtuvo una lista de SNP de GWAS del catálogo GWAS del Instituto Nacional de Investigación del Genoma Humano (Welter, D. y col., Nucleic acids research 42, D1001-1006, (2014)). Los haplotipos de SNP se excluyeron del análisis de solapamiento de SNP, y se obtuvo una lista de 11.194 SNP únicos. La unión fusionada de los catálogos RefSeq, UCSC y GENCODE se utilizaron como referencia para la comparación con MiTranscriptoma. Los perfiles de conservación genómica generados por los algoritmos phyloP (valores p filogenéticos) y PhastCons para alineaciones múltiples de 45 genomas de vertebrados al genoma humano se descargaron del explorador de genomas UCSC (Karolchik, D. y col., Nucleic acids research 42, D764-770, (2014); Pollard y col., Genome research 20, 110-121, (2010); Siepel, A. y col., Genome research 15, 1034-1050, (2005)). Los archivos formateados "wigFix" se estaban convirtiendo en archivos formateados "bigWig" utilizando el programa de utilidad binaria "wigToBigWig" provisto por el navegador genómico UCSC (Karolchik y col., citado anteriormente). Para cada tránscrito, se extrajo un vector de puntuaciones de conservación para cada exón usando la utilidad "bigWigToBedGraph" y se concatenó en un solo vector. A continuación, las métricas de conservación se calcularon a partir de estos vectores.

Las intersecciones de los SNP de GWAS con tránscritos o exones se realizaron utilizando la herramienta "intersect" de BEDtools, con la opción "-split" invocada para la cuantificación de la superposición exónica (4. El número de SNP de GWAS que se solapan en todo el ensamblaje y las categorías de tránscritos individuales (ARNlnc, TUCP, pseudogén, codificación de proteínas y lectura) se determinó mediante "intersect" de BEDTools tanto para el tránscrito completo como para las regiones exónicas (nGWAS). Posteriormente, se creó un conjunto de todos los SNP de dos matrices de SNP populares (Illumina HumanHap550 y Affymetrix SNP6), que se denominó "fondo de SNP". Se calculó la cantidad de SNP del fondo de SNP que se solapan en el MiTranscriptoma (nfondo), y luego se indicó la fracción del número de SNP de GWAS solapantes al número de SNP solapantes del fondo de s Np racGW AS = nGWAS/nbackground) para cada categoría. Esta fracción también se calculó utilizando la combinación aleatoria del MiTranscriptoma y sus componentes en regiones no codificantes del genoma (fracshuffle). Se realizaron cien barajados para cada condición, y se determinó la razón de posibilidades (ORGWAS = fracG-WAS/fracshuffle) para cada barajado. El fin de usar fracGWAS en lugar de simplemente usar I en este análisis es controlar la posibilidad de que durante el barajado, los tránscritos puedan mezclarse en regiones no representadas en matrices de SNP (por ejemplo, regiones que no pueden poseer SNP de GWAS), reducir falsamente la cantidad de solapamiento de SNP de GWAS por el barajado. Si los tránscritos se barajan en regiones que no están representadas por el fondo de SNP, tanto nGWAS como nbackground disminuirán juntos, con fracGWAS relativamente sin cambios.

El barajado se realizó utilizando la herramienta "shuffle" de BEDTools. Los tránscritos de Mitranscriptoma se agruparon por locus de transcripción (por ejemplo, regiones del genoma que tienen transcripción contigua) antes de barajar. El barajado de los loci de los tránscritos se realizó para controlar el hecho de que los tránscritos dentro de un locus están espacialmente unidos entre sí. El barajado sin agrupamiento de locus elevaría falsamente la cantidad de genoma cubierto por los tránscritos, y posteriormente elevaría el número de SNP que se superponen a las regiones barajadas. Se usó una concatenación del archivo UCSC hg19 gaps y los tránscritos de codificación de proteínas de MiTranscriptoma como un archivo de exclusión para dichos barajados.

Como control negativo, todo el análisis anterior se repitió utilizando un número igual de SNP seleccionados al azar (elegidos del fondo Illumina HumanHap550 y Affymetrix SNP6) en lugar de los SNP de GWAS. La importancia del enriquecimiento para los SNP de GWAS frente a los SNP aleatorios se midió a través de barajados idénticas de los loci de tránscritos utilizando pruebas t de Student pareadas que compararon el conjunto de las razones de posibilidades para todos los barajados. Se realizó un análisis similar a la determinación del enriquecimiento de los compendios para identificar el enriquecimiento de los nuevos arnlncy TUCP intergénicos. El espacio intergénico se definió como todas las regiones no cubiertas por la referencia fusionada. Para este análisis, los barajados se realizaron en el espacio intergénico, en lugar de todo el espacio no codificante. El archivo de exclusión utilizado por "shuffle" de BEDtools fue una concatenación del archivo de espacios UCSC y la referencia fusionada.

Estimación de expresión de los tránscritos

Los niveles de expresión (FPKM) de los tránscritos en el ensamblaje se determinaron utilizando Cufflinks (versión 2.02 y 2.1.1) 60. Se calcularon estimaciones de abundancia normalizadas (FPKM) para todos los tránscritos de MiTranscriptoma, se convirtieron en valores aproximados de recuento de fragmentos y agregaron en una matriz de datos de expresión (Fig. 3a). Los factores de tamaño de la biblioteca para la normalización de la expresión se calcularon aplicando el procedimiento de normalización geométrica descrito por Anders y Huber (Genome biology 11, R106 (2010)).

Las abundancias de tránscritos para todos los tránscritos en el ensamblaje MiTranscriptoma se estimaron utilizando la versión 2.1.15 de Cufflinks con los siguientes parámetros: "--max-fragmultihits= 1", "--no corrección por longitud efectiva", "--máx longitud de haz 5000000", "--frags, de haz máx. 20000000". Para convertir las estimaciones de abundancia de tránscritos normalizados (FPKM) en valores de recuento de fragmentos aproximados, cada FPKM se multiplica por la longitud del tránscrito (en kilobases) y por el valor de "Masa del mapa" (dividido por 1,0e6) informado en los archivos de registro de Cufflinks. Mediante ingeniería inversa y asistencia del foro en línea de seqanswers (seqanswers.com), se determinó que este factor se utilizó en el proceso de normalización. La estimación de abundancia para 28 bibliotecas falló por razones técnicas (archivos BAM corruptos) y estas bibliotecas se descartaron del análisis de expresión. La estimación de expresión para 2.246 tránscritos arrojó errores y/o recuentos de valor cero y se descartaron.

Análisis de enriquecimiento de expresión de tránscritos

Para analizar la expresión diferencial de los tránscritos en relación con los fenotipos de muestra, se desarrolló un procedimiento llamado Análisis de enriquecimiento de conjuntos de muestras (SSEA). El código fuente de este software está disponible en línea. El procedimiento adapta las pruebas ponderadas de Kolmorgorov-Smirnoff (KS) propuestas por Gene Set Enrichment Analysis (GSEA). En contraste con GSEA, que prueba las asociaciones con conjuntos de genes, la SSEA prueba las asociaciones entre las observaciones de expresión génica individual (que podrían ser tránscritos o expresión génica) y conjuntos de muestras. Por lo tanto, la SSEA es análoga a realizar GSEA en un conjunto de datos de entrada "transpuestos". Sin embargo, la SSEA incorpora características importantes no proporcionadas por GSEA:

(1 ) metodología para el análisis no paramétrico de datos de recuento discreto (por ejemplo, conjuntos de datos de recuento de ARN-Seq),

(2) mejoras de ingeniería para permitir el análisis de grandes conjuntos de datos (en el presente documento, se analizó una matriz de 381.731 filas y 6.475 columnas usando menos de 1 Gb de RAM), y (3) paralelización del algoritmo para su uso en entornos informáticos de alto rendimiento.

La prueba de expresión diferencial se realizó utilizando el procedimiento de Análisis de enriquecimiento del conjunto de muestras desarrollado como parte de este estudio. La SSEA se realizó con 100 iteraciones de recuento de muestras y 1.000 permutaciones nulas para cada tránscrito (--remuestreado-iteraciones = 100, --permanentes = 1000). Estos parámetros produjeron una resolución mínima de FDR de aproximadamente le-7 para todos los conjuntos de muestras. Los pesos para la prueba KS fueron valores de recuento normalizados transformados log (x 1 ) (--peso-coincidencia = log, --peso-pérdida = log, --param.de peso = 1 ).

Pruebas KS utilizando vectores de datos de recuento normalizados como pesos.

Para convertir los valores de recuento en pesos para una sola prueba KS, se realizan las siguientes etapas: (1) los valores de recuento sin procesar se normalizan por factores de tamaño específicos de la biblioteca, (2) los valores de recuento normalizados se "remuestrean" de una distribución de Poisson (lambda es igual al valor de recuento observado) para imitar el efecto de la replicación técnica y (3) se añade ruido de Poisson aleatorio (por defecto, lambda es igual a 1 ) a los valores, muestreó los valores de recuento remuestreados normalizados para desestabilizar los recuentos de valor cero y romper los lazos. A continuación se aplica una transformación de potencia (exponencial o logarítmica) a los pesos (por defecto, se aplica una transformación logarítmica después de incrementar los valores de recuento normalizados en 1). La elección de la transformación de potencia influye en la importancia relativa de la precisión frente a el recuerdo durante las pruebas de enriquecimiento. Por ejemplo, los usuarios que deseen descubrir genes nuevos en los subtipos moleculares de una enfermedad priorizarían la precisión sobre la sensibilidad, mientras que un usuario con el objetivo de descubrir biomarcadores ideales puede valorar la sensibilidad sobre la precisión. Después de la normalización de datos de recuento y transformación de potencia, la SSEA realiza el procedimiento de prueba KS ponderado descrito en GSEA28. La estadística de puntuación de enriquecimiento (ES) resultante describe la fuerza de asociación entre los pesos y el conjunto de muestras.

Para controlar el sesgo de muestreo aleatorio en los valores de recuento (por ejemplo, "ruido de disparo"), la SSEA realiza pruebas de enriquecimiento repetidas utilizando valores de recuento muestreados para imitar las observaciones de las réplicas técnicas y utiliza la puntuación de enriquecimiento promedio (de forma predeterminada, se realizan 100 pruebas). Marioni y col.,62 establecieron la base para el remuestreo de Poisson como un modelo legítimo para la replicación técnica. Para comprobar la importancia, la SSEA realiza pruebas de enriquecimiento utilizando etiquetas de muestra aleatoriamente barajadas para obtener un conjunto de puntuaciones de enriquecimiento nulo con el mismo signo que la puntuación observada (de manera predeterminada, se calculan 1000 puntuaciones de enriquecimiento nulo). El valor nominal p informado es el intervalo relativo de la puntuación de enriquecimiento observada dentro de las puntuaciones de enriquecimiento nulo. Para controlar la prueba de hipótesis múltiples, la SSEA mantiene las distribuciones nulas de puntuación de enriquecimiento normalizado (NES) para todos los tránscritos en un conjunto de muestras, y usa la distribución nula ⁿE^spara calcular los valores de FDR q de la misma manera propuesta por Subramanian y col., (Proceedings of the National Academy of Sciences of the United States of America 102, 15545-15550, (2005)).

Evaluación comparativa del rendimiento de SSEA utilizando firmas de genes de micromatrices

Las firmas genéticas para el 1 % superior de genes sobreexpresados y subexpresados de tres cánceres de próstata (Grasso, C. S. y col., Nature 487, 239-243, (2012); Taylor, B. S. y col., Cancer cell 18, 11-22, (2010); Yu, Y. P. y col., Journal of clinical oncology: official journal of the American Society of Clinical Oncology 22, 2790-2799, (2004)) y tres estudios de micromatrices de cáncer de mama (Cancer Genome Atlas, N. Nature 490, 61-70, (2012); Curtis, C. y col. Nature 486, 346-352, (2012); Gluck, S. y col., Breast cancer research and treatment 132, 781-791, (2012).) se obtuvieron usando Oncomine (Rhodes, D. R. y col., Neoplasia 9, 166-180 (2007).). Las firmas genéticas superiores al 1 % detectadas por SSEA en las cohortes de mama y próstata MiTranscriptoma se determinaron usando conjuntos de muestras de cáncer de próstata frente a normal y cáncer de mama frente a normal (Fig. 3a). Dado que MiTranscriptoma se produjo a partir de un ensamblaje ab initio, la identidad del tránscrito se asignó al gen de referencia anotado con el mayor grado de concordancia, donde se priorizó el grado de acuerdo de corte y empalme sobre el grado de superposición exónica de la misma cadena. La isoforma más enriquecida para cada gen se utilizó para producir una firma genética.

El grado de superposición para todas las combinaciones de los 16 conjuntos de genes probados (3 conjuntos publicados de regulación por aumento de mama, 3 conjuntos publicados de regulación por disminución de mama, 3 conjuntos publicados de regulación por aumento de próstata, 3 conjuntos publicados de regulación por disminución de próstata, 1 conjunto de regulación por disminución de próstata determinado por la SSEA, 1 conjunto regulado hacia abajo de próstata determinado mediante SSEA, 1 conjunto de regulación por aumento de mama determinado mediante SSEA y 1 conjunto de regulación por disminución de mama determinado mediante SSEA) calculando una razón de posibilidades y realizando una prueba exacta de Fisher para cada par de conjuntos de genes. Cada comparación se restringió al conjunto de genes evaluados por ambas plataformas de perfiles. Los archivos de anotación de chips de micromatrices se descargaron del sitio web de la base de datos de firmas moleculares (MSigDB) (Subramanian, A. y col., citado anteriormente). El conjunto de todos los genes anotados (en relación con RefSeq, UCSC y GENCODE) se utilizó como archivo de anotación para MiTranscriptoma.

Descubrimiento de tránscritos específicos de linaje y específicos de cáncer

Para generar datos de prueba de enriquecimiento para la agrupación no supervisada, los tránscritos se clasificaron dentro de cada conjunto de muestras de SSEA por puntuación de enriquecimiento normalizado (NES) y se asignaron intervalos fraccionarios (por ejemplo, un intervalo fraccionario de 0,95 implica que el tránscrito se clasificó en el quinto percentil superior de todos los tránscritos en el conjunto de muestras). Solo se utilizaron resultados significativos (FDR <le-7 para análisis de linaje y FDR <le-3 para análisis de cáncer frente a normal). La agrupación no supervisada se realizó utilizando la correlación de Pearson de rangos fraccionales transformados logarítmicamente como una métrica de distancia y el procedimiento de Ward. Los tránscritos que se asociaron significativamente con conjuntos de muestras múltiples se agruparon con el conjunto de muestras más fuertemente asociado. Los mapas de calor se produjeron utilizando la función "heatmap.2" del paquete "gplots" en R.

Análisis GSEA de culpa por asociación

Para cada arnlncasociado con linaje y/o cáncer, los niveles de expresión del arnlncdiana se correlacionaron con la expresión de todos los genes que codifican proteínas en todas las muestras en la cohorte de tejido asociada. Para las cohortes de cáncer (por ejemplo, mama, próstata), se realizaron correlaciones (Spearman) utilizando solo las muestras de cáncer (se excluyeron las muestras normales). Para tener en cuenta las isoformas múltiples de cada uno, los genes codificadores de proteínas se clasificaron por el valor de Rho y se utilizaron en una un análisis GSEA ponderado precalificado contra una colección de conjuntos de genes asociados al cáncer de MSigDB. Se determinaron asociaciones significativas para cualquier conjunto de genes que tenga un valor p de FWER inferior a 0,001.

Resultados

Un panorama expandido de transcripción humana

El espectro de la diversidad transcripcional humana se investigó curando 7.256 bibliotecas de poli-A ARN-Seq de 25 estudios independientes, incluyendo 5.847 de TCGA, 928 del Michigan Center for Translational Pathology (MCTP), 67 bibliotecas de la Encyclopedia of DNA Elements (ENCODE) y 414 muestras de otros conjuntos de datos públicos (Fig. 5a). Se desarrolló una línea de ensamblaje de transcriptoma automatizado y se empleó para procesar los conjuntos de datos de secuenciación en bruto en ensamblajes de transcriptoma ab initio (Fig. 5b). Esta línea de bioinformática utilizó aproximadamente 1.870 meses centrales (promedio de 0,26 meses centrales por biblioteca) en entornos informáticos de alto rendimiento.

Colectivamente, los datos de ARN-Seq constituyeron 493 mil millones de fragmentos; las bibliotecas individuales promediaron 67,9M de fragmentos totales y 55,5M de alineaciones exitosas a cromosomas humanos. En promedio, el 86 % de las bases alineadas de bibliotecas individuales correspondían a exones RefSeq anotados, mientras que el 14 % restante cayó dentro de intrones o espacio intergénico15. Se utilizaron medidas generales de control de calidad para dar cuenta de las variaciones en el rendimiento de la secuencia, la calidad de la carrera y el contenido de ARN eliminando 753 bibliotecas con (1) menos de 20 millones de fragmentos totales, (2) menos de 20 millones de lecturas alineadas totales, (3) longitud de lectura inferior a 48 pb, o (4) menos del 50 % de bases alineadas correspondientes a genes RefSeq (Figs. 5c, d). Después de una filtración gruesa, se identificaron aproximadamente 391 mil millones de fragmentos alineados (43,69 terabases de secuencia) para su posterior análisis. El conjunto de 6.503 bibliotecas que pasaban filtros de control de calidad incluía 6.280 conjuntos de datos de tejidos humanos y 223 muestras de líneas celulares. De las bibliotecas de tejidos, 5.298 se originaron a partir de muestras de tumores primarios, 281 de metástasis y 701 de tejidos adyacentes normales o benignos (Figs. 5e). Este conjunto de muestras se conoce como el compendio MiTranscriptoma.

Al procesar las bibliotecas de MiTranscriptoma, transcriptoma I se obtuvieron reconstrucciones de 6.503 tumores individuales, tejidos normales o líneas celulares. Se desarrolló una metodología computacional para unir transcriptomas individuales en un transcriptoma de consenso, un procedimiento conocido como 'meta-ensamblaje'. A diferencia de los procedimientos anteriores para el meta-ensamblaje de datos de etiqueta de secuencia expresada (EST) o pequeños números de experimentos de ARN-Seq, el meta-ensamblaje utilizado en este estudio abordó los desafíos computacionales y de escalabilidad derivados de la magnitud de este estudio (Haas, B. J. y col., Nucleic acids research 31, 5654-5666 (2003); Trapnell, C. y col., Nature protocols 7, 562-578, (2012)).

Para permitir la detección sensible de la transcripción específica de linaje, las bibliotecas se dividieron en 18 cohortes por sistema de órganos (Fig. Ia), se realizó el filtrado y el meta-ensamblaje por separado para cada cohorte, y se volvió a fusionar las cohortes (Fig. 1b). Los ensamblajes ab initio individuales totalizaron colectivamente -312M predicciones de transcripción (frag. trans.) en todas las bibliotecas. Para realizar el filtrado, se eliminaron los frag. trans. cortos (<250 pb) y los exones flanqueantes cortos recortados (<15 pb), dejando ~ 304M frag. trans. (Fig. 6a). Mientras que los niveles de frag. trans. anotados fueron relativamente constantes, las fracciones de transcripciones intragénicas e intergénicas no anotadas variaron considerablemente entre las bibliotecas (Fig. 6b). Casi un tercio de todos los frag. trans. no fueron anotados (29,3 %, u 89M), incluyendo 86,2M frag. trans. monoexónicos y 2,8M multiexónicos. Dos fuentes de ruido de fondo en los experimentos de ARN-Seq que podrían dar lugar a frag. trans. monoexónicos no anotados son la contaminación de ARN y ADN genómico procesada de manera incompleta (Fig. 6c). Para minimizar este ruido, se utilizó un esquema de filtrado conservador (Fig. 6d). Se descartaron frag. trans. monoexónicos 60M dentro de intrones que podrían haber surgido de ARN procesado de manera incompleta. Se desarrolló un procedimiento de aprendizaje automático para discriminar la transcripción antisentido recurrente e intergénica de la posible contaminación del ADN genómico. El enfoque modela las distribuciones empíricas de la abundancia y recurrencia relativa de la transcripción (número de muestras independientes en las que se observó la transcripción) para determinar los umbrales óptimos específicos de la biblioteca para distinguir la transcripción anotada de la no anotada. El clasificador logró un rendimiento notable (AUC promedio de 0,89, intervalo 0,77-0,96) y no mostró sesgo para el cáncer frente a muestras normales (Fig. 6e). Además, el clasificador recuperó los tránscritos de prueba que quedaron fuera del proceso de entrenamiento con una sensibilidad media del 80 % (intervalo 0,64-0,95, Fig. 6f). Finalmente, 3,2M de los 86,2M (3,7 %) frag. trans. antisentido intergénicos o monoexónicos fueron retenidos por un total de 6,0M frag. trans. no anotados (6,75 % de los 89M originales). La colección filtrada de 221M frag. trans. anotados y no anotados se sometió a metaensamblaje. El algoritmo de meta-ensamblaje primero colapsa los frag. trans. en un gráfico de corte y empalme y utiliza información de abundancia de transcripción para podar las retenciones de intrones y recortar el primer o el último exón largo (Fig. 7a). Adicionalmente, el algoritmo integra la información del patrón de corte y empalme mediante la construcción de un gráfico de patrón de empalme y atraviesa el gráfico utilizando un algoritmo de programación dinámica codicioso para generar predicciones de transcripción de longitud completa (Fig. 7b). Por ejemplo, el meta-ensamblaje de 7.471 frag. trans. en el locus del cromosoma 12 que contiene HOTAIR y HOXC11 produjo solo 17 tránscritos, incluidos los tránscritos que coinciden con precisión con las isoformas HOTAIR y HOXC11 anotadas (Fig. 7c). Después de fusionar los meta-ensamblajes de 18 cohortes, se identificó un conjunto de consenso de 384.066 transcripciones pronosticadas designadas como el ensamblaje MiTranscriptoma.

Para comenzar a caracterizar el ensamblaje, se realizaron comparaciones con los catálogos de referencia RefSeq (Dec, 2013) (Pruitt, K. D. y col., Nucleic acids research 42, D756-763, (2014)); UCSC (diciembre de 2013) (Karolchik, D. y col., citado anteriormente), y GENCODE (Release 19) (Harrow, J. y col., Genome research 22, 1760-1774, (2012) ). (Fig. 1c). En particular, se observaron incrementos en el número de exones, sitios de corte y empalme, tránscritos y genes del 29 %, 52 %, 95 % y 57 %, respectivamente, en relación con GENCODE, el más extenso de los tres catálogos de referencia. Para comprender la fuente de los aumentos, el ensamblaje se superpuso con una unión fusionada de los tres catálogos de referencia y la fracción de tránscritos no anotados frente a anotados se delineó para cada cohorte (Fig. 8a).

El análisis de los ensamblajes a nivel de cohorte revela que la mayoría de los tránscritos ensamblados dentro de cada cohorte de linaje se superponen a los genes anotados (intervalo 62-88 %, media 75 %). Sin embargo, la fracción de genes anotados dentro de todo MiTranscriptoma (una fusión de las 18 cohortes individuales) fue solo del 46 %, lo que indica la presencia de mucha transcripción no anotada exclusiva de linajes específicos. Se cuantificaron la sensibilidad y precisión para detectar nucleótidos anotados, sitios de corte y empalme y patrones de corte t empalme en los tres catálogos de referencia y predicciones intergénicas de arnlncdel estudio de catalogación anterior de Cabili y col., (Cabili, M. N. y col., Genes & development 25, 1915-1927, (2011)) (Fig. 8b, c). El ensamblaje de MiTranscriptoma fue muy sensible a la detección de bases transcritas anotadas y sitios de corte y empalme. Por ejemplo, el MiTranscriptoma detectó un 94 % y 93 % de bases RefSeq anotadas y sitios de corte y empalme, respectivamente. La detección de patrones de corte y empalme precisos sigue siendo un desafío continuo para los procedimientos de reconstrucción de transcriptomas in silico (Steijger, T. y col., Nature methods 10, 1177-1184, (2013) ).

Evaluación del potencial de codificación de tránscritos de ARN largos

Para facilitar el estudio adicional del ensamblaje, los tránscritos se clasificaron en una de cinco categorías: (1) Codificación de proteínas, (2) Lectura completa (lo que implica una transcripción superpuesta a múltiples genes anotados separados), (3) Pseudogén, (4) arnlncy (5) Tránscrito del potencial de codificación desconocido (TUCP) (Fig. 9a). La clasificación TUCP fue descrita originalmente por Cabili y col., (citado anteriormente) y pertenece a ARN largos con características indicativas de potencial de codificación pero que no se han anotado como codificación de proteínas. La capacidad de predecir el potencial de codificación in silico utilizando características de secuencia solo tiene implicaciones importantes para los estudios de anotación de tránscritos ab initio. En este caso, los TUCP se predijeron incorporando dos procedimientos: (1 ) predicciones de la herramienta de evaluación del potencial de codificación (CPAT) (Wang, L. y col., Nucleic acids research 41, e74, (2013)), que analiza las características de secuencia de los marcos de lectura abiertos (ORF) de los tránscritos y (2) la presencia de un dominio Pfam conocido (Finn, R. D. y col., Nucleic acids research 42, D222-230, (2014)) dentro de un ORF del tránscrito (Fig. 9b-h). Más del sesenta por ciento de todos los genes de MiTranscriptoma se clasificaron como arnlnco TUCP (59 % de ARNlnc, 3,5 % de TUCP, Fig. 2a). La mayoría de arnlnc y TUCP no se anotaron con respecto a los genes de RefSeq, UCSC y GENCODE (79 % y 66 %, respectivamente) y ubicados dentro de regiones intergénicas (72 % y 60 %, respectivamente) (Fig. 2b). 5.248 tránscritos superpuesto a arnlncanotados se marcaron como TUCP, lo que indica que los intentos de anotación anteriores pueden haber identificado fragmentos incompletos aparentemente no codificantes que en realidad pueden comprender tránscritos que poseen ORF robustos. Por ejemplo, en un locus intergénico del cromosoma 16, se identificaron tránscritos que albergan un ORF de 418 aminoácidos que abarca 29 exones que se superponen a tres genes independientes anotados por GENCODE como arnlnc(LINC00514, LA16c-380H5.3, LA16c-380H5.4), lo que indica que los arnlnc anotados de GENCODE pueden ser anotaciones parciales incompletas de un gen de codificación de proteínas más grande (Fig. 2c).

Para investigar más a fondo el potencial de codificación de estos tránscritos de TUCP, se realizó un análisis proteómico para buscar péptidos notificados que pueden mapearse a ORF en los TUCP. Estudios recientes de proteómica han producido el análisis más completo del proteoma humano hasta la fecha (Kim, M. S. y col., Nature 509, 575-581, (2014)). Usando estos datos, se evaluó si algún nuevo péptido de mapeo únicos se asignaba a un ORF en cualquiera de los tránscritos de TUCP. Muchos péptidos novedosos y de mapeo único en varios tipos de tejidos mapeados a los ORF en los tránscritos de TUCP, con un total de 268 genes TUCP que poseen péptidos coincidentes. Estas y otras predicciones de TUCP ejemplifican el potencial de MiTranscriptoma para mejorar los catálogos de tránscritos de referencia.

Caracterización y validación de tránscritos de ARN largos

Los genes de arnlnc y TUCP tendieron a tener menos exones que los genes de codificación de proteínas o de lectura, pero se observó un corte y empalme alternativo apreciable para todas las clases de transcripciones (Cabili y col., citado anteriormente; Derrien, T. y col., Genome research 22, 1775-1789, (2012).) (Fig. 10a). Adicionalmente, se observó que los arnlnc y TUCP se expresaban a niveles más bajos que los tránscritos de lectura o codificación de proteínas, lo que también es consistente con estudios previos (Prensner, J. R. y col., Nature biotechnology 29, 742 749, (2011)); Cabili y col., citado anteriormente; Derrien y col., citado anteriormente; Guttman, C. y col. Nature biotechnology 28, 503-510, (2010)) (Fig. 2d).

Para caracterizar los sitios de inicio de transcripción (TSS), los intervalos que rodean a los TSS con histona 3 lisina 4 trimetilación (H3K4me3) ChIP-Seq de ENCODE, los sitios de unión de ARN polimerasa II (PolII) y los datos de hipersensibilidad a ADNasa de 13 líneas celulares se compararon. Para controlar la expresión, la unión solo se evaluó para los tránscritos expresados en las líneas celulares que se analizaron, los TSS filtrados para expresión antes de la intersección a un nivel de FPKM>0,1. Los promotores de arnlnc y TUCP se enriquecieron para estas marcas en relación con las regiones de control aleatoriamente barajadas, con enriquecimiento máximo en el TSS (Fig. 2e-g). El enriquecimiento fue menor para los promotores de arnlnc y TUCP que para los genes que codifican proteínas, pero mucho más enriquecido que los pseudogenes, lo que puede reflejar sus niveles de expresión más bajos en general. Estos datos de modificación de cromatina y unión a polimerasa indican que los tránscritos ensamblados de arnlnc y TUCP poseen promotores regulados activamente.

Durante e ensamblaje del MiTranscriptoma, se realizó un filtrado de primer paso de frag. trans. de baja confianza mediante un algoritmo de aprendizaje automático construido utilizando el nivel de expresión y la recurrencia del frag. trans. (Fig. 6d). Se eliminaron millones de frag. trans. en esa etapa y el MiTranscriptoma resultante contiene solo transcripciones que han cumplido con esta evaluación de confianza de primer paso. Para estratificar aún más los tránscritos de confianza, se desarrolló un sistema de puntuación de confianza (CS). Los arnlnc se clasificaron en dos niveles según su estado de anotación y la coincidencia de las uniones de empalme, y se creó una función de distribución acumulativa utilizando los niveles de expresión para los arnlnc anotados (nivel 1). El nivel de expresión de cada arnlnc no anotado (nivel 2) se introdujo en la función de distribución acumulativa para calcular un CS para cada arnlnc (Fig. 10b). El perfil de CS de los tránscritos del nivel 1 y el nivel 2 fue en gran medida similar, con un ligero enriquecimiento en los tránscritos de baja confianza entre los tránscritos no anotadas (por ejemplo, el 32 % de los arnlnc no anotados tienen CS inferiores al percentil 12,5 inferior de los arnlnc anotados). Este fenómeno, sin embargo, puede explicarse por un sesgo de descubrimiento dado que la métrica de confianza se basa en expresiones. Para fortalecer aún más la confianza en los tránscritos del ensamblaje, la expresión de arnlnc predicha fue validada por cRT-PCR. Los cebadores de cPCR se desarrollaron para 100 arnlnc candidatos. Se seleccionaron tres líneas celulares que representan cáncer de pulmón, cáncer de próstata y cáncer de mama (A549, LNCaP, MCF7, respectivamente), y los arnlnc con expresión de al menos 1 FPKM por ARNseq en al menos una de las líneas celulares se seleccionaron para la validación (38 monoexónicos, 62 poliexónicos). Dado que la contaminación genómica puede producir lecturas monoexónicas espurias durante el ensamblaje, la ausencia de transcriptasa inversa (-RT) se utilizó como control para este estudio. De los 100 arnlnc probados, 95 tenían una expresión significativamente mayor con la transcriptasa inversa en comparación con -RT (prueba t de Student, valor de p <0,05) en líneas celulares para las cuales se esperaba expresión a través de ARN-Seq (> 1 FPKM) (Fig. 11). DSCAM-AS1 y PCAT130 son dos ejemplos de arnlnc nominados por análisis SSEA para tener especificidad de cáncer (en mama y próstata, respectivamente) cuyo perfil de expresión de línea celular por cRT-PCR refleja lo que se espera del análisis de SSEA tisular (Fig. 12, genes en el recuadro).

Para garantizar aún más que el amplicón provenía del gen esperado, se seleccionaron veinte de los tránscritos más expresadas a través de las tres líneas celulares (de acuerdo con los datos de cRT-PCR) y se confirmó su identidad mediante secuenciación de Sanger. En dieciocho de los veinte casos, la secuencia del gen exacto de interés se amplificó (Fig. 12a, b). Adicionalmente, los valores de expresión identificados por cRT-PCR para cada línea celular se correlacionaron con los valores de ARN-seq FPKM en cada línea celular. La cRT-PCR se correlacionó mejor con la expresión de ARN-seq de la misma línea celular (Fig. 12c).

Arnlnc que albergan elementos conservados

La conservación evolutiva de los arnlnc ha sido un tema de conversación continua, con varios informes que indican que los arnlnc están modestamente conservados (Cabili y col., citado anteriormente; Derrien y col. citado anteriormente; Necsulea, A, y col., Nature 505, 635-640 (2014)). De acuerdo con estudios previos, se observaron incrementos en los niveles de conservación de los tránscritos y los promotores para arnlnc y TUCP con respecto a la región de control aleatoria (Fig. 10c-f). Los cambios en las distribuciones acumulativas de los tránscritos de arnlnc y TUCP fueron mayores para los tránscritos anotados en relación con los tránscritos no anotados. Esta diferencia puede reflejar un sesgo de descubrimiento que favorece a genes altamente conservados detectables en múltiples sistemas modelo. A pesar de observar una mayor conservación dentro de toda la clase de ARNlnc, los resultados indicaron que la conservación del arnlnc humano puede ser un fenómeno excepcional en lugar de general; por tanto, se seleccionaron arnlnc que albergan una conservación en las bases mayor a la esperada para un estudio enfocado (Fig. 2h). Se seleccionaron 3.309 genes de arnlnc 5,6 % de todos los ARNlnc) que estaban altamente conservados en relación con regiones intergénicas aleatorias (Fig. 10e). Además, parte del genoma no codificante incluye elementos ultraconservados (UCE), que son tramos de ADN> 200nt con una identidad de secuencia casi perfecta en múltiples organismos (Bejerano, G. y col., Science 304, 1321-1325, (2004); Dimitrieva, S. y Bucher, P.

Nucleic acids research 41, D101-109, (2013)). 597 arnlnc intergénicos (1,2 % de todos los arnlnc intergénicos) que albergan UCE se designaron como ARN intergénicos largos no codificantes altamente conservados (HICLINC) para promover el estudio adicional de UCE transcritos como una clase (Fig. 10h). Por ejemplo, THCAT126, un arnlnc intergénico no anotado previamente en el cromosoma 2q24, contiene elementos en sus exones finales que se conservan en casi todos los vertebrados, incluido el pez cebra (Fig. 2i). Además, THCAT126 se expresa ampliamente en muchos tipos de tejidos y se expresa en múltiples cánceres, con una asociación significativa en el cáncer de tiroides frente a análisis normal (Fig. 2j). Los arnlnc altamente conservados, tales como THCAT126 (y muchos otros HICLINC asociados al cáncer que se describen a continuación) brindan una vía para el estudio in vivo del papel de los arnlnc en el desarrollo y el cáncer.

Arnlnc solapantes de SNP asociados a la enfermedad

Para investigar la relación del ensamblaje de MiTranscriptoma con las regiones del genoma asociadas a la enfermedad, la superposición de los tránscritos en el ensamblaje se comparó con 11.194 polimorfismos de un solo nucleótido (SNP) asociados a una enfermedad única de un catálogo de estudios de asociación de genoma completo (GWAS) (Welter, D. y col., Nucleic acids research 42, D1001-1006, (2014)). Los tránscritos de MiTranscriptoma se solaparon con 9.770 SNP de GWAS en comparación con solo 7.050 SNP solapantes de los tránscritos de GENCODE, UCSC o RefSeq. El solapamiento exónico fue de 2.586 y 1.096 SⁿP de GWAS para el Mi Transcriptoma y los catálogos de referencia agregados, respectivamente (Fig. 13a, b). En total, los tránscritos en el ensamblaje coincidieron con 2.881 SNP anteriormente intergénicos ubicados dentro de los "desiertos genéticos", y solo omitieron 161 SNP de GWAS que solapaban genes anotados. Se observó que el aumento del solapamiento con los SNP de GWAS para los tránscritos de MiTranscriptoma y los exones se enriquecieron significativamente para los SNP de GWAS en relación con los SNP aleatorios elegidos de la misma plataforma de chip (prueba t pareada, valor p, 5,25e-135 y 1,15e-199, respectivamente, Fig. 2k). Además, los arnlnc y TUCP intergénicos no anotados también se enriquecieron significativamente para las regiones asociadas a la enfermedad, con exones más altamente enriquecidos que los tránscritos de longitud completa (prueba t pareada, valor p, 9,90e-78 y 5,50e-50, para el tránscrito completo y el exón, respectivamente, Fig. 13c). Estos datos indican que una reevaluación rigurosa de la regulación de la expresión génica específica de alelos en regiones próximas a los SNP de GWAS produce asociaciones biológicas informativas con los nuevos transcritos de arnlnc identificados en este estudio.

Detección de la transcripción asociada al cáncer mediante análisis de enriquecimiento

El proceso de reconstrucción del transcriptoma a gran escala reveló una tremenda complejidad transcripcional resaltada por la presencia de miles de arnlnc y TUCP no caracterizados. Para priorizar la transcripción específica de linaje y asociada a la enfermedad, se utilizó un procedimiento no paramétrico para la prueba de expresión diferencial llamado Análisis de enriquecimiento de conjuntos de muestras (SSEA). El SSEA adapta las pruebas ponderadas tipo Kolmorgorov-Smirnoff utilizadas por el Análisis de enriquecimiento de conjuntos de genes (GSEA) (Subramanian, A. y col., Proceedings of the National Academy of Sciences of the United States of America 102, 15545-15550, (2005)) para descubrir los cambios de expresión de tránscritos asociados con conjuntos de muestras predefinidos. Este procedimiento permite la detección sensible de la expresión diferencial dentro de poblaciones de muestra heterogéneas (por ejemplo, subtipos de tumores). Antes de realizar el SSEA, los datos de expresión a nivel de isoforma para todo el ensamblaje de MiTranscriptoma se volvieron a calcular y las muestras de los compendios se agruparon en cincuenta conjuntos de muestras. Un conjunto de muestra representa una condición única para evaluar la expresión diferencial de transcripción. Los conjuntos en el presente estudio incluyeron varios tipos de cáncer (por ejemplo, comparaciones de cánceres de próstata frente a todas las demás muestras de MiTranscriptoma), tejidos normales o tipos de células, y cáncer frente a normal dentro de un solo tipo de tejido (por ejemplo, cánceres de próstata frente a muestras de próstata benignas) (Fig. 3a). Todas los tránscritos de MiTranscriptoma se analizaron contra los cincuenta conjuntos de muestras, y colectivamente, el SSEA detectó más de dos millones de asociaciones significativas (FDR <1e-3 para análisis de cáncer frente a normal y FDR <le-7 para análisis de linaje) que involucraron 267.726 de los 381.821 tránscritos de MiTranscriptoma para los cuales fue posible el análisis de enriquecimiento.

Para validar el enfoque de pruebas de enriquecimiento, se evaluó su capacidad para redescubrir proteínas conocidas reguladas hacia arriba y hacia abajo en los cánceres de próstata y cáncer de mama evaluando la concordancia entre los genes enriquecidos positiva y negativamente en el 1 % de cada tipo de cáncer con las firmas de genes de cáncer obtenidas de la base de datos Oncomine de estudios de micromatrices (Rhodes, D. R. y col., Neoplasia 9, 166-180 (2007); Cáncer Genome Atlas, N. Nature 490, 61-70, (2012); Curtís, C. y col. Nature 486, 346 352, (2012); Gluck, S. y col., Breast cancer research and treatment 132, 781-791, (2012); Grasso, C. S. y col., Nature 487, 239-243, (2012); Taylor, B. S. y col., Cancer cell 18, 11-22, (2010); Yu, Y. P. y col., Journal of clinical oncology: official journal of the American Society of Clinical Oncology 22, 2790-2799, (2004)). Un mapa de calor de las razones de posibilidades de las asociaciones de firma de genes reveló un sorprendente acuerdo entre SSEA y los otros estudios para ambos tipos de cáncer, d modo que el SSEA a menudo demuestra una concordancia igual o mejor para cada estudio de micromatrices que la comparación de los estudios de micromatrices entre sí (Fig. 3b). Por lo tanto, las pruebas de expresión diferencial a nivel de isoforma del ensamblaje de MiTranscriptoma ab initio de datos de ARN-Seq recapitularon los resultados de los estudios de expresión de genes de micromatrices de cáncer, lo que avala el procedimiento SSEA como una herramienta viable para la detección de la expresión diferencial. Para acreditar aún más el enfoque de pruebas de enriquecimiento, se evaluó la capacidad de detectar control positivo de arnlnc y genes que codifican proteínas en los cánceres de mama y de próstata. Por ejemplo, el SSEA identificó correctamente el arnlnc oncogénico HOTAIR7, el receptor de estrógenos 1 (ESR1) y la proteína de unión a GATA 3 (GATA3) como altamente enriquecida positivamente en los cánceres de mama (Rhodes y col., 2007, citado anteriormente; Cancer Genome Atlas, citado anteriormente), y nominó con precisión el arnlnc supresor tumoral MEG3 (Rhodes y col., 2007, citado anteriormente; Cancer Genome Atlas, citado anteriormente) y el supresor de metástasis LIFR (Chen, D. y col., Nature medicine 18, 1511-1517, (2012)) como altamente enriquecido negativamente (Fig. 3c-e). De forma similar, en el conjunto de cáncer de próstata, SSEA detectó la expresión diferencial de arnlnc y genes codificadores de proteínas consistentes con la literatura (Fig. 3f). De forma notable, los arnlnc conocidos de cáncer de próstata antígeno 3 prostático (PCA3) y SChLAP1 se enriquecieron notablemente de manera específica para el cáncer y para la próstata en relación con todos los demás análisis de conjuntos de muestras (Fig. 3g, h) (Taylor y col., citado anteriormente; Presner y col., 2013, citado anteriormente). En general, la capacidad del enfoque de prueba de enriquecimiento para redescubrir genes cancerosos conocidos de manera imparcial indica su utilidad para el análisis de la asociación del cáncer y la especificidad del linaje dentro del panorama de la transcripción no caracterizada revelada por MiTranscriptoma.

Caracterización de la transcripción de arnlnc específica de linaje y específica de cáncer

Para extender el estudio más allá de los genes conocidos del cáncer, los resultados de la prueba de enriquecimiento para tránscritos específicos de linaje y específicas de cáncer se extrajeron de manera imparcial. La especificidad de linaje se analizó utilizando conjuntos de muestras para cada tipo de cáncer o tejido en comparación con todas las demás muestras en el compendio MiTranscriptoma (Figura 3a, "Tipos de cáncer/Tipos normales"), y los resultados de SSEA se utilizaron para determinar el grado de enriquecimiento para cada transcripción en los diversos tipos de cáncer y tejidos. La agrupación no supervisada de los intervalos de percentiles de transcripción para el 1% superior de los tránscritos en cada linaje demostró firmas distintas para cada linaje, mientras que también describió las relaciones entre linajes y entre cáncer y conjuntos normales del mismo linaje (Fig. 14a). Los ejemplos de grupos de linaje estrechamente relacionados incluyen cánceres de sangre (leucemia mieloide aguda (LMA), leucemia mieloide crónica (LMC) y neoplasia mieloproliferativa (NMP), cánceres cerebrales (glioma de grado inferior (LGG) y glioblastoma multiforme (GBM)) y tejido muscular (cardíaco y esquelético). Adicionalmente, emergió un grupo que comprendía cáncer cervical, cáncer de cabeza y cuello y linajes normales, cáncer células escamosas de pulmón y de vejiga e indicaron que principalmente los carcinomas de células escamosas (y de transición) de sitios primarios distantes comparten importantes relaciones de expresión génica. La agrupación no supervisada de solo los arnlnc en el 1 % superior del análisis SSEA para la asociación de linaje recapituló todas estas relaciones, indicando la capacidad de los arnlnc para identificar independientemente el cáncer y los linajes normales (Fig. 4a).

A continuación, la dimensión de la dinámica transcripcional específica del cáncer se investigó en doce tejidos con un amplio número de muestras tanto cancerosas como normales (Figura 3a, "Cáncer frente a Normal"). Similar a lo anterior, la agrupación no supervisada de los principales 1 % de arnlnc asociados con cáncer demostró firmas altamente específicas para cada tipo de cáncer, con la excepción de los cánceres de pulmón y de riñón (Fig. 4b y Fig. 14b). Los carcinomas de células escamosas pulmonares (LUSC) y los adenocarcinomas (LUAD) se agruparon y compartieron numerosos tránscritos con asociación con cáncer. De forma similar, los carcinomas de células claras renales (KIRC) y de células papilares (KIRP) exhibieron firmas altamente superpuestas, mientras que los carcinomas renales cromófobos (KICH) permanecieron distintos de KIRC y KIRP.

Por último, los resultados de los análisis de linaje y cáncer se cruzaron. Dichos tránscritos tienen potencial de traducción para su uso en pruebas clínicas no invasivas, particularmente para los cánceres que carecen de biomarcadores fiables. Los ejemplos notables incluyeron los arnlnc específicos de próstata PCA3 y SChLAP1 presentados anteriormente (Fig. 3g,h). Se detectó una miríada de arnlnc asociados con el linaje y el cáncer (es decir, en el 5 % superior de ambos análisis) para cada uno de los tipos de cáncer analizados (Fig. 4c, Fig. 15a). Una comparación directa de los arnlnc y los tránscritos codificantes de proteínas revelaron que tanto los arnlnc anotados como los no anotados tienen un rendimiento comparable al de los genes codificadores de proteínas en la asociación de linaje y cáncer y apoyan un papel para los arnlnc como marcadores de especificidad del cáncer (Fig. 4d y Fig. 15b,c). Después de aplicar estrictos límites estadísticos para nominar a las asociaciones más convincentes, una cohorte de 7.942 genes de arnlnc o TUCP (11.478 tránscritos) se indicaron como asociados al cáncer, asociados a linaje o ambos. Muchos de estos arnlnc también poseían elementos de conservación o ultraconservados a nivel de base (Fig. 2, Tabla 1). Los tránscritos que cumplieron con los estrictos límites en los análisis de cáncer frente a análisis normales ("Cáncer frente a Normal", Fig. 3a) fueron designados como que tenían una "asociación con cáncer". Los tránscritos que cumplieron con los límites estrictos para la especificidad del linaje en el tejido no canceroso (por ejemplo, células cardíacas, de músculo esquelético, células madre embrionarias) y en los cánceres que carecen de datos de ARN-Seq para tejido benigno se designaron como "asociados a linaje". Además, los tránscritos que cumplían los límites tanto para el cáncer frente a los análisis de especificidad de linaje como normales se designaron como "asociados a cáncer y a linaje" (Tabla 1). Los tránscritos con asociación significativa en un solo tipo de tejido recibieron nombres de acuerdo con ese tipo de tejido (Tabla 1), y los tránscritos con asociaciones en múltiples tejidos se denominaron "Tránscritos asociados al cáncer" (CAT). Unos 545 genes adicionales de arnlnc (1634 transcripciones) que poseían elementos ultraconservados pero que no cumplían con los límites estrictos de linaje y asociación de cáncer se designaron como HICLINC (ARN intergénico largo no codificante altamente conservado). Tomados en conjunto, Los arnlnc y/o HICLINC de linaje y/o cáncer comprenden un conjunto de 8.487 arnlnc que tienen un fuerte potencial funcional. 7.804 de estos arnlnc no poseían un nombre de gen oficial de acuerdo con el Comité de Nomenclatura Genética de HUGO, y por lo tanto se les dio nombres de acuerdo con la convención descrita anteriormente y en la Tabla 1.

Se realizaron análisis adicionales para proporcionar más información sobre estas transcripciones para su uso en la selección de candidatos para la experimentación posterior. Se realizó una evaluación exhaustiva de la unión del factor de transcripción a los promotores de estos arnlnc utilizando el conjunto de datos ENCODE para 161 factores de transcripción. Adicionalmente, se notifican estadísticas que describen la expresión de cada arnlnc en las diferentes cohortes de tejido. Para cada tránscrito de TUCP, se identificó el ORF más largo, la puntuación del potencial de codificación y la presencia de cualquier dominio pfam.

También se realizó un interrogatorio adicional de la relación con los SNP de GWAS, y se identificaron todas los tránscritos dentro de 50 kb de un SNP de GWAS implicadas en la enfermedad del mismo cáncer o tejido que el tránscrito. Estos arnlnc proporcionan candidatos para el análisis de loci de rasgos cuantitativos de expresión intergénica (eQTL). Por ejemplo, el arnlnc llamado tránscrito-85 asociada a cáncer de mama, BRCAT49 es un arnlnc asociado al cáncer de mama y al linaje (Fig. 4d) localizado ~45kb corriente abajo de un SNP de cáncer de mama (rs13387042) que ha sido implicado por seis estudios independientes de GWAS (Fig. 4f) (Li, J. y col., Breast cancer research and treatment 126, 717-727, (2011); Michailidou, K. y col., Nature genetics 45, 353-361, 361e351-352, (2013); Stacey, S. N. y col., Nature genetics 39, 865-869, (2007); Thomas, G. y col., Nature genetics 41, 579-584, doi:10.1038/ng.353 (2009); Turnbull, C. y col. Nature genetics 42, 504-507, (2010)). El catálogo de NHGRI GWAS describe rs13387042 como un SNP intergénico sin ningún gen asociado notificado (Welter, D. y col., Nucleic acids research 42, D1001-1006, (2014)). Dada su especificidad para el cáncer de mama (Fig. 4g), BRCAT49 proporciona una diana para explicar la asociación del cáncer de mama de esta región genómica. Además, con mayor investigación y análisis, su especificidad de linaje y cáncer respalda un papel para BRCAT49 (y otros arnlnc específicos de linaje y cáncer similares) como un marcador transcripcional específico de cáncer. Los perfiles de expresión representativos adicionales para arnlnc específicos de linaje o cáncer en otros tipos de tejido se muestran en la Fig. 16 c, d.

Debido a que el MiTranscriptoma representa una gama tan completa de tejidos y cánceres (Fig. la), es capaz de descubrir una gran cantidad de tránscritos específicos de linaje y cáncer que tienen un impacto biológico y clínico. Un ejemplo representativo de uno de esos arnlnc específicos de linaje es un tránscrito que se denominó tránscrito-7 asociado a melanoma, MEAT6, que se encontró en el percentil 99,8 en el análisis de SSEA del linaje de melanoma (Fig. 4a). La investigación genómica delineó MEAT6 como una variante transcripcional parcialmente anotada del arnlnc AK090788 de UCSC en el cromosoma 6q26 (Fig. 16a). Sin embargo, MEAT6 utiliza un sitio de iniciación alternativo y exones corriente arriba ausentes de los catálogos de referencia, destacando la amplitud y profundidad del esfuerzo de reconstrucción del transcriptoma. La expresión de las isoformas de MEAT6 usando el nuevo sitio de iniciación fue altamente específica para las muestras de melanoma en la cohorte de MiTranscriptoma (Fig. 4e); sin embargo, las isoformas que carecen del sitio de inicio de MEAT6 tenían un perfil de expresión de pancáncer dramáticamente diferente con casi ninguna expresión en melanoma (Fig. 16b). Estos hallazgos manifiestan la capacidad del conjunto para proporcionar una representación clara y consumada de la actividad transcripcional que distingue los tipos de enfermedades.

Para corroborar aún más el análisis de expresión diferencial, se realizó un análisis de alto rendimiento "culpa por asociación" para todos los arnlnc que cumplían con los límites estrictos. La expresión de cada isoforma de tránscrito se correlacionó con todos los genes codificantes de proteínas anotados para cada cohorte de tejido relevante, y se probaron varias firmas de cáncer para enriquecerlas con los genes más correlacionados o anti-correlacionados usando el procedimiento GSEA. Los conjuntos de genes se seleccionaron y clasificaron en categorías relevantes para el cáncer: asociados con angiogénesis/hipoxia, asociados a metástasis, asociados a proliferación/ciclo celular, asociados a adhesión, asociados a daño/reparación del ADN, asociación oncogénica y otras asociaciones con cáncer. En total, se analizaron más de 14 mil tránscritos con este procedimiento, y se informan los conjuntos de genes de cáncer significativamente asociados (tablas 2 y 3).

Tabla 1. Resumen de arnlnc específicos de linaje y/o de cáncer citados en este estudio.

Tejido/Tipo de cáncer Tránscrito no N.° que contiene (convención de codificante N.° Específico de N.° elementos N.° Clasificado nomenclatura) asociado total cáncer y tejido Conservado ultraconservados como TUCP Tránscritos asociados con

leucemia mielógena 373 NA 29 13 26 aguda (AMAT)

Tránscritos asociados con

cáncer de vejiga (BLCAT) ^{61 0 9 2 5}Tránscritos asociados con

cáncer de mama 1115 134 82 27 76 (BRCAT)

Tránscritos asociados con

cáncer cervical (CVAT) ^{162 NA 12 2 13}Tránscritos asociados con

leucemia mielógena 157 NA 16 3 11 crónica (CMAT)

Tránscritos asociados con

cáncer colorrectal (CRAT) ^{163 NA 29 4 17}Tránscritos asociados con

glioblastoma multiforme 161 NA 11 2 22 (GBAT)

Tránscritos asociados con

cáncer de cabeza y cuello 766 5 45 15 68 (HNCAT)

Tránscritos asociados con

tejido cardíaco (HRAT) ^{170 NA 16 1 12}Tránscritos asociados con

células madre

embrionarias humanas ^{205 NA 10 0 20}(ESAT)

Tránscritos asociados con

carcinoma de células

renales cromofóbicas ^{1050 52 64 20 92}(KCHCAT)

Tránscritos asociados con

carcinoma de células 1429 215 84 26 123 renales claras (KCCAT)

Tránscritos asociados con

carcinoma de células

papilares renales 474 0 41 8 38 (KCHCAT)

Tránscritos asociados con

glioma de bajo grado 265 NA 31 10 23 (LGAT)

(continuación)

Tejido/Tipo de cáncer Tránscrito no .° Específico de N

ención de codificante N N.° .° que contiene

(conv N.° Clasificado nomenclatura) asociado total cáncer y tejido Conservado elementos ultraconservados como TUCP Tránscritos asociados con

cáncer de hígado 250 0 18 1 20 (LVCAT)

Tránscritos asociados con

adenocarcinoma de 953 19 64 19 61 pulmón (LACAT)

Tránscritos asociados con

^{carcinoma de células}

_{pulmonares escamosas}1014 10 70 23 58 (LSCAT)

Tránscritos asociados con

meduloblastoma (MBAT) ^{312 NA 26 3 33}tránscritos asociados al

melanoma (MEAT) ^{339 NA 24 2 34}Tránscritos asociados a la

neoplasia 101 NA 12 1 8 mieloproliferativa (MPAT)

Tránscritos asociados al

cáncer de ovarios (OVAT) ^{163 NA 37 12 30}Tránscritos asociados al

cáncer de páncreas 247 NA 27 4 22 (PNAT)

Tránscritos asociados al

cáncer de páncreas 727 38 49 14 62 (PRCAT)

Tránscritos asociados al

tejido de músculo 123 NA 5 1 11 esquelético (SMAT)

Tránscritos asociados al

cáncer de estómago 95 0 10 1 10 (STCAT)

Tránscritos asociados al

cáncer de tiroides 1289 80 73 21 111 (THCAT)

Tránscritos asociados a

carcinoma endometrial 183 NA 31 1 16 uterino (UTAT)

Tabla 2

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

continuación

_______________ continuación

continuación

continuación

continuación

Claims

REIVINDICACIONES

1. Un procedimiento de selección de la presencia de cáncer en un sujeto, que comprende

(a) poner en contacto una muestra biológica de un sujeto con un ensayo de detección de expresión génica, en el que dicho ensayo de detección de expresión génica comprende un reactivo informativo de expresión génica para la identificación del nivel de expresión de un ARN no codificante descrito por la SEQ ID NO: 2304;

(b) detectar el nivel de expresión de dicho ARN no codificante en dicha muestra usando un ensayo in vitro; y (c) diagnosticar cáncer en dicho sujeto cuando se detecta un mayor nivel de expresión de dicho a Rn no codificante en dicha muestra en relación con el nivel en células normales.

2. El procedimiento de la reivindicación 1, en la que

la muestra se selecciona del grupo que consiste en tejido, sangre, plasma, suero, orina, sobrenadante de orina, sedimento celular en orina, semen, secreciones prostáticas y células prostáticas.

3. El procedimiento de la reivindicación 1, en el que la detección se lleva a cabo utilizando un procedimiento seleccionado del grupo que consiste en una técnica de secuenciación, una técnica de hibridación de ácido nucleico y una técnica de amplificación de ácido nucleico.

4. El procedimiento de la reivindicación 3, en el que la técnica de amplificación de ácido nucleico se selecciona del grupo que consiste en la reacción en cadena de la polimerasa, reacción en cadena de la polimerasa con transcripción inversa, amplificación mediada por transcripción, reacción en cadena de la ligasa, amplificación por desplazamiento de cadena y amplificación basada en secuencia de ácido nucleico.

5. El procedimiento de la reivindicación 1, en el que dicho cáncer se selecciona del grupo que consiste en cáncer de próstata, cáncer de mama, leucemia mieloide aguda (LMA), leucemia mieloide crónica (LMC), neoplasia mieloproliferativa (NMP)), glioma de grado menor (LGG), glioblastoma multiforme (GBM)), cáncer de cuello uterino, cáncer de cabeza y cuello, cáncer de células escamosas de pulmón, adenocarcinoma de pulmón, cáncer de riñón, carcinoma de células papilares y cáncer de vejiga.

6. El procedimiento de la reivindicación 1, en el que dicho reactivo se selecciona del grupo que consiste en un par de oligonucleótidos de amplificación, un cebador de secuenciación y una sonda de oligonucleótidos; en el que, preferentemente, dicho reactivo comprende uno o más marcadores.

7. El procedimiento de la reivindicación 1, en el que dicho ARN no codificante se convierte en ADNc antes o durante la detección.

8. Un procedimiento de identificación de la expresión génica asociada con el cáncer de próstata, que comprende (a) poner en contacto una muestra biológica de un sujeto con un ensayo de detección de expresión génica, en el que dicho ensayo de detección de expresión génica comprende un reactivo informativo de expresión génica para la identificación del nivel de expresión de un ARN no codificante descrito por la SEQ ID NO: 2304;

(b) detectar el nivel de expresión de dicho ARN no codificante en dicha muestra usando un ensayo in vitro; y (c) identificar sujetos con expresión génica en riesgo de metástasis de cáncer de próstata cuando se detecta un mayor nivel de expresión de dicho ARN no codificante en dicha muestra en relación con el nivel en células de próstata normales.

9. Un sistema para analizar un cáncer, que comprende:

a. un conjunto de sondas que comprende una pluralidad de sondas de oligonucleótidos de menos de 200 restos de longitud, en el que la pluralidad de sondas comprende una secuencia de oligonucleótidos que hibrida específicamente con al menos una porción de un ARN no codificante descrito por la SEQ ID NO:2304 o el ADNc correspondiente; y

b. un modelo o algoritmo informático para analizar un nivel de expresión y/o perfil de expresión de dicho ARN no codificante hibridado con la sonda en una muestra de un sujeto, y

que comprende además un dispositivo de procesamiento informático, opcionalmente conectado a una red informática; y un módulo de software ejecutado por el dispositivo de procesamiento informático para analizar una expresión de dicho ARN no codificante; y/o para comparar el perfil de expresión con un patrón o control; y/o para determinar el nivel de expresión del ARN no codificante; y/o para transmitir un análisis del perfil de expresión al sujeto o un profesional médico que trata al sujeto; y/o transmitir un diagnóstico o pronóstico al sujeto o al profesional médico que trata al sujeto.

10. El sistema de la reivindicación 9, en el que dichas sondas comprenden uno o más marcadores.

11. Uso de un conjunto de sondas para evaluar un estado del cáncer de un sujeto, comprendiendo dicho conjunto de sondas una pluralidad de sondas de oligonucleótidos de menos de 200 restos de longitud, y en el que dichas sondas en el conjunto de sondas hibridan específicamente con la SEQID NO: 2304 o el ADNc correspondiente.

12. El uso del conjunto de sondas de la reivindicación 11, en el que dicha pluralidad de sondas comprende cinco o más sondas, preferentemente diez o más sondas, preferentemente 100 o más sondas.

13. El uso del conjunto de sondas de la reivindicación 11, en el que dichas sondas comprenden uno o más marcadores.

14. Una composición que comprende una o más mezclas de reacción, en la que cada mezcla de reacción comprende un complejo de un ARN no codificante descrito por la SEQ ID NO: 2304 o el ADNc correspondiente y una sonda que se une específicamente a dicho ARN no codificante.

15. Un compuesto que está específicamente dirigido a uno o más ARN no codificantes, en el que dicho compuesto es un ARNip o un oligonucleótido antisentido dirigido específicamente a la SEQ ID NO: 2304, para el tratamiento del cáncer de próstata.