ES2342161T3

ES2342161T3 - Producto y metodo.

Info

Publication number: ES2342161T3
Application number: ES03777005T
Authority: ES
Inventors: Praveen Sharma; Narinder Singh Sahni; Anders Lonneborg
Original assignee: Diagenic AS
Current assignee: Diagenic AS
Priority date: 2002-11-21
Filing date: 2003-11-21
Publication date: 2010-07-02
Anticipated expiration: 2023-11-21
Also published as: EP1565574B1; SI1565574T1; DK1565574T3; GB0227238D0; AP2333A; US20070134656A1; EP1565574A2; AU2003286262A1; CA2506887A1; AU2003286262C1; PT1565574E; WO2004046382A3; NO20052544L; HK1079554A1; ATE459726T1; AP2005003317A0; NZ540750A; AU2003286262B2; US20130143761A1; CN102191319A

Abstract

Un conjunto de menos de 1.000 sondas oligonucleotídicas, en el que dicho conjunto comprende los oligonucleótidos descritos en la Tabla 2b para los que se proporcionan las secuencias que tienen las secuencias como se muestra en la secuencia No. 61, 77, 93, 108, 110, 192, 250, 308, 309, 310, 321, 327, 338, 339, 360, 361, 364, 365, 368, 378, 380, 381, 382, 384, 390, 391, 397, 398, 401, 403, 406, 411, 412, 413, 414, 415, 416, 418, 421, 423, 424, 428, 434, 436, 438, 441, 442, 450, 452, 453, 458, 460, 463, 464, 469, 471, 473, 474, 475, 476, 477, 478, 479, 482, 483, 485, 487, 488, 489, 492, 493, 494, 495, 503, 504, 505, 506, 507, 508, 509, 510, 512, 513, 515, 518, 519, 521, 523, 524, 526, 527, 529, 530, 532, 534, 560, 562, 564, 565, 566, 567, 568, 570, 571, 572, 575, 576, 578, 579, 580, 583, 585, 589, 591, 592, 593, 594, 596, 598, 600, 601, 605, 607, 610, 612, 613, 614, 615, 617, 618, 619, 622, 624, 628, 629, 630, 631, 632, 633, 634, 635, 636, 637, 638, 639, 643, 644, 645, 649, 651, 656, 658, 660, 661, 663, 665, 672, 673, 675, 679, 682, 683, 684, 685, 687, 688, 689, 691, 693, 696, 697, 699, 701, 702, 705, 706, 707, 708, 709, 711, 714, 718, 720, 721, 722, 724, 726, 736, 739, 747, 757, 758, 764, 766, 768, 773, 776, 782, 785, 796, 801, 808, 814, 817, 821, 825, 833, 837, 839, 849, 860, 864, 865, 867, 869, 870, 871, 873, 875, 876, 878, 879, 881, 885, 887, 889, 891, 892, 893, 895, 897, 899, 903, 904, 905, 906, 907, 908, 910, 911, 912, 915, 917, 926, 938, 939, 947, 949, 1.028, 1.056, 1.071, 1.074, 1.081, 1.083, 1.084, 1.099, 1.109, 1.118, 1.125, 1.139, 1.148, 1.160, 1.165, 1.172, 1.178, 1.180, 1.181, 1.182, 1.183, 1.185, 1.186, 1.188, 1.189, 1.190, 1.192, 1.193, 1.195, 1.196, 1.197, 1.198, 1.199, 1.200, 1.201, 1.202, 1.203, 1.204, 1.205, 1.207, 1.208, 1.209, 1.210, 1.211, 1.212, 1.213, 1.214, 1.215, 1.216, 1.217, 1.218, 1.219, 1.220, 1.221, 1.224, 1.226, 1.228, 1.230, 1.231, 1.239, 1.331, 1.332, 1.335, 1.336, 1.337, 1.338, 1.344, 1.348, 1.351, 1.352, 1.353, 1.355, 1.360, 1.361, 1.364, 1.365, 1.366, 1.368, 1.369, 1.370, 1.371, 1.372, 1.374, 1.378, 1.380, 1.382, 1.387, 1.389, 1.390, 1.391, 1.392, 1.394, 1.395, 1.396, 1.397, 1.399, 1.440, 1.448, 1.453, 1.456, 1.460, 1.495 y g6 o un conjunto en el que uno o más de dichos oligonucleótidos está sustituido, en el que cada oligonucleótido que está sustituido está sustituido por una parte de dicho oligonucleótido, parte que tiene una longitud de 15-200 bases, o por un oligonucleótido con una secuencia complementaria a dicho oligonucleótido.

Description

Producto y método.

La presente invención se refiere a sondas oligonucleotídicas, para usarse en la evaluación de los niveles de transcritos génicos en una célula, que pueden usarse en técnicas analíticas, particularmente técnicas de diagnóstico. Convenientemente, las sondas se proporcionan en forma de kit. Pueden usarse diferentes conjuntos de sondas en técnicas para preparar patrones de expresión génica e identificar, diagnosticar o monitorizar diferentes estados, tales como enfermedades, condiciones o estadios de éstas. También se proporcionan métodos para identificar sondas adecuadas y su uso en métodos de la invención.

La identificación de métodos rápidos y sencillos para el análisis de muestras, por ejemplo, para aplicaciones diagnósticas, permanece como el objetivo de muchos investigadores. Los usuarios finales solicitan métodos que sean rentables, que produzcan resultados estadísticamente significativos y que puedan implementarse rutinariamente sin la necesidad de individuos con gran experiencia técnica.

El análisis de la expresión génica en las células se ha usado para proporcionar información sobre el estado de esas células y en gran medida sobre el estado del individuo del que se obtienen las células. Se ha identificado que la expresión relativa de varios genes en una célula es el reflejo de un estado particular en un cuerpo. Por ejemplo, se sabe que las células cancerosas presentan una expresión alterada de varias proteínas y que los transcritos o las proteínas expresadas pueden usarse, por lo tanto, como marcadores de ese estado patológico.

Así, puede analizarse el tejido de biopsias para la presencia de estos marcadores y pueden identificarse las células que se originan a partir del sitio de la enfermedad en otros tejidos o fluidos del cuerpo por la presencia de los marcadores.

Además, los productos de la expresión alterada pueden liberarse en la corriente sanguínea y estos productos pueden analizarse. Además, las células que han entrado en contacto con células enfermas pueden resultar afectadas por su contacto directo con esas células lo que resulta en expresión génica alterada y su expresión o productos de la expresión pueden analizarse de manera similar.

Sin embargo, hay algunas limitaciones con estos métodos. Por ejemplo, el uso de marcadores tumorales específicos para identificar cáncer presenta varios defectos, tales como ausencia de especificidad o sensibilidad, asociación del marcador con estados patológicos además del tipo de cáncer específico, y dificultad de detección en individuos asintomáticos.

Además del análisis de uno o dos transcritos o proteínas marcadoras, se han analizado, más recientemente, los patrones de expresión génica. Affymetrix ha descrito un conjunto seleccionado de oligonucleótidos que abarca más de 39.000 transcritos que permitirían dicho análisis (Affymetrix GeneChip Human Genome U133 Assay Set HG-U133A, Base de Datos GEO NCBI, No. de Acceso GPL96). La mayor parte del trabajo que implica análisis de expresión génica a gran escala con implicaciones en el diagnóstico de enfermedades ha implicado muestras clínicas que tienen su origen en tejidos o células enfermas. Por ejemplo, varias publicaciones recientes, que demuestran que los datos de expresión génica pueden usarse para distinguir entre tipos de cáncer similares, han usado muestras clínicas de tejidos o células enfermos (Alon et al. 1999, PNAS, 96, p6745-6750; Golub et al. 1999, Science, 286, p531-537; Alizadeh et al, 2000, Nature, 403, p503-511; Bittner et al., 2000, Nature, 406, p536-540). WO 02/059271 describe genes que se expresan de manera diferente en biopsias tumorales comparado con tejidos normales y su uso en métodos de diagnóstico.

Sin embargo, estos métodos se han basado en el análisis de una muestra que contiene células enfermas o productos de estas células o células que han entrado en contacto con células enfermas. El análisis de dichas muestras se basa en el conocimiento de la presencia de una enfermedad y su localización, que puede ser difícil en pacientes asintomáticos. Además, las muestras no siempre pueden tomarse del sitio de la enfermedad, p. ej., en las enfermedades del cerebro.

En un descubrimiento de gran significancia, los presentes inventores identificaron el potencial previamente sin explotar de todas las células de un cuerpo para proporcionar información respecto al estado del organismo del que se obtuvieron las células. WO98/49342 describe el análisis de la expresión génica de células distantes del sitio de la enfermedad, p. ej. sangre periférica recogida lejos de un sitio de cáncer.

Este descubrimiento se basa en la premisa de que las diferentes partes del cuerpo de un organismo existen en interacción dinámica entre sí. Cuando una enfermedad afecta una parte del cuerpo, también resultan afectadas otras partes del cuerpo. La interacción resulta de una amplio espectro de señales bioquímicas que se liberan desde el área enferma, afectando otras áreas del cuerpo. Aunque la naturaleza de los cambios bioquímicos y fisiológicos inducidos por las señales liberadas puede variar en las diferentes partes del cuerpo, los cambios pueden medirse al nivel de la expresión génica y usarse para propósitos de diagnóstico.

El estado fisiológico de una célula en un organismo se determina por el patrón con el que los genes se expresan en él. El patrón depende de los estímulos biológicos internos y externos a los que está expuesta dicha célula, y cualquier cambio tanto en la magnitud como en la naturaleza de estos estímulos puede dar lugar a un cambio en el patrón con el que se expresan los diferentes genes en la célula. Existe una comprensión creciente de que mediante el análisis de los cambios sistémicos en los patrones de expresión génica en células de muestras biológicas, es posible proporcionar información sobre el tipo y naturaleza de los estímulos biológicos que están actuando sobre ellas. Así, por ejemplo, monitorizando la expresión de una gran número de genes en células de una muestra de ensayo, es posible determinar si sus genes se expresan con un patrón característico para una enfermedad, condición particular o estadio de éstas. La medición de los cambios de las actividades génicas en células, p. ej. de tejidos o fluidos corporales, se está revelando, por lo tanto, como una herramienta potente para el diagnóstico de enfermedades.

Dichos métodos tienen varias ventajas. A menudo, la obtención de muestras clínicas de determinadas áreas del cuerpo que está enfermo puede ser difícil y puede implicar invasiones no deseadas del cuerpo, por ejemplo la biopsia se usa a menudo para obtener muestras de cáncer. En algunos casos, tal como en la enfermedad de Alzheimer, el espécimen de cerebro enfermo sólo puede obtenerse post-mortem. Además, los especímenes de tejido que se obtienen son a menudo heterogéneos y pueden contener una mezcla de células enfermas y no enfermas, lo que hace que el análisis de los datos de expresión génica generados sea complejo y difícil.

Se ha sugerido que un conjunto de tejidos tumorales que parece ser homogéneo patogenéticamente respecto a las apariencias morfológicas del tumor puede ser altamente heterogéneo a nivel molecular (Alizadeh, 2000, supra) y, de hecho, podría contener tumores que representan enfermedades esencialmente diferentes (Alizadeh, 2000, supra; Golub, 1999, supra). Para el propósito de identificar una enfermedad, condición o un estadio de éstas, es altamente deseable cualquier método que no requiera muestras clínicas que se originen directamente de tejidos o células enfermas ya que las muestras clínicas que representan una mezcla homogénea de tipos celulares pueden obtenerse de una región fácilmente accesible del cuerpo.

Whitney et al. (2003, PNAS, Vol. 100(4), p 1896-1901) han analizado la individualidad y variación de los patrones de expresión génica en sangre normal para proporcionar una base de datos con la que pueden compararse los patrones de expresión génica asociados a enfermedades. Los métodos para analizar conjuntos de datos complejos los han revisado Sherlock et al. (2000, Current Opinion in Immunology, Vol. 12, p 201-205).

Ahora hemos identificado un conjunto de sondas con una utilidad sorprendente para identificar una o más enfermedades. Así, describimos ahora sondas y conjuntos de sondas obtenidas de células que no son células enfermas y que no han entrado en contacto con células enfermas, que corresponden a genes que presentan una expresión alterada en individuos normales frente a enfermos, para usarse en métodos para identificar, diagnosticar o monitorizar determinadas condiciones, particularmente enfermedades o estadios de éstas.

Se describe un conjunto de sondas oligonucleotídicas que corresponde a genes en una célula cuya expresión está afectada en un patrón característico de una enfermedad, condición particular o estadio de éstas, en el que dichos genes están afectados sistémicamente por dicha enfermedad, condición o estadio de éstas. Preferiblemente, dichos genes son genes metabólicos o de mantenimiento y preferiblemente se expresan constitutivamente de forma moderada o alta.

Preferiblemente, los genes se expresan de forma moderada o alta en las células de la muestra pero no en células de células enfermas o en células que han entrado en contacto con dichas células enfermas.

Dichas sondas, particularmente cuando se aíslan de células distantes del sitio de la enfermedad, no dependen del desarrollo de la enfermedad para alcanzar niveles clínicamente reconocibles y permiten la detección de una enfermedad o condición o estadio de éstas muy poco después de la aparición de dicha enfermedad o condición, incluso años antes de que aparezcan otros síntomas subjetivos u objetivos.

Tal y como se usa en la presente memoria genes afectados "sistémicamente" se refiere a genes cuya expresión está afectada en el cuerpo sin contacto directo con una célula enferma o sitio enfermo y las células que se están investigando no son células enfermas.

"Contacto" tal y como se refiere en la presente memoria se refiere a células que están muy cerca entre sí de manera que puede observarse el efecto directo de una célula sobre la otra, p. ej. una respuesta inmune, en la que estas respuestas no están mediadas por moléculas secundarias liberadas por la primera célula a gran distancia para afectar a la segunda célula. Preferiblemente, contacto se refiere a contacto físico, o contacto tan cercano como sea estéricamente posible, convenientemente, las células que entran en contacto entre sí se encuentran en la misma unidad de volumen, por ejemplo, en 1 cm^{3}.

Una "célula enferma" es una célula que manifiesta cambios fenotípicos y está presente en el sitio de la enfermedad en algún momento durante su vida, p. ej. una célula tumoral en el sitio tumoral o que se ha diseminado desde el tumor, o una célula cerebral en el caso de trastornos cerebrales tal como la enfermedad de Alzheimer.

Genes "metabólicos" o de "mantenimiento" se refiere a aquellos genes responsables de expresar productos implicados en la división y mantenimiento celular, p. ej. genes relacionados con funciones no inmunes.

Genes expresados de forma "moderada o alta" se refiere a aquellos presentes en células en reposo con un número de copias de más de 30-100 copias/célula (asumiendo una media de 3x10^{5} moléculas de ARNm en una célula).

En la presente memoria se proporcionan sondas específicas que tienen las propiedades descritas anteriormente.

La presente descripción describe un conjunto de sondas oligonucleotídicas, en el que dicho conjunto comprende al menos 10 oligonucleótidos seleccionados de:

un oligonucleótido como se describe en la Tabla 1 u

obtenido de una secuencia descrita en la Tabla 1, o un

oligonucleótido con una secuencia complementaria,

o un oligonucleótido funcionalmente equivalente.

La "Tabla 1" como se refiere en la presente memoria se refiere a la Tabla 1a y/o a la Tabla 1b. La Tabla 1b contiene referencias a clones y secuencias adicionales según se describe en la presente memoria. De forma similar, las Tablas 2 y 4 comprenden 2 partes, a y b.

También se describen una o más sondas oligonucleotídicas, en las que cada sonda oligonucleotídica se selecciona de los oligonucleótidos listados en la Tabla 1, u obtenidos de una secuencia descrita en la Tabla 1, o una secuencia complementaria de éste. También se describe el uso de dichas sondas en productos y métodos como se describe posteriormente en la presente memoria.

Tal y como se refiere en la presente memoria un "oligonucleótido" es una molécula de ácido nucleico que tiene al menos 6 monómeros en la estructura polimérica, es decir, nucleótidos o formas modificadas de éstos. La molécula de ácido nucleico puede ser ADN, ARN o PNA (ácido nucleico peptídico) o híbridos de éstos o versiones modificadas de éstos, p. ej. formas modificadas químicamente, p. ej. LNA (ácido Nucleico Bloqueado), por metilación o hechos a partir de bases modificadas o no naturales durante la síntesis, siempre que retengan su capacidad de unirse a secuencias complementarias. Dichos oligonucleótidos se usan como sonda para secuencias diana y también se refieren así en la presente memoria como sondas oligonucleotídicas o simplemente como sondas.

Un "oligonucleótido obtenido de una secuencia descrita en la Tabla 1" (o de cualquier otra tabla) se refiere a una parte de una secuencia descrita en esa Tabla (p. ej. Tablas 1-4), que satisface los requerimientos de las sondas oligonucleotídicas según se describe en la presente memoria, p. ej. en cuanto a longitud y función. Preferiblemente, dichas partes tienen el tamaño descrito posteriormente en la presente memoria.

Preferiblemente, las sondas oligonucleotídicas que forman dicho conjunto tienen una longitud de al menos 15 bases para permitir la unión de las moléculas diana. De forma especialmente preferida, dichas sondas oligonucleotídicas tienen una longitud de 20 a 200 bases, p. ej. de 30 a 150 bases, preferiblemente una longitud de 50-100 bases.

Tal y como se refiere en la presente memoria el término "secuencias complementarias" se refiere a secuencias con bases complementarias consecutivas (es decir T:A, G:C) y cuyas secuencias complementarias son, por lo tanto capaces de unirse entre sí a través de su complementariedad.

La referencia a "10 oligonucleótidos" se refiere a 10 oligonucleótidos diferentes. Mientras un oligonucleótido de la Tabla 1, un oligonucleótido obtenido de la Tabla 1 y su equivalente funcional, se consideran oligonucleótidos diferentes, los oligonucleótidos complementarios no se consideran diferentes. Preferiblemente, sin embargo, los al menos 10 oligonucleótidos son 10 oligonucleótidos diferentes de la Tabla 1 (u oligonucleótidos obtenidos de la Tabla 1 o sus equivalentes funcionales). Así, dichos 10 oligonucleótidos diferentes son preferiblemente capaces de unirse a 10 transcritos diferentes.

Preferiblemente, dichos oligonucleótidos son como se describe en la Tabla 1 o se obtienen de una secuencia descrita en la Tabla 1. De forma especialmente preferida, dichos oligonucleótidos son como se describe en la Tabla 2 o en la Tabla 4 o se obtienen de una secuencia descrita en cualquiera de esas tablas. De forma especialmente preferida, el oligonucleótido (o el oligonucleótido obtenido de éste) tiene una alta frecuencia de aparición según se define en la Tabla 3, de forma especialmente preferida >40%, p. ej. >80% o >90%, p. ej. 100%.

Un "conjunto" según se describe se refiere a una colección de sondas oligonucleotídicas únicas (es decir, que tienen una secuencia distinta) y preferiblemente consiste en menos de 1.000 sondas oligonucleotídicas, especialmente menos de 500 sondas, p. ej. preferiblemente de 10 a 500, p. ej. 10 a 100, 200 ó 300, de forma especialmente preferida 20 a 100, p. ej. 30 a 100 sondas. En algunos casos pueden usarse menos de 10 sondas, p. ej. de 2 a 9 sondas, p. ej. 5 a 9 sondas.

Se apreciará que el incremento del número de sondas evitará la posibilidad de un análisis pobre, p. ej. diagnóstico erróneo por comparación con otras enfermedades que podrían alterar de forma similar la expresión de los genes particulares en cuestión. También pueden estar presentes otras sondas oligonucleotídicas no descritas en la presente memoria, particularmente si contribuyen en el uso último del conjunto de sondas oligonucleotídicas. Sin embargo, preferiblemente dicho conjunto consiste sólo en dichos oligonucleótidos de la Tabla 1, oligonucleótidos obtenidos de la Tabla 1, secuencias complementarias u oligonucleótidos funcionalmente equivalentes, o un subconjunto de éstos (p. ej. del tamaño según se ha descrito anteriormente), preferiblemente un subconjunto para el que se proporcionan secuencias en la presente memoria (véase la Tabla 1 y su nota al pie). De forma especialmente preferida, dicho conjunto consiste sólo en dichos oligonucleótidos de la Tabla 1, oligonucleótidos obtenidos de la Tabla 1, o secuencias complementarias de éstos, o un subconjunto de éstos.

Así, en un primer aspecto la presente invención proporciona un conjunto de menos de 1.000 sondas oligonucleotídicas, en el que dicho conjunto comprende los oligonucleótidos según se describe en la Tabla 2b para los que se proporcionan las secuencias que tienen las secuencias según se muestra en la secuencia No. 61, 77, 93, 108, 110, 192, 250, 308, 309, 310, 321, 327, 338, 339, 360, 361, 364, 365, 368, 378, 380, 381, 382, 384, 390, 391, 397, 398, 401, 403, 406, 411, 412, 413, 414, 415, 416, 418, 421, 423, 424, 428, 434, 436, 438, 441, 442, 450, 452, 453, 458, 460, 463, 464, 469, 471, 473, 474, 475, 476, 477, 478, 479, 482, 483, 485, 487, 488, 489, 492, 493, 494, 495, 503, 504, 505, 506, 507, 508, 509, 510, 512, 513, 515, 518, 519, 521, 523, 524, 526, 527, 529, 530, 532, 534, 560, 562, 564, 565, 566, 567, 568, 570, 571, 572, 575, 576, 578, 579, 580, 583, 585, 589, 591, 592, 593, 594, 596, 598, 600, 601, 605, 607, 610, 612, 613, 614, 615, 617, 618, 619, 622, 624, 628, 629, 630, 631, 632, 633, 634, 635, 636, 637, 638, 639, 643, 644, 645, 649, 651, 656, 658, 660, 661, 663, 665, 672, 673, 675, 679, 682, 683, 684, 685, 687, 688, 689, 691, 693, 696, 697, 699, 701, 702, 705, 706, 707, 708, 709, 711, 714, 718, 720, 721, 722, 724, 726, 736, 739, 747, 757, 758, 764, 766, 768, 773, 776, 782, 785, 796, 801, 808, 814, 817, 821, 825, 833, 837, 839, 849, 860, 864, 865, 867, 869, 870, 871, 873, 875, 876, 878, 879, 881, 885, 887, 889, 891, 892, 893, 895, 897, 899, 903, 904, 905, 906, 907, 908, 910, 911, 912, 915, 917, 926, 938, 939, 947, 949, 1.028, 1.056, 1.071, 1.074, 1.081, 1.083, 1.084, 1.099, 1.109, 1.118, 1.125, 1.139, 1.148, 1.160, 1.165, 1.172, 1.178, 1.180, 1.181, 1.182, 1.183, 1.185, 1.186, 1.188, 1.189, 1.190, 1.192, 1.193, 1.195, 1.196, 1.197, 1.198, 1.199, 1.200, 1.201, 1.202, 1.203, 1.204, 1.205, 1.207, 1.208, 1.209, 1.210, 1.211, 1.212, 1.213, 1.214, 1.215, 1.216, 1.217, 1.218, 1.219, 1.220, 1.221, 1.224, 1.226, 1.228, 1.230, 1.231, 1.239, 1.331, 1.332, 1.335, 1.336, 1.337, 1.338, 1.344, 1.348, 1.351, 1.352, 1.353, 1.355, 1.360, 1.361, 1.364, 1.365, 1.366, 1.368, 1.369, 1.370, 1.371, 1.372, 1.374, 1.378, 1.380, 1.382, 1.387, 1.389, 1.390, 1.391, 1.392, 1.394, 1.395, 1.396, 1.397, 1.399, 1.440, 1.448, 1.453, 1.456, 1.460, 1.495 y g6

o un conjunto en el que uno o más de dichos oligonucleótidos está sustituido, en el que cada oligonucleótido que está sustituido está sustituido con una parte de dicho oligonucleótido y dicha parte tiene una longitud de 15-200 bases, o con un oligonucleótido con una secuencia complementaria de dicho oligonucleótido.

En un aspecto adicional, la invención proporciona un conjunto de menos de 1.000 sondas oligonucleotídicas, en el que dicho conjunto comprende los oligonucleótidos según se describe en la Tabla 4b para los que se proporcionan secuencias que tienen las secuencias según se muestra en la secuencia No. 299, 300, 302, 304, 306, 308, 309, 310, 311, 313, 314, 315, 316, 321, 322, 323, 324, 325, 326, 327, 328, 330, 331, 335, 337, 338, 339, 360, 361, 363, 364, 365, 366, 368, 369, 370, 371, 373, 374, 378, 380, 381, 382, 383, 384, 386, 387, 388, 389, 390, 391, 394, 395, 396, 397, 398, 399, 400, 401, 402, 403, 405, 406, 407, 408, 409, 410, 411, 412, 412, 413, 414, 415, 416, 417, 418, 419, 420, 421, 422, 423, 424, 425, 426, 427, 428, 429, 430, 431, 432, 433, 434, 435, 436, 438, 441, 442, 446, 447, 448, 450, 452, 453, 454, 458, 459, 460, 461, 462, 463, 464, 469, 471, 472, 473, 474, 475, 476, 477, 478, 479, 481, 482, 483, 484, 485, 487, 488, 489, 490, 491, 492, 493, 494, 495, 496, 497, 499, 500, 502, 503, 504, 505, 506, 507, 508, 509, 510, 512, 513, 515, 518, 519, 521, 523, 524, 524, 526, 527, 529, 530, 532, 533, 534, 560, 561, 562, 563, 564, 565, 566, 567, 568, 570, 571, 572, 574, 575, 576, 577, 578, 579, 580, 581, 582, 583, 585, 586, 587, 588, 589, 590, 591, 592, 593, 594, 595, 596, 597, 598, 599, 600, 601, 602, 603, 605, 606, 607, 609, 610, 611, 612, 613, 614, 615, 617, 618, 619, 621, 622, 624, 625, 626, 627, 628, 629, 630, 631, 632, 634, 635, 636, 637, 638, 639, 641, 642, 643, 644, 645, 646, 647, 648, 649, 650, 651, 652, 653, 654, 655, 656, 657, 658, 660, 661, 663, 665, 666, 669, 670, 671, 672, 673, 674, 675, 676, 679, 682, 683, 684, 685, 686, 687, 688, 689, 690, 691, 692, 693, 694, 696, 697, 698, 699, 700, 701, 702, 703, 704, 705, 706, 707, 708, 709, 710, 711, 713, 714, 717, 718, 719, 720, 721, 722, 724, 726, 727, 728, 870, 871, 873, 878, 879, 883, 885, 887, 889, 890, 892, 893, 895, 896, 897, 898, 899, 900, 903, 904, 905, 906, 907, 908, 910, 911, 912, 913, 914, 915, 1.178, 1.180, 1.181, 1.182, 1.183, 1.185, 1.186, 1.188, 1.189, 1.190, 1.191, 1.193, 1.200, 1.332. 1.336, 1.337, 1.348, 1.351, 1.353, 1.355, 1.359, 1.361, 1.364, 1.365, 1.366, 1.367, 1.368, 1.369, 1.370, 1.372, 1.374, 1.382, 1.387, 1.389, 1.390, 1.391, 1.397, 1.399, 1.440, 1.447, 1.448, 1.449, 1.450, 1.453, 1.454, 1.490, 1.491, 1.492, 1.493, 1.494 y 1.495

En cada conjunto pueden estar presentes múltiples copias de cada sonda oligonucleotídica única, p. ej. 10 o más copias, pero constituyen sólo una única sonda.

Un conjunto de sondas oligonucleotídicas, que pueden estar preferiblemente inmovilizadas en un soporte sólido o tener medios para dicha inmovilización, comprende las al menos 10 sondas oligonucleotídicas seleccionadas de las descritas anteriormente en la presente memoria. De forma especialmente preferida, dichas sondas se seleccionan de las que aparecen con alta frecuencia según se describe en la Tabla 3 y como se ha mencionado anteriormente. Como se ha mencionado anteriormente, estas 10 sondas deben ser únicas y tener diferentes secuencias. Habiendo dicho esto, sin embargo, pueden usarse dos sondas distintas que reconozcan el mismo gen pero que reflejen distintos eventos de corte y empalme. Sin embargo, se prefieren las sondas oligonucleotídicas que son complementarias de, y se unen a genes distintos.

Como se describe en la presente memoria, un oligonucleótido "funcionalmente equivalente" a los descritos en la Tabla 1 u obtenido de éstos se refiere a un oligonucleótido que es capaz de identificar el mismo gen que un oligonucleótido de la Tabla 1 u obtenido de éstos, es decir, puede unirse a la misma molécula de ARNm (o ADN) transcrita de un gen (molécula de ácido nucleico diana) como el oligonucleótido de la Tabla 1 o el oligonucleótido obtenido de la Tabla 1 (o su secuencia complementaria). Preferiblemente, dicho oligonucleótido funcionalmente equivalente es capaz de reconocer, es decir unirse, al mismo producto de corte y empalme que un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1. Preferiblemente, dicha molécula de ARNm es la molécula de ARNm de longitud completa que corresponde al oligonucleótido de la Tabla 1 o al oligonucleótido obtenido de la Tabla 1.

Tal y como se refiere en la presente memoria "capaz de unirse" o "unirse" se refiere a la capacidad de hibridar en las condiciones descritas posteriormente en la presente memoria.

Expresado de una manera alternativa, los oligonucleótidos funcionalmente equivalentes (o secuencias complementarias) tienen una identidad de secuencia o hibridarán, como se describe posteriormente en la presente memoria, con una región de la molécula diana, molécula a la que se une un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1 o un oligonucleótido complementario. Preferiblemente, los oligonucleótidos funcionalmente equivalentes (o sus secuencias complementarias) hibridan con una de las secuencias de ARNm que corresponde con un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1 en las condiciones descritas posteriormente en la presente memoria o tiene una identidad de secuencia con una parte de una de las secuencias de ARNm que corresponde a un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1. Una "parte" en este contexto se refiere a una cadena de al menos 5, p. ej. al menos 10 ó 20 bases, tal como de 5 a 100, p. ej. 10 a 50 ó 15 a 30 bases.

De forma particularmente preferida, el oligonucleótido funcionalmente equivalente se une a toda o una parte de la región de una molécula de ácido nucleico diana (ARNm o ADNc) a la que se une el oligonucleótido de la Tabla 1 o el oligonucleótido obtenido de la Tabla 1. Una molécula de ácido nucleico "diana" es el transcrito génico o producto relacionado, p. ej. ARNm, o ADNc, o producto amplificado de éstos. Dicha "región" de dicha molécula diana a la que se une dicho oligonucleótido de la Tabla 1 u oligonucleótido obtenido de la Tabla 1 es la cadena sobre la que existe complementariedad. Como máximo, esta región es la longitud completa del oligonucleótido de la Tabla 1 u oligonucleótido obtenido de la Tabla 1, pero puede ser más corta si la secuencia completa de la Tabla 1 o el oligonucleótido obtenido de la Tabla 1 no es complementaria de la región de la secuencia diana.

Preferiblemente, dicha parte de dicha región de dicha molécula diana es una cadena de al menos 5, p. ej. al menos 10 ó 20 bases, tal como de 5 a 100, p. ej. 10 a 50 ó 15 a 30 bases. Esto puede conseguirse, por ejemplo, si dicho oligonucleótido funcionalmente equivalente tiene varias bases idénticas a las bases del oligonucleótido de la Tabla 1 o el oligonucleótido obtenido de la Tabla 1. Estas bases pueden ser idénticas sobre cadenas consecutivas, p. ej. en una parte del oligonucleótido funcionalmente equivalente, o pueden estar presentes de forma no consecutiva, pero proporcionan una complementariedad suficiente para permitir la unión a la secuencia diana.

Así, preferiblemente, dicho oligonucleótido funcionalmente equivalente hibrida en condiciones de alta astringencia con un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1 o la secuencia complementaria de éstos. Expresado de forma alternativa, dicho oligonucleótido funcionalmente equivalente presenta una alta identidad de secuencia con todo o parte de un oligonucleótido de la Tabla 1. Preferiblemente, dicho oligonucleótido funcionalmente equivalente tiene al menos 70% de identidad de secuencia, preferiblemente al menos 80%, p. ej. al menos 90, 95, 98 ó 99%, respecto a la totalidad de un oligonucleótido de la Tabla 1 o una parte de éste. Tal y como se usa en este contexto, una "parte" se refiere a una cadena de al menos 5, p. ej. al menos 10 ó 20 bases, tal como de 5 a 100, p. ej. 10 a 50 ó 15 a 30 bases, en dicho oligonucleótido de la Tabla 1. De forma especialmente preferida, cuando está presente la identidad de secuencia respecto a sólo una parte de dicho oligonucleótido de la Tabla 1, la identidad de secuencia es alta, p. ej. al menos 80% como se ha descrito anteriormente.

Los oligonucleótidos funcionalmente equivalentes que satisfacen los requerimientos funcionales indicados anteriormente incluyen aquellos que se obtienen de los oligonucleótidos de la Tabla 1 y también aquellos que han sido modificados por sustitución, adición y/o deleción única o múltiple de base de nucleótido (o equivalente), pero que sin embargo retienen la actividad funcional, p. ej. unión a la misma molécula diana como el oligonucleótido de la Tabla 1 o el oligonucleótido obtenido de la Tabla 1 a partir de los cuales son obtenidos o modificados adicionalmente. Preferiblemente, dicha modificación es de 1 a 50, p. ej. de 10 a 30, preferiblemente de 1 a 5 bases. De forma especialmente preferida, sólo están presentes modificaciones pequeñas, p. ej. variaciones en menos de 10 bases, p. ej. menos de 5 cambios de base.

Dentro del significado de equivalentes de "adición" se incluyen oligonucleótidos que contienen secuencias adicionales que son complementarias de la cadena consecutiva de bases de la molécula diana a la que se une el oligonucleótido de la Tabla 1 o el oligonucleótido obtenido de la Tabla 1. Alternativamente, la adición puede comprender una secuencia diferente, no relacionada, que puede conferir, por ejemplo, una propiedad adicional, p. ej. para proporcionar un medio para la inmovilización tal como un conector para unir la sonda oligonucleotídica a un soporte sólido.

Son particularmente preferidos los equivalentes naturales tales como variantes biológicas, p. ej. variantes alélicas, geográficas o alotípicas, p. ej. oligonucleótidos que corresponden a una variante genética, por ejemplo, como están presentes en una especie diferente.

\newpage

Los equivalentes funcionales incluyen oligonucleótidos con bases modificadas, p. ej. usando bases no naturales. Dichos derivados pueden prepararse durante la síntesis o por modificación posterior a la producción.

Las secuencias "que hibridan" que se unen en condiciones de baja astringencia son aquellas que se unen en condiciones no astringentes (por ejemplo, 6x SSC/50% formamida a temperatura ambiente) y permanecen unidas cuando se lavan en condiciones de baja astringencia (2 x SSC, temperatura ambiente, más preferiblemente 2 x SSC, 42ºC). La hibridación en alta astringencia se refiere a las condiciones anteriores en las que el lavado se realiza a 2 x SSC, 65ºC (donde SSC = 0,15M NaCl, 0,015M citrato sódico, pH 7,2).

"Identidad de secuencia" tal y como se refiere en la presente memoria se refiere al valor obtenido cuando se evalúa usando ClustalW (Thompson et al., 1994, Nucl. Acids Res., 22, p4673-4680) con los parámetros siguientes:

Parámetros de alineación de parejas de secuencias - Método: preciso, Matriz: IUB, Penalización en la puntuación por cada hueco que se abre: 15,00, Penalización en la puntuación en función de la longitud del hueco: 6,66;

Parámetros de alineación múltiple - Matriz: IUB, Penalización en la puntuación por cada hueco que se abre: 15,00, % identidad para demora: 30, Matriz negativa: no, Penalización en la puntuación en función de la longitud del hueco: 6,66; Peso de las transiciones de ADN: 0,5.

Se pretende que la identidad de secuencia en una base particular incluya bases idénticas que simplemente se han derivatizado.

También se describen polipéptidos codificados por la secuencia de ARNm a la que se une un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1. Se describen adicionalmente anticuerpos que se unen a cualquiera de dichos polipéptidos.

Como se ha descrito anteriormente, dicho conjunto de sondas oligonucleotídicas puede inmovilizarse convenientemente en uno o más soportes sólidos. Una o preferiblemente múltiples copias de cada sonda única se unen a dichos soportes sólidos, p. ej. están presentes 10 o más, p. ej. al menos 100 copias de cada sonda única. En un aspecto adicional de la invención, se inmoviliza el conjunto de sondas que comprende las sondas de la Tabla 2b ó 4b en uno o más soportes sólidos.

Una o más sondas oligonucleotídicas únicas pueden asociarse con soportes sólidos diferentes que forman conjuntamente un conjunto de sondas inmovilizado en un soporte sólido múltiple, p. ej. una o más sondas únicas pueden inmovilizarse en múltiples lechos, membranas, filtros, biochips, etc. que forman conjuntamente un conjunto de sondas, que conjuntamente forman módulos del kit descrito posteriormente en la presente memoria. El soporte sólido de los diferentes módulos está convenientemente asociado físicamente aunque las señales asociadas con cada sonda (generadas como se describe posteriormente en la presente memoria) pueden determinarse independientemente.

Alternativamente, las sondas pueden inmovilizarse en partes discretas del mismo soporte sólido, p. ej. cada sonda oligonucleotídica única, p. ej. en múltiples copias, puede inmovilizarse en una parte o región distinta y discreta de un filtro o membrana único, p. ej. para generar una matriz.

También puede usarse una combinación de dichas técnicas, p. ej. pueden usarse varios soportes sólidos inmovilizando cada uno varias sondas únicas.

La expresión "soporte sólido" significará cualquier material sólido capaz de unir oligonucleótidos por puentes hidrofóbicos, iónicos o covalentes.

"Inmovilización" tal y como se usa en la presente memoria se refiere a la asociación reversible o irreversible de las sondas con dicho soporte sólido mediante dicha unión. Si es reversible, las sondas permanecen asociadas con el soporte sólido durante un tiempo suficiente para llevar a cabo los métodos según se describe en la presente memoria.

En la técnica son muy conocidos numerosos soportes sólidos adecuados como restos inmovilizantes y están ampliamente descritos en la bibliografía y en términos generales, el soporte sólido puede ser cualquiera de los soportes o matrices muy conocidos que se usan actualmente de forma amplia o propuestos para inmovilización, separación etc. en procedimientos químicos o bioquímicos. Dichos materiales incluyen, pero no están limitados a, cualquier polímero orgánico sintético, tal como poliestireno, cloruro de polivinilo, polietileno; o nitrocelulosa y acetato de celulosa; o superficies activadas con tosilo; o vidrio o nilón o cualquier superficie que porte un grupo adecuado para el acoplamiento covalente de ácidos nucleicos. Los restos inmovilizantes pueden tomar la forma de partículas, láminas, geles, filtros, membranas, tiras de microfibra, tubos o placas, fibras o capilares, hechos, por ejemplo, de un material polimérico p. ej. agarosa, celulosa, alginato, teflón, látex o poliestireno o lechos magnéticos. Se prefieren los soportes sólidos que permiten la presentación de una matriz, preferiblemente en una única dimensión, p. ej. láminas, filtros, membranas, placas o biochips.

La unión de las moléculas de ácido nucleico al soporte sólido puede realizarse directamente o indirectamente. Por ejemplo, si se usa un filtro, la unión puede realizarse por entrecruzamiento inducido por UV. Alternativamente, la unión puede realizarse indirectamente mediante el uso de un resto de unión presente en las sondas oligonucleotídicas y/o en el soporte sólido. Así, por ejemplo, puede usarse una pareja de integrantes de unión por afinidad, tales como avidina, estreptavidina o biotina, ADN o proteína de unión al ADN (p. ej. bien la proteína represora de lac I o la secuencia del operador de lac a la que se une), anticuerpos (que pueden ser mono o policlonales), fragmentos de anticuerpo o los epítopos o haptenos de anticuerpos. En estos casos, un integrante de la pareja de unión se une a (o es una parte inherente de) el soporte sólido y el otro integrante se une a (o es una parte inherente de) las moléculas de ácido nucleico.

Tal y como se usa en la presente memoria, una "pareja de unión por afinidad" se refiere a dos componentes que se reconocen y se unen entre sí específicamente (es decir, preferentemente a la unión con otras moléculas). Dichas parejas de unión cuando se unen entre sí forman un complejo.

La unión de grupos funcionales apropiados al soporte sólido puede realizarse mediante métodos muy conocidos en la técnica, que incluyen por ejemplo, unión a través de grupos hidroxilo, carboxilo, aldehído o amino que pueden proporcionarse por tratamiento del soporte sólido para proporcionar recubrimientos de superficie adecuados. Los soportes sólidos que presentan restos apropiados para la unión del integrante de unión pueden producirse por métodos rutinarios conocidos en la técnica.

La unión de grupos funcionales apropiados a las sondas oligonucleotídicas descritas en la presente memoria puede realizarse por ligadura o introducirlos durante la síntesis o amplificación, por ejemplo usando cebadores que tengan un resto apropiado, tal como biotina o una secuencia particular para captura.

Convenientemente, el conjunto de sondas descrito más adelante en la presente memoria se proporciona en forma de kit.

Así, vista desde un aspecto adicional, la presente invención proporciona un kit que comprende un conjunto de sondas oligonucleotídicas de la invención según se describe más adelante en la presente memoria inmovilizado en uno o más soportes sólidos.

Preferiblemente, dichas sondas se inmovilizan en un único soporte sólido y cada sonda única se une a una región diferente de dicho soporte sólido. Sin embargo, cuando se une a múltiples soportes sólidos, dichos múltiples soportes sólidos forman los módulos que forman el kit. De forma especialmente preferida, dicho soporte sólido es una lámina, filtro, membrana, placa o biochip.

Opcionalmente, el kit también puede contener información respecto a las señales generadas por muestras normales o enfermas (como se discute con mayor detalle más adelante en la presente memoria respecto al uso de los kits), materiales para estandarizar, p. ej. ARNm o ADNc de muestras normales y/o enfermas para propósitos de comparación, etiquetas para incorporarse en el ADNc, adaptadores para introducir secuencias de ácido nucleico para propósitos de amplificación, cebadores para la amplificación y/o enzimas, tampones y disoluciones apropiadas. Opcionalmente, dicho kit también puede contener un prospecto que describa cómo debe realizarse el método según se describe en la presente memoria, proporcionando opcionalmente gráficos estándar, datos o un programa informático para la interpretación de los resultados obtenidos cuando se llevan a cabo los métodos descritos en la presente memoria.

El uso de los kits de la invención para preparar un patrón de transcritos génicos estándar para diagnóstico como se describe más adelante en la presente memoria forma un aspecto adicional de la invención.

El conjunto de sondas como se describe en la presente memoria tiene varios usos. Principalmente, sin embargo, se usan para evaluar el estado de la expresión génica de una célula de ensayo para proporcionar información respecto al organismo del que se obtiene dicha célula. Así, las sondas son útiles para el diagnóstico, identificación o monitorización de una enfermedad o condición o estadio de ésta en un organismo.

Así, también se describe en la presente memoria el uso de un conjunto de sondas oligonucleotídicas o un kit como se describe más adelante en la presente memoria para determinar el patrón de expresión génica de una célula cuyo patrón refleja el nivel de la expresión génica de los genes a los que se unen dichas sondas oligonucleotídicas, que comprende al menos las etapas de:

a) aislar el ARNm de dicha célula, que puede opcionalmente transcribirse de forma inversa a ADNc;

b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de sondas oligonucleotídicas o un kit como se define en la presente memoria; y

c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir dicho patrón. En un uso según la invención, el conjunto o kit es un conjunto o kit según la invención.

El ARNm y ADNc según se refieren en este método, y los métodos más adelante en la presente memoria, engloban derivados o copias de dichas moléculas, p. ej. copias de dichas moléculas tales como las producidas por amplificación o la preparación de cadenas complementarias, pero que retienen la identidad de la secuencia de ARNm, es decir, hibridarían con el transcrito directo (o su secuencia complementaria) gracias a complementariedad precisa, o identidad de secuencia, sobre al menos una región de dicha molécula. Se apreciará que la complementariedad no existirá sobre la región completa cuando se han usado técnicas que pueden truncar el transcrito o introducir nuevas secuencias, p. ej. por amplificación con cebadores. Por conveniencia, dicho ARNm o ADNc se amplifica preferiblemente antes de la etapa b). Como con los oligonucleótidos descritos en la presente memoria dichas moléculas pueden modificarse, p. ej. mediante el uso de bases no naturales durante la síntesis siempre que permanezca la complementariedad. Dichas moléculas también pueden portar restos adicionales tales como medios de señalización o inmovilización.

Las diferentes etapas implicadas en el método de preparar dicho patrón están descritas con más detalle más adelante en la presente memoria.

Tal y como se usa en la presente memoria, "expresión génica" se refiere a la transcripción de un gen particular para producir un producto ARNm específico (es decir, un producto de corte y empalme particular). El nivel de la expresión génica puede determinarse evaluando el nivel de las moléculas de ARNm transcritas o moléculas de ADNc transcritas de manera inversa a partir de las moléculas de ARNm o productos derivados de estas moléculas, p. ej. por amplificación.

El "patrón" creado mediante esta técnica se refiere a información que, por ejemplo, puede representarse en forma tabular o gráfica y expresa información acerca de la señal asociada con dos o más oligonucleótidos. Preferiblemente, dicho patrón se expresa como una matriz de números que se refieren al nivel de expresión asociado con cada sonda.

Preferiblemente, dicho patrón se establece usando el modelo lineal siguiente:

Ecuación 1y = Xb + f

en la que X es la matriz de los datos de expresión génica e y es la variable respuesta, b es el vector del coeficiente de regresión y f el vector residual estimado. Aunque pueden usarse diferentes métodos para establecer la relación proporcionada en la ecuación 1, de forma especialmente preferida se usa el método de la Regresión de Mínimos Cuadrados parciales (PLSR) para establecer la relación en la ecuación 1.

Las sondas se usan así para generar un patrón que refleja la expresión génica de una célula en el momento de su aislamiento. El patrón de expresión es característico de las circunstancias bajo las que se encuentra esa célula y depende de las influencias a las que se ha expuesto la célula. Así, un patrón de transcritos génicos estándar o huella (patrón de la sonda estándar) característico para células de un individuo con una enfermedad o condición particular puede prepararse y usarse para compararlo con los patrones de transcritos de células de ensayo. Esto tiene aplicaciones claras en el diagnóstico, monitorización o identificación de si un organismo padece una enfermedad, condición particular o estadio de ésta.

El patrón estándar se prepara determinando el grado de unión del ARNm total (o ADNc o producto relacionado), de células de una muestra de uno o más organismos con la enfermedad o condición o estadio de ésta, a las sondas. Esto refleja el nivel de transcritos que están presentes que corresponden a cada sonda única. La cantidad de material de ácido nucleico que se une a las diferentes sondas se evalúa y esta información en conjunto forma el patrón de transcritos génicos estándar de esa enfermedad o condición o estadio de ésta. Cada uno de dichos patrones estándar es característico de la enfermedad, condición o estadio de ésta.

Por lo tanto, se describe un método para preparar un patrón de transcritos génicos estándar característico de una enfermedad o condición o estadio de ésta en un organismo que comprende al menos las etapas de:

a) aislar el ARNm de las células de una muestra de uno o más organismos que tienen la enfermedad o condición o estadio de ésta, que puede opcionalmente transcribirse de manera inversa a ADNc;

b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit como se ha descrito anteriormente en la presente memoria específico para dicha enfermedad o condición o estadio de ésta en un organismo y muestra de éste que corresponde al organismo y muestra de éste que se está investigando; y

c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir un patrón característico que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos, en la muestra con la enfermedad, condición o estadio de ésta.

\vskip1.000000\baselineskip

Respecto a la invención, la presente invención proporciona dicho método usando muestras de sangre para preparar un patrón de transcritos estándar característico de cáncer de mama o enfermedad de Alzheimer o un estadio de éstas. Así, en un aspecto preferido, la invención proporciona un método para preparar un patrón de transcritos génicos estándar característico de cáncer de mama o enfermedad de Alzheimer o un estadio de éstas en un organismo que comprende al menos las etapas de:

a) aislar el ARNm de las células de una muestra de sangre de uno o más organismos que tienen cáncer de mama o enfermedad de Alzheimer o un estadio de éstas, que puede opcionalmente transcribirse de forma inversa a ADNc;

b) hibridar el ARNm o ADNc de la etapa (a) de un organismo con cáncer de mama o un estadio de éste con un conjunto de oligonucleótidos o un kit de la invención como se ha descrito anteriormente en la presente memoria específico para cáncer de mama o un estadio de éste en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando o hibridar el ARNm o ADNc de la etapa (a) de un organismo con enfermedad de Alzheimer o un estadio de ésta con un conjunto de oligonucleótidos o un kit de la invención como se ha descrito anteriormente en la presente memoria específico para la enfermedad de Alzheimer o un estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y

c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir un patrón característico que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos, en la muestra con cáncer de mama o enfermedad de Alzheimer o un estadio de éstas, en el que los oligonucleótidos específicos para cáncer de mama o un estadio de éste son como se muestra en la Tabla 2b y los oligonucleótidos específicos para enfermedad de Alzheimer o un estadio de ésta son como se muestra en la Tabla 4b.

\vskip1.000000\baselineskip

Por conveniencia, dichos oligonucleótidos se inmovilizan preferiblemente en uno o más soportes sólidos.

El patrón estándar para un gran número de enfermedades o condiciones y diferentes estadios de éstas usando sondas particulares puede acumularse en bases de datos y estar disponible para los laboratorios que lo requieran.

Muestras y organismos "enfermos" según se refieren en la presente memoria se refiere a organismos (o muestras de los mismos) con una alteración patológica subyacente respecto a un organismo (o muestra) normal, en un organismo sintomático o asintomático, que puede resultar, por ejemplo, de una infección o una imperfección genética adquirida o congénita. Se sabe que dichos organismos tienen, o presentan, la enfermedad o condición o estadio de éstas que se está estudiando.

Una "condición" se refiere a un estado de la mente o el cuerpo de un organismo que no se ha producido por enfermedad, p. ej. la presencia de un agente en el cuerpo tal como una toxina, fármaco o contaminante, o embarazo.

"Estadios" de ésta se refiere a los diferentes estadios de la enfermedad o condición que pueden o no presentar cambios fisiológicos o metabólicos particulares, pero presentan cambios a nivel genético que pueden detectarse como una expresión génica alterada. Se apreciará que durante el curso de una enfermedad o condición puede variar la expresión de los diferentes transcritos. Así, en diferentes estadios, puede no presentarse una expresión alterada para transcritos particulares comparada con las muestras "normales". Sin embargo, la combinación de información de varios transcritos que presentan una expresión alterada en uno o más estadios durante el curso de la enfermedad o condición puede usarse para proporcionar un patrón característico que es indicativo de un estadio particular de la enfermedad o condición. Así, por ejemplo, pueden identificarse diferentes estadios en el cáncer, p. ej. pre-estadio I, estadio I, estadio II, III o IV.

"Normal" tal y como se usa en la presente memoria se refiere a organismos o muestras que se usan para propósitos comparativos. Preferiblemente, éstos son "normales" en el sentido de que no presentan ninguna indicación de, o no se cree que tengan, ninguna enfermedad o condición que podría influir en la expresión génica, particularmente respecto a la enfermedad para la que van a usarse como el estándar normal. Sin embargo, se apreciará que los diferentes estadios de una enfermedad o condición pueden compararse y en dichos casos, la muestra "normal" puede corresponder al estadio temprano de la enfermedad o condición.

Tal y como se usa en la presente memoria una "muestra" se refiere a cualquier material obtenido del organismo, p. ej. animal humano o no humano que se está investigando que contiene células e incluye, tejidos, fluido corporal o los productos de desecho corporales o en el caso de los organismos procariotas, el organismo en sí mismo. Los "fluidos corporales" incluyen sangre, saliva, fluido espinal, semen, linfa. "Productos de desecho corporales" incluyen orina, materia expectorada (pacientes pulmonares), heces, etc. "Muestras de tejido" incluyen tejido obtenido por biopsia, por intervenciones quirúrgicas o por otros medios p. ej. placenta. Preferiblemente sin embargo, las muestras que se examinan son de áreas del cuerpo no afectadas aparentemente por la enfermedad o condición. Las células en dichas muestras no son células enfermas, p. ej. células cancerosas, no han estado en contacto con dichas células enfermas y no se originan a partir del sitio de la enfermedad o condición. El "sitio de la enfermedad" se considera que es aquella área del cuerpo que manifiesta la enfermedad de una forma que puede determinarse objetivamente, p. ej. un tumor o área de inflamación. Así, por ejemplo, puede usarse sangre periférica para el diagnóstico de cánceres no hematopoyéticos, y la sangre no requiere la presencia de células malignas o diseminadas del cáncer en la sangre. De manera similar, en las enfermedades del cerebro, en las que no se encuentran células enfermas en la sangre debido a la barrera hematoencefálica, también puede usarse sangre periférica en los métodos de la invención. Para llevar a cabo los métodos de la invención, se usan muestras de sangre.

Se apreciará, sin embargo, que el método para preparar el patrón de transcripción estándar y otros métodos descritos en la presente memoria también son aplicables para usarse en partes vivas de organismos eucariotas tales como líneas celulares y cultivos de órganos y explantes.

Tal y como se usa en la presente memoria, la referencia a muestra "correspondiente" etc. se refiere a células preferiblemente del mismo tejido, fluido corporal o producto de desecho corporal, pero también incluye células de tejido, fluido corporal o producto de desecho corporal que son lo suficientemente similares para los propósitos de preparar el patrón estándar o de ensayo. Cuando se usa respecto a genes "correspondientes" a las sondas, esto se refiere a genes que están relacionados por secuencia (que puede ser complementaria) a las sondas aunque las sondas pueden reflejar diferentes productos de expresión de corte y empalme.

"Evaluar" tal y como se usa en la presente memoria se refiere tanto a la evaluación cuantitativa como cualitativa que puede determinarse en términos absolutos o relativos.

Los métodos descritos en la presente memoria y particularmente los métodos de la invención pueden ponerse en práctica como sigue. Para preparar un patrón de transcritos estándar para una enfermedad, condición particular o estadio de ésta, se extrae el ARNm de la muestra de las células de tejidos, fluidos corporales o productos de desecho corporales según técnicas conocidas (véase por ejemplo Sambrook et. al. (1989), Molecular Cloning: A laboratory manual, 2a Ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y.) de un individuo u organismo enfermo.

Debido a las dificultades de trabajar con ARN, el ARN preferiblemente se transcribe de forma inversa en esta etapa para formar ADNc de primera cadena. La clonación del ADNc o la selección de, o el uso de, una biblioteca de ADNc no es sin embargo necesaria en éste u otros métodos descritos en la presente memoria. Preferiblemente, las cadenas complementarias de los ADNc de primera cadena se sintetizan, es decir, ADNc de segunda cadena, pero esto dependerá de las cadenas relativas presentes en las sondas oligonucleotídicas. El ARN puede sin embargo usarse alternativamente directamente sin transcripción inversa y puede marcarse si se requiere.

Preferiblemente, las cadenas de ADNc se amplifican por técnicas de amplificación conocidas tales como la reacción en cadena de la polimerasa (PCR) mediante el uso de cebadores apropiados. Alternativamente, las cadenas de ADNc pueden clonarse con un vector, usarse para transformar una bacteria tal como E. coli que puede crecerse para multiplicar las moléculas de ácido nucleico. Cuando la secuencia de los ADNc no se conoce, los cebadores pueden dirigirse a las regiones de las moléculas de ácido nucleico que se han introducido. Así, por ejemplo, pueden ligarse adaptadores a las moléculas de ADNc y dirigirse los cebadores a estas partes para la amplificación de las moléculas de ADNc. Alternativamente, en el caso de muestras eucariotas, puede aprovecharse la cola poliA y la caperuza del ARN para preparar los cebadores apropiados.

Para producir el patrón de transcritos génicos estándar para diagnóstico o huella para una enfermedad o condición particular o estadio de ésta, se usan las sondas oligonucleotídicas descritas anteriormente como sondas de ARNm o ADNc de la muestra enferma para producir una señal para la hibridación a cada especie de sonda oligonucleotídica particular, es decir cada sonda única. También puede prepararse un patrón de transcritos génicos control estándar si se desea usando ARNm o ADNc de una muestra normal. Así, el ARNm o ADNc se pone en contacto con la sonda oligonucleotídica en condiciones apropiadas para permitir la hibridación.

Cuando se ensayan múltiples muestras, esto puede realizarse consecutivamente usando las mismas sondas, p. ej. en uno o más soportes sólidos, es decir, en módulos de kit de sondas, o hibridando simultáneamente con sondas correspondientes, p. ej. los módulos de un kit de sondas correspondiente.

Para identificar cuando ocurre la hibridación y obtener una indicación del número de moléculas de transcrito/ADNc que se unen a las sondas oligonucleotídicas, es necesario identificar una señal producida cuando los transcritos (o moléculas relacionadas) hibridan (p. ej. por detección de moléculas de ácido nucleico de doble cadena o detección del número de moléculas que se unen, después de eliminar las moléculas no unidas, p. ej. por lavado).

Con el fin de conseguir una señal, uno o los dos componentes que hibridan (es decir, la sonda y el transcrito) portan o forman un medio de señalización o una parte de éste. Este "medio de señalización" es cualquier resto capaz de detección directa o indirecta por la generación o presencia de una señal. La señal puede ser cualquier característica física detectable tal como la conferida por emisión de radiación, propiedades de dispersión o absorción, propiedades magnéticas u otras propiedades físicas tales como propiedades de carga, tamaño o unión de las moléculas existentes (p. ej. marcadores) o moléculas que pueden generarse (p. ej. emisión de gas etc.). Se prefieren las técnicas que permiten la amplificación de la señal, p. ej. que producen múltiples eventos de señal de un único sitio de unión activo, p. ej. por la acción catalítica de enzimas para producir múltiples productos detectables.

Convenientemente, el medio de señalización puede ser un marcador que por sí mismo produce una señal detectable. Convenientemente, esto puede conseguirse por el uso de un marcador radiactivo u otro que puede incorporarse durante la producción del ADNc, la preparación de las cadenas de ADNc complementarias, durante la amplificación del ARNm/ADNc diana o añadirse directamente a las moléculas de ácido nucleico diana.

Los marcadores apropiados son aquellos que permiten directamente o indirectamente la detección o medida de la presencia de los transcritos/ADNc. Dichos marcadores incluyen marcadores radiactivos, marcadores químicos, por ejemplo cromóforos o fluoróforos (p. ej. marcadores tales como fluoresceína y rodamina), o reactivos con una alta densidad electrónica tal como ferritina, hemocianina u oro coloidal. Alternativamente, el marcador puede ser una enzima, por ejemplo peroxidasa o fosfatasa alcalina, en la que la presencia de la enzima se visualiza por su interacción con una entidad adecuada, por ejemplo un sustrato. Este marcador también puede formar parte de una pareja de señalización en la que el otro miembro de la pareja se encuentra en, o muy cerca de, la sonda oligonucleotídica a la que se une el transcrito/ADNc, por ejemplo, puede usarse un compuesto fluorescente y un sustrato apagador de la fluorescencia. También puede proporcionarse un marcador en una entidad diferente, tal como un anticuerpo, que reconoce un resto peptídico unido a los transcritos/ADNc, por ejemplo unido a una base usada durante la síntesis o amplificación.

Puede conseguirse una señal por la introducción de un marcador antes, durante o después de la etapa de hibridación. Alternativamente, la presencia de transcritos que hibridan puede identificarse por otras propiedades físicas, tales como su absorbancia, y en cuyo caso el medio de señalización es el complejo en sí mismo.

Se evalúa la cantidad de señal asociada con cada sonda oligonucleotídica. La evaluación puede ser cuantitativa o cualitativa y puede basarse en la unión de una única especie de transcrito (o ADNc relacionado u otros productos) a cada sonda o la unión de múltiples especies de transcrito a múltiples copias de cada sonda única. Se apreciará que los resultados cuantitativos proporcionarán más información para la huella del transcrito de la enfermedad que se está recopilando. Estos datos pueden expresarse como valores absolutos (en el caso de macromatrices) o pueden determinarse respecto a un estándar o referencia particular p. ej. una muestra normal control.

Además, se apreciará que el patrón de transcritos génicos estándar para diagnóstico puede prepararse usando una o más muestras enfermas (y muestras normales si se usan) para realizar la etapa de hibridación para obtener patrones sin tendencia hacia las variaciones de la expresión génica de un individuo particular.

El uso de las sondas para preparar patrones estándar y los patrones de transcritos génicos estándar para diagnóstico así producidos para el propósito de identificación o diagnóstico o monitorización de una enfermedad o condición particular o estadio de ésta en un organismo particular forma una descripción adicional de la descripción.

Una vez que se ha determinado una huella o patrón estándar para diagnóstico para una enfermedad o condición particular usando las sondas oligonucleotídicas seleccionadas, esta información puede usarse para identificar la presencia, ausencia o grado o estadio de esa enfermedad o condición en un organismo o individuo de ensayo diferente.

Para examinar el patrón de expresión génica de una muestra de ensayo, se obtiene de un paciente o del organismo que se va a estudiar una muestra de ensayo de tejido, fluido corporal o productos de desecho corporales que contienen células, correspondiente a la muestra usada para la preparación del patrón estándar. Se prepara un patrón de transcritos génicos de ensayo como se ha descrito anteriormente en la presente memoria como para el patrón estándar.

Por lo tanto, se describe un método para preparar un patrón de transcritos génicos de ensayo que comprende al menos las etapas de:

a) aislar el ARNm de las células de una muestra de dicho organismo de ensayo, que puede opcionalmente transcribirse de forma inversa a ADNc;

b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit como ha descrito anteriormente en la presente memoria específicos para una enfermedad o condición o estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y

c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir dicho patrón que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos, en dicha muestra de ensayo.

Respecto a la invención, la presente invención proporciona dicho método usando muestras de sangre para preparar un patrón de transcritos de ensayo mediante la unión a oligonucleótidos específicos para cáncer de mama o enfermedad de Alzheimer o un estadio de éstas. Así, en un aspecto preferido más, la invención proporciona un método para preparar un patrón de transcritos génicos de ensayo que comprende al menos las etapas de:

a) aislar el ARNm de las células de una muestra de sangre de dicho organismo de ensayo, que puede opcionalmente transcribirse de forma inversa a ADNc;

b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit de la invención como se ha descrito anteriormente en la presente memoria específicos para cáncer de mama o un estadio de éste en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando o con un conjunto de oligonucleótidos o un kit de la invención como se ha descrito anteriormente en la presente memoria específicos para la enfermedad de Alzheimer o un estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y

c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir dicho patrón que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos, en dicha muestra de ensayo, en el que los oligonucleótidos específicos para cáncer de mama o un estadio de éste son como se muestran en la Tabla 2b y los oligonucleótidos específicos para la enfermedad de Alzheimer o un estadio de ésta son como se muestran en la Tabla 4b.

Este patrón de ensayo puede compararse con uno o más patrones estándar para evaluar si la muestra contiene células que tienen la enfermedad, condición o estadio de ésta.

Por lo tanto, se describe un método adicional para diagnosticar o identificar o monitorizar una enfermedad o condición o estadio de ésta en un organismo, que comprende las etapas de:

a) aislar el ARNm de las células de una muestra de dicho organismo, que puede opcionalmente transcribirse de forma inversa a ADNc;

b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit como ha descrito anteriormente en la presente memoria específicos para dicha enfermedad o condición o estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando;

c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir un patrón característico que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos, en dicha muestra; y

d) comparar dicho patrón con un patrón estándar de diagnóstico preparado según el método descrito en la presente memoria usando una muestra de un organismo correspondiente al organismo y muestra que se está investigando para determinar la presencia de dicha enfermedad o condición o un estadio de ésta en el organismo que se está investigando.

El método hasta e incluyendo la etapa c) es la preparación de un patrón de ensayo como se ha descrito anteriormente.

Respecto a la invención, la presente invención proporciona un método usando muestras de sangre para preparar un patrón de transcritos de ensayo mediante la unión a oligonucleótidos específicos para cáncer de mama o enfermedad de Alzheimer o un estadio de éstas, para comparación con un patrón estándar de diagnóstico preparado como se ha descrito anteriormente en la presente memoria.

Así, en aún otro aspecto preferido, la invención proporciona un método para diagnosticar o identificar o monitorizar cáncer de mama o enfermedad de Alzheimer o un estadio de éstas en un organismo, que comprende las etapas de:

a) aislar el ARNm de las células de una muestra de sangre de dicho organismo, que puede opcionalmente transcribirse de forma inversa a ADNc;

b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos de la invención como se ha descrito anteriormente en la presente memoria específicos para cáncer de mama o un estadio de éste en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando o con un conjunto de oligonucleótidos o un kit de la invención como se ha descrito anteriormente en la presente memoria específicos para la enfermedad de Alzheimer o un estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y

c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir un patrón característico que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos en dicha muestra; y

d) comparar dicho patrón con un patrón estándar de diagnóstico preparado como se ha descrito según la invención anteriormente en la presente memoria usando una muestra de un organismo correspondiente al organismo y muestra que se está investigando para determinar el grado de correlación indicativo de la presencia de cáncer de mama o enfermedad de Alzheimer o un estadio de éstas en el organismo que se está investigando, en el que los oligonucleótidos específicos para cáncer de mama o un estadio de éste son como se muestran en la Tabla 2b y los oligonucleótidos específicos para la enfermedad de Alzheimer o un estadio de ésta son como se muestran en la Tabla 4b.

Tal y como se refiere en la presente memoria, "diagnóstico" se refiere a la determinación de la presencia o existencia de una enfermedad o condición o estadio de ésta en un organismo.

"Monitorizar" se refiere a establecer la magnitud de una enfermedad o condición, particularmente cuando se sabe que un individuo padece una enfermedad o condición, por ejemplo para monitorizar los efectos del tratamiento o el desarrollo de una enfermedad o condición, p. ej. para determinar la idoneidad de un tratamiento o para proporcionar un pronóstico.

La presencia de la enfermedad o condición o estadio de ésta puede determinarse determinando el grado de correlación entre los patrones de las muestras estándar y de ensayo. Esto necesariamente tiene en cuenta el intervalo de valores que se obtienen a partir de muestras normales y enfermas. Aunque esto puede establecerse obteniendo las desviaciones estándar para varias muestras representativas que se unen a las sondas para desarrollar el estándar, se apreciará que muestra únicas pueden ser suficientes para generar el patrón estándar para identificar una enfermedad si la muestra de ensayo presenta una correlación lo suficientemente próxima a ese estándar. Convenientemente, la presencia, ausencia o magnitud de la enfermedad o condición o estadio de ésta en una muestra de ensayo puede predecirse insertando los datos respecto al nivel de expresión de sondas informativas en la muestra de ensayo en el patrón de sondas estándar de diagnóstico establecido según la ecuación 1.

Los datos generados usando los métodos mencionados anteriormente pueden analizarse usando varias técnicas desde la representación visual más básica (p. ej. respecto a la intensidad) hasta manipulaciones de datos más complejas para identificar los patrones subyacentes que reflejan la relación del nivel de expresión de cada gen a los que se unen las diferentes sondas, que puede cuantificarse y expresarse matemáticamente. Convenientemente, los datos en bruto así generados pueden manipularse por los métodos de procesamiento de datos y estadísticos descritos más adelante en la presente memoria, particularmente normalizando y estandarizando los datos y ajustando los datos a un modelo de clasificación para determinar si dichos datos de ensayo reflejan el patrón de una enfermedad o condición particular o estadio de ésta.

Los métodos descritos en la presente memoria pueden usarse para identificar, monitorizar o diagnosticar una enfermedad, condición o dolencia o su estadio o progresión, para las que son informativas las sondas oligonucleotídicas. Sondas "informativas" como se describe en la presente memoria, son aquellas que reflejan genes que tienen una expresión alterada en las enfermedades o condiciones en cuestión, o estadios particulares de éstas. Las sondas como se describe en la presente memoria pueden no ser lo suficientemente informativas para propósitos de diagnóstico cuando se usan solas, pero son informativas cuando se usan como una de varias sondas para proporcionar un patrón característico, p. ej. en un conjunto como se ha descrito anteriormente en la presente memoria.

Preferiblemente, dichas sondas corresponden a genes que están sistemáticamente afectados por dicha enfermedad, condición o estadio de ésta. De forma especialmente preferida, dichos genes, a partir de los que se obtienen los transcritos que se unen a las sondas, son genes metabólicos o de mantenimiento y preferiblemente se expresan de manera moderada o alta. La ventaja de usar sondas dirigidas a genes expresados de manera moderada o alta es que se requieren menos muestras clínicas para generar el conjunto de datos necesario de expresión génica, p. ej. menos de 1ml de muestras de sangre.

Además, se ha encontrado que dichos genes que ya se transcriben activamente tienden a ser más susceptibles a la influencia, en un modo positivo o negativo, de nuevos estímulos. Además, como los transcritos ya se producen a niveles que son generalmente detectables, los cambios pequeños en esos niveles son fácilmente detectables como por ejemplo, no se necesita alcanzar un umbral determinado detectable.

Preferiblemente, el conjunto de sondas descrito en la presente memoria es informativo para varias enfermedades, condiciones diferentes o estadios de éstas. Puede usarse un subconjunto de las sondas descritas en la presente memoria para el diagnóstico, identificación o monitorización de una enfermedad, condición particular o estadio de ésta.

Así, las sondas pueden usarse para diagnosticar o identificar o monitorizar cualquier condición, dolencia, enfermedad o reacción que da lugar al incremento o a la disminución relativos de la actividad de genes informativos de cualquiera o todos los organismos eucariotas o procariotas independientemente de si estos cambios han sido causados por la influencia de bacterias, virus, priones, parásitos, hongos, radiación, toxinas naturales o artificiales, fármacos o alergenos, incluyendo condiciones mentales debidas al estrés, neurosis, psicosis o deterioros debidos al envejecimiento del organismo, y condiciones o enfermedades de causa desconocida, siempre que un subconjunto de sondas como se describe en la presente memoria sea informativo para dicha enfermedad o condición o estadio de ésta.

Dichas enfermedades incluyen las que resultan en cambios metabólicos o fisiológicos, tales como enfermedades asociadas con fiebre tales como gripe o malaria. Otras enfermedades que pueden detectarse incluyen por ejemplo fiebre amarilla, enfermedades transmitidas sexualmente tales como gonorrea, fibromialgia, complejo relacionado con cándida, cáncer (por ejemplo del estómago, pulmón, mama, glándula de la próstata, intestino, piel, colon, ovario etc), enfermedad de Alzheimer, enfermedad causada por retrovirus tales como VIH, demencia senil, esclerosis múltiple y enfermedad de Creutzfeldt-Jakob por mencionar algunas.

Los métodos descritos en la presente memoria también pueden usarse para identificar pacientes con enfermedades psiquiátricas o psicosomáticas tales como esquizofrenia y trastornos de la alimentación. Es de particular importancia el uso de este método para detectar enfermedades, condiciones o estadios de ésta, que no son fácilmente detectables por los métodos de diagnóstico conocidos, tales como VIH que generalmente no es detectable usando las técnicas conocidas 1 a 4 meses después de la infección. Las condiciones que pueden identificarse incluyen por ejemplo abuso de drogas, tal como el uso de narcóticos, alcohol, esteroides y fármacos que incrementan el rendimiento.

Preferiblemente, dicha enfermedad que se va a identificar o monitorizar es un cáncer o un trastorno cerebral degenerativo (tal como enfermedad de Alzheimer o de Parkinson).

En particular, un conjunto de sondas oligonucleotídicas, en el que dicho conjunto comprende al menos 10 oligonucleótidos seleccionados de:

un oligonucleótido como se describe en la Tabla 4 o un

oligonucleótido derivado de éste o un

oligonucleótido con una secuencia complementaria, o un

oligonucleótido funcionalmente equivalente,

puede usarse para el diagnóstico o identificación o monitorización de la progresión de la enfermedad de Alzheimer. De manera similar, las sondas de la Tabla 2 y las sondas obtenidas de la Tabla 2 y sus equivalentes funcionales pueden usarse para diagnosticar, identificar o monitorizar la progresión del cáncer de mama. De forma especialmente preferida, las sondas usadas para el análisis del cáncer de mama se seleccionan tomando como base su incidencia como se muestra en la Tabla 3 y como se ha descrito anteriormente en la presente memoria.

El método de diagnóstico puede usarse solo como una alternativa a otras técnicas de diagnóstico o además de dichas técnicas. Por ejemplo, los métodos como se describe en la presente memoria pueden usarse como una medida de diagnóstico alternativa o aditiva para el diagnóstico usando técnicas de imagen tal como Imagen por Resonancia Magnética (MRI), imagen por ultrasonidos, imagen nuclear o imagen por rayos X, por ejemplo en la identificación y/o diagnóstico de tumores.

Los métodos descritos en la presente memoria pueden realizarse en células de organismos procariotas o eucariotas que pueden ser cualquier organismo eucariota tal como seres humanos, otros mamíferos y animales, pájaros, insectos, peces y plantas, y cualquier organismo procariota tal como una bacteria.

Los animales no humanos preferidos en los que pueden realizarse los métodos descritos en la presente memoria incluyen, pero no están limitados a mamíferos, particularmente primates, animales domésticos, ganado y animales de laboratorio. Así, los animales preferidos para diagnóstico incluyen ratones, ratas, cobayas, gatos, perros, cerdos, vacas, cabras, ovejas, caballos. De forma particularmente preferida, se diagnostica, identifica o monitoriza el estadio o condición patológica de seres humanos.

Como se ha descrito anteriormente, la muestra en estudio puede ser cualquier muestra conveniente que puede obtenerse de un organismo. Preferiblemente, sin embargo, como se ha mencionado anteriormente, la muestra se obtiene de un sitio distante del sitio de la enfermedad y las células de dichas muestras no son células enfermas, no han estado en contacto con dichas células y no se originan del sitio de la enfermedad o condición. En dichos casos, aunque preferiblemente están ausentes, la muestra puede contener células que no cumplan estos criterios. Sin embargo, como las sondas descritas en la presente memoria están relacionadas con transcritos cuya expresión está alterada en células que no satisfacen estos criterios, las sondas están específicamente dirigidas a detectar cambios en los niveles de transcritos en esas células incluso en presencia de otras células de fondo.

Se ha encontrado que las células de dichas muestras muestran variaciones significativas e informativas en la expresión génica de un gran número de genes. Así, puede encontrarse que la misma sonda (o varias sondas) son informativas en determinaciones respecto a dos o más enfermedades, condiciones o estadios de ésta gracias al nivel de transcritos particular que se une a esa sonda o la relación de la magnitud de unión a esa sonda respecto a otras sondas. Consecuentemente, es posible usar un número relativamente pequeño de sondas para cribar múltiples trastornos o enfermedades. Esto tiene consecuencias respecto a la selección de sondas, discutida en relación con la identificación aleatoria de sondas más adelante en la presente memoria, pero también para el uso de un único conjunto de sondas para más de un diagnóstico. La Tabla 9 describe sondas que son informativas tanto para la enfermedad de Alzheimer como para el cáncer de mama.

Así, también se describen conjuntos de sondas para diagnosticar, identificar o monitorizar dos o más enfermedades, condiciones o estadios de ésta, en el que al menos una de dichas sondas es adecuada para dicho diagnóstico, identificación o monitorización de al menos dos de dichas enfermedades, condiciones o estadios de éstas, y kits y métodos para usar las mismas. Preferiblemente, se usan al menos 5 sondas, p. ej. de 5 a 15 sondas, en al menos dos diagnósticos.

Así, también se describe un método de diagnóstico o identificación o monitorización como se ha descrito anteriormente en la presente memoria para el diagnóstico, identificación o monitorización de dos o más enfermedades, condiciones o estadios de éstas en un organismo, en el que dicho patrón de ensayo producido en la etapa c) del método de diagnóstico se compara en la etapa d) con al menos dos patrones estándar de diagnóstico preparados como se ha descrito anteriormente, en el que cada patrón estándar de diagnóstico es un patrón generado para una enfermedad o condición o estadio de ésta diferente.

Aunque en un aspecto preferido los métodos de evaluación se refieren al desarrollo de un patrón de transcritos génicos a partir de una muestra de ensayo y en la comparación del mismo con un patrón estándar, la elevación o depresión de la expresión de determinados marcadores también puede examinarse mediante el examen de los productos de expresión y el nivel de estos productos. Así, puede generarse un patrón estándar respecto al producto expresado.

En dichos métodos, se analizan los niveles de expresión de un conjunto de polipéptidos codificados por el gen al que se une un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1. Pueden usarse varios métodos de diagnóstico para evaluar la cantidad de polipéptidos (o fragmentos de éstos) que están presentes. Puede examinarse la presencia o concentración de polipéptidos, por ejemplo, por el uso de una pareja de unión de dicho polipéptido (p. ej. un anticuerpo), que puede inmovilizarse, para separar dicho polipéptido de la muestra y puede determinarse la cantidad de polipéptido.

Los "fragmentos" de los polipéptidos se refiere a un dominio o región de dicho polipéptido, p. ej. un fragmento antigénico, que es reconocible como derivado de dicho polipéptido para permitir la unión de una pareja de unión específica. Preferiblemente, dicho fragmento comprende una parte significativa de dicho polipéptido y corresponde a un producto del procesamiento postsintético normal.

Así, también se describe en la presente memoria un método para preparar un patrón de transcritos génicos estándar característico de una enfermedad o condición o estadio de ésta en un organismo que comprende al menos las etapas de:

a) liberar los polipéptidos diana de una muestra de uno o más organismos que tienen la enfermedad o condición o estadio de ésta;

b) poner en contacto dichos polipéptidos diana con una o más parejas de unión, en el que cada pareja de unión es específica de un polipéptido marcador (o un fragmento de éste) codificado por el gen al que se une un oligonucleótido de la Tabla 1 (u obtenido de una secuencia descrita en la Tabla 1), para permitir la unión de dichas parejas de unión a dichos polipéptidos diana, en el que dichos polipéptidos marcadores son específicos para dicha enfermedad o condición en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y

c) evaluar la unión del polipéptido diana a dichas parejas de unión para producir un patrón característico que refleja el nivel de expresión génica de los genes que expresan dichos polipéptidos marcadores, en la muestra con la enfermedad, condición o estadio de ésta.

Tal y como se usa en la presente memoria, "polipéptidos diana" se refiere a aquellos polipéptidos presentes en una muestra que se van a detectar y "polipéptidos marcadores" son polipéptidos que están codificados por los genes a los que se unen los oligonucleótidos de la Tabla 1 o los oligonucleótidos obtenidos de la Tabla 1. Los polipéptidos diana y marcadores son idénticos o al menos tienen áreas de gran similitud, p. ej. regiones epitópicas para permitir el reconocimiento y unión de la pareja de unión.

"Liberación" de los polipéptidos diana se refiere al tratamiento apropiado de una muestra para proporcionar los polipéptidos en una forma accesible para la unión de las parejas de unión, p. ej. por lisis de las células en las que éstos están presentes. Las muestras usadas en este caso no comprenden necesariamente células ya que los polipéptidos diana pueden liberarse de las células en los tejidos o fluidos circundantes y este tejido o fluido puede analizarse, p. ej. orina o sangre. Preferiblemente, sin embargo, se usan las muestras preferidas como se describe en la presente memoria. "Parejas de unión" comprenden las entidades independientes que conjuntamente constituyen una pareja de unión por afinidad como se ha descrito anteriormente, en la que un componente de la pareja de unión es la diana o polipéptido marcador y el otro componente se une específicamente a ese polipéptido, p. ej. un anticuerpo.

Pueden preverse varias estrategias para detectar la cantidad de parejas de unión que se forman. En su forma más sencilla, puede usarse un ensayo de tipo sandwich p. ej. un inmunoensayo tal como un ELISA, en el que un anticuerpo específico para el polipéptido y que contiene un marcador (como se ha descrito en otra parte en la presente memoria) puede unirse a la pareja de unión (p. ej. la pareja de primer anticuerpo:polipéptido) y detectarse la cantidad de mar-
caje.

Otros métodos descritos en la presente memoria pueden modificarse de manera similar para el análisis del producto proteico de la expresión en lugar del transcrito génico y moléculas de ácido nucleico relacionadas.

Así, la presente descripción describe un método para preparar un patrón de transcritos génicos de ensayo que comprende al menos las etapas de:

a) liberar los polipéptidos diana de una muestra de dicho organismo de ensayo;

c) evaluar la unión del polipéptido diana a dichas parejas de unión para producir un patrón característico que refleja el nivel de expresión génica de los genes que expresan dichos polipéptidos marcadores, en dicha muestra de ensayo.

También se describe un método para diagnosticar o identificar o monitorizar una enfermedad o condición o estadio de ésta en un organismo que comprende las etapas de:

a) liberar los polipéptidos diana de una muestra de dicho organismo;

c) evaluar la unión del polipéptido diana a dichas parejas de unión para producir un patrón característico que refleja el nivel de expresión génica de los genes que expresan dichos polipéptidos marcadores, en dicha muestra; y

d) comparar dicho patrón con un patrón estándar de diagnóstico preparado como se ha descrito anteriormente en la presente memoria usando una muestra de un organismo correspondiente al organismo y muestra que se están investigando para determinar el grado de correlación indicativo de la presencia de dicha enfermedad o condición o un estadio de ésta en el organismo que se está investigando.

Los métodos para generar patrones estándar y de ensayo y las técnicas de diagnóstico se basan en el uso de sondas oligonucleotídicas informativas para generar los datos de expresión génica. En algunos casos, será necesario seleccionar estas sondas informativas para un método particular, p. ej. para diagnosticar una enfermedad particular, a partir de una selección de sondas disponibles, p. ej. las sondas descritas anteriormente en la presente memoria (los oligonucleótidos de la Tabla 1, los oligonucleótidos obtenidos de la Tabla 1, sus secuencias complementarias y los oligonucleótidos funcionalmente equivalentes). La metodología siguiente describe un método conveniente para identificar dichas sondas informativas, o más particularmente cómo seleccionar un subconjunto adecuado de sondas a partir de las sondas descritas en la presente memoria.

Las sondas para el análisis de una enfermedad o condición particular o estadio de ésta, pueden identificarse de varias maneras conocidas en la técnica anterior, incluyendo por expresión diferencial o por sustracción de bibliotecas (véase por ejemplo WO98/49342). Como se describe más adelante en la presente memoria, a la vista del alto contenido informativo de la mayoría de los transcritos, como punto de partida se puede analizar simplemente un subconjunto al azar de especie de ARNm o ADNc y elegir las sondas más informativas a partir de ese subconjunto. El método siguiente describe el uso de sondas oligonucleotídicas inmovilizadas (p. ej. las sondas descritas anteriormente en la presente memoria) a las que se une ARNm (o moléculas relacionadas) de diferentes muestras para identificar qué sondas son las más informativas para identificar un tipo particular de muestra, p. ej. una muestra enferma.

Las sondas inmovilizadas pueden obtenerse de varios organismos no relacionados o relacionados; el único requerimiento es que las sondas inmovilizadas deben unirse específicamente a sus parejas homólogas en el organismo de ensayo. Las sondas también pueden obtenerse a partir de bases de datos disponibles comercialmente o públicas e inmovilizarse en soportes sólidos o, como se ha mencionado anteriormente, pueden elegirse al azar y aislarse a partir de una biblioteca de ADNc e inmovilizarse en un soporte sólido.

La longitud de las sondas inmovilizadas en el soporte sólido debe ser lo suficientemente larga para permitir la unión específica a las secuencias diana. Las sondas inmovilizadas pueden estar en la forma de ADN, ARN o sus productos modificados o PNA (ácidos nucleicos peptídicos). Preferiblemente, las sondas inmovilizadas deben unirse específicamente a sus parejas homólogas que representan genes expresados de forma alta y moderada en los organismos de ensayo. Convenientemente, las sondas que se usan son las sondas descritas en la presente memoria.

El patrón de expresión génica de las células en muestras biológicas puede generarse usando técnicas de la técnica anterior tales como micromatriz o macromatriz como se describe más adelante o usando los métodos descritos en la presente memoria. Ahora se han desarrollado varias técnicas para monitorizar el nivel de expresión de un gran número de genes simultáneamente en muestras biológicas, tales como, oligomatrices de alta densidad (Lockhart et al., 1996, Nat. Biotech., 14, p1675-1680), micromatrices de ADNc (Schena et al, 1995, Science, 270, p467-470) y macromatrices de ADNc (Maier E et al., 1994, Nucl. Acids Res., 22, p3423-3424; Bernard et al., 1996, Nucl. Acids Res., 24, p1435-1442).

En las oligomatrices de alta densidad y en las micromatrices de ADNc se extienden cientos a miles de sondas oligonucleotídicas o ADNc en portaobjetos de vidrio o membranas de nilón, o se sintetizan en biochips. El ARNm aislado de las muestras de ensayo y de referencia se marcan por transcripción inversa con un marcador fluorescente rojo o verde, se mezclan y se hibridan a la micromatriz. Después de lavar, los marcadores fluorescentes unidos se detectan por un láser, produciendo dos imágenes, una para cada marcador. La relación resultante de las manchas roja y verde en las dos imágenes proporciona información acerca de los cambios en los niveles de expresión de los genes en las muestras de ensayo y de referencia. Alternativamente, también pueden realizarse estudios en micromatrices de un único canal o múltiples canales.

En la macromatriz de ADNc, se extienden diferentes ADNc en un soporte sólido tal como membranas de nilón en exceso respecto a la cantidad de ARNm de ensayo que pueden hibridar con cada mancha. El ARNm aislado de las muestras de ensayo se marca radiactivamente por transcripción inversa y se hibrida con la sonda de ADNc inmovilizada. Después de lavar, las señales asociadas con los marcajes que hibridan específicamente con la sonda de ADNc inmovilizada se detectan y cuantifican. Los datos obtenidos en macromatriz contienen información acerca de los niveles relativos de transcritos presentes en las muestras de ensayo. Mientras que las macromatrices son sólo adecuadas para monitorizar la expresión de un número limitado de genes, las micromatrices pueden usarse para monitorizar la expresión de varios miles de genes simultáneamente y es, por lo tanto, una elección preferida para estudios de expresión génica a gran escala.

Una técnica de macromatriz para generar el conjunto de datos de expresión génica se ha usado para ilustrar el método de identificación de sondas descrito en la presente memoria. Para este propósito, se aísla el ARNm de muestras de interés y se usa para preparar moléculas diana marcadas, p. ej. ARNm o ADNc como se ha descrito anteriormente. Las moléculas diana marcadas se hibridan con sondas inmovilizadas en el soporte sólido. Pueden usarse varios soportes sólidos para el propósito, como se ha descrito anteriormente. Después de la hibridación, las moléculas diana no unidas se eliminan y se cuantifican las señales de las moléculas diana que hibridan con las sondas inmovilizadas. Si se realiza un marcaje con radiactividad, puede usarse PhosphoImager para generar un archivo de imágenes que puede usarse para generar un conjunto de datos en bruto. Dependiendo de la naturaleza del marcador elegido para marcar las moléculas diana, también pueden usarse otros instrumentos, por ejemplo, cuando se usa fluorescencia para el marcaje, puede usarse un FluoroImager para generar un archivo de imágenes a partir de las moléculas diana que hibridan.

Los datos en bruto correspondientes a la intensidad media, intensidad mediana, o volumen de las señales en cada mancha pueden adquirirse a partir del archivo de imágenes usando programas informáticos disponibles comercialmente para el análisis de imágenes. Sin embargo, los datos adquiridos necesitan ser corregidos respecto a las señales de fondo y normalizarse antes de los análisis, ya que varios factores pueden influir en la calidad y cantidad de las señales de hibridación. Por ejemplo, las variaciones en la calidad y cantidad de ARNm aislado de muestra a muestra, pequeñas variaciones en la eficacia del marcaje de las moléculas diana durante cada reacción, y variaciones en la cantidad de unión inespecífica entre diferentes macromatrices pueden contribuir al ruido en el conjunto de datos adquirido que debe corregirse antes de los análisis.

La corrección de fondo puede realizarse de varias maneras. La menor intensidad de píxel en una mancha puede usarse para la sustracción de fondo o la media o mediana de la línea de píxeles alrededor de la línea exterior de la mancha pueden usarse para el propósito. También se puede definir un área que representa la intensidad de fondo tomando como base las señales generadas a partir de controles negativos y usar la intensidad promedio de esta área para la sustracción del fondo.

Los datos corregidos por el fondo pueden transformarse para estabilizar la varianza en la estructura de los datos y normalizarse para las diferencias en la intensidad de las sondas. En la bibliografía se han descrito varias técnicas de transformación y puede encontrarse una breve revisión en Cui, Kerr y Churchill http://www.jax.org/research/churchill/
research/expression/Cui-Transform.pdf). La normalización puede realizarse dividiendo la intensidad de cada mancha por la intensidad colectiva, intensidad promedio o intensidad mediana de todas las manchas en una macromatriz o un grupo de manchas en una macromatriz con el fin de obtener la intensidad relativa de las señales que hibridan con las sondas inmovilizadas en una macromatriz. Se han descrito varios métodos para normalizar los datos de expresión génica (Richmond y Somerville, 2000, Current Opin. Plant Biol., 3, p108-116; Finkelstein et al., 2001, En ``Methods of Microarray Data Analysis. Papers de CAMDA, Eds. Lin y Johnsom, Kluwer Academic, p57-68; Yang et al., 2001, En "Optical Technologies and Informatics", Eds. Bittner, Chen, Dorsel y Dougherty, Proceedings of SPIE, 4266, p141-152; Dudoit et al, 2000, J. Am. Stat. Ass., 97, p77-87; Alter et al 2000, supra; Newton et al., 2001, J. Comp. Biol., 8, p37-52). Generalmente, se calcula en primer lugar un factor o función de escalado para corregir el efecto de intensidad y se usa para normalizar las intensidades. El uso de controles externos también se ha sugerido para mejorar la normalización.

Otro reto importante encontrado en los análisis de expresión génica a gran escala es la estandarización de los datos recogidos de experimentos realizados a diferentes tiempos. Hemos observado que los datos de expresión génica para muestras adquiridas en el mismo experimento pueden compararse eficazmente después de la corrección del fondo y la normalización. Sin embargo, los datos de muestras adquiridos en experimentos realizados en tiempos diferentes requieren una estandarización adicional antes del análisis. Esto es porque las pequeñas diferencias en los parámetros experimentales entre experimentos diferentes, por ejemplo, diferencias en la calidad y cantidad de ARNm extraído a diferentes tiempos, diferencias en el tiempo usado para el marcaje de la molécula diana, tiempo de hibridación o tiempo de exposición, pueden influir en los valores medidos. Además, factores tales como la naturaleza de la secuencia de transcritos que se está investigando (su contenido en GC) y su cantidad respecto a las otras determina cómo son influidas por pequeñas variaciones en los procesos experimentales. Determinan, por ejemplo, cómo se transcriben y marcan de eficazmente los ADNc de primera cadena, correspondientes a un transcrito particular, durante la síntesis de la primera cadena, o cómo se unen de eficazmente las moléculas diana marcadas correspondientes a sus secuencias complementarias durante la hibridación. Las diferencias entre lotes en el proceso de impresión es también un factor importante para la variación en los datos de expresión generados.

El no tratar y rectificar apropiadamente estas influencias da lugar a situaciones en las que las diferencias entre las series experimentales pueden ocultar la información principal de interés contenida en el conjunto de datos de expresión génica, es decir, las diferencias en los datos combinados de las diferentes series experimentales. La Figura 1 proporciona uno de dichos ejemplos mostrando una clasificación basada en Análisis de Componentes Principales (PCA) de datos combinados de dos series experimentales en el que el objetivo principal es distinguir entre pacientes Alzheimer/no Alzheimer.

PCA (también conocido como descomposición en valores singulares) es una técnica para estudiar las interdependencias y relaciones subyacentes de un conjunto de variables. Los datos se modelan en términos de unos pocos factores significativos o componentes principales (PC), más residuales. Los PC contienen el fenómeno principal y definen la variabilidad sistemática presente en los datos, mientras que los residuales representan la variabilidad interpretada como ruido. Los detalles de PCA pueden encontrarse en Jollife (1986, Principal Component Analysis, Springer-Verlag, NY) y Jackson (1991, A User's Guide to Principal Components, Wiley, NY). Los resultados de la Figura 1 muestran que se forman dos grupos que representan los datos de dos series experimentales en lugar de la diferenciación Alzheimer/no Alzheimer. Hubo ocho muestras en común entre las dos series de experimentos, que idealmente deberían haber estado incluidas en la parte superior, o muy cerca, una de la otra si estuvieran estandarizadas apropiadamente.

Ahora hemos encontrado que los datos de expresión génica entre experimentos diferentes pueden estandarizarse eficazmente incluyendo un subconjunto de muestras de una serie experimental en la siguiente serie experimental y usando un método de estandarización directo (DS), descrito originalmente por Wang y Kowalski (Anal. Chem., 1991, 63, p2750 y J. Chemometrics, 1991, 5, p129-145). Aunque el método de DS es muy conocido en el campo de la química analítica, no se describe ni usa en el campo del análisis de los datos de expresión génica.

En DS, los datos secundarios que representan por ejemplo la serie experimental 2 (medidas secundarias, R_{2}) se corrigen para ajustarse a los datos medidos en las mediciones primarias que representan los datos de la serie 1 (R_{1}), mientras que el modelo de calibración permanece invariable. En DS, las matrices de respuesta para ambas series experimentales se relacionan entre sí por una matriz de transformación F, es decir,

2000

En la que F es una matriz cuadrada dimensionada gen por gen. De (1), se calcula la matriz de transformación como:

2001

La matriz de transformación F en la ecuación (2) se calcula usando un subconjunto de muestras relativamente pequeño que se miden tanto en las serie de datos primaria como secundaria.

Finalmente, la respuesta de la muestra desconocida medida en la serie secundaria r^{T}_{2,un}, se estandariza al vector de respuesta 2002 esperado de la serie primaria

2003

A partir de la ecuación anterior puede verse que la columna i de la matriz de transformación contiene los factores de multiplicación para un conjunto de genes medidos en la serie secundaria para obtener la intensidad en la mancha i de la serie corregida.

El número de muestras que se repiten en las series experimentales, R_{1} y R_{2}, deben ser iguales a sus rangos, que en este caso es igual al número de componentes principales retenido para explicar la variación en R_{1} y R_{2}. Por ejemplo, si se retienen tres componentes principales para explicar la variación en el conjunto de datos, un mínimo de tres muestras debe repetirse entre R_{1} y R_{2}. Las muestras que deben repetirse entre diferentes series deben ser idealmente aquellas que presentan apalancamientos altos en el patrón de expresión génica. En determinados momentos, dos muestras pueden ser suficientes, mientras que en otros momentos, deben incluirse más de dos muestras idealmente para una buena representatividad. En algunos casos, las muestras seleccionadas pueden ser las mismas en todas las series experimentales que se van a comparar (muestras de referencia), mientras que en otros casos, pueden seleccionarse muestras representativas secuencialmente mediante el análisis del patrón de expresión después de cada experimento. Las muestras seleccionadas con apalancamientos altos se incluyen en la siguiente serie experimental. Los resultados usando Estandarización Directa se muestran en la Figura 1.

Otra estrategia para normalizar y estandarizar el conjunto de datos de expresión génica es hibridar cada matriz de ADN con las moléculas diana preparadas a partir de una muestra de ensayo y una cantidad igual de moléculas diana marcadas preparadas a partir de muestras de referencia representativas. Con el fin de medir la intensidad de las moléculas diana marcadas que hibridan con las sondas inmovilizadas es necesario que las moléculas marcadas se preparen a partir de muestras de ensayo y de referencia usando diferentes marcadores, por ejemplo, pueden usarse marcadores fluorescentes diferentes para preparar el material marcado. Las moléculas marcadas preparadas a partir de muestras de referencia pueden añadirse a la disolución de hibridación junto con el material marcado preparado a partir de las muestras de ensayo. Puede obtenerse un archivo de datos de cada matriz que representa el patrón de expresión de los diferentes genes en la muestra de ensayo y muestras de referencia, normalizado y estandarizado por el método de estandarización directa como se ha descrito anteriormente. Una ventaja instantánea de incluir las moléculas diana marcadas de forma diferente a partir de las muestras de referencia durante la hibridación es que permite una comparación eficaz de muestras de ensayo nuevas con los conjuntos de datos ya almacenados en una base de datos.

La monitorización de la expresión de un gran número de genes en varias muestras da lugar a la generación de una gran cantidad de datos que es demasiado compleja para interpretarse fácilmente. Se ha mostrado que varias técnicas de análisis de datos multivariante no supervisadas y supervisadas son útiles en la extracción de información biológica importante de estos grandes conjuntos de datos. El análisis de conglomerados es con mucho la técnica más comúnmente usada para el análisis de expresión génica, y se ha realizado para identificar genes que están regulados de una manera similar, y o para identificar clases de tumores nuevas/no conocidas usando perfiles de expresión génica (Eisen et al., 1998, PNAS, 95, p14863-14868, Alizadeh et al. 2000, supra, Perou et al., 2000, Nature, 406, p747-752; Ross et al, 2000, Nature Genetics, 24(3), p227-235; Herwig et al., 1999, Genome Res., 9, p1093-1105; Tamayo et al, 1999, Science, PNAS, 96, p2907-2912).

En el método de conglomerados, los genes se agrupan en categorías funcionales (conglomerados) tomando como base su perfil de expresión, satisfaciendo dos criterios: homogeneidad - los genes en el mismo conglomerado son altamente similares en la expresión entre sí; y separación - los genes en diferentes conglomerados tienen una baja similitud en la expresión entre sí.

Los ejemplos de varias técnicas de análisis de conglomerados que se han usado para el análisis de expresión génica incluyen análisis de conglomerados jerárquico (Eisen et al., 1998, supra; Alizadeh et al., 2000, supra; Perou et al., 2000, supra; Ross et al., 2000, supra), análisis de conglomerados de de K medias (Herwig et al., 1999, supra; Tavazoie et al., 1999, Nature Genetics, 22(3), p281-285), gene shaving (Hastie et al., 2000, Genome Biology, 1(2), research 0003.1-0003.21), análisis de conglomerados en bloque (Tibshirani et al., 1999, Tech repot Univ Stanford.), modelo Plaid (Lazzeroni, 2002, Stat. Sinica, 12, p61-86) y mapas autoorganizados (Tamayo et al., 1999, supra). Además, los métodos relacionados de análisis estadístico multivariante, tales como aquellos que usan descomposición en valores singulares (Alter et al., 2000, PNAS, 97(18), p10101-10106; Ross et al., 2000, supra) o escalado multidimensional pueden ser eficaces para reducir las dimensiones de los objetos que se están estudiando.

Sin embargo, los métodos tales como el análisis de conglomerados y la descomposición en valores singulares son meramente exploratorios y sólo proporcionan una visión global de la estructura interna presente en los datos. Son estrategias no supervisadas en las que la información disponible respecto a la naturaleza de la clase que se está investigando no se usa en el análisis. A menudo, se conoce la naturaleza de la perturbación biológica a la que se ha sometido una muestra particular. Por ejemplo, a veces se conoce si la muestra cuyo patrón de expresión génica se está analizando deriva de un individuo enfermo o sano. En dichos casos, puede usarse un análisis discriminante para clasificar las muestras en varios grupos tomando como base sus datos de expresión génica.

En dicho análisis se construye el clasificador utilizando para el entrenamiento los datos que son capaces de discriminar entre miembros y no miembros de una clase dada. El clasificador sometido al proceso de entrenamiento puede usarse para predecir la clase de muestras no conocidas. Los ejemplos de métodos de discriminación que se han descrito en la bibliografía incluyen Máquinas de Vectores de Soporte (Brown et al, 2000, PNAS, 97, p262-267), Vecino Más Próximo (Dudoit et al., 2000, supra), Árboles de clasificación (Dudoit et al., 2000, supra), Clasificación votada (Dudoit et al., 2000, supra), Votación ponderada de genes (Golub et al. 1999, supra) y Clasificación Bayesiana (Keller et al. 2000, Tec report Univ de Washington). Además, se ha descrito recientemente una técnica en la que se usa en primer lugar análisis de regresión PLS (Mínimos Cuadrados Parciales) para reducir las dimensiones en el conjunto de datos de expresión génica seguido de clasificación usando análisis discriminante logístico y análisis discriminante cuadrático (LD y QDA) (Nguyen y Rocke, 2002, Bioinformatics, 18, p39-50 y 1216-1226).

Un reto que presentan los datos de expresión génica para los métodos discriminantes clásicos es que el número de genes cuya expresión se está analizando es muy grande comparado con el número de muestras que se está analizando. Sin embargo, en la mayoría de los casos sólo una pequeña fracción de estos genes es informativa en problemas de análisis discriminante. Además, existe el peligro de que el ruido de genes irrelevantes pueda enmascarar o distorsionar la información de los genes informativos. En la bibliografía se han sugerido varios métodos para identificar y seleccionar genes que son informativos en estudios de micromatriz, por ejemplo, t-estadísticas (Dudoit et al. 2002, J. Am. Stat. Ass., 97, p77-87), análisis de varianza (Kerr et al., 2000, PNAS, 98, p8961-8965), Análisis de vecindario (Golub et al, 1999, supra), Relación de la suma de cuadrados entre los grupos y en los grupos (Dudoit et al., 2000, supra), Puntuación no paramétrica (Park et al., 2002, Pacific Symposium on Biocomputing, p52-63) y Selección de probabilidad (Keller et al., 2000, supra).

En los métodos descritos en la presente memoria los datos de expresión génica que se han normalizado y estandarizado se analizan usando Regresión por Mínimos Cuadrados Parciales (PLSR). Aunque PLSR es principalmente un método usado para análisis de regresión de datos continuos (véase el Apéndice A), también puede utilizarse como un método para la construcción de modelos y el análisis discriminante usando una matriz de respuesta ficticia basada en un código binario. La asignación de clase está basada en una distinción dicótoma simple tal como cáncer de mama (clase 1)/sano (clase 2), o una distinción múltiple basada en diagnósticos de múltiples enfermedades tales como cáncer de mama (clase 1)/Alzheimer (clase 2)/sano (clase 3). La lista de enfermedades para la clasificación puede incrementarse dependiendo de las muestras disponibles correspondientes a otras enfermedades o condiciones o estadios de éstas.

PLSR aplicado como un método de clasificación se refiere como PLS-DA (significando DA Análisis discriminante). PLS-DA es una extensión del algoritmo PLSR en el que la matriz Y es una matriz ficticia que contiene n filas (correspondientes al número de muestras) y K columnas (correspondientes al número de clases). La matriz Y se construye insertando 1 en la columna kª y -1 en todas las demás columnas si el objeto iª correspondiente de X pertenece a la clase k. La regresión de Y en X, consigue la clasificación de una nueva muestra seleccionando el grupo correspondiente al mayor componente de lo ajustado, 2004 Así, en una matriz de respuesta -1/1, un valor de predicción por debajo de 0 significa que la muestra pertenece a la clase designada como -1, mientras que un valor de predicción por encima de 0 implica que la muestra pertenece a la clase designada como 1.

Una ventaja de PLSR-DA es que los resultados obtenidos pueden representarse fácilmente en la forma de dos gráficos diferentes, los gráficos de puntuación y de carga. Los gráficos de puntuación representan una proyección de las muestras en los componentes principales y muestra la distribución de las muestras en el modelo de clasificación y su relación las unas con las otras. Los gráficos de carga muestran las correlaciones entre las variables presentes en el conjunto de datos.

Habitualmente se recomienda usar PLS-DA como un punto de partida para el problema de clasificación debido a su capacidad de manejar datos colineales, y a la propiedad de PLSR como una técnica de reducción de la dimensión. Una vez que este propósito se ha cumplido, es posible usar otros métodos tales como análisis discriminante lineal, LDA, que se ha mostrado que es eficaz para extraer más información, Indahl et al. (1999, Chem. and Intell. Lab. Syst., 49, p19-31). Esta estrategia se basa en descomponer en primer lugar los datos usando PLS-DA y usar los vectores de puntuación (en lugar de las variables originales) como entrada en LDA. Detalles adicionales de LDA pueden encontrarse en Duda y Hart (Classification and Scene Analysis, 1973, Wiley, EEUU).

La siguiente etapa después de construir el modelo es la validación del modelo. Esta etapa se considera uno de los aspectos más importantes del análisis multivariante y ensaya la "bondad" del modelo de calibración que se ha construido. En este trabajo, se ha usado una estrategia de validación cruzada para la validación. En esta estrategia, una o unas pocas muestras se excluyen de cada segmento mientras que el modelo se construye usando una validación cruzada completa tomando como base los datos restantes. Las muestras excluidas se usan para predicción/clasificación. La repetición varias veces del proceso de validación cruzada simple manteniendo diferentes muestras fuera para cada validación cruzada da lugar a un denominado procedimiento de validación cruzada doble. Se ha mostrado que esta estrategia funciona bien con una cantidad limitada de datos, como es el caso de algunos de los Ejemplos descritos en la presente memoria. Además, como la etapa de validación cruzada se repite varias veces el peligro de sesgo en el modelo y de sobreajuste se reduce.

Una vez que se ha construido y validado un modelo de calibración, los genes que presentan un patrón de expresión que es muy relevante para describir la información deseada en el modelo pueden seleccionarse por técnicas descritas en la técnica anterior para la selección de variables, como se menciona en otra parte. La selección de variables ayudará en la reducción de la complejidad del modelo final, proporciona un modelo parsimonioso, y da lugar así a un modelo fiable que puede usarse para predicción. Además, el uso de pocos genes para el propósito de proporcionar diagnóstico reducirá el coste del producto de diagnóstico. De esta manera, pueden identificarse las sondas informativas que se unirán a los genes relevantes.

Hemos encontrado que después de que se ha construido un modelo de calibración, se pueden usar eficazmente técnicas estadísticas como Jackknife (Effron, 1982, The Jackknife, the Bootstrap and other resampling plans. Society for Industrial and Applied mathematics, Philadelphia, EEUU), basadas en metodología de remuestreo, para seleccionar o confirmar variables significativas (sondas informativas).

La varianza incertidumbre aproximada de los coeficientes de regresión B de PLS puede estimarse por:

1

en la que

S^{2}B = varianza incertidumbre estimada de B;

B = el coeficiente de regresión en el rango validado cruzado A usando todos los objetos N;

B_{m} = el coeficiente de regresión en el rango A usando todos los objetos excepto el o los objetos excluidos del segmento de validación cruzada m; y

g = coeficiente de escalado (aquí: g=1).

\newpage

En nuestra estrategia, JackKnife se ha implementado junto con la validación cruzada. Para cada variable, se calcula en primer lugar la diferencia entre los coeficientes B, B_{i}, en un submodelo validado de manera cruzada y B_{tot} para el modelo total. La suma de los cuadrados de las diferencias se calcula en todos los submodelos para obtener una expresión de la varianza del estimado B_{i} para una variable. La significancia del estimado de B_{i} se calcula usando el ensayo t. Así, los coeficientes de regresión resultantes pueden presentarse con límites de incertidumbre que corresponden a 2 Desviaciones Estándar, y a partir de esto se detectan las variables significativas.

En la presente memoria no se proporcionan más detalles respecto a la implementación o uso de esta etapa ya que se ha implementado en un programa informático que está disponible comercialmente, The Unscrambler, CAMO ASA, Noruega. Además, los detalles de la selección de variables usando JackKnife pueden encontrarse en Westad y Martens (2000, J. Near Inf. Spectr., 8, p117-124).

La estrategia siguiente puede usarse para seleccionar sondas informativas de un conjunto de datos de expresión génica:

a) excluir una única muestra (incluyendo sus repeticiones si están presentes en el conjunto de datos) por segmento de validación cruzada;

b) construir un modelo de calibración (segmento validado de manera cruzada) en las muestras restantes usando PLSR-DA;

c) seleccionar los genes significativos para el modelo en la etapa b) usando el criterio JackKnife;

d) repetir las 3 etapas anteriores hasta que todas las muestras únicas en el conjunto de datos se excluyan una vez (como se ha descrito en la etapa a). Por ejemplo, si en el conjunto de datos están presentes 75 muestras únicas, se construyen 75 modelos de calibración diferentes lo que resulta en la recogida de 75 conjuntos de sondas significativas diferentes;

e) seleccionar las variables más significativas usando el criterio de la frecuencia de aparición en los conjuntos de sondas significativas generados en la etapa d). Por ejemplo, un conjunto de sondas que aparece en todos los conjuntos (100%) es más informativo que las sondas que aparecen en sólo el 50% de los conjuntos generados en la etapa d).

Una vez que se han seleccionado las sondas informativas para una enfermedad, se hace y valida un modelo final. Las dos formas más comúnmente usadas para validar el modelo son validación cruzada (CV) y validación del conjunto de ensayo. En la validación cruzada, los datos se dividen en subconjuntos k. El modelo se entrena k veces, excluyendo cada vez uno de los subconjuntos del entrenamiento, pero usando sólo el subconjunto omitido para computar el criterio de error, RMSEP (Error Cuadrático Medio de Predicción). Si k es igual al tamaño de la muestra, esto se llama validación cruzada "leave-one-out". La idea de excluir una o unas pocas muestras por segmento de validación es válida sólo en los casos en los que la covarianza entre los diferentes experimentos es cero. Así, una estrategia de una muestra cada vez no puede justificarse en situaciones que contienen réplicas ya que la exclusión de una sola de las réplicas introducirá un sesgo sistemático en nuestro análisis. La estrategia correcta en este caso será excluir todas las réplicas de las mismas muestras cada vez ya que satisfará las suposiciones de covarianza cero entre los segmentos CV.

La segunda estrategia para la validación del modelo es usar un conjunto de ensayo separado para validar el modelo de calibración. Esto requiere realizar un conjunto separado de experimentos que se van a usar como un conjunto de ensayo. Esta es la estrategia preferida siempre que estén disponibles datos de ensayo reales.

El modelo final se usa para identificar una enfermedad, condición o estadio de ésta en muestras de ensayo. Para este propósito, los datos de expresión de genes informativos seleccionados se generan a partir de muestras de ensayo y el modelo final se usa para determinar si una muestra pertenece a una clase enferma o no enferma o tiene una condición o estadio de ésta.

Así, en la presente memoria también se describe un método para identificar sondas útiles para diagnosticar o identificar o monitorizar una enfermedad o condición o estadio de ésta en un organismo, que comprende las etapas de:

a) inmovilizar un conjunto de sondas oligonucleotídicas, preferiblemente como se ha descrito anteriormente en la presente memoria, en un soporte sólido;

b) aislar el ARNm de una muestra de un organismo normal (muestra normal), que opcionalmente puede transcribirse de manera inversa a ADNc;

c) aislar el ARNm de una muestra de un organismo, correspondiente a la muestra y organismo de la etapa (b), que se sabe que tiene dicha enfermedad o condición o estadio de ésta (muestra enferma), que opcionalmente puede transcribirse de manera inversa a ADNc;

d) hibridar el ARNm o ADNc de las etapas (b) y (c) con dicho conjunto de sondas oligonucleotídicas inmovilizado de la etapa (a); y

e) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas oligonucleotídicas para determinar el nivel de expresión génica de los genes a los que se unen dichas sondas oligonucleotídicas en dichas muestras normal y enferma para generar un conjunto de datos de expresión génica para cada muestra;

f) normalizar y estandarizar dicho conjunto de datos de la etapa (e);

g) construir un modelo de calibración para la clasificación, preferiblemente usando las técnicas estadísticas Análisis Discriminante de Mínimos Cuadrados Parciales (PLS-DA) y Análisis Discriminante Lineal (LDA);

h) realizar un análisis JackKnife e identificar aquellas sondas oligonucleotídicas que se requieren para la clasificación de dichas muestras enfermas y normales en sus grupos respectivos.

Específicamente, en un aspecto más, la presente invención proporciona un método para identificar sondas útiles para diagnosticar o identificar o monitorizar cáncer de mama o enfermedad de Alzheimer o un estadio de ésta en un organismo, que comprende las etapas de:

a) inmovilizar un conjunto de sondas oligonucleotídicas de la invención como se ha descrito anteriormente en la presente memoria específicas para el cáncer de mama o la enfermedad de Alzheimer en un soporte sólido;

b) aislar el ARNm de una muestra de sangre de un organismo normal (muestra normal), que opcionalmente puede transcribirse de manera inversa a ADNc;

c) aislar el ARNm de una muestra de un organismo, correspondiente a la muestra y organismo de la etapa (b), que se sabe que tiene cáncer de mama o enfermedad de Alzheimer o un estadio de ésta (muestra enferma), que opcionalmente puede transcribirse de manera inversa a ADNc;

d) hibridar el ARNm o ADNc de las etapas (b) y (c) de dicho organismo con cáncer de mama o enfermedad de Alzheimer con dicho conjunto de sondas oligonucleotídicas inmovilizado de la etapa (a) para cáncer de mama o enfermedad de Alzheimer, respectivamente; y

e) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas oligonucleotídicas para determinar el nivel de expresión génica de los genes a los que se unen dichas sondas oligonucleotídicas en dichas muestras normales y enfermas para generar un conjunto de datos de expresión génica para cada muestra;

f) normalizar y estandarizar dicho conjunto de datos de la etapa (e);

h) realizar un análisis JackKnife e identificar aquellas sondas oligonucleotídicas que se requieren para la clasificación de dichas muestras enfermas y normales en sus grupos respectivos, en el que los oligonucleótidos específicos para cáncer de mama o un estadio de éste son como se muestran en la Tabla 2b y los oligonucleótidos específicos para la enfermedad de Alzheimer o un estadio de ésta son como se muestran en la Tabla 4b.

Preferiblemente, se genera un modelo para propósitos de clasificación usando los datos relacionados con las sondas identificadas según el método descrito anteriormente. Preferiblemente, la muestra es como se ha descrito anteriormente. Preferiblemente, los oligonucleótidos que se inmovilizan en la etapa (a) se seleccionan al azar como se describe más adelante o son las sondas como se ha descrito anteriormente en la presente memoria. Dichos oligonucleótidos pueden tener una longitud considerable, p. ej. si se usa ADNc (que está englobado en el alcance del término "oligonucleótido"). La identificación de dichas moléculas de ADNc como sondas útiles permite el desarrollo de oligonucleótidos más cortos que reflejan la especificidad de las moléculas de ADNc pero que son más fáciles de fabricar y manipular.

El modelo descrito anteriormente puede usarse para generar y analizar datos de muestras de ensayo y así puede usarse para los métodos de diagnóstico como se ha descrito anteriormente en la presente memoria. En dichos métodos, los datos generados a partir de la muestra de ensayo proporcionan el conjunto de datos de la expresión génica y éste se normaliza y estandariza como se ha descrito anteriormente. Esto se ajusta al modelo de calibración descrito anteriormente para proporcionar una clasificación.

El método descrito en la presente memoria también puede usarse para seleccionar simultáneamente sondas informativas para varias enfermedades o condiciones relacionadas o no relacionadas. Dependiendo de qué enfermedades o condiciones se hayan incluido en el conjunto de calibración y entrenamiento, las sondas informativas pueden seleccionarse para dichas enfermedades o condiciones. Las sondas informativas seleccionadas para una enfermedad o condición pueden o no ser similares a las sondas informativas seleccionadas para otra enfermedad o condición de interés. Es el patrón con el que se expresan los genes seleccionados en relación unos con otros durante una enfermedad, condición o estadio de ésta, el que determina si son o no informativas para la enfermedad, condición o estadio de ésta.

En otras palabras, los genes informativos se seleccionan tomando como base cómo se correlaciona su expresión con la expresión de otros genes informativos seleccionados bajo la influencia de respuestas generadas por la enfermedad, condición o estadio de ésta que se está investigando. En los ejemplos 1 y 2 proporcionados más adelante en la presente memoria, se seleccionaron 139 sondas informativas para el diagnóstico del cáncer de mama y se seleccionaron 182 sondas para el diagnóstico de la enfermedad de Alzheimer mediante el entrenamiento de los conjuntos de datos de la expresión génica de genes que representan 1.435 ó 758 clones de ADNc tomados al azar para muestras de cáncer de mama/sin cáncer de mama, o muestras con Alzheimer/sin Alzheimer, respectivamente. Entre las sondas seleccionadas para el cáncer de mama y Alzheimer, aproximadamente 10 sondas fueron informativas tanto para el diagnóstico del cáncer de mama como de la enfermedad de Alzheimer.

Para el propósito de aislar sondas informativas o identificar simultáneamente varias enfermedades condiciones y estadios de éstas relacionadas o no relacionadas, los conjuntos de datos de expresión génica deben contener la información de cómo se expresan los genes cuando el sujeto tiene una enfermedad, condición particular o estadio de ésta que se está investigando. El conjunto de datos se genera a partir de un conjunto de muestras sanas o enfermas, en las que una muestra particular puede contener la información de una única enfermedad, condición o estadios de ésta o también puede contener información acerca de múltiples enfermedades, condiciones o estadios de éstas. Por ejemplo, si se pretende el aislamiento de sondas informativas para la enfermedad de Alzheimer, cáncer de mama y diabetes, pueden obtenerse muestras de sangre completa de un paciente con Alzheimer que tiene cáncer de mama y diabetes. Así, el método también enseña un diseño experimental eficaz para reducir el número de muestras requerido para aislar sondas informativas seleccionando las muestras que representan más de una enfermedad, condición o estadio de ésta.

Como se ha mencionado previamente, a la vista del alto contenido de información de la mayoría de los transcritos, la identificación y selección de sondas informativas para usarse en el diagnóstico, monitorización o identificación de una enfermedad, condición particular o estadio de ésta puede simplificarse dramáticamente. Así, el conjunto de genes del que puede hacerse una selección para identificar sondas informativas puede reducirse radicalmente.

Por el contrario, en las tecnologías de la técnica anterior en las que las sondas informativas se seleccionan de una población de miles de genes que se expresan en una célula, como en micromatriz, en el método descrito en la presente memoria, las sondas informativas se seleccionan de un número limitado de genes obtenidos al azar. Por ejemplo, de una población de 1.435 clones de ADNc, tomados al azar de una biblioteca de ADNc de sangre humana completa, fuimos capaces de seleccionar 139 sondas informativas para el diagnóstico de cáncer de mama (véanse el Ejemplo 1 y la Tabla 2).

Así, en un aspecto preferido del método mencionado anteriormente para identificar sondas útiles para diagnosticar o identificar o monitorizar una enfermedad o condición o estadio de ésta en un organismo, dicho conjunto de oligonucleótidos que se inmovilizan en la etapa (a) se selecciona al azar de un conjunto mayor de oligonucleótidos, p. ej. de una biblioteca de ADNc u otro conjunto de oligonucleótidos, que puede, pero preferiblemente no, seleccionarse del conjunto proporcionado en la presente memoria. Preferiblemente, dicho conjunto mayor comprende oligonucleótidos que corresponden a genes expresados de manera moderada o alta. Así, preferiblemente en los métodos descritos en la presente memoria, el conjunto de oligonucleótidos descrito en la presente memoria se reemplaza por un conjunto de oligonucleótidos que se selecciona al azar, p. ej., de bibliotecas de oligonucleótidos o ADNc disponibles comercialmente.

Tal y como se refiere en la presente memoria "al azar" se refiere a una selección que no está sesgada tomando como base la magnitud de información contenida en los transcritos respecto a la enfermedad, condición u organismo que se está estudiando, es decir, sin sesgo hacia su utilidad probable como sondas informativas.

Aunque puede hacerse una selección al azar de un conjunto de transcritos (o productos relacionados) que tienen sesgo, p. ej. hacia transcritos expresados de manera alta o moderada, la selección al azar se hace preferiblemente de un conjunto de transcritos no sesgado o seleccionado por un criterio basado en la secuencia. El conjunto mayor puede contener por lo tanto oligonucleótidos correspondientes a genes expresados de manera alta o moderada, o alternativamente, puede estar enriquecido en aquellos que corresponden a los genes expresados de manera alta o moderada.

La selección al azar de genes expresados de manera alta y moderada puede conseguirse de muchas maneras diferentes. Una estrategia usada en este trabajo, pero que no se limita a sí misma, implica tomar al azar un número significativo de clones de ADNc de una biblioteca de ADNc construida a partir de un especimen biológico que se está investigando. Así, en una biblioteca de ADNc, los clones de ADNc correspondientes a los transcritos presentes en una cantidad alta o moderada están presentes más frecuentemente que los transcritos correspondientes al ADNc presente en una cantidad baja, el primero tenderá a ser tomado más frecuentemente que el último. Mediante esta estrategia puede aislarse un conjunto de ADNc enriquecido en aquellos correspondientes a los genes expresados de manera alta y moderada.

Para identificar los genes que se expresan en una cantidad alta o moderada entre la población aislada para usarse en los métodos descritos en la presente memoria, puede generarse la información acerca del nivel relativo de sus transcritos en las muestras de interés usando varias técnicas de la técnica anterior. Para este propósito pueden usarse tanto métodos no basados en la secuencia, tales como exposición diferencial o huella de ARN, como métodos basados en la secuencia tales como micromatrices o macromatrices. Alternativamente, pueden diseñarse secuencias de cebador específicas para los genes expresados de manera alta y moderada y pueden usarse métodos tales como RT-CR cuantitativa para determinar los niveles de los genes expresados de manera alta y moderada. Por lo tanto, un experto en la técnica puede usar varias técnicas que son conocidas en la técnica para determinar el nivel relativo de ARNm en una muestra biológica.

De forma especialmente preferida, la muestra para el aislamiento del ARNm en el método descrito anteriormente es como se ha descrito anteriormente y preferiblemente no es del sitio de la enfermedad y las células de dicha muestra no son células enfermas y no han estado en contacto con células enfermas.

Los ejemplos siguientes se proporcionan sólo como ilustración en los que las Figuras a las que se refieren son como sigue:

La Figura 1 muestra el efecto de Estandarización Directa (DS) en los datos de Alzheimer medidos en dos series diferentes de experimentos en la que AD indica muestras de Alzheimer y A,B son muestras sin Alzheimer. Las muestras de ambas series han sido marcadas sistemáticamente como (xx_7/xx_8), mientras que las muestras corregidas de la serie 8 (en b,c,d) han sido marcadas como (xx_c), así, por ejemplo, AD2-7 indica la muestra de enfermedad de Alzheimer número 2 en la serie de experimento 7. Las manchas rodeadas con un círculo representan las muestras elegidas como muestras de transferencia. Las líneas conectoras en las figuras b,c,d muestran la proximidad de las muestras replicadas después de aplicar DS. Las líneas de puntos en las figuras a,c,d representan el límite de decisión que separa a las clases. Estas líneas no se han dibujado tomando como base ningún criterio estadístico, pero sirven para el propósito de separar visualmente las clases. Las cuatro figuras muestran gráfico de puntuaciones (PC1-PC2) de análisis PCA basado en (a) datos no estandarizados, (b) gráfico de puntuaciones después de la estandarización directa usando 3 muestras de transferencia, (c) gráfico de puntuaciones después de la estandarización directa usando 4 muestras de transferencia, (d) gráfico de puntuaciones después de la estandarización directa usando 8 muestras de transferencia;

La Figura 2 muestra la proyección de muestras normales (incluyendo benignas) y de cáncer de mama en un modelo de clasificación generado por PLSR-DA usando los datos de 44 genes informativos, en la que PC es los componentes principales y N y C son muestras normales y de cáncer de mama, respectivamente;

La Figura 3 muestra la proyección de individuos con y sin enfermedad de Alzheimer en un modelo de clasificación generado por PLSR-DA usando 182 genes informativos;

Las Figuras 4, 6 y 8 muestran los gráficos de proyección como en la Figura 2 en los que el modelo de clasificación se genera usando 719, 111 y 345 ADNc, respectivamente, en la que PC es los componentes principales, N indica normal y B indica muestras de cáncer de mama;

Las Figuras 5, 7 y 9 muestras los gráficos de predicción basados en 3 componentes principales usando los datos de 719, 111 y 345 ADNc, respectivamente;

La Figura 10 muestra un gráfico de proyección como en la Figura 3 en el que el modelo de clasificación se genera usando 520 ADNc; y

La Figura 11 es el gráfico de predicción correspondiente a la Figura 10.

\vskip1.000000\baselineskip

Ejemplo 1 Diagnóstico de Cáncer de Mama Métodos

Se obtuvo sangre completa de los brazos de pacientes con cáncer de mama y pacientes con tumores benignos (hospitales Ullev\ring{a}l y Haukland en Noruega). Todos los pacientes con cáncer de mama tenían un tumor maligno de la mama (muestras enfermas). La sangre sana se recogió de los dos hospitales anteriores, o se recogió en una estación de Salud en \ring{A}s, Noruega o en DiaGenic AS, Noruega, de los brazos de donantes femeninas sin signos indicados de cáncer de mama. La sangre de los individuos sanos o con tumores benignos comprende las muestras normales. La sangre se recogió en tubos que contienen EDTA y se almacenó inmediatamente a -80ºC o se recogió en tubos PAXgene y se almacenó durante 12-24 horas a temperatura ambiente antes de almacenarla finalmente a -80ºC antes de usarla. En la Tabla 5 se proporcionan más detalles sobre los pacientes con cáncer de mama y con tumor benigno de los que se extrajo la sangre. El ARNm se aisló de la sangre de los 29 pacientes con cáncer de mama y los 46 donantes normales y se usó para preparar sondas marcadas mediante transcripción inversa en presencia de \alpha^{32}P-dATP. El ADNc de primera cadena de las muestras normales y enfermas se unió, separadamente a 1.435 clones de ADNc inmovilizados en un soporte sólido (membrana de nilón). Estos clones de ADNc se tomaron al azar, sin conocimiento previo de sus secuencias génicas, de una biblioteca de ADNc construida usando sangre completa de 550 individuos sanos (Clontech, Palo Alto, EEUU). Estos métodos se realizaron como sigue.

Para la amplificación de los insertos, se crecieron clones de bacterias en placas de microtitulación que contienen 150 \mul de LB con 50 \mug/ml de carbenicilina y se incubaron toda la noche con agitación a 37ºC. Para lisar las células, se diluyeron 5 \mul de cada cultivo con 50 \mul de H_{2}O y se incubó durante 12 min. a 95ºC. De esta mezcla, 2 \mul se sometieron a una reacción de PCR usando 20 pmoles de cebador M13 directo e inverso en presencia de 1,5 mM de MgCl_{2}. Las reacciones de PCR se realizaron con el protocolo de ciclos siguiente: 4 min. a 95ºC, seguido de 25 ciclos de 1 min. a 94ºC, 1 min. a 60ºC y 30 min. a 72ºC bien en un Ciclador de Temperatura RoboCycler® (Stratagene, La Jolla, EEUU) o Ciclador Térmico DNA Engine Dyad Peltier (MJ Research Inc., Waltham, EEUU). Los productos amplificados se desnaturalizaron por incubación con NaOH (0,2 M, concentración final) durante 30 min. y se depositaron sobre membranas Hybond-N+ (Amersham Pharmacia Biotech, Little Chalfont, Reino Unido), usando la estación de trabajo MicroGrid II según las instrucciones del fabricante (BioRobotics Ltd, Cambridge, Inglaterra). Los ADNc inmovilizados se fijaron usando un entrecruzador UV (Hoefer Scientific Instruments, San Francisco, EEUU).

Además de los 1.435 ADNc, las matrices impresas también contenían controles para evaluar el nivel de fondo, la consistencia y la sensibilidad del ensayo. Éstos se depositaron en múltiples posiciones e incluyeron controles tales como mezcla de PCR (sin ningún inserto); controles positivos y negativos del sistema de validación de la matriz SpotReportTM 10 (Stratagene, La Jolla, EEUU) y ADNc correspondientes a genes expresados constitutivamente tales como b-actina, g-actina, GAPDH, HOD y ciclofilina. Además, se incluyeron los oligonucleótidos correspondientes a SIX1, b-tubulina, TRP-2, MDM2, C Ligera de Miosina, CD44, Maspina, Laminina y SR 19 para detectar las células cancerosas diseminadas.

El ARN total de la sangre recogida en tubos EDTA se purificó usando el protocolo Trizol LS Reagent (Invitrogen/Life Technologies). De la sangre contenida en los tubos PAXgene, se purificó el ARN total según las instrucciones del proveedor (PreAnalytiX, Hombrechtikon, Suiza). El ADN contaminante se eliminó del ARN aislado por tratamiento con ADNasa I usando el kit DNA-free (Ambion, Inc., Austin, EEUU). La calidad del ARN se determinó visualmente inspeccionando la integridad de las bandas ribosomales de 28S y 18S después de electroforesis en gel de agarosa. La concentración y pureza del ARN extraído se determinaron midiendo la absorbancia a 260 nm y 280 nm. El ARNm se aisló del ARN total usando Dynabeads según las instrucciones del proveedor (Dynal AS, Oslo, Noruega).

Los experimentos de marcaje e hibridación se realizaron en lotes. El número de muestras ensayado en cada lote varió de seis a nueve. En el caso de las muestras que se ensayaron más de una vez (réplicas), se usaron alicuotas obtenidas del mismo conjunto de ARNm para la síntesis de sondas. Para la síntesis de sondas, se mezclaron alicuotas de ARNm correspondiente a 4-5 \mug del ARN total junto con oligodT_{25NV} (0,5 \mug/ml) y adiciones de ARNm del sistema de validación de matriz SpotReport^{TM} 10 (10 pg; Adición 2, 1 pg), se calentó a 70ºC para eliminar las estructuras secundarias y se enfrió en hielo. Las sondas se prepararon en 35 \mul de mezclas de reacción por transcripción inversa en presencia de 50 \muCi [\alpha^{33}P] dATP, 3,5 \muM dATP, 0,6 mM de cada uno de dCTP, dTTP, dGTP, 200 unidades de transcriptasa inversa SuperScript (Invitrogen, LifeTechnologies) y 0,1 M DTT, se marcó durante 1,5 h a 42ºC. Después de la síntesis, la enzima se inactivó durante 10 min. a 70ºC y el ARNm se eliminó por incubación de la mezcla de reacción durante 20 min. a 37ºC en 4 unidades de Ribo H (Promega, Madison, EEUU). Los nucleótidos no incorporados se eliminaron usando Columnas ProbeQuant G 50 (Amersham Biosciences, Piscataway, EEUU).

Antes de la hibridación, las membranas se equilibraron en 4 x SSC durante 2 h a temperatura ambiente y se prehibridaron toda la noche a 65ºC en 10 ml de disolución de prehibridación (4 x SSC, 0,1 M NaH_{2}PO_{4}, 1 mM EDTA, 8% sulfato de dextrano, 10 x disolución de denhardt, 1% SDS). Las sondas recién preparadas se añadieron a 5 ml de la misma disolución de prehibridación y la hibridación continuó toda la noche a 65ºC. Las membranas se lavaron a 65ºC con astringencia creciente (2 x 30 min. cada uno en 2 x SSC, 0,1% SDS; 1 x SSC, 0,1% SDS; 0,1 x SSC, 0,1% SDS) para eliminar las señales inespecíficas.

La cantidad de unión de ADNc de primera cadena marcado a cada mancha se evaluó y cuantificó usando un Phospholmager para generar un conjunto de datos de expresión génica. Los datos se generaron usando el programa informático Phoretix versión 3 (Non Linear Dynamics, Inglaterra). Las sustracción del fondo se realizó en los datos generados sustrayendo la media de la línea de píxeles alrededor de la línea exterior de cada mancha de la intensidad total obtenida de las manchas respectivas.

Los datos a los que se sustrajo el fondo se normalizaron y transformaron seleccionando las 50 señales más bajas y las 50 señales máximas para cada membrana. Esta etapa fue para excluir los genes que se expresaban con un alto grado de varianza. Como los genes variaban de membrana a membrana, los datos de expresión de 497 genes se eliminaron del conjunto de datos. Los valores para los 938 genes restantes se normalizaron usando diferentes estrategias tales como controles externos, dividir cada mancha por la intensidad media de la señal observada en la membrana respectiva, normalizar por intervalo los datos de cada membrana y transformar logarítmicamente los datos obtenidos.

Los datos procesados obtenidos anteriormente se usaron para aislar las sondas informativas:

a) excluyendo una única muestra (incluyendo todas las repeticiones de la muestra seleccionada) por segmento de validación cruzada;

b) construyendo un modelo de calibración (validado de manera cruzada) en las muestras restantes usando PLSR-DA;

c) seleccionando el conjunto de genes significativos para el modelo de la etapa b usando el criterio JackKnife;

\newpage

d) repitiendo las etapas a), b) y c) hasta que todas las muestras únicas se excluyen una vez (por lo tanto, en total se construyen 75 modelos de calibración diferentes (después de repetir la etapa b) 75 veces), lo que resulta en 75 conjuntos diferentes de sondas significativas (después de repetir la etapa c) 75 veces));

e) seleccionando las variables significativas usando el criterio de frecuencia de aparición entre los 75 conjuntos diferentes de sondas significativas.

Las sondas informativas basadas en el criterio de aparición se usaron para construir un modelo de clasificación. El resultado del modelo de clasificación basado en sondas que aparecen en al menos 90% de los conjuntos generados después de la etapa de aislar las sondas informativas como se ha descrito anteriormente se muestra en la Figura 2 en la que se observa que el patrón de expresión de estos genes fue capaz de clasificar a la mayoría de las mujeres con cáncer de mama y a las mujeres sin cáncer de mama en grupos distintos. En esta figura, PC1 y PC2 indican los dos componentes principales obtenidos estadísticamente de los datos que mejor definen la variabilidad sistémica presente en los datos. Esto permite que cada muestra, y los datos de cada una de las sondas informativas a las que se unió el ADNc de primera cadena marcado de la muestra, estén representadas en el modelo de clasificación como un único punto que es una proyección de la muestra en los componentes principales - el gráfico de puntuación.

La capacidad del modelo generado, basado en sondas informativas aisladas, para predecir muestras futuras se determinó por la estrategia de validación cruzada doble. El rendimiento del ensayo de diagnóstico para cáncer de mama basado en el criterio de aparición se presenta en la Tabla 6.

Se consiguió la predicción correcta de la mayoría de las células de cáncer de mama. Esto incluyó las tres muestras obtenidas de mujeres con carcinoma ductal in situ (DCIS), 11/15 muestras obtenidas de mujeres con cáncer de mama en estadio I, las cinco muestras obtenidas de mujeres con cáncer de mama en estadio II, y una de las dos muestras obtenidas de mujeres con cáncer de mama en estadio III. De forma interesante, dos muestras predichas correctamente en estadio I se obtuvieron de mujeres que tienen un tamaño de tumor con un diámetro de <5 mm.

El modelo también predijo correctamente la clase de la mayoría de las muestras sin cáncer (41/46), incluyendo aquellas que se obtuvieron de mujeres con anormalidades de la mama no cancerosas.

La confirmación de que los transcritos génicos no son de células que son células enfermas diseminadas se ha confirmado por varias líneas de evidencias, En primer lugar, los genes informativos se expresaron constitutivamente a niveles altos o moderados en las células sanguíneas de las mujeres independientemente de si tenían cáncer o no. En segundo lugar, en el ensayo descrito en este Ejemplo, con el fin de identificar transcritos, se requerirían al menos 720 células diseminadas en las muestras de sangre. Como el número medio de células diseminadas presentes en la sangre durante los diferentes estadios del cáncer de mama es mucho menor (cáncer de mama confinado en órgano, 0,8 células por ml; cáncer de mama invasivo sólo diseminado a los nódulos linfáticos, 2,4 células por ml; y cáncer de mama metastásico, 6 células por ml; SD>100%) (29), creemos que las señales que se han detectado se originan de células de sangre periférica y no podrían haberse originado de células diseminadas. En tercer lugar, no fuimos capaces de detectar ninguna señal de los ocho marcadores cancerosos que se sabe que tienen una expresión elevada en células cancerosas malignas, incluyendo células cancerosas que se han diseminado en la sangre.

Ejemplo 2 Diagnóstico de la enfermedad de Azheimer

Se realizaron experimentos similares con muestras de pacientes con Alzheimer. En este método 7 pacientes diagnosticados con la Enfermedad de Alzheimer en el Memory Clinic en el Hospital Universitario Ullev\ring{a}l se usaron en el estudio. Se confirmó que los pacientes tenían enfermedad de Alzheimer tomando como base los criterios siguientes:

\text{*} Una entrevista estandarizada con un clínico usando IQCODE, una escala ADL y una escala que mide el comportamiento del paciente (escala Green).

\text{*} Evaluación neuropsicológica usando MMSE, el ensayo del dibujo del reloj, ensayos A y B de Trazado (TMT A y B), ensayo de aprendizaje de objeto Kendrick (ensayo de memoria visual), parte de la batería Wechsler y ensayo Benton.

\text{*} Una evaluación psiquiátrica usando escalas para la detección de depresión, MADRS para entrevistar al paciente y escala Cornell para entrevistar al clínico.

\text{*} Un examen físico.

\text{*} Ensayos de laboratorio de muestras de sangre para descartar otras enfermedades.

\text{*} Escáner CT del cerebro.

\text{*} SPECT del cerebro.

La edad media de los pacientes fue 72,3 con un intervalo de edades de 69-76. La puntuación MMSE media fue 22,0 (siendo la máxima puntuación alcanzable 30).

Como control se usaron seis individuos con edades equivalentes sin diagnóstico de enfermedad de Alzheimer. Todos se habían ensayado con MMSE y tenían una puntuación mínima de 28 (media: 28,4). La edad media del grupo control normal fue 73,0 y el intervalo de edades 66-81. Una muestra de un individuo de 16 años, por lo tanto con una posibilidad mínima de tener enfermedad de Alzheimer, también se incluyó como un control adicional.

Usando los métodos descritos anteriormente (excepto que se realizó la hibridación con 758 en lugar de 1.435 clones de ADNc), las sondas informativas se seleccionaron tomando como base criterios de aparición y se usaron para construir un modelo de clasificación. Los resultados del modelo de clasificación basado en las sondas que aparecen al menos una vez en los conjuntos generados después del método de aislar las sondas informativas como se ha descrito anteriormente se muestran en la Figura 3 en la que se observará que el patrón de expresión de estos genes fue capaz de clasificar a los individuos con o sin enfermedad de Alzheimer en grupos distintos. En esta Figura PC1 y PC2 indican los 2 componentes principales obtenidos estadísticamente de los datos que definen la variabilidad sistemática presente en los datos. Esto permite que cada muestra, y los datos de cada una de las sondas informativas a las que se unió el ADNc de las muestras, esté representada en el modelo de clasificación como un único punto que es una proyección de la muestra en los componentes principales - el gráfico de puntuación.

La capacidad del modelo generado, basado en sondas informativas aisladas, para predecir muestras futuras se determinó por validación cruzada doble. El rendimiento del ensayo de diagnóstico para la enfermedad de Alzheimer se presenta en la Tabla 7.

\vskip1.000000\baselineskip

Apéndice A

Regresión de Mínimos Cuadrados Parciales (PLSR)

Definamos un modelo de regresión multivariante como:

Y = XB + F

en el que

X una matriz NxP con N variables vaticinadoras (genes);

Y (NxJ) siendo J las variables predichas. En nuestro caso Y representa una matriz que contiene variables ficticias;

B es una matriz de coeficientes de regresión; y

F es una matriz NxJ de residuales.

\vskip1.000000\baselineskip

La estructura del modelo PLSR puede escribirse como:

X = TP^{T} + E_{A}, e

Y = TQ^{T} + F_{A}, en la que

T (NxA) es una matriz de vectores de puntuación que son combinaciones lineales de las variables x;

P (PxA) es una matriz con los vectores de carga x p_{a} como columnas;

Q (JxA) es una matriz con los vectores de carga y q_{a} como columnas;

E_{a} (NxP) es la matriz para X después de factores A; y

F_{a} (NxJ) es la matriz para Y después de factores A.

El criterio en PLSR es maximizar la covarianza explicada de [X,Y]. Esto se logra cargando el vector de peso w_{a+1}, que es el primer autovector de E_{a}^{T}F_{a}F_{a}^{T}E_{a} (E_{a}y F_{a} son X e Y rebajados después de factores a o componentes PLS).

\vskip1.000000\baselineskip

Los coeficientes de regresión se proporcionan por:

B = W(P^{T}W)^{-1}Q^{T}

\newpage

Un modelo PLSR con rango completo, es decir número máximo de componentes, es equivalente a las soluciones MLR. Se pueden encontrar detalles adicionales de PLSR en Marteus y Naes, 1989, Multivariate Calibration, John Wiley & Sons, Inc., EEUU y Kowalski y Seasholtz, 1991, supra.

Ejemplo 3 Validación del Ejemplo 1, diagnóstico de cáncer de mama

Los resultados del Ejemplo 1 se validaron usando las sondas informativas identificadas en el Ejemplo 1 en nuevas muestras de cáncer de mama y controles.

Métodos

Se usaron los métodos esencialmente como se han descrito en el Ejemplo 1. La sangre se tomó de pacientes como se describe en la Tabla 8. Sin embargo, la sangre se recogió en tubos PAXgene y los ADNc de primera cadena marcados se hibridaron con 719 ADNc depositados en membranas de nilón junto con otros controles como se ha descrito en el Ejemplo 1. Después de la sustracción del fondo usando las manchas control, los datos de cada membrana se normalizaron usando el rango intercuartil. Los datos se analizaron como se ha descrito en el Ejemplo 1 y el modelo se validó por validación cruzada.

Los 719 ADNc que se depositaron son un subconjunto de los ADNc depositados en el Ejemplo 1 e incluyen 111 ADNc descritos en la Tabla 2 y que se encontró que eran informativos en el Ejemplo 1.

Resultados

Los resultados se muestran en las Figuras 4 a 9. Las Figuras 4, 6 y 8 son gráficos de proyección similares a la Figura 2 y muestran la proyección de muestras de pacientes normales y con cáncer de mama en un modelo de clasificación generado usando los 719 ADNc. La Figura 6 es similar pero usa un modelo de clasificación generado con las 111 sondas comunes al Ejemplo 1. La Figura 8 usa 345 secuencias de las 719 para las que se proporciona información de secuencia en la presente memoria. En cada caso, fue posible la clasificación de los grupos normales y de cáncer de mama. Las Figuras 5, 7 y 9 muestran gráficos de predicción que reflejan la capacidad de los modelos generados para diagnosticar correctamente el cáncer de mama. En los 3 gráficos de predicción mostrados, las muestras enfermas aparecen en el eje de las x a +1 y las muestras no enfermas aparecen a -1. El eje de las y representa la pertenencia a la clase predicha. Durante la predicción, si la predicción es correcta, las muestras enfermas deberían situarse por encima de cero y las muestras no enfermas deberían situarse por debajo de cero. En cada caso casi todas las muestras han sido correctamente predichas.

Ejemplo 4 Validación del Ejemplo 2, diagnóstico de Alzheimers

Los resultados del Ejemplo 2 se validaron usando las sondas informativas identificadas en el Ejemplo 2 en nuevas muestras de pacientes con Alzheimer.

Métodos

Se usaron los métodos esencialmente como se ha descrito en el Ejemplo 2. Doce pacientes femeninos diagnosticados con la enfermedad de Alzheimer en el Memory Clinic en el Hospital Universitario Ullev\ring{a}l que se confirmó que tenían enfermedad de Alzheimer tomando como base los criterios del Ejemplo 2 se usaron en el estudio. La edad media de los pacientes fue 72,3 con un intervalo de edades de 66-83. La puntuación MMSE media fue 22,0 (siendo la puntuación máxima alcanzable 30).

Dieciséis individuos femeninos con edades equivalentes sin diagnóstico de enfermedad de Alzheimer se usaron como el grupo control normal. Todos se habían ensayado con MMSE y tenían una puntuación mínima de 29. La edad media del grupo control normal fue 74,0 y el intervalo de edades 66-86.

Después de transferir la sangre a tubos PAXgene, se aisló el ARNm total de la sangre de los grupos de donantes con enfermedad de Alzheimer y control según las instrucciones del fabricante (PreAnalytiX, Hombrechtikon, Suiza). El ARNm aislado se marcó durante transcripción inversa en presencia de \alpha^{33}P-dATP, proporcionando un ADNc de primera cadena marcado. La hibridación se realizó como se ha descrito anteriormente en 730 clones de ADNc tomados de una biblioteca de ADNc de sangre completa de 550 individuos sanos sin saber la secuencia génica de los clones de ADNc al azar.

Resultados

Los resultados se muestran en las Figuras 10 y 11. La Figura 10 es un gráfico de proyección generado usando 520 sondas que han sido secuenciadas. la Figura 11 es un gráfico de predicción y muestra la correcta predicción de casi todas las muestras.

TABLA 1a Lista de sondas informativas para el diagnóstico de enfermedades

1000

2

3

4

5

6

\newpage

TABLA 1b Lista de secuencias de sondas informativas para el diagnóstico de enfermedades

Por favor, véase la nota en la parte inferior

7

8

9

10

11

12

13

14

15

16

17

Nota

Secuencias no disponibles para las secuencias ID en la Tabla 1 y las secuencias Id correspondientes en la Tabla 2 y 4.

19

TABLA 2a Lista de sondas informativas para el diagnóstico de cáncer de mama

20

21

\newpage

TABLA 2b Lista de secuencias de sondas informativas para el cáncer de mama

Por favor, véase la nota en la parte inferior de la Tabla 1. Faltan algunas secuencias.

22

23

24

25

26

27

28

TABLA 3 Lista de sondas informativas (Clon ID) seleccionadas para el diagnóstico del cáncer de mama tomando como base sus criterios de aparición durante la selección de las variables

30

\text{*}100% = Genes que aparecen en todos los 75 modelos validados de forma cruzada; 90% = Genes adicionales que aparecen en al menos 68 de los 75 modelos validados de forma cruzada; 5% = Genes adicionales que aparecen en al menos 4 de los 75 modelos validados de forma cruzada, etc.

TABLA 4a Lista de sondas informativas para el diagnóstico de la enfermedad de Alzheimer

31

32

\newpage

TABLA 4b Lista de secuencias de sondas informativas para la enfermedad de Alzheimer

Por favor, véase la nota de la Tabla 1.

33

34

35

36

37

38

39

40

41

42

43

\newpage

TABLA 5 Muestras

44

\text{*} De una mujer, se recogió la sangre completa en las semanas 1,2,3,4,5 después de la menstruación. Así, el número de muestras únicas normales/benignas ensayado en el experimento es 75.

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Información acerca de mujeres con cáncer de mama

45

46

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Otras enfermedades/condiciones presentes en las mujeres ensayadas

47

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Historial anterior de cáncer en las mujeres ensayadas

48

49

50

\newpage

TABLA 8

Algunas características relevantes de los donantes de sangre. B, Donantes femeninos con cáncer de mama; N, Donantes femeninos con mamograma sospechoso pero sin cáncer de mama; IDC, carcinoma ductal invasivo; DCIS, carcinoma ductal in situ; na, no disponible; nd, no determinado; ++, sin degradación de ARNm y sin contaminación ribosomal en la muestra; +, sin degradación de ARNm pero con contaminación ribosomal en la muestra.

\vskip1.000000\baselineskip

51

TABLA 9 Lista de secuencias de sondas informativas tanto para enfermedad de Alzheimer como cáncer de mama

52

53

54

55

56

\newpage

Secuencias de Nucleótido

\vskip1.000000\baselineskip

Secuencia ID - 93 nt: 405

57

Secuencia ID - 108 nt: 550

58

\vskip1.000000\baselineskip

Secuencia ID - 110

59

\newpage

Secuencia ID - 192 nt: 286

60

\vskip1.000000\baselineskip

Secuencia ID 250

61

\vskip1.000000\baselineskip

Secuencia ID 299

62

\newpage

Secuencia ID 300

63

\vskip1.000000\baselineskip

Secuencia ID 302

64

\vskip1.000000\baselineskip

Secuencia ID 304

65

\newpage

Secuencia ID 306

66

\vskip1.000000\baselineskip

Secuencia ID - 308 nt: 373

67

\vskip1.000000\baselineskip

Secuencia ID 309

68

\vskip1.000000\baselineskip

Secuencia ID - 310 nt: 564

69

\vskip1.000000\baselineskip

Secuencia ID 311

70

\vskip1.000000\baselineskip

Secuencia ID - 313 nt: 554

71

\newpage

Secuencia ID 314

72

\vskip1.000000\baselineskip

Secuencia ID 315

73

\vskip1.000000\baselineskip

Secuencia ID 316

74

\newpage

Secuencia ID 321

75

\vskip1.000000\baselineskip

Secuencia ID 322

76

\newpage

Secuencia ID 323

77

\vskip1.000000\baselineskip

Secuencia ID 324

78

\newpage

Secuencia ID 325

79

\vskip1.000000\baselineskip

Secuencia ID - 326 nt: 554

80

\vskip1.000000\baselineskip

Secuencia ID 327

81

\vskip1.000000\baselineskip

Secuencia ID 328

82

\vskip1.000000\baselineskip

Secuencia ID 330

83

\vskip1.000000\baselineskip

Secuencia ID 331

84

\vskip1.000000\baselineskip

Secuencia ID 335

85

\vskip1.000000\baselineskip

Secuencia ID 337

86

\vskip1.000000\baselineskip

Secuencia ID 338

87

\vskip1.000000\baselineskip

Secuencia ID 339

88

\vskip1.000000\baselineskip

Secuencia ID 360

89

\vskip1.000000\baselineskip

Secuencia ID - 361 nt: 622

90

\vskip1.000000\baselineskip

Secuencia ID - 363 nt: 628

91

\vskip1.000000\baselineskip

Secuencia ID - 364 nt: 528

92

\vskip1.000000\baselineskip

Secuencia ID 365

93

\newpage

Secuencia ID 366

94

\vskip1.000000\baselineskip

Secuencia ID - 368 nt: 329

95

\vskip1.000000\baselineskip

Secuencia ID 369

96

\vskip1.000000\baselineskip

Secuencia ID 370

97

\vskip1.000000\baselineskip

Secuencia ID 371

98

\newpage

Secuencia ID 373

99

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 374

100

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 378

101

\newpage

Secuencia ID 380

102

\vskip1.000000\baselineskip

Secuencia ID - 381 nt: 534

103

\vskip1.000000\baselineskip

Secuencia ID - 382 nt: 444

104

\newpage

Secuencia ID - 383 nt: 566

105

\vskip1.000000\baselineskip

Secuencia ID 384

106

\vskip1.000000\baselineskip

Secuencia ID 386

107

\newpage

Secuencia ID 387

108

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 388

109

\newpage

Secuencia ID 389

110

\vskip1.000000\baselineskip

Secuencia ID - 390 nt: 523

111

\vskip1.000000\baselineskip

Secuencia ID - 391 nt: 566

112

\vskip1.000000\baselineskip

Secuencia ID 394

113

\vskip1.000000\baselineskip

Secuencia ID 395

114

\vskip1.000000\baselineskip

Secuencia ID 396

115

\vskip1.000000\baselineskip

Secuencia ID - 397 nt: 534

116

\vskip1.000000\baselineskip

Secuencia ID - 398 nt: 512

117

\vskip1.000000\baselineskip

Secuencia ID 399

118

\vskip1.000000\baselineskip

Secuencia ID 400

119

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 401

120

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 402

121

\newpage

Secuencia ID 403

122

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 405

123

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 406

124

\newpage

Secuencia ID 407

125

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 408

126

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 409

\hskip0,5cm2005

\newpage

Secuencia ID 410

127

Secuencia ID - 411 nt: 505

128

Secuencia ID 412

129

\newpage

Secuencia ID 413

130

\vskip1.000000\baselineskip

Secuencia ID 414

131

\vskip1.000000\baselineskip

Secuencia ID - 415 nt: 596

132

\vskip1.000000\baselineskip

Secuencia ID 416

133

\vskip1.000000\baselineskip

Secuencia ID 417

134

\vskip1.000000\baselineskip

Secuencia ID 418

135

\vskip1.000000\baselineskip

Secuencia ID 419

136

\vskip1.000000\baselineskip

Secuencia ID 420

137

\vskip1.000000\baselineskip

Secuencia ID 421

138

\vskip1.000000\baselineskip

Secuencia ID 422

139

\newpage

Secuencia ID - 423 nt: 387

140

\vskip1.000000\baselineskip

Secuencia ID - 424 nt: 420

141

\vskip1.000000\baselineskip

Secuencia ID 425

142

\newpage

Secuencia ID 426

143

\vskip1.000000\baselineskip

Secuencia ID 427

144

\vskip1.000000\baselineskip

Secuencia ID 428

145

\newpage

Secuencia ID - 429 nt: 535

146

\vskip1.000000\baselineskip

Secuencia ID 430

147

\vskip1.000000\baselineskip

Secuencia ID 431

148

\newpage

Secuencia ID 432

149

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 433

150

\newpage

Secuencia ID 434

151

\vskip1.000000\baselineskip

Secuencia ID 435

152

\vskip1.000000\baselineskip

Secuencia ID 436

153

\newpage

Secuencia ID - 438 nt: 577

154

\vskip1.000000\baselineskip

Secuencia ID - 441 nt: 552

155

\vskip1.000000\baselineskip

Secuencia ID - 442 nt: 606

156

\vskip1.000000\baselineskip

Secuencia ID 446

157

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 447

158

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 448 nt: 329

159

\newpage

Secuencia ID 450

160

\vskip1.000000\baselineskip

Secuencia ID 452

161

\vskip1.000000\baselineskip

Secuencia ID - 453 nt: 747

162

\vskip1.000000\baselineskip

Secuencia ID 454

163

\vskip1.000000\baselineskip

Secuencia ID - 458 nt: 682

164

\vskip1.000000\baselineskip

Secuencia ID 459

165

\vskip1.000000\baselineskip

Secuencia ID - 460 nt: 536

166

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 461

167

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 462

168

\newpage

Secuencia ID 463

169

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 464 nt: 615

170

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 469

171

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 471

\hskip0,5cm172

\newpage

Secuencia ID 472

173

\vskip1.000000\baselineskip

Secuencia ID - 473 nt: 694

174

\vskip1.000000\baselineskip

Secuencia ID 474

175

\vskip1.000000\baselineskip

Secuencia ID 475

176

\vskip1.000000\baselineskip

Secuencia ID - 476 nt: 476

177

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 477

178

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 478

179

\newpage

Secuencia ID 479

180

\vskip1.000000\baselineskip

Secuencia ID 481

181

\vskip1.000000\baselineskip

Secuencia ID 482

182

\vskip1.000000\baselineskip

Secuencia ID 483

183

\newpage

Secuencia ID 484

184

\vskip1.000000\baselineskip

Secuencia ID - 485 nt: 551

185

\vskip1.000000\baselineskip

Secuencia ID - 487 nt: 224

186

\vskip1.000000\baselineskip

Secuencia ID - 488 nt: 349

187

\newpage

Secuencia ID 489

188

\vskip1.000000\baselineskip

Secuencia ID - 491 nt: 382

189

\vskip1.000000\baselineskip

Secuencia ID 492

190

\newpage

Secuencia ID 493

191

\vskip1.000000\baselineskip

Secuencia ID 494

192

\vskip1.000000\baselineskip

Secuencia ID 495

\hskip0,5cm2006

\vskip1.000000\baselineskip

Secuencia ID 496

193

\newpage

Secuencia ID 497

194

\vskip1.000000\baselineskip

Secuencia ID 499

195

\vskip1.000000\baselineskip

Secuencia ID - 500 nt: 390

196

\newpage

Secuencia ID 502

197

\vskip1.000000\baselineskip

Secuencia ID - 503 nt: 109

198

\vskip1.000000\baselineskip

Secuencia ID - 504 nt: 374

199

\vskip1.000000\baselineskip

Secuencia ID 505

200

\newpage

Secuencia ID 506

201

\vskip1.000000\baselineskip

Secuencia ID - 507 nt: 521

202

\vskip1.000000\baselineskip

Secuencia ID 508

203

\newpage

Secuencia ID - 509 nt: 575

204

\vskip1.000000\baselineskip

Secuencia ID 510

205

\vskip1.000000\baselineskip

Secuencia ID 512

206

\vskip1.000000\baselineskip

Secuencia ID 513

207

\vskip1.000000\baselineskip

Secuencia ID 515

208

\vskip1.000000\baselineskip

Secuencia ID - 518 nt: 502

209

\newpage

Secuencia ID 519

210

\vskip1.000000\baselineskip

Secuencia ID 521

211

\vskip1.000000\baselineskip

Secuencia ID - 523 nt: 585

212

\vskip1.000000\baselineskip

Secuencia ID 524

213

\vskip1.000000\baselineskip

Secuencia ID 525

214

\vskip1.000000\baselineskip

Secuencia ID - 526 nt: 516

215

\vskip1.000000\baselineskip

Secuencia ID 527

216

\newpage

Secuencia ID 529; 660nt

217

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 529

218

\newpage

Secuencia ID - 530 nt: 660

219

\vskip1.000000\baselineskip

Secuencia ID 532

220

\vskip1.000000\baselineskip

Secuencia ID 533

221

\newpage

Secuencia ID 534

222

\vskip1.000000\baselineskip

Secuencia ID 560

223

\vskip1.000000\baselineskip

Secuencia ID 561

224

\newpage

Secuencia ID - 562 nt: 580

225

\vskip1.000000\baselineskip

Secuencia ID 563

226

\vskip1.000000\baselineskip

Secuencia ID - 564 nt: 671

227

\vskip1.000000\baselineskip

Secuencia ID 565

228

\vskip1.000000\baselineskip

Secuencia ID 566

229

\vskip1.000000\baselineskip

Secuencia ID 567

230

\vskip1.000000\baselineskip

Secuencia ID 568

231

\vskip1.000000\baselineskip

Secuencia ID 570

232

\vskip1.000000\baselineskip

Secuencia ID - 571 nt: 457

233

\newpage

Secuencia ID 572

234

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 574

235

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 575 nt: 209

236

\newpage

Secuencia ID - 576 nt: 541

237

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 577

238

\newpage

Secuencia ID 578

239

\vskip1.000000\baselineskip

Secuencia ID - 579 nt: 502

240

\vskip1.000000\baselineskip

Secuencia ID - 580 nt: 316

241

\newpage

Secuencia ID 581

242

\vskip1.000000\baselineskip

Secuencia ID 582

243

\vskip1.000000\baselineskip

Secuencia ID - 583 nt: 631

244

\newpage

Secuencia ID 585

245

\vskip1.000000\baselineskip

Secuencia ID 586

246

\vskip1.000000\baselineskip

Secuencia ID 587

247

\newpage

Secuencia ID 588

248

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 589

249

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 590

250

\newpage

Secuencia ID 591

251

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 592

252

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 593 nt: 565

253

\newpage

Secuencia ID 594

254

\vskip1.000000\baselineskip

Secuencia ID - 595 nt: 98

255

\vskip1.000000\baselineskip

Secuencia ID 596

256

\vskip1.000000\baselineskip

Secuencia ID 597

257

\vskip1.000000\baselineskip

Secuencia ID - 598 nt: 362

258

\vskip1.000000\baselineskip

Secuencia ID 599

259

\vskip1.000000\baselineskip

Secuencia ID - 600 nt: 595

260

\vskip1.000000\baselineskip

Secuencia ID - 601 nt: 522

261

\vskip1.000000\baselineskip

Secuencia ID 602

262

\vskip1.000000\baselineskip

Secuencia ID - 603 nt: 624

263

\vskip1.000000\baselineskip

Secuencia ID - 605 nt: 338

264

\newpage

Secuencia ID - 606 nt: 556

265

\vskip1.000000\baselineskip

Secuencia ID 607

266

\vskip1.000000\baselineskip

Secuencia ID 609

267

\newpage

Secuencia ID 610

268

\vskip1.000000\baselineskip

Secuencia ID 611

\hskip0,5cm269

\vskip1.000000\baselineskip

Secuencia ID - 612 nt: 576

270

\vskip1.000000\baselineskip

Secuencia ID - 613 nt: 341

271

\vskip1.000000\baselineskip

Secuencia ID 614

272

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 615 nt: 379

273

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 617

274

\newpage

Secuencia ID -618 nt: 598

275

\vskip1.000000\baselineskip

Secuencia ID 619

276

\vskip1.000000\baselineskip

Secuencia ID 621

277

\newpage

Secuencia ID 622

278

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 624

\hskip0,5cm279

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 625

280

\newpage

Secuencia ID 626

281

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 627

282

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 628 nt: 419

283

\newpage

Secuencia ID 629

284

\vskip1.000000\baselineskip

Secuencia ID 630

285

\vskip1.000000\baselineskip

Secuencia ID 631

286

\newpage

Secuencia ID 632

287

\vskip1.000000\baselineskip

Secuencia ID 633

288

\vskip1.000000\baselineskip

Secuencia ID - 634 nt: 511

289

\newpage

Secuencia ID - 635 nt: 592

290

\vskip1.000000\baselineskip

Secuencia ID - 636 nt: 572

291

\vskip1.000000\baselineskip

Secuencia ID - 637 nt: 482

292

\newpage

Secuencia ID - 638 nt: 545

293

\vskip1.000000\baselineskip

Secuencia ID - 639 nt: 624

294

\vskip1.000000\baselineskip

Secuencia ID 641

295

\newpage

Secuencia ID 642

296

\vskip1.000000\baselineskip

Secuencia ID 643

297

\vskip1.000000\baselineskip

Secuencia ID 644

298

\newpage

Secuencia ID - 645 nt: 649

299

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 646 nt: 600

300

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 647

301

\newpage

Secuencia ID 648

\hskip0,5cm2007

\vskip1.000000\baselineskip

Secuencia ID - 649 nt: 425

302

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 650

303

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 651 nt: 251

304

\newpage

Secuencia ID 652

305

\vskip1.000000\baselineskip

Secuencia ID 653

306

\vskip1.000000\baselineskip

Secuencia ID 654

307

\vskip1.000000\baselineskip

Secuencia ID 655

308

\newpage

Secuencia ID 656

309

\vskip1.000000\baselineskip

Secuencia ID 657

310

\vskip1.000000\baselineskip

Secuencia ID 658

311

\newpage

Secuencia ID 660

312

\vskip1.000000\baselineskip

Secuencia ID 661

313

\vskip1.000000\baselineskip

Secuencia ID - 663 nt: 627

314

\newpage

Secuencia ID - 665 nt: 345

315

\vskip1.000000\baselineskip

Secuencia ID - 666 nt: 252

316

\vskip1.000000\baselineskip

Secuencia ID 669

317

\vskip1.000000\baselineskip

Secuencia ID 670

318

\newpage

Secuencia ID 671

319

\vskip1.000000\baselineskip

Secuencia ID 672

320

\vskip1.000000\baselineskip

Secuencia ID 673

321

\newpage

Secuencia ID 674

322

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 675 nt: 591

323

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 676

324

\newpage

Secuencia ID 679

325

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 682

326

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 683

327

\newpage

Secuencia ID - 684 nt: 545

328

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 685

329

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 686

330

\newpage

Secuencia ID - 687 nt: 268

331

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 688 nt: 569

332

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 689

333

\newpage

Secuencia ID 690

334

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 691

335

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 692

336

\newpage

Secuencia ID 693

337

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 694

338

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 696

339

\newpage

Secuencia ID 697

340

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 698

341

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 699

342

\newpage

Secuencia ID 700

343

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 701 nt: 579

344

\newpage

Secuencia ID 702

345

\vskip1.000000\baselineskip

Secuencia ID 703

346

\vskip1.000000\baselineskip

Secuencia ID 704

347

\vskip1.000000\baselineskip

Secuencia ID 705

348

\vskip1.000000\baselineskip

Secuencia ID - 706 nt: 496

349

\vskip1.000000\baselineskip

Secuencia ID - 707 nt: 397

350

\newpage

Secuencia ID - 708 nt: 293

351

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 709

352

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 710

353

\newpage

Secuencia ID - 711 nt: 498

354

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 713

355

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 714

356

\newpage

Secuencia ID 717

357

\vskip1.000000\baselineskip

Secuencia ID 718

358

\vskip1.000000\baselineskip

Secuencia ID 719

359

\newpage

Secuencia ID 720

360

Secuencia ID 721

361

Secuencia ID 722

362

Secuencia ID 724

363

\vskip1.000000\baselineskip

Secuencia ID - 726 nt: 260

364

\vskip1.000000\baselineskip

Secuencia ID 727

365

Secuencia ID 728

366

\newpage

Secuencia ID - 736 nt: 641

367

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 739

368

\newpage

Secuencia ID 747

369

\vskip1.000000\baselineskip

Secuencia ID - 757 nt: 583

370

\vskip1.000000\baselineskip

Secuencia ID - 758 nt: 424

371

\newpage

Secuencia ID - 764 nt: 626

372

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 766

373

\newpage

Secuencia ID 768

374

\vskip1.000000\baselineskip

Secuencia ID 773

375

\vskip1.000000\baselineskip

Secuencia ID 776

376

\vskip1.000000\baselineskip

Secuencia ID 782

377

\vskip1.000000\baselineskip

Secuencia ID - 785 nt: 556

378

\vskip1.000000\baselineskip

Secuencia ID 796

379

\newpage

Secuencia ID 801

380

\vskip1.000000\baselineskip

Secuencia ID - 808 nt: 641

381

\vskip1.000000\baselineskip

Secuencia ID - 814 nt: 132

382

\newpage

Secuencia ID 817

383

Secuencia ID - 821 nt: 370

384

Secuencia ID 825

385

\vskip1.000000\baselineskip

Secuencia ID 833

386

\vskip1.000000\baselineskip

Secuencia ID - 837 nt: 603

387

\vskip1.000000\baselineskip

Secuencia ID - 839 nt: 71

388

\newpage

Secuencia 849 nt: 622

389

Secuencia ID - 860 nt: 501

390

Secuencia ID 864

391

Secuencia ID - 865 nt: 122

392

\vskip1.000000\baselineskip

Secuencia ID 867

393

\vskip1.000000\baselineskip

Secuencia ID - 869 nt: 667

394

\newpage

Secuencia ID 870

395

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 871 nt: 642

396

\newpage

Secuencia ID - 873

397

\vskip1.000000\baselineskip

Secuencia ID 875

398

\vskip1.000000\baselineskip

Secuencia ID - 876 nt: 115

399

\newpage

Secuencia ID - 878 nt: 634

400

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 879

401

\newpage

Secuencia ID 881

402

Secuencia ID 883

403

Secuencia ID 885

1001

\vskip1.000000\baselineskip

Secuencia ID 887

404

\vskip1.000000\baselineskip

Secuencia ID 889

405

\vskip1.000000\baselineskip

Secuencia ID 890

406

\newpage

Secuencia ID - 891 nt: 626

407

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 893 nt: 585

408

\newpage

Secuencia ID - 895 nt: 560

409

\vskip1.000000\baselineskip

Secuencia ID 896

410

\vskip1.000000\baselineskip

Secuencia ID - 897 nt: 509

411

\vskip1.000000\baselineskip

Secuencia ID 898

412

\vskip1.000000\baselineskip

Secuencia ID 899

\hskip0,5cm413

\vskip1.000000\baselineskip

Secuencia ID 900

414

\vskip1.000000\baselineskip

Secuencia ID 903

415

\newpage

Secuencia ID 904

416

\vskip1.000000\baselineskip

Secuencia ID - 905 nt: 655

417

\vskip1.000000\baselineskip

Secuencia ID 906

418

\newpage

Secuencia ID - 907 nt: 582

419

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 908

420

\newpage

Secuencia ID 910

421

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 911 nt: 595

422

\newpage

Secuencia ID - 912 nt: 651

423

Secuencia ID 913

424

Secuencia ID 914

426

\vskip1.000000\baselineskip

Secuencia ID - 915 nt: 230

427

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 917

428

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 926

429

\newpage

Secuencia ID 938

430

\vskip1.000000\baselineskip

Secuencia ID - 939 nt: 513

431

\vskip1.000000\baselineskip

Secuencia ID 947

432

\newpage

Secuencia ID 949

433

\vskip1.000000\baselineskip

Secuencia ID 1028

434

\vskip1.000000\baselineskip

Secuencia ID - 1056 nt: 435

435

\vskip1.000000\baselineskip

Secuencia ID 1071

436

\vskip1.000000\baselineskip

Secuencia ID - 1074 nt: 689

437

\vskip1.000000\baselineskip

Secuencia ID 1081

438

\vskip1.000000\baselineskip

Secuencia ID - 1083 NT: 198

439

\newpage

Secuencia ID - 1084 NT: 198

440

\vskip1.000000\baselineskip

Secuencia ID - 1099 NT: 561

441

\vskip1.000000\baselineskip

Secuencia ID 1109

442

\newpage

Secuencia ID 1118

443

\vskip1.000000\baselineskip

Secuencia ID 1125

444

\vskip1.000000\baselineskip

Secuencia ID - 1139 nt: 503

445

\newpage

Secuencia ID - 1148 nt: 587

446

Secuencia ID - 1160 nt: 650

447

Secuencia ID - 1165 nt: 502

448

\vskip1.000000\baselineskip

Secuencia ID - 1172 nt: 648

449

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1178

450

\newpage

Secuencia ID - 1180 nt: 622

451

\vskip1.000000\baselineskip

Secuencia ID - 1181 nt: 155

452

\vskip1.000000\baselineskip

Secuencia ID 1182

453

\newpage

Secuencia ID - 1183 nt: 479

454

\vskip1.000000\baselineskip

Secuencia ID - 1185 nt: 628

455

\vskip1.000000\baselineskip

Secuencia ID - 1186 nt: 494

456

\newpage

Secuencia ID - 1188 nt: 599

457

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1189

458

\newpage

Secuencia ID 1190

459

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1191

460

\newpage

Secuencia ID 1192

461

\vskip1.000000\baselineskip

Secuencia ID 1193

462

\vskip1.000000\baselineskip

Secuencia ID 1195

463

\vskip1.000000\baselineskip

Secuencia ID - 1196 nt: 412

464

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1197

465

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1198

466

\newpage

Secuencia ID - 1199 nt: 439

467

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 1200 nt: 526

468

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 1201 nt: 613

469

\vskip1.000000\baselineskip

Secuencia ID 1202

470

\vskip1.000000\baselineskip

Secuencia ID - 1203 nt: 692

471

\vskip1.000000\baselineskip

Secuencia ID 1204

472

\vskip1.000000\baselineskip

Secuencia ID 1205

473

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 1207 nt: 642

474

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1208

475

\newpage

Secuencia ID - 1209 nt: 620

476

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1210

477

\newpage

Secuencia ID 1211

478

\vskip1.000000\baselineskip

Secuencia ID - 1212 nt: 374

479

\vskip1.000000\baselineskip

Secuencia ID - 1213 nt: 567

480

\newpage

Secuencia ID - 1214 nt: 620

481

\vskip1.000000\baselineskip

Secuencia ID 1215

482

\vskip1.000000\baselineskip

Secuencia ID - 1216 nt: 484

483

\newpage

Secuencia ID 1217

484

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1218

485

\newpage

Secuencia ID - 1219 nt: 559

486

\vskip1.000000\baselineskip

Secuencia ID 1220

487

\vskip1.000000\baselineskip

Secuencia ID - 1221 nt: 741

488

Secuencia ID - 1224 nt: 485

489

Secuencia ID 1226

490

\vskip1.000000\baselineskip

Secuencia ID 1228

491

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 1230 nt: 741

492

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 1231 nt: 203

493

\newpage

Secuencia ID 1239

494

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1255

495

\newpage

Secuencia ID 1256

496

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1331

497

\vskip1.000000\baselineskip

Secuencia ID 1332

498

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1335

499

\newpage

Secuencia ID 1336

500

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1337

501

\newpage

Secuencia ID 1338

502

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1344

503

\newpage

Secuencia ID 1348

504

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1351

505

\newpage

Secuencia ID 1352

506

\vskip1.000000\baselineskip

Secuencia ID 1353

507

\vskip1.000000\baselineskip

Secuencia ID 1355

508

\newpage

Secuencia ID 1359

509

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1360

510

\newpage

Secuencia ID 1361

511

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1364

512

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1365

513

\newpage

Secuencia ID 1366

514

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1367

515

\newpage

Secuencia ID 1368

516

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1369

517

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1370

518

\newpage

Secuencia ID 1371

519

\vskip1.000000\baselineskip

Secuencia ID 1372

520

\vskip1.000000\baselineskip

Secuencia ID 1374

521

\vskip1.000000\baselineskip

Secuencia ID 1378

522

\vskip1.000000\baselineskip

Secuencia ID 1380

523

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1382

524

\vskip1.000000\baselineskip

Secuencia ID 1387

525

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1389

526

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1390

527

\newpage

Secuencia ID 1391

528

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1392

529

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1394

530

\vskip1.000000\baselineskip

Secuencia ID 1395

531

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1396

532

\newpage

Secuencia ID 1397

533

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1399

534

\newpage

Secuencia ID 1440

535

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1447

536

\newpage

Secuencia ID 1448

537

\vskip1.000000\baselineskip

Secuencia ID 1449

538

Secuencia ID 1450

539

\newpage

Secuencia ID 1453

540

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1454

541

\newpage

Secuencia ID 1456

542

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1460

543

\newpage

Secuencia ID 1490

544

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID 1491

545

\newpage

Secuencia ID 1492

546

\vskip1.000000\baselineskip

Secuencia ID 1493

547

\vskip1.000000\baselineskip

Secuencia ID 1494

548

\vskip1.000000\baselineskip

Secuencia ID 1495

549

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID G6

550

\vskip1.000000\baselineskip

\vskip1.000000\baselineskip

Secuencia ID - 61 nt: 362

551

\newpage

Secuencia ID - 490 nt: 382

552

\vskip1.000000\baselineskip

Secuencia ID - 892 nt: 559

553

\vskip1.000000\baselineskip

Secuencia ID - 77 nt: 464

554

Claims

1. Un conjunto de menos de 1.000 sondas oligonucleotídicas, en el que dicho conjunto comprende los oligonucleótidos descritos en la Tabla 2b para los que se proporcionan las secuencias que tienen las secuencias como se muestra en la secuencia No. 61, 77, 93, 108, 110, 192, 250, 308, 309, 310, 321, 327, 338, 339, 360, 361, 364, 365, 368, 378, 380, 381, 382, 384, 390, 391, 397, 398, 401, 403, 406, 411, 412, 413, 414, 415, 416, 418, 421, 423, 424, 428, 434, 436, 438, 441, 442, 450, 452, 453, 458, 460, 463, 464, 469, 471, 473, 474, 475, 476, 477, 478, 479, 482, 483, 485, 487, 488, 489, 492, 493, 494, 495, 503, 504, 505, 506, 507, 508, 509, 510, 512, 513, 515, 518, 519, 521, 523, 524, 526, 527, 529, 530, 532, 534, 560, 562, 564, 565, 566, 567, 568, 570, 571, 572, 575, 576, 578, 579, 580, 583, 585, 589, 591, 592, 593, 594, 596, 598, 600, 601, 605, 607, 610, 612, 613, 614, 615, 617, 618, 619, 622, 624, 628, 629, 630, 631, 632, 633, 634, 635, 636, 637, 638, 639, 643, 644, 645, 649, 651, 656, 658, 660, 661, 663, 665, 672, 673, 675, 679, 682, 683, 684, 685, 687, 688, 689, 691, 693, 696, 697, 699, 701, 702, 705, 706, 707, 708, 709, 711, 714, 718, 720, 721, 722, 724, 726, 736, 739, 747, 757, 758, 764, 766, 768, 773, 776, 782, 785, 796, 801, 808, 814, 817, 821, 825, 833, 837, 839, 849, 860, 864, 865, 867, 869, 870, 871, 873, 875, 876, 878, 879, 881, 885, 887, 889, 891, 892, 893, 895, 897, 899, 903, 904, 905, 906, 907, 908, 910, 911, 912, 915, 917, 926, 938, 939, 947, 949, 1.028, 1.056, 1.071, 1.074, 1.081, 1.083, 1.084, 1.099, 1.109, 1.118, 1.125, 1.139, 1.148, 1.160, 1.165, 1.172, 1.178, 1.180, 1.181, 1.182, 1.183, 1.185, 1.186, 1.188, 1.189, 1.190, 1.192, 1.193, 1.195, 1.196, 1.197, 1.198, 1.199, 1.200, 1.201, 1.202, 1.203, 1.204, 1.205, 1.207, 1.208, 1.209, 1.210, 1.211, 1.212, 1.213, 1.214, 1.215, 1.216, 1.217, 1.218, 1.219, 1.220, 1.221, 1.224, 1.226, 1.228, 1.230, 1.231, 1.239, 1.331, 1.332, 1.335, 1.336, 1.337, 1.338, 1.344, 1.348, 1.351, 1.352, 1.353, 1.355, 1.360, 1.361, 1.364, 1.365, 1.366, 1.368, 1.369, 1.370, 1.371, 1.372, 1.374, 1.378, 1.380, 1.382, 1.387, 1.389, 1.390, 1.391, 1.392, 1.394, 1.395, 1.396, 1.397, 1.399, 1.440, 1.448, 1.453, 1.456, 1.460, 1.495 y g6

o un conjunto en el que uno o más de dichos oligonucleótidos está sustituido, en el que cada oligonucleótido que está sustituido está sustituido por una parte de dicho oligonucleótido, parte que tiene una longitud de 15-200 bases, o por un oligonucleótido con una secuencia complementaria a dicho oligonucleótido.

\vskip1.000000\baselineskip

2. Un conjunto de menos de 1.000 sondas oligonucleotídicas, en el que dicho conjunto comprende los oligonucleótidos descritos en la Tabla 4b para los que se proporcionan las secuencias que tienen las secuencias como se muestra en la secuencia No. 299, 300, 302, 304, 306, 308, 309, 310, 311, 313, 314, 315, 316, 321, 322, 323, 324, 325, 326, 327, 328, 330, 331, 335, 337, 338, 339, 360, 361, 363, 364, 365, 366, 368, 369, 370, 371, 373, 374, 378, 380, 381, 382, 383, 384, 386, 387, 388, 389, 390, 391, 394, 395, 396, 397, 398, 399, 400, 401, 402, 403, 405, 406, 407, 408, 409, 410, 411, 412, 412, 413, 414, 415, 416, 417, 418, 419, 420, 421, 422, 423, 424, 425, 426, 427, 428, 429, 430, 431, 432, 433, 434, 435, 436, 438, 441, 442, 446, 447, 448, 450, 452, 453, 454, 458, 459, 460, 461, 462, 463, 464, 469, 471, 472, 473, 474, 475, 476, 477, 478, 479, 481, 482, 483, 484, 485, 487, 488, 489, 490, 491, 492, 493, 494, 495, 496, 497, 499, 500, 502, 503, 504, 505, 506, 507, 508, 509, 510, 512, 513, 515, 518, 519, 521, 523, 524, 524, 526, 527, 529, 530, 532, 533, 534, 560, 561, 562, 563, 564, 565, 566, 567, 568, 570, 571, 572, 574, 575, 576, 577, 578, 579, 580, 581, 582, 583, 585, 586, 587, 588, 589, 590, 591, 592, 593, 594, 595, 596, 597, 598, 599, 600, 601, 602, 603, 605, 606, 607, 609, 610, 611, 612, 613, 614, 615, 617, 618, 619, 621, 622, 624, 625, 626, 627, 628, 629, 630, 631, 632, 634, 635, 636, 637, 638, 639, 641, 642, 643, 644, 645, 646, 647, 648, 649, 650, 651, 652, 653, 654, 655, 656, 657, 658, 660, 661, 663, 665, 666, 669, 670, 671, 672, 673, 674, 675, 676, 679, 682, 683, 684, 685, 686, 687, 688, 689, 690, 691, 692, 693, 694, 696, 697, 698, 699, 700, 701, 702, 703, 704, 705, 706, 707, 708, 709, 710, 711, 713, 714, 717, 718, 719, 720, 721, 722, 724, 726, 727, 728, 870, 871, 873, 878, 879, 883, 885, 887, 889, 890, 892, 893, 895, 896, 897, 898, 899, 900, 903, 904, 905, 906, 907, 908, 910, 911, 912, 913, 914, 915, 1.178, 1.180, 1.181, 1.182, 1.183, 1.185, 1.186, 1.188, 1.189, 1.190, 1.191, 1.193, 1.200, 1.332. 1.336, 1.337, 1.348, 1.351, 1.353, 1.355, 1.359, 1.361, 1.364, 1.365, 1.366, 1.367, 1.368, 1.369, 1.370, 1.372, 1.374, 1.382, 1.387, 1.389, 1.390, 1.391, 1.397, 1.399, 1.440, 1.447, 1.448, 1.449, 1.450, 1.453, 1.454, 1.490, 1.491, 1.492, 1.493, 1.494 y 1.495

\vskip1.000000\baselineskip

3. Un conjunto de sondas oligonucleotídicas según la reivindicación 1 ó 2, en el que cada una de dichas sondas oligonucleotídicas tiene una longitud de 15 a 200 bases.

4. Un conjunto de sondas oligonucleotídicas según la reivindicación 1 a 3, en el que dichas sondas están inmovilizadas en uno o más soportes sólidos.

5. Un conjunto de sondas oligonucleotídicas según la reivindicación 4, en el que dicho soporte sólido es una lámina, filtro, membrana, placa o biochip.

6. Un kit que comprende un conjunto de sondas oligonucleotídicas según la reivindicación 4 ó 5 inmovilizado en uno o más soportes sólidos.

7. Un kit según la reivindicación 6 en el que dichas sondas están inmovilizadas en un único soporte sólido y cada sonda única se une a una región diferente de dicho soporte sólido.

8. Un kit según la reivindicación 6 ó 7 que comprende además materiales de estandarización.

9. El uso de un conjunto de sondas como se ha descrito en una cualquiera de las reivindicaciones 1 a 5 o un kit según se ha descrito en una cualquiera de las reivindicaciones 6 a 8 para determinar el patrón de expresión génica de una célula en una muestra de sangre reflejando este patrón el nivel de expresión génica de los genes a los que se unen dichas sondas oligonucleotídicas, que comprende al menos las etapas de:

b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 1 a 8; y

c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir dicho patrón.

\vskip1.000000\baselineskip

10. Un método para preparar un patrón de transcrito génico estándar característico de cáncer de mama o enfermedad de Alzheimer o un estadio de ésta en un organismo que comprende al menos las etapas de:

b) hibridar el ARNm o ADNc de la etapa (a) de un organismo con cáncer de mama o un estadio de éste con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 1 ó 3 a 8 específico para cáncer de mama o un estadio de éste en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando o hibridar el ARNm o ADNc de la etapa (a) de un organismo con enfermedad de Alzheimer o un estadio de ésta con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 2 a 8 específico para la enfermedad de Alzheimer o un estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y

c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir un patrón característico que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos, en la muestra con cáncer de mama o enfermedad de Alzheimer o un estadio de éstas.

\vskip1.000000\baselineskip

11. Un método para preparar un patrón de transcritos génicos de ensayo que comprende al menos las etapas de:

b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 1 ó 3 a 8 específicos para cáncer de mama o un estadio de éste en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando, o con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 2 a 8 específicos para enfermedad de Alzheimer o un estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y

\vskip1.000000\baselineskip

12. Un método para diagnosticar o identificar o monitorizar cáncer de mama o enfermedad de Alzheimer o un estadio de ésta en un organismo, que comprende las etapas de:

b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 1 ó 3 a 8 específicos para cáncer de mama o un estadio de éste en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando, o con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 2 a 8 específicos para enfermedad de Alzheimer o un estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando;

c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir un patrón característico que refleja el nivel de expresión génica de genes a los que se unen dichos oligonucleótidos en dicha muestra; y

d) comparar dicho patrón con un patrón estándar de diagnóstico preparado como se ha descrito en la reivindicación 10 usando una muestra de un organismo correspondiente al organismo y muestra que se está investigando para determinar el grado de correlación indicativo de la presencia de cáncer de mama o enfermedad de Alzheimer o un estadio de ésta en el organismo que se está investigando.

\vskip1.000000\baselineskip

13. Un método según una cualquiera de las reivindicaciones 10 a 12 en el que dicho ARNm o ADNc se amplifica antes de la etapa b).

14. Un método según una cualquiera de las reivindicaciones 10 a 13 en el que los oligonucleótidos y/o el ARNm o ADNc están marcados.

15. Un método según una cualquiera de las reivindicaciones 10 a 14 en el que dicho patrón se expresa como una matriz de números que se refieren al nivel de expresión asociado con cada sonda.

16. Un método según una cualquiera de las reivindicaciones 10 a 15 en el que dicho organismo es un organismo eucariota, preferiblemente un mamífero.

17. Un método según la reivindicación 16 en el que dicho organismo es un ser humano.

18. Un método según una cualquiera de las reivindicaciones 10 a 15 en el que los datos que constituyen dicho patrón se proyectan matemáticamente en un modelo de clasificación.

19. Un método según una cualquiera de las reivindicaciones 10 a 18 en el que las células de la muestra no son células enfermas, no han estado en contacto con dichas células y no se originan del sitio de la enfermedad o condición.

20. Un método para identificar sondas útiles para diagnosticar o identificar o monitorizar cáncer de mama o enfermedad de Alzheimer o un estadio de ésta en un organismo, que comprende las etapas de:

a) inmovilizar un conjunto de sondas oligonucleotídicas, como se ha descrito en la reivindicación 1 para cáncer de mama o reivindicación 2 para la enfermedad de Alzheimer en un soporte sólido;

f) normalizar y estandarizar dicho conjunto de datos de la etapa (e);