ES2342161T3 - Producto y metodo. - Google Patents

Producto y metodo. Download PDF

Info

Publication number
ES2342161T3
ES2342161T3 ES03777005T ES03777005T ES2342161T3 ES 2342161 T3 ES2342161 T3 ES 2342161T3 ES 03777005 T ES03777005 T ES 03777005T ES 03777005 T ES03777005 T ES 03777005T ES 2342161 T3 ES2342161 T3 ES 2342161T3
Authority
ES
Spain
Prior art keywords
baselineskip
sequence
probes
sample
organism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03777005T
Other languages
English (en)
Inventor
Praveen Sharma
Narinder Singh Sahni
Anders Lonneborg
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Diagenic AS
Original Assignee
Diagenic AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Diagenic AS filed Critical Diagenic AS
Application granted granted Critical
Publication of ES2342161T3 publication Critical patent/ES2342161T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6893Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids related to diseases not provided for elsewhere
    • G01N33/6896Neurological disorders, e.g. Alzheimer's disease
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/30Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Microbiology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Neurology (AREA)
  • Cell Biology (AREA)
  • Neurosurgery (AREA)
  • Theoretical Computer Science (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Un conjunto de menos de 1.000 sondas oligonucleotídicas, en el que dicho conjunto comprende los oligonucleótidos descritos en la Tabla 2b para los que se proporcionan las secuencias que tienen las secuencias como se muestra en la secuencia No. 61, 77, 93, 108, 110, 192, 250, 308, 309, 310, 321, 327, 338, 339, 360, 361, 364, 365, 368, 378, 380, 381, 382, 384, 390, 391, 397, 398, 401, 403, 406, 411, 412, 413, 414, 415, 416, 418, 421, 423, 424, 428, 434, 436, 438, 441, 442, 450, 452, 453, 458, 460, 463, 464, 469, 471, 473, 474, 475, 476, 477, 478, 479, 482, 483, 485, 487, 488, 489, 492, 493, 494, 495, 503, 504, 505, 506, 507, 508, 509, 510, 512, 513, 515, 518, 519, 521, 523, 524, 526, 527, 529, 530, 532, 534, 560, 562, 564, 565, 566, 567, 568, 570, 571, 572, 575, 576, 578, 579, 580, 583, 585, 589, 591, 592, 593, 594, 596, 598, 600, 601, 605, 607, 610, 612, 613, 614, 615, 617, 618, 619, 622, 624, 628, 629, 630, 631, 632, 633, 634, 635, 636, 637, 638, 639, 643, 644, 645, 649, 651, 656, 658, 660, 661, 663, 665, 672, 673, 675, 679, 682, 683, 684, 685, 687, 688, 689, 691, 693, 696, 697, 699, 701, 702, 705, 706, 707, 708, 709, 711, 714, 718, 720, 721, 722, 724, 726, 736, 739, 747, 757, 758, 764, 766, 768, 773, 776, 782, 785, 796, 801, 808, 814, 817, 821, 825, 833, 837, 839, 849, 860, 864, 865, 867, 869, 870, 871, 873, 875, 876, 878, 879, 881, 885, 887, 889, 891, 892, 893, 895, 897, 899, 903, 904, 905, 906, 907, 908, 910, 911, 912, 915, 917, 926, 938, 939, 947, 949, 1.028, 1.056, 1.071, 1.074, 1.081, 1.083, 1.084, 1.099, 1.109, 1.118, 1.125, 1.139, 1.148, 1.160, 1.165, 1.172, 1.178, 1.180, 1.181, 1.182, 1.183, 1.185, 1.186, 1.188, 1.189, 1.190, 1.192, 1.193, 1.195, 1.196, 1.197, 1.198, 1.199, 1.200, 1.201, 1.202, 1.203, 1.204, 1.205, 1.207, 1.208, 1.209, 1.210, 1.211, 1.212, 1.213, 1.214, 1.215, 1.216, 1.217, 1.218, 1.219, 1.220, 1.221, 1.224, 1.226, 1.228, 1.230, 1.231, 1.239, 1.331, 1.332, 1.335, 1.336, 1.337, 1.338, 1.344, 1.348, 1.351, 1.352, 1.353, 1.355, 1.360, 1.361, 1.364, 1.365, 1.366, 1.368, 1.369, 1.370, 1.371, 1.372, 1.374, 1.378, 1.380, 1.382, 1.387, 1.389, 1.390, 1.391, 1.392, 1.394, 1.395, 1.396, 1.397, 1.399, 1.440, 1.448, 1.453, 1.456, 1.460, 1.495 y g6 o un conjunto en el que uno o más de dichos oligonucleótidos está sustituido, en el que cada oligonucleótido que está sustituido está sustituido por una parte de dicho oligonucleótido, parte que tiene una longitud de 15-200 bases, o por un oligonucleótido con una secuencia complementaria a dicho oligonucleótido.

Description

Producto y método.
La presente invención se refiere a sondas oligonucleotídicas, para usarse en la evaluación de los niveles de transcritos génicos en una célula, que pueden usarse en técnicas analíticas, particularmente técnicas de diagnóstico. Convenientemente, las sondas se proporcionan en forma de kit. Pueden usarse diferentes conjuntos de sondas en técnicas para preparar patrones de expresión génica e identificar, diagnosticar o monitorizar diferentes estados, tales como enfermedades, condiciones o estadios de éstas. También se proporcionan métodos para identificar sondas adecuadas y su uso en métodos de la invención.
La identificación de métodos rápidos y sencillos para el análisis de muestras, por ejemplo, para aplicaciones diagnósticas, permanece como el objetivo de muchos investigadores. Los usuarios finales solicitan métodos que sean rentables, que produzcan resultados estadísticamente significativos y que puedan implementarse rutinariamente sin la necesidad de individuos con gran experiencia técnica.
El análisis de la expresión génica en las células se ha usado para proporcionar información sobre el estado de esas células y en gran medida sobre el estado del individuo del que se obtienen las células. Se ha identificado que la expresión relativa de varios genes en una célula es el reflejo de un estado particular en un cuerpo. Por ejemplo, se sabe que las células cancerosas presentan una expresión alterada de varias proteínas y que los transcritos o las proteínas expresadas pueden usarse, por lo tanto, como marcadores de ese estado patológico.
Así, puede analizarse el tejido de biopsias para la presencia de estos marcadores y pueden identificarse las células que se originan a partir del sitio de la enfermedad en otros tejidos o fluidos del cuerpo por la presencia de los marcadores.
Además, los productos de la expresión alterada pueden liberarse en la corriente sanguínea y estos productos pueden analizarse. Además, las células que han entrado en contacto con células enfermas pueden resultar afectadas por su contacto directo con esas células lo que resulta en expresión génica alterada y su expresión o productos de la expresión pueden analizarse de manera similar.
Sin embargo, hay algunas limitaciones con estos métodos. Por ejemplo, el uso de marcadores tumorales específicos para identificar cáncer presenta varios defectos, tales como ausencia de especificidad o sensibilidad, asociación del marcador con estados patológicos además del tipo de cáncer específico, y dificultad de detección en individuos asintomáticos.
Además del análisis de uno o dos transcritos o proteínas marcadoras, se han analizado, más recientemente, los patrones de expresión génica. Affymetrix ha descrito un conjunto seleccionado de oligonucleótidos que abarca más de 39.000 transcritos que permitirían dicho análisis (Affymetrix GeneChip Human Genome U133 Assay Set HG-U133A, Base de Datos GEO NCBI, No. de Acceso GPL96). La mayor parte del trabajo que implica análisis de expresión génica a gran escala con implicaciones en el diagnóstico de enfermedades ha implicado muestras clínicas que tienen su origen en tejidos o células enfermas. Por ejemplo, varias publicaciones recientes, que demuestran que los datos de expresión génica pueden usarse para distinguir entre tipos de cáncer similares, han usado muestras clínicas de tejidos o células enfermos (Alon et al. 1999, PNAS, 96, p6745-6750; Golub et al. 1999, Science, 286, p531-537; Alizadeh et al, 2000, Nature, 403, p503-511; Bittner et al., 2000, Nature, 406, p536-540). WO 02/059271 describe genes que se expresan de manera diferente en biopsias tumorales comparado con tejidos normales y su uso en métodos de diagnóstico.
Sin embargo, estos métodos se han basado en el análisis de una muestra que contiene células enfermas o productos de estas células o células que han entrado en contacto con células enfermas. El análisis de dichas muestras se basa en el conocimiento de la presencia de una enfermedad y su localización, que puede ser difícil en pacientes asintomáticos. Además, las muestras no siempre pueden tomarse del sitio de la enfermedad, p. ej., en las enfermedades del cerebro.
En un descubrimiento de gran significancia, los presentes inventores identificaron el potencial previamente sin explotar de todas las células de un cuerpo para proporcionar información respecto al estado del organismo del que se obtuvieron las células. WO98/49342 describe el análisis de la expresión génica de células distantes del sitio de la enfermedad, p. ej. sangre periférica recogida lejos de un sitio de cáncer.
Este descubrimiento se basa en la premisa de que las diferentes partes del cuerpo de un organismo existen en interacción dinámica entre sí. Cuando una enfermedad afecta una parte del cuerpo, también resultan afectadas otras partes del cuerpo. La interacción resulta de una amplio espectro de señales bioquímicas que se liberan desde el área enferma, afectando otras áreas del cuerpo. Aunque la naturaleza de los cambios bioquímicos y fisiológicos inducidos por las señales liberadas puede variar en las diferentes partes del cuerpo, los cambios pueden medirse al nivel de la expresión génica y usarse para propósitos de diagnóstico.
El estado fisiológico de una célula en un organismo se determina por el patrón con el que los genes se expresan en él. El patrón depende de los estímulos biológicos internos y externos a los que está expuesta dicha célula, y cualquier cambio tanto en la magnitud como en la naturaleza de estos estímulos puede dar lugar a un cambio en el patrón con el que se expresan los diferentes genes en la célula. Existe una comprensión creciente de que mediante el análisis de los cambios sistémicos en los patrones de expresión génica en células de muestras biológicas, es posible proporcionar información sobre el tipo y naturaleza de los estímulos biológicos que están actuando sobre ellas. Así, por ejemplo, monitorizando la expresión de una gran número de genes en células de una muestra de ensayo, es posible determinar si sus genes se expresan con un patrón característico para una enfermedad, condición particular o estadio de éstas. La medición de los cambios de las actividades génicas en células, p. ej. de tejidos o fluidos corporales, se está revelando, por lo tanto, como una herramienta potente para el diagnóstico de enfermedades.
Dichos métodos tienen varias ventajas. A menudo, la obtención de muestras clínicas de determinadas áreas del cuerpo que está enfermo puede ser difícil y puede implicar invasiones no deseadas del cuerpo, por ejemplo la biopsia se usa a menudo para obtener muestras de cáncer. En algunos casos, tal como en la enfermedad de Alzheimer, el espécimen de cerebro enfermo sólo puede obtenerse post-mortem. Además, los especímenes de tejido que se obtienen son a menudo heterogéneos y pueden contener una mezcla de células enfermas y no enfermas, lo que hace que el análisis de los datos de expresión génica generados sea complejo y difícil.
Se ha sugerido que un conjunto de tejidos tumorales que parece ser homogéneo patogenéticamente respecto a las apariencias morfológicas del tumor puede ser altamente heterogéneo a nivel molecular (Alizadeh, 2000, supra) y, de hecho, podría contener tumores que representan enfermedades esencialmente diferentes (Alizadeh, 2000, supra; Golub, 1999, supra). Para el propósito de identificar una enfermedad, condición o un estadio de éstas, es altamente deseable cualquier método que no requiera muestras clínicas que se originen directamente de tejidos o células enfermas ya que las muestras clínicas que representan una mezcla homogénea de tipos celulares pueden obtenerse de una región fácilmente accesible del cuerpo.
Whitney et al. (2003, PNAS, Vol. 100(4), p 1896-1901) han analizado la individualidad y variación de los patrones de expresión génica en sangre normal para proporcionar una base de datos con la que pueden compararse los patrones de expresión génica asociados a enfermedades. Los métodos para analizar conjuntos de datos complejos los han revisado Sherlock et al. (2000, Current Opinion in Immunology, Vol. 12, p 201-205).
Ahora hemos identificado un conjunto de sondas con una utilidad sorprendente para identificar una o más enfermedades. Así, describimos ahora sondas y conjuntos de sondas obtenidas de células que no son células enfermas y que no han entrado en contacto con células enfermas, que corresponden a genes que presentan una expresión alterada en individuos normales frente a enfermos, para usarse en métodos para identificar, diagnosticar o monitorizar determinadas condiciones, particularmente enfermedades o estadios de éstas.
Se describe un conjunto de sondas oligonucleotídicas que corresponde a genes en una célula cuya expresión está afectada en un patrón característico de una enfermedad, condición particular o estadio de éstas, en el que dichos genes están afectados sistémicamente por dicha enfermedad, condición o estadio de éstas. Preferiblemente, dichos genes son genes metabólicos o de mantenimiento y preferiblemente se expresan constitutivamente de forma moderada o alta.
Preferiblemente, los genes se expresan de forma moderada o alta en las células de la muestra pero no en células de células enfermas o en células que han entrado en contacto con dichas células enfermas.
Dichas sondas, particularmente cuando se aíslan de células distantes del sitio de la enfermedad, no dependen del desarrollo de la enfermedad para alcanzar niveles clínicamente reconocibles y permiten la detección de una enfermedad o condición o estadio de éstas muy poco después de la aparición de dicha enfermedad o condición, incluso años antes de que aparezcan otros síntomas subjetivos u objetivos.
Tal y como se usa en la presente memoria genes afectados "sistémicamente" se refiere a genes cuya expresión está afectada en el cuerpo sin contacto directo con una célula enferma o sitio enfermo y las células que se están investigando no son células enfermas.
"Contacto" tal y como se refiere en la presente memoria se refiere a células que están muy cerca entre sí de manera que puede observarse el efecto directo de una célula sobre la otra, p. ej. una respuesta inmune, en la que estas respuestas no están mediadas por moléculas secundarias liberadas por la primera célula a gran distancia para afectar a la segunda célula. Preferiblemente, contacto se refiere a contacto físico, o contacto tan cercano como sea estéricamente posible, convenientemente, las células que entran en contacto entre sí se encuentran en la misma unidad de volumen, por ejemplo, en 1 cm^{3}.
Una "célula enferma" es una célula que manifiesta cambios fenotípicos y está presente en el sitio de la enfermedad en algún momento durante su vida, p. ej. una célula tumoral en el sitio tumoral o que se ha diseminado desde el tumor, o una célula cerebral en el caso de trastornos cerebrales tal como la enfermedad de Alzheimer.
Genes "metabólicos" o de "mantenimiento" se refiere a aquellos genes responsables de expresar productos implicados en la división y mantenimiento celular, p. ej. genes relacionados con funciones no inmunes.
Genes expresados de forma "moderada o alta" se refiere a aquellos presentes en células en reposo con un número de copias de más de 30-100 copias/célula (asumiendo una media de 3x10^{5} moléculas de ARNm en una célula).
En la presente memoria se proporcionan sondas específicas que tienen las propiedades descritas anteriormente.
La presente descripción describe un conjunto de sondas oligonucleotídicas, en el que dicho conjunto comprende al menos 10 oligonucleótidos seleccionados de:
un oligonucleótido como se describe en la Tabla 1 u
obtenido de una secuencia descrita en la Tabla 1, o un
oligonucleótido con una secuencia complementaria,
o un oligonucleótido funcionalmente equivalente.
La "Tabla 1" como se refiere en la presente memoria se refiere a la Tabla 1a y/o a la Tabla 1b. La Tabla 1b contiene referencias a clones y secuencias adicionales según se describe en la presente memoria. De forma similar, las Tablas 2 y 4 comprenden 2 partes, a y b.
También se describen una o más sondas oligonucleotídicas, en las que cada sonda oligonucleotídica se selecciona de los oligonucleótidos listados en la Tabla 1, u obtenidos de una secuencia descrita en la Tabla 1, o una secuencia complementaria de éste. También se describe el uso de dichas sondas en productos y métodos como se describe posteriormente en la presente memoria.
Tal y como se refiere en la presente memoria un "oligonucleótido" es una molécula de ácido nucleico que tiene al menos 6 monómeros en la estructura polimérica, es decir, nucleótidos o formas modificadas de éstos. La molécula de ácido nucleico puede ser ADN, ARN o PNA (ácido nucleico peptídico) o híbridos de éstos o versiones modificadas de éstos, p. ej. formas modificadas químicamente, p. ej. LNA (ácido Nucleico Bloqueado), por metilación o hechos a partir de bases modificadas o no naturales durante la síntesis, siempre que retengan su capacidad de unirse a secuencias complementarias. Dichos oligonucleótidos se usan como sonda para secuencias diana y también se refieren así en la presente memoria como sondas oligonucleotídicas o simplemente como sondas.
Un "oligonucleótido obtenido de una secuencia descrita en la Tabla 1" (o de cualquier otra tabla) se refiere a una parte de una secuencia descrita en esa Tabla (p. ej. Tablas 1-4), que satisface los requerimientos de las sondas oligonucleotídicas según se describe en la presente memoria, p. ej. en cuanto a longitud y función. Preferiblemente, dichas partes tienen el tamaño descrito posteriormente en la presente memoria.
Preferiblemente, las sondas oligonucleotídicas que forman dicho conjunto tienen una longitud de al menos 15 bases para permitir la unión de las moléculas diana. De forma especialmente preferida, dichas sondas oligonucleotídicas tienen una longitud de 20 a 200 bases, p. ej. de 30 a 150 bases, preferiblemente una longitud de 50-100 bases.
Tal y como se refiere en la presente memoria el término "secuencias complementarias" se refiere a secuencias con bases complementarias consecutivas (es decir T:A, G:C) y cuyas secuencias complementarias son, por lo tanto capaces de unirse entre sí a través de su complementariedad.
La referencia a "10 oligonucleótidos" se refiere a 10 oligonucleótidos diferentes. Mientras un oligonucleótido de la Tabla 1, un oligonucleótido obtenido de la Tabla 1 y su equivalente funcional, se consideran oligonucleótidos diferentes, los oligonucleótidos complementarios no se consideran diferentes. Preferiblemente, sin embargo, los al menos 10 oligonucleótidos son 10 oligonucleótidos diferentes de la Tabla 1 (u oligonucleótidos obtenidos de la Tabla 1 o sus equivalentes funcionales). Así, dichos 10 oligonucleótidos diferentes son preferiblemente capaces de unirse a 10 transcritos diferentes.
Preferiblemente, dichos oligonucleótidos son como se describe en la Tabla 1 o se obtienen de una secuencia descrita en la Tabla 1. De forma especialmente preferida, dichos oligonucleótidos son como se describe en la Tabla 2 o en la Tabla 4 o se obtienen de una secuencia descrita en cualquiera de esas tablas. De forma especialmente preferida, el oligonucleótido (o el oligonucleótido obtenido de éste) tiene una alta frecuencia de aparición según se define en la Tabla 3, de forma especialmente preferida >40%, p. ej. >80% o >90%, p. ej. 100%.
Un "conjunto" según se describe se refiere a una colección de sondas oligonucleotídicas únicas (es decir, que tienen una secuencia distinta) y preferiblemente consiste en menos de 1.000 sondas oligonucleotídicas, especialmente menos de 500 sondas, p. ej. preferiblemente de 10 a 500, p. ej. 10 a 100, 200 ó 300, de forma especialmente preferida 20 a 100, p. ej. 30 a 100 sondas. En algunos casos pueden usarse menos de 10 sondas, p. ej. de 2 a 9 sondas, p. ej. 5 a 9 sondas.
Se apreciará que el incremento del número de sondas evitará la posibilidad de un análisis pobre, p. ej. diagnóstico erróneo por comparación con otras enfermedades que podrían alterar de forma similar la expresión de los genes particulares en cuestión. También pueden estar presentes otras sondas oligonucleotídicas no descritas en la presente memoria, particularmente si contribuyen en el uso último del conjunto de sondas oligonucleotídicas. Sin embargo, preferiblemente dicho conjunto consiste sólo en dichos oligonucleótidos de la Tabla 1, oligonucleótidos obtenidos de la Tabla 1, secuencias complementarias u oligonucleótidos funcionalmente equivalentes, o un subconjunto de éstos (p. ej. del tamaño según se ha descrito anteriormente), preferiblemente un subconjunto para el que se proporcionan secuencias en la presente memoria (véase la Tabla 1 y su nota al pie). De forma especialmente preferida, dicho conjunto consiste sólo en dichos oligonucleótidos de la Tabla 1, oligonucleótidos obtenidos de la Tabla 1, o secuencias complementarias de éstos, o un subconjunto de éstos.
Así, en un primer aspecto la presente invención proporciona un conjunto de menos de 1.000 sondas oligonucleotídicas, en el que dicho conjunto comprende los oligonucleótidos según se describe en la Tabla 2b para los que se proporcionan las secuencias que tienen las secuencias según se muestra en la secuencia No. 61, 77, 93, 108, 110, 192, 250, 308, 309, 310, 321, 327, 338, 339, 360, 361, 364, 365, 368, 378, 380, 381, 382, 384, 390, 391, 397, 398, 401, 403, 406, 411, 412, 413, 414, 415, 416, 418, 421, 423, 424, 428, 434, 436, 438, 441, 442, 450, 452, 453, 458, 460, 463, 464, 469, 471, 473, 474, 475, 476, 477, 478, 479, 482, 483, 485, 487, 488, 489, 492, 493, 494, 495, 503, 504, 505, 506, 507, 508, 509, 510, 512, 513, 515, 518, 519, 521, 523, 524, 526, 527, 529, 530, 532, 534, 560, 562, 564, 565, 566, 567, 568, 570, 571, 572, 575, 576, 578, 579, 580, 583, 585, 589, 591, 592, 593, 594, 596, 598, 600, 601, 605, 607, 610, 612, 613, 614, 615, 617, 618, 619, 622, 624, 628, 629, 630, 631, 632, 633, 634, 635, 636, 637, 638, 639, 643, 644, 645, 649, 651, 656, 658, 660, 661, 663, 665, 672, 673, 675, 679, 682, 683, 684, 685, 687, 688, 689, 691, 693, 696, 697, 699, 701, 702, 705, 706, 707, 708, 709, 711, 714, 718, 720, 721, 722, 724, 726, 736, 739, 747, 757, 758, 764, 766, 768, 773, 776, 782, 785, 796, 801, 808, 814, 817, 821, 825, 833, 837, 839, 849, 860, 864, 865, 867, 869, 870, 871, 873, 875, 876, 878, 879, 881, 885, 887, 889, 891, 892, 893, 895, 897, 899, 903, 904, 905, 906, 907, 908, 910, 911, 912, 915, 917, 926, 938, 939, 947, 949, 1.028, 1.056, 1.071, 1.074, 1.081, 1.083, 1.084, 1.099, 1.109, 1.118, 1.125, 1.139, 1.148, 1.160, 1.165, 1.172, 1.178, 1.180, 1.181, 1.182, 1.183, 1.185, 1.186, 1.188, 1.189, 1.190, 1.192, 1.193, 1.195, 1.196, 1.197, 1.198, 1.199, 1.200, 1.201, 1.202, 1.203, 1.204, 1.205, 1.207, 1.208, 1.209, 1.210, 1.211, 1.212, 1.213, 1.214, 1.215, 1.216, 1.217, 1.218, 1.219, 1.220, 1.221, 1.224, 1.226, 1.228, 1.230, 1.231, 1.239, 1.331, 1.332, 1.335, 1.336, 1.337, 1.338, 1.344, 1.348, 1.351, 1.352, 1.353, 1.355, 1.360, 1.361, 1.364, 1.365, 1.366, 1.368, 1.369, 1.370, 1.371, 1.372, 1.374, 1.378, 1.380, 1.382, 1.387, 1.389, 1.390, 1.391, 1.392, 1.394, 1.395, 1.396, 1.397, 1.399, 1.440, 1.448, 1.453, 1.456, 1.460, 1.495 y g6
o un conjunto en el que uno o más de dichos oligonucleótidos está sustituido, en el que cada oligonucleótido que está sustituido está sustituido con una parte de dicho oligonucleótido y dicha parte tiene una longitud de 15-200 bases, o con un oligonucleótido con una secuencia complementaria de dicho oligonucleótido.
En un aspecto adicional, la invención proporciona un conjunto de menos de 1.000 sondas oligonucleotídicas, en el que dicho conjunto comprende los oligonucleótidos según se describe en la Tabla 4b para los que se proporcionan secuencias que tienen las secuencias según se muestra en la secuencia No. 299, 300, 302, 304, 306, 308, 309, 310, 311, 313, 314, 315, 316, 321, 322, 323, 324, 325, 326, 327, 328, 330, 331, 335, 337, 338, 339, 360, 361, 363, 364, 365, 366, 368, 369, 370, 371, 373, 374, 378, 380, 381, 382, 383, 384, 386, 387, 388, 389, 390, 391, 394, 395, 396, 397, 398, 399, 400, 401, 402, 403, 405, 406, 407, 408, 409, 410, 411, 412, 412, 413, 414, 415, 416, 417, 418, 419, 420, 421, 422, 423, 424, 425, 426, 427, 428, 429, 430, 431, 432, 433, 434, 435, 436, 438, 441, 442, 446, 447, 448, 450, 452, 453, 454, 458, 459, 460, 461, 462, 463, 464, 469, 471, 472, 473, 474, 475, 476, 477, 478, 479, 481, 482, 483, 484, 485, 487, 488, 489, 490, 491, 492, 493, 494, 495, 496, 497, 499, 500, 502, 503, 504, 505, 506, 507, 508, 509, 510, 512, 513, 515, 518, 519, 521, 523, 524, 524, 526, 527, 529, 530, 532, 533, 534, 560, 561, 562, 563, 564, 565, 566, 567, 568, 570, 571, 572, 574, 575, 576, 577, 578, 579, 580, 581, 582, 583, 585, 586, 587, 588, 589, 590, 591, 592, 593, 594, 595, 596, 597, 598, 599, 600, 601, 602, 603, 605, 606, 607, 609, 610, 611, 612, 613, 614, 615, 617, 618, 619, 621, 622, 624, 625, 626, 627, 628, 629, 630, 631, 632, 634, 635, 636, 637, 638, 639, 641, 642, 643, 644, 645, 646, 647, 648, 649, 650, 651, 652, 653, 654, 655, 656, 657, 658, 660, 661, 663, 665, 666, 669, 670, 671, 672, 673, 674, 675, 676, 679, 682, 683, 684, 685, 686, 687, 688, 689, 690, 691, 692, 693, 694, 696, 697, 698, 699, 700, 701, 702, 703, 704, 705, 706, 707, 708, 709, 710, 711, 713, 714, 717, 718, 719, 720, 721, 722, 724, 726, 727, 728, 870, 871, 873, 878, 879, 883, 885, 887, 889, 890, 892, 893, 895, 896, 897, 898, 899, 900, 903, 904, 905, 906, 907, 908, 910, 911, 912, 913, 914, 915, 1.178, 1.180, 1.181, 1.182, 1.183, 1.185, 1.186, 1.188, 1.189, 1.190, 1.191, 1.193, 1.200, 1.332. 1.336, 1.337, 1.348, 1.351, 1.353, 1.355, 1.359, 1.361, 1.364, 1.365, 1.366, 1.367, 1.368, 1.369, 1.370, 1.372, 1.374, 1.382, 1.387, 1.389, 1.390, 1.391, 1.397, 1.399, 1.440, 1.447, 1.448, 1.449, 1.450, 1.453, 1.454, 1.490, 1.491, 1.492, 1.493, 1.494 y 1.495
o un conjunto en el que uno o más de dichos oligonucleótidos está sustituido, en el que cada oligonucleótido que está sustituido está sustituido con una parte de dicho oligonucleótido y dicha parte tiene una longitud de 15-200 bases, o con un oligonucleótido con una secuencia complementaria de dicho oligonucleótido.
En cada conjunto pueden estar presentes múltiples copias de cada sonda oligonucleotídica única, p. ej. 10 o más copias, pero constituyen sólo una única sonda.
Un conjunto de sondas oligonucleotídicas, que pueden estar preferiblemente inmovilizadas en un soporte sólido o tener medios para dicha inmovilización, comprende las al menos 10 sondas oligonucleotídicas seleccionadas de las descritas anteriormente en la presente memoria. De forma especialmente preferida, dichas sondas se seleccionan de las que aparecen con alta frecuencia según se describe en la Tabla 3 y como se ha mencionado anteriormente. Como se ha mencionado anteriormente, estas 10 sondas deben ser únicas y tener diferentes secuencias. Habiendo dicho esto, sin embargo, pueden usarse dos sondas distintas que reconozcan el mismo gen pero que reflejen distintos eventos de corte y empalme. Sin embargo, se prefieren las sondas oligonucleotídicas que son complementarias de, y se unen a genes distintos.
Como se describe en la presente memoria, un oligonucleótido "funcionalmente equivalente" a los descritos en la Tabla 1 u obtenido de éstos se refiere a un oligonucleótido que es capaz de identificar el mismo gen que un oligonucleótido de la Tabla 1 u obtenido de éstos, es decir, puede unirse a la misma molécula de ARNm (o ADN) transcrita de un gen (molécula de ácido nucleico diana) como el oligonucleótido de la Tabla 1 o el oligonucleótido obtenido de la Tabla 1 (o su secuencia complementaria). Preferiblemente, dicho oligonucleótido funcionalmente equivalente es capaz de reconocer, es decir unirse, al mismo producto de corte y empalme que un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1. Preferiblemente, dicha molécula de ARNm es la molécula de ARNm de longitud completa que corresponde al oligonucleótido de la Tabla 1 o al oligonucleótido obtenido de la Tabla 1.
Tal y como se refiere en la presente memoria "capaz de unirse" o "unirse" se refiere a la capacidad de hibridar en las condiciones descritas posteriormente en la presente memoria.
Expresado de una manera alternativa, los oligonucleótidos funcionalmente equivalentes (o secuencias complementarias) tienen una identidad de secuencia o hibridarán, como se describe posteriormente en la presente memoria, con una región de la molécula diana, molécula a la que se une un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1 o un oligonucleótido complementario. Preferiblemente, los oligonucleótidos funcionalmente equivalentes (o sus secuencias complementarias) hibridan con una de las secuencias de ARNm que corresponde con un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1 en las condiciones descritas posteriormente en la presente memoria o tiene una identidad de secuencia con una parte de una de las secuencias de ARNm que corresponde a un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1. Una "parte" en este contexto se refiere a una cadena de al menos 5, p. ej. al menos 10 ó 20 bases, tal como de 5 a 100, p. ej. 10 a 50 ó 15 a 30 bases.
De forma particularmente preferida, el oligonucleótido funcionalmente equivalente se une a toda o una parte de la región de una molécula de ácido nucleico diana (ARNm o ADNc) a la que se une el oligonucleótido de la Tabla 1 o el oligonucleótido obtenido de la Tabla 1. Una molécula de ácido nucleico "diana" es el transcrito génico o producto relacionado, p. ej. ARNm, o ADNc, o producto amplificado de éstos. Dicha "región" de dicha molécula diana a la que se une dicho oligonucleótido de la Tabla 1 u oligonucleótido obtenido de la Tabla 1 es la cadena sobre la que existe complementariedad. Como máximo, esta región es la longitud completa del oligonucleótido de la Tabla 1 u oligonucleótido obtenido de la Tabla 1, pero puede ser más corta si la secuencia completa de la Tabla 1 o el oligonucleótido obtenido de la Tabla 1 no es complementaria de la región de la secuencia diana.
Preferiblemente, dicha parte de dicha región de dicha molécula diana es una cadena de al menos 5, p. ej. al menos 10 ó 20 bases, tal como de 5 a 100, p. ej. 10 a 50 ó 15 a 30 bases. Esto puede conseguirse, por ejemplo, si dicho oligonucleótido funcionalmente equivalente tiene varias bases idénticas a las bases del oligonucleótido de la Tabla 1 o el oligonucleótido obtenido de la Tabla 1. Estas bases pueden ser idénticas sobre cadenas consecutivas, p. ej. en una parte del oligonucleótido funcionalmente equivalente, o pueden estar presentes de forma no consecutiva, pero proporcionan una complementariedad suficiente para permitir la unión a la secuencia diana.
Así, preferiblemente, dicho oligonucleótido funcionalmente equivalente hibrida en condiciones de alta astringencia con un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1 o la secuencia complementaria de éstos. Expresado de forma alternativa, dicho oligonucleótido funcionalmente equivalente presenta una alta identidad de secuencia con todo o parte de un oligonucleótido de la Tabla 1. Preferiblemente, dicho oligonucleótido funcionalmente equivalente tiene al menos 70% de identidad de secuencia, preferiblemente al menos 80%, p. ej. al menos 90, 95, 98 ó 99%, respecto a la totalidad de un oligonucleótido de la Tabla 1 o una parte de éste. Tal y como se usa en este contexto, una "parte" se refiere a una cadena de al menos 5, p. ej. al menos 10 ó 20 bases, tal como de 5 a 100, p. ej. 10 a 50 ó 15 a 30 bases, en dicho oligonucleótido de la Tabla 1. De forma especialmente preferida, cuando está presente la identidad de secuencia respecto a sólo una parte de dicho oligonucleótido de la Tabla 1, la identidad de secuencia es alta, p. ej. al menos 80% como se ha descrito anteriormente.
Los oligonucleótidos funcionalmente equivalentes que satisfacen los requerimientos funcionales indicados anteriormente incluyen aquellos que se obtienen de los oligonucleótidos de la Tabla 1 y también aquellos que han sido modificados por sustitución, adición y/o deleción única o múltiple de base de nucleótido (o equivalente), pero que sin embargo retienen la actividad funcional, p. ej. unión a la misma molécula diana como el oligonucleótido de la Tabla 1 o el oligonucleótido obtenido de la Tabla 1 a partir de los cuales son obtenidos o modificados adicionalmente. Preferiblemente, dicha modificación es de 1 a 50, p. ej. de 10 a 30, preferiblemente de 1 a 5 bases. De forma especialmente preferida, sólo están presentes modificaciones pequeñas, p. ej. variaciones en menos de 10 bases, p. ej. menos de 5 cambios de base.
Dentro del significado de equivalentes de "adición" se incluyen oligonucleótidos que contienen secuencias adicionales que son complementarias de la cadena consecutiva de bases de la molécula diana a la que se une el oligonucleótido de la Tabla 1 o el oligonucleótido obtenido de la Tabla 1. Alternativamente, la adición puede comprender una secuencia diferente, no relacionada, que puede conferir, por ejemplo, una propiedad adicional, p. ej. para proporcionar un medio para la inmovilización tal como un conector para unir la sonda oligonucleotídica a un soporte sólido.
Son particularmente preferidos los equivalentes naturales tales como variantes biológicas, p. ej. variantes alélicas, geográficas o alotípicas, p. ej. oligonucleótidos que corresponden a una variante genética, por ejemplo, como están presentes en una especie diferente.
\newpage
Los equivalentes funcionales incluyen oligonucleótidos con bases modificadas, p. ej. usando bases no naturales. Dichos derivados pueden prepararse durante la síntesis o por modificación posterior a la producción.
Las secuencias "que hibridan" que se unen en condiciones de baja astringencia son aquellas que se unen en condiciones no astringentes (por ejemplo, 6x SSC/50% formamida a temperatura ambiente) y permanecen unidas cuando se lavan en condiciones de baja astringencia (2 x SSC, temperatura ambiente, más preferiblemente 2 x SSC, 42ºC). La hibridación en alta astringencia se refiere a las condiciones anteriores en las que el lavado se realiza a 2 x SSC, 65ºC (donde SSC = 0,15M NaCl, 0,015M citrato sódico, pH 7,2).
"Identidad de secuencia" tal y como se refiere en la presente memoria se refiere al valor obtenido cuando se evalúa usando ClustalW (Thompson et al., 1994, Nucl. Acids Res., 22, p4673-4680) con los parámetros siguientes:
Parámetros de alineación de parejas de secuencias - Método: preciso, Matriz: IUB, Penalización en la puntuación por cada hueco que se abre: 15,00, Penalización en la puntuación en función de la longitud del hueco: 6,66;
Parámetros de alineación múltiple - Matriz: IUB, Penalización en la puntuación por cada hueco que se abre: 15,00, % identidad para demora: 30, Matriz negativa: no, Penalización en la puntuación en función de la longitud del hueco: 6,66; Peso de las transiciones de ADN: 0,5.
Se pretende que la identidad de secuencia en una base particular incluya bases idénticas que simplemente se han derivatizado.
También se describen polipéptidos codificados por la secuencia de ARNm a la que se une un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1. Se describen adicionalmente anticuerpos que se unen a cualquiera de dichos polipéptidos.
Como se ha descrito anteriormente, dicho conjunto de sondas oligonucleotídicas puede inmovilizarse convenientemente en uno o más soportes sólidos. Una o preferiblemente múltiples copias de cada sonda única se unen a dichos soportes sólidos, p. ej. están presentes 10 o más, p. ej. al menos 100 copias de cada sonda única. En un aspecto adicional de la invención, se inmoviliza el conjunto de sondas que comprende las sondas de la Tabla 2b ó 4b en uno o más soportes sólidos.
Una o más sondas oligonucleotídicas únicas pueden asociarse con soportes sólidos diferentes que forman conjuntamente un conjunto de sondas inmovilizado en un soporte sólido múltiple, p. ej. una o más sondas únicas pueden inmovilizarse en múltiples lechos, membranas, filtros, biochips, etc. que forman conjuntamente un conjunto de sondas, que conjuntamente forman módulos del kit descrito posteriormente en la presente memoria. El soporte sólido de los diferentes módulos está convenientemente asociado físicamente aunque las señales asociadas con cada sonda (generadas como se describe posteriormente en la presente memoria) pueden determinarse independientemente.
Alternativamente, las sondas pueden inmovilizarse en partes discretas del mismo soporte sólido, p. ej. cada sonda oligonucleotídica única, p. ej. en múltiples copias, puede inmovilizarse en una parte o región distinta y discreta de un filtro o membrana único, p. ej. para generar una matriz.
También puede usarse una combinación de dichas técnicas, p. ej. pueden usarse varios soportes sólidos inmovilizando cada uno varias sondas únicas.
La expresión "soporte sólido" significará cualquier material sólido capaz de unir oligonucleótidos por puentes hidrofóbicos, iónicos o covalentes.
"Inmovilización" tal y como se usa en la presente memoria se refiere a la asociación reversible o irreversible de las sondas con dicho soporte sólido mediante dicha unión. Si es reversible, las sondas permanecen asociadas con el soporte sólido durante un tiempo suficiente para llevar a cabo los métodos según se describe en la presente memoria.
En la técnica son muy conocidos numerosos soportes sólidos adecuados como restos inmovilizantes y están ampliamente descritos en la bibliografía y en términos generales, el soporte sólido puede ser cualquiera de los soportes o matrices muy conocidos que se usan actualmente de forma amplia o propuestos para inmovilización, separación etc. en procedimientos químicos o bioquímicos. Dichos materiales incluyen, pero no están limitados a, cualquier polímero orgánico sintético, tal como poliestireno, cloruro de polivinilo, polietileno; o nitrocelulosa y acetato de celulosa; o superficies activadas con tosilo; o vidrio o nilón o cualquier superficie que porte un grupo adecuado para el acoplamiento covalente de ácidos nucleicos. Los restos inmovilizantes pueden tomar la forma de partículas, láminas, geles, filtros, membranas, tiras de microfibra, tubos o placas, fibras o capilares, hechos, por ejemplo, de un material polimérico p. ej. agarosa, celulosa, alginato, teflón, látex o poliestireno o lechos magnéticos. Se prefieren los soportes sólidos que permiten la presentación de una matriz, preferiblemente en una única dimensión, p. ej. láminas, filtros, membranas, placas o biochips.
La unión de las moléculas de ácido nucleico al soporte sólido puede realizarse directamente o indirectamente. Por ejemplo, si se usa un filtro, la unión puede realizarse por entrecruzamiento inducido por UV. Alternativamente, la unión puede realizarse indirectamente mediante el uso de un resto de unión presente en las sondas oligonucleotídicas y/o en el soporte sólido. Así, por ejemplo, puede usarse una pareja de integrantes de unión por afinidad, tales como avidina, estreptavidina o biotina, ADN o proteína de unión al ADN (p. ej. bien la proteína represora de lac I o la secuencia del operador de lac a la que se une), anticuerpos (que pueden ser mono o policlonales), fragmentos de anticuerpo o los epítopos o haptenos de anticuerpos. En estos casos, un integrante de la pareja de unión se une a (o es una parte inherente de) el soporte sólido y el otro integrante se une a (o es una parte inherente de) las moléculas de ácido nucleico.
Tal y como se usa en la presente memoria, una "pareja de unión por afinidad" se refiere a dos componentes que se reconocen y se unen entre sí específicamente (es decir, preferentemente a la unión con otras moléculas). Dichas parejas de unión cuando se unen entre sí forman un complejo.
La unión de grupos funcionales apropiados al soporte sólido puede realizarse mediante métodos muy conocidos en la técnica, que incluyen por ejemplo, unión a través de grupos hidroxilo, carboxilo, aldehído o amino que pueden proporcionarse por tratamiento del soporte sólido para proporcionar recubrimientos de superficie adecuados. Los soportes sólidos que presentan restos apropiados para la unión del integrante de unión pueden producirse por métodos rutinarios conocidos en la técnica.
La unión de grupos funcionales apropiados a las sondas oligonucleotídicas descritas en la presente memoria puede realizarse por ligadura o introducirlos durante la síntesis o amplificación, por ejemplo usando cebadores que tengan un resto apropiado, tal como biotina o una secuencia particular para captura.
Convenientemente, el conjunto de sondas descrito más adelante en la presente memoria se proporciona en forma de kit.
Así, vista desde un aspecto adicional, la presente invención proporciona un kit que comprende un conjunto de sondas oligonucleotídicas de la invención según se describe más adelante en la presente memoria inmovilizado en uno o más soportes sólidos.
Preferiblemente, dichas sondas se inmovilizan en un único soporte sólido y cada sonda única se une a una región diferente de dicho soporte sólido. Sin embargo, cuando se une a múltiples soportes sólidos, dichos múltiples soportes sólidos forman los módulos que forman el kit. De forma especialmente preferida, dicho soporte sólido es una lámina, filtro, membrana, placa o biochip.
Opcionalmente, el kit también puede contener información respecto a las señales generadas por muestras normales o enfermas (como se discute con mayor detalle más adelante en la presente memoria respecto al uso de los kits), materiales para estandarizar, p. ej. ARNm o ADNc de muestras normales y/o enfermas para propósitos de comparación, etiquetas para incorporarse en el ADNc, adaptadores para introducir secuencias de ácido nucleico para propósitos de amplificación, cebadores para la amplificación y/o enzimas, tampones y disoluciones apropiadas. Opcionalmente, dicho kit también puede contener un prospecto que describa cómo debe realizarse el método según se describe en la presente memoria, proporcionando opcionalmente gráficos estándar, datos o un programa informático para la interpretación de los resultados obtenidos cuando se llevan a cabo los métodos descritos en la presente memoria.
El uso de los kits de la invención para preparar un patrón de transcritos génicos estándar para diagnóstico como se describe más adelante en la presente memoria forma un aspecto adicional de la invención.
El conjunto de sondas como se describe en la presente memoria tiene varios usos. Principalmente, sin embargo, se usan para evaluar el estado de la expresión génica de una célula de ensayo para proporcionar información respecto al organismo del que se obtiene dicha célula. Así, las sondas son útiles para el diagnóstico, identificación o monitorización de una enfermedad o condición o estadio de ésta en un organismo.
Así, también se describe en la presente memoria el uso de un conjunto de sondas oligonucleotídicas o un kit como se describe más adelante en la presente memoria para determinar el patrón de expresión génica de una célula cuyo patrón refleja el nivel de la expresión génica de los genes a los que se unen dichas sondas oligonucleotídicas, que comprende al menos las etapas de:
a) aislar el ARNm de dicha célula, que puede opcionalmente transcribirse de forma inversa a ADNc;
b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de sondas oligonucleotídicas o un kit como se define en la presente memoria; y
c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir dicho patrón. En un uso según la invención, el conjunto o kit es un conjunto o kit según la invención.
El ARNm y ADNc según se refieren en este método, y los métodos más adelante en la presente memoria, engloban derivados o copias de dichas moléculas, p. ej. copias de dichas moléculas tales como las producidas por amplificación o la preparación de cadenas complementarias, pero que retienen la identidad de la secuencia de ARNm, es decir, hibridarían con el transcrito directo (o su secuencia complementaria) gracias a complementariedad precisa, o identidad de secuencia, sobre al menos una región de dicha molécula. Se apreciará que la complementariedad no existirá sobre la región completa cuando se han usado técnicas que pueden truncar el transcrito o introducir nuevas secuencias, p. ej. por amplificación con cebadores. Por conveniencia, dicho ARNm o ADNc se amplifica preferiblemente antes de la etapa b). Como con los oligonucleótidos descritos en la presente memoria dichas moléculas pueden modificarse, p. ej. mediante el uso de bases no naturales durante la síntesis siempre que permanezca la complementariedad. Dichas moléculas también pueden portar restos adicionales tales como medios de señalización o inmovilización.
Las diferentes etapas implicadas en el método de preparar dicho patrón están descritas con más detalle más adelante en la presente memoria.
Tal y como se usa en la presente memoria, "expresión génica" se refiere a la transcripción de un gen particular para producir un producto ARNm específico (es decir, un producto de corte y empalme particular). El nivel de la expresión génica puede determinarse evaluando el nivel de las moléculas de ARNm transcritas o moléculas de ADNc transcritas de manera inversa a partir de las moléculas de ARNm o productos derivados de estas moléculas, p. ej. por amplificación.
El "patrón" creado mediante esta técnica se refiere a información que, por ejemplo, puede representarse en forma tabular o gráfica y expresa información acerca de la señal asociada con dos o más oligonucleótidos. Preferiblemente, dicho patrón se expresa como una matriz de números que se refieren al nivel de expresión asociado con cada sonda.
Preferiblemente, dicho patrón se establece usando el modelo lineal siguiente:
Ecuación 1y = Xb + f
en la que X es la matriz de los datos de expresión génica e y es la variable respuesta, b es el vector del coeficiente de regresión y f el vector residual estimado. Aunque pueden usarse diferentes métodos para establecer la relación proporcionada en la ecuación 1, de forma especialmente preferida se usa el método de la Regresión de Mínimos Cuadrados parciales (PLSR) para establecer la relación en la ecuación 1.
Las sondas se usan así para generar un patrón que refleja la expresión génica de una célula en el momento de su aislamiento. El patrón de expresión es característico de las circunstancias bajo las que se encuentra esa célula y depende de las influencias a las que se ha expuesto la célula. Así, un patrón de transcritos génicos estándar o huella (patrón de la sonda estándar) característico para células de un individuo con una enfermedad o condición particular puede prepararse y usarse para compararlo con los patrones de transcritos de células de ensayo. Esto tiene aplicaciones claras en el diagnóstico, monitorización o identificación de si un organismo padece una enfermedad, condición particular o estadio de ésta.
El patrón estándar se prepara determinando el grado de unión del ARNm total (o ADNc o producto relacionado), de células de una muestra de uno o más organismos con la enfermedad o condición o estadio de ésta, a las sondas. Esto refleja el nivel de transcritos que están presentes que corresponden a cada sonda única. La cantidad de material de ácido nucleico que se une a las diferentes sondas se evalúa y esta información en conjunto forma el patrón de transcritos génicos estándar de esa enfermedad o condición o estadio de ésta. Cada uno de dichos patrones estándar es característico de la enfermedad, condición o estadio de ésta.
Por lo tanto, se describe un método para preparar un patrón de transcritos génicos estándar característico de una enfermedad o condición o estadio de ésta en un organismo que comprende al menos las etapas de:
a) aislar el ARNm de las células de una muestra de uno o más organismos que tienen la enfermedad o condición o estadio de ésta, que puede opcionalmente transcribirse de manera inversa a ADNc;
b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit como se ha descrito anteriormente en la presente memoria específico para dicha enfermedad o condición o estadio de ésta en un organismo y muestra de éste que corresponde al organismo y muestra de éste que se está investigando; y
c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir un patrón característico que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos, en la muestra con la enfermedad, condición o estadio de ésta.
\vskip1.000000\baselineskip
Respecto a la invención, la presente invención proporciona dicho método usando muestras de sangre para preparar un patrón de transcritos estándar característico de cáncer de mama o enfermedad de Alzheimer o un estadio de éstas. Así, en un aspecto preferido, la invención proporciona un método para preparar un patrón de transcritos génicos estándar característico de cáncer de mama o enfermedad de Alzheimer o un estadio de éstas en un organismo que comprende al menos las etapas de:
a) aislar el ARNm de las células de una muestra de sangre de uno o más organismos que tienen cáncer de mama o enfermedad de Alzheimer o un estadio de éstas, que puede opcionalmente transcribirse de forma inversa a ADNc;
b) hibridar el ARNm o ADNc de la etapa (a) de un organismo con cáncer de mama o un estadio de éste con un conjunto de oligonucleótidos o un kit de la invención como se ha descrito anteriormente en la presente memoria específico para cáncer de mama o un estadio de éste en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando o hibridar el ARNm o ADNc de la etapa (a) de un organismo con enfermedad de Alzheimer o un estadio de ésta con un conjunto de oligonucleótidos o un kit de la invención como se ha descrito anteriormente en la presente memoria específico para la enfermedad de Alzheimer o un estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y
c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir un patrón característico que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos, en la muestra con cáncer de mama o enfermedad de Alzheimer o un estadio de éstas, en el que los oligonucleótidos específicos para cáncer de mama o un estadio de éste son como se muestra en la Tabla 2b y los oligonucleótidos específicos para enfermedad de Alzheimer o un estadio de ésta son como se muestra en la Tabla 4b.
\vskip1.000000\baselineskip
Por conveniencia, dichos oligonucleótidos se inmovilizan preferiblemente en uno o más soportes sólidos.
El patrón estándar para un gran número de enfermedades o condiciones y diferentes estadios de éstas usando sondas particulares puede acumularse en bases de datos y estar disponible para los laboratorios que lo requieran.
Muestras y organismos "enfermos" según se refieren en la presente memoria se refiere a organismos (o muestras de los mismos) con una alteración patológica subyacente respecto a un organismo (o muestra) normal, en un organismo sintomático o asintomático, que puede resultar, por ejemplo, de una infección o una imperfección genética adquirida o congénita. Se sabe que dichos organismos tienen, o presentan, la enfermedad o condición o estadio de éstas que se está estudiando.
Una "condición" se refiere a un estado de la mente o el cuerpo de un organismo que no se ha producido por enfermedad, p. ej. la presencia de un agente en el cuerpo tal como una toxina, fármaco o contaminante, o embarazo.
"Estadios" de ésta se refiere a los diferentes estadios de la enfermedad o condición que pueden o no presentar cambios fisiológicos o metabólicos particulares, pero presentan cambios a nivel genético que pueden detectarse como una expresión génica alterada. Se apreciará que durante el curso de una enfermedad o condición puede variar la expresión de los diferentes transcritos. Así, en diferentes estadios, puede no presentarse una expresión alterada para transcritos particulares comparada con las muestras "normales". Sin embargo, la combinación de información de varios transcritos que presentan una expresión alterada en uno o más estadios durante el curso de la enfermedad o condición puede usarse para proporcionar un patrón característico que es indicativo de un estadio particular de la enfermedad o condición. Así, por ejemplo, pueden identificarse diferentes estadios en el cáncer, p. ej. pre-estadio I, estadio I, estadio II, III o IV.
"Normal" tal y como se usa en la presente memoria se refiere a organismos o muestras que se usan para propósitos comparativos. Preferiblemente, éstos son "normales" en el sentido de que no presentan ninguna indicación de, o no se cree que tengan, ninguna enfermedad o condición que podría influir en la expresión génica, particularmente respecto a la enfermedad para la que van a usarse como el estándar normal. Sin embargo, se apreciará que los diferentes estadios de una enfermedad o condición pueden compararse y en dichos casos, la muestra "normal" puede corresponder al estadio temprano de la enfermedad o condición.
Tal y como se usa en la presente memoria una "muestra" se refiere a cualquier material obtenido del organismo, p. ej. animal humano o no humano que se está investigando que contiene células e incluye, tejidos, fluido corporal o los productos de desecho corporales o en el caso de los organismos procariotas, el organismo en sí mismo. Los "fluidos corporales" incluyen sangre, saliva, fluido espinal, semen, linfa. "Productos de desecho corporales" incluyen orina, materia expectorada (pacientes pulmonares), heces, etc. "Muestras de tejido" incluyen tejido obtenido por biopsia, por intervenciones quirúrgicas o por otros medios p. ej. placenta. Preferiblemente sin embargo, las muestras que se examinan son de áreas del cuerpo no afectadas aparentemente por la enfermedad o condición. Las células en dichas muestras no son células enfermas, p. ej. células cancerosas, no han estado en contacto con dichas células enfermas y no se originan a partir del sitio de la enfermedad o condición. El "sitio de la enfermedad" se considera que es aquella área del cuerpo que manifiesta la enfermedad de una forma que puede determinarse objetivamente, p. ej. un tumor o área de inflamación. Así, por ejemplo, puede usarse sangre periférica para el diagnóstico de cánceres no hematopoyéticos, y la sangre no requiere la presencia de células malignas o diseminadas del cáncer en la sangre. De manera similar, en las enfermedades del cerebro, en las que no se encuentran células enfermas en la sangre debido a la barrera hematoencefálica, también puede usarse sangre periférica en los métodos de la invención. Para llevar a cabo los métodos de la invención, se usan muestras de sangre.
Se apreciará, sin embargo, que el método para preparar el patrón de transcripción estándar y otros métodos descritos en la presente memoria también son aplicables para usarse en partes vivas de organismos eucariotas tales como líneas celulares y cultivos de órganos y explantes.
Tal y como se usa en la presente memoria, la referencia a muestra "correspondiente" etc. se refiere a células preferiblemente del mismo tejido, fluido corporal o producto de desecho corporal, pero también incluye células de tejido, fluido corporal o producto de desecho corporal que son lo suficientemente similares para los propósitos de preparar el patrón estándar o de ensayo. Cuando se usa respecto a genes "correspondientes" a las sondas, esto se refiere a genes que están relacionados por secuencia (que puede ser complementaria) a las sondas aunque las sondas pueden reflejar diferentes productos de expresión de corte y empalme.
"Evaluar" tal y como se usa en la presente memoria se refiere tanto a la evaluación cuantitativa como cualitativa que puede determinarse en términos absolutos o relativos.
Los métodos descritos en la presente memoria y particularmente los métodos de la invención pueden ponerse en práctica como sigue. Para preparar un patrón de transcritos estándar para una enfermedad, condición particular o estadio de ésta, se extrae el ARNm de la muestra de las células de tejidos, fluidos corporales o productos de desecho corporales según técnicas conocidas (véase por ejemplo Sambrook et. al. (1989), Molecular Cloning: A laboratory manual, 2a Ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y.) de un individuo u organismo enfermo.
Debido a las dificultades de trabajar con ARN, el ARN preferiblemente se transcribe de forma inversa en esta etapa para formar ADNc de primera cadena. La clonación del ADNc o la selección de, o el uso de, una biblioteca de ADNc no es sin embargo necesaria en éste u otros métodos descritos en la presente memoria. Preferiblemente, las cadenas complementarias de los ADNc de primera cadena se sintetizan, es decir, ADNc de segunda cadena, pero esto dependerá de las cadenas relativas presentes en las sondas oligonucleotídicas. El ARN puede sin embargo usarse alternativamente directamente sin transcripción inversa y puede marcarse si se requiere.
Preferiblemente, las cadenas de ADNc se amplifican por técnicas de amplificación conocidas tales como la reacción en cadena de la polimerasa (PCR) mediante el uso de cebadores apropiados. Alternativamente, las cadenas de ADNc pueden clonarse con un vector, usarse para transformar una bacteria tal como E. coli que puede crecerse para multiplicar las moléculas de ácido nucleico. Cuando la secuencia de los ADNc no se conoce, los cebadores pueden dirigirse a las regiones de las moléculas de ácido nucleico que se han introducido. Así, por ejemplo, pueden ligarse adaptadores a las moléculas de ADNc y dirigirse los cebadores a estas partes para la amplificación de las moléculas de ADNc. Alternativamente, en el caso de muestras eucariotas, puede aprovecharse la cola poliA y la caperuza del ARN para preparar los cebadores apropiados.
Para producir el patrón de transcritos génicos estándar para diagnóstico o huella para una enfermedad o condición particular o estadio de ésta, se usan las sondas oligonucleotídicas descritas anteriormente como sondas de ARNm o ADNc de la muestra enferma para producir una señal para la hibridación a cada especie de sonda oligonucleotídica particular, es decir cada sonda única. También puede prepararse un patrón de transcritos génicos control estándar si se desea usando ARNm o ADNc de una muestra normal. Así, el ARNm o ADNc se pone en contacto con la sonda oligonucleotídica en condiciones apropiadas para permitir la hibridación.
Cuando se ensayan múltiples muestras, esto puede realizarse consecutivamente usando las mismas sondas, p. ej. en uno o más soportes sólidos, es decir, en módulos de kit de sondas, o hibridando simultáneamente con sondas correspondientes, p. ej. los módulos de un kit de sondas correspondiente.
Para identificar cuando ocurre la hibridación y obtener una indicación del número de moléculas de transcrito/ADNc que se unen a las sondas oligonucleotídicas, es necesario identificar una señal producida cuando los transcritos (o moléculas relacionadas) hibridan (p. ej. por detección de moléculas de ácido nucleico de doble cadena o detección del número de moléculas que se unen, después de eliminar las moléculas no unidas, p. ej. por lavado).
Con el fin de conseguir una señal, uno o los dos componentes que hibridan (es decir, la sonda y el transcrito) portan o forman un medio de señalización o una parte de éste. Este "medio de señalización" es cualquier resto capaz de detección directa o indirecta por la generación o presencia de una señal. La señal puede ser cualquier característica física detectable tal como la conferida por emisión de radiación, propiedades de dispersión o absorción, propiedades magnéticas u otras propiedades físicas tales como propiedades de carga, tamaño o unión de las moléculas existentes (p. ej. marcadores) o moléculas que pueden generarse (p. ej. emisión de gas etc.). Se prefieren las técnicas que permiten la amplificación de la señal, p. ej. que producen múltiples eventos de señal de un único sitio de unión activo, p. ej. por la acción catalítica de enzimas para producir múltiples productos detectables.
Convenientemente, el medio de señalización puede ser un marcador que por sí mismo produce una señal detectable. Convenientemente, esto puede conseguirse por el uso de un marcador radiactivo u otro que puede incorporarse durante la producción del ADNc, la preparación de las cadenas de ADNc complementarias, durante la amplificación del ARNm/ADNc diana o añadirse directamente a las moléculas de ácido nucleico diana.
Los marcadores apropiados son aquellos que permiten directamente o indirectamente la detección o medida de la presencia de los transcritos/ADNc. Dichos marcadores incluyen marcadores radiactivos, marcadores químicos, por ejemplo cromóforos o fluoróforos (p. ej. marcadores tales como fluoresceína y rodamina), o reactivos con una alta densidad electrónica tal como ferritina, hemocianina u oro coloidal. Alternativamente, el marcador puede ser una enzima, por ejemplo peroxidasa o fosfatasa alcalina, en la que la presencia de la enzima se visualiza por su interacción con una entidad adecuada, por ejemplo un sustrato. Este marcador también puede formar parte de una pareja de señalización en la que el otro miembro de la pareja se encuentra en, o muy cerca de, la sonda oligonucleotídica a la que se une el transcrito/ADNc, por ejemplo, puede usarse un compuesto fluorescente y un sustrato apagador de la fluorescencia. También puede proporcionarse un marcador en una entidad diferente, tal como un anticuerpo, que reconoce un resto peptídico unido a los transcritos/ADNc, por ejemplo unido a una base usada durante la síntesis o amplificación.
Puede conseguirse una señal por la introducción de un marcador antes, durante o después de la etapa de hibridación. Alternativamente, la presencia de transcritos que hibridan puede identificarse por otras propiedades físicas, tales como su absorbancia, y en cuyo caso el medio de señalización es el complejo en sí mismo.
Se evalúa la cantidad de señal asociada con cada sonda oligonucleotídica. La evaluación puede ser cuantitativa o cualitativa y puede basarse en la unión de una única especie de transcrito (o ADNc relacionado u otros productos) a cada sonda o la unión de múltiples especies de transcrito a múltiples copias de cada sonda única. Se apreciará que los resultados cuantitativos proporcionarán más información para la huella del transcrito de la enfermedad que se está recopilando. Estos datos pueden expresarse como valores absolutos (en el caso de macromatrices) o pueden determinarse respecto a un estándar o referencia particular p. ej. una muestra normal control.
Además, se apreciará que el patrón de transcritos génicos estándar para diagnóstico puede prepararse usando una o más muestras enfermas (y muestras normales si se usan) para realizar la etapa de hibridación para obtener patrones sin tendencia hacia las variaciones de la expresión génica de un individuo particular.
El uso de las sondas para preparar patrones estándar y los patrones de transcritos génicos estándar para diagnóstico así producidos para el propósito de identificación o diagnóstico o monitorización de una enfermedad o condición particular o estadio de ésta en un organismo particular forma una descripción adicional de la descripción.
Una vez que se ha determinado una huella o patrón estándar para diagnóstico para una enfermedad o condición particular usando las sondas oligonucleotídicas seleccionadas, esta información puede usarse para identificar la presencia, ausencia o grado o estadio de esa enfermedad o condición en un organismo o individuo de ensayo diferente.
Para examinar el patrón de expresión génica de una muestra de ensayo, se obtiene de un paciente o del organismo que se va a estudiar una muestra de ensayo de tejido, fluido corporal o productos de desecho corporales que contienen células, correspondiente a la muestra usada para la preparación del patrón estándar. Se prepara un patrón de transcritos génicos de ensayo como se ha descrito anteriormente en la presente memoria como para el patrón estándar.
Por lo tanto, se describe un método para preparar un patrón de transcritos génicos de ensayo que comprende al menos las etapas de:
a) aislar el ARNm de las células de una muestra de dicho organismo de ensayo, que puede opcionalmente transcribirse de forma inversa a ADNc;
b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit como ha descrito anteriormente en la presente memoria específicos para una enfermedad o condición o estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y
c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir dicho patrón que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos, en dicha muestra de ensayo.
Respecto a la invención, la presente invención proporciona dicho método usando muestras de sangre para preparar un patrón de transcritos de ensayo mediante la unión a oligonucleótidos específicos para cáncer de mama o enfermedad de Alzheimer o un estadio de éstas. Así, en un aspecto preferido más, la invención proporciona un método para preparar un patrón de transcritos génicos de ensayo que comprende al menos las etapas de:
a) aislar el ARNm de las células de una muestra de sangre de dicho organismo de ensayo, que puede opcionalmente transcribirse de forma inversa a ADNc;
b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit de la invención como se ha descrito anteriormente en la presente memoria específicos para cáncer de mama o un estadio de éste en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando o con un conjunto de oligonucleótidos o un kit de la invención como se ha descrito anteriormente en la presente memoria específicos para la enfermedad de Alzheimer o un estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y
c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir dicho patrón que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos, en dicha muestra de ensayo, en el que los oligonucleótidos específicos para cáncer de mama o un estadio de éste son como se muestran en la Tabla 2b y los oligonucleótidos específicos para la enfermedad de Alzheimer o un estadio de ésta son como se muestran en la Tabla 4b.
Este patrón de ensayo puede compararse con uno o más patrones estándar para evaluar si la muestra contiene células que tienen la enfermedad, condición o estadio de ésta.
Por lo tanto, se describe un método adicional para diagnosticar o identificar o monitorizar una enfermedad o condición o estadio de ésta en un organismo, que comprende las etapas de:
a) aislar el ARNm de las células de una muestra de dicho organismo, que puede opcionalmente transcribirse de forma inversa a ADNc;
b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit como ha descrito anteriormente en la presente memoria específicos para dicha enfermedad o condición o estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando;
c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir un patrón característico que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos, en dicha muestra; y
d) comparar dicho patrón con un patrón estándar de diagnóstico preparado según el método descrito en la presente memoria usando una muestra de un organismo correspondiente al organismo y muestra que se está investigando para determinar la presencia de dicha enfermedad o condición o un estadio de ésta en el organismo que se está investigando.
El método hasta e incluyendo la etapa c) es la preparación de un patrón de ensayo como se ha descrito anteriormente.
Respecto a la invención, la presente invención proporciona un método usando muestras de sangre para preparar un patrón de transcritos de ensayo mediante la unión a oligonucleótidos específicos para cáncer de mama o enfermedad de Alzheimer o un estadio de éstas, para comparación con un patrón estándar de diagnóstico preparado como se ha descrito anteriormente en la presente memoria.
Así, en aún otro aspecto preferido, la invención proporciona un método para diagnosticar o identificar o monitorizar cáncer de mama o enfermedad de Alzheimer o un estadio de éstas en un organismo, que comprende las etapas de:
a) aislar el ARNm de las células de una muestra de sangre de dicho organismo, que puede opcionalmente transcribirse de forma inversa a ADNc;
b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos de la invención como se ha descrito anteriormente en la presente memoria específicos para cáncer de mama o un estadio de éste en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando o con un conjunto de oligonucleótidos o un kit de la invención como se ha descrito anteriormente en la presente memoria específicos para la enfermedad de Alzheimer o un estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y
c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir un patrón característico que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos en dicha muestra; y
d) comparar dicho patrón con un patrón estándar de diagnóstico preparado como se ha descrito según la invención anteriormente en la presente memoria usando una muestra de un organismo correspondiente al organismo y muestra que se está investigando para determinar el grado de correlación indicativo de la presencia de cáncer de mama o enfermedad de Alzheimer o un estadio de éstas en el organismo que se está investigando, en el que los oligonucleótidos específicos para cáncer de mama o un estadio de éste son como se muestran en la Tabla 2b y los oligonucleótidos específicos para la enfermedad de Alzheimer o un estadio de ésta son como se muestran en la Tabla 4b.
Tal y como se refiere en la presente memoria, "diagnóstico" se refiere a la determinación de la presencia o existencia de una enfermedad o condición o estadio de ésta en un organismo.
"Monitorizar" se refiere a establecer la magnitud de una enfermedad o condición, particularmente cuando se sabe que un individuo padece una enfermedad o condición, por ejemplo para monitorizar los efectos del tratamiento o el desarrollo de una enfermedad o condición, p. ej. para determinar la idoneidad de un tratamiento o para proporcionar un pronóstico.
La presencia de la enfermedad o condición o estadio de ésta puede determinarse determinando el grado de correlación entre los patrones de las muestras estándar y de ensayo. Esto necesariamente tiene en cuenta el intervalo de valores que se obtienen a partir de muestras normales y enfermas. Aunque esto puede establecerse obteniendo las desviaciones estándar para varias muestras representativas que se unen a las sondas para desarrollar el estándar, se apreciará que muestra únicas pueden ser suficientes para generar el patrón estándar para identificar una enfermedad si la muestra de ensayo presenta una correlación lo suficientemente próxima a ese estándar. Convenientemente, la presencia, ausencia o magnitud de la enfermedad o condición o estadio de ésta en una muestra de ensayo puede predecirse insertando los datos respecto al nivel de expresión de sondas informativas en la muestra de ensayo en el patrón de sondas estándar de diagnóstico establecido según la ecuación 1.
Los datos generados usando los métodos mencionados anteriormente pueden analizarse usando varias técnicas desde la representación visual más básica (p. ej. respecto a la intensidad) hasta manipulaciones de datos más complejas para identificar los patrones subyacentes que reflejan la relación del nivel de expresión de cada gen a los que se unen las diferentes sondas, que puede cuantificarse y expresarse matemáticamente. Convenientemente, los datos en bruto así generados pueden manipularse por los métodos de procesamiento de datos y estadísticos descritos más adelante en la presente memoria, particularmente normalizando y estandarizando los datos y ajustando los datos a un modelo de clasificación para determinar si dichos datos de ensayo reflejan el patrón de una enfermedad o condición particular o estadio de ésta.
Los métodos descritos en la presente memoria pueden usarse para identificar, monitorizar o diagnosticar una enfermedad, condición o dolencia o su estadio o progresión, para las que son informativas las sondas oligonucleotídicas. Sondas "informativas" como se describe en la presente memoria, son aquellas que reflejan genes que tienen una expresión alterada en las enfermedades o condiciones en cuestión, o estadios particulares de éstas. Las sondas como se describe en la presente memoria pueden no ser lo suficientemente informativas para propósitos de diagnóstico cuando se usan solas, pero son informativas cuando se usan como una de varias sondas para proporcionar un patrón característico, p. ej. en un conjunto como se ha descrito anteriormente en la presente memoria.
Preferiblemente, dichas sondas corresponden a genes que están sistemáticamente afectados por dicha enfermedad, condición o estadio de ésta. De forma especialmente preferida, dichos genes, a partir de los que se obtienen los transcritos que se unen a las sondas, son genes metabólicos o de mantenimiento y preferiblemente se expresan de manera moderada o alta. La ventaja de usar sondas dirigidas a genes expresados de manera moderada o alta es que se requieren menos muestras clínicas para generar el conjunto de datos necesario de expresión génica, p. ej. menos de 1ml de muestras de sangre.
Además, se ha encontrado que dichos genes que ya se transcriben activamente tienden a ser más susceptibles a la influencia, en un modo positivo o negativo, de nuevos estímulos. Además, como los transcritos ya se producen a niveles que son generalmente detectables, los cambios pequeños en esos niveles son fácilmente detectables como por ejemplo, no se necesita alcanzar un umbral determinado detectable.
Preferiblemente, el conjunto de sondas descrito en la presente memoria es informativo para varias enfermedades, condiciones diferentes o estadios de éstas. Puede usarse un subconjunto de las sondas descritas en la presente memoria para el diagnóstico, identificación o monitorización de una enfermedad, condición particular o estadio de ésta.
Así, las sondas pueden usarse para diagnosticar o identificar o monitorizar cualquier condición, dolencia, enfermedad o reacción que da lugar al incremento o a la disminución relativos de la actividad de genes informativos de cualquiera o todos los organismos eucariotas o procariotas independientemente de si estos cambios han sido causados por la influencia de bacterias, virus, priones, parásitos, hongos, radiación, toxinas naturales o artificiales, fármacos o alergenos, incluyendo condiciones mentales debidas al estrés, neurosis, psicosis o deterioros debidos al envejecimiento del organismo, y condiciones o enfermedades de causa desconocida, siempre que un subconjunto de sondas como se describe en la presente memoria sea informativo para dicha enfermedad o condición o estadio de ésta.
Dichas enfermedades incluyen las que resultan en cambios metabólicos o fisiológicos, tales como enfermedades asociadas con fiebre tales como gripe o malaria. Otras enfermedades que pueden detectarse incluyen por ejemplo fiebre amarilla, enfermedades transmitidas sexualmente tales como gonorrea, fibromialgia, complejo relacionado con cándida, cáncer (por ejemplo del estómago, pulmón, mama, glándula de la próstata, intestino, piel, colon, ovario etc), enfermedad de Alzheimer, enfermedad causada por retrovirus tales como VIH, demencia senil, esclerosis múltiple y enfermedad de Creutzfeldt-Jakob por mencionar algunas.
Los métodos descritos en la presente memoria también pueden usarse para identificar pacientes con enfermedades psiquiátricas o psicosomáticas tales como esquizofrenia y trastornos de la alimentación. Es de particular importancia el uso de este método para detectar enfermedades, condiciones o estadios de ésta, que no son fácilmente detectables por los métodos de diagnóstico conocidos, tales como VIH que generalmente no es detectable usando las técnicas conocidas 1 a 4 meses después de la infección. Las condiciones que pueden identificarse incluyen por ejemplo abuso de drogas, tal como el uso de narcóticos, alcohol, esteroides y fármacos que incrementan el rendimiento.
Preferiblemente, dicha enfermedad que se va a identificar o monitorizar es un cáncer o un trastorno cerebral degenerativo (tal como enfermedad de Alzheimer o de Parkinson).
En particular, un conjunto de sondas oligonucleotídicas, en el que dicho conjunto comprende al menos 10 oligonucleótidos seleccionados de:
un oligonucleótido como se describe en la Tabla 4 o un
oligonucleótido derivado de éste o un
oligonucleótido con una secuencia complementaria, o un
oligonucleótido funcionalmente equivalente,
puede usarse para el diagnóstico o identificación o monitorización de la progresión de la enfermedad de Alzheimer. De manera similar, las sondas de la Tabla 2 y las sondas obtenidas de la Tabla 2 y sus equivalentes funcionales pueden usarse para diagnosticar, identificar o monitorizar la progresión del cáncer de mama. De forma especialmente preferida, las sondas usadas para el análisis del cáncer de mama se seleccionan tomando como base su incidencia como se muestra en la Tabla 3 y como se ha descrito anteriormente en la presente memoria.
El método de diagnóstico puede usarse solo como una alternativa a otras técnicas de diagnóstico o además de dichas técnicas. Por ejemplo, los métodos como se describe en la presente memoria pueden usarse como una medida de diagnóstico alternativa o aditiva para el diagnóstico usando técnicas de imagen tal como Imagen por Resonancia Magnética (MRI), imagen por ultrasonidos, imagen nuclear o imagen por rayos X, por ejemplo en la identificación y/o diagnóstico de tumores.
Los métodos descritos en la presente memoria pueden realizarse en células de organismos procariotas o eucariotas que pueden ser cualquier organismo eucariota tal como seres humanos, otros mamíferos y animales, pájaros, insectos, peces y plantas, y cualquier organismo procariota tal como una bacteria.
Los animales no humanos preferidos en los que pueden realizarse los métodos descritos en la presente memoria incluyen, pero no están limitados a mamíferos, particularmente primates, animales domésticos, ganado y animales de laboratorio. Así, los animales preferidos para diagnóstico incluyen ratones, ratas, cobayas, gatos, perros, cerdos, vacas, cabras, ovejas, caballos. De forma particularmente preferida, se diagnostica, identifica o monitoriza el estadio o condición patológica de seres humanos.
Como se ha descrito anteriormente, la muestra en estudio puede ser cualquier muestra conveniente que puede obtenerse de un organismo. Preferiblemente, sin embargo, como se ha mencionado anteriormente, la muestra se obtiene de un sitio distante del sitio de la enfermedad y las células de dichas muestras no son células enfermas, no han estado en contacto con dichas células y no se originan del sitio de la enfermedad o condición. En dichos casos, aunque preferiblemente están ausentes, la muestra puede contener células que no cumplan estos criterios. Sin embargo, como las sondas descritas en la presente memoria están relacionadas con transcritos cuya expresión está alterada en células que no satisfacen estos criterios, las sondas están específicamente dirigidas a detectar cambios en los niveles de transcritos en esas células incluso en presencia de otras células de fondo.
Se ha encontrado que las células de dichas muestras muestran variaciones significativas e informativas en la expresión génica de un gran número de genes. Así, puede encontrarse que la misma sonda (o varias sondas) son informativas en determinaciones respecto a dos o más enfermedades, condiciones o estadios de ésta gracias al nivel de transcritos particular que se une a esa sonda o la relación de la magnitud de unión a esa sonda respecto a otras sondas. Consecuentemente, es posible usar un número relativamente pequeño de sondas para cribar múltiples trastornos o enfermedades. Esto tiene consecuencias respecto a la selección de sondas, discutida en relación con la identificación aleatoria de sondas más adelante en la presente memoria, pero también para el uso de un único conjunto de sondas para más de un diagnóstico. La Tabla 9 describe sondas que son informativas tanto para la enfermedad de Alzheimer como para el cáncer de mama.
Así, también se describen conjuntos de sondas para diagnosticar, identificar o monitorizar dos o más enfermedades, condiciones o estadios de ésta, en el que al menos una de dichas sondas es adecuada para dicho diagnóstico, identificación o monitorización de al menos dos de dichas enfermedades, condiciones o estadios de éstas, y kits y métodos para usar las mismas. Preferiblemente, se usan al menos 5 sondas, p. ej. de 5 a 15 sondas, en al menos dos diagnósticos.
Así, también se describe un método de diagnóstico o identificación o monitorización como se ha descrito anteriormente en la presente memoria para el diagnóstico, identificación o monitorización de dos o más enfermedades, condiciones o estadios de éstas en un organismo, en el que dicho patrón de ensayo producido en la etapa c) del método de diagnóstico se compara en la etapa d) con al menos dos patrones estándar de diagnóstico preparados como se ha descrito anteriormente, en el que cada patrón estándar de diagnóstico es un patrón generado para una enfermedad o condición o estadio de ésta diferente.
Aunque en un aspecto preferido los métodos de evaluación se refieren al desarrollo de un patrón de transcritos génicos a partir de una muestra de ensayo y en la comparación del mismo con un patrón estándar, la elevación o depresión de la expresión de determinados marcadores también puede examinarse mediante el examen de los productos de expresión y el nivel de estos productos. Así, puede generarse un patrón estándar respecto al producto expresado.
En dichos métodos, se analizan los niveles de expresión de un conjunto de polipéptidos codificados por el gen al que se une un oligonucleótido de la Tabla 1 o un oligonucleótido obtenido de la Tabla 1. Pueden usarse varios métodos de diagnóstico para evaluar la cantidad de polipéptidos (o fragmentos de éstos) que están presentes. Puede examinarse la presencia o concentración de polipéptidos, por ejemplo, por el uso de una pareja de unión de dicho polipéptido (p. ej. un anticuerpo), que puede inmovilizarse, para separar dicho polipéptido de la muestra y puede determinarse la cantidad de polipéptido.
Los "fragmentos" de los polipéptidos se refiere a un dominio o región de dicho polipéptido, p. ej. un fragmento antigénico, que es reconocible como derivado de dicho polipéptido para permitir la unión de una pareja de unión específica. Preferiblemente, dicho fragmento comprende una parte significativa de dicho polipéptido y corresponde a un producto del procesamiento postsintético normal.
Así, también se describe en la presente memoria un método para preparar un patrón de transcritos génicos estándar característico de una enfermedad o condición o estadio de ésta en un organismo que comprende al menos las etapas de:
a) liberar los polipéptidos diana de una muestra de uno o más organismos que tienen la enfermedad o condición o estadio de ésta;
b) poner en contacto dichos polipéptidos diana con una o más parejas de unión, en el que cada pareja de unión es específica de un polipéptido marcador (o un fragmento de éste) codificado por el gen al que se une un oligonucleótido de la Tabla 1 (u obtenido de una secuencia descrita en la Tabla 1), para permitir la unión de dichas parejas de unión a dichos polipéptidos diana, en el que dichos polipéptidos marcadores son específicos para dicha enfermedad o condición en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y
c) evaluar la unión del polipéptido diana a dichas parejas de unión para producir un patrón característico que refleja el nivel de expresión génica de los genes que expresan dichos polipéptidos marcadores, en la muestra con la enfermedad, condición o estadio de ésta.
Tal y como se usa en la presente memoria, "polipéptidos diana" se refiere a aquellos polipéptidos presentes en una muestra que se van a detectar y "polipéptidos marcadores" son polipéptidos que están codificados por los genes a los que se unen los oligonucleótidos de la Tabla 1 o los oligonucleótidos obtenidos de la Tabla 1. Los polipéptidos diana y marcadores son idénticos o al menos tienen áreas de gran similitud, p. ej. regiones epitópicas para permitir el reconocimiento y unión de la pareja de unión.
"Liberación" de los polipéptidos diana se refiere al tratamiento apropiado de una muestra para proporcionar los polipéptidos en una forma accesible para la unión de las parejas de unión, p. ej. por lisis de las células en las que éstos están presentes. Las muestras usadas en este caso no comprenden necesariamente células ya que los polipéptidos diana pueden liberarse de las células en los tejidos o fluidos circundantes y este tejido o fluido puede analizarse, p. ej. orina o sangre. Preferiblemente, sin embargo, se usan las muestras preferidas como se describe en la presente memoria. "Parejas de unión" comprenden las entidades independientes que conjuntamente constituyen una pareja de unión por afinidad como se ha descrito anteriormente, en la que un componente de la pareja de unión es la diana o polipéptido marcador y el otro componente se une específicamente a ese polipéptido, p. ej. un anticuerpo.
Pueden preverse varias estrategias para detectar la cantidad de parejas de unión que se forman. En su forma más sencilla, puede usarse un ensayo de tipo sandwich p. ej. un inmunoensayo tal como un ELISA, en el que un anticuerpo específico para el polipéptido y que contiene un marcador (como se ha descrito en otra parte en la presente memoria) puede unirse a la pareja de unión (p. ej. la pareja de primer anticuerpo:polipéptido) y detectarse la cantidad de mar-
caje.
Otros métodos descritos en la presente memoria pueden modificarse de manera similar para el análisis del producto proteico de la expresión en lugar del transcrito génico y moléculas de ácido nucleico relacionadas.
Así, la presente descripción describe un método para preparar un patrón de transcritos génicos de ensayo que comprende al menos las etapas de:
a) liberar los polipéptidos diana de una muestra de dicho organismo de ensayo;
b) poner en contacto dichos polipéptidos diana con una o más parejas de unión, en el que cada pareja de unión es específica de un polipéptido marcador (o un fragmento de éste) codificado por el gen al que se une un oligonucleótido de la Tabla 1 (u obtenido de una secuencia descrita en la Tabla 1), para permitir la unión de dichas parejas de unión a dichos polipéptidos diana, en el que dichos polipéptidos marcadores son específicos para dicha enfermedad o condición en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y
c) evaluar la unión del polipéptido diana a dichas parejas de unión para producir un patrón característico que refleja el nivel de expresión génica de los genes que expresan dichos polipéptidos marcadores, en dicha muestra de ensayo.
También se describe un método para diagnosticar o identificar o monitorizar una enfermedad o condición o estadio de ésta en un organismo que comprende las etapas de:
a) liberar los polipéptidos diana de una muestra de dicho organismo;
b) poner en contacto dichos polipéptidos diana con una o más parejas de unión, en el que cada pareja de unión es específica de un polipéptido marcador (o un fragmento de éste) codificado por el gen al que se une un oligonucleótido de la Tabla 1 (u obtenido de una secuencia descrita en la Tabla 1), para permitir la unión de dichas parejas de unión a dichos polipéptidos diana, en el que dichos polipéptidos marcadores son específicos para dicha enfermedad o condición en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y
c) evaluar la unión del polipéptido diana a dichas parejas de unión para producir un patrón característico que refleja el nivel de expresión génica de los genes que expresan dichos polipéptidos marcadores, en dicha muestra; y
d) comparar dicho patrón con un patrón estándar de diagnóstico preparado como se ha descrito anteriormente en la presente memoria usando una muestra de un organismo correspondiente al organismo y muestra que se están investigando para determinar el grado de correlación indicativo de la presencia de dicha enfermedad o condición o un estadio de ésta en el organismo que se está investigando.
Los métodos para generar patrones estándar y de ensayo y las técnicas de diagnóstico se basan en el uso de sondas oligonucleotídicas informativas para generar los datos de expresión génica. En algunos casos, será necesario seleccionar estas sondas informativas para un método particular, p. ej. para diagnosticar una enfermedad particular, a partir de una selección de sondas disponibles, p. ej. las sondas descritas anteriormente en la presente memoria (los oligonucleótidos de la Tabla 1, los oligonucleótidos obtenidos de la Tabla 1, sus secuencias complementarias y los oligonucleótidos funcionalmente equivalentes). La metodología siguiente describe un método conveniente para identificar dichas sondas informativas, o más particularmente cómo seleccionar un subconjunto adecuado de sondas a partir de las sondas descritas en la presente memoria.
Las sondas para el análisis de una enfermedad o condición particular o estadio de ésta, pueden identificarse de varias maneras conocidas en la técnica anterior, incluyendo por expresión diferencial o por sustracción de bibliotecas (véase por ejemplo WO98/49342). Como se describe más adelante en la presente memoria, a la vista del alto contenido informativo de la mayoría de los transcritos, como punto de partida se puede analizar simplemente un subconjunto al azar de especie de ARNm o ADNc y elegir las sondas más informativas a partir de ese subconjunto. El método siguiente describe el uso de sondas oligonucleotídicas inmovilizadas (p. ej. las sondas descritas anteriormente en la presente memoria) a las que se une ARNm (o moléculas relacionadas) de diferentes muestras para identificar qué sondas son las más informativas para identificar un tipo particular de muestra, p. ej. una muestra enferma.
Las sondas inmovilizadas pueden obtenerse de varios organismos no relacionados o relacionados; el único requerimiento es que las sondas inmovilizadas deben unirse específicamente a sus parejas homólogas en el organismo de ensayo. Las sondas también pueden obtenerse a partir de bases de datos disponibles comercialmente o públicas e inmovilizarse en soportes sólidos o, como se ha mencionado anteriormente, pueden elegirse al azar y aislarse a partir de una biblioteca de ADNc e inmovilizarse en un soporte sólido.
La longitud de las sondas inmovilizadas en el soporte sólido debe ser lo suficientemente larga para permitir la unión específica a las secuencias diana. Las sondas inmovilizadas pueden estar en la forma de ADN, ARN o sus productos modificados o PNA (ácidos nucleicos peptídicos). Preferiblemente, las sondas inmovilizadas deben unirse específicamente a sus parejas homólogas que representan genes expresados de forma alta y moderada en los organismos de ensayo. Convenientemente, las sondas que se usan son las sondas descritas en la presente memoria.
El patrón de expresión génica de las células en muestras biológicas puede generarse usando técnicas de la técnica anterior tales como micromatriz o macromatriz como se describe más adelante o usando los métodos descritos en la presente memoria. Ahora se han desarrollado varias técnicas para monitorizar el nivel de expresión de un gran número de genes simultáneamente en muestras biológicas, tales como, oligomatrices de alta densidad (Lockhart et al., 1996, Nat. Biotech., 14, p1675-1680), micromatrices de ADNc (Schena et al, 1995, Science, 270, p467-470) y macromatrices de ADNc (Maier E et al., 1994, Nucl. Acids Res., 22, p3423-3424; Bernard et al., 1996, Nucl. Acids Res., 24, p1435-1442).
En las oligomatrices de alta densidad y en las micromatrices de ADNc se extienden cientos a miles de sondas oligonucleotídicas o ADNc en portaobjetos de vidrio o membranas de nilón, o se sintetizan en biochips. El ARNm aislado de las muestras de ensayo y de referencia se marcan por transcripción inversa con un marcador fluorescente rojo o verde, se mezclan y se hibridan a la micromatriz. Después de lavar, los marcadores fluorescentes unidos se detectan por un láser, produciendo dos imágenes, una para cada marcador. La relación resultante de las manchas roja y verde en las dos imágenes proporciona información acerca de los cambios en los niveles de expresión de los genes en las muestras de ensayo y de referencia. Alternativamente, también pueden realizarse estudios en micromatrices de un único canal o múltiples canales.
En la macromatriz de ADNc, se extienden diferentes ADNc en un soporte sólido tal como membranas de nilón en exceso respecto a la cantidad de ARNm de ensayo que pueden hibridar con cada mancha. El ARNm aislado de las muestras de ensayo se marca radiactivamente por transcripción inversa y se hibrida con la sonda de ADNc inmovilizada. Después de lavar, las señales asociadas con los marcajes que hibridan específicamente con la sonda de ADNc inmovilizada se detectan y cuantifican. Los datos obtenidos en macromatriz contienen información acerca de los niveles relativos de transcritos presentes en las muestras de ensayo. Mientras que las macromatrices son sólo adecuadas para monitorizar la expresión de un número limitado de genes, las micromatrices pueden usarse para monitorizar la expresión de varios miles de genes simultáneamente y es, por lo tanto, una elección preferida para estudios de expresión génica a gran escala.
Una técnica de macromatriz para generar el conjunto de datos de expresión génica se ha usado para ilustrar el método de identificación de sondas descrito en la presente memoria. Para este propósito, se aísla el ARNm de muestras de interés y se usa para preparar moléculas diana marcadas, p. ej. ARNm o ADNc como se ha descrito anteriormente. Las moléculas diana marcadas se hibridan con sondas inmovilizadas en el soporte sólido. Pueden usarse varios soportes sólidos para el propósito, como se ha descrito anteriormente. Después de la hibridación, las moléculas diana no unidas se eliminan y se cuantifican las señales de las moléculas diana que hibridan con las sondas inmovilizadas. Si se realiza un marcaje con radiactividad, puede usarse PhosphoImager para generar un archivo de imágenes que puede usarse para generar un conjunto de datos en bruto. Dependiendo de la naturaleza del marcador elegido para marcar las moléculas diana, también pueden usarse otros instrumentos, por ejemplo, cuando se usa fluorescencia para el marcaje, puede usarse un FluoroImager para generar un archivo de imágenes a partir de las moléculas diana que hibridan.
Los datos en bruto correspondientes a la intensidad media, intensidad mediana, o volumen de las señales en cada mancha pueden adquirirse a partir del archivo de imágenes usando programas informáticos disponibles comercialmente para el análisis de imágenes. Sin embargo, los datos adquiridos necesitan ser corregidos respecto a las señales de fondo y normalizarse antes de los análisis, ya que varios factores pueden influir en la calidad y cantidad de las señales de hibridación. Por ejemplo, las variaciones en la calidad y cantidad de ARNm aislado de muestra a muestra, pequeñas variaciones en la eficacia del marcaje de las moléculas diana durante cada reacción, y variaciones en la cantidad de unión inespecífica entre diferentes macromatrices pueden contribuir al ruido en el conjunto de datos adquirido que debe corregirse antes de los análisis.
La corrección de fondo puede realizarse de varias maneras. La menor intensidad de píxel en una mancha puede usarse para la sustracción de fondo o la media o mediana de la línea de píxeles alrededor de la línea exterior de la mancha pueden usarse para el propósito. También se puede definir un área que representa la intensidad de fondo tomando como base las señales generadas a partir de controles negativos y usar la intensidad promedio de esta área para la sustracción del fondo.
Los datos corregidos por el fondo pueden transformarse para estabilizar la varianza en la estructura de los datos y normalizarse para las diferencias en la intensidad de las sondas. En la bibliografía se han descrito varias técnicas de transformación y puede encontrarse una breve revisión en Cui, Kerr y Churchill http://www.jax.org/research/churchill/
research/expression/Cui-Transform.pdf). La normalización puede realizarse dividiendo la intensidad de cada mancha por la intensidad colectiva, intensidad promedio o intensidad mediana de todas las manchas en una macromatriz o un grupo de manchas en una macromatriz con el fin de obtener la intensidad relativa de las señales que hibridan con las sondas inmovilizadas en una macromatriz. Se han descrito varios métodos para normalizar los datos de expresión génica (Richmond y Somerville, 2000, Current Opin. Plant Biol., 3, p108-116; Finkelstein et al., 2001, En ``Methods of Microarray Data Analysis. Papers de CAMDA, Eds. Lin y Johnsom, Kluwer Academic, p57-68; Yang et al., 2001, En "Optical Technologies and Informatics", Eds. Bittner, Chen, Dorsel y Dougherty, Proceedings of SPIE, 4266, p141-152; Dudoit et al, 2000, J. Am. Stat. Ass., 97, p77-87; Alter et al 2000, supra; Newton et al., 2001, J. Comp. Biol., 8, p37-52). Generalmente, se calcula en primer lugar un factor o función de escalado para corregir el efecto de intensidad y se usa para normalizar las intensidades. El uso de controles externos también se ha sugerido para mejorar la normalización.
Otro reto importante encontrado en los análisis de expresión génica a gran escala es la estandarización de los datos recogidos de experimentos realizados a diferentes tiempos. Hemos observado que los datos de expresión génica para muestras adquiridas en el mismo experimento pueden compararse eficazmente después de la corrección del fondo y la normalización. Sin embargo, los datos de muestras adquiridos en experimentos realizados en tiempos diferentes requieren una estandarización adicional antes del análisis. Esto es porque las pequeñas diferencias en los parámetros experimentales entre experimentos diferentes, por ejemplo, diferencias en la calidad y cantidad de ARNm extraído a diferentes tiempos, diferencias en el tiempo usado para el marcaje de la molécula diana, tiempo de hibridación o tiempo de exposición, pueden influir en los valores medidos. Además, factores tales como la naturaleza de la secuencia de transcritos que se está investigando (su contenido en GC) y su cantidad respecto a las otras determina cómo son influidas por pequeñas variaciones en los procesos experimentales. Determinan, por ejemplo, cómo se transcriben y marcan de eficazmente los ADNc de primera cadena, correspondientes a un transcrito particular, durante la síntesis de la primera cadena, o cómo se unen de eficazmente las moléculas diana marcadas correspondientes a sus secuencias complementarias durante la hibridación. Las diferencias entre lotes en el proceso de impresión es también un factor importante para la variación en los datos de expresión generados.
El no tratar y rectificar apropiadamente estas influencias da lugar a situaciones en las que las diferencias entre las series experimentales pueden ocultar la información principal de interés contenida en el conjunto de datos de expresión génica, es decir, las diferencias en los datos combinados de las diferentes series experimentales. La Figura 1 proporciona uno de dichos ejemplos mostrando una clasificación basada en Análisis de Componentes Principales (PCA) de datos combinados de dos series experimentales en el que el objetivo principal es distinguir entre pacientes Alzheimer/no Alzheimer.
PCA (también conocido como descomposición en valores singulares) es una técnica para estudiar las interdependencias y relaciones subyacentes de un conjunto de variables. Los datos se modelan en términos de unos pocos factores significativos o componentes principales (PC), más residuales. Los PC contienen el fenómeno principal y definen la variabilidad sistemática presente en los datos, mientras que los residuales representan la variabilidad interpretada como ruido. Los detalles de PCA pueden encontrarse en Jollife (1986, Principal Component Analysis, Springer-Verlag, NY) y Jackson (1991, A User's Guide to Principal Components, Wiley, NY). Los resultados de la Figura 1 muestran que se forman dos grupos que representan los datos de dos series experimentales en lugar de la diferenciación Alzheimer/no Alzheimer. Hubo ocho muestras en común entre las dos series de experimentos, que idealmente deberían haber estado incluidas en la parte superior, o muy cerca, una de la otra si estuvieran estandarizadas apropiadamente.
Ahora hemos encontrado que los datos de expresión génica entre experimentos diferentes pueden estandarizarse eficazmente incluyendo un subconjunto de muestras de una serie experimental en la siguiente serie experimental y usando un método de estandarización directo (DS), descrito originalmente por Wang y Kowalski (Anal. Chem., 1991, 63, p2750 y J. Chemometrics, 1991, 5, p129-145). Aunque el método de DS es muy conocido en el campo de la química analítica, no se describe ni usa en el campo del análisis de los datos de expresión génica.
En DS, los datos secundarios que representan por ejemplo la serie experimental 2 (medidas secundarias, R_{2}) se corrigen para ajustarse a los datos medidos en las mediciones primarias que representan los datos de la serie 1 (R_{1}), mientras que el modelo de calibración permanece invariable. En DS, las matrices de respuesta para ambas series experimentales se relacionan entre sí por una matriz de transformación F, es decir,
2000
En la que F es una matriz cuadrada dimensionada gen por gen. De (1), se calcula la matriz de transformación como:
2001
La matriz de transformación F en la ecuación (2) se calcula usando un subconjunto de muestras relativamente pequeño que se miden tanto en las serie de datos primaria como secundaria.
Finalmente, la respuesta de la muestra desconocida medida en la serie secundaria r^{T}_{2,un}, se estandariza al vector de respuesta 2002 esperado de la serie primaria
2003
A partir de la ecuación anterior puede verse que la columna i de la matriz de transformación contiene los factores de multiplicación para un conjunto de genes medidos en la serie secundaria para obtener la intensidad en la mancha i de la serie corregida.
El número de muestras que se repiten en las series experimentales, R_{1} y R_{2}, deben ser iguales a sus rangos, que en este caso es igual al número de componentes principales retenido para explicar la variación en R_{1} y R_{2}. Por ejemplo, si se retienen tres componentes principales para explicar la variación en el conjunto de datos, un mínimo de tres muestras debe repetirse entre R_{1} y R_{2}. Las muestras que deben repetirse entre diferentes series deben ser idealmente aquellas que presentan apalancamientos altos en el patrón de expresión génica. En determinados momentos, dos muestras pueden ser suficientes, mientras que en otros momentos, deben incluirse más de dos muestras idealmente para una buena representatividad. En algunos casos, las muestras seleccionadas pueden ser las mismas en todas las series experimentales que se van a comparar (muestras de referencia), mientras que en otros casos, pueden seleccionarse muestras representativas secuencialmente mediante el análisis del patrón de expresión después de cada experimento. Las muestras seleccionadas con apalancamientos altos se incluyen en la siguiente serie experimental. Los resultados usando Estandarización Directa se muestran en la Figura 1.
Otra estrategia para normalizar y estandarizar el conjunto de datos de expresión génica es hibridar cada matriz de ADN con las moléculas diana preparadas a partir de una muestra de ensayo y una cantidad igual de moléculas diana marcadas preparadas a partir de muestras de referencia representativas. Con el fin de medir la intensidad de las moléculas diana marcadas que hibridan con las sondas inmovilizadas es necesario que las moléculas marcadas se preparen a partir de muestras de ensayo y de referencia usando diferentes marcadores, por ejemplo, pueden usarse marcadores fluorescentes diferentes para preparar el material marcado. Las moléculas marcadas preparadas a partir de muestras de referencia pueden añadirse a la disolución de hibridación junto con el material marcado preparado a partir de las muestras de ensayo. Puede obtenerse un archivo de datos de cada matriz que representa el patrón de expresión de los diferentes genes en la muestra de ensayo y muestras de referencia, normalizado y estandarizado por el método de estandarización directa como se ha descrito anteriormente. Una ventaja instantánea de incluir las moléculas diana marcadas de forma diferente a partir de las muestras de referencia durante la hibridación es que permite una comparación eficaz de muestras de ensayo nuevas con los conjuntos de datos ya almacenados en una base de datos.
La monitorización de la expresión de un gran número de genes en varias muestras da lugar a la generación de una gran cantidad de datos que es demasiado compleja para interpretarse fácilmente. Se ha mostrado que varias técnicas de análisis de datos multivariante no supervisadas y supervisadas son útiles en la extracción de información biológica importante de estos grandes conjuntos de datos. El análisis de conglomerados es con mucho la técnica más comúnmente usada para el análisis de expresión génica, y se ha realizado para identificar genes que están regulados de una manera similar, y o para identificar clases de tumores nuevas/no conocidas usando perfiles de expresión génica (Eisen et al., 1998, PNAS, 95, p14863-14868, Alizadeh et al. 2000, supra, Perou et al., 2000, Nature, 406, p747-752; Ross et al, 2000, Nature Genetics, 24(3), p227-235; Herwig et al., 1999, Genome Res., 9, p1093-1105; Tamayo et al, 1999, Science, PNAS, 96, p2907-2912).
En el método de conglomerados, los genes se agrupan en categorías funcionales (conglomerados) tomando como base su perfil de expresión, satisfaciendo dos criterios: homogeneidad - los genes en el mismo conglomerado son altamente similares en la expresión entre sí; y separación - los genes en diferentes conglomerados tienen una baja similitud en la expresión entre sí.
Los ejemplos de varias técnicas de análisis de conglomerados que se han usado para el análisis de expresión génica incluyen análisis de conglomerados jerárquico (Eisen et al., 1998, supra; Alizadeh et al., 2000, supra; Perou et al., 2000, supra; Ross et al., 2000, supra), análisis de conglomerados de de K medias (Herwig et al., 1999, supra; Tavazoie et al., 1999, Nature Genetics, 22(3), p281-285), gene shaving (Hastie et al., 2000, Genome Biology, 1(2), research 0003.1-0003.21), análisis de conglomerados en bloque (Tibshirani et al., 1999, Tech repot Univ Stanford.), modelo Plaid (Lazzeroni, 2002, Stat. Sinica, 12, p61-86) y mapas autoorganizados (Tamayo et al., 1999, supra). Además, los métodos relacionados de análisis estadístico multivariante, tales como aquellos que usan descomposición en valores singulares (Alter et al., 2000, PNAS, 97(18), p10101-10106; Ross et al., 2000, supra) o escalado multidimensional pueden ser eficaces para reducir las dimensiones de los objetos que se están estudiando.
Sin embargo, los métodos tales como el análisis de conglomerados y la descomposición en valores singulares son meramente exploratorios y sólo proporcionan una visión global de la estructura interna presente en los datos. Son estrategias no supervisadas en las que la información disponible respecto a la naturaleza de la clase que se está investigando no se usa en el análisis. A menudo, se conoce la naturaleza de la perturbación biológica a la que se ha sometido una muestra particular. Por ejemplo, a veces se conoce si la muestra cuyo patrón de expresión génica se está analizando deriva de un individuo enfermo o sano. En dichos casos, puede usarse un análisis discriminante para clasificar las muestras en varios grupos tomando como base sus datos de expresión génica.
En dicho análisis se construye el clasificador utilizando para el entrenamiento los datos que son capaces de discriminar entre miembros y no miembros de una clase dada. El clasificador sometido al proceso de entrenamiento puede usarse para predecir la clase de muestras no conocidas. Los ejemplos de métodos de discriminación que se han descrito en la bibliografía incluyen Máquinas de Vectores de Soporte (Brown et al, 2000, PNAS, 97, p262-267), Vecino Más Próximo (Dudoit et al., 2000, supra), Árboles de clasificación (Dudoit et al., 2000, supra), Clasificación votada (Dudoit et al., 2000, supra), Votación ponderada de genes (Golub et al. 1999, supra) y Clasificación Bayesiana (Keller et al. 2000, Tec report Univ de Washington). Además, se ha descrito recientemente una técnica en la que se usa en primer lugar análisis de regresión PLS (Mínimos Cuadrados Parciales) para reducir las dimensiones en el conjunto de datos de expresión génica seguido de clasificación usando análisis discriminante logístico y análisis discriminante cuadrático (LD y QDA) (Nguyen y Rocke, 2002, Bioinformatics, 18, p39-50 y 1216-1226).
Un reto que presentan los datos de expresión génica para los métodos discriminantes clásicos es que el número de genes cuya expresión se está analizando es muy grande comparado con el número de muestras que se está analizando. Sin embargo, en la mayoría de los casos sólo una pequeña fracción de estos genes es informativa en problemas de análisis discriminante. Además, existe el peligro de que el ruido de genes irrelevantes pueda enmascarar o distorsionar la información de los genes informativos. En la bibliografía se han sugerido varios métodos para identificar y seleccionar genes que son informativos en estudios de micromatriz, por ejemplo, t-estadísticas (Dudoit et al. 2002, J. Am. Stat. Ass., 97, p77-87), análisis de varianza (Kerr et al., 2000, PNAS, 98, p8961-8965), Análisis de vecindario (Golub et al, 1999, supra), Relación de la suma de cuadrados entre los grupos y en los grupos (Dudoit et al., 2000, supra), Puntuación no paramétrica (Park et al., 2002, Pacific Symposium on Biocomputing, p52-63) y Selección de probabilidad (Keller et al., 2000, supra).
En los métodos descritos en la presente memoria los datos de expresión génica que se han normalizado y estandarizado se analizan usando Regresión por Mínimos Cuadrados Parciales (PLSR). Aunque PLSR es principalmente un método usado para análisis de regresión de datos continuos (véase el Apéndice A), también puede utilizarse como un método para la construcción de modelos y el análisis discriminante usando una matriz de respuesta ficticia basada en un código binario. La asignación de clase está basada en una distinción dicótoma simple tal como cáncer de mama (clase 1)/sano (clase 2), o una distinción múltiple basada en diagnósticos de múltiples enfermedades tales como cáncer de mama (clase 1)/Alzheimer (clase 2)/sano (clase 3). La lista de enfermedades para la clasificación puede incrementarse dependiendo de las muestras disponibles correspondientes a otras enfermedades o condiciones o estadios de éstas.
PLSR aplicado como un método de clasificación se refiere como PLS-DA (significando DA Análisis discriminante). PLS-DA es una extensión del algoritmo PLSR en el que la matriz Y es una matriz ficticia que contiene n filas (correspondientes al número de muestras) y K columnas (correspondientes al número de clases). La matriz Y se construye insertando 1 en la columna kª y -1 en todas las demás columnas si el objeto iª correspondiente de X pertenece a la clase k. La regresión de Y en X, consigue la clasificación de una nueva muestra seleccionando el grupo correspondiente al mayor componente de lo ajustado, 2004 Así, en una matriz de respuesta -1/1, un valor de predicción por debajo de 0 significa que la muestra pertenece a la clase designada como -1, mientras que un valor de predicción por encima de 0 implica que la muestra pertenece a la clase designada como 1.
Una ventaja de PLSR-DA es que los resultados obtenidos pueden representarse fácilmente en la forma de dos gráficos diferentes, los gráficos de puntuación y de carga. Los gráficos de puntuación representan una proyección de las muestras en los componentes principales y muestra la distribución de las muestras en el modelo de clasificación y su relación las unas con las otras. Los gráficos de carga muestran las correlaciones entre las variables presentes en el conjunto de datos.
Habitualmente se recomienda usar PLS-DA como un punto de partida para el problema de clasificación debido a su capacidad de manejar datos colineales, y a la propiedad de PLSR como una técnica de reducción de la dimensión. Una vez que este propósito se ha cumplido, es posible usar otros métodos tales como análisis discriminante lineal, LDA, que se ha mostrado que es eficaz para extraer más información, Indahl et al. (1999, Chem. and Intell. Lab. Syst., 49, p19-31). Esta estrategia se basa en descomponer en primer lugar los datos usando PLS-DA y usar los vectores de puntuación (en lugar de las variables originales) como entrada en LDA. Detalles adicionales de LDA pueden encontrarse en Duda y Hart (Classification and Scene Analysis, 1973, Wiley, EEUU).
La siguiente etapa después de construir el modelo es la validación del modelo. Esta etapa se considera uno de los aspectos más importantes del análisis multivariante y ensaya la "bondad" del modelo de calibración que se ha construido. En este trabajo, se ha usado una estrategia de validación cruzada para la validación. En esta estrategia, una o unas pocas muestras se excluyen de cada segmento mientras que el modelo se construye usando una validación cruzada completa tomando como base los datos restantes. Las muestras excluidas se usan para predicción/clasificación. La repetición varias veces del proceso de validación cruzada simple manteniendo diferentes muestras fuera para cada validación cruzada da lugar a un denominado procedimiento de validación cruzada doble. Se ha mostrado que esta estrategia funciona bien con una cantidad limitada de datos, como es el caso de algunos de los Ejemplos descritos en la presente memoria. Además, como la etapa de validación cruzada se repite varias veces el peligro de sesgo en el modelo y de sobreajuste se reduce.
Una vez que se ha construido y validado un modelo de calibración, los genes que presentan un patrón de expresión que es muy relevante para describir la información deseada en el modelo pueden seleccionarse por técnicas descritas en la técnica anterior para la selección de variables, como se menciona en otra parte. La selección de variables ayudará en la reducción de la complejidad del modelo final, proporciona un modelo parsimonioso, y da lugar así a un modelo fiable que puede usarse para predicción. Además, el uso de pocos genes para el propósito de proporcionar diagnóstico reducirá el coste del producto de diagnóstico. De esta manera, pueden identificarse las sondas informativas que se unirán a los genes relevantes.
Hemos encontrado que después de que se ha construido un modelo de calibración, se pueden usar eficazmente técnicas estadísticas como Jackknife (Effron, 1982, The Jackknife, the Bootstrap and other resampling plans. Society for Industrial and Applied mathematics, Philadelphia, EEUU), basadas en metodología de remuestreo, para seleccionar o confirmar variables significativas (sondas informativas).
La varianza incertidumbre aproximada de los coeficientes de regresión B de PLS puede estimarse por:
1
en la que
S^{2}B = varianza incertidumbre estimada de B;
B = el coeficiente de regresión en el rango validado cruzado A usando todos los objetos N;
B_{m} = el coeficiente de regresión en el rango A usando todos los objetos excepto el o los objetos excluidos del segmento de validación cruzada m; y
g = coeficiente de escalado (aquí: g=1).
\newpage
En nuestra estrategia, JackKnife se ha implementado junto con la validación cruzada. Para cada variable, se calcula en primer lugar la diferencia entre los coeficientes B, B_{i}, en un submodelo validado de manera cruzada y B_{tot} para el modelo total. La suma de los cuadrados de las diferencias se calcula en todos los submodelos para obtener una expresión de la varianza del estimado B_{i} para una variable. La significancia del estimado de B_{i} se calcula usando el ensayo t. Así, los coeficientes de regresión resultantes pueden presentarse con límites de incertidumbre que corresponden a 2 Desviaciones Estándar, y a partir de esto se detectan las variables significativas.
En la presente memoria no se proporcionan más detalles respecto a la implementación o uso de esta etapa ya que se ha implementado en un programa informático que está disponible comercialmente, The Unscrambler, CAMO ASA, Noruega. Además, los detalles de la selección de variables usando JackKnife pueden encontrarse en Westad y Martens (2000, J. Near Inf. Spectr., 8, p117-124).
La estrategia siguiente puede usarse para seleccionar sondas informativas de un conjunto de datos de expresión génica:
a) excluir una única muestra (incluyendo sus repeticiones si están presentes en el conjunto de datos) por segmento de validación cruzada;
b) construir un modelo de calibración (segmento validado de manera cruzada) en las muestras restantes usando PLSR-DA;
c) seleccionar los genes significativos para el modelo en la etapa b) usando el criterio JackKnife;
d) repetir las 3 etapas anteriores hasta que todas las muestras únicas en el conjunto de datos se excluyan una vez (como se ha descrito en la etapa a). Por ejemplo, si en el conjunto de datos están presentes 75 muestras únicas, se construyen 75 modelos de calibración diferentes lo que resulta en la recogida de 75 conjuntos de sondas significativas diferentes;
e) seleccionar las variables más significativas usando el criterio de la frecuencia de aparición en los conjuntos de sondas significativas generados en la etapa d). Por ejemplo, un conjunto de sondas que aparece en todos los conjuntos (100%) es más informativo que las sondas que aparecen en sólo el 50% de los conjuntos generados en la etapa d).
Una vez que se han seleccionado las sondas informativas para una enfermedad, se hace y valida un modelo final. Las dos formas más comúnmente usadas para validar el modelo son validación cruzada (CV) y validación del conjunto de ensayo. En la validación cruzada, los datos se dividen en subconjuntos k. El modelo se entrena k veces, excluyendo cada vez uno de los subconjuntos del entrenamiento, pero usando sólo el subconjunto omitido para computar el criterio de error, RMSEP (Error Cuadrático Medio de Predicción). Si k es igual al tamaño de la muestra, esto se llama validación cruzada "leave-one-out". La idea de excluir una o unas pocas muestras por segmento de validación es válida sólo en los casos en los que la covarianza entre los diferentes experimentos es cero. Así, una estrategia de una muestra cada vez no puede justificarse en situaciones que contienen réplicas ya que la exclusión de una sola de las réplicas introducirá un sesgo sistemático en nuestro análisis. La estrategia correcta en este caso será excluir todas las réplicas de las mismas muestras cada vez ya que satisfará las suposiciones de covarianza cero entre los segmentos CV.
La segunda estrategia para la validación del modelo es usar un conjunto de ensayo separado para validar el modelo de calibración. Esto requiere realizar un conjunto separado de experimentos que se van a usar como un conjunto de ensayo. Esta es la estrategia preferida siempre que estén disponibles datos de ensayo reales.
El modelo final se usa para identificar una enfermedad, condición o estadio de ésta en muestras de ensayo. Para este propósito, los datos de expresión de genes informativos seleccionados se generan a partir de muestras de ensayo y el modelo final se usa para determinar si una muestra pertenece a una clase enferma o no enferma o tiene una condición o estadio de ésta.
Así, en la presente memoria también se describe un método para identificar sondas útiles para diagnosticar o identificar o monitorizar una enfermedad o condición o estadio de ésta en un organismo, que comprende las etapas de:
a) inmovilizar un conjunto de sondas oligonucleotídicas, preferiblemente como se ha descrito anteriormente en la presente memoria, en un soporte sólido;
b) aislar el ARNm de una muestra de un organismo normal (muestra normal), que opcionalmente puede transcribirse de manera inversa a ADNc;
c) aislar el ARNm de una muestra de un organismo, correspondiente a la muestra y organismo de la etapa (b), que se sabe que tiene dicha enfermedad o condición o estadio de ésta (muestra enferma), que opcionalmente puede transcribirse de manera inversa a ADNc;
d) hibridar el ARNm o ADNc de las etapas (b) y (c) con dicho conjunto de sondas oligonucleotídicas inmovilizado de la etapa (a); y
e) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas oligonucleotídicas para determinar el nivel de expresión génica de los genes a los que se unen dichas sondas oligonucleotídicas en dichas muestras normal y enferma para generar un conjunto de datos de expresión génica para cada muestra;
f) normalizar y estandarizar dicho conjunto de datos de la etapa (e);
g) construir un modelo de calibración para la clasificación, preferiblemente usando las técnicas estadísticas Análisis Discriminante de Mínimos Cuadrados Parciales (PLS-DA) y Análisis Discriminante Lineal (LDA);
h) realizar un análisis JackKnife e identificar aquellas sondas oligonucleotídicas que se requieren para la clasificación de dichas muestras enfermas y normales en sus grupos respectivos.
Específicamente, en un aspecto más, la presente invención proporciona un método para identificar sondas útiles para diagnosticar o identificar o monitorizar cáncer de mama o enfermedad de Alzheimer o un estadio de ésta en un organismo, que comprende las etapas de:
a) inmovilizar un conjunto de sondas oligonucleotídicas de la invención como se ha descrito anteriormente en la presente memoria específicas para el cáncer de mama o la enfermedad de Alzheimer en un soporte sólido;
b) aislar el ARNm de una muestra de sangre de un organismo normal (muestra normal), que opcionalmente puede transcribirse de manera inversa a ADNc;
c) aislar el ARNm de una muestra de un organismo, correspondiente a la muestra y organismo de la etapa (b), que se sabe que tiene cáncer de mama o enfermedad de Alzheimer o un estadio de ésta (muestra enferma), que opcionalmente puede transcribirse de manera inversa a ADNc;
d) hibridar el ARNm o ADNc de las etapas (b) y (c) de dicho organismo con cáncer de mama o enfermedad de Alzheimer con dicho conjunto de sondas oligonucleotídicas inmovilizado de la etapa (a) para cáncer de mama o enfermedad de Alzheimer, respectivamente; y
e) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas oligonucleotídicas para determinar el nivel de expresión génica de los genes a los que se unen dichas sondas oligonucleotídicas en dichas muestras normales y enfermas para generar un conjunto de datos de expresión génica para cada muestra;
f) normalizar y estandarizar dicho conjunto de datos de la etapa (e);
g) construir un modelo de calibración para la clasificación, preferiblemente usando las técnicas estadísticas Análisis Discriminante de Mínimos Cuadrados Parciales (PLS-DA) y Análisis Discriminante Lineal (LDA);
h) realizar un análisis JackKnife e identificar aquellas sondas oligonucleotídicas que se requieren para la clasificación de dichas muestras enfermas y normales en sus grupos respectivos, en el que los oligonucleótidos específicos para cáncer de mama o un estadio de éste son como se muestran en la Tabla 2b y los oligonucleótidos específicos para la enfermedad de Alzheimer o un estadio de ésta son como se muestran en la Tabla 4b.
Preferiblemente, se genera un modelo para propósitos de clasificación usando los datos relacionados con las sondas identificadas según el método descrito anteriormente. Preferiblemente, la muestra es como se ha descrito anteriormente. Preferiblemente, los oligonucleótidos que se inmovilizan en la etapa (a) se seleccionan al azar como se describe más adelante o son las sondas como se ha descrito anteriormente en la presente memoria. Dichos oligonucleótidos pueden tener una longitud considerable, p. ej. si se usa ADNc (que está englobado en el alcance del término "oligonucleótido"). La identificación de dichas moléculas de ADNc como sondas útiles permite el desarrollo de oligonucleótidos más cortos que reflejan la especificidad de las moléculas de ADNc pero que son más fáciles de fabricar y manipular.
El modelo descrito anteriormente puede usarse para generar y analizar datos de muestras de ensayo y así puede usarse para los métodos de diagnóstico como se ha descrito anteriormente en la presente memoria. En dichos métodos, los datos generados a partir de la muestra de ensayo proporcionan el conjunto de datos de la expresión génica y éste se normaliza y estandariza como se ha descrito anteriormente. Esto se ajusta al modelo de calibración descrito anteriormente para proporcionar una clasificación.
El método descrito en la presente memoria también puede usarse para seleccionar simultáneamente sondas informativas para varias enfermedades o condiciones relacionadas o no relacionadas. Dependiendo de qué enfermedades o condiciones se hayan incluido en el conjunto de calibración y entrenamiento, las sondas informativas pueden seleccionarse para dichas enfermedades o condiciones. Las sondas informativas seleccionadas para una enfermedad o condición pueden o no ser similares a las sondas informativas seleccionadas para otra enfermedad o condición de interés. Es el patrón con el que se expresan los genes seleccionados en relación unos con otros durante una enfermedad, condición o estadio de ésta, el que determina si son o no informativas para la enfermedad, condición o estadio de ésta.
En otras palabras, los genes informativos se seleccionan tomando como base cómo se correlaciona su expresión con la expresión de otros genes informativos seleccionados bajo la influencia de respuestas generadas por la enfermedad, condición o estadio de ésta que se está investigando. En los ejemplos 1 y 2 proporcionados más adelante en la presente memoria, se seleccionaron 139 sondas informativas para el diagnóstico del cáncer de mama y se seleccionaron 182 sondas para el diagnóstico de la enfermedad de Alzheimer mediante el entrenamiento de los conjuntos de datos de la expresión génica de genes que representan 1.435 ó 758 clones de ADNc tomados al azar para muestras de cáncer de mama/sin cáncer de mama, o muestras con Alzheimer/sin Alzheimer, respectivamente. Entre las sondas seleccionadas para el cáncer de mama y Alzheimer, aproximadamente 10 sondas fueron informativas tanto para el diagnóstico del cáncer de mama como de la enfermedad de Alzheimer.
Para el propósito de aislar sondas informativas o identificar simultáneamente varias enfermedades condiciones y estadios de éstas relacionadas o no relacionadas, los conjuntos de datos de expresión génica deben contener la información de cómo se expresan los genes cuando el sujeto tiene una enfermedad, condición particular o estadio de ésta que se está investigando. El conjunto de datos se genera a partir de un conjunto de muestras sanas o enfermas, en las que una muestra particular puede contener la información de una única enfermedad, condición o estadios de ésta o también puede contener información acerca de múltiples enfermedades, condiciones o estadios de éstas. Por ejemplo, si se pretende el aislamiento de sondas informativas para la enfermedad de Alzheimer, cáncer de mama y diabetes, pueden obtenerse muestras de sangre completa de un paciente con Alzheimer que tiene cáncer de mama y diabetes. Así, el método también enseña un diseño experimental eficaz para reducir el número de muestras requerido para aislar sondas informativas seleccionando las muestras que representan más de una enfermedad, condición o estadio de ésta.
Como se ha mencionado previamente, a la vista del alto contenido de información de la mayoría de los transcritos, la identificación y selección de sondas informativas para usarse en el diagnóstico, monitorización o identificación de una enfermedad, condición particular o estadio de ésta puede simplificarse dramáticamente. Así, el conjunto de genes del que puede hacerse una selección para identificar sondas informativas puede reducirse radicalmente.
Por el contrario, en las tecnologías de la técnica anterior en las que las sondas informativas se seleccionan de una población de miles de genes que se expresan en una célula, como en micromatriz, en el método descrito en la presente memoria, las sondas informativas se seleccionan de un número limitado de genes obtenidos al azar. Por ejemplo, de una población de 1.435 clones de ADNc, tomados al azar de una biblioteca de ADNc de sangre humana completa, fuimos capaces de seleccionar 139 sondas informativas para el diagnóstico de cáncer de mama (véanse el Ejemplo 1 y la Tabla 2).
Así, en un aspecto preferido del método mencionado anteriormente para identificar sondas útiles para diagnosticar o identificar o monitorizar una enfermedad o condición o estadio de ésta en un organismo, dicho conjunto de oligonucleótidos que se inmovilizan en la etapa (a) se selecciona al azar de un conjunto mayor de oligonucleótidos, p. ej. de una biblioteca de ADNc u otro conjunto de oligonucleótidos, que puede, pero preferiblemente no, seleccionarse del conjunto proporcionado en la presente memoria. Preferiblemente, dicho conjunto mayor comprende oligonucleótidos que corresponden a genes expresados de manera moderada o alta. Así, preferiblemente en los métodos descritos en la presente memoria, el conjunto de oligonucleótidos descrito en la presente memoria se reemplaza por un conjunto de oligonucleótidos que se selecciona al azar, p. ej., de bibliotecas de oligonucleótidos o ADNc disponibles comercialmente.
Tal y como se refiere en la presente memoria "al azar" se refiere a una selección que no está sesgada tomando como base la magnitud de información contenida en los transcritos respecto a la enfermedad, condición u organismo que se está estudiando, es decir, sin sesgo hacia su utilidad probable como sondas informativas.
Aunque puede hacerse una selección al azar de un conjunto de transcritos (o productos relacionados) que tienen sesgo, p. ej. hacia transcritos expresados de manera alta o moderada, la selección al azar se hace preferiblemente de un conjunto de transcritos no sesgado o seleccionado por un criterio basado en la secuencia. El conjunto mayor puede contener por lo tanto oligonucleótidos correspondientes a genes expresados de manera alta o moderada, o alternativamente, puede estar enriquecido en aquellos que corresponden a los genes expresados de manera alta o moderada.
La selección al azar de genes expresados de manera alta y moderada puede conseguirse de muchas maneras diferentes. Una estrategia usada en este trabajo, pero que no se limita a sí misma, implica tomar al azar un número significativo de clones de ADNc de una biblioteca de ADNc construida a partir de un especimen biológico que se está investigando. Así, en una biblioteca de ADNc, los clones de ADNc correspondientes a los transcritos presentes en una cantidad alta o moderada están presentes más frecuentemente que los transcritos correspondientes al ADNc presente en una cantidad baja, el primero tenderá a ser tomado más frecuentemente que el último. Mediante esta estrategia puede aislarse un conjunto de ADNc enriquecido en aquellos correspondientes a los genes expresados de manera alta y moderada.
Para identificar los genes que se expresan en una cantidad alta o moderada entre la población aislada para usarse en los métodos descritos en la presente memoria, puede generarse la información acerca del nivel relativo de sus transcritos en las muestras de interés usando varias técnicas de la técnica anterior. Para este propósito pueden usarse tanto métodos no basados en la secuencia, tales como exposición diferencial o huella de ARN, como métodos basados en la secuencia tales como micromatrices o macromatrices. Alternativamente, pueden diseñarse secuencias de cebador específicas para los genes expresados de manera alta y moderada y pueden usarse métodos tales como RT-CR cuantitativa para determinar los niveles de los genes expresados de manera alta y moderada. Por lo tanto, un experto en la técnica puede usar varias técnicas que son conocidas en la técnica para determinar el nivel relativo de ARNm en una muestra biológica.
De forma especialmente preferida, la muestra para el aislamiento del ARNm en el método descrito anteriormente es como se ha descrito anteriormente y preferiblemente no es del sitio de la enfermedad y las células de dicha muestra no son células enfermas y no han estado en contacto con células enfermas.
Los ejemplos siguientes se proporcionan sólo como ilustración en los que las Figuras a las que se refieren son como sigue:
La Figura 1 muestra el efecto de Estandarización Directa (DS) en los datos de Alzheimer medidos en dos series diferentes de experimentos en la que AD indica muestras de Alzheimer y A,B son muestras sin Alzheimer. Las muestras de ambas series han sido marcadas sistemáticamente como (xx_7/xx_8), mientras que las muestras corregidas de la serie 8 (en b,c,d) han sido marcadas como (xx_c), así, por ejemplo, AD2-7 indica la muestra de enfermedad de Alzheimer número 2 en la serie de experimento 7. Las manchas rodeadas con un círculo representan las muestras elegidas como muestras de transferencia. Las líneas conectoras en las figuras b,c,d muestran la proximidad de las muestras replicadas después de aplicar DS. Las líneas de puntos en las figuras a,c,d representan el límite de decisión que separa a las clases. Estas líneas no se han dibujado tomando como base ningún criterio estadístico, pero sirven para el propósito de separar visualmente las clases. Las cuatro figuras muestran gráfico de puntuaciones (PC1-PC2) de análisis PCA basado en (a) datos no estandarizados, (b) gráfico de puntuaciones después de la estandarización directa usando 3 muestras de transferencia, (c) gráfico de puntuaciones después de la estandarización directa usando 4 muestras de transferencia, (d) gráfico de puntuaciones después de la estandarización directa usando 8 muestras de transferencia;
La Figura 2 muestra la proyección de muestras normales (incluyendo benignas) y de cáncer de mama en un modelo de clasificación generado por PLSR-DA usando los datos de 44 genes informativos, en la que PC es los componentes principales y N y C son muestras normales y de cáncer de mama, respectivamente;
La Figura 3 muestra la proyección de individuos con y sin enfermedad de Alzheimer en un modelo de clasificación generado por PLSR-DA usando 182 genes informativos;
Las Figuras 4, 6 y 8 muestran los gráficos de proyección como en la Figura 2 en los que el modelo de clasificación se genera usando 719, 111 y 345 ADNc, respectivamente, en la que PC es los componentes principales, N indica normal y B indica muestras de cáncer de mama;
Las Figuras 5, 7 y 9 muestras los gráficos de predicción basados en 3 componentes principales usando los datos de 719, 111 y 345 ADNc, respectivamente;
La Figura 10 muestra un gráfico de proyección como en la Figura 3 en el que el modelo de clasificación se genera usando 520 ADNc; y
La Figura 11 es el gráfico de predicción correspondiente a la Figura 10.
\vskip1.000000\baselineskip
Ejemplo 1 Diagnóstico de Cáncer de Mama Métodos
Se obtuvo sangre completa de los brazos de pacientes con cáncer de mama y pacientes con tumores benignos (hospitales Ullev\ring{a}l y Haukland en Noruega). Todos los pacientes con cáncer de mama tenían un tumor maligno de la mama (muestras enfermas). La sangre sana se recogió de los dos hospitales anteriores, o se recogió en una estación de Salud en \ring{A}s, Noruega o en DiaGenic AS, Noruega, de los brazos de donantes femeninas sin signos indicados de cáncer de mama. La sangre de los individuos sanos o con tumores benignos comprende las muestras normales. La sangre se recogió en tubos que contienen EDTA y se almacenó inmediatamente a -80ºC o se recogió en tubos PAXgene y se almacenó durante 12-24 horas a temperatura ambiente antes de almacenarla finalmente a -80ºC antes de usarla. En la Tabla 5 se proporcionan más detalles sobre los pacientes con cáncer de mama y con tumor benigno de los que se extrajo la sangre. El ARNm se aisló de la sangre de los 29 pacientes con cáncer de mama y los 46 donantes normales y se usó para preparar sondas marcadas mediante transcripción inversa en presencia de \alpha^{32}P-dATP. El ADNc de primera cadena de las muestras normales y enfermas se unió, separadamente a 1.435 clones de ADNc inmovilizados en un soporte sólido (membrana de nilón). Estos clones de ADNc se tomaron al azar, sin conocimiento previo de sus secuencias génicas, de una biblioteca de ADNc construida usando sangre completa de 550 individuos sanos (Clontech, Palo Alto, EEUU). Estos métodos se realizaron como sigue.
Para la amplificación de los insertos, se crecieron clones de bacterias en placas de microtitulación que contienen 150 \mul de LB con 50 \mug/ml de carbenicilina y se incubaron toda la noche con agitación a 37ºC. Para lisar las células, se diluyeron 5 \mul de cada cultivo con 50 \mul de H_{2}O y se incubó durante 12 min. a 95ºC. De esta mezcla, 2 \mul se sometieron a una reacción de PCR usando 20 pmoles de cebador M13 directo e inverso en presencia de 1,5 mM de MgCl_{2}. Las reacciones de PCR se realizaron con el protocolo de ciclos siguiente: 4 min. a 95ºC, seguido de 25 ciclos de 1 min. a 94ºC, 1 min. a 60ºC y 30 min. a 72ºC bien en un Ciclador de Temperatura RoboCycler® (Stratagene, La Jolla, EEUU) o Ciclador Térmico DNA Engine Dyad Peltier (MJ Research Inc., Waltham, EEUU). Los productos amplificados se desnaturalizaron por incubación con NaOH (0,2 M, concentración final) durante 30 min. y se depositaron sobre membranas Hybond-N+ (Amersham Pharmacia Biotech, Little Chalfont, Reino Unido), usando la estación de trabajo MicroGrid II según las instrucciones del fabricante (BioRobotics Ltd, Cambridge, Inglaterra). Los ADNc inmovilizados se fijaron usando un entrecruzador UV (Hoefer Scientific Instruments, San Francisco, EEUU).
Además de los 1.435 ADNc, las matrices impresas también contenían controles para evaluar el nivel de fondo, la consistencia y la sensibilidad del ensayo. Éstos se depositaron en múltiples posiciones e incluyeron controles tales como mezcla de PCR (sin ningún inserto); controles positivos y negativos del sistema de validación de la matriz SpotReportTM 10 (Stratagene, La Jolla, EEUU) y ADNc correspondientes a genes expresados constitutivamente tales como b-actina, g-actina, GAPDH, HOD y ciclofilina. Además, se incluyeron los oligonucleótidos correspondientes a SIX1, b-tubulina, TRP-2, MDM2, C Ligera de Miosina, CD44, Maspina, Laminina y SR 19 para detectar las células cancerosas diseminadas.
El ARN total de la sangre recogida en tubos EDTA se purificó usando el protocolo Trizol LS Reagent (Invitrogen/Life Technologies). De la sangre contenida en los tubos PAXgene, se purificó el ARN total según las instrucciones del proveedor (PreAnalytiX, Hombrechtikon, Suiza). El ADN contaminante se eliminó del ARN aislado por tratamiento con ADNasa I usando el kit DNA-free (Ambion, Inc., Austin, EEUU). La calidad del ARN se determinó visualmente inspeccionando la integridad de las bandas ribosomales de 28S y 18S después de electroforesis en gel de agarosa. La concentración y pureza del ARN extraído se determinaron midiendo la absorbancia a 260 nm y 280 nm. El ARNm se aisló del ARN total usando Dynabeads según las instrucciones del proveedor (Dynal AS, Oslo, Noruega).
Los experimentos de marcaje e hibridación se realizaron en lotes. El número de muestras ensayado en cada lote varió de seis a nueve. En el caso de las muestras que se ensayaron más de una vez (réplicas), se usaron alicuotas obtenidas del mismo conjunto de ARNm para la síntesis de sondas. Para la síntesis de sondas, se mezclaron alicuotas de ARNm correspondiente a 4-5 \mug del ARN total junto con oligodT_{25NV} (0,5 \mug/ml) y adiciones de ARNm del sistema de validación de matriz SpotReport^{TM} 10 (10 pg; Adición 2, 1 pg), se calentó a 70ºC para eliminar las estructuras secundarias y se enfrió en hielo. Las sondas se prepararon en 35 \mul de mezclas de reacción por transcripción inversa en presencia de 50 \muCi [\alpha^{33}P] dATP, 3,5 \muM dATP, 0,6 mM de cada uno de dCTP, dTTP, dGTP, 200 unidades de transcriptasa inversa SuperScript (Invitrogen, LifeTechnologies) y 0,1 M DTT, se marcó durante 1,5 h a 42ºC. Después de la síntesis, la enzima se inactivó durante 10 min. a 70ºC y el ARNm se eliminó por incubación de la mezcla de reacción durante 20 min. a 37ºC en 4 unidades de Ribo H (Promega, Madison, EEUU). Los nucleótidos no incorporados se eliminaron usando Columnas ProbeQuant G 50 (Amersham Biosciences, Piscataway, EEUU).
Antes de la hibridación, las membranas se equilibraron en 4 x SSC durante 2 h a temperatura ambiente y se prehibridaron toda la noche a 65ºC en 10 ml de disolución de prehibridación (4 x SSC, 0,1 M NaH_{2}PO_{4}, 1 mM EDTA, 8% sulfato de dextrano, 10 x disolución de denhardt, 1% SDS). Las sondas recién preparadas se añadieron a 5 ml de la misma disolución de prehibridación y la hibridación continuó toda la noche a 65ºC. Las membranas se lavaron a 65ºC con astringencia creciente (2 x 30 min. cada uno en 2 x SSC, 0,1% SDS; 1 x SSC, 0,1% SDS; 0,1 x SSC, 0,1% SDS) para eliminar las señales inespecíficas.
La cantidad de unión de ADNc de primera cadena marcado a cada mancha se evaluó y cuantificó usando un Phospholmager para generar un conjunto de datos de expresión génica. Los datos se generaron usando el programa informático Phoretix versión 3 (Non Linear Dynamics, Inglaterra). Las sustracción del fondo se realizó en los datos generados sustrayendo la media de la línea de píxeles alrededor de la línea exterior de cada mancha de la intensidad total obtenida de las manchas respectivas.
Los datos a los que se sustrajo el fondo se normalizaron y transformaron seleccionando las 50 señales más bajas y las 50 señales máximas para cada membrana. Esta etapa fue para excluir los genes que se expresaban con un alto grado de varianza. Como los genes variaban de membrana a membrana, los datos de expresión de 497 genes se eliminaron del conjunto de datos. Los valores para los 938 genes restantes se normalizaron usando diferentes estrategias tales como controles externos, dividir cada mancha por la intensidad media de la señal observada en la membrana respectiva, normalizar por intervalo los datos de cada membrana y transformar logarítmicamente los datos obtenidos.
Los datos procesados obtenidos anteriormente se usaron para aislar las sondas informativas:
a) excluyendo una única muestra (incluyendo todas las repeticiones de la muestra seleccionada) por segmento de validación cruzada;
b) construyendo un modelo de calibración (validado de manera cruzada) en las muestras restantes usando PLSR-DA;
c) seleccionando el conjunto de genes significativos para el modelo de la etapa b usando el criterio JackKnife;
\newpage
d) repitiendo las etapas a), b) y c) hasta que todas las muestras únicas se excluyen una vez (por lo tanto, en total se construyen 75 modelos de calibración diferentes (después de repetir la etapa b) 75 veces), lo que resulta en 75 conjuntos diferentes de sondas significativas (después de repetir la etapa c) 75 veces));
e) seleccionando las variables significativas usando el criterio de frecuencia de aparición entre los 75 conjuntos diferentes de sondas significativas.
Las sondas informativas basadas en el criterio de aparición se usaron para construir un modelo de clasificación. El resultado del modelo de clasificación basado en sondas que aparecen en al menos 90% de los conjuntos generados después de la etapa de aislar las sondas informativas como se ha descrito anteriormente se muestra en la Figura 2 en la que se observa que el patrón de expresión de estos genes fue capaz de clasificar a la mayoría de las mujeres con cáncer de mama y a las mujeres sin cáncer de mama en grupos distintos. En esta figura, PC1 y PC2 indican los dos componentes principales obtenidos estadísticamente de los datos que mejor definen la variabilidad sistémica presente en los datos. Esto permite que cada muestra, y los datos de cada una de las sondas informativas a las que se unió el ADNc de primera cadena marcado de la muestra, estén representadas en el modelo de clasificación como un único punto que es una proyección de la muestra en los componentes principales - el gráfico de puntuación.
La capacidad del modelo generado, basado en sondas informativas aisladas, para predecir muestras futuras se determinó por la estrategia de validación cruzada doble. El rendimiento del ensayo de diagnóstico para cáncer de mama basado en el criterio de aparición se presenta en la Tabla 6.
Se consiguió la predicción correcta de la mayoría de las células de cáncer de mama. Esto incluyó las tres muestras obtenidas de mujeres con carcinoma ductal in situ (DCIS), 11/15 muestras obtenidas de mujeres con cáncer de mama en estadio I, las cinco muestras obtenidas de mujeres con cáncer de mama en estadio II, y una de las dos muestras obtenidas de mujeres con cáncer de mama en estadio III. De forma interesante, dos muestras predichas correctamente en estadio I se obtuvieron de mujeres que tienen un tamaño de tumor con un diámetro de <5 mm.
El modelo también predijo correctamente la clase de la mayoría de las muestras sin cáncer (41/46), incluyendo aquellas que se obtuvieron de mujeres con anormalidades de la mama no cancerosas.
La confirmación de que los transcritos génicos no son de células que son células enfermas diseminadas se ha confirmado por varias líneas de evidencias, En primer lugar, los genes informativos se expresaron constitutivamente a niveles altos o moderados en las células sanguíneas de las mujeres independientemente de si tenían cáncer o no. En segundo lugar, en el ensayo descrito en este Ejemplo, con el fin de identificar transcritos, se requerirían al menos 720 células diseminadas en las muestras de sangre. Como el número medio de células diseminadas presentes en la sangre durante los diferentes estadios del cáncer de mama es mucho menor (cáncer de mama confinado en órgano, 0,8 células por ml; cáncer de mama invasivo sólo diseminado a los nódulos linfáticos, 2,4 células por ml; y cáncer de mama metastásico, 6 células por ml; SD>100%) (29), creemos que las señales que se han detectado se originan de células de sangre periférica y no podrían haberse originado de células diseminadas. En tercer lugar, no fuimos capaces de detectar ninguna señal de los ocho marcadores cancerosos que se sabe que tienen una expresión elevada en células cancerosas malignas, incluyendo células cancerosas que se han diseminado en la sangre.
Ejemplo 2 Diagnóstico de la enfermedad de Azheimer
Se realizaron experimentos similares con muestras de pacientes con Alzheimer. En este método 7 pacientes diagnosticados con la Enfermedad de Alzheimer en el Memory Clinic en el Hospital Universitario Ullev\ring{a}l se usaron en el estudio. Se confirmó que los pacientes tenían enfermedad de Alzheimer tomando como base los criterios siguientes:
\text{*} Una entrevista estandarizada con un clínico usando IQCODE, una escala ADL y una escala que mide el comportamiento del paciente (escala Green).
\text{*} Evaluación neuropsicológica usando MMSE, el ensayo del dibujo del reloj, ensayos A y B de Trazado (TMT A y B), ensayo de aprendizaje de objeto Kendrick (ensayo de memoria visual), parte de la batería Wechsler y ensayo Benton.
\text{*} Una evaluación psiquiátrica usando escalas para la detección de depresión, MADRS para entrevistar al paciente y escala Cornell para entrevistar al clínico.
\text{*} Un examen físico.
\text{*} Ensayos de laboratorio de muestras de sangre para descartar otras enfermedades.
\text{*} Escáner CT del cerebro.
\text{*} SPECT del cerebro.
La edad media de los pacientes fue 72,3 con un intervalo de edades de 69-76. La puntuación MMSE media fue 22,0 (siendo la máxima puntuación alcanzable 30).
Como control se usaron seis individuos con edades equivalentes sin diagnóstico de enfermedad de Alzheimer. Todos se habían ensayado con MMSE y tenían una puntuación mínima de 28 (media: 28,4). La edad media del grupo control normal fue 73,0 y el intervalo de edades 66-81. Una muestra de un individuo de 16 años, por lo tanto con una posibilidad mínima de tener enfermedad de Alzheimer, también se incluyó como un control adicional.
Usando los métodos descritos anteriormente (excepto que se realizó la hibridación con 758 en lugar de 1.435 clones de ADNc), las sondas informativas se seleccionaron tomando como base criterios de aparición y se usaron para construir un modelo de clasificación. Los resultados del modelo de clasificación basado en las sondas que aparecen al menos una vez en los conjuntos generados después del método de aislar las sondas informativas como se ha descrito anteriormente se muestran en la Figura 3 en la que se observará que el patrón de expresión de estos genes fue capaz de clasificar a los individuos con o sin enfermedad de Alzheimer en grupos distintos. En esta Figura PC1 y PC2 indican los 2 componentes principales obtenidos estadísticamente de los datos que definen la variabilidad sistemática presente en los datos. Esto permite que cada muestra, y los datos de cada una de las sondas informativas a las que se unió el ADNc de las muestras, esté representada en el modelo de clasificación como un único punto que es una proyección de la muestra en los componentes principales - el gráfico de puntuación.
La capacidad del modelo generado, basado en sondas informativas aisladas, para predecir muestras futuras se determinó por validación cruzada doble. El rendimiento del ensayo de diagnóstico para la enfermedad de Alzheimer se presenta en la Tabla 7.
\vskip1.000000\baselineskip
Apéndice A
Regresión de Mínimos Cuadrados Parciales (PLSR)
Definamos un modelo de regresión multivariante como:
Y = XB + F
en el que
X una matriz NxP con N variables vaticinadoras (genes);
Y (NxJ) siendo J las variables predichas. En nuestro caso Y representa una matriz que contiene variables ficticias;
B es una matriz de coeficientes de regresión; y
F es una matriz NxJ de residuales.
\vskip1.000000\baselineskip
La estructura del modelo PLSR puede escribirse como:
X = TP^{T} + E_{A}, e
Y = TQ^{T} + F_{A}, en la que
T (NxA) es una matriz de vectores de puntuación que son combinaciones lineales de las variables x;
P (PxA) es una matriz con los vectores de carga x p_{a} como columnas;
Q (JxA) es una matriz con los vectores de carga y q_{a} como columnas;
E_{a} (NxP) es la matriz para X después de factores A; y
F_{a} (NxJ) es la matriz para Y después de factores A.
El criterio en PLSR es maximizar la covarianza explicada de [X,Y]. Esto se logra cargando el vector de peso w_{a+1}, que es el primer autovector de E_{a}^{T}F_{a}F_{a}^{T}E_{a} (E_{a}y F_{a} son X e Y rebajados después de factores a o componentes PLS).
\vskip1.000000\baselineskip
Los coeficientes de regresión se proporcionan por:
B = W(P^{T}W)^{-1}Q^{T}
\newpage
Un modelo PLSR con rango completo, es decir número máximo de componentes, es equivalente a las soluciones MLR. Se pueden encontrar detalles adicionales de PLSR en Marteus y Naes, 1989, Multivariate Calibration, John Wiley & Sons, Inc., EEUU y Kowalski y Seasholtz, 1991, supra.
Ejemplo 3 Validación del Ejemplo 1, diagnóstico de cáncer de mama
Los resultados del Ejemplo 1 se validaron usando las sondas informativas identificadas en el Ejemplo 1 en nuevas muestras de cáncer de mama y controles.
Métodos
Se usaron los métodos esencialmente como se han descrito en el Ejemplo 1. La sangre se tomó de pacientes como se describe en la Tabla 8. Sin embargo, la sangre se recogió en tubos PAXgene y los ADNc de primera cadena marcados se hibridaron con 719 ADNc depositados en membranas de nilón junto con otros controles como se ha descrito en el Ejemplo 1. Después de la sustracción del fondo usando las manchas control, los datos de cada membrana se normalizaron usando el rango intercuartil. Los datos se analizaron como se ha descrito en el Ejemplo 1 y el modelo se validó por validación cruzada.
Los 719 ADNc que se depositaron son un subconjunto de los ADNc depositados en el Ejemplo 1 e incluyen 111 ADNc descritos en la Tabla 2 y que se encontró que eran informativos en el Ejemplo 1.
Resultados
Los resultados se muestran en las Figuras 4 a 9. Las Figuras 4, 6 y 8 son gráficos de proyección similares a la Figura 2 y muestran la proyección de muestras de pacientes normales y con cáncer de mama en un modelo de clasificación generado usando los 719 ADNc. La Figura 6 es similar pero usa un modelo de clasificación generado con las 111 sondas comunes al Ejemplo 1. La Figura 8 usa 345 secuencias de las 719 para las que se proporciona información de secuencia en la presente memoria. En cada caso, fue posible la clasificación de los grupos normales y de cáncer de mama. Las Figuras 5, 7 y 9 muestran gráficos de predicción que reflejan la capacidad de los modelos generados para diagnosticar correctamente el cáncer de mama. En los 3 gráficos de predicción mostrados, las muestras enfermas aparecen en el eje de las x a +1 y las muestras no enfermas aparecen a -1. El eje de las y representa la pertenencia a la clase predicha. Durante la predicción, si la predicción es correcta, las muestras enfermas deberían situarse por encima de cero y las muestras no enfermas deberían situarse por debajo de cero. En cada caso casi todas las muestras han sido correctamente predichas.
Ejemplo 4 Validación del Ejemplo 2, diagnóstico de Alzheimers
Los resultados del Ejemplo 2 se validaron usando las sondas informativas identificadas en el Ejemplo 2 en nuevas muestras de pacientes con Alzheimer.
Métodos
Se usaron los métodos esencialmente como se ha descrito en el Ejemplo 2. Doce pacientes femeninos diagnosticados con la enfermedad de Alzheimer en el Memory Clinic en el Hospital Universitario Ullev\ring{a}l que se confirmó que tenían enfermedad de Alzheimer tomando como base los criterios del Ejemplo 2 se usaron en el estudio. La edad media de los pacientes fue 72,3 con un intervalo de edades de 66-83. La puntuación MMSE media fue 22,0 (siendo la puntuación máxima alcanzable 30).
Dieciséis individuos femeninos con edades equivalentes sin diagnóstico de enfermedad de Alzheimer se usaron como el grupo control normal. Todos se habían ensayado con MMSE y tenían una puntuación mínima de 29. La edad media del grupo control normal fue 74,0 y el intervalo de edades 66-86.
Después de transferir la sangre a tubos PAXgene, se aisló el ARNm total de la sangre de los grupos de donantes con enfermedad de Alzheimer y control según las instrucciones del fabricante (PreAnalytiX, Hombrechtikon, Suiza). El ARNm aislado se marcó durante transcripción inversa en presencia de \alpha^{33}P-dATP, proporcionando un ADNc de primera cadena marcado. La hibridación se realizó como se ha descrito anteriormente en 730 clones de ADNc tomados de una biblioteca de ADNc de sangre completa de 550 individuos sanos sin saber la secuencia génica de los clones de ADNc al azar.
Resultados
Los resultados se muestran en las Figuras 10 y 11. La Figura 10 es un gráfico de proyección generado usando 520 sondas que han sido secuenciadas. la Figura 11 es un gráfico de predicción y muestra la correcta predicción de casi todas las muestras.
TABLA 1a Lista de sondas informativas para el diagnóstico de enfermedades
1000
2
3
4
5
6
\newpage
TABLA 1b Lista de secuencias de sondas informativas para el diagnóstico de enfermedades
Por favor, véase la nota en la parte inferior
7
8
9
10
11
12
13
14
15
16
17
Nota
Secuencias no disponibles para las secuencias ID en la Tabla 1 y las secuencias Id correspondientes en la Tabla 2 y 4.
19
TABLA 2a Lista de sondas informativas para el diagnóstico de cáncer de mama
20
21
\newpage
TABLA 2b Lista de secuencias de sondas informativas para el cáncer de mama
Por favor, véase la nota en la parte inferior de la Tabla 1. Faltan algunas secuencias.
22
23
24
25
26
27
28
TABLA 3 Lista de sondas informativas (Clon ID) seleccionadas para el diagnóstico del cáncer de mama tomando como base sus criterios de aparición durante la selección de las variables
30
\text{*}100% = Genes que aparecen en todos los 75 modelos validados de forma cruzada; 90% = Genes adicionales que aparecen en al menos 68 de los 75 modelos validados de forma cruzada; 5% = Genes adicionales que aparecen en al menos 4 de los 75 modelos validados de forma cruzada, etc.
TABLA 4a Lista de sondas informativas para el diagnóstico de la enfermedad de Alzheimer
31
32
\newpage
TABLA 4b Lista de secuencias de sondas informativas para la enfermedad de Alzheimer
Por favor, véase la nota de la Tabla 1.
33
34
35
36
37
38
39
40
41
42
43
\newpage
TABLA 5 Muestras
44
\text{*} De una mujer, se recogió la sangre completa en las semanas 1,2,3,4,5 después de la menstruación. Así, el número de muestras únicas normales/benignas ensayado en el experimento es 75.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Información acerca de mujeres con cáncer de mama
45
46
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Otras enfermedades/condiciones presentes en las mujeres ensayadas
47
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Historial anterior de cáncer en las mujeres ensayadas
48
49
50
\newpage
TABLA 8
Algunas características relevantes de los donantes de sangre. B, Donantes femeninos con cáncer de mama; N, Donantes femeninos con mamograma sospechoso pero sin cáncer de mama; IDC, carcinoma ductal invasivo; DCIS, carcinoma ductal in situ; na, no disponible; nd, no determinado; ++, sin degradación de ARNm y sin contaminación ribosomal en la muestra; +, sin degradación de ARNm pero con contaminación ribosomal en la muestra.
\vskip1.000000\baselineskip
51
TABLA 9 Lista de secuencias de sondas informativas tanto para enfermedad de Alzheimer como cáncer de mama
52
53
54
55
56
\newpage
Secuencias de Nucleótido
\vskip1.000000\baselineskip
Secuencia ID - 93 nt: 405
57
Secuencia ID - 108 nt: 550
58
\vskip1.000000\baselineskip
Secuencia ID - 110
59
\newpage
Secuencia ID - 192 nt: 286
60
\vskip1.000000\baselineskip
Secuencia ID 250
61
\vskip1.000000\baselineskip
Secuencia ID 299
62
\newpage
Secuencia ID 300
63
\vskip1.000000\baselineskip
Secuencia ID 302
64
\vskip1.000000\baselineskip
Secuencia ID 304
65
\newpage
Secuencia ID 306
66
\vskip1.000000\baselineskip
Secuencia ID - 308 nt: 373
67
\vskip1.000000\baselineskip
Secuencia ID 309
68
\vskip1.000000\baselineskip
Secuencia ID - 310 nt: 564
69
\vskip1.000000\baselineskip
Secuencia ID 311
70
\vskip1.000000\baselineskip
Secuencia ID - 313 nt: 554
71
\newpage
Secuencia ID 314
72
\vskip1.000000\baselineskip
Secuencia ID 315
73
\vskip1.000000\baselineskip
Secuencia ID 316
74
\newpage
Secuencia ID 321
75
\vskip1.000000\baselineskip
Secuencia ID 322
76
\newpage
Secuencia ID 323
77
\vskip1.000000\baselineskip
Secuencia ID 324
78
\newpage
Secuencia ID 325
79
\vskip1.000000\baselineskip
Secuencia ID - 326 nt: 554
80
\vskip1.000000\baselineskip
Secuencia ID 327
81
\vskip1.000000\baselineskip
Secuencia ID 328
82
\vskip1.000000\baselineskip
Secuencia ID 330
83
\vskip1.000000\baselineskip
Secuencia ID 331
84
\vskip1.000000\baselineskip
Secuencia ID 335
85
\vskip1.000000\baselineskip
Secuencia ID 337
86
\vskip1.000000\baselineskip
Secuencia ID 338
87
\vskip1.000000\baselineskip
Secuencia ID 339
88
\vskip1.000000\baselineskip
Secuencia ID 360
89
\vskip1.000000\baselineskip
Secuencia ID - 361 nt: 622
90
\vskip1.000000\baselineskip
Secuencia ID - 363 nt: 628
91
\vskip1.000000\baselineskip
Secuencia ID - 364 nt: 528
92
\vskip1.000000\baselineskip
Secuencia ID 365
93
\newpage
Secuencia ID 366
94
\vskip1.000000\baselineskip
Secuencia ID - 368 nt: 329
95
\vskip1.000000\baselineskip
Secuencia ID 369
96
\vskip1.000000\baselineskip
Secuencia ID 370
97
\vskip1.000000\baselineskip
Secuencia ID 371
98
\newpage
Secuencia ID 373
99
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 374
100
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 378
101
\newpage
Secuencia ID 380
102
\vskip1.000000\baselineskip
Secuencia ID - 381 nt: 534
103
\vskip1.000000\baselineskip
Secuencia ID - 382 nt: 444
104
\newpage
Secuencia ID - 383 nt: 566
105
\vskip1.000000\baselineskip
Secuencia ID 384
106
\vskip1.000000\baselineskip
Secuencia ID 386
107
\newpage
Secuencia ID 387
108
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 388
109
\newpage
Secuencia ID 389
110
\vskip1.000000\baselineskip
Secuencia ID - 390 nt: 523
111
\vskip1.000000\baselineskip
Secuencia ID - 391 nt: 566
112
\vskip1.000000\baselineskip
Secuencia ID 394
113
\vskip1.000000\baselineskip
Secuencia ID 395
114
\vskip1.000000\baselineskip
Secuencia ID 396
115
\vskip1.000000\baselineskip
Secuencia ID - 397 nt: 534
116
\vskip1.000000\baselineskip
Secuencia ID - 398 nt: 512
117
\vskip1.000000\baselineskip
Secuencia ID 399
118
\vskip1.000000\baselineskip
Secuencia ID 400
119
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 401
120
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 402
121
\newpage
Secuencia ID 403
122
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 405
123
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 406
124
\newpage
Secuencia ID 407
125
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 408
126
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 409
\hskip0,5cm2005
\newpage
Secuencia ID 410
127
Secuencia ID - 411 nt: 505
128
Secuencia ID 412
129
\newpage
Secuencia ID 413
130
\vskip1.000000\baselineskip
Secuencia ID 414
131
\vskip1.000000\baselineskip
Secuencia ID - 415 nt: 596
132
\vskip1.000000\baselineskip
Secuencia ID 416
133
\vskip1.000000\baselineskip
Secuencia ID 417
134
\vskip1.000000\baselineskip
Secuencia ID 418
135
\vskip1.000000\baselineskip
Secuencia ID 419
136
\vskip1.000000\baselineskip
Secuencia ID 420
137
\vskip1.000000\baselineskip
Secuencia ID 421
138
\vskip1.000000\baselineskip
Secuencia ID 422
139
\newpage
Secuencia ID - 423 nt: 387
140
\vskip1.000000\baselineskip
Secuencia ID - 424 nt: 420
141
\vskip1.000000\baselineskip
Secuencia ID 425
142
\newpage
Secuencia ID 426
143
\vskip1.000000\baselineskip
Secuencia ID 427
144
\vskip1.000000\baselineskip
Secuencia ID 428
145
\newpage
Secuencia ID - 429 nt: 535
146
\vskip1.000000\baselineskip
Secuencia ID 430
147
\vskip1.000000\baselineskip
Secuencia ID 431
148
\newpage
Secuencia ID 432
149
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 433
150
\newpage
Secuencia ID 434
151
\vskip1.000000\baselineskip
Secuencia ID 435
152
\vskip1.000000\baselineskip
Secuencia ID 436
153
\newpage
Secuencia ID - 438 nt: 577
154
\vskip1.000000\baselineskip
Secuencia ID - 441 nt: 552
155
\vskip1.000000\baselineskip
Secuencia ID - 442 nt: 606
156
\vskip1.000000\baselineskip
Secuencia ID 446
157
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 447
158
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 448 nt: 329
159
\newpage
Secuencia ID 450
160
\vskip1.000000\baselineskip
Secuencia ID 452
161
\vskip1.000000\baselineskip
Secuencia ID - 453 nt: 747
162
\vskip1.000000\baselineskip
Secuencia ID 454
163
\vskip1.000000\baselineskip
Secuencia ID - 458 nt: 682
164
\vskip1.000000\baselineskip
Secuencia ID 459
165
\vskip1.000000\baselineskip
Secuencia ID - 460 nt: 536
166
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 461
167
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 462
168
\newpage
Secuencia ID 463
169
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 464 nt: 615
170
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 469
171
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 471
\hskip0,5cm172
\newpage
Secuencia ID 472
173
\vskip1.000000\baselineskip
Secuencia ID - 473 nt: 694
174
\vskip1.000000\baselineskip
Secuencia ID 474
175
\vskip1.000000\baselineskip
Secuencia ID 475
176
\vskip1.000000\baselineskip
Secuencia ID - 476 nt: 476
177
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 477
178
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 478
179
\newpage
Secuencia ID 479
180
\vskip1.000000\baselineskip
Secuencia ID 481
181
\vskip1.000000\baselineskip
Secuencia ID 482
182
\vskip1.000000\baselineskip
Secuencia ID 483
183
\newpage
Secuencia ID 484
184
\vskip1.000000\baselineskip
Secuencia ID - 485 nt: 551
185
\vskip1.000000\baselineskip
Secuencia ID - 487 nt: 224
186
\vskip1.000000\baselineskip
Secuencia ID - 488 nt: 349
187
\newpage
Secuencia ID 489
188
\vskip1.000000\baselineskip
Secuencia ID - 491 nt: 382
189
\vskip1.000000\baselineskip
Secuencia ID 492
190
\newpage
Secuencia ID 493
191
\vskip1.000000\baselineskip
Secuencia ID 494
192
\vskip1.000000\baselineskip
Secuencia ID 495
\hskip0,5cm2006
\vskip1.000000\baselineskip
Secuencia ID 496
193
\newpage
Secuencia ID 497
194
\vskip1.000000\baselineskip
Secuencia ID 499
195
\vskip1.000000\baselineskip
Secuencia ID - 500 nt: 390
196
\newpage
Secuencia ID 502
197
\vskip1.000000\baselineskip
Secuencia ID - 503 nt: 109
198
\vskip1.000000\baselineskip
Secuencia ID - 504 nt: 374
199
\vskip1.000000\baselineskip
Secuencia ID 505
200
\newpage
Secuencia ID 506
201
\vskip1.000000\baselineskip
Secuencia ID - 507 nt: 521
202
\vskip1.000000\baselineskip
Secuencia ID 508
203
\newpage
Secuencia ID - 509 nt: 575
204
\vskip1.000000\baselineskip
Secuencia ID 510
205
\vskip1.000000\baselineskip
Secuencia ID 512
206
\vskip1.000000\baselineskip
Secuencia ID 513
207
\vskip1.000000\baselineskip
Secuencia ID 515
208
\vskip1.000000\baselineskip
Secuencia ID - 518 nt: 502
209
\newpage
Secuencia ID 519
210
\vskip1.000000\baselineskip
Secuencia ID 521
211
\vskip1.000000\baselineskip
Secuencia ID - 523 nt: 585
212
\vskip1.000000\baselineskip
Secuencia ID 524
213
\vskip1.000000\baselineskip
Secuencia ID 525
214
\vskip1.000000\baselineskip
Secuencia ID - 526 nt: 516
215
\vskip1.000000\baselineskip
Secuencia ID 527
216
\newpage
Secuencia ID 529; 660nt
217
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 529
218
\newpage
Secuencia ID - 530 nt: 660
219
\vskip1.000000\baselineskip
Secuencia ID 532
220
\vskip1.000000\baselineskip
Secuencia ID 533
221
\newpage
Secuencia ID 534
222
\vskip1.000000\baselineskip
Secuencia ID 560
223
\vskip1.000000\baselineskip
Secuencia ID 561
224
\newpage
Secuencia ID - 562 nt: 580
225
\vskip1.000000\baselineskip
Secuencia ID 563
226
\vskip1.000000\baselineskip
Secuencia ID - 564 nt: 671
227
\vskip1.000000\baselineskip
Secuencia ID 565
228
\vskip1.000000\baselineskip
Secuencia ID 566
229
\vskip1.000000\baselineskip
Secuencia ID 567
230
\vskip1.000000\baselineskip
Secuencia ID 568
231
\vskip1.000000\baselineskip
Secuencia ID 570
232
\vskip1.000000\baselineskip
Secuencia ID - 571 nt: 457
233
\newpage
Secuencia ID 572
234
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 574
235
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 575 nt: 209
236
\newpage
Secuencia ID - 576 nt: 541
237
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 577
238
\newpage
Secuencia ID 578
239
\vskip1.000000\baselineskip
Secuencia ID - 579 nt: 502
240
\vskip1.000000\baselineskip
Secuencia ID - 580 nt: 316
241
\newpage
Secuencia ID 581
242
\vskip1.000000\baselineskip
Secuencia ID 582
243
\vskip1.000000\baselineskip
Secuencia ID - 583 nt: 631
244
\newpage
Secuencia ID 585
245
\vskip1.000000\baselineskip
Secuencia ID 586
246
\vskip1.000000\baselineskip
Secuencia ID 587
247
\newpage
Secuencia ID 588
248
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 589
249
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 590
250
\newpage
Secuencia ID 591
251
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 592
252
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 593 nt: 565
253
\newpage
Secuencia ID 594
254
\vskip1.000000\baselineskip
Secuencia ID - 595 nt: 98
255
\vskip1.000000\baselineskip
Secuencia ID 596
256
\vskip1.000000\baselineskip
Secuencia ID 597
257
\vskip1.000000\baselineskip
Secuencia ID - 598 nt: 362
258
\vskip1.000000\baselineskip
Secuencia ID 599
259
\vskip1.000000\baselineskip
Secuencia ID - 600 nt: 595
260
\vskip1.000000\baselineskip
Secuencia ID - 601 nt: 522
261
\vskip1.000000\baselineskip
Secuencia ID 602
262
\vskip1.000000\baselineskip
Secuencia ID - 603 nt: 624
263
\vskip1.000000\baselineskip
Secuencia ID - 605 nt: 338
264
\newpage
Secuencia ID - 606 nt: 556
265
\vskip1.000000\baselineskip
Secuencia ID 607
266
\vskip1.000000\baselineskip
Secuencia ID 609
267
\newpage
Secuencia ID 610
268
\vskip1.000000\baselineskip
Secuencia ID 611
\hskip0,5cm269
\vskip1.000000\baselineskip
Secuencia ID - 612 nt: 576
270
\vskip1.000000\baselineskip
Secuencia ID - 613 nt: 341
271
\vskip1.000000\baselineskip
Secuencia ID 614
272
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 615 nt: 379
273
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 617
274
\newpage
Secuencia ID -618 nt: 598
275
\vskip1.000000\baselineskip
Secuencia ID 619
276
\vskip1.000000\baselineskip
Secuencia ID 621
277
\newpage
Secuencia ID 622
278
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 624
\hskip0,5cm279
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 625
280
\newpage
Secuencia ID 626
281
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 627
282
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 628 nt: 419
283
\newpage
Secuencia ID 629
284
\vskip1.000000\baselineskip
Secuencia ID 630
285
\vskip1.000000\baselineskip
Secuencia ID 631
286
\newpage
Secuencia ID 632
287
\vskip1.000000\baselineskip
Secuencia ID 633
288
\vskip1.000000\baselineskip
Secuencia ID - 634 nt: 511
289
\newpage
Secuencia ID - 635 nt: 592
290
\vskip1.000000\baselineskip
Secuencia ID - 636 nt: 572
291
\vskip1.000000\baselineskip
Secuencia ID - 637 nt: 482
292
\newpage
Secuencia ID - 638 nt: 545
293
\vskip1.000000\baselineskip
Secuencia ID - 639 nt: 624
294
\vskip1.000000\baselineskip
Secuencia ID 641
295
\newpage
Secuencia ID 642
296
\vskip1.000000\baselineskip
Secuencia ID 643
297
\vskip1.000000\baselineskip
Secuencia ID 644
298
\newpage
Secuencia ID - 645 nt: 649
299
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 646 nt: 600
300
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 647
301
\newpage
Secuencia ID 648
\hskip0,5cm2007
\vskip1.000000\baselineskip
Secuencia ID - 649 nt: 425
302
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 650
303
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 651 nt: 251
304
\newpage
Secuencia ID 652
305
\vskip1.000000\baselineskip
Secuencia ID 653
306
\vskip1.000000\baselineskip
Secuencia ID 654
307
\vskip1.000000\baselineskip
Secuencia ID 655
308
\newpage
Secuencia ID 656
309
\vskip1.000000\baselineskip
Secuencia ID 657
310
\vskip1.000000\baselineskip
Secuencia ID 658
311
\newpage
Secuencia ID 660
312
\vskip1.000000\baselineskip
Secuencia ID 661
313
\vskip1.000000\baselineskip
Secuencia ID - 663 nt: 627
314
\newpage
Secuencia ID - 665 nt: 345
315
\vskip1.000000\baselineskip
Secuencia ID - 666 nt: 252
316
\vskip1.000000\baselineskip
Secuencia ID 669
317
\vskip1.000000\baselineskip
Secuencia ID 670
318
\newpage
Secuencia ID 671
319
\vskip1.000000\baselineskip
Secuencia ID 672
320
\vskip1.000000\baselineskip
Secuencia ID 673
321
\newpage
Secuencia ID 674
322
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 675 nt: 591
323
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 676
324
\newpage
Secuencia ID 679
325
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 682
326
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 683
327
\newpage
Secuencia ID - 684 nt: 545
328
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 685
329
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 686
330
\newpage
Secuencia ID - 687 nt: 268
331
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 688 nt: 569
332
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 689
333
\newpage
Secuencia ID 690
334
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 691
335
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 692
336
\newpage
Secuencia ID 693
337
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 694
338
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 696
339
\newpage
Secuencia ID 697
340
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 698
341
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 699
342
\newpage
Secuencia ID 700
343
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 701 nt: 579
344
\newpage
Secuencia ID 702
345
\vskip1.000000\baselineskip
Secuencia ID 703
346
\vskip1.000000\baselineskip
Secuencia ID 704
347
\vskip1.000000\baselineskip
Secuencia ID 705
348
\vskip1.000000\baselineskip
Secuencia ID - 706 nt: 496
349
\vskip1.000000\baselineskip
Secuencia ID - 707 nt: 397
350
\newpage
Secuencia ID - 708 nt: 293
351
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 709
352
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 710
353
\newpage
Secuencia ID - 711 nt: 498
354
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 713
355
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 714
356
\newpage
Secuencia ID 717
357
\vskip1.000000\baselineskip
Secuencia ID 718
358
\vskip1.000000\baselineskip
Secuencia ID 719
359
\newpage
Secuencia ID 720
360
Secuencia ID 721
361
Secuencia ID 722
362
Secuencia ID 724
363
\vskip1.000000\baselineskip
Secuencia ID - 726 nt: 260
364
\vskip1.000000\baselineskip
Secuencia ID 727
365
Secuencia ID 728
366
\newpage
Secuencia ID - 736 nt: 641
367
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 739
368
\newpage
Secuencia ID 747
369
\vskip1.000000\baselineskip
Secuencia ID - 757 nt: 583
370
\vskip1.000000\baselineskip
Secuencia ID - 758 nt: 424
371
\newpage
Secuencia ID - 764 nt: 626
372
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 766
373
\newpage
Secuencia ID 768
374
\vskip1.000000\baselineskip
Secuencia ID 773
375
\vskip1.000000\baselineskip
Secuencia ID 776
376
\vskip1.000000\baselineskip
Secuencia ID 782
377
\vskip1.000000\baselineskip
Secuencia ID - 785 nt: 556
378
\vskip1.000000\baselineskip
Secuencia ID 796
379
\newpage
Secuencia ID 801
380
\vskip1.000000\baselineskip
Secuencia ID - 808 nt: 641
381
\vskip1.000000\baselineskip
Secuencia ID - 814 nt: 132
382
\newpage
Secuencia ID 817
383
Secuencia ID - 821 nt: 370
384
Secuencia ID 825
385
\vskip1.000000\baselineskip
Secuencia ID 833
386
\vskip1.000000\baselineskip
Secuencia ID - 837 nt: 603
387
\vskip1.000000\baselineskip
Secuencia ID - 839 nt: 71
388
\newpage
Secuencia 849 nt: 622
389
Secuencia ID - 860 nt: 501
390
Secuencia ID 864
391
Secuencia ID - 865 nt: 122
392
\vskip1.000000\baselineskip
Secuencia ID 867
393
\vskip1.000000\baselineskip
Secuencia ID - 869 nt: 667
394
\newpage
Secuencia ID 870
395
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 871 nt: 642
396
\newpage
Secuencia ID - 873
397
\vskip1.000000\baselineskip
Secuencia ID 875
398
\vskip1.000000\baselineskip
Secuencia ID - 876 nt: 115
399
\newpage
Secuencia ID - 878 nt: 634
400
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 879
401
\newpage
Secuencia ID 881
402
Secuencia ID 883
403
Secuencia ID 885
1001
\vskip1.000000\baselineskip
Secuencia ID 887
404
\vskip1.000000\baselineskip
Secuencia ID 889
405
\vskip1.000000\baselineskip
Secuencia ID 890
406
\newpage
Secuencia ID - 891 nt: 626
407
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 893 nt: 585
408
\newpage
Secuencia ID - 895 nt: 560
409
\vskip1.000000\baselineskip
Secuencia ID 896
410
\vskip1.000000\baselineskip
Secuencia ID - 897 nt: 509
411
\vskip1.000000\baselineskip
Secuencia ID 898
412
\vskip1.000000\baselineskip
Secuencia ID 899
\hskip0,5cm413
\vskip1.000000\baselineskip
Secuencia ID 900
414
\vskip1.000000\baselineskip
Secuencia ID 903
415
\newpage
Secuencia ID 904
416
\vskip1.000000\baselineskip
Secuencia ID - 905 nt: 655
417
\vskip1.000000\baselineskip
Secuencia ID 906
418
\newpage
Secuencia ID - 907 nt: 582
419
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 908
420
\newpage
Secuencia ID 910
421
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 911 nt: 595
422
\newpage
Secuencia ID - 912 nt: 651
423
Secuencia ID 913
424
Secuencia ID 914
426
\vskip1.000000\baselineskip
Secuencia ID - 915 nt: 230
427
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 917
428
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 926
429
\newpage
Secuencia ID 938
430
\vskip1.000000\baselineskip
Secuencia ID - 939 nt: 513
431
\vskip1.000000\baselineskip
Secuencia ID 947
432
\newpage
Secuencia ID 949
433
\vskip1.000000\baselineskip
Secuencia ID 1028
434
\vskip1.000000\baselineskip
Secuencia ID - 1056 nt: 435
435
\vskip1.000000\baselineskip
Secuencia ID 1071
436
\vskip1.000000\baselineskip
Secuencia ID - 1074 nt: 689
437
\vskip1.000000\baselineskip
Secuencia ID 1081
438
\vskip1.000000\baselineskip
Secuencia ID - 1083 NT: 198
439
\newpage
Secuencia ID - 1084 NT: 198
440
\vskip1.000000\baselineskip
Secuencia ID - 1099 NT: 561
441
\vskip1.000000\baselineskip
Secuencia ID 1109
442
\newpage
Secuencia ID 1118
443
\vskip1.000000\baselineskip
Secuencia ID 1125
444
\vskip1.000000\baselineskip
Secuencia ID - 1139 nt: 503
445
\newpage
Secuencia ID - 1148 nt: 587
446
Secuencia ID - 1160 nt: 650
447
Secuencia ID - 1165 nt: 502
448
\vskip1.000000\baselineskip
Secuencia ID - 1172 nt: 648
449
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1178
450
\newpage
Secuencia ID - 1180 nt: 622
451
\vskip1.000000\baselineskip
Secuencia ID - 1181 nt: 155
452
\vskip1.000000\baselineskip
Secuencia ID 1182
453
\newpage
Secuencia ID - 1183 nt: 479
454
\vskip1.000000\baselineskip
Secuencia ID - 1185 nt: 628
455
\vskip1.000000\baselineskip
Secuencia ID - 1186 nt: 494
456
\newpage
Secuencia ID - 1188 nt: 599
457
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1189
458
\newpage
Secuencia ID 1190
459
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1191
460
\newpage
Secuencia ID 1192
461
\vskip1.000000\baselineskip
Secuencia ID 1193
462
\vskip1.000000\baselineskip
Secuencia ID 1195
463
\vskip1.000000\baselineskip
Secuencia ID - 1196 nt: 412
464
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1197
465
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1198
466
\newpage
Secuencia ID - 1199 nt: 439
467
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 1200 nt: 526
468
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 1201 nt: 613
469
\vskip1.000000\baselineskip
Secuencia ID 1202
470
\vskip1.000000\baselineskip
Secuencia ID - 1203 nt: 692
471
\vskip1.000000\baselineskip
Secuencia ID 1204
472
\vskip1.000000\baselineskip
Secuencia ID 1205
473
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 1207 nt: 642
474
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1208
475
\newpage
Secuencia ID - 1209 nt: 620
476
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1210
477
\newpage
Secuencia ID 1211
478
\vskip1.000000\baselineskip
Secuencia ID - 1212 nt: 374
479
\vskip1.000000\baselineskip
Secuencia ID - 1213 nt: 567
480
\newpage
Secuencia ID - 1214 nt: 620
481
\vskip1.000000\baselineskip
Secuencia ID 1215
482
\vskip1.000000\baselineskip
Secuencia ID - 1216 nt: 484
483
\newpage
Secuencia ID 1217
484
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1218
485
\newpage
Secuencia ID - 1219 nt: 559
486
\vskip1.000000\baselineskip
Secuencia ID 1220
487
\vskip1.000000\baselineskip
Secuencia ID - 1221 nt: 741
488
Secuencia ID - 1224 nt: 485
489
Secuencia ID 1226
490
\vskip1.000000\baselineskip
Secuencia ID 1228
491
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 1230 nt: 741
492
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 1231 nt: 203
493
\newpage
Secuencia ID 1239
494
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1255
495
\newpage
Secuencia ID 1256
496
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1331
497
\vskip1.000000\baselineskip
Secuencia ID 1332
498
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1335
499
\newpage
Secuencia ID 1336
500
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1337
501
\newpage
Secuencia ID 1338
502
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1344
503
\newpage
Secuencia ID 1348
504
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1351
505
\newpage
Secuencia ID 1352
506
\vskip1.000000\baselineskip
Secuencia ID 1353
507
\vskip1.000000\baselineskip
Secuencia ID 1355
508
\newpage
Secuencia ID 1359
509
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1360
510
\newpage
Secuencia ID 1361
511
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1364
512
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1365
513
\newpage
Secuencia ID 1366
514
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1367
515
\newpage
Secuencia ID 1368
516
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1369
517
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1370
518
\newpage
Secuencia ID 1371
519
\vskip1.000000\baselineskip
Secuencia ID 1372
520
\vskip1.000000\baselineskip
Secuencia ID 1374
521
\vskip1.000000\baselineskip
Secuencia ID 1378
522
\vskip1.000000\baselineskip
Secuencia ID 1380
523
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1382
524
\vskip1.000000\baselineskip
Secuencia ID 1387
525
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1389
526
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1390
527
\newpage
Secuencia ID 1391
528
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1392
529
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1394
530
\vskip1.000000\baselineskip
Secuencia ID 1395
531
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1396
532
\newpage
Secuencia ID 1397
533
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1399
534
\newpage
Secuencia ID 1440
535
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1447
536
\newpage
Secuencia ID 1448
537
\vskip1.000000\baselineskip
Secuencia ID 1449
538
Secuencia ID 1450
539
\newpage
Secuencia ID 1453
540
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1454
541
\newpage
Secuencia ID 1456
542
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1460
543
\newpage
Secuencia ID 1490
544
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID 1491
545
\newpage
Secuencia ID 1492
546
\vskip1.000000\baselineskip
Secuencia ID 1493
547
\vskip1.000000\baselineskip
Secuencia ID 1494
548
\vskip1.000000\baselineskip
Secuencia ID 1495
549
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID G6
550
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Secuencia ID - 61 nt: 362
551
\newpage
Secuencia ID - 490 nt: 382
552
\vskip1.000000\baselineskip
Secuencia ID - 892 nt: 559
553
\vskip1.000000\baselineskip
Secuencia ID - 77 nt: 464
554

Claims (20)

1. Un conjunto de menos de 1.000 sondas oligonucleotídicas, en el que dicho conjunto comprende los oligonucleótidos descritos en la Tabla 2b para los que se proporcionan las secuencias que tienen las secuencias como se muestra en la secuencia No. 61, 77, 93, 108, 110, 192, 250, 308, 309, 310, 321, 327, 338, 339, 360, 361, 364, 365, 368, 378, 380, 381, 382, 384, 390, 391, 397, 398, 401, 403, 406, 411, 412, 413, 414, 415, 416, 418, 421, 423, 424, 428, 434, 436, 438, 441, 442, 450, 452, 453, 458, 460, 463, 464, 469, 471, 473, 474, 475, 476, 477, 478, 479, 482, 483, 485, 487, 488, 489, 492, 493, 494, 495, 503, 504, 505, 506, 507, 508, 509, 510, 512, 513, 515, 518, 519, 521, 523, 524, 526, 527, 529, 530, 532, 534, 560, 562, 564, 565, 566, 567, 568, 570, 571, 572, 575, 576, 578, 579, 580, 583, 585, 589, 591, 592, 593, 594, 596, 598, 600, 601, 605, 607, 610, 612, 613, 614, 615, 617, 618, 619, 622, 624, 628, 629, 630, 631, 632, 633, 634, 635, 636, 637, 638, 639, 643, 644, 645, 649, 651, 656, 658, 660, 661, 663, 665, 672, 673, 675, 679, 682, 683, 684, 685, 687, 688, 689, 691, 693, 696, 697, 699, 701, 702, 705, 706, 707, 708, 709, 711, 714, 718, 720, 721, 722, 724, 726, 736, 739, 747, 757, 758, 764, 766, 768, 773, 776, 782, 785, 796, 801, 808, 814, 817, 821, 825, 833, 837, 839, 849, 860, 864, 865, 867, 869, 870, 871, 873, 875, 876, 878, 879, 881, 885, 887, 889, 891, 892, 893, 895, 897, 899, 903, 904, 905, 906, 907, 908, 910, 911, 912, 915, 917, 926, 938, 939, 947, 949, 1.028, 1.056, 1.071, 1.074, 1.081, 1.083, 1.084, 1.099, 1.109, 1.118, 1.125, 1.139, 1.148, 1.160, 1.165, 1.172, 1.178, 1.180, 1.181, 1.182, 1.183, 1.185, 1.186, 1.188, 1.189, 1.190, 1.192, 1.193, 1.195, 1.196, 1.197, 1.198, 1.199, 1.200, 1.201, 1.202, 1.203, 1.204, 1.205, 1.207, 1.208, 1.209, 1.210, 1.211, 1.212, 1.213, 1.214, 1.215, 1.216, 1.217, 1.218, 1.219, 1.220, 1.221, 1.224, 1.226, 1.228, 1.230, 1.231, 1.239, 1.331, 1.332, 1.335, 1.336, 1.337, 1.338, 1.344, 1.348, 1.351, 1.352, 1.353, 1.355, 1.360, 1.361, 1.364, 1.365, 1.366, 1.368, 1.369, 1.370, 1.371, 1.372, 1.374, 1.378, 1.380, 1.382, 1.387, 1.389, 1.390, 1.391, 1.392, 1.394, 1.395, 1.396, 1.397, 1.399, 1.440, 1.448, 1.453, 1.456, 1.460, 1.495 y g6
o un conjunto en el que uno o más de dichos oligonucleótidos está sustituido, en el que cada oligonucleótido que está sustituido está sustituido por una parte de dicho oligonucleótido, parte que tiene una longitud de 15-200 bases, o por un oligonucleótido con una secuencia complementaria a dicho oligonucleótido.
\vskip1.000000\baselineskip
2. Un conjunto de menos de 1.000 sondas oligonucleotídicas, en el que dicho conjunto comprende los oligonucleótidos descritos en la Tabla 4b para los que se proporcionan las secuencias que tienen las secuencias como se muestra en la secuencia No. 299, 300, 302, 304, 306, 308, 309, 310, 311, 313, 314, 315, 316, 321, 322, 323, 324, 325, 326, 327, 328, 330, 331, 335, 337, 338, 339, 360, 361, 363, 364, 365, 366, 368, 369, 370, 371, 373, 374, 378, 380, 381, 382, 383, 384, 386, 387, 388, 389, 390, 391, 394, 395, 396, 397, 398, 399, 400, 401, 402, 403, 405, 406, 407, 408, 409, 410, 411, 412, 412, 413, 414, 415, 416, 417, 418, 419, 420, 421, 422, 423, 424, 425, 426, 427, 428, 429, 430, 431, 432, 433, 434, 435, 436, 438, 441, 442, 446, 447, 448, 450, 452, 453, 454, 458, 459, 460, 461, 462, 463, 464, 469, 471, 472, 473, 474, 475, 476, 477, 478, 479, 481, 482, 483, 484, 485, 487, 488, 489, 490, 491, 492, 493, 494, 495, 496, 497, 499, 500, 502, 503, 504, 505, 506, 507, 508, 509, 510, 512, 513, 515, 518, 519, 521, 523, 524, 524, 526, 527, 529, 530, 532, 533, 534, 560, 561, 562, 563, 564, 565, 566, 567, 568, 570, 571, 572, 574, 575, 576, 577, 578, 579, 580, 581, 582, 583, 585, 586, 587, 588, 589, 590, 591, 592, 593, 594, 595, 596, 597, 598, 599, 600, 601, 602, 603, 605, 606, 607, 609, 610, 611, 612, 613, 614, 615, 617, 618, 619, 621, 622, 624, 625, 626, 627, 628, 629, 630, 631, 632, 634, 635, 636, 637, 638, 639, 641, 642, 643, 644, 645, 646, 647, 648, 649, 650, 651, 652, 653, 654, 655, 656, 657, 658, 660, 661, 663, 665, 666, 669, 670, 671, 672, 673, 674, 675, 676, 679, 682, 683, 684, 685, 686, 687, 688, 689, 690, 691, 692, 693, 694, 696, 697, 698, 699, 700, 701, 702, 703, 704, 705, 706, 707, 708, 709, 710, 711, 713, 714, 717, 718, 719, 720, 721, 722, 724, 726, 727, 728, 870, 871, 873, 878, 879, 883, 885, 887, 889, 890, 892, 893, 895, 896, 897, 898, 899, 900, 903, 904, 905, 906, 907, 908, 910, 911, 912, 913, 914, 915, 1.178, 1.180, 1.181, 1.182, 1.183, 1.185, 1.186, 1.188, 1.189, 1.190, 1.191, 1.193, 1.200, 1.332. 1.336, 1.337, 1.348, 1.351, 1.353, 1.355, 1.359, 1.361, 1.364, 1.365, 1.366, 1.367, 1.368, 1.369, 1.370, 1.372, 1.374, 1.382, 1.387, 1.389, 1.390, 1.391, 1.397, 1.399, 1.440, 1.447, 1.448, 1.449, 1.450, 1.453, 1.454, 1.490, 1.491, 1.492, 1.493, 1.494 y 1.495
o un conjunto en el que uno o más de dichos oligonucleótidos está sustituido, en el que cada oligonucleótido que está sustituido está sustituido por una parte de dicho oligonucleótido, parte que tiene una longitud de 15-200 bases, o por un oligonucleótido con una secuencia complementaria a dicho oligonucleótido.
\vskip1.000000\baselineskip
3. Un conjunto de sondas oligonucleotídicas según la reivindicación 1 ó 2, en el que cada una de dichas sondas oligonucleotídicas tiene una longitud de 15 a 200 bases.
4. Un conjunto de sondas oligonucleotídicas según la reivindicación 1 a 3, en el que dichas sondas están inmovilizadas en uno o más soportes sólidos.
5. Un conjunto de sondas oligonucleotídicas según la reivindicación 4, en el que dicho soporte sólido es una lámina, filtro, membrana, placa o biochip.
6. Un kit que comprende un conjunto de sondas oligonucleotídicas según la reivindicación 4 ó 5 inmovilizado en uno o más soportes sólidos.
7. Un kit según la reivindicación 6 en el que dichas sondas están inmovilizadas en un único soporte sólido y cada sonda única se une a una región diferente de dicho soporte sólido.
8. Un kit según la reivindicación 6 ó 7 que comprende además materiales de estandarización.
9. El uso de un conjunto de sondas como se ha descrito en una cualquiera de las reivindicaciones 1 a 5 o un kit según se ha descrito en una cualquiera de las reivindicaciones 6 a 8 para determinar el patrón de expresión génica de una célula en una muestra de sangre reflejando este patrón el nivel de expresión génica de los genes a los que se unen dichas sondas oligonucleotídicas, que comprende al menos las etapas de:
a) aislar el ARNm de dicha célula, que puede opcionalmente transcribirse de forma inversa a ADNc;
b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 1 a 8; y
c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir dicho patrón.
\vskip1.000000\baselineskip
10. Un método para preparar un patrón de transcrito génico estándar característico de cáncer de mama o enfermedad de Alzheimer o un estadio de ésta en un organismo que comprende al menos las etapas de:
a) aislar el ARNm de las células de una muestra de sangre de uno o más organismos que tienen cáncer de mama o enfermedad de Alzheimer o un estadio de éstas, que puede opcionalmente transcribirse de forma inversa a ADNc;
b) hibridar el ARNm o ADNc de la etapa (a) de un organismo con cáncer de mama o un estadio de éste con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 1 ó 3 a 8 específico para cáncer de mama o un estadio de éste en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando o hibridar el ARNm o ADNc de la etapa (a) de un organismo con enfermedad de Alzheimer o un estadio de ésta con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 2 a 8 específico para la enfermedad de Alzheimer o un estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y
c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir un patrón característico que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos, en la muestra con cáncer de mama o enfermedad de Alzheimer o un estadio de éstas.
\vskip1.000000\baselineskip
11. Un método para preparar un patrón de transcritos génicos de ensayo que comprende al menos las etapas de:
a) aislar el ARNm de las células de una muestra de sangre de dicho organismo de ensayo, que puede opcionalmente transcribirse de forma inversa a ADNc;
b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 1 ó 3 a 8 específicos para cáncer de mama o un estadio de éste en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando, o con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 2 a 8 específicos para enfermedad de Alzheimer o un estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando; y
c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir dicho patrón que refleja el nivel de expresión génica de los genes a los que se unen dichos oligonucleótidos, en dicha muestra de ensayo.
\vskip1.000000\baselineskip
12. Un método para diagnosticar o identificar o monitorizar cáncer de mama o enfermedad de Alzheimer o un estadio de ésta en un organismo, que comprende las etapas de:
a) aislar el ARNm de las células de una muestra de sangre de dicho organismo, que puede opcionalmente transcribirse de forma inversa a ADNc;
b) hibridar el ARNm o ADNc de la etapa (a) con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 1 ó 3 a 8 específicos para cáncer de mama o un estadio de éste en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando, o con un conjunto de oligonucleótidos o un kit como se ha definido en una cualquiera de las reivindicaciones 2 a 8 específicos para enfermedad de Alzheimer o un estadio de ésta en un organismo y muestra de éste correspondiente al organismo y muestra de éste que se está investigando;
c) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas para producir un patrón característico que refleja el nivel de expresión génica de genes a los que se unen dichos oligonucleótidos en dicha muestra; y
d) comparar dicho patrón con un patrón estándar de diagnóstico preparado como se ha descrito en la reivindicación 10 usando una muestra de un organismo correspondiente al organismo y muestra que se está investigando para determinar el grado de correlación indicativo de la presencia de cáncer de mama o enfermedad de Alzheimer o un estadio de ésta en el organismo que se está investigando.
\vskip1.000000\baselineskip
13. Un método según una cualquiera de las reivindicaciones 10 a 12 en el que dicho ARNm o ADNc se amplifica antes de la etapa b).
14. Un método según una cualquiera de las reivindicaciones 10 a 13 en el que los oligonucleótidos y/o el ARNm o ADNc están marcados.
15. Un método según una cualquiera de las reivindicaciones 10 a 14 en el que dicho patrón se expresa como una matriz de números que se refieren al nivel de expresión asociado con cada sonda.
16. Un método según una cualquiera de las reivindicaciones 10 a 15 en el que dicho organismo es un organismo eucariota, preferiblemente un mamífero.
17. Un método según la reivindicación 16 en el que dicho organismo es un ser humano.
18. Un método según una cualquiera de las reivindicaciones 10 a 15 en el que los datos que constituyen dicho patrón se proyectan matemáticamente en un modelo de clasificación.
19. Un método según una cualquiera de las reivindicaciones 10 a 18 en el que las células de la muestra no son células enfermas, no han estado en contacto con dichas células y no se originan del sitio de la enfermedad o condición.
20. Un método para identificar sondas útiles para diagnosticar o identificar o monitorizar cáncer de mama o enfermedad de Alzheimer o un estadio de ésta en un organismo, que comprende las etapas de:
a) inmovilizar un conjunto de sondas oligonucleotídicas, como se ha descrito en la reivindicación 1 para cáncer de mama o reivindicación 2 para la enfermedad de Alzheimer en un soporte sólido;
b) aislar el ARNm de una muestra de sangre de un organismo normal (muestra normal), que opcionalmente puede transcribirse de manera inversa a ADNc;
c) aislar el ARNm de una muestra de un organismo, correspondiente a la muestra y organismo de la etapa (b), que se sabe que tiene cáncer de mama o enfermedad de Alzheimer o un estadio de ésta (muestra enferma), que opcionalmente puede transcribirse de manera inversa a ADNc;
d) hibridar el ARNm o ADNc de las etapas (b) y (c) de dicho organismo con cáncer de mama o enfermedad de Alzheimer con dicho conjunto de sondas oligonucleotídicas inmovilizado de la etapa (a) para cáncer de mama o enfermedad de Alzheimer, respectivamente; y
e) evaluar la cantidad de ARNm o ADNc que hibrida con cada una de dichas sondas oligonucleotídicas para determinar el nivel de expresión génica de los genes a los que se unen dichas sondas oligonucleotídicas en dichas muestras normal y enferma para generar un conjunto de datos de expresión génica para cada muestra;
f) normalizar y estandarizar dicho conjunto de datos de la etapa (e);
g) construir un modelo de calibración para la clasificación, preferiblemente usando las técnicas estadísticas Análisis Discriminante de Mínimos Cuadrados Parciales (PLS-DA) y Análisis Discriminante Lineal (LDA);
h) realizar un análisis JackKnife e identificar aquellas sondas oligonucleotídicas que se requieren para la clasificación de dichas muestras enfermas y normales en sus grupos respectivos.
ES03777005T 2002-11-21 2003-11-21 Producto y metodo. Expired - Lifetime ES2342161T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0227238 2002-11-21
GBGB0227238.3A GB0227238D0 (en) 2002-11-21 2002-11-21 Product and method

Publications (1)

Publication Number Publication Date
ES2342161T3 true ES2342161T3 (es) 2010-07-02

Family

ID=9948301

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03777005T Expired - Lifetime ES2342161T3 (es) 2002-11-21 2003-11-21 Producto y metodo.

Country Status (18)

Country Link
US (2) US20070134656A1 (es)
EP (1) EP1565574B1 (es)
CN (2) CN102191319A (es)
AP (1) AP2333A (es)
AT (1) ATE459726T1 (es)
AU (1) AU2003286262C1 (es)
CA (1) CA2506887A1 (es)
CY (1) CY1110543T1 (es)
DE (1) DE60331577D1 (es)
DK (1) DK1565574T3 (es)
ES (1) ES2342161T3 (es)
GB (1) GB0227238D0 (es)
NO (1) NO20052544L (es)
NZ (1) NZ540750A (es)
PT (1) PT1565574E (es)
SI (1) SI1565574T1 (es)
WO (1) WO2004046382A2 (es)
ZA (1) ZA200503797B (es)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0412301D0 (en) 2004-06-02 2004-07-07 Diagenic As Product and method
GB0422211D0 (en) * 2004-10-06 2004-11-03 Randox Lab Ltd Method
FR2900936B1 (fr) * 2006-05-15 2013-01-04 Exonhit Therapeutics Sa Procede et methodes de detection de la maladie d'alzheimer
US9995766B2 (en) * 2009-06-16 2018-06-12 The Regents Of The University Of California Methods and systems for measuring a property of a macromolecule
GB201000688D0 (en) 2010-01-15 2010-03-03 Diagenic Asa Product and method
WO2013064702A2 (en) * 2011-11-03 2013-05-10 Diagenic Asa Probes for diagnosis and monitoring of neurodegenerative disease
US10339527B1 (en) 2014-10-31 2019-07-02 Experian Information Solutions, Inc. System and architecture for electronic fraud detection
US10140708B2 (en) * 2016-01-21 2018-11-27 Riverside Research Institute Method for gestational age estimation and embryonic mutant detection
CN110669830B (zh) * 2019-10-24 2023-05-23 裕策医疗器械江苏有限公司 一种低质量ffpe dna的处理方法、装置和存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4981783A (en) * 1986-04-16 1991-01-01 Montefiore Medical Center Method for detecting pathological conditions
US5925525A (en) * 1989-06-07 1999-07-20 Affymetrix, Inc. Method of identifying nucleotide differences
US6040138A (en) * 1995-09-15 2000-03-21 Affymetrix, Inc. Expression monitoring by hybridization to high density oligonucleotide arrays
US5871928A (en) * 1989-06-07 1999-02-16 Fodor; Stephen P. A. Methods for nucleic acid analysis
US5800992A (en) * 1989-06-07 1998-09-01 Fodor; Stephen P.A. Method of detecting nucleic acids
US5474796A (en) * 1991-09-04 1995-12-12 Protogene Laboratories, Inc. Method and apparatus for conducting an array of chemical reactions on a support surface
US5633137A (en) * 1992-12-01 1997-05-27 The University Of South Florida Method for measuring specific gene expression: transcriptional activity per gene dose
US5677125A (en) * 1994-01-14 1997-10-14 Vanderbilt University Method of detection and diagnosis of pre-invasive cancer
US5830645A (en) * 1994-12-09 1998-11-03 The Regents Of The University Of California Comparative fluorescence hybridization to nucleic acid arrays
US5545531A (en) * 1995-06-07 1996-08-13 Affymax Technologies N.V. Methods for making a device for concurrently processing multiple biological chip assays
US6190857B1 (en) * 1997-03-24 2001-02-20 Urocor, Inc. Diagnosis of disease state using MRNA profiles in peripheral leukocytes
NO972006D0 (no) * 1997-04-30 1997-04-30 Forskningsparken I Aas As Ny metode for diagnose av sykdommer
US5994076A (en) * 1997-05-21 1999-11-30 Clontech Laboratories, Inc. Methods of assaying differential expression
US6607879B1 (en) * 1998-02-09 2003-08-19 Incyte Corporation Compositions for the detection of blood cell and immunological response gene expression
US6004755A (en) * 1998-04-07 1999-12-21 Incyte Pharmaceuticals, Inc. Quantitative microarray hybridizaton assays
US20040265869A1 (en) * 1999-01-06 2004-12-30 Chondrogene Limited Method for the detection of type II diabetes related gene transcripts in blood
US20040241726A1 (en) * 1999-01-06 2004-12-02 Chondrogene Limited Method for the detection of allergies related gene transcripts in blood
US20040248169A1 (en) * 1999-01-06 2004-12-09 Chondrogene Limited Method for the detection of obesity related gene transcripts in blood
AU1853600A (en) * 1999-01-06 2000-07-24 Choong-Chin Liew Method for the detection of gene transcripts in blood and uses thereof
US20050042630A1 (en) * 1999-01-06 2005-02-24 Chondrogene Limited Method for the detection of asthma related gene transcripts in blood
US20040241728A1 (en) * 1999-01-06 2004-12-02 Chondrogene Limited Method for the detection of lung disease related gene transcripts in blood
US7473528B2 (en) * 1999-01-06 2009-01-06 Genenews Inc. Method for the detection of Chagas disease related gene transcripts in blood
US20040265868A1 (en) * 1999-01-06 2004-12-30 Chondrogene Limited Method for the detection of depression related gene transcripts in blood
US20040248170A1 (en) * 1999-01-06 2004-12-09 Chondrogene Limited Method for the detection of hyperlipidemia related gene transcripts in blood
US20050003394A1 (en) * 1999-01-06 2005-01-06 Chondrogene Limited Method for the detection of rheumatoid arthritis related gene transcripts in blood
US20040241727A1 (en) * 1999-01-06 2004-12-02 Chondrogene Limited Method for the detection of schizophrenia related gene transcripts in blood
AU2002253878A1 (en) * 2001-01-25 2002-08-06 Gene Logic, Inc. Gene expression profiles in breast tissue
US20020169560A1 (en) * 2001-05-12 2002-11-14 X-Mine Analysis mechanism for genetic data

Also Published As

Publication number Publication date
EP1565574B1 (en) 2010-03-03
SI1565574T1 (sl) 2010-07-30
DK1565574T3 (da) 2010-06-21
GB0227238D0 (en) 2002-12-31
AP2333A (en) 2011-12-06
US20070134656A1 (en) 2007-06-14
EP1565574A2 (en) 2005-08-24
AU2003286262A1 (en) 2004-06-15
CA2506887A1 (en) 2004-06-03
AU2003286262C1 (en) 2008-09-18
PT1565574E (pt) 2010-06-07
WO2004046382A3 (en) 2004-07-22
NO20052544L (no) 2005-06-20
HK1079554A1 (en) 2006-04-07
ATE459726T1 (de) 2010-03-15
AP2005003317A0 (en) 2005-06-30
NZ540750A (en) 2008-07-31
AU2003286262B2 (en) 2008-02-21
US20130143761A1 (en) 2013-06-06
CN102191319A (zh) 2011-09-21
WO2004046382A2 (en) 2004-06-03
DE60331577D1 (de) 2010-04-15
CY1110543T1 (el) 2015-04-29
ZA200503797B (en) 2006-11-29
CN1742101A (zh) 2006-03-01

Similar Documents

Publication Publication Date Title
JP5060945B2 (ja) 癌診断のためのオリゴヌクレオチド
JP2013516968A (ja) 診断用遺伝子発現プラットフォーム
Simon et al. Experimental design of DNA microarray experiments
US20180068058A1 (en) Methods and compositions for sample identification
US11725250B2 (en) Early lung cancer detection by DNA methylation phenotyping of sputum-derived cells
KR20020075265A (ko) 임상 진단 서비스를 제공하는 방법
US20130143761A1 (en) Product and method
WO2006062118A1 (ja) 甲状腺乳頭癌の予後を予測するための新規のマーカー
TWI725248B (zh) 辨識轉移性腫瘤的原發位置之方法及系統
CN117778566A (zh) 用于预测甲状腺癌转移的标志物及其应用
JP2014518086A (ja) 腫瘍起源の決定
US20260055470A1 (en) Compositions and methods for detecting ovarian cancer
Yousif et al. Novel biomarkers in histopathology: Implications for diagnosis and prognosis
HK40096839A (en) Early lung cancer detection by dna methylation phenotyping of sputum-derived cells
Zapico et al. DNA microarrays: Revolutionary insight into the living genome
WO2024077282A2 (en) Biomarkers for the diagnosis of amyotrophic lateral sclerosis
CN119464501A (zh) 基于甲基化标志物组合诊断或预测乳腺癌的系统、设备或介质
Bourgeois et al. Finding endophenotypes for autism spectrum disorders (ASD): cDNA microarrays and brain transcripts
Schreiber et al. Complexity and future of biochemical differential diagnosis in psychiatry
Jolugbo A clinical pathologist on every paper… the importance of pathologists in translational medical research
Ertürk et al. Innovations in Genetic Medicine: A Journey in Time