ES2769241T5 - Sistemas y métodos para detectar variación en el número de copias - Google Patents

Sistemas y métodos para detectar variación en el número de copias Download PDF

Info

Publication number
ES2769241T5
ES2769241T5 ES18207391T ES18207391T ES2769241T5 ES 2769241 T5 ES2769241 T5 ES 2769241T5 ES 18207391 T ES18207391 T ES 18207391T ES 18207391 T ES18207391 T ES 18207391T ES 2769241 T5 ES2769241 T5 ES 2769241T5
Authority
ES
Spain
Prior art keywords
polynucleotides
sequencing
sequence
cell
reads
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18207391T
Other languages
English (en)
Other versions
ES2769241T3 (es
Inventor
Amirali Talasaz
Helmy Eltoukhy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guardant Health Inc
Original Assignee
Guardant Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=50237580&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2769241(T5) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Guardant Health Inc filed Critical Guardant Health Inc
Application granted granted Critical
Publication of ES2769241T3 publication Critical patent/ES2769241T3/es
Publication of ES2769241T5 publication Critical patent/ES2769241T5/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2545/00Reactions characterised by their quantitative nature
    • C12Q2545/10Reactions characterised by their quantitative nature the purpose being quantitative analysis
    • C12Q2545/114Reactions characterised by their quantitative nature the purpose being quantitative analysis involving a quantitation step
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Plant Pathology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Investigating Or Analysing Materials By The Use Of Chemical Reactions (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Silver Salt Photography Or Processing Solution Therefor (AREA)

Description

DESCRIPCION
Sistemas y métodos para detectar variación en el número de copias
ANTECEDENTES DE LA INVENCIÓN
La detección y cuantificación de polinucleótidos es importante para la biología molecular y aplicaciones médicas como los diagnósticos. Las pruebas genéticas son particularmente útiles para una serie de métodos de diagnóstico. Por ejemplo, los trastornos causados por alteraciones genéticas raras (por ejemplo, variantes de secuencia) o cambios en los marcadores epigenéticos, como el cáncer y la aneuploidía parcial o completa, pueden detectarse o caracterizarse con más precisión con información de la secuencia del ADN.
La detección temprana y la monitorización de enfermedades genéticas, como el cáncer, es a menudo útil y necesaria para el tratamiento o gestión exitosa de la enfermedad. Un enfoque puede incluir la monitorización de una muestra derivada de ácidos nucleicos libres de células, una población de polinucleótidos que pueden encontrarse en diferentes tipos de fluidos corporales. En algunos casos, la enfermedad puede caracterizarse o detectarse en base a la detección de aberraciones genéticas, como un cambio en la variación del número de copias y/o la variación de la secuencia de una o más secuencias de ácidos nucleicos, o el desarrollo de otras ciertas alteraciones genéticas raras. El ADN libre de células ("ADNcf") se ha conocido en la técnica durante décadas, y puede contener aberraciones genéticas asociadas con una enfermedad en particular. Con mejoras en la secuenciación y técnicas para manipular ácidos nucleicos, hay una necesidad en la técnica de métodos y sistemas mejorados para usar ADN libre de células para detectar y monitorizar enfermedades.
SUMARIO DE LA INVENCIÓN
La invención proporciona un método para determinar la variación en el número de copias en una muestra que incluye polinucleótidos libres de células, el método comprendiendo:
a. proporcionar por lo menos dos conjuntos de polinucleótidos libres de células, que mapean a diferentes posiciones mapeables en una secuencia de referencia en un genoma, y, para los conjuntos de polinucleótidos libres de células;
i. marcar de manera no única los polinucleótidos libres de células con un conjunto de códigos de barras moleculares;
ii. amplificar los polinucleótidos libres de células para producir polinucleótidos amplificados;
iii. secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación;
iv. agrupar el conjunto de lecturas de secuenciación secuenciadas de polinucleótidos amplificados en familias que se corresponden a lecturas de secuenciación de polinucleótidos amplificados del mismo polinucleótido libre de células;
v. inferir una medida cuantitativa a partir de las familias en los conjuntos; y
b. determinar la variación del número de copias en base a la medida cuantitativa de familias en los conjuntos. La invención proporciona además un medio legible por ordenador que comprende código ejecutable por máquina no transitorio que, tras la ejecución por un procesador informático, implementa un método, el método comprendiendo:
a. acceder a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia derivan de polinucleótidos de progenie amplificados a partir de polinucleótidos libres de células originales marcadas de manera no única;
b. agrupar las lecturas de secuenciación secuenciadas a partir de los polinucleótidos de progenie en familias que comprenden lecturas de secuenciación de polinucleótidos de progenie amplificados a partir del mismo polinucleótido libre de células original marcado;
c. inferir una medida cuantitativa de familias en los polinucleótidos libres de células originales marcadas de manera no única; y
d. determinar la variación del número de copias comparando la medida cuantitativa de familias en los polinucleótidos libres de células originales marcadas de manera no única.
La divulgación proporciona un método para detectar la variación del número de copias que comprende: a) secuenciar polinucleótidos extracelulares a partir de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares está opcionalmente unido a códigos de barras únicos; b) filtrar las lecturas que no alcanzan un umbral establecido; c) mapear las lecturas de secuencia obtenidas del paso (a) a una secuencia de referencia; d) cuantificar/contar lecturas mapeadas en dos o más regiones predefinidas de la secuencia de referencia; e) determinar una variación del número de copias en una o más de las regiones predefinidas por (i) normalizando el número de lecturas en las regiones predefinidas entre sí y/o el número de códigos de barras únicos en las regiones predefinidas entre sí; y (ii) comparar los números normalizados obtenidos en el paso (i) con los números normalizados obtenidos de una muestra de control.
La divulgación también proporciona un método para detectar una mutación rara en una muestra libre de células o sustancialmente libre de células obtenida de un sujeto que comprende: a) secuenciar polinucleótidos extracelulares a partir de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares genera una pluralidad de lecturas de secuenciación; b) secuenciar polinucleótidos extracelulares a partir de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares genera una pluralidad de lecturas de secuenciación; secuenciar polinucleótidos extracelulares a partir de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares genera una pluralidad de lecturas de secuenciación; c) filtrar las lecturas que no alcanzan un umbral establecido; d) mapear lecturas de secuencia derivadas de la secuenciación en una secuencia de referencia; e) identificar un subconjunto de lecturas de secuencia mapeadas que se alinean con una variante de la secuencia de referencia en cada posición de base mapeable; f) para cada posición de base mapeable, calcular una proporción de (a) una cantidad de lecturas de secuencia mapeadas que incluyen una variante en comparación con la secuencia de referencia, con (b) una cantidad de lecturas de secuencia totales para cada posición de base mapeable; g) normalizar las proporciones o la frecuencia de varianza para cada posición de base mapeable y determinar las potenciales variantes o mutaciones raras; h) y comparar el número resultante para cada una de las regiones con potenciales variantes o mutaciones raras con números derivados similarmente de una muestra de referencia.
Adicionalmente, la divulgación también proporciona un método para caracterizar la heterogeneidad de una condición anormal en un sujeto, el método comprendiendo generar un perfil genético de polinucleótidos extracelulares en el sujeto, en donde el perfil genético comprende una pluralidad de datos resultantes de la variación del número de copias y/u otros análisis de mutaciones raras (por ejemplo, alteración genética).
En algunas realizaciones, la prevalencia/concentración de cada variante rara identificada en el sujeto se informa y cuantifica simultáneamente. En otras realizaciones, se informa de una puntuación de confianza, con respecto a la prevalencia/concentraciones de variantes raras en el sujeto.
En algunas realizaciones, los polinucleótidos extracelulares comprenden ADN. En otras realizaciones, los polinucleótidos extracelulares comprenden ARN. Los polinucleótidos pueden ser fragmentos o fragmentarse después del aislamiento. Adicionalmente, la divulgación proporciona un método para la circulación de aislamiento y extracción de ácido nucleico.
En algunas realizaciones, los polinucleótidos extracelulares se aíslan de una muestra corporal que puede seleccionarse de un grupo que consiste de sangre, plasma, suero, orina, saliva, excreciones mucosas, esputo, heces y lágrimas.
En algunas realizaciones, los métodos de la divulgación también comprenden un paso de determinar el porcentaje de secuencias que tienen variación en el número de copias u otra alteración genética rara (por ejemplo, variantes de secuencia) en dicha muestra corporal.
En algunas realizaciones, el porcentaje de secuencias que tienen variación en el número de copias en dicha muestra corporal se determina calculando el porcentaje de regiones predefinidas con una cantidad de polinucleótidos por encima o por debajo de un umbral predeterminado.
En algunas realizaciones, se extraen fluidos corporales de un sujeto que se sospecha tiene una condición anormal que puede seleccionarse del grupo que consiste de, mutaciones, mutaciones raras, variantes de un único nucleótido, indeles, variaciones en el número de copias, transversiones, translocaciones, inversión, deleciones, aneuploidía, aneuploidía parcial, poliploidía, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones de genes, fusiones de cromosomas, truncamientos de genes, amplificación de genes, duplicaciones de genes, lesiones cromosómicas, lesiones de ADN, cambios anormales en las modificaciones químicas del ácido nucleico, cambios anormales en los patrones epigenéticos, cambios anormales en la infección por metilación de ácidos nucleicos y cáncer.
En algunas realizaciones, el sujeto puede ser una mujer embarazada en la que la condición anormal puede ser una anomalía fetal seleccionada del grupo que consiste de, variantes de un único nucleótido, indeles, variaciones en el número de copias, transversiones, translocaciones, inversión, deleciones, aneuploidía, aneuploidía parcial, poliploidía, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones de genes, fusiones de cromosomas, truncamientos de genes, amplificación de genes, duplicaciones de genes, lesiones cromosómicas, lesiones de ADN, cambios anormales en las modificaciones químicas del ácido nucleico, cambios anormales en los patrones epigenéticos, cambios anormales en la infección por metilación de ácidos nucleicos y cáncer.
En algunas realizaciones, el método comprende unir uno o más códigos de barras a los polinucleótidos extracelulares o fragmentos de los mismos antes de la secuenciación, en el que los códigos de barras son únicos. En otras realizaciones los códigos de barras unidos a los polinucleótidos extracelulares o fragmentos de los mismos antes de la secuenciación no son únicos.
En algunas realizaciones, los métodos de la divulgación pueden comprender enriquecer selectivamente regiones del genoma del sujeto antes de la secuenciación. En otras realizaciones los métodos de la divulgación comprenden enriquecer selectivamente regiones del genoma del sujeto antes de la secuenciación. En otras realizaciones, los métodos de la divulgación comprenden enriquecer no selectivamente regiones del genoma del sujeto antes de la secuenciación.
Además, los métodos de la divulgación comprenden unir uno o más códigos de barras a los polinucleótidos extracelulares o fragmentos de los mismos antes de cualquier paso de amplificación o enriquecimiento.
En algunas realizaciones, el código de barras es un polinucleótido, que puede comprender además una secuencia aleatoria o un conjunto fijo o semi-aleatorio de oligonucleótidos que en combinación con la diversidad de moléculas secuenciadas de una región seleccionada permite la identificación de moléculas únicas y es por lo menos de 3, 5, 10, 15, 2025, 30, 35, 40, 45, o 50mer pares de bases de longitud.
En algunas realizaciones, los polinucleótidos extracelulares o fragmentos de los mismos pueden amplificarse. En algunas realizaciones, la amplificación comprende la amplificación global o la amplificación del genoma completo.
En algunas realizaciones, las lecturas de secuencia de identidad única pueden detectarse en base a la información de secuencia en las regiones de comienzo (inicio) y final (parada) de la lectura de secuencia y la longitud de la lectura de secuencia. En otras realizaciones, las moléculas de secuencias de identidad única se detectan en base a la información de secuencia en las regiones de comienzo (inicio) y final (parada) de la lectura de secuencia, la longitud de la lectura de secuencia y la unión de un código de barras.
En algunas realizaciones, la amplificación comprende amplificación selectiva, amplificación no selectiva, amplificación por supresión o enriquecimiento sustractivo.
En algunas realizaciones, los métodos de la divulgación comprenden eliminar un subconjunto de las lecturas de un análisis adicional antes de cuantificar o enumerar las lecturas.
En algunas realizaciones, el método puede comprender filtrar las lecturas con una puntuación de precisión o calidad menor que un umbral, por ejemplo, 90%, 99%, 99,9%, o 99,99% y/o puntuación de mapeo menor que un umbral, por ejemplo, 90%, 99%, 99,9% o 99,99%. En otras realizaciones, los métodos de la divulgación comprenden filtrar lecturas con una puntuación de calidad menor que un umbral establecido.
En algunas realizaciones, las regiones predefinidas son de tamaño uniforme o sustancialmente uniforme, aproximadamente de 10kb, 20kb, 30kb 40kb, 50kb, 60kb, 70kb, 80kb, 90kb o 100kb de tamaño. En algunas realizaciones, se analizan por lo menos 50, 100, 200, 500, 1000, 2000, 5000, 10.000, 20.000 o 50.000 regiones.
En algunas realizaciones, se produce una variante genética, una mutación rara o una variación del número de copias en una región del genoma seleccionada del grupo que consiste de fusiones de genes, duplicaciones de genes, deleciones de genes, translocaciones de genes, regiones de microsatélites, fragmentos de genes o combinaciones de los mismos. En otras realizaciones, se produce una variante genética, mutación rara o variación en el número de copias en una región del genoma seleccionada del grupo que consiste de genes, oncogenes, genes supresores de tumores, promotores, elementos de secuencias reguladoras o combinaciones de los mismos. En algunas realizaciones, la variante es una variante de nucleótido, sustitución de una única base, o indel pequeño, transversión, translocación, inversión, deleción, truncamiento o truncamiento del gen de aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 o 20 nucleótidos de longitud.
En algunas realizaciones, el método comprende corregir/normalizar/ajustar la cantidad de lecturas mapeadas usando los códigos de barras o propiedades únicas de lecturas individuales.
En algunas realizaciones, la enumeración de las lecturas se realiza mediante la enumeración de códigos de barras únicos en cada una de las regiones predefinidas y normalizando esos números en por lo menos un subconjunto de regiones predefinidas que se secuenciaron. En algunas realizaciones, las muestras a intervalos temporales sucesivos del mismo sujeto se analizan y comparan con resultados de muestras anteriores. El método de la divulgación puede comprender además determinar la frecuencia de variación del número de copias parcial, pérdida de heterocigosidad, análisis de expresión génica, análisis epigenético y análisis de hipermetilación después de amplificar los polinucleótidos extracelulares unidos al código de barras.
En algunas realizaciones, el análisis de la variación del número de copias y de mutaciones raras se determinan en una muestra libre de células o sustancialmente libre de células obtenida de un sujeto usando secuenciación multiplex, que comprende realizar más de 10.000 reacciones de secuenciación; secuenciar simultáneamente por lo menos 10.000 lecturas diferentes; o realizar análisis de datos en por lo menos 10.000 lecturas diferentes en todo el genoma. El método puede comprender una secuenciación multiplex que comprende realizar un análisis de datos en por lo menos 10.000 lecturas diferentes en todo el genoma. El método puede comprender además enumerar las lecturas secuenciadas que son identificables de manera única.
En algunas realizaciones, los métodos de la divulgación comprenden normalizar y la detección se realiza usando uno o más de Markov oculto, programación dinámica, máquina de vectores de soporte, red bayesiana, decodificación de entramados, decodificación de Viterbi, maximización de la esperanza, filtrado de Kalman, o metodologías de redes neuronales.
En algunas realizaciones, los métodos de la divulgación comprenden monitorizar la progresión de la enfermedad, monitorizar la enfermedad residual, monitorizar la terapia, diagnosticar una afección, pronosticar una afección o seleccionar una terapia en base a las variantes descubiertas.
En algunas realizaciones, una terapia se modifica en base al análisis de la muestra más reciente. Además, los métodos de la divulgación comprenden inferir el perfil genético de un tumor, infección u otra anomalía tisular. En algunas realizaciones, se monitoriza el crecimiento, la remisión o la evolución de un tumor, una infección u otra anomalía del tejido. En algunas realizaciones, se analiza y se monitoriza el sistema inmune del sujeto en casos individuales o a lo largo del tiempo.
En algunas realizaciones, los métodos de la divulgación comprenden la identificación de una variante que se sigue a través de una prueba de imagen (por ejemplo, CT, PET-CT, MRI, rayos X, ultrasonido) para la localización de la anomalía del tejido sospechosa de provocar la variante identificada.
En algunas realizaciones, los métodos de la divulgación comprenden el uso de datos genéticos obtenidos de una biopsia de tejido o tumor del mismo paciente. En algunas realizaciones, se infiere la filogenética de un tumor, infección u otra anomalía del tejido.
En algunas realizaciones, los métodos de la divulgación comprenden realizar no-tipificación basada en la población e identificación de regiones de baja confianza. En algunas realizaciones, la obtención de datos de mediciones para la cobertura de secuencia comprende medir la profundidad de cobertura de secuencia en cada posición del genoma. En algunas realizaciones, corregir los datos de mediciones para el sesgo de cobertura de secuencia comprende calcular la cobertura promediada en ventanas. En algunas realizaciones, corregir los datos de mediciones para el sesgo de cobertura de secuencia comprende realizar ajustes para tener en cuenta el sesgo de GC en la construcción de la biblioteca y el proceso de secuenciación. En algunas realizaciones, corregir los datos de mediciones para el sesgo de cobertura de secuencia comprende realizar ajustes en base al factor de ponderación adicional asociado con los mapeos individuales para compensar el sesgo.
En algunas realizaciones, los métodos de la divulgación comprenden polinucleótidos extracelulares derivados de un origen celular enfermo. En algunas realizaciones, el polinucleótido extracelular se deriva de un origen celular sano.
La divulgación también proporciona un sistema que comprende un medio legible por ordenador para realizar los siguientes pasos: seleccionar regiones predefinidas en un genoma; enumerar el número de lecturas de secuencia en las regiones predefinidas; normalizar el número de lecturas de secuencia en las regiones predefinidas; y determinar el porcentaje de variación del número de copias en las regiones predefinidas. En algunas realizaciones, se analiza la totalidad del genoma o por lo menos el 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% o 90% del genoma. En algunas realizaciones, el medio legible por ordenador proporciona datos sobre el porcentaje de ADN o ARN de cáncer en plasma o suero al usuario final.
En algunas realizaciones, se analiza la cantidad de variación genética, como polimorfismos o variantes causales. En algunas realizaciones, se detecta la presencia o ausencia de alteraciones genéticas.
La divulgación también proporciona un método para detectar una mutación rara en una muestra libre de células o sustancialmente libre de células obtenida de un sujeto que comprende: a) secuenciar polinucleótidos extracelulares a partir de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares genera un pluralidad de lecturas de secuenciación; b) filtrar las lecturas que no alcanzan un umbral establecido; c) mapear las lecturas de secuencia derivadas de la secuenciación en una secuencia de referencia; d) identificar un subconjunto de lecturas de secuencia mapeadas que se alinean con una variante de la secuencia de referencia en cada posición de base mapeable; e) para cada posición de base mapeable, calcular una proporción de (a) una cantidad de lecturas de secuencia mapeadas que incluyen una variante en comparación con la secuencia de referencia, con (b) una cantidad de lecturas de secuencia totales para cada posición de base mapeable; f) normalizar las proporciones o la frecuencia de la varianza para cada posición de base mapeable y determinar las potenciales variantes raras u otras alteraciones genéticas; y g) comparar el número resultante para cada una de las regiones. Esta divulgación también proporciona un método que comprende: a. proporcionar por lo menos un conjunto de polinucleótidos principales marcados, y para cada conjunto de polinucleótidos principales marcados; b. amplificar los polinucleótidos originales marcados en el conjunto para producir un conjunto correspondiente de polinucleótidos de progenie amplificados; c. secuenciar un subconjunto (incluyendo un subconjunto apropiado) del conjunto de polinucleótidos de progenie amplificados, para producir un conjunto de lecturas de secuenciación; y d. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso correspondiente a un polinucleótido único entre el conjunto de polinucleótidos originales marcados. En ciertas realizaciones, el método comprende además: e. analizar el conjunto de secuencias de consenso para cada conjunto de moléculas originales marcadas.
En algunas realizaciones, cada polinucleótido en un conjunto es mapeable a una secuencia de referencia. En algunas realizaciones, el método comprende proporcionar una pluralidad de conjuntos de polinucleótidos originales marcados, en donde cada conjunto es mapeable a una secuencia de referencia diferente.
En algunas realizaciones, el método comprende además convertir material genético de partida inicial en los polinucleótidos originales marcados.
En algunas realizaciones, el material genético de partida inicial comprende no más de 100 ng de polinucleótidos.
En algunas realizaciones, el método comprende hacer cuellos de botella con el material genético de partida inicial antes de la conversión.
En algunas realizaciones, el método comprende convertir el material genético de partida inicial en polinucleótidos parentales marcados con una eficiencia de conversión de por lo menos el 10%, por lo menos el 20%, por lo menos el 30%, por lo menos el 40%, por lo menos el 50%, por lo menos el 60%, por lo menos el 80% o por lo menos el 90%.
En algunas realizaciones, la conversión comprende cualquiera de ligación de extremo romo, ligación de extremo pegajoso, sondas de inversión molecular, PCR, PCR basada en ligación, ligación de cadena sencilla y circularización de cadena sencilla.
En algunas realizaciones el material genético de partida inicial es ácido nucleico libre de células.
En algunas realizaciones, una pluralidad de secuencias de referencia son del mismo genoma.
En algunas realizaciones cada polinucleótido original marcado en el conjunto se marca de manera única. En algunas realizaciones los marcadores son no únicos.
En algunas realizaciones la generación de secuencias de consenso se basa en la información del marcador y/o por lo menos uno de la información de secuencia en la región de comienzo (partida) de la lectura de secuencias, las regiones finales (de parada) de la lectura de secuencia y la longitud de la lectura de secuencias.
En algunas realizaciones, el método comprende secuenciar un subconjunto del conjunto de polinucleótidos de la progenie amplificada suficientes para producir lecturas de secuencia para por lo menos una progenie de cada uno de por lo menos el 20%, por lo menos el 30%, por lo menos el 40%, por lo menos el 50%, por lo menos el 60%, por lo menos el 70%, por lo menos el 80%, por lo menos el 90% por lo menos el 95%, por lo menos el 98%, por lo menos el 99%, por lo menos el 99,9% o por lo menos el 99,99% de polinucleótidos únicos en el conjunto de polinucleótidos parentales marcados.
En algunas realizaciones, la por lo menos una progenie es una pluralidad de progenies, por ejemplo, por lo menos 2, por lo menos 5 o por lo menos 10 progenies.
En algunas realizaciones, el número de lecturas de secuencia en el conjunto de lecturas de secuencia es mayor que el número de polinucleótidos parentales marcados únicos en el conjunto de polinucleótidos parentales marcados.
En algunas realizaciones, el subconjunto del conjunto de polinucleótidos de la progenie amplificada secuenciados es del tamaño suficiente para que cualquier secuencia de nucleótidos representada en el conjunto de polinucleótidos parentales marcados en un porcentaje que sea igual a la tasa error de secuenciación por base del porcentaje de la plataforma de secuenciación usado, tenga por lo menos un 50%, por lo menos un 60%, por lo menos un 70%, por lo menos un 80%, por lo menos un 90%, por lo menos un 95%, por lo menos un 98%, por lo menos un 99%, por lo menos un 99,9% o por lo menos un 99,99% de probabilidad de estar representado entre el conjunto de secuencias de consenso.
En algunas realizaciones, el método comprende enriquecer el conjunto de polinucleótidos de la progenie amplificada para el mapeo de polinucleótidos en una o más secuencias de referencia seleccionadas mediante: (i) la amplificación selectiva de secuencias del material genético de partida inicial convertido en polinucleótidos parentales marcados; (ii) la amplificación selectiva de polinucleótidos parentales marcados; (iii) la captura de secuencia selectiva de polinucleótidos de la progenie amplificada; o (iv) la captura de secuencia selectiva del material genético de partida inicial.
En algunas realizaciones, el análisis comprende la normalización de una medida (por ejemplo, número) tomada de un conjunto de secuencias de consenso frente a una medida tomada de un conjunto de secuencias de consenso de una muestra de control.
En algunas realizaciones, el análisis comprende detectar mutaciones, mutaciones raras, variantes de un único nucleótido, indeles, variaciones en el número de copias, transversiones, translocaciones, inversión, deleciones, aneuploidía, aneuploidía parcial, poliploidía, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones de genes, fusiones de cromosomas, truncamientos de genes, amplificación de genes, duplicaciones de genes, lesiones de cromosomas, lesiones de ADN, cambios anormales en las modificaciones químicas de ácidos nucleicos, cambios anormales en los patrones epigenéticos, cambios anormales en la infección por metilación de los ácidos nucleicos o cáncer.
En algunas realizaciones los polinucleótidos comprenden ADN, ARN, una combinación de dos o ADN más ADNC derivado de ARN.
En algunas realizaciones, un cierto subconjunto de polinucleótidos se selecciona para o se enriquece en base a la longitud del polinucleótido en pares de bases del conjunto inicial de polinucleótidos o de los polinucleótidos amplificados.
En algunas realizaciones, el análisis comprende además la detección y la monitorización de una anomalía o enfermedad dentro de un individuo, como, infección y/o cáncer.
En algunas realizaciones, el método se realiza en combinación con realización de perfiles del repertorio inmune.
En algunas realizaciones, los polinucleótidos se extraen del grupo que consiste de sangre, plasma, suero, orina, saliva, excreciones de la mucosa, esputo, heces y lágrimas.
En algunas realizaciones, colapsar comprende detectar y/o corregir errores, incisiones o lesiones presentes en la cadena de sentido o antisentido de los polinucleótidos parentales marcados o polinucleótidos de la progenie amplificada.
Esta divulgación también proporciona un método que comprende detectar la variación genética en el material genético de partida inicial con una sensibilidad de por lo menos un 5%, por lo menos un 1%, por lo menos un 0,5%, por lo menos un 0,1% o por lo menos un 0,05%. En algunas realizaciones, el material genético de partida inicial se proporciona en una cantidad inferior a 100 ng de ácido nucleico, la variación genética es la variación del número de copia/heterocigosidad y la detección se realiza con resolución subcromosómica; por ejemplo, resolución de por lo menos 100 megabases, resolución de por lo menos 10 megabases, resolución de por lo menos 1 megabase, resolución de por lo menos 100 kilobases, resolución de por lo menos 10 kilobases o resolución de por lo menos 1 kilobase. En otra realización, el método comprende proporcionar una pluralidad de conjuntos de polinucleótidos originales marcados, en donde cada conjunto es mapeable a una secuencia de referencia diferente. En otra realización, la secuencia de referencia es el locus de un marcador tumoral, y el análisis comprende detectar el marcador tumoral en el conjunto de secuencias consenso. En otra realización, el marcador tumoral está presente en el conjunto de secuencias de consenso a una frecuencia menor que la tasa de error introducida en el paso de amplificación. En otra realización, el por lo menos un conjunto es una pluralidad de conjuntos, y las secuencias de referencia comprenden una pluralidad de secuencias de referencia, cada una de las cuales es el locus de un marcador tumoral. En otra realización, el análisis comprende detectar la variación en el número de copias de las secuencias de consenso entre por lo menos dos conjuntos de polinucleótidos originales. En otra realización, el análisis comprende detectar la presencia de variaciones de secuencia en comparación con las secuencias de referencia. En otra realización, el análisis comprende detectar la presencia de variaciones de secuencia en comparación con las secuencias de referencia y detectar la variación en el número de copias de secuencias de consenso entre por lo menos dos conjuntos de polinucleótidos originales. En otra realización, colapsar comprende: i. agrupar las lecturas de secuencias de los polinucleótidos de progenie amplificados en familias, cada familia amplificada del mismo polinucleótido original marcado; y ii. determinar una secuencia de consenso en base a las lecturas de secuencia en una familia.
Esta divulgación también proporciona un sistema que comprende un medio legible por ordenador para realizar los pasos siguientes: a. proporcionar por lo menos un conjunto de polinucleótidos originales marcados, y para cada conjunto de polinucleótidos originales marcados; b. amplificar los polinucleótidos originales marcados en el conjunto para producir un conjunto correspondiente de polinucleótidos de progenie amplificados; c. secuenciar un subconjunto (incluyendo un subconjunto apropiado) del conjunto de polinucleótidos de progenie amplificados, para producir un conjunto de lecturas de secuenciación; y d. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso correspondiente a un polinucleótido único entre el conjunto de polinucleótidos originales marcados y, opcionalmente, e. analizar el conjunto de secuencias de consenso para cada conjunto de moléculas originales marcadas.
Esta divulgación también proporciona un método que comprende: a. proporcionar por lo menos un conjunto de polinucleótidos originales marcados, y para cada conjunto de polinucleótidos originales marcados; b. amplificar los polinucleótidos originales marcados en el conjunto para producir un conjunto correspondiente de polinucleótidos de la progenie amplificados; c. secuenciar un subconjunto (incluyendo un subconjunto apropiado) del conjunto de polinucleótidos de la progenie amplificados, para producir un conjunto de lecturas de secuenciación; d. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso correspondiendo a un polinucleótido único entre el conjunto de polinucleótidos originales marcados; y e. filtrar de entre las secuencias de consenso aquellas que no logran alcanzar un umbral de calidad. En una realización, el umbral de calidad considera una serie de lecturas de secuencia de polinucleótidos de progenie amplificados colapsados en una secuencia consenso. En otra realización, el umbral de calidad considera una serie de lecturas de secuencia de polinucleótidos de progenie amplificados colapsados en una secuencia de consenso. Esta divulgación también proporciona un sistema que comprende un medio legible por ordenador para realizar el método mencionado anteriormente.
Esta divulgación también proporciona un método que comprende: a. proporcionar por lo menos un conjunto de polinucleótidos originales marcados, en donde cada conjunto mapea para una secuencia de referencia diferente en uno o más genomas, y, para cada conjunto de polinucleótidos originales marcados; i. amplificar los primeros polinucleótidos para producir un conjunto de polinucleótidos amplificados; ii) secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación; y iii. colapsar las lecturas de secuencia: 1. agrupando las lecturas de secuencias secuenciadas de polinucleótidos de progenie amplificados en familias, cada familia amplificada a partir del mismo polinucleótido original marcado. En una realización, el colapso comprende además: 2. determinar una medida cuantitativa de lecturas de secuencia en cada familia. En otra realización, el método comprende además (incluyendo a): b. determinar una medida cuantitativa de familias únicas; y c. en base a (1) la medida cuantitativa de familias únicas y (2) la medida cuantitativa de lecturas de secuencia en cada grupo, inferir una medida de polinucleótidos originales marcados únicos en el conjunto. En otra realización, la inferencia se realiza usando modelos estadísticos o probabilísticos. En otra realización en la que el por lo menos un conjunto es una pluralidad de conjuntos. En otra realización, el método comprende además corregir el sesgo de la amplificación o de la representación entre los dos conjuntos. En otra realización, el método comprende además usar un control o un conjunto de muestras de control para corregir los sesgos de la amplificación o de la representación entre los dos conjuntos. En otra realización, el método comprende además determinar la variación en el número de copias entre los conjuntos. En otra realización, el método comprende además (incluyendo a, b, c): d. determinar una medida cuantitativa de formas polimórficas entre las familias; y e. en base a la medida cuantitativa determinada de formas polimórficas, inferir una medida cuantitativa de formas polimórficas en el número de polinucleótidos originales marcados únicos inferidos. En otra realización en la que las formas polimórficas incluyen, pero no están limitadas a: sustituciones, inserciones, deleciones, inversiones, cambios de microsatélites, transversiones, translocaciones, fusiones, metilación, hipermetilación, hidroximetilación, acetilación, variantes epigenéticas, variantes asociadas a la regulación o sitios de unión a proteínas. En otra realización en la que los conjuntos derivan de una muestra común, el método comprende además: a. inferir la variación en el número de copias para la pluralidad de conjuntos en base a una comparación del número inferido de polinucleótidos originales marcados en cada mapeo de conjunto a cada una de una pluralidad de secuencias de referencia. En otra realización, se infiere adicionalmente el número original de polinucleótidos en cada conjunto. Esta divulgación también proporciona un sistema que comprende un medio legible por ordenador para realizar los métodos mencionados anteriormente.
Esta divulgación también proporciona un método para determinar la variación en el número de copias en una muestra que incluye polinucleótidos, el método comprendiendo: a. proporcionar por lo menos dos conjuntos de primeros polinucleótidos, en donde cada conjunto mapea para una secuencia de referencia diferente en un genoma y, para cada conjunto de primeros polinucleótidos; i. amplificar los polinucleótidos para producir un conjunto de polinucleótidos amplificados; ii. secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación; iii. agrupar las lecturas de secuencias secuenciadas a partir de polinucleótidos amplificados en familias, cada familia amplificada a partir del mismo primer polinucleótido del conjunto; iv. inferir una medida cuantitativa de familias en el conjunto; b. determinar la variación en el número de copias comparando la medida cuantitativa de familias en cada conjunto. Esta divulgación también proporciona un sistema que comprende un medio legible por ordenador para realizar los métodos mencionados anteriormente.
Esta divulgación también proporciona un método para inferir la frecuencia de las llamadas de secuencia en una muestra de polinucleótidos que comprende: a. proporcionar por lo menos un conjunto de primeros polinucleótidos, en donde cada conjunto mapea para una secuencia de referencia diferente en uno o más genomas y, para cada conjunto de primeros polinucleótidos; i. amplificar los primeros polinucleótidos para producir un conjunto de polinucleótidos amplificados; ii. secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación; iii. agrupar las lecturas de secuencia en familias, cada familia comprendiendo lecturas de secuencia de polinucleótidos amplificados amplificados a partir del mismo primer polinucleótido; b. inferir, para cada conjunto de primeros polinucleótidos, una frecuencia de llamada para una o más bases en el conjunto de primeros polinucleótidos, en donde inferir comprende: i. asignar, para cada familia, una puntuación de confianza para cada una de una pluralidad de llamadas, la puntuación de confianza teniendo en cuenta una frecuencia de la llamada entre los miembros de la familia; y ii. estimar una frecuencia de una o más llamadas teniendo en cuenta las puntuaciones de confianza de una o más llamadas asignadas a cada familia. Esta divulgación también proporciona un sistema que comprende un medio legible por ordenador para realizar los métodos mencionados anteriormente.
Esta divulgación también proporciona un método para comunicar información de secuencia sobre por lo menos una molécula de polinucleótido individual que comprende: a. proporcionar por lo menos una molécula de polinucleótido individual; b. codificar información de secuencia en la por lo menos una molécula de polinucleótido individual para producir una señal; c. pasar por lo menos parte de la señal a través de un canal para producir una señal recibida que comprende información de secuencia de nucleótidos sobre la por lo menos una molécula de polinucleótido individual, en donde la señal recibida comprende ruido y/o distorsión; d. decodificar la señal recibida para producir un mensaje que comprende información de secuencia sobre por lo menos una molécula de polinucleótido individual, en donde la decodificación reduce el ruido y/o la distorsión en el mensaje; y e. proporcionar el mensaje a un destinatario. En una realización, el ruido comprende llamadas de nucleótidos incorrectas. En otra realización, la distorsión comprende una amplificación desigual de la molécula de polinucleótido individual en comparación con otras moléculas de polinucleótidos individuales. En otra realización, la distorsión es resultado del sesgo de la amplificación o de la secuenciación. En otra realización, la por lo menos una molécula de polinucleótido individual es una pluralidad de moléculas de polinucleótidos individuales, y la decodificación produce un mensaje sobre cada molécula en la pluralidad. En otra realización, la codificación comprende amplificar la por lo menos una molécula de polinucleótido individual que se ha marcado opcionalmente, en donde la señal comprende una colección de moléculas amplificadas. En otra realización, el canal comprende un secuenciador de polinucleótidos y la señal recibida comprende lecturas de secuencia de una pluralidad de polinucleótidos amplificados a partir de la por lo menos una molécula de polinucleótido individual. En otra realización, la decodificación comprende agrupar lecturas de secuencia moléculas amplificadas, amplificadas a partir de cada una de las por lo menos una molécula de polinucleótido individual. En otra realización, la decodificación consiste de un método probabilístico o estadístico para filtrar la señal de secuencia generada. Esta divulgación también proporciona un sistema que comprende un medio legible por ordenador para realizar los métodos mencionados anteriormente.
En otra realización, los polinucleótidos se derivan de ADN o ARN genómico tumoral. En otra realización, los polinucleótidos se derivan de polinucleótidos libres de células, polinucleótidos exosomales, polinucleótidos bacterianos o polinucleótidos virales. Otra realización comprende además la detección y/o asociación de vías moleculares afectadas. En otra realización que comprende además la monitorización en serie del estado de salud o de enfermedad de un individuo. En otra realización, se infiere la filogenia de un genoma asociado con una enfermedad dentro de un individuo. Otra realización comprende además el diagnóstico, la monitorización o el tratamiento de una enfermedad. En otra realización, el régimen de tratamiento se selecciona o modifica en base a formas polimórficas detectadas o CNV o vías asociadas. En otra realización el tratamiento comprende una terapia de combinación.
Esta divulgación también proporciona un medio legible por ordenador en forma tangible no transitoria que comprende código ejecutable configurado para realizar los pasos siguientes: seleccionar regiones predefinidas en un genoma; acceder a lecturas de secuencia y enumerar el número de lecturas de secuencia en las regiones predefinidas; normalizar el número de lecturas de secuencia en las regiones predefinidas; y determinar el porcentaje de variación del número de copias en las regiones predefinidas.
Esta divulgación también proporciona un medio legible por ordenador en forma tangible no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. acceder a un archivo de datos que comprende una pluralidad de lecturas de secuencia; b. filtrar lecturas que no alcanzan un umbral establecido; c. mapear lecturas de secuencia derivadas de la secuenciación en una secuencia de referencia; d. identificar un subconjunto de lecturas de secuencia mapeadas que se alinean con una variante de la secuencia de referencia en cada posición de base mapeable; e. para cada posición base mapeable, calcular una proporción de (a) una cantidad de lecturas de secuencia mapeadas que incluyen una variante en comparación con la secuencia de referencia, con (b) una cantidad de lecturas de secuencia totales para cada posición de base mapeable; f. normalizar las proporciones o la frecuencia de varianza para cada posición de base mapeable y determinar las potenciales variantes raras u otras alteraciones genéticas; y g. comparar el número resultante para cada una de las regiones con potenciales variantes raras o mutaciones con números derivados de manera similar de un muestra de referencia.
Esta divulgación también proporciona un medio legible por ordenador en forma tangible no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. acceder a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados a partir de por lo menos un conjunto de polinucleótidos originales marcados; b. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso correspondiente a un polinucleótido único entre el conjunto de polinucleótidos originales marcados.
Esta divulgación también proporciona un medio legible por ordenador en forma tangible no transitoria que comprende código ejecutable configurado para realizar los pasos siguientes: a. acceder a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados a partir de por lo menos un conjunto de polinucleótidos originales marcados; b. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias consenso, cada secuencia de consenso correspondiendo a un polinucleótido único entre el conjunto de polinucleótidos originales marcados; c. filtrar de entre las secuencias de consenso aquellas que no logran alcanzar un umbral de calidad.
Esta divulgación también proporciona un medio legible por ordenador en forma tangible no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. acceder a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados a partir de por lo menos un conjunto de polinucleótidos originales marcados; y i. colapsar las lecturas de secuencia: 1. agrupar las lecturas de secuencias secuenciadas a partir de polinucleótidos de progenie amplificados en familias, cada familia amplificada a partir del mismo polinucleótido original marcado y, opcionalmente, 2. determinar una medida cuantitativa de las lecturas de secuencia en cada familia. En ciertas realizaciones, el código ejecutable realiza además los pasos de: b. determinar una medida cuantitativa de familias únicas; c. en base a (1) la medida cuantitativa de familias únicas y (2) la medida cuantitativa de lecturas de secuencia en cada grupo, infiriendo una medida de polinucleótidos originales marcados únicos en el conjunto. En ciertas realizaciones, el código ejecutable realiza además los pasos de: d. determinar una medida cuantitativa de formas polimórficas entre las familias; y e. en base a la medida cuantitativa determinada de formas polimórficas, deducir una medida cuantitativa de formas polimórficas en el número de polinucleótidos originales marcados únicos inferidos.
Esta divulgación también proporciona un medio legible por ordenador en forma tangible no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. acceder a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de por lo menos un conjunto de polinucleótidos originales marcados que agrupan las lecturas de secuencias secuenciadas a partir de polinucleótidos amplificados en familias, cada familia amplificada del mismo primer polinucleótido en el conjunto; b. inferir una medida cuantitativa de familias en el conjunto; c. determinar la variación del número de copias comparando la medida cuantitativa de familias en cada conjunto.
Esta divulgación también proporciona un medio legible por ordenador en forma tangible no transitoria que comprende código ejecutable configurado para realizar los pasos siguientes: a. acceder a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados a partir de por lo menos un conjunto de polinucleótidos originales marcados que agrupan las lecturas de secuencia en familias, cada familia comprendiendo lecturas de secuencia de polinucleótidos amplificados, amplificados a partir del mismo primer polinucleótido; b. inferir, para cada conjunto de primeros polinucleótidos, una frecuencia de llamada para una o más bases en el conjunto de primeros polinucleótidos, en donde inferir comprende: c. asignar, para cada familia, una puntuación de confianza para cada una de una pluralidad de llamadas, la puntuación de confianza teniendo en cuenta la frecuencia de la llamada entre los miembros de la familia; y d. estimar una frecuencia de una o más llamadas teniendo en cuenta las puntuaciones de confianza de una o más llamadas asignadas a cada familia.
Esta divulgación también proporciona un medio legible por ordenador en forma tangible no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. acceder a datos accediendo a un archivo de datos que comprende una señal recibida que comprende información de secuencia codificada de por lo menos una molécula de polinucleótido individual en donde la señal recibida comprende ruido y/o distorsión; b. decodificar la señal recibida para producir un mensaje que comprende información de secuencia sobre por lo menos una molécula de polinucleótido individual, en donde la decodificación reduce el ruido y/o la distorsión sobre cada polinucleótido individual en el mensaje; y c. escribir el mensaje que comprende información de secuencia sobre la por lo menos una molécula de polinucleótido individual en un archivo de ordenador.
Esta divulgación también proporciona un medio legible por ordenador en forma tangible no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. acceder a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados a partir de por lo menos un conjunto de polinucleótidos originales marcados; b. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso correspondiendo a un polinucleótido único entre el conjunto de polinucleótidos originales marcados; c. filtrar de entre las secuencias de consenso aquellas que no logran alcanzar un umbral de calidad.
Esta divulgación también proporciona un medio legible por ordenador en forma tangible no transitoria que comprende código ejecutable configurado para realizar los pasos siguientes: a. acceder a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados a partir de por lo menos un conjunto de polinucleótidos originales marcados; y b. colapsar las lecturas de secuencia: i. agrupando las lecturas de secuencias secuenciadas a partir de los polinucleótidos de progenie amplificados en familias, cada familia amplificada del mismo polinucleótido original marcado; y ii. opcionalmente, determinando una medida cuantitativa de lecturas de secuencia en cada familia. En ciertas realizaciones, el código ejecutable realiza además los pasos de: c. determinar una medida cuantitativa de familias únicas; d. en base a (1) la medida cuantitativa de familias únicas y (2) la medida cuantitativa de lecturas de secuencia en cada grupo, inferir una medida de polinucleótidos originales marcados únicos en el conjunto. En ciertas realizaciones, el código ejecutable realiza además los pasos de: e. determinar una medida cuantitativa de formas polimórficas entre las familias; y f. en base a la medida cuantitativa determinada de formas polimórficas, inferir una medida cuantitativa de formas polimórficas en el número de polinucleótidos originales marcados únicos inferidos. En ciertas realizaciones, el código ejecutable realiza además los pasos de: e. inferir la variación en el número de copias para la pluralidad de conjuntos en base a una comparación del número inferido de polinucleótidos originales marcados en cada conjunto mapeando para cada una de una pluralidad de secuencias de referencia.
Esta divulgación también proporciona un medio legible por ordenador en forma tangible no transitoria que comprende código ejecutable configurado para realizar los pasos siguientes: a. acceder a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados a partir de por lo menos un conjunto de polinucleótidos originales marcados; b. agrupar las lecturas de secuencias secuenciadas a partir de polinucleótidos amplificados en familias, cada familia amplificada a partir del mismo primer polinucleótido del conjunto; c. inferir una medida cuantitativa de familias en el conjunto; d. determinar la variación en el número de copias comparando la medida cuantitativa de familias en cada conjunto.
Esta divulgación también proporciona un medio legible por ordenador en forma tangible no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. acceder a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados a partir de por lo menos un conjunto de polinucleótidos originales marcados que agrupan las lecturas de secuencia en familias, cada familia comprendiendo lecturas de secuencia de polinucleótidos amplificados, amplificados a partir de mismo primer polinucleótido; y b. inferir, para cada conjunto de primeros polinucleótidos, una frecuencia de llamada para una o más bases en el conjunto de primeros polinucleótidos, en donde inferir comprende: i. asignar, para cada familia, una puntuación de confianza para cada una de una pluralidad de llamadas, la puntuación de confianza teniendo en cuenta una frecuencia de la llamada entre los miembros de la familia; y ii. estimar una frecuencia de una o más llamadas teniendo en cuenta las puntuaciones de confianza de la una o más llamadas asignadas a cada familia.
Esta divulgación también proporciona un método que comprende: a. proporcionar una muestra que comprende entre 100 y 100.000 equivalentes haploides del genoma humano de polinucleótidos de ADN libre de células (ADNcf; y b. marcar los polinucleótidos con entre 2 y 1.000.000 de identificadores únicos. En ciertas realizaciones, el número de identificadores únicos es de por lo menos 3, por lo menos 5, por lo menos 10, por lo menos 15 o por lo menos 25 y como máximo 100, como máximo 1000 o como máximo 10.000. En ciertas realizaciones, el número de identificadores únicos es como máximo 100, como máximo 1000, como máximo 10.000, como máximo 100.000.
Esta divulgación también proporciona un método que comprende: a. proporcionar una muestra que comprende una pluralidad de equivalentes de genoma haploide humano de polinucleótidos fragmentados; b. determinar z, en donde z es una medida de la tendencia central (por ejemplo, media, mediana o moda) del número esperado de polinucleótidos duplicados que comienzan en cualquier posición en el genoma, en donde los polinucleótidos duplicados tienen las mismas posiciones de inicio y parada; y c. marcar polinucleótidos en la muestra con n identificadores únicos, en donde n está entre 2 y 100.000*z, 2 y 10.000*z, 2 y 1.000*z o 2 y 100*z.
Esta divulgación también proporciona un método que comprende: a. proporcionar por lo menos un conjunto de polinucleótidos originales marcados, y para cada conjunto de polinucleótidos originales marcados; b. producir una pluralidad de lecturas de secuencia para cada polinucleótido original marcado en el conjunto para producir un conjunto de lecturas de secuenciación; y c. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso correspondiente a un polinucleótido único entre el conjunto de polinucleótidos originales marcados. En algunas realizaciones, las variantes en el número de copias identificadas son fraccionales (es decir, niveles no enteros) debido a la heterogeneidad en la muestra. En algunas realizaciones, se realiza el enriquecimiento de regiones seleccionadas. En algunas realizaciones, la información de variación en el número de copias se extrae simultáneamente en base a los métodos descritos en la presente. En algunas realizaciones, los métodos comprenden un paso inicial de hacer un cuello de botella para limitar el número de copias de partida iniciales o diversidad de polinucleótidos en la muestra.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 10% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 20% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 30% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 40% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 50% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 60% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 70% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 80% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 90% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética y la cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 10% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética y la cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 20% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética y la cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 30% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética y la cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 40% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética y la cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 50% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética y la cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 60% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética y la cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 70% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética y la cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 80% del genoma del individuo.
La divulgación también proporciona un método que comprende detectar la presencia o ausencia de alteración genética y la cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de secuenciación de ácido nucleico libre de células, en donde se secuencia por lo menos el 90% del genoma del individuo.
En algunas realizaciones, la alteración genética es la variación en el número de copias o una o más mutaciones raras. En algunas realizaciones, la variación genética comprende una o más variantes causales y uno o más polimorfismos. En algunas realizaciones, la alteración genética y/o la cantidad de variación genética en el individuo pueden compararse con una alteración genética y/o cantidad de variación genética en uno o más individuos con una enfermedad conocida. En algunas realizaciones, la alteración genética y/o la cantidad de variación genética en el individuo pueden compararse con una alteración genética y/o cantidad de variación genética en uno o más individuos, sin una enfermedad. En algunas realizaciones, el ácido nucleico libre de células es ADN. En algunas realizaciones, el ácido nucleico libre de células es ARN. En algunas realizaciones, el ácido nucleico libre de células es ADN y ARN. En algunas realizaciones, La enfermedad es cáncer o precáncer. En algunas realizaciones, el método comprende además el diagnóstico o tratamiento de una enfermedad.
La divulgación también proporciona una composición que comprende entre 100 y 100.000 equivalentes del genoma haploide humano de polinucleótidos de ADNcf, en donde los polinucleótidos están marcados con entre 2 y 1.000.000 de identificadores únicos.
En algunas realizaciones, la composición comprende entre 1000 y 50.000 equivalentes del genoma humano haploide de polinucleótidos de ADNcf, en donde los polinucleótidos están marcados con entre 2 y 1.000 identificadores únicos. En algunas realizaciones, los identificadores únicos comprenden códigos de barras de nucleótidos. La divulgación también proporciona un método que comprende: a) proporcionar una muestra que comprende entre 100 y 100.000 equivalentes de genoma humano haploide de polinucleótidos de ADNcf; y b) marcar los polinucleótidos con entre 2 y 1.000.000 de identificadores únicos.
La divulgación también proporciona un sistema que comprende un medio legible por ordenador que comprende código ejecutable por máquina como se describe en la presente. La divulgación también proporciona un sistema que comprende un medio legible por ordenador que comprende código ejecutable por máquina que, tras la ejecución por un procesador informático, implementa un método como se describe en la presente.
Aspectos y ventajas adicionales de la presente divulgación se harán fácilmente evidentes para los expertos en esta técnica a partir de la siguiente descripción detallada, en la que solo se muestran y describen realizaciones ilustrativas de la presente divulgación. Como se entenderá, la presente divulgación es capaz de otras realizaciones diferentes, y sus varios detalles son capaces de modificaciones en varios aspectos obvios, todos sin apartarse de la divulgación. Por consiguiente, los dibujos y la descripción deben considerarse de naturaleza ilustrativa y no restrictiva.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
Las características novedosas de un sistema y los métodos de esta divulgación se exponen con particularidad en las reivindicaciones adjuntas. Se obtendrá una mejor comprensión de las características y ventajas de esta divulgación haciendo referencia a la siguiente descripción detallada que describe realizaciones ilustrativas, en las que se utilizan los principios de un sistema y métodos de esta divulgación, y los dibujos acompañantes de los cuales:
La FIG. 1 es una representación en diagrama de flujo de un método de detección de la variación del número de copias usando una única muestra.
La FIG. 2 es una representación en diagrama de flujo de un método de detección de la variación del número de copias usando muestras emparejadas.
La FIG. 3 es una representación en diagrama de flujo de un método de detección de mutaciones raras (por ejemplo, variantes de un único nucleótido).
La FIG. 4A es un informe de detección de variación de número de copias gráfico generado a partir de un sujeto normal, no canceroso.
La FIG. 4B es un informe de detección de variación de número de copias gráfico generado a partir de un sujeto con cáncer de próstata.
La FIG. 4C es una representación esquemática del acceso habilitado para Internet de informes generados a partir del análisis de la variación del número de copias de un sujeto con cáncer de próstata.
La FIG. 5A es un informe de detección de variación de número de copias gráfico generado a partir de un sujeto con remisión de cáncer de próstata.
La FIG. 5B es un informe de detección de variación de número de copias gráfico generado a partir de un sujeto con recurrencia de cáncer de próstata.
La FIG. 6A es un informe de detección gráfico (por ejemplo, para variantes de un único nucleótido) generado a partir de varios experimentos de mezcla que usan muestras de ADN que contienen copias tanto de tipo salvaje como mutantes de MET y TP53.
La FIG. 6B es una representación gráfica logarítmica de los resultados de detección (por ejemplo, variante de un único nucleótido). Las mediciones del porcentaje de cáncer observado frente al esperado se muestran para varios experimentos de mezcla que usan muestras de ADN que contienen copias tanto de tipo salvaje como mutantes de MET, HRAS y TP53.
La FIG. 7A es un informe gráfico del porcentaje de dos (por ejemplo, variantes de un único nucleótido) en dos genes, PIK3CA y TP53, en un sujeto con cáncer de próstata en comparación con una referencia (control). La FIG. 7B es una representación esquemática del acceso habilitado para Internet de los informes generados a partir del análisis (por ejemplo, variante de un único nucleótido) de un sujeto con cáncer de próstata.
La FIG. 8 es una representación en diagrama de flujo de un método de análisis de material genético.
La FIG. 9 es una representación en diagrama de flujo de un método para decodificar información en un conjunto de lecturas de secuencia para producir, con ruido y/o distorsión reducidos, una representación de información en un conjunto de polinucleótidos parentales marcados.
La FIG. 10 es una representación en diagrama de flujo de un método para reducir la distorsión en la determinación de CNV a partir de un conjunto de lecturas de secuencia.
La FIG. 11 es una representación en diagrama de flujo de un método para estimar la frecuencia de una base o secuencia de bases en un locus en una población de polinucleótidos parentales marcados de un conjunto de lecturas de secuencia.
La FIG. 12 muestra un método para comunicar la información de secuencia.
La FIG. 13 muestra las frecuencias alélicas menores detectadas en un panel completo de 70 kb en una titulación de ADNcf de LNCaP al 0,3% usando secuenciación estándar y flujos de trabajo de secuenciación digital. La secuenciación "analógica" estándar (Fig. 13A) enmascara todas las variantes raras verdaderas positivas en un ruido tremendo debido a los errores de PCR y secuenciación a pesar del filtrado Q30. La secuenciación digital (Fig. 13B) elimina toda el ruido de PCR y la secuenciación, revelando mutaciones verdaderas sin falsos positivos: los círculos verdes son puntos SNP en el ADNcf normal y los círculos rojos son mutaciones de LNCaP detectadas.
La FIG. 14: Muestra la titulación de ADNcf de LNCaP.
La FIG. 15 muestra un sistema informático que está programado o configurado de otra manera para implementar varios métodos de la presente divulgación.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN
I. Descripción General
La presente divulgación proporciona un sistema y un método para la detección de mutaciones raras (por ejemplo, variaciones de nucleótidos individuales o múltiples) y variaciones en el número de copias en polinucleótidos libres de células. En general, los sistemas y métodos comprenden la preparación de muestras, o la extracción y aislamiento de secuencias de polinucleótidos libres de células de un fluido corporal; la secuenciación posterior de los polinucleótidos libres de células mediante técnicas conocidas en la técnica; y la aplicación de herramientas bioinformáticas para detectar mutaciones raras y variaciones en el número de copias en comparación con una referencia. Los sistemas y métodos también pueden contener una base de datos o una colección de diferentes mutaciones raras o perfiles de variación del número de copias de diferentes enfermedades, que se usan como referencias adicionales para ayudar a la detección de mutaciones raras (por ejemplo, realización de perfiles de variación de nucleótidos individuales), realización de perfiles de la variación del número de copias o la realización de perfiles genéticos generales de una enfermedad.
Los sistemas y métodos pueden ser particularmente útiles en el análisis de ADN libre de células. En algunos casos, el ADN libre de células se extrae y se aísla de un fluido corporal fácilmente accesible como la sangre. Por ejemplo, el ADN libre de células puede extraerse usando una variedad de métodos conocidos en la técnica, que incluyen, pero no están limitados a, la precipitación con isopropanol y/o la purificación basada en sílice. El ADN libre de células puede extraerse de cualquier número de sujetos, como sujetos sin cáncer, sujetos con riesgo de cáncer, o sujetos que se sabe que tienen cáncer (por ejemplo, mediante de otros medios).
Después del paso de aislamiento/extracción, se puede realizar cualquiera de una serie de operaciones de secuenciación diferentes en la muestra de polinucleótido libre de células. Las muestras pueden procesarse antes de la secuenciación con uno o más reactivos (por ejemplo, enzimas, identificadores únicos (por ejemplo, códigos de barras), sondas, etc.). En algunos casos, si la muestra se procesa con un identificador único como un código de barras, las muestras o fragmentos de muestras pueden marcarse individualmente o en subgrupos con el identificador único. La muestra marcada puede usarse luego en una aplicación posterior tal como una reacción de secuenciación por la cual las moléculas individuales pueden rastrearse hasta las moléculas parentales.
Después de recopilar los datos de secuenciación de las secuencias de polinucleótidos libres de células, se pueden aplicar uno o más procesos bioinformáticos a los datos de secuencia para detectar características genéticas o aberraciones como la variación del número de copias, mutaciones raras (por ejemplo, variaciones de nucleótidos individuales o múltiples) o cambios en marcadores epigenéticos, incluyendo pero no limitados a, los perfiles de metilación. En algunos casos, en los que se desea un análisis de la variación del número de copias, los datos de secuencia pueden: 1) alinearse con un genoma de referencia; 2) filtrarse y mapearse; 3) repartirlos en ventanas o recipientes de secuencia; 4) contarse las lecturas de cobertura para cada ventana; 5) las lecturas de cobertura se pueden normalizar luego usando un algoritmo de modelado estocástico o estadístico; 6) y se puede generar un archivo de salida que refleje estados de número de copias discretos en varias posiciones en el genoma. En otros casos, en los que se desea un análisis de mutaciones raras, los datos de secuencia pueden 1) alinearse con un genoma de referencia; 2) filtrarse y mapearse; 3) calcularse la frecuencia de las bases de variantes en base a las lecturas de cobertura para esa base específica; 4) normalizarse la frecuencia de bases de variantes usando un algoritmo de modelado estocástico, estadístico o probabilístico; 5) y se puede generar un archivo de salida que refleje los estados de mutaciones en varias posiciones en el genoma.
Pueden tener lugar una variedad de reacciones y/o operaciones diferentes dentro de los sistemas y métodos divulgados en la presente, que incluyen, pero no están limitados a: secuenciación de ácidos nucleicos, cuantificación de ácidos nucleicos, optimización de la secuenciación, detección de la expresión génica, cuantificación de la expresión génica, realizar perfiles genómicos, realizar perfiles de cáncer o análisis de marcadores expresados. Además, los sistemas y métodos tienen numerosas aplicaciones médicas. Por ejemplo, puede usarse para la identificación, detección, diagnóstico, tratamiento, clasificación del estadio, o predicción de riesgo de varias enfermedades y trastornos genéticos y no genéticos, incluyendo el cáncer. Puede usarse para evaluar la respuesta de los sujetos a diferentes tratamientos de dichas enfermedades genéticas y no genéticas, o proporcionar información referente a la progresión de la enfermedad y el pronóstico.
La secuenciación de polinucleótidos puede compararse con un problema en la teoría de la comunicación. Un polinucleótido individual inicial o conjunto de polinucleótidos se considera como un mensaje original. Puede considerarse que el marcado y/o la amplificación codifican el mensaje original en una señal. La secuenciación puede considerarse como un canal de comunicación. La salida de un secuenciador, por ejemplo, lecturas de secuencia, puede considerarse como una señal recibida. El procesamiento bioinformático puede considerarse como un receptor que decodifica la señal recibida para producir un mensaje transmitido, por ejemplo, una secuencia o secuencias de nucleótidos. La señal recibida puede incluir artefactos, como ruido ya distorsión. El ruido puede considerarse como una adición aleatoria no deseada a una señal. La distorsión puede considerarse como una alteración en la amplitud de una señal o parte de una señal.
El ruido puede introducirse a través de errores al copiar y/o leer un polinucleótido. Por ejemplo, en un proceso de secuenciación, puede primero someterse un único polinucleótido a amplificación. La amplificación puede introducir errores, por lo que un subconjunto de los polinucleótidos amplificados puede contener, en un locus particular, una base que no es la misma que la base original en ese locus. Además, en el proceso de lectura una base en cualquier locus en particular puede leerse incorrectamente. Como consecuencia, la colección de lecturas de secuencia puede incluir un cierto porcentaje de llamadas de base en un locus que no son las mismas que las de la base original. En las tecnologías de secuenciación típicas, esta tasa de error puede estar en dígitos únicos, por ejemplo, 2% -3%. Cuando se secuencia una colección de moléculas que se presume que tienen la misma secuencia, este ruido es lo suficientemente pequeño para que se pueda identificar la base original con una fiabilidad alta.
Sin embargo, si una colección de polinucleótidos parentales incluye un subconjunto de polinucleótidos que tienen variantes de secuencia en un locus particular, el ruido puede ser un problema importante. Este puede ser el caso, por ejemplo, cuando el ADN libre de células incluye no solo el ADN de la línea germinal, sino también el ADN de otra fuente, como ADN fetal o ADN de una célula cancerosa. En este caso, si la frecuencia de moléculas con variantes de secuencia está en el mismo rango que la frecuencia de errores introducida por el proceso de secuenciación, entonces las verdaderas variantes de secuencia pueden no ser distinguibles del ruido. Esto podría interferir, por ejemplo, con la detección de variantes de secuencia en una muestra.
La distorsión puede manifestarse en el proceso de secuenciación como una diferencia en la intensidad de la señal, por ejemplo, el número total de lecturas de secuencia, producidas por moléculas en una población parental a la misma frecuencia. La distorsión puede introducirse, por ejemplo, a través del sesgo de amplificación, sesgo de GC o sesgo de secuenciación. Esto podría interferir con la detección de la variación del número de copias en una muestra. El sesgo de GC da como resultado la representación desigual de áreas ricas o pobres en contenido de GC en la lectura de secuencia.
Esta invención proporciona métodos para reducir los artefactos de secuenciación, como el ruido y/o la distorsión, en un proceso de secuenciación de polinucleótidos. Las lecturas de secuencia de agrupación en familias derivadas de moléculas individuales originales pueden reducir el ruido y/o la distorsión de una molécula individual única o de un conjunto de moléculas. Con respecto a una molécula individual, agrupar las lecturas en una familia reduce la distorsión, por ejemplo, indicando que muchas lecturas de secuencias representan en realidad una sola molécula en lugar de muchas moléculas diferentes. La lectura de secuencias colapsadas en una secuencia de consenso es una manera de reducir el ruido en el mensaje recibido de una molécula. El uso de funciones probabilísticas que convierten las frecuencias recibidas es otra manera. Con respecto a un conjunto de moléculas, agrupar las lecturas en familias y determinar una medida cuantitativa de las familias reduce la distorsión, por ejemplo, en la cantidad de moléculas en cada una de una pluralidad de loci diferentes. De nuevo, las lecturas de secuencias colapsadas de diferentes familias en secuencias de consenso eliminan los errores introducidos por error de amplificación y/o secuenciación. Además, la determinación de las frecuencias de las llamadas de base en base a las probabilidades derivadas de la información de la familia también reduce el ruido en el mensaje recibido de un conjunto de moléculas.
Se conocen métodos para reducir el ruido y/o la distorsión de un proceso de secuenciación. Estos incluyen, por ejemplo, secuencias de filtrado, por ejemplo, requerir que cumplan con un umbral de calidad, o reducir el sesgo de GC. Tales métodos se realizan típicamente en la colección de lecturas de secuencia que son la salida de un secuenciador, y se pueden realizar lecturas de lectura por secuencia, sin tener en cuenta la estructura de la familia (sub-colecciones de secuencias derivadas de una única molécula parental original). Ciertos métodos de esta invención reducen el ruido y la distorsión reduciendo el ruido y/o la distorsión dentro de familias de lecturas de secuencia, es decir, funcionando en lecturas de secuencia agrupadas en familias derivadas de una única molécula de polinucleótido parental. La reducción del artefacto de la señal a nivel de familia puede producir significativamente menos ruido y distorsión en el último mensaje que se proporciona que la reducción de artefactos realizada a un nivel de lectura de lectura por secuencia o en una salida de secuenciador como un todo.
La presente divulgación proporciona además métodos y sistemas para detectar con alta sensibilidad variación genética en una muestra de material genético inicial. Los métodos implican el uso de una o ambas de las siguientes herramientas: Primero, la conversión eficaz de polinucleótidos individuales en una muestra de material genético inicial en polinucleótidos parentales marcados listos para secuencia, para aumentar la probabilidad de que los polinucleótidos individuales en una muestra de material genético inicial sean representados en una muestra lista para secuencia. Esto puede producir información de secuencia sobre más polinucleótidos en la muestra inicial. En segundo lugar, la generación con alto rendimiento de secuencias de consenso para polinucleótidos parentales marcados mediante muestreo de alta velocidad de polinucleótidos de la progenie amplificada a partir de los polinucleótidos parentales marcados, y el colapso de las lecturas de secuencias generadas en secuencias de consenso que representan secuencias de polinucleótidos marcados parentales. Esto puede reducir el ruido introducido por el sesgo de amplificación y/o los errores de secuenciación, y puede aumentar la sensibilidad de la detección. El colapso se realiza en una pluralidad de lecturas de secuencia, generadas o a partir de lecturas de moléculas amplificadas, o de lecturas múltiples de una única molécula.
Los métodos de secuenciación implican típicamente la preparación de muestras, la secuenciación de polinucleótidos en la muestra preparada para producir lecturas de secuencia y la manipulación bioinformática de las lecturas de secuencia para producir información genética cuantitativa y/o cualitativa sobre la muestra. La preparación de muestras implica generalmente convertir polinucleótidos en una muestra en una forma compatible con la plataforma de secuenciación usada. Esta conversión puede implicar el marcado de polinucleótidos. En ciertas realizaciones de esta invención, los marcadores comprenden marcadores de secuencia de polinucleótidos. Las metodologías de conversión usadas en la secuenciación pueden no ser 100% eficientes. Por ejemplo, no es infrecuente convertir polinucleótidos en una muestra con una eficiencia de conversión de aproximadamente el 1-5%, es decir, aproximadamente el 1-5% de los polinucleótidos en una muestra se convierten en polinucleótidos marcados. Los polinucleótidos que no se convierten en moléculas marcadas no se representan en una biblioteca marcada para la secuenciación. Por consiguiente, los polinucleótidos que tienen variantes genéticas representadas a baja frecuencia en el material genético inicial pueden no estar representados en la biblioteca marcada y, por lo tanto pueden no secuenciarse o detectarse. Aumentando la eficiencia de conversión, se aumenta la probabilidad de que un polinucleótido raro en el material genético inicial se represente en la biblioteca marcada y, por consiguiente, se detecte mediante secuenciación. Además, en lugar de abordar directamente el problema de la baja eficiencia de conversión de la preparación de la biblioteca, la mayoría de los protocolos hasta la fecha requieren más de 1 microgramo de ADN como material de entrada. Sin embargo, cuando el material de la muestra de entrada es limitado o se desea la detección de polinucleótidos con baja representación, la alta eficiencia de conversión puede secuenciar eficientemente la muestra y/o detectar adecuadamente tales polinucleótidos.
Esta divulgación proporciona métodos para convertir polinucleótidos iniciales en polinucleótidos marcados con una eficiencia de conversión de por lo menos el 10%, por lo menos el 20%, por lo menos el 30%, por lo menos el 40%, por lo menos el 50%, por lo menos el 60%, por lo menos el 80%, o por lo menos el 90%. Los métodos implican, por ejemplo, usar cualquiera de ligación de extremo romo, ligación del extremo pegajoso, sondas de inversión molecular, PCR, PCR basada en la ligación, PCR multiplex, ligación de cadena sencilla y circularización de cadena sencilla. Los métodos también pueden implicar limitar la cantidad de material genético inicial. Por ejemplo, la cantidad de material genético inicial puede ser inferior a 1 ug, inferior a 100 ng o inferior a 10 ng. Estos métodos se describen con más detalle en la presente.
La obtención de información cuantitativa y cualitativa precisa sobre los polinucleótidos en una biblioteca marcada puede dar como resultado una caracterización más sensible del material genético inicial. Típicamente, los polinucleótidos en una biblioteca marcada se amplifican y las moléculas amplificadas resultantes se secuencian. Dependiendo del rendimiento de la plataforma de secuenciación usada, solo un subconjunto de las moléculas en la biblioteca amplificada produce lecturas de secuencia. Entonces, por ejemplo, el número de moléculas amplificadas muestreadas para la secuenciación puede ser aproximadamente el 50% de los polinucleótidos únicos en la biblioteca marcada. Además, la amplificación puede sesgarse a favor o en contra de ciertas secuencias o ciertos miembros de la biblioteca marcada. Esto puede distorsionar la medición cuantitativa de las secuencias en la biblioteca marcada. Además, las plataformas de secuenciación pueden introducir errores en la secuenciación. Por ejemplo, las secuencias pueden tener una tasa de error por base del 0,5-1%. El sesgo de amplificación y los errores de secuenciación introducen ruido en el producto de la secuenciación final. Este ruido puede disminuir la sensibilidad de detección. Por ejemplo, las variantes de secuencia cuya frecuencia en la población marcada sea menor que la tasa de error de secuenciación pueden confundirse con ruido. Además, proporcionando lecturas de secuencias en cantidades mayores o menores que su número real en una población, el sesgo de amplificación puede distorsionar las mediciones de la variación del número de copias. Alternativamente, pueden producirse una pluralidad de lecturas de secuencia de un único polinucleótido sin amplificación. Esto puede hacerse, por ejemplo, con métodos de nanopore.
Esta divulgación proporciona métodos para detectar y leer con precisión polinucleótidos únicos en un grupo marcado. En ciertas realizaciones, esta divulgación proporciona polinucleótidos marcados en secuencia que, cuando se amplifican y secuencian, o cuando se secuencian una pluralidad de veces para producir una pluralidad de lecturas de secuencia, proporcionan información que permite el rastreo, o el colapso, de polinucleótidos de la progenie a la molécula de polinucleótido parental de marcador único. Las familias colapsadas de polinucleótidos de progenie amplificada reducen el sesgo de amplificación proporcionando información sobre las moléculas parentales únicas originales. El colapso también reduce los errores de secuenciación al eliminar de los datos de secuenciación secuencias mutantes de las moléculas de la progenie.
Detectar y leer polinucleótidos únicos en la biblioteca marcada puede implicar dos estrategias. En una estrategia, un subconjunto lo suficientemente grande del grupo de polinucleótidos de la progenie amplificada se secuencia de tal manera que, para un gran porcentaje de polinucleótidos parentales únicos marcados en el conjunto de polinucleótidos parentales marcados, hay una lectura de secuencia que se produce para al menos un polinucleótido de la progenie amplificada en una familia producida a partir de un polinucleótido parental marcado único. En una segunda estrategia, el conjunto de polinucleótidos de la progenie amplificado se muestrea para secuenciación a un nivel para producir lecturas de secuencia de múltiples miembros de la progenie de una familia derivada de un polinucleótido parental único. La generación de lecturas de secuencia de múltiples miembros de la progenie de una familia permite el colapso de las secuencias en secuencias parentales de consenso.
Así, por ejemplo, muestrear una serie de polinucleótidos de la progenie amplificada del conjunto de polinucleótidos de la progenie amplificada que es igual al número de polinucleótidos parentales marcados únicos en el conjunto de polinucleótidos parentales marcados (particularmente cuando el número es por lo menos 10.000) producirá, estadísticamente, una lectura de secuencia para por lo menos una de la progenie de aproximadamente el 68% de los polinucleótidos parentales marcados en el conjunto, y aproximadamente el 40% de los polinucleótidos parentales marcados únicos en el conjunto original estará representada por al menos dos lecturas de secuencia de la progenie. En ciertas realizaciones, el conjunto de polinucleótidos de la progenie amplificada se muestrea lo suficiente para producir una media de cinco a diez lecturas de secuencia para cada familia. El muestreo del conjunto de la progenie amplificado de 10 veces la cantidad de moléculas del número de polinucleótidos parentales marcados únicos, producirá estadísticamente, la información de secuencia sobre el 99,995% de las familias, de las cuales el 99,95% del total de familias se cubrirá con una pluralidad de lecturas de secuencias. Puede construirse una secuencia de consenso a partir de los polinucleótidos de la progenie en cada familia para reducir drásticamente la tasa de error de la tasa de error de secuenciación por base nominal a una tasa posiblemente de muchos órdenes de magnitud más baja. Por ejemplo, si el secuenciador tiene una tasa de error por base aleatoria del 1% y la familia elegida tiene 10 lecturas, una secuencia de consenso construida a partir de estas 10 lecturas tendría una tasa de error de menos del 0,0001%. Por consiguiente, el tamaño de muestreo de la progenie amplificada que se va a secuenciar puede elegirse para garantizar que una secuencia que tenga una frecuencia en la muestra que no sea mayor que la tasa de error de secuenciación por base nominal a la tasa de la plataforma de secuenciación usada, tiene por lo menos un 99% de probabilidad de estar representada por al menos una lectura.
En otra realización, el conjunto de polinucleótidos de la progenie amplificada se muestrea a un nivel para producir una alta probabilidad, por ejemplo, por lo menos el 90%, de que una secuencia representada en el conjunto de polinucleótidos parentales marcados a una frecuencia que es aproximadamente la misma que la tasa de error de secuenciación por base de la plataforma de secuenciación usada está cubierta por al menos una lectura de secuencia y preferiblemente una pluralidad de lecturas de secuencia. Así que, por ejemplo, si la plataforma de secuenciación tiene una tasa de error por base del 0,2% en una secuencia o conjunto de secuencias, se representa en el conjunto de polinucleótidos parentales marcados a una frecuencia de aproximadamente el 0,2%, entonces el número de polinucleótidos en el grupo de la progenie amplificada que se está secuenciado puede ser aproximadamente X veces el número de moléculas únicas en el conjunto de polinucleótidos parentales marcados.
Estos métodos pueden combinarse con cualquiera de los métodos de reducción de ruido descritos. Incluyendo, por ejemplo, las lecturas de secuencias de calificación para su inclusión en el grupo de secuencias usadas para generar secuencias de consenso.
Esta información puede usarse ahora para análisis tanto cualitativos como cuantitativos. Por ejemplo, para el análisis cuantitativo, se determina una medida, por ejemplo, un recuento, de la cantidad de moléculas parentales marcadas que mapean en una secuencia de referencia. Esta medida puede compararse con una medida del mapeo de moléculas parentales marcadas a una región genómica diferente. Es decir, la cantidad de moléculas parentales marcadas que se mapean en una primera localización o posición mapeable a una secuencia de referencia, como el genoma humano, puede compararse con una medida de las moléculas parentales marcadas que mapean en una segunda localización o posición mapeable a una secuencia de referencia. Esta comparación puede revelar, por ejemplo, las cantidades relativas de las moléculas parentales que mapean en cada región. Esto, a su vez, proporciona una indicación de la variación del número de copias para moléculas que mapean en una región particular. Por ejemplo, Si la medida de los polinucleótidos que mapean en una primera secuencia de referencia es mayor que la medida de los polinucleótidos que mapean en una segunda secuencia de referencia, esto puede indicar que la población parental, y por extensión la muestra original, incluía polinucleótidos de células que mostraban aneuploidía. Las medidas se pueden normalizar frente a una muestra de control para eliminar varios sesgos. Las medidas cuantitativas pueden incluir, por ejemplo, número, recuento, frecuencia (ya sea relativa, inferida o absoluta).
Un genoma de referencia puede incluir el genoma de cualquier especie de interés. Las secuencias del genoma humano útiles como referencias pueden incluir el conjunto hg 19 o cualquier conjunto hg anterior o disponible. Tales secuencias pueden consultarse usando el navegador del genoma disponible en genome.ucsc.edu/index.html. Otras especies de genomas incluyen, por ejemplo, PanTro2 (chimpancé) y mm9 (ratón).
Para el análisis cualitativo, las secuencias de un conjunto de polinucleótidos marcados que mapean en una secuencia de referencia pueden analizarse para detectar secuencias variantes y puede medirse su frecuencia en la población de polinucleótidos parentales marcados.
II. Preparación de la Muestra
A. Aislamiento y Extracción de Polinucleótidos
Los sistemas y métodos de esta divulgación pueden tener una amplia variedad de usos en la manipulación, preparación, identificación y/o cuantificación de polinucleótidos libres de células. Los ejemplos de polinucleótidos incluyen, pero no están limitados a: ADN, ARN, amplicones, ADNc, ADNds, ADNss, ADN plásmido, ADN cósmido, ADN de alto peso molecular (MW), ADN cromosómico, ADN genómico, a Dn viral, ADN bacteriano, ADNmt (ADN mitocondrial), ARNm, ARNr, ARNt, ARNn, ARNsi, ARNsn, ARNsno, ARNsca, ARNmicro, ARNds, ribozima, riboswitch y ARN viral (por ejemplo, ARN retroviral).
Los polinucleótidos libres de células pueden derivarse de una variedad de fuentes que incluyen fuentes humanas, de mamíferos, de mamíferos no humanos, de simios, de monos, de chimpancés, de reptiles, de anfibios o de aves. Además, las muestras pueden extraerse de una variedad de fluidos animales que contienen secuencias libres de células, que incluyen, pero no están limitadas a, sangre, suero, plasma, vítreo, esputo, orina, lágrimas, transpiración, saliva, semen, excreciones de mucosas, moco, fluido espinal, fluido amniótico, fluido linfático y similares. Los polinucleótidos libres de células pueden ser de origen fetal (a través de un fluido tomado de un sujeto embarazado), o pueden derivar de tejido del propio sujeto.
El aislamiento y la extracción de polinucleótidos libres de células pueden realizarse mediante la recolección de fluidos corporales usando una variedad de técnicas. En algunos casos, la recolección puede comprender la aspiración de un fluido corporal de un sujeto usando una jeringuilla. En otros casos, la recolección puede comprender pipetear o recolectar directamente el fluido en un recipiente de recolección.
Después de la recolección de líquido corporal, los polinucleótidos libres de células pueden aislarse y extraerse usando una variedad de técnicas conocidas en la técnica. En algunos casos, el ADN libre de células puede aislarse, extraerse y prepararse usando kits disponibles comercialmente, como el protocolo del kit de ácido nucleico circulante Qiagen Qiamp®. En otros ejemplos, pueden usarse el protocolo del kit de ensayo de ADNds HS Qiagen Qubit™, el kit Agilent™ DNA 1000 o la preparación de la biblioteca de secuenciación TruSeq™ protocolo de bajo rendimiento (LT).
Generalmente, los polinucleótidos libres de células se extraen y aíslan de los fluidos corporales a través de un paso de división en el que los ADN libres de células, como se encuentran en la solución, se separan de las células y otros componentes no solubles del fluido corporal. La partición división incluir, pero no está limitada a, técnicas como la centrifugación o la filtración. En otros casos, las células no se dividen a partir de ADN libre de células primero, sino que se lisan. En este ejemplo, el ADN genómico de las células intactas se divide mediante precipitación selectiva. Los polinucleótidos libres de células, incluido el ADN, pueden permanecer solubles y pueden separarse del ADN genómico insoluble y extraerse. Generalmente, después de la adición de tampones y otros pasos de lavado específicos para diferentes kits, el ADN puede precipitarse usando precipitación con isopropanol. Se pueden usar pasos de limpieza adicionales, como columnas a base de sílice para eliminar contaminantes o sales. Los pasos generales se pueden optimizar para aplicaciones específicas. Pueden añadirse polinucleótidos portadores a granel no específicos, por ejemplo, a lo largo de la reacción para optimizar ciertos aspectos del procedimiento, como el rendimiento.
El aislamiento y la purificación del ADN libre de células puede lograrse mediante cualquier medio, incluyendo, pero no limitado a, el uso de kits y protocolos comerciales proporcionados por compañías como Sigma Aldrich, Life Technologies, Promega, Affymetrix, IBI o similares. Los kits y protocolos también pueden no estar disponibles comercialmente.
Después del aislamiento, en algunos casos, los polinucleótidos libres de células se mezclan previamente con uno o más materiales adicionales, como uno o más reactivos (por ejemplo, ligasa, proteasa, polimerasa) antes de la secuenciación.
Un método para aumentar la eficiencia de conversión implica el uso de una ligasa diseñada para una reactividad óptima en el ADN de cadena sencilla, como un derivado de la ligasa de ADNss de ThermoPhage. Dichas ligasas omiten los pasos tradicionales en la preparación de bibliotecas de la reparación final y la formación de cola A que pueden tener eficiencias pobres y/o pérdidas acumuladas debido a los pasos de limpieza intermedios, y permite el doble de probabilidades de que el polinucleótido de inicio de sentido o antisentido se convierta en un polinucleótido apropiadamente marcado. También convierte polinucleótidos de cadena doble que pueden poseer salientes que pueden no ser lo suficientemente romos por la reacción de reparación final típica. Las condiciones de reacción óptimas para esta reacción de ADNss son: 1 x tampón de reacción (50 mM MOPS (pH 7,5), DTT 1 mM, MgCl2 5 mM, KCl 10 mM). Con ATP 50 mM, 25 mg/ml de BsA, MnCl2 2,5 mM, 200 pmol 85 nt de oligómero de ADNss y 5 U de ligasa de ADNss incubados a 65° C durante 1 hora. La amplificación posterior usando PCR puede convertir aún más la biblioteca de cadena sencilla marcada en una biblioteca de cadena doble y producir una eficiencia de conversión global muy por encima del 20%. Otros métodos para aumentar la tasa de conversión, por ejemplo, por encima del 10%, incluyen, por ejemplo, cualquiera de los siguientes, solos o en combinación: sondas de inversión molecular con apareamiento optimizado, ligación de extremo romo con un intervalo de tamaño de polinucleótido bien controlado, ligación de extremo pegajoso o un paso de amplificación multiplex frontal con o sin el uso de cebadores de fusión.
B. Codificación de Barras Molecular de Polinucleótidos Libres de Células
Los sistemas y métodos de esta divulgación también pueden permitir que los polinucleótidos libres de células se marquen o rastreen para permitir la posterior identificación y origen del polinucleótido particular. Esta característica contrasta con otros métodos que usan reacciones agrupadas o multiplexadas y que solo proporcionan mediciones o análisis como una media de múltiples muestras. Aquí, la asignación de un identificador a polinucleótidos individuales o subgrupos de polinucleótidos puede permitir que se asigne una identidad única a las secuencias individuales o fragmentos de secuencias. Esto puede permitir la adquisición de datos de muestras individuales y no se limita a medias de muestras.
En algunos ejemplos, los ácidos nucleicos u otras moléculas derivadas de una cadena sencilla pueden compartir un marcador o identificador común y, por lo tanto, pueden identificarse posteriormente como derivadas de esa cadena. De manera similar, todos los fragmentos de una cadena sencilla de ácido nucleico pueden marcarse con el mismo identificador o marcador, permitiendo de este modo una identificación posterior de los fragmentos de la cadena parental. En otros casos, los productos de la expresión génica (por ejemplo, ARNm) pueden marcarse para cuantificar la expresión, por lo que se puede contar el código de barras o el código de barras en combinación con la secuencia a la que está unido. En otros casos más, los sistemas y métodos pueden usarse como control de amplificación por PCR. En tales casos, los productos de amplificación múltiple de una reacción de PCR se pueden marcar con el mismo marcador o identificador. Si los productos se secuencian posteriormente y demuestras diferencias de secuencia, las diferencias entre productos con el mismo identificador pueden atribuirse luego a un error de PCR.
Adicionalmente, pueden identificarse las secuencias individuales en base a las características de los datos de secuencia para las mismas lecturas. Por ejemplo, puede usarse la detección de datos de secuencia únicos en las partes de principio (inicio) y final (parada) de las lecturas de secuencia individuales, sola o en combinación, con la longitud o el número de pares de bases de cada lectura de secuencia para asignar identidades únicas a moléculas individuales. Los fragmentos de una cadena sencilla de ácido nucleico, a los que se les ha asignado una identidad única, pueden por lo tanto permitir la identificación posterior de fragmentos de la cadena parental. Esto se puede usar junto con hacer cuello de botella del material genético de partida inicial para limitar la diversidad.
Además, el uso de datos de secuencia únicos en las partes de principio (inicio) y final (parada) de las lecturas de secuenciación individuales y la longitud de lectura de secuenciación pueden usarse, solos o en combinación, con el uso de códigos de barras. En algunos casos, los códigos de barras pueden ser únicos como se describe en la presente. En otros casos, los códigos de barras en sí pueden no ser únicos. En este caso, el uso de códigos de barras no únicos, en combinación con los datos de secuencia en las partes de principio (inicio) y al final (parada) de las lecturas de secuencia individuales y la longitud de lectura de secuenciación puede permitir la asignación de una identidad única a secuencias individuales. De manera similar, a los fragmentos de una cadena sencilla de ácido nucleico a los que se les ha asignado una identidad única, pueden de este modo permitir la identificación posterior de los fragmentos de la cadena parental.
Generalmente, los métodos y sistemas proporcionados en la presente son útiles para la preparación de secuencias de polinucleótidos libres de células para una reacción de secuenciación de aplicación en sentido descendente. A menudo, un método de secuenciación es la secuenciación clásica de Sanger. Los métodos de secuenciación pueden incluir, pero no están limitados a: secuenciación de alto rendimiento, pirosecuenciación, secuenciación por síntesis, secuenciación de molécula individuales, secuenciación de nanoporos, secuenciación por semiconductores, secuenciación por ligación, secuenciación por hibridación, ARN-Seq (Illumina), Expresión génica digital (Helicos), secuenciación de próxima generación, secuenciación de moléculas individuales por síntesis (SMSS) (Helicos), secuenciación masivamente paralela, Matriz de moléculas individuales clonal (Solexa), secuenciación aleatoria, secuenciación de Maxim-Gilbert, caminata de cebadores, y cualquier otro método de secuenciación conocido en la técnica.
C. Asignación de Códigos de Barras a Secuencias de Polinucleótidos Libres de Células
Los sistemas y métodos divulgados en la presente pueden usarse en aplicaciones que implican la asignación de identificadores únicos o no únicos, o códigos de barras moleculares, a polinucleótidos libres de células. A menudo, el identificador es un oligonucleótido de código de barras que se utiliza para marcar el polinucleótido; pero, en algunos casos, se usan identificadores únicos diferentes. Por ejemplo, en algunos casos, el identificador único es una sonda de hibridación. En otros casos, el identificador único es un colorante, en cuyo caso la unión puede comprender la intercalación del colorante en la molécula de analito (como la intercalación en ADN o ARN) o la unión a una sonda marcada con el colorante. En otros casos más, el identificador único puede ser un oligonucleótido de ácido nucleico, en cuyo caso, la unión a las secuencias de polinucleótidos puede comprender una reacción de ligación entre el oligonucleótido y las secuencias o la incorporación a través de la PCR. En otros casos, la reacción puede comprender la adición de un isótopo metálico, ya sea directamente al analito o mediante una sonda marcada con el isótopo. Generalmente, la asignación de identificadores únicos o no únicos, o códigos de barras moleculares en las reacciones de esta divulgación puede seguir los métodos y sistemas descritos, por ejemplo, por las Solicitudes de Patente de Estados Unidos. 20010053519, 20030152490, 20110160078 y la Patente de Estados Unidos US 6.582.908.
A menudo, el método comprende unir los códigos de barras de oligonucleótidos a los analitos de ácidos nucleicos mediante una reacción enzimática que incluye, pero no está limitada a, una reacción de ligación. Por ejemplo, la enzima ligasa puede unir covalentemente un código de barras de ADN a ADN fragmentado (por ejemplo, ADN de alto peso molecular). Tras la unión de los códigos de barras, las moléculas pueden someterse a una reacción de secuenciación.
Sin embargo, también pueden usarse otras reacciones. Por ejemplo, pueden usarse cebadores de oligonucleótidos que contienen secuencias de códigos de barras en reacciones de amplificación (por ejemplo, PCR, qPCR, PCR con transcriptasa inversa, PCR digital, etc.) de los analitos de la plantilla de ADN, produciendo de este modo analitos marcados. Después de la asignación de códigos de barras a secuencias de polinucleótidos libres de células individuales, puede secuenciarse el grupo de moléculas.
En algunos casos, la PCR puede usarse para la amplificación global de secuencias de polinucleótidos libres de células. Esto puede comprender el uso de secuencias adaptadoras que pueden ligarse primero a diferentes moléculas seguido por amplificación por PCR usando cebadores universales. La PCR para la secuenciación puede realizarse por cualquier medio, incluyendo, pero no limitado a, el uso de kits comerciales proporcionados por Nugen (WGA kit), Life Technologies, Affymetrix, Promega, Qiagen y similares. En otros casos, pueden amplificarse solo ciertas moléculas objetivo dentro de una población de moléculas de polinucleótidos libres de células. Pueden usarse cebadores específicos, junto con ligación del adaptador, para amplificar selectivamente ciertos objetivos para la secuenciación en sentido descendente.
Los identificadores únicos (por ejemplo, códigos de barras de oligonucleótidos, anticuerpos, sondas, etc.) pueden introducirse en secuencias de polinucleótidos libres de células de forma aleatoria o no aleatoria. En algunos casos, se introducen a una proporción esperada de identificadores únicos en micropocillos. Por ejemplo, los identificadores únicos pueden cargarse de tal manera que se cargan más de aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50.000, 100.000, 500.000, 1.000.000, 10.000.000, 50.000.000 o 1.000.000,00 identificadores únicos por muestra de genoma. En algunos casos, los identificadores únicos pueden cargarse de tal manera que se cargan menos de aproximadamente 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50.000, 100.000, 500.000, 1.000.000, 10.000.000, 50.000.000 o 1.000.000.000 de identificadores únicos por muestra de genoma. En algunos casos, el número medio de identificadores únicos cargados por genoma de muestra es menor que, o mayor que, aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50.000, 100.000, 500.000, 1.000.000, 10.000.000, 50.000.000 o 1.000.000.000 de identificadores únicos por muestra de genoma
En algunos casos, los identificadores únicos pueden ser de una variedad de longitudes de tal manera que cada código de barras es por lo menos aproximadamente de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000 pares de bases En otros casos, los códigos de barras pueden comprender menos de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000 pares de bases.
En algunos casos, los identificadores únicos pueden ser oligonucleótidos de secuencia predeterminados o aleatorios o semi-aleatorios. En otros casos, puede usarse una pluralidad de códigos de barras de tal manera que los códigos de barras no sean necesariamente únicos entre sí en la pluralidad. En este ejemplo, los códigos de barras pueden ligarse a moléculas individuales, de tal manera que la combinación del código de barras y la secuencia a la que se puede ligar crea una secuencia única que puede rastrearse individualmente. Como se describe en la presente, la detección de códigos de barras no únicos en combinación con datos de secuencia de las partes de comienzo (inicio) y final (parada) de las lecturas de secuencia puede permitir la asignación de una identidad única a una molécula particular. La longitud, o número de pares de bases, de una lectura de secuencia individual también puede usarse para asignar una identidad única a dicha molécula. Como se describe en la presente, los fragmentos de una cadena sencilla de ácido nucleico a los que se les ha asignado una identidad única, pueden, por tanto, permitir la identificación posterior de los fragmentos de la cadena parental. De esta manera los polinucleótidos en la muestra pueden ser marcados de manera única o sustancialmente única.
Los identificadores únicos pueden usarse para marcar una amplia variedad de analitos incluyendo, pro no limitados a, moléculas de ARN o ADN. Por ejemplo, los identificadores únicos (por ejemplo, oligonucleótidos de código de barras) pueden unirse a cadenas completas de ácidos nucleicos o a fragmentos de ácidos nucleicos (por ejemplo, ADN genómico fragmentado, ARN fragmentado). Los identificadores únicos (por ejemplo, oligonucleótidos) también pueden unirse a productos de expresión génica, ADN genómico, ADN mitocondrial, ARN, ARNm y similares.
En muchas aplicaciones, puede ser importante determinar si las secuencias de polinucleótidos libres de células individuales reciben cada una un identificador único diferente (por ejemplo, código de barras de oligonucleótidos). Si la población de identificadores únicos introducidos en los sistemas y métodos no es significativamente diversa, es posible que diferentes analitos se marcen con identificadores idénticos. Los sistemas y métodos divulgados en la presente pueden permitir la detección de secuencias de polinucleótidos libres de células marcadas con el mismo identificador. En algunos casos, pueden incluirse secuencias de referencia con la población de secuencias de polinucleótidos libres de células a ser analizadas. La secuencia de referencia puede ser, por ejemplo, un ácido nucleico con una secuencia conocida y una cantidad conocida. Si los identificadores únicos son códigos de barras de oligonucleótidos y los analitos son ácidos nucleicos, los analitos marcados pueden secuenciarse y cuantificarse posteriormente. Estos métodos pueden indicar si a uno o más fragmentos y/o analitos se les puede haber asignado un código de barras idéntico.
Un método divulgado en la presente puede comprender usar reactivos necesarios para la asignación de códigos de barras a los analitos. En el caso de reacciones de ligación, pueden cargarse reactivos que incluyen, pero no están limitados a, enzima ligasa, tampón, oligonucleótidos adaptadores, una pluralidad de códigos de barras de ADN identificadores únicos y similares en los sistemas y métodos. En el caso de enriquecimiento, pueden usarse reactivos que incluyen pero no están limitados a una pluralidad de cebadores de PCR, oligonucleótidos que contienen una secuencia de identificación única, o secuencia de código de barras, ADN polimerasa, DNTP y tampón y similares en la preparación para la secuenciación.
En general, el método y el sistema de esta divulgación pueden utilizar los métodos de la Patente de Estados Unidos 7.537.897 en el uso de códigos de barras moleculares para contar moléculas o analitos.
En una muestra que comprende ADN libre de células (ADNcf) de una pluralidad de genomas, hay cierta probabilidad de que más de un polinucleótido de diferentes genomas tenga las mismas posiciones de inicio y parada ("duplicados" o "cognados"). El número probable de duplicados que comienzan en cualquier posición es una función del número de equivalentes del genoma haploide en una muestra y la distribución de los tamaños de los fragmentos. Por ejemplo, el ADNcf tiene un pico de fragmentos de aproximadamente 160 nucleótidos, y la mayoría de los fragmentos en este pico varían de aproximadamente 140 nucleótidos a 180 nucleótidos. Por consiguiente, el ADNcf de un genoma de aproximadamente 3 billones de bases (por ejemplo, el genoma humano) puede estar compuesto de casi 20 millones (2x107) fragmentos de polinucleótidos. Una muestra de aproximadamente 30 ng de ADN puede contener aproximadamente 10.000 equivalentes de genoma humano haploide. (De manera similar, una muestra de aproximadamente 100 ng de ADN puede contener aproximadamente 30.000 equivalentes del genoma humano haploide). Una muestra que contiene aproximadamente 10.000 (104) equivalentes del genoma haploide de dicho ADN puede tener aproximadamente 200 billones (2x1011) de moléculas de polinucleótidos individuales. Se ha determinado empíricamente que en una muestra de aproximadamente 10.000 equivalentes del genoma haploide del ADN humano, hay aproximadamente 3 polinucleótidos duplicados comenzando en cualquier posición dada. Por tanto, tal colección puede contener una diversidad de aproximadamente 6x1010-8x1010 (aproximadamente 60 billones-80 billones, por ejemplo, aproximadamente 70 billones (7x1010)) moléculas de polinucleótidos secuenciadas diferencialmente.
La probabilidad de identificar correctamente las moléculas depende del número inicial de equivalentes del genoma, la distribución de la longitud de las moléculas secuenciadas, la uniformidad de la secuencia y el número de marcadores. Cuando el recuento de marcadores es igual a uno, es decir, equivalente a no tener marcadores únicos o no marcar. La tabla siguiente enumera la probabilidad de identificar correctamente una molécula como única asumiendo una distribución de tamaño libre de células típica como la anterior.
Figure imgf000022_0001
Figure imgf000023_0001
En este caso, tras secuenciar el ADN genómico, puede no ser posible determinar qué lecturas de secuencia se derivan de qué moléculas parentales. Este problema puede disminuirse marcando las moléculas parentales con un número suficiente de identificadores únicos (por ejemplo, el recuento de marcadores), de tal manera que existe la posibilidad de que dos moléculas duplicadas, es decir, moléculas que tienen las mismas posiciones de inicio y parada, lleven diferentes identificadores únicos por lo que esas lecturas de secuencia pueden rastrearse hasta las moléculas parentales particulares. Un enfoque para este problema es marcar de manera única cada una, o casi cada una, de las diferentes moléculas parentales en la muestra. Sin embargo, dependiendo del número de equivalentes de genes haploides y la distribución de los tamaños de los fragmentos en la muestra, esto puede requerir billones de identificadores únicos diferentes.
Este método puede ser engorroso y costoso. Una población de polinucleótidos en una muestra de ADN genómico fragmentado se puede marcar con n identificadores únicos diferentes, en donde n es por lo menos 2 y no más de 100.000*z, en donde z es una medida de la tendencia central (por ejemplo, media, mediana, moda) de un número esperado de moléculas duplicadas que tienen las mismas posiciones de inicio y parada. En ciertas realizaciones, n es por lo menos cualquiera de 2*z, 3*z, 4*z, 5*z, 6*z, 7*z, 8*z, 9*z, 10*z, 11*z, 12*z, 13*z, 14*z, 15*z, 16*z, 17*z, 18*z, 19*z, o 20*z (por ejemplo, límite inferior). En otras realizaciones, n no es mayor que 100.000*z, 10.000*z, 1000*z o 100*z (por ejemplo, límite superior). Por tanto, n puede variar entre cualquier combinación de estos límites inferior y superior. En ciertas realizaciones, n está entre 5*z y 15*z, entre 8*z y 12*z, o aproximadamente 10*z. Por ejemplo, un equivalente de genoma humano haploide tiene aproximadamente 3 picogramos de ADN. Una muestra de aproximadamente 1 microgramo de ADN contiene aproximadamente 300.000 equivalentes de genoma humano haploide. El número n puede estar entre 15 y 45, entre 24 y 36 o aproximadamente 30. Pueden lograrse mejoras en la secuenciación siempre que por lo menos algunos de los polinucleótidos duplicados o cognados lleven identificadores únicos, es decir, lleven marcadores diferentes. Sin embargo, en ciertas realizaciones, el número de marcadores usados se selecciona de tal manera que haya por lo menos un 95% de probabilidad de que todas las moléculas duplicadas que comienzan en cualquier posición lleven identificadores únicos. Por ejemplo, una muestra que comprende aproximadamente 10.000 equivalentes del genoma humano haploide del ADNcf puede etiquetarse con aproximadamente 36 identificadores únicos. Los identificadores únicos pueden comprender seis códigos de barras de ADN únicos. Unidos a ambos extremos de un polinucleótido, se producen 36 identificadores únicos posibles. Las muestras marcadas de este modo pueden ser aquellas con un intervalo de aproximadamente 10 ng a cualquiera de aproximadamente 100 ng, aproximadamente 1 gg, aproximadamente 10 gg de polinucleótidos fragmentados, por ejemplo, ADN genómico, por ejemplo, ADNcf.
Por consiguiente, esta divulgación también proporciona composiciones de polinucleótidos de ADNcf marcados. Un conjunto de polinucleótidos en la composición que mapea en una posición base mapeable a un genoma puede estar marcado de manera no única, es decir, el número de identificadores diferentes puede ser por lo menos 2 y menos que el número de polinucleótidos que mapean en la posición base mapeable. Una composición de entre aproximadamente 10 ng y aproximadamente 10 gg (por ejemplo, cualquiera de aproximadamente 10 ng-1 gg, aproximadamente 10 ng-100 ng, aproximadamente 100 ng-10 gg, aproximadamente 100 ng-1 gg, aproximadamente 1 gg-10 gg) puede soportar entre 2, 5, 10, 50 o 100 a cualquiera de 100, 1000, 10.000 o 100.000 identificadores diferentes. Por ejemplo, pueden usarse entre 5 y 100 identificadores diferentes para marcar los polinucleótidos en dicha composición.
III. Plataformas de Secuenciación de Ácidos Nucleicos
Después de la extracción y el aislamiento de los polinucleótidos libres de células de fluidos corporales, se pueden secuenciar las secuencias libres de células. A menudo, un método de secuenciación es la secuenciación clásica de Sanger. Los métodos de secuenciación pueden incluir, pero no están limitados a: secuenciación de alto rendimiento, pirosecuenciación, secuenciación por síntesis, secuenciación de moléculas individuales, secuenciación por nanoporos, secuenciación por semiconductores, secuenciación por ligación, secuenciación por hibridación, ARN Seq (Illumina), expresión génica digital (Helicos), secuenciación de próxima generación, secuenciación de moléculas individuales por síntesis (SMSS) (Helicos), secuenciación masivamente paralela, matriz de moléculas individuales clonal (Solexa), secuenciación aleatoria, secuenciación de Maxim-Gilbert, caminata de cebadores, secuenciación usando las plataformas PacBio, SOLiD, Ion Torrent o Nanopore y cualquier otro método de secuenciación conocido en la técnica.
En algunos casos, las reacciones de secuenciación de varios tipos, como se describe en la presente, pueden comprender una variedad de unidades de procesamiento de muestras. Las unidades de procesamiento de muestras pueden incluir, pero no están limitadas a múltiples carriles, múltiples canales, múltiples pocillos u otro medio para procesar múltiples conjuntos de muestras de manera sustancialmente simultánea. Además, la unidad de procesamiento de muestras puede incluir múltiples cámaras de muestras para permitir el procesamiento de múltiples ejecuciones simultáneamente.
En algunos ejemplos, pueden realizarse reacciones de secuenciación simultáneas usando secuenciación multiplex. En algunos casos, los polinucleótidos libres de células pueden secuenciarse con por lo menos 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100.000 reacciones de secuenciación. En otros casos, los polinucleótidos libres de células pueden secuenciarse con menos de 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100.000 reacciones de secuenciación. Las reacciones de secuenciación pueden realizarse secuencialmente o simultáneamente. El análisis de datos posterior puede realizarse en todas o parte de las reacciones de secuenciación. En algunos casos, el análisis de datos puede realizarse en por lo menos 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100.000 reacciones de secuenciación. En otros casos, el análisis de datos puede realizarse en menos de 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100.000 reacciones de secuenciación
En otros ejemplos, el número de reacciones de secuencia puede proporcionar cobertura para diferentes cantidades del genoma. En algunos casos, la cobertura de la secuencia del genoma puede ser por lo menos el 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95 %, 99%, 99,9% o 100%. En otros casos, la cobertura de secuencia del genoma puede ser menor del 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95 %, 99%, 99,9% o 100%.
En algunos ejemplos, la secuenciación puede realizarse en polinucleótidos libres de células que pueden comprender una variedad de tipos diferentes de ácidos nucleicos. Los ácidos nucleicos pueden ser polinucleótidos u oligonucleótidos. Los ácidos nucleicos incluyen, pero no están limitados a ADN o ARN, de cadena sencilla o cadena doble o un par ARN/ADNc.
IV. Estrategia de Análisis de Polinucleótidos
La Fig. 8. es un diagrama, 800, que muestra una estrategia para analizar polinucleótidos en una muestra de material genético inicial. En el paso 802, se proporciona una muestra que contiene material genético inicial. La muestra puede incluir ácido nucleico objetivo en baja abundancia. Por ejemplo, el ácido nucleico de un genoma normal o de tipo salvaje (por ejemplo, un genoma de la línea germinal) puede predominar en una muestra que también incluye no más del 20%, no más del 10%, no más del 5%, no más de 1 %, no más del 0,5% o no más del 0,1% de ácido nucleico de por lo menos otro genoma que contiene variación genética, por ejemplo, un genoma de cáncer o un genoma fetal, o un genoma de otra especie. La muestra puede incluir, por ejemplo, ácido nucleico libre de células o células que comprenden ácido nucleico. El material genético inicial puede constituir no más de 100 ng de ácido nucleico. Esto puede contribuir a un sobre-muestreo apropiado de los polinucleótidos originales mediante la secuenciación o el proceso de análisis genético. Alternativamente, la muestra se puede tapar o hacer cuello de botella artificialmente para reducir la cantidad de ácido nucleico a no más de 100 ng o puede enriquecerse selectivamente para analizar solo las secuencias de interés. La muestra puede modificarse para producir selectivamente lecturas de secuencia de moléculas que mapean en cada una o más localizaciones seleccionadas en una secuencia de referencia. Una muestra de 100 ng de ácido nucleico puede contener aproximadamente 30.000 equivalentes del genoma haploide humano, es decir, moléculas que juntas proporcionan una cobertura de un genoma humano de 30.000 veces.
En el paso 804, el material genético inicial se convierte en un conjunto de polinucleótidos parentales marcados. El marcado puede incluir unir marcadores secuenciados a moléculas en el material genético inicial. Los marcadores secuenciados pueden seleccionarse de tal manera que todos los polinucleótidos únicos que mapean en la misma localización en una secuencia de referencia tengan un marcador de identificación único. La conversión puede realizarse a alta eficiencia, por ejemplo, por lo menos al 50%.
En el paso 806, el conjunto de polinucleótidos parentales marcados se amplifica para producir un conjunto de polinucleótidos de la progenie amplificado. La amplificación puede ser, por ejemplo, de 1.000 veces.
En el paso 808, se muestrea el conjunto de polinucleótidos de la progenie amplificado para la secuenciación. La tasa de muestreo se elige de tal manera que las lecturas de la secuencia producidas tanto (1) cubran un número objetivo de moléculas únicas en el conjunto de polinucleótidos parentales marcados como (2) cubran moléculas únicas en el conjunto de polinucleótidos parentales marcados a unas veces de cobertura objetivo (por ejemplo, cobertura de 5 a 10 veces de los polinucleótidos parentales.
En el paso 810, el conjunto de lecturas de secuencia se colapsa para producir un conjunto de secuencias de consenso correspondientes a los polinucleótidos parentales marcados únicos. Las lecturas de secuencia pueden calificarse para su inclusión en el análisis. Por ejemplo, las lecturas de secuencia que no cumplen con las puntuaciones de control de calidad pueden eliminarse del grupo. Las lecturas de secuencia pueden clasificarse en familias que representan lecturas de las moléculas de progenie derivadas de una molécula parental única particular. Por ejemplo, una familia de polinucleótidos de la progenie amplificada puede constituir aquellas moléculas amplificadas derivadas de un único polinucleótido parental. Al comparar las secuencias de la progenie en una familia, puede deducirse una secuencia de consenso del polinucleótido parental original. Esto produce un conjunto de secuencias de consenso que representan polinucleótidos parentales únicos en el conjunto marcado.
En el paso 812, el conjunto de secuencias de consenso se analiza usando cualquiera de los métodos analíticos descritos en la presente. Por ejemplo, las secuencias de consenso que mapean en una localización de secuencia de referencia particular pueden analizarse para detectar casos de variación genética. Las secuencias de consenso que mapean secuencias de referencia particulares puede medirse y normalizarse frente a muestras de control. Las medidas del mapeo de moléculas en secuencias de referencia pueden compararse a través de un genoma para identificar áreas en el genoma en las que varía el número de copias, o se pierde heterocigosidad.
La Fig. 9 es un diagrama que presenta un método más genérico para extraer información de una señal representada por una colección de lecturas de secuencia. En este método, después de secuenciar los polinucleótidos de progenie amplificada, las lecturas de secuencia se agrupan en familias de moléculas amplificadas a partir de una molécula de identidad única (910). Esta agrupación puede ser un punto de partida para métodos de interpretar la información en la secuencia para determinar el contenido de los polinucleótidos parentales marcados con mayor exactitud, por ejemplo, menos ruido y/o distorsión.
El análisis de la colección de lecturas de secuencia permite hacer inferencias sobre la población de polinucleótidos parentales a partir de la cual se generaron las lecturas de secuencia. Tales inferencias pueden ser útiles ya que la secuenciación generalmente implica leer solo un subconjunto parcial de los polinucleótidos amplificados totales globales. Por lo tanto, no se puede estar seguro de que cada polinucleótido parental esté representado por al menos una secuencia leída en la colección de lecturas de secuencia.
Una de estas inferencias es el número de polinucleótidos parentales únicos en el grupo original. Dicha inferencia puede hacerse en base al número de familias únicas en las que se pueden agrupar las lecturas de secuencia y el número de lecturas de secuencia en cada familia. En este caso, una familia se refiere a una colección de lecturas de secuencias que se pueden rastrear hasta un polinucleótido parental original. La inferencia puede hacerse usando métodos estadísticos bien conocidos. Por ejemplo, si la agrupación produce muchas familias, cada una representada por una o unas pocas progenies, entonces se puede inferir que la población original incluía polinucleótidos parentales más únicos que no se secuenciaron. Por otro lado, si la agrupación produce solo unas pocas familias, cada familia representada por muchas progenies, se puede inferir que la mayoría de los polinucleótidos únicos en la población parental están representados por al menos un grupo de lecturas de secuencia en esa familia.
Otra de tales inferencias es la frecuencia de una base o secuencia de bases en un locus particular en un grupo original de polinucleótidos. Dicha inferencia puede hacerse en base al número de familias únicas en las que se pueden agrupar las lecturas de secuencia y el número de lecturas de secuencia en cada familia. Analizando las llamadas de base en un locus en una familia de lecturas de secuencia, se asigna una puntuación de confianza a cada llamada o secuencia de base particular. Luego, teniendo en consideración la puntuación de confianza para cada llamada de base en una pluralidad de familias, se determina la frecuencia de cada base o secuencia en el locus.
V. Detección de la Variación del Número de Copias
A. Detección de la Variación del Número de Copia Usando una Muestra Individual
La Fig. 1 es un diagrama, 100, que muestra una estrategia para la detección de la variación del número de copias en un único sujeto. Como se muestra en la presente, los métodos de detección de la variación del número de copias pueden implementarse de la siguiente manera. Después de la extracción y el aislamiento de los polinucleótidos libres de células en el paso 102, se puede secuenciar una única muestra individual mediante una plataforma de secuenciación de ácidos nucleicos conocida en la técnica en el paso 104. Este paso genera una pluralidad de lecturas de secuencias de fragmentos genómicos. En algunos casos, estas lecturas de secuencias pueden contener información de códigos de barras. En otros ejemplos, no se utilizan códigos de barras. Después de la secuenciación, a las lecturas se les asigna una puntuación de calidad. Una puntuación de calidad puede ser una representación de lecturas que indica si esas lecturas pueden ser útiles en un análisis posterior en base a un umbral. En algunos casos, algunas lecturas no tienen la calidad o la longitud suficientes para realizar el paso de mapeo siguiente. Las lecturas de secuenciación con una puntuación de calidad de por lo menos el 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden ignorarse de los datos. En otros casos, las lecturas de secuencia asignadas a una calidad con una puntuación menor del 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden ignorarse del conjunto de datos. En el paso 106, las lecturas de fragmentos genómicos que cumplen con un umbral de puntuación de calidad especificado se mapean en un genoma de referencia, o una secuencia plantilla que se sabe que no contiene variaciones en el número de copias. Después de la alineación del mapeo, a las lecturas de secuencia se les asigna una puntuación de mapeo. Una puntuación de mapeo puede ser una representación o lecturas mapeadas de nuevo a la secuencia de referencia que indica si cada posición es o no mapeable únicamente. En casos, las lecturas pueden ser secuencias no relacionadas con el análisis de la variación del número de copias. Por ejemplo, algunas lecturas de secuencia pueden originarse a partir de polinucleótidos contaminantes. Las lecturas de la secuenciación con una puntuación de mapeo de por lo menos el 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden ignorarse del conjunto de datos. En otros casos, las lecturas de secuenciación asignadas a una puntuación de mapeo menor del 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden ignorarse del conjunto de datos.
Después del filtrado de datos y el mapeo, la pluralidad de lecturas de secuencia genera una región cromosómica de cobertura. En el paso 108, estas regiones cromosómicas pueden dividirse en ventanas o recipientes de longitud variable. Una ventana o recipiente puede tener por lo menos de 5 kb, 10, kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb, o 1000 kb. Una ventana o recipiente también puede tener bases de hasta 5 kb, 10, kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb, o 1000 kb. Una ventana o recipiente también puede tener aproximadamente 5 kb, 10, kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb, o 1000 kb.
Para la normalización de la cobertura en el paso 110, cada ventana o recipiente se selecciona para contener aproximadamente el mismo número de bases mapeables. En algunos casos, cada ventana o recipiente en una región cromosómica puede contener el número exacto de bases mapeables. En otros casos, cada ventana o recipiente puede contener un número diferente de bases mapeables. Además, cada ventana o recipiente puede no superponerse con una ventana o recipiente adyacente. En otros casos, una ventana o recipiente puede superponerse con otra ventana o recipiente adyacente. En algunos casos, una ventana o recipiente puede superponerse por lo menos en 1 bp, 2, bp, 3 bp, 4 bp, 5, bp, 10 bp, 20 bp, 25 bp, 50 bp, 100 bp, 200 bp, 250 bp, 500 bp, o 1000 bp En otros casos, una ventana o recipiente puede superponerse hasta 1 bp, 2, bp, 3 bp, 4 bp, 5, bp, 10 bp, 20 bp, 25 bp, 50 bp, 100 bp, 200 bp, 250 bp, 500 bp, o 1000 bp. En algunos casos, una ventana o recipiente puede superponerse aproximadamente bp, 2, bp, 3 bp, 4 bp, 5, bp, 10 bp, 20 bp, 25 bp, 50 bp, 100 bp, 200 bp, 250 bp, 500 bp, o 1000 bp,
En algunos casos, cada una de las regiones ventana puede estar dimensionada de tal manera que contenga aproximadamente el mismo número de bases mapeables de manera única. La capacidad de mapeo de cada base que comprende una región ventana se determina y se usa para generar un archivo de capacidad de mapeo que contiene una representación de lecturas de las referencias que se mapean de nuevo en la referencia de cada archivo. El archivo de capacidad de mapeo contiene una fila por cada posición, que indica si cada posición es únicamente o no mapeable.
Además, las ventanas predefinidas, conocidas a lo largo del genoma por ser difíciles de secuenciar, o que contienen un sesgo de GC sustancialmente alto, pueden ignorarse del conjunto de datos. Por ejemplo, las regiones que se sabe que se encuentran cerca del centrómero de los cromosomas (es decir, el ADN centromérico) se sabe contienen secuencias altamente repetitivas que pueden producir resultados falsos positivos. Estas regiones pueden ignorarse. Otras regiones del genoma, como las regiones que contienen una concentración inusualmente alta de otras secuencias altamente repetitivas, como el ADN microsatélite, pueden filtrarse del conjunto de datos.
El número de ventanas analizadas también puede variar. En algunos casos, se analizan por lo menos 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, 5.000, 10.000, 20.000, 50.000 o 100.000 ventanas. En otros casos, el número de ventanas analizadas es de hasta 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, 5.000, 10.000, 20.000, 50.000 o 100.000 ventanas.
Para un genoma ejemplar derivado de secuencias de polinucleótidos libres de células, el siguiente paso comprende determinar la cobertura de lectura para cada región de la ventana. Esto puede realizarse usando lecturas o con códigos de barras o sin códigos de barras. En los casos sin códigos de barras, los pasos de mapeo anteriores proporcionarán cobertura de diferentes posiciones base. Se pueden contar las lecturas de secuencia que tienen suficientes puntuaciones de mapeo y calidad y se encuentran dentro de las ventanas de cromosomas que no están filtradas. Al número de lecturas de cobertura se les puede asignar una puntuación por cada posición mapeable. En los casos que implican códigos de barras, todas las secuencias con el mismo código de barras, propiedades físicas o combinación de las dos pueden colapsarse en una lectura, ya que todas se derivan de la molécula parental de la muestra. Este paso reduce los sesgos que pueden haberse introducido durante cualquiera de los pasos anteriores, tales como pasos que implican la amplificación. Por ejemplo, si una molécula se amplifica 10 veces pero otra se amplifica 1000 veces, cada molécula solo se representa una vez después del colapso, negando de este modo el efecto de una amplificación desigual. Solo las lecturas con códigos de barras únicos se pueden contar para cada posición mapeable e influir en la puntuación asignada.
Las secuencias de consenso pueden generarse a partir de familias de lecturas de secuencia por cualquier método conocido en la técnica. Tales métodos incluyen, por ejemplo, métodos lineales o no lineales de construcción de secuencias de consenso (tales como votación, promedio, estadística, detección de probabilidad máxima a posteriori o máxima, programación dinámica, bayesiano, Markov oculto o métodos de máquina de vectores de soporte, etc.) derivados de la teoría de la comunicación digital, teoría de la información o la bioinformática.
Después de que se ha determinado la cobertura de lectura de la secuencia, se aplica un algoritmo de modelado estocástico para convertir la cobertura de lectura de secuencia de ácido nucleico normalizada para cada región de ventana a los estados de número de copias discretas. En algunos casos, este algoritmo puede comprender uno o más de los siguientes: modelo de Markov oculto, programación dinámica, máquina de vectores de soporte, red bayesiana, decodificación de entramados, decodificación de Viterbi, maximización de expectativas, metodologías de filtrado de Kalman y redes neurales.
En el paso 112, los estados de número de copias discretas de cada región de ventana pueden utilizarse para identificar la variación del número de copias en las regiones cromosómicas. En algunos casos, todas las regiones de ventana adyacentes con el mismo número de copias se pueden fusionar en un segmento para informar de la presencia o ausencia del estado de variación del número de copias. En algunos casos, varias ventanas pueden filtrarse antes de fusionarse con otros segmentos.
En el paso 114, la variación del número de copias se puede informar como un gráfico, que indica varias posiciones en el genoma y un aumento o disminución correspondiente o el mantenimiento de la variación del número de copias en cada posición respectiva. Adicionalmente, la variación del número de copias puede usarse para informar de una puntuación porcentual que indica la cantidad de material de enfermedad (o ácidos nucleicos que tienen una variación del número de copias) que existe en la muestra de polinucleótidos libres de células.
En la Fig. 10 se muestra un método para determinar la variación del número de copias. En ese método, después de agrupar las lecturas de la secuencia en familias generadas a partir de un único polinucleótido parental (1010), las familias se cuantifican, por ejemplo, determinando el número de familias que mapean en cada una de una pluralidad de localizaciones de secuencias de referencia diferentes. Las CNV pueden determinarse directamente comparando una medida cuantitativa de familias en cada uno de una pluralidad de loci diferentes (1016b). Alternativamente, se puede inferir una medida cuantitativa de familias en la población de polinucleótidos parentales marcados usando tanto una medida cuantitativa de familias como una medida cuantitativa de miembros de la familia en cada familia, por ejemplo, como se ha tratado anteriormente. Entonces, la CNV puede determinarse comparando la medida inferida de cantidad en la pluralidad de loci. En otras realizaciones, se puede tomar un enfoque híbrido por medio del cual puede hacerse una inferencia similar de la cantidad original después de la normalización para el sesgo representativo durante el proceso de secuenciación, como el sesgo de GC, etc.
B. Detección de la Variación del Número de Copias Usando Muestras Emparejadas
La detección de la variación del número de copias con muestras emparejadas comparte muchos de los pasos y parámetros del enfoque de muestra única descrito en la presente. Sin embargo, como se muestra en 200 de la Fig. 2, la detección de la variación del número de copias usando muestras emparejadas requiere la comparación de la cobertura de secuencia con una muestra de control en lugar de compararla con la capacidad de mapeo prevista del genoma. Este enfoque puede ayudar en la normalización a través de las ventanas.
La Fig. 2 es un diagrama, 200 que muestra una estrategia para la detección de la variación del número de copias en un sujeto emparejado. Como se muestra en la presente, los métodos de detección de la variación del número de copias pueden implementarse de la siguiente manera. En el paso 204, puede secuenciarse una única muestra individual mediante una plataforma de secuenciación de ácidos nucleicos conocida en la técnica después de la extracción y el aislamiento de la muestra en el paso 202. Este paso genera una pluralidad de lecturas de secuencias de fragmentos genómicos. Adicionalmente, se toma una muestra de muestra o control de otro sujeto. En algunos casos, el sujeto de control puede ser un sujeto que no se sabe que tiene una enfermedad, mientras que el otro sujeto puede tener o estar en riesgo de contraer una enfermedad particular. En algunos casos, estas lecturas de secuencia pueden contener información de códigos de barras. En otros ejemplos, no se utilizan códigos de barras. Después de la secuenciación, se asigna una puntuación de calidad a las lecturas. En algunos casos, algunas lecturas no tienen la suficiente calidad o longitud para realizar el paso de mapeo posterior. Las lecturas de secuencia con una puntuación de calidad de por lo menos el 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden ignorarse del conjunto de datos. En otros casos, las lecturas de secuencia asignadas a una calidad con una puntuación menor que el 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden ignorarse del conjunto de datos. En el paso 206, las lecturas de fragmentos genómicos que cumplen con un umbral de puntuación de calidad especificado se mapean en un genoma de referencia, o una secuencia plantilla que se sabe que no contiene variaciones en el número de copias.
Después de la alineación de mapeo, a las lecturas de secuencia se les asigna una puntuación de mapeo. En casos, las lecturas pueden ser secuencias no relacionadas con el análisis de la variación del número de copias. Por ejemplo, algunas lecturas de secuencia pueden originarse a partir de polinucleótidos contaminantes. Las lecturas de secuencia con una puntuación de mapeo de por lo menos el 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden ignorarse del conjunto de datos. En otros casos, las lecturas de secuencia asignadas a mapeo con una puntuación menor del 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden ignorarse del conjunto de datos.
Después del filtrado de datos y el mapeo la pluralidad de lecturas de secuencia genera una región cromosómica de cobertura para cada uno de los sujetos de prueba y control. En el paso 208, estas regiones cromosómicas pueden dividirse en ventanas o recipientes longitud variable. Una ventana o recipiente puede tener por lo menos 5 kb, 10, kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb, o 1000 kb. Una ventana o recipiente también puede ser menor de 5 kb, 10, kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb, o 1000 kb.
Para la normalización de la cobertura en el paso 210, cada ventana o recipiente se selecciona para contener aproximadamente el mismo número de bases mapeables para cada uno de los sujetos de prueba y control. En algunos casos, cada ventana o recipiente en una región cromosómica puede contener el número exacto de bases mapeables. En otros casos, cada ventana o recipiente puede contener un número diferente de bases mapeables. Además, cada ventana o recipiente puede no superponerse con una ventana o recipiente adyacente. En otros casos, una ventana o recipiente puede superponerse con otra ventana o recipiente adyacente. En algunos casos, una ventana o recipiente puede superponerse por lo menos en 1 bp, 2 bp, 3 bp, 4 bp, 5 bp, 10 bp, 20 bp, 25 bp, 50 bp, 100 bp, 200 bp, 250 bp, 500 bp, o 1000 bp En otros casos, una ventana o recipiente puede superponerse en menos de 1 bp, 2 bp, 3 bp, 4 bp, 5 bp, 10 bp, 20 bp, 25 bp, 50 bp, 100 bp, 200 bp, 250 bp, 500 bp, o 1000 bp.
En algunos casos, cada una de las regiones ventana se dimensiona de tal manera que contenga aproximadamente el mismo número de bases únicamente mapeables para cada uno de los sujetos de prueba y control. La capacidad de mapeo de cada base que comprende una región ventana se determina y se usa para generar un archivo de capacidad de mapeo que contiene una representación de lecturas de las referencias que se mapean de nuevo a la referencia de cada archivo. El archivo de capacidad de mapeo contiene una fila por cada posición, que indica si cada posición es únicamente o no mapeable.
Adicionalmente, las ventanas predefinidas, conocidas en todo el genoma por ser difíciles de secuenciar, o que contienen un sesgo de GC sustancialmente alto, se filtran del conjunto de datos. Por ejemplo, se sabe que las regiones que se sabe que se encuentran cerca del centrómero de los cromosomas (es decir, el ADN centromérico) contienen secuencias altamente repetitivas que pueden producir resultados falsos positivos. Estas regiones pueden filtrarse. Otras regiones del genoma, como las regiones que contienen una concentración inusualmente alta de otras secuencias altamente repetitivas, como el ADN microsatélite, pueden filtrarse del conjunto de datos.
El número de ventanas analizadas también puede variar. En algunos casos, se analizan por lo menos 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, 5.000, 10.000, 20.000, 50.000 o 100.000 ventanas. En otros casos, se analizan menos de 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, 5.000, 10.000, 20.000, 50.000 o 100.000 ventanas.
Para un genoma ejemplar derivado de secuencias de polinucleótidos libres de células, el siguiente paso comprende determinar la cobertura de lectura para cada región de ventana para cada uno de los sujetos de prueba y control. Esto se puede realizar usando lecturas con códigos de barras o sin códigos de barras. En los casos sin códigos de barras, los pasos de mapeo anteriores proporcionarán cobertura de diferentes posiciones de base. Se pueden contar las lecturas de secuencia que tienen suficientes puntuaciones de mapeo y calidad y se encuentran dentro de las ventanas de cromosomas que no están filtradas. Al número de lecturas de cobertura puede asignársele una puntuación por cada posición mapeable. En los casos que implican códigos de barras, todas las secuencias con el mismo código de barras pueden colapsarse en una lectura, ya que todas se derivan de la molécula parental de la muestra. Este paso reduce los sesgos que pueden haberse introducido durante cualquiera de los pasos anteriores, como en pasos que implican la amplificación. Solo las lecturas con códigos de barras únicos pueden contarse para cada posición mapeable e influir en la puntuación asignada. Por esta razón, es importante que el paso de ligación del código de barras se realice de una manera optimizada para producir la cantidad más baja de sesgo.
Al determinar la cobertura de lectura de ácidos nucleicos para cada ventana, la cobertura de cada ventana puede normalizarse mediante la cobertura media de esa muestra. Usando dicho enfoque, puede ser deseable secuenciar tanto el sujeto de prueba como el control bajo condiciones similares. La cobertura de lectura para cada ventana puede expresarse luego como una relación sobre ventanas similares
Las relaciones de cobertura de lecturas de ácidos nucleicos para cada ventana del sujeto de prueba pueden determinarse dividiendo la cobertura de lectura de cada región ventana de la muestra de prueba con la cobertura de lectura de una región ventana correspondiente del control.
Una vez que se han determinado las relaciones de cobertura de las lecturas de secuencia, se aplica un algoritmo de modelado estocástico para convertir las relaciones normalizadas para cada región ventana en estados de números de copias discretos. En algunos casos, este algoritmo puede comprender un modelo oculto de Markov. En otros casos, el modelo estocástico puede comprender programación dinámica, máquina de vectores de soporte, modelado bayesiano, modelado probabilístico, decodificación de entramados, decodificación de Viterbi, maximización de esperanza, metodologías de filtrado de Kalman o redes neurales.
En el paso 212, los estados de números de copias discretas de cada región ventana se pueden utilizar para identificar la variación del número de copias en las regiones cromosómicas. En algunos casos, todas las regiones ventana adyacentes con el mismo número de copias se pueden fusionar en un segmento para informar de la presencia o ausencia del estado de variación del número de copias. En algunos casos, pueden filtrarse varias ventanas antes de fusionarse con otros segmentos.
En el paso 214, se puede informar de la variación del número de copias como un gráfico, que indica varias posiciones en el genoma y un aumento o disminución correspondiente o el mantenimiento de la variación del número de copias en cada posición respectiva. Adicionalmente, la variación en el número de copias puede usarse para informar de una puntuación porcentual que indica la cantidad de material de la enfermedad existente en la muestra de polinucleótidos libres de células.
VI. Detección de Mutaciones Raras
La detección de mutaciones raras comparte características similares a ambos enfoques de variación del número de copias. Sin embargo, como se muestra en la Fig. 3, 300, la detección de mutaciones raras usa la comparación de la cobertura de secuencia con una muestra de control o secuencia de referencia en lugar de compararla con la capacidad de mapeo relativa del genoma. Este enfoque puede ayudar en la normalización a través de ventanas.
Generalmente, la detección de mutaciones raras puede realizarse en regiones enriquecidas selectivamente del genoma o transcriptoma purificadas y aisladas en el paso 302. Como se describe en la presente, regiones específicas, que pueden incluir, pero no está limitado a, genes, oncogenes, genes supresores de tumores, promotores, elementos de secuencia reguladores, regiones no codificantes, ARNmi, ARNsn y similares pueden amplificarse selectivamente de una población total de polinucleótidos libres de células. Esto se puede realizar como se describe en la presente. En un ejemplo, puede usarse secuenciación multiplex, con o sin marcadores de código de barras para secuencias de polinucleótidos individuales. En otros ejemplos, la secuenciación puede realizarse usando cualquier plataforma de secuenciación de ácidos nucleicos conocida en la técnica. Este paso genera una pluralidad de lecturas de secuencias de fragmentos genómicos como en el paso 304. Además, se obtiene una secuencia de referencia de una muestra de control, tomada de otro sujeto. En algunos casos, el sujeto de control puede ser un sujeto que se sabe que no tiene aberraciones o enfermedades genéticas conocidas. En algunos casos, estas lecturas de secuencia pueden contener información de códigos de barras. En otros ejemplos, no se utilizan códigos de barras. Después de la secuenciación, a las lecturas se les asigna una puntuación de calidad. Una puntuación de calidad puede ser una representación de lecturas que indica si esas lecturas pueden ser útiles en un análisis posterior en base a un umbral. En algunos casos, algunas lecturas no tienen la calidad o la longitud suficientes para realizar el paso de mapeo posterior. Las lecturas de secuencia con una puntuación de calidad de por lo menos el 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden ser ignoradas del conjunto de datos. En otros casos, las lecturas de secuencia asignadas con una puntuación de calidad de por lo menos el 90%, 95%, 99%, 99,9%, 99,99% o 99,999% puede ser ignoradas del conjunto de datos. En el paso 306, las lecturas de fragmentos genómicos que cumplen con un umbral de puntuación de calidad especificado se mapean a un genoma de referencia, o una secuencia de referencia que se sabe que no contiene mutaciones raras. Después de la alineación del mapeo, a las lecturas de secuencia se les asigna una puntuación de mapeo. Una puntuación de mapeo puede ser una representación o lecturas mapeadas de nuevo a la secuencia de referencia indicando si cada posición es o no mapeable de manera única. En casos, las lecturas pueden ser secuencias no relacionadas con análisis de mutaciones raras. Por ejemplo, algunas lecturas de secuencia pueden originarse a partir de polinucleótidos contaminantes. Las lecturas de secuencia con una puntuación de mapeo de por lo menos el 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden ser ignoradas del conjunto de datos. En otros casos, las lecturas de secuencia asignadas a u mapeo puntuado con menos del 90%, 95%, 99%, 99,9%, 99,99% o 99,999% pueden ignorarse del conjunto de datos.
Para cada base mapeable, las bases que no cumplen con el umbral mínimo para la capacidad de mapeo, o bases de baja calidad, pueden reemplazarse por las bases correspondientes que se encuentran en la secuencia de referencia.
Después del filtrado de datos y el mapeo, se analizan bases de variantes encontradas entre las lecturas de secuencia obtenidas del sujeto y la secuencia de referencia.
Para un genoma ejemplar derivado de secuencias de polinucleótidos libres de células, el siguiente paso comprende determinar la cobertura de lectura para cada posición base mapeable. Esto se puede realizar usando o lecturas con códigos de barras o sin códigos de barras. En los casos sin códigos de barras, los pasos de mapeo anteriores proporcionarán cobertura de diferentes posiciones de bases. Se pueden contar las lecturas de secuencia que tengan puntuaciones suficientes de mapeo y calidad. Al número de lecturas de cobertura se le puede asignar una puntuación por cada posición mapeable. En los casos que implican códigos de barras, todas las secuencias con el mismo código de barras se pueden colapsar en una lectura de consenso, ya que todas se derivan de la molécula parenteral de muestra. La secuencia para cada base se alinea como la lectura de nucleótido más dominante para esa localización específica. Además, el número de moléculas únicas puede contarse en cada posición para derivar una cuantificación simultánea en cada posición. Este paso reduce los sesgos que pueden haberse introducido durante cualquiera de los pasos anteriores, como los pasos que implican amplificación. Solo las lecturas con códigos de barras únicos pueden contarse para cada posición mapeable e influir en la puntuación asignada.
Una vez que se puede determinar la cobertura de lectura y se identifican las bases de variante en relación con la secuencia de control en cada lectura, la frecuencia de las bases de variante puede calcularse como el número de lecturas que contienen la variante dividido por el número total de lecturas. Esto puede expresarse como una relación para cada posición mapeable a el genoma.
Para cada posición de base, las frecuencias de los cuatro nucleótidos, citosina, guanina, timina, adenina se analizan en comparación con la secuencia de referencia. Se aplica un algoritmo de modelado estocástico o estadístico para convertir las relaciones normalizadas para cada posición mapeable para reflejar los estados de frecuencia para cada variante de base. En algunos casos, este algoritmo puede comprender uno o más de los siguientes: modelo de Markov oculto, programación dinámica, máquina de vectores de soporte, modelado bayesiano o probabilístico, decodificación de entramado, decodificación de Viterbi, maximización de esperanza, metodologías de filtrado de Kalman y redes neurales.
En el paso 312, los estados de mutaciones raras discretos de cada posición de base se pueden utilizar para identificar una variante de base con una alta frecuencia de varianza en comparación con el valor de referencia de la secuencia de referencia. En algunos casos, el valor de referencia puede representar una frecuencia de por lo menos el 0,0001%, 0,001%, 0,01%, 0,1%, 1,0%, 2,0%, 3,0%, 4,0% 5,0%, 10% o 25%. En otros casos, el valor de referencia puede representar una frecuencia de por lo menos el 0,0001%, 0,001%, 0,01%, 0,1%, 1,0%, 2,0%, 3,0%, 40% 5,0%.
10%, o 25%. En algunos casos, todas las posiciones de bases adyacentes con la variante o la mutación de base pueden fusionarse en un segmento para informar de la presencia o ausencia de una mutación rara. En algunos casos, varias posiciones pueden filtrarse antes de fusionarse con otros segmentos.
Después del cálculo de las frecuencias de varianza para cada posición de base, la variante con la mayor desviación para una posición específica en la secuencia derivada del sujeto en comparación con la secuencia de referencia se identifica como una mutación rara. En algunos casos, una mutación rara puede ser una mutación de cáncer. En otros casos, una mutación rara podría estar relacionada con un estado de enfermedad.
Una mutación o variante rara puede comprender una aberración genética que incluye, pero no está limitados a, una sustitución de base única, o indeles pequeños, transversiones, translocaciones, inversión, deleciones, truncamientos o truncamientos de genes. En algunos casos, una mutación rara puede tener como máximo 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 o 20 nucleótidos de longitud. En otros casos, una mutación rara puede tener por lo menos 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 15 o 20 nucleótidos de longitud.
En el paso 314, la presencia o ausencia de una mutación puede reflejarse en forma gráfica, indicando varias posiciones en el genoma y un aumento o disminución correspondiente o el mantenimiento de una frecuencia de mutación en cada posición respectiva. Adicionalmente, pueden usarse mutaciones raras para informar de una puntuación porcentual que indica la cantidad de material de la enfermedad que existe en la muestra de polinucleótidos libres de células. Una puntuación de confianza puede acompañar a cada mutación detectada, dadas las estadísticas conocidas de las varianzas típicas en las posiciones informadas en las secuencias de referencia de no enfermedad. Las mutaciones también pueden clasificarse por orden de abundancia en el sujeto o clasificarse por importancia clínicamente prevenible.
La Fig. 11 muestra un método para inferir la frecuencia de una base o secuencia de bases en un locus particular en una población de polinucleótidos. Las lecturas de secuencia se agrupan en familias generadas a partir de un polinucleótido marcado original (1110). Para cada familia, se asigna una puntuación de confianza a una o más bases en el locus. La puntuación de confianza puede asignarse mediante cualquiera de una serie de métodos estadísticos conocidos asignados y puede basarse, por lo menos en parte, en la frecuencia con la que aparece una base entre las lecturas de secuencia que pertenecen a la familia (1112). Por ejemplo, la puntuación de confianza puede ser la frecuencia con la que aparece la base entre las lecturas de secuencia. Como otro ejemplo, para cada familia, se puede construir un modelo oculto de Markov, de tal manera que se pueda tomar una decisión de máxima probabilidad o máxima a posteriori en base a la frecuencia de ocurrencia de una base particular en una familia individual. Como parte de este modelo, también pueden generarse la probabilidad de error y la puntuación de confianza resultante para una decisión particular. Una frecuencia de la base en la población original puede asignarse luego en base a las puntuaciones de confianza entre las familias (1114).
VII. Aplicaciones
A. Detección Temprana de Cáncer
Pueden detectarse numerosos cánceres usando los métodos y sistemas descritos en la presente. Las células cancerosas, como la mayoría de las células, pueden caracterizarse por una tasa de rotación, en la que las células viejas mueren y se reemplazan por células más nuevas. Generalmente las células muertas, en contacto con la vasculatura en un sujeto dado, pueden liberar ADN o fragmentos de ADN en el torrente sanguíneo. Esto también es cierto para las células cancerosas durante varias etapas de la enfermedad. Las células cancerosas también pueden caracterizarse, dependiendo de la etapa de la enfermedad, por diversas aberraciones genéticas, como la variación del número de copias y mutaciones raras. Este fenómeno puede usarse para detectar la presencia o ausencia de cánceres en individuos usando los métodos y sistemas descritos en la presente.
Por ejemplo, puede extraerse sangre de sujetos con riesgo de cáncer y prepararse como se describe en la presente para generar una población de polinucleótidos libres de células. En un ejemplo, esto podría ser ADN libre de células. Los sistemas y métodos de la divulgación pueden emplearse para detectar mutaciones raras o variaciones en el número de copias que pueden existir en ciertos cánceres presentes. El método puede ayudar a detectar la presencia de células cancerosas en el cuerpo, a pesar de la ausencia de síntomas u otras características distintivas de la enfermedad.
Los tipos y la cantidad de cánceres que pueden detectarse pueden incluir, pero no están limitados a, cánceres de la sangre, cánceres del cerebro, cánceres de la piel, cánceres de la nariz, cánceres de la garganta, cánceres del hígado, cánceres de los huesos, linfomas, cánceres de páncreas, cánceres de la piel, cánceres del intestino, cánceres rectales, cánceres de tiroides, cánceres de vejiga, cánceres de riñón, cánceres de boca, cánceres de estómago, tumores en estado sólido, tumores heterogéneos, tumores homogéneos y similares.
En la detección temprana de cánceres, puede utilizarse para detectar cánceres cualquiera de los sistemas o métodos descritos en la presente, incluyendo la detección de mutaciones raras o la detección de la variación del número de copias. Estos sistemas y métodos pueden usarse para detectar cualquier número de aberraciones genéticas que puedan provocar o ser el resultado de cánceres. Estas pueden incluir, pero no están limitadas a, mutaciones, mutaciones raras, indeles, variaciones en el número de copias, transversiones, translocaciones, inversión, deleciones, aneuploidía, aneuploidía parcial, poliploidía, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones genéticas, fusiones cromosómicas, truncamientos genéticos, amplificación de genes, duplicaciones de genes, lesiones cromosómicas, lesiones de ADN, cambios anormales en las modificaciones químicas de los ácidos nucleicos, cambios anormales en los patrones epigenéticos, cambios anormales en la infección por metilación de los ácidos nucleicos y el cáncer.
Adicionalmente, los sistemas y métodos descritos en la presente también pueden usarse para ayudar a caracterizar ciertos tipos de cáncer. Los datos genéticos producidos a partir del sistema y los métodos de esta divulgación pueden permitir a los profesionales ayudar a caracterizar mejor una forma específica de cáncer. Muchas veces, los cánceres son heterogéneos tanto en composición como en estadificación. Los datos del perfil genético pueden permitir la caracterización de subtipos específicos de cáncer que pueden ser importantes en el diagnóstico o tratamiento de ese subtipo específico. Esta información también puede proporcionar a un sujeto o profesional pistas referentes al pronóstico de un tipo específico de cáncer.
B. Monitorización y Pronóstico del Cáncer
Los sistemas y métodos proporcionados en la presente pueden usarse para monitorizar cánceres ya conocidos u otras enfermedades en un sujeto particular. Esto puede permitir que un sujeto o profesional adapte las opciones de tratamiento de acuerdo con el progreso de la enfermedad. En este ejemplo, los sistemas y métodos descritos en la presente pueden usarse para construir perfiles genéticos de un sujeto particular del curso de la enfermedad. En algunos casos, los cánceres pueden progresar, volviéndose más agresivos y genéticamente inestables. En otros ejemplos, los cánceres pueden permanecer benignos, inactivos, latentes o en remisión. El sistema y los métodos de esta divulgación pueden ser útiles para determinar la progresión, la remisión o la recurrencia de la enfermedad.
Además, los sistemas y métodos descritos en la presente pueden ser útiles para determinar la eficacia de una opción de tratamiento particular. En un ejemplo, las opciones de tratamiento exitosas pueden realmente aumentar la cantidad de variación del número de copias o mutaciones raras detectadas en la sangre del sujeto si el tratamiento tiene éxito, ya que pueden morir más cánceres y desprenderse del ADN. En otros ejemplos, esto puede no ocurrir. En otro ejemplo, quizás ciertas opciones de tratamiento pueden estar correlacionadas con los perfiles genéticos de los cánceres a lo largo del tiempo. Esta correlación puede ser útil para seleccionar una terapia. Además, si se observa que un cáncer está en remisión después del tratamiento, los sistemas y métodos descritos en la presente pueden ser útiles para monitorizar la enfermedad residual o la recurrencia de la enfermedad.
Por ejemplo, las mutaciones que tienen lugar dentro de un intervalo de frecuencia que comienza en el nivel de umbral pueden determinarse a partir del ADN en una muestra de un sujeto, por ejemplo, un paciente. Las mutaciones pueden ser, por ejemplo, mutaciones relacionadas con el cáncer. La frecuencia puede variar de, por ejemplo, por lo menos del 0,1%, por lo menos del 1%, o por lo menos del 5% al 100%. La muestra puede ser, por ejemplo, ADN libre de células o una muestra de tumor. Se puede prescribir un curso de tratamiento en base a cualquiera o todas las mutaciones que tengan lugar dentro del intervalo de frecuencia, incluyendo, por ejemplo, sus frecuencias. Se puede tomar una muestra del sujeto en cualquier momento posterior. Se pueden determinar las mutaciones que tienen lugar dentro del intervalo original de frecuencia o un intervalo diferente de frecuencia. El curso del tratamiento puede ajustarse en base a las mediciones posteriores.
C. Detección Temprana y Monitorización de Otras Enfermedades o Estados de Enfermedades
Los métodos y sistemas descritos en la presente pueden no estar limitados a la detección de mutaciones raras y variaciones en el número de copias asociadas solo con los cánceres. Varias otras enfermedades e infecciones pueden resultar en otros tipos de afecciones que pueden ser adecuadas para la detección y la monitorización tempranos. Por ejemplo, en ciertos casos, los trastornos genéticos o las enfermedades infecciosas pueden provocar cierto mosaicismo genético dentro de un sujeto. Este mosaicismo genético puede provocar variación en el número de copias y mutaciones raras que podrían ser observadas. En otro ejemplo, el sistema y los métodos de la divulgación también pueden usarse para monitorizar los genomas de las células inmunes dentro del cuerpo. Las células inmunes, como las células B, pueden experimentar una expansión clonal rápida ante la presencia de ciertas enfermedades. Las expansiones clonales pueden monitorizarse usando la detección de variación del número de copias y pueden monitorizarse ciertos estados inmunes. En este ejemplo, el análisis de la variación del número de copias puede realizarse a lo largo del tiempo para producir un perfil de cómo puede estar progresando una enfermedad particular.
Además, los sistemas y métodos de esta divulgación también pueden usarse para monitorizar las mismas infecciones sistémicas, como las que pueden ser provocadas por un patógeno como una bacteria o virus. La variación en el número de copias o incluso la detección de mutaciones raras pueden usarse para determinar cómo está cambiando una población de patógenos durante el curso de la infección. Esto puede ser particularmente importante durante las infecciones crónicas, como las infecciones por VIH/SIDA o hepatitis, en las que los virus pueden cambiar el estado del ciclo de vida y/o mutarse a formas más virulentas durante el curso de la infección.
Otro ejemplo más para el cual pueden usarse el sistema y los métodos de esta divulgación es la monitorización de sujetos de trasplante. En general, el tejido trasplantado sufre un cierto grado de rechazo por parte del cuerpo tras el trasplante. Los métodos de esta divulgación pueden usarse para determinar o realizar perfiles de las actividades de rechazo del cuerpo del huésped, ya que las células inmunes intentan destruir el tejido trasplantado. Esto puede ser útil para monitorizar el estado del tejido trasplantado, así como para alterar el curso del tratamiento o la prevención del rechazo.
Además, los métodos de la divulgación pueden usarse para caracterizar la heterogeneidad de una condición anormal en un sujeto, el método comprendiendo generar un perfil genético de polinucleótidos extracelulares en el sujeto, en donde el perfil genético comprende una pluralidad de datos resultantes de los análisis de variación del número de copias y mutaciones raras. En algunos casos, incluyendo pero no limitados a cáncer, una enfermedad puede ser heterogénea. Las células de la enfermedad pueden no ser idénticas. En el ejemplo del cáncer, se sabe que algunos tumores comprenden diferentes tipos de células tumorales, algunas células en diferentes etapas del cáncer. En otros ejemplos, la heterogeneidad puede comprender múltiples focos de enfermedad. De nuevo, en el ejemplo del cáncer, puede haber múltiples focos tumorales, quizás donde uno o más focos son el resultado de metástasis que se han diseminado desde un sitio primario.
Los métodos de esta divulgación pueden usarse para generar o realizar perfiles, huellas o conjuntos de datos que es una suma de información genética derivada de diferentes células en una enfermedad heterogénea. Este conjunto de datos puede comprender los análisis de variación del número de copias y de mutaciones raras solo o en combinación.
D. Detección Temprana y Monitorización de otras Enfermedades o Estados de Enfermedades de Origen Fetal Además, los sistemas y métodos de la divulgación pueden usarse para diagnosticar, pronosticar, monitorizar u observar cánceres u otras enfermedades de origen fetal. Es decir, estas metodologías pueden emplearse en una paciente embarazada para diagnosticar, pronosticar, monitorizar u observar cánceres u otras enfermedades en un sujeto no nato cuyo ADN y otros polinucleótidos pueden co-circular con moléculas maternas.
VIH. Terminología
La terminología usada en la presente tiene el propósito de describir realizaciones particulares solamente y no se pretende que limite los sistemas y métodos de esta divulgación. Como se usa en la presente, las formas singulares "un", "una" y "el" se pretende que incluyan también las formas en plural, a menos que el contexto indique claramente lo contrario. Además, en la medida en que los términos "incluyendo", "incluye", "teniendo", "tiene", "con", o variantes de los mismos se usan en la descripción detallada y/o las reivindicaciones, se pretende que tales términos incluyan de manera similar al término " comprendiendo".
Varios aspectos de los sistemas y métodos de esta divulgación se han descrito anteriormente con referencia a aplicaciones ejemplares para ilustración. Debe entenderse que se establecen numerosos detalles, relaciones y métodos específicos para proporcionar una comprensión completa de los sistemas y métodos. Sin embargo, un experto en la técnica relevante reconocerá fácilmente que se pueden poner en práctica sistemas y métodos sin uno o más de los detalles específicos o con otros métodos. Esta divulgación no está limitada por el orden ilustrado de actos o eventos, ya que algunos actos pueden tener lugar en órdenes diferentes y/o concurrentemente con otros actos o eventos. Además, no se requieren todos los actos o eventos ilustrados para implementar una metodología de acuerdo con esta divulgación.
Los intervalos pueden expresarse en este documento a partir de "aproximadamente" un valor particular, y/o a "aproximadamente" otro valor particular. Cuando se expresa tal intervalo, otra realización incluye desde un valor particular y/o al otro valor particular. De manera similar, cuando los valores se expresan como aproximaciones, mediante el uso del antecedente "aproximadamente", se entenderá que el valor particular forma otra realización. Se entenderá además que los puntos finales de cada uno de los intervalos son significativos tanto en relación con el otro punto final, como independientemente del otro punto final. El término "aproximadamente", como se usa en la presente, se refiere a un intervalo que es el 15% más o menos de un valor numérico expresado en el contexto del uso particular. Por ejemplo, alrededor de 10 incluiría un rango de 8,5 a 11,5.
Sistemas Informáticos
Los métodos de la presente divulgación pueden implementarse usando, o con la ayuda de, sistemas informáticos. La FIG. 15 muestra un sistema informático 1501 que está programado o configurado de otra manera para implementar los métodos de la presente divulgación. El sistema informático 1501 puede regular varios aspectos de preparación, secuenciación y/o análisis de muestras. En algunos ejemplos, el sistema informático 1501 está configurado para realizar la preparación de las muestras y el análisis de las muestras, incluyendo la secuenciación de los ácidos nucleicos.
El sistema informático 1501 incluye una unidad central de procesamiento (CPU, también "procesador" y "procesador informático" en la presente) 1505, que puede ser un procesador de un solo núcleo o de múltiples núcleos, o una pluralidad de procesadores para el procesamiento en paralelo. El sistema informático 1501 también incluye memoria o localización de memoria 1510 (por ejemplo, memoria de acceso aleatorio, memoria de solo lectura, memoria flash), unidad de almacenamiento electrónico 1515 (por ejemplo, disco duro), interfaz de comunicación 1520 (por ejemplo, adaptador de red) para comunicarse con uno o más de otros sistemas, y dispositivos periféricos 1525, como caché, otra memoria, almacenamiento de datos y/o adaptadores de pantalla electrónicos. La memoria 1510, la unidad de almacenamiento 1515, la interfaz 1520 y los dispositivos periféricos 1525 están en comunicación con la CPU 1505 a través de un bus de comunicación (líneas sólidas), como una placa base. La unidad de almacenamiento 1515 puede ser una unidad de almacenamiento de datos (o repositorio de datos) para almacenar datos. El sistema informático 1501 puede acoplarse operativamente a una red informática ("red") 1530 con la ayuda de la interfaz de comunicación 1520. La red 1530 puede ser Internet, una internet y/o extranet, o una intranet y/o extranet que está en comunicación con Internet. La red 1530 en algunos casos es una red de telecomunicaciones y/o datos. La red 1530 puede incluir uno o más servidores informáticos, que pueden habilitar la computación distribuida, como la computación en la nube. La red 1530, en algunos casos con la ayuda del sistema informático 1501, puede implementar una red peer-to-peer, lo que puede permitir que los dispositivos acoplados al sistema informático 1501 se comporten como un cliente o un servidor.
La CPU 1505 puede ejecutar una secuencia de instrucciones legibles por máquina, que pueden incorporarse en un programa o software. Las instrucciones pueden almacenarse en una localización de memoria, como la memoria 1510. Los ejemplos de operaciones realizadas por la CPU 1505 pueden incluir búsqueda, decodificación, ejecución y reescritura.
La unidad de almacenamiento 1515 puede almacenar archivos, como controladores, bibliotecas y programas guardados. La unidad de almacenamiento 1515 puede almacenar programas generados por usuarios y sesiones grabadas, así como también salidas asociadas con los programas. La unidad de almacenamiento 1515 puede almacenar datos de usuario, por ejemplo, preferencias de usuario y programas de usuario. El sistema informático 1501 en algunos casos puede incluir una o más unidades de almacenamiento de datos adicionales que son externas al sistema informático 1501, como las que se encuentran en un servidor remoto que está en comunicación con el sistema informático 1501 a través de una intranet o Internet.
El sistema informático 1501 puede comunicarse con uno o más sistemas informáticos remotos a través de la red 1530. Por ejemplo, el sistema informático 1501 puede comunicarse con un sistema informático remoto de un usuario (por ejemplo, un operador). Los ejemplos de sistemas informáticos remotos incluyen ordenadores personales (por ejemplo, ordenadores personales portátiles), pizarras o tabletas (por ejemplo, iPad de Apple®, Samsung® Galaxy Tab), teléfonos, teléfonos inteligentes (por ejemplo, iPhone de Apple®, dispositivo con Android, Blackberry®), o asistentes digitales personales. El usuario puede acceder al sistema informático 1501 a través de la red 1530.
Los métodos como se describen en la presente pueden implementarse a través del código ejecutable de la máquina (por ejemplo, procesador informático) almacenado en una localización de almacenamiento electrónico del sistema informático 1501, como por ejemplo, en la memoria 1510 o en la unidad de almacenamiento electrónico 1515. El código ejecutable por máquina o legible por máquina puede proporcionarse en forma de software. Durante el uso, el código puede ser ejecutado por el procesador 1505. En algunos casos, el código puede recuperarse de la unidad de almacenamiento 1515 y almacenarse en la memoria 1510 para que el procesador 1505 pueda acceder fácilmente. En algunas situaciones, la unidad de almacenamiento electrónico 1515 puede ser excluido, y las instrucciones ejecutables por máquina se almacenan en la memoria 1510.
El código puede pre-compilarse y configurarse para su uso con una máquina que tenga un procesador adaptado para ejecutar el código o puede compilarse durante el tiempo de ejecución. El código puede suministrarse en un lenguaje de programación que se puede seleccionar para permitir que el código se ejecute de manera pre­ compilada o compilada.
Los aspectos de los sistemas y métodos proporcionados en la presente, como el sistema informático 1501, pueden incorporarse en la programación. Varios aspectos de la tecnología pueden considerarse como "productos" o "artículos de fabricación", típicamente en forma de código ejecutable en máquina (o procesador) y/o datos asociados que se transmiten o incorporan en un tipo de medio legible por máquina. El código ejecutable por máquina puede almacenarse en una unidad de almacenamiento electrónico, como una memoria (por ejemplo, memoria de solo lectura, memoria de acceso aleatorio, memoria flash) o un disco duro. Los medios de tipo "almacenamiento" pueden incluir cualquiera o toda la memoria tangible de los ordenadores, procesadores o similares, o módulos asociados de los mismos, como varias memorias de semiconductores, unidades de cinta, unidades de disco y similares, que pueden proporcionar almacenamiento no transitorio en cualquier momento para la programación del software. En ocasiones, todo o parte del software puede comunicarse a través de Internet o varias otras redes de telecomunicaciones. Tales comunicaciones, por ejemplo, pueden permitir la carga del software desde un ordenador o procesador a otro, por ejemplo, desde un servidor de gestión u ordenador host a la plataforma informática de un servidor de aplicaciones. Por tanto, otro tipo de medios que pueden llevar los elementos del software incluyen ondas ópticas, eléctricas y electromagnéticas, como las que se usan en las interfaces físicas entre dispositivos locales, a través de redes fijas por cable y ópticas y a través de varios enlaces aéreos. Los elementos físicos que transportan tales ondas, como enlaces cableados o inalámbricos, enlaces ópticos o similares, también pueden considerarse como medios que llevan el software. Tal como se usa en la presente, a menos que esté restringido a medios de "almacenamiento" tangibles, no transitorios, los términos como "medio legible" por ordenador o máquina se refieren a cualquier medio que participe en la provisión de instrucciones a un procesador para su ejecución.
Por lo tanto, un medio legible por máquina, como un código ejecutable por ordenador, puede tomar muchas formas, incluyendo, pero no limitadas a, un medio de almacenamiento tangible, un medio de onda portadora o un medio de transmisión física. Los medios de almacenamiento no volátiles incluyen, por ejemplo, discos ópticos o magnéticos, como cualquiera de los dispositivos de almacenamiento en cualquier ordenador o similar, como los que se pueden usar para implementar bases de datos, etc. que se muestran en los dibujos. Los medios de almacenamiento volátiles incluyen memoria dinámica, como la memoria principal de dicha plataforma informática. Los medios de transmisión tangibles incluyen cables coaxiales; cable de cobre y fibra óptica, incluyendo los cables que forman un bus dentro de un sistema informático. Los medios de transmisión de ondas portadoras pueden tomar la forma de señales eléctricas o electromagnéticas, u ondas acústicas o de luz, como las generadas durante las comunicaciones de datos por radio frecuencia (RF) e infrarrojos (IR). Las formas comunes de medios legibles por ordenador incluyen, por ejemplo, un disquete, un disco flexible, un disco duro, una cinta magnética, cualquier otro medio magnético, un CD-ROM, DVD o DVD-ROM, cualquier otro medio óptico, cinta de papel de tarjetas perforadas, cualquier otro medio de almacenamiento físico con patrones de orificios, una memoria RAM, una ROM, una PROM y una EPROM, una FLASH-EPROM, cualquier otro chip o cartucho de memoria, una onda portadora que transporte datos o instrucciones, cables o enlaces que transporten onda portadora, o cualquier otro medio desde el cual un ordenador pueda leer el código y/o los datos de programación. Muchas de estas formas de medios legibles por ordenador pueden estar implicadas en llevar una o más secuencias de una o más instrucciones a un procesador para su ejecución.
El sistema informático 1501 puede incluir o estar en comunicación con una pantalla electrónica que comprende una interfaz de usuario (UI) para proporcionar, por ejemplo, uno o más resultados de análisis de muestras. Los ejemplos de UI incluyen, sin limitación, una interfaz gráfica de usuario (GUI) y una interfaz de usuario basada en web.
EJEMPLOS
Ejemplo 1 - Pronóstico y Tratamiento del Cáncer de Próstata
Se toma una muestra de sangre de un sujeto con cáncer de próstata. Anteriormente, un oncólogo determina que el sujeto tiene cáncer de próstata en estadio II y recomienda un tratamiento. El ADN libre de células se extrae, se aísla, se secuencia y se analiza cada 6 meses después del diagnóstico inicial.
Se extrae ADN libre de células y se aísla de la sangre mediante el protocolo del kit Qiagen Qubit. Se añade un ADN portador para aumentar los rendimientos. El ADN se amplifica mediante PCR y cebadores universales. Se secuencian 10 ng de ADN usando un enfoque de secuenciación masivamente paralelo con un secuenciador personal Illumina MiSeq. El 90% del genoma del sujeto se cubre mediante la secuenciación de ADN libre de células.
Los datos de secuencia se ensamblan y analizan para determinar la variación del número de copias. Las lecturas de secuencia se mapean y se comparan con un individuo sano (control). En base al número de lecturas de secuencia, las regiones cromosómicas se dividen en regiones no superpuestas de 50 kb. Las lecturas de secuencia se comparan entre sí y se determina una proporción para cada posición mapeable.
Se aplica un modelo oculto de Markov para convertir los números de copias en estados discretos para cada ventana.
Se generan informes, mapeando las posiciones del genoma y la variación del número de copias que se muestran la Fig. 4A (para un individuo sano) y en la Fig. 4B para el sujeto con cáncer.
Estos informes, en comparación con otros perfiles de sujetos con resultados conocidos, indican que este cáncer particular es agresivo y resistente al tratamiento. La carga tumoral libre de células es del 21%. El sujeto es monitorizado durante 18 meses. En el mes 18, el perfil de variación del número de copias comienza a aumentar dramáticamente, desde la carga tumoral libre de células del 21% al 30%. Se hace una comparación con los perfiles genéticos de otros sujetos de próstata. Se determina que este aumento en la variación del número de copias indica que el cáncer de próstata está avanzando de la etapa II a la etapa III. El régimen de tratamiento original según lo prescrito ya no trata el cáncer. Se prescribe un nuevo tratamiento.
Además, estos informes se envían y se accede a ellos de forma electrónica a través de Internet. El análisis de los datos de secuencia se realiza en un sitio diferente a la localización del sujeto. El informe se genera y se transmite a la localización del sujeto. A través de una computadora con acceso a Internet, el sujeto accede a los informes que reflejan su carga tumoral (Fig. 4C).
Ejemplo 2 - Remisión y Recurrencia del Cáncer de Próstata.
Se toma una muestra de sangre de un superviviente al cáncer de próstata. El sujeto había sido sometido anteriormente a numerosas rondas de quimioterapia y radiación. El sujeto en el momento de la prueba no presentó síntomas o problemas de salud relacionados con el cáncer. Las exploraciones y los análisis estándar revelan que el sujeto no tiene cáncer.
Se extrae ADN libre de células y se aísla de la sangre usando el protocolo del kit Qiagen TruSeq. Se añade un ADN portador para aumentar los rendimientos. El ADN se amplifica usando PCR y cebadores universales. Se secuencian 10 ng de ADN usando un enfoque de secuenciación masivamente paralelo con un secuenciador personal Illumina MiSeq. Se añaden 12mer de códigos de barras a moléculas individuales usando un método de ligación.
Los datos de secuencias se ensamblan y analizan para determinar la variación del número de copias. Las lecturas de secuencia se mapean y se comparan con un individuo sano (control). En base al número de lecturas de secuencia, las regiones cromosómicas se dividen en regiones no superpuestas de 40 kb. Las lecturas de secuencia se comparan entre sí y se determina una proporción para cada posición mapeable.
Las secuencias con código de barras no únicos se colapsan en una única lectura para ayudar a normalizar el sesgo de la amplificación.
Se aplica un modelo oculto de Markov para convertir los números de copias en estados discretos para cada ventana.
Se generan informes, mapeando las posiciones del genoma y la variación del número de copias que se muestran en la Fig. 5A, para un sujeto con cáncer en remisión y en la Fig. 5B para un sujeto con cáncer en recurrencia.
Este informe en comparación con otros perfiles de sujetos con resultados conocidos indica que, en el mes 18, se detecta un análisis de mutación rara para la variación del número de copias con una carga tumoral libre de células del 5%. Un oncólogo prescribe tratamiento de nuevo.
Ejemplo 3 - Cáncer de Tiroides y Tratamiento
Se sabe que un sujeto tiene cáncer de tiroides en estadio IV y se somete a un tratamiento estándar, incluyendo radioterapia con 1-131. Las tomografías computarizadas no son concluyentes en cuanto a si la radioterapia está destruyendo las masas cancerosas. Se extrae sangre antes y después de la última sesión de radiación.
Se extrae ADN libre de células y se aísla de la sangre mediante el protocolo del kit Qiagen Qubit. Se añade una muestra de ADN a granel no específico a las reacciones de preparación de la muestra para aumentar los rendimientos.
Se sabe que el gen BRAF puede estar mutado en la posición del aminoácido 600 en este cáncer de tiroides. A partir de la población de ADN libre de células, el ADN de BRAF se amplifica selectivamente usando cebadores específicos para el gen. Se añaden códigos de barras de 20 mer se agregan a la molécula parental como control para contar las lecturas.
Se secuencian 10 ng de ADN usando un enfoque de secuenciación masivamente paralelo con un secuenciador personal Illumina MiSeq.
Los datos de secuencia se ensamblan y analizan para detectar la variación del número de copias. Las lecturas de secuencia se mapean y se comparan con un individuo sano (control). En base al número de lecturas de secuencia, según se determina contando las secuencias de códigos de barras, las regiones cromosómicas se dividen en regiones no superpuestas de 50 kb. Las lecturas de secuencia se comparan entre sí y se determina una proporción para cada posición mapeable.
Se aplica un modelo oculto de Markov para convertir los números de copias en estados discretos para cada ventana.
Se genera un informe, mapeando las posiciones del genoma y la variación del número de copias.
Se comparan los informes generados antes y después del tratamiento. El porcentaje de carga de células tumorales aumenta del 30% al 60% después de la sesión de radiación. Se determina que el aumento en la carga tumoral es un aumento en la necrosis del tejido canceroso frente al tejido normal como resultado del tratamiento. Los oncólogos recomiendan que el sujeto continúe el tratamiento prescrito.
Ejemplo 4 - Sensibilidad de Detección de Mutaciones Raras
Para determinar los intervalos de detección de mutaciones raras presentes en una población de ADN, se realizan experimentos de mezcla. Las secuencias de ADN, algunas que contienen copias de tipo salvaje de los genes TP53, HRAS y MET y otras que contienen copias con mutaciones raras en los mismos genes, se mezclan entre sí a distintas proporciones. Las mezclas de ADN se preparan de tal manera que las proporciones o porcentajes de ADN mutante a ADN de tipo salvaje varía del 100% al 0,01%.
Se secuencian 10 ng de ADN para cada experimento de mezcla usando un enfoque de secuenciación masivamente paralelo con un secuenciador personal Illumina MiSeq.
Los datos de secuencia se ensamblan y analizan para detectar mutaciones raras. Las lecturas de secuencia se mapean y se comparan con una secuencia de referencia (control). En base al número de lecturas de secuencia, se determina la frecuencia de variación para cada posición mapeable.
Se aplica un modelo oculto de Markov para convertir la frecuencia de varianza para cada posición mapeable a estados discretos para la posición de base.
Se genera un informe, mapeando las posiciones de base del genoma y el porcentaje de detección de la mutación rara sobre el valor de referencia, según se determina por la secuencia de referencia (Fig. 6A).
Los resultados de varios experimentos de mezcla que varían del 0,1% al 100% se representan en un gráfico a escala logarítmica, con un porcentaje medido de ADN con una mutación rara representada como una función del porcentaje real de ADN con una mutación rara (Fig. 6B). Los tres genes, TP53, HRAS y MET están representados. Se encuentra una fuerte correlación lineal entre las poblaciones de mutaciones raras medidas y esperadas. Adicionalmente, con estos experimentos se encuentra un umbral de sensibilidad más bajo de aproximadamente el 0,1% del ADN con una mutación rara en una población de ADN no mutado (Fig. 6B).
Ejemplo 5 - Detección de Mutaciones Raras en un Sujeto con Cáncer de Próstata
Se cree que un sujeto tiene cáncer de próstata en etapa temprana. Otras pruebas clínicas proporcionan resultados no concluyentes. Se extrae sangre del sujeto y se extrae ADN libre de células, se aísla, se prepara y se secuencia.
Se seleccionó un panel de varios oncogenes y genes supresores de tumores para la amplificación selectiva usando un kit de PCR TaqMan © (Invitrogen) usando cebadores específicos de los genes. Las regiones de ADN amplificadas incluyen el ADN que contiene los genes PIK3CA y TP53.
Se secuencian 10 ng de ADN usando un enfoque de secuenciación masivamente paralelo con un secuenciador personal Illumina MiSeq.
Los datos de secuencia se ensamblan y analizan para detectar mutaciones raras. Las lecturas de secuencia se mapean y se comparan con una secuencia de referencia (control). En base al número de lecturas de secuencia, se determinó la frecuencia de varianza para cada posición mapeable.
Se aplica un modelo oculto de Markov para convertir la frecuencia de varianza para cada posición mapeable a estados discretos para cada posición base.
Se genera un informe que mapeando las posiciones de las bases genómicas y el porcentaje de detección de la mutación rara sobre el valor de referencia, según se determina por la secuencia de referencia (La figura 7A). Se encuentran mutaciones raras con una incidencia del 5% en dos genes, PIK3CA y TP53, respectivamente, indicando que el sujeto tiene un cáncer en etapa temprana. Se inicia el tratamiento.
Además, estos informes se envían y se accede a ellos electrónicamente a través de Internet. El análisis de los datos de secuencia se realiza en un sitio diferente a la localización del sujeto. El informe se genera y se transmite a la localización del sujeto. A través de un ordenador con acceso a Internet, el sujeto accede a los informes que reflejan su carga tumoral (Fig. 7B).
Ejemplo 6 - Detección de Mutaciones Raras en Sujetos con Cáncer Colorrectal
Se cree que un sujeto tiene cáncer colorrectal en etapa intermedia. Otras pruebas clínicas proporcionan resultados no concluyentes. Se extrae sangre del sujeto y se extrae ADN libre de células.
Se usan 10 ng del material genético libre de células que se extrae de un solo tubo de plasma. El material genético inicial se convierte en un conjunto de polinucleótidos parentales marcados. El marcado incluía unir los marcadores requeridos para la secuenciación, así como identificadores no únicos para rastrear las moléculas de la progenie hasta los ácidos nucleicos parentales. La conversión se realiza a través de una reacción de ligación optimizada como se ha descrito anteriormente y el rendimiento de la conversión se confirma observando el perfil de tamaño de las moléculas después de la ligación. El rendimiento de la conversión se mide como el porcentaje de moléculas iniciales de partida que tienen ambos extremos ligados con marcadores. La conversión usando este enfoque se realiza con una eficiencia alta, por ejemplo, por lo menos el 50%.
La biblioteca marcada se amplifica por PCR y se enriquece para los genes más asociados con el cáncer colorrectal (por ejemplo, KRAS, APC, TP53, etc.) y el ADN resultante se secuencia mediante un enfoque de secuenciación masivamente paralelo con un secuenciador personal Illumina MiSeq.
Los datos de secuencia se ensamblan y analizan para detectar mutaciones raras. Las lecturas de secuencia se colapsan en grupos familiares que pertenecen a una molécula parental (y se corrigen por error al colapsar) y se mapean usando una secuencia de referencia (control). En base al número de lecturas de secuencia, se determina la frecuencia de variaciones raras (sustituciones, inserciones, eliminaciones, etc.) y las variaciones en el número de copias y la heterocigosidad (cuando sea apropiado) para cada posición asignable.
Se genera un informe, mapeando las posiciones de bases genómicas y el porcentaje de detección de la mutación rara sobre el valor de referencia según se determina por la secuencia de referencia. Las mutaciones raras se encuentran con una incidencia del 0,3-0,4% en dos genes, KRAS y FBXW7, respectivamente, indicando que el sujeto tiene cáncer residual. Se inicia el tratamiento.
Además, estos informes se envían y se accede a ellos electrónicamente a través de Internet. El análisis de los datos de secuencia se realiza en un sitio diferente a la localización del sujeto. El informe se genera y se transmite a la localización del sujeto. A través de un ordenador con acceso a Internet, el sujeto accede a los informes que reflejan su carga tumoral.
Ejemplo 7 - Tecnología de Secuenciación Digital
Las concentraciones de ácidos nucleicos desprendidos de tumores son típicamente tan bajas que las tecnologías de secuenciación de próxima generación actuales solo pueden detectar tales señales esporádicamente o en pacientes con una carga tumoral terminalmente alta. La razón principal es que tales tecnologías están plagadas de tasas de error y sesgos que pueden ser de órdenes de magnitud superiores a lo que se requiere para detectar de manera confiable las alteraciones genéticas de novo asociadas con el cáncer en el ADN circulante. Aquí se muestra una nueva metodología de secuenciación, la tecnología de secuenciación digital (DST), que aumenta la sensibilidad y especificidad de la detección y cuantificación de ácidos nucleicos derivados de tumores raros entre los fragmentos de la línea germinal en por lo menos 1 -2 órdenes de magnitud.
La arquitectura DST está inspirada en los sistemas de comunicación digital de tecnología avanzada que combaten el ruido y la distorsión altos provocados por los canales de comunicación modernos y son capaces de transmitir información digital sin problemas a velocidades de datos extremadamente altas. De manera similar, los flujos de trabajo de próxima generación actuales están plagados de ruido y distorsión extremadamente altos (debido a la preparación de la muestra, la amplificación basada en PCR y la secuenciación). La secuenciación digital es capaz de eliminar el error y la distorsión creados por estos procesos y producir una representación casi perfecta de todas las variantes raras (incluyendo las CNV).
Preparación de Biblioteca de Alta Diversidad
A diferencia de los protocolos de preparación de bibliotecas de secuenciación convencionales, en los que la mayoría de los fragmentos de ADN circulantes extraídos se pierden debido a la conversión de bibliotecas ineficiente, nuestro flujo de trabajo de tecnología de secuenciación digital permite que la gran mayoría de las moléculas de partida se conviertan y secuencien. Esto es críticamente importante para la detección de variantes raras, ya que solo puede haber un puñado de moléculas mutadas somáticamente en un tubo de 10 ml completo de sangre. El eficiente proceso de conversión de biología molecular desarrollado permite la mayor sensibilidad posible para la detección de variantes raras.
Panel de Oncogén Procesable Integral
El flujo de trabajo diseñado alrededor de la plataforma DST es flexible y altamente ajustable, ya que las regiones objetivo pueden ser tan pequeñas como exones individuales o tan amplias como exomas completos (o incluso genomas completos). Un panel estándar consta de todas las bases exónicas de 15 genes procesables relacionados con el cáncer y la cobertura de los exones "calientes" de otros 36 oncogenes/genes supresores de tumores (por ejemplo, exones que contienen por lo menos una o más mutaciones somáticas informadas en el COSMIC) .
Ejemplo 8: Estudios analíticos
Para estudiar el rendimiento de nuestra tecnología, se evaluó su sensibilidad en muestras analíticas. Adicionamos cantidades variables de ADN de línea celular de cáncer de LNCaP en un fondo de ADNcf normal y fuimos capaces de detectar con éxito mutaciones somáticas hasta una sensibilidad del 0,1% (ver Figura 13).
Estudios Preclínicos
Se investigó la concordancia del ADN circulante con el ADNg de tumor en modelos de xenoinjerto humano en ratones. En siete ratones CTC negativos, cada uno con uno de dos tumores diferentes de cáncer de mama humano, todas las mutaciones somáticas detectadas en el ADNg del tumor también se detectaron en el ADNcf de la sangre del ratón usando DST validando aún más la utilidad del ADNcf para realización de perfiles genéticos tumorales no invasivos.
Estudios Clínicos Piloto
Correlación de Biopsia Tumoral frente a Mutaciones Somáticas de ADN Circulante
Se inició un estudio piloto en muestras humanas de diferentes tipos de cánceres. Se investigó la concordancia de los perfiles de mutación tumoral derivados del ADN libre de células circulante con los derivados de muestras de biopsias tumorales emparejadas. Se encontró una concordancia superior al 93% entre el tumor y los perfiles de mutación somática de ADNcf en cánceres colorrectales y de melanoma en 14 pacientes (Tabla 1).
Tabla 1
Figure imgf000039_0001
Debe entenderse a partir de lo anterior que, aunque se han ilustrado y descrito implementaciones particulares, pueden hacerse varias modificaciones a las mismas y se contemplan en la presente. Tampoco se pretende que la invención esté limitada por los ejemplos específicos proporcionados dentro de la especificación. Aunque la invención se ha descrito con referencia a la especificación mencionada anteriormente, las descripciones e ilustraciones de las realizaciones preferidas en la presente no deben interpretarse en un sentido limitativo. Además, debe entenderse que todos los aspectos de la invención no están limitados a las representaciones, configuraciones o proporciones relativas específicas expuestas en la presente que dependen de una variedad de condiciones y variables. Varias modificaciones en la forma y en el detalle de las realizaciones de la invención serán aparentes para los expertos en la técnica.

Claims (10)

REIVINDICACIONES
1. Un método para determinar la variación en el número de copias en una muestra que incluye polinucleótidos libres de células, el método comprendiendo:
a. proporcionar por lo menos dos conjuntos de polinucleótidos libres de células, que mapean para diferentes posiciones mapeables en una secuencia de referencia en un genoma, y, para los conjuntos de polinucleótidos libres de células;
i. marcar de forma no única los polinucleótidos libres de células con un conjunto de códigos de barras moleculares;
ii. amplificar los polinucleótidos libres de células para producir polinucleótidos amplificados;
iii. secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación;
iv. agrupar el conjunto de lecturas de secuenciación secuenciadas a partir de polinucleótidos amplificados en familias que corresponden a lecturas de secuenciación de polinucleótidos amplificados a partir del mismo polinucleótido libre de células;
v. inferir una medida cuantitativa de familias en los conjuntos; y
b. determinar la variación en el número de copias en base a la medida cuantitativa de las familias en cada conjunto.
2. El método de la reivindicación 1, en el que la muestra se extrae de un fluido seleccionado del grupo que consiste de sangre, plasma, suero, vítreo, esputo, orina, lágrimas, transpiración, saliva, semen, excreciones mucosas, moco, líquido cefalorraquídeo, líquido amniótico y líquido linfático.
3. El método de la reivindicación 1 o la reivindicación 2, en el que los polinucleótidos son derivados de ADN o ARN genómico tumorales.
4. El método de cualquiera de las reivindicaciones 1-3, en el que los códigos de barras moleculares son código de barras de oligonucleótidos, unidos a los polinucleótidos libres de células a través de una reacción enzimática como una reacción de ligadura.
5. El método de cualquiera de las reivindicaciones 1-4, que comprende además regiones selectivamente enriquecidas de un genoma o transcriptoma del sujeto antes de la secuenciación.
6. El método de cualquiera de las reivindicaciones 1-5, que comprende además filtrar las lecturas de secuenciación con una puntuación de precisión o calidad inferior a un umbral y/o puntuación de mapeo inferior a un umbral.
7. El método de cualquiera de las reivindicaciones 1-6, en el que inferir una medida cuantitativa de familias en el conjunto comprende determinar el número de familias que mapean para diferentes loci de referencia.
8. El método de la reivindicación 1, que comprende además inferir una medida cuantitativa del número de lecturas de secuencia dentro de las familias.
9. El método de cualquiera de las reivindicaciones 1-8, en el que la medida cuantitativa es un recuento.
10. Un medio legible por ordenador que comprende código ejecutable por máquina no transitorio que, tras la ejecución por un procesador informático, implementa un método, el método comprendiendo:
a. acceder a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de polinucleótidos de progenie amplificados a partir de polinucleótidos libres de células originales marcados de manera no única;
b. agrupar las lecturas de secuenciación secuenciadas a partir de los polinucleótidos de progenie en familias que comprenden lecturas de secuenciación de polinucleótidos de progenie amplificados a partir del mismo polinucleótido libre de células original marcado;
c. inferir una medida cuantitativa de familias en los polinucleótidos libres de células originales marcados de manera no única; y
d. determinar la variación en el número de copias comparando la medida cuantitativa de familias en los polinucleótidos libres de células originales marcados de manera no única.
ES18207391T 2012-09-04 2013-09-04 Sistemas y métodos para detectar variación en el número de copias Active ES2769241T5 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201261696734P 2012-09-04 2012-09-04
US201261704400P 2012-09-21 2012-09-21
US201361793997P 2013-03-15 2013-03-15
US201361845987P 2013-07-13 2013-07-13

Publications (2)

Publication Number Publication Date
ES2769241T3 ES2769241T3 (es) 2020-06-25
ES2769241T5 true ES2769241T5 (es) 2023-05-30

Family

ID=50237580

Family Applications (5)

Application Number Title Priority Date Filing Date
ES18207391T Active ES2769241T5 (es) 2012-09-04 2013-09-04 Sistemas y métodos para detectar variación en el número de copias
ES13834427T Active ES2711635T3 (es) 2012-09-04 2013-09-04 Métodos para detectar mutaciones raras y variación en el número de copias
ES21155582T Active ES2968333T3 (es) 2012-09-04 2013-09-04 Métodos para analizar células libres de polinucleótidos
ES22162429T Active ES2984550T3 (es) 2012-09-04 2013-09-04 Métodos para detectar mutaciones raras y variación del número de copias
ES19192885T Active ES2906714T3 (es) 2012-09-04 2013-09-04 Métodos para detectar mutaciones raras y variación en el número de copias

Family Applications After (4)

Application Number Title Priority Date Filing Date
ES13834427T Active ES2711635T3 (es) 2012-09-04 2013-09-04 Métodos para detectar mutaciones raras y variación en el número de copias
ES21155582T Active ES2968333T3 (es) 2012-09-04 2013-09-04 Métodos para analizar células libres de polinucleótidos
ES22162429T Active ES2984550T3 (es) 2012-09-04 2013-09-04 Métodos para detectar mutaciones raras y variación del número de copias
ES19192885T Active ES2906714T3 (es) 2012-09-04 2013-09-04 Métodos para detectar mutaciones raras y variación en el número de copias

Country Status (17)

Country Link
US (31) US10041127B2 (es)
EP (6) EP2893040B1 (es)
JP (6) JP6275145B2 (es)
KR (6) KR102393608B1 (es)
CN (2) CN104781421B (es)
CA (2) CA3190199A1 (es)
DE (1) DE202013012824U1 (es)
DK (1) DK2893040T5 (es)
ES (5) ES2769241T5 (es)
GB (1) GB2533006B (es)
HK (1) HK1225416B (es)
IL (3) IL305303A (es)
MX (1) MX367963B (es)
PL (2) PL3591073T3 (es)
PT (1) PT2893040T (es)
SG (2) SG10202000486VA (es)
WO (1) WO2014039556A1 (es)

Families Citing this family (376)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US11111544B2 (en) * 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US20120185176A1 (en) 2009-09-30 2012-07-19 Natera, Inc. Methods for Non-Invasive Prenatal Ploidy Calling
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
EP2572003A4 (en) 2010-05-18 2016-01-13 Natera Inc METHOD FOR NONINVASIVE PRANATAL PLOIDIE ASSIGNMENT
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US12221653B2 (en) 2010-05-18 2025-02-11 Natera, Inc. Methods for simultaneous amplification of target loci
US12152275B2 (en) 2010-05-18 2024-11-26 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US8916344B2 (en) 2010-11-15 2014-12-23 Exact Sciences Corporation Methylation assay
US8361720B2 (en) 2010-11-15 2013-01-29 Exact Sciences Corporation Real time cleavage assay
WO2012088456A2 (en) 2010-12-22 2012-06-28 Natera, Inc. Methods for non-invasive prenatal paternity testing
KR20190002733A (ko) 2010-12-30 2019-01-08 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
AU2011358564B9 (en) 2011-02-09 2017-07-13 Natera, Inc Methods for non-invasive prenatal ploidy calling
US9260753B2 (en) 2011-03-24 2016-02-16 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
ES2625288T3 (es) 2011-04-15 2017-07-19 The Johns Hopkins University Sistema de secuenciación segura
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
US20130079241A1 (en) 2011-09-15 2013-03-28 Jianhua Luo Methods for Diagnosing Prostate Cancer and Predicting Prostate Cancer Relapse
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2850785C (en) 2011-10-06 2022-12-13 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013109981A1 (en) 2012-01-20 2013-07-25 Sequenom, Inc. Diagnostic processes that factor experimental conditions
DK2814959T3 (en) 2012-02-17 2018-04-23 Hutchinson Fred Cancer Res COMPOSITIONS AND PROCEDURES FOR EXACTLY IDENTIFYING MUTATIONS
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
EP3744857A1 (en) 2012-03-20 2020-12-02 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
WO2013166517A1 (en) * 2012-05-04 2013-11-07 Complete Genomics, Inc. Methods for determining absolute genome-wide copy number variations of complex tumors
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20150011396A1 (en) 2012-07-09 2015-01-08 Benjamin G. Schroeder Methods for creating directional bisulfite-converted nucleic acid libraries for next generation sequencing
US20140100126A1 (en) 2012-08-17 2014-04-10 Natera, Inc. Method for Non-Invasive Prenatal Testing Using Parental Mosaicism Data
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
GB2533006B (en) 2012-09-04 2017-06-07 Guardant Health Inc Systems and methods to detect copy number variation
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
AU2013338393C1 (en) 2012-10-29 2024-07-25 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
US9218450B2 (en) * 2012-11-29 2015-12-22 Roche Molecular Systems, Inc. Accurate and fast mapping of reads to genome
EP4293125A3 (en) 2012-12-10 2024-02-28 Resolution Bioscience, Inc. Methods for targeted genomic analysis
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
ES2859645T3 (es) 2013-03-14 2021-10-04 Mayo Found Medical Education & Res Detección de neoplasia
US9822408B2 (en) 2013-03-15 2017-11-21 Nugen Technologies, Inc. Sequential sequencing
GB2528205B (en) 2013-03-15 2020-06-03 Guardant Health Inc Systems and methods to detect rare mutations and copy number variation
PL2981921T3 (pl) 2013-04-03 2023-05-08 Sequenom, Inc. Metody i procesy nieinwazyjnej oceny zmienności genetycznych
EP4604127A3 (en) 2013-05-24 2025-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
HUE042654T2 (hu) 2013-06-21 2019-07-29 Sequenom Inc Eljárás genetikai variációk nem-invazív megállapítására
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
IL304949B2 (en) 2013-10-04 2025-09-01 Sequenom Inc Methods and processes for non-invasive assessment of genetic variations
EP3495496B1 (en) 2013-10-07 2020-11-25 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations
KR102429186B1 (ko) 2013-10-21 2022-08-03 베리나타 헬스, 인코포레이티드 사본수 변동을 결정함에 있어서 검출의 감수성을 향상시키기 위한 방법
JP7451070B2 (ja) 2013-11-07 2024-03-18 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー ヒトミクロビオームおよびその成分の分析のための無細胞核酸
CA2929596C (en) 2013-11-13 2022-07-05 Nugen Technologies, Inc. Compositions and methods for identification of a duplicate sequencing read
ES2660989T3 (es) 2013-12-28 2018-03-27 Guardant Health, Inc. Métodos y sistemas para detectar variantes genéticas
ES2818625T3 (es) 2013-12-30 2021-04-13 Univ Pittsburgh Commonwealth Sys Higher Education Genes de fusión asociados con el cáncer de próstata progresivo
EP3957749A1 (en) 2014-04-21 2022-02-23 Natera, Inc. Detecting tumour specific mutations in biopsies with whole exome sequencing and in cell-free samples
US12492429B2 (en) 2014-04-21 2025-12-09 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
EP3805404A1 (en) 2014-05-13 2021-04-14 Board of Regents, The University of Texas System Gene mutations and copy number alterations of egfr, kras and met
WO2015181718A1 (en) * 2014-05-26 2015-12-03 Ebios Futura S.R.L. Method of prenatal diagnosis
CA2950596C (en) * 2014-05-30 2023-10-31 Verinata Health, Inc. Detecting fetal sub-chromosomal aneuploidies and copy number variations
US20150347676A1 (en) * 2014-05-30 2015-12-03 Sequenom, Inc. Chromosome representation determinations
US20180173845A1 (en) 2014-06-05 2018-06-21 Natera, Inc. Systems and Methods for Detection of Aneuploidy
WO2016011428A1 (en) 2014-07-17 2016-01-21 University Of Pittsburgh - Of The Commonwealth System Of Higher Education Methods of treating cells containing fusion genes
GB201412834D0 (en) * 2014-07-18 2014-09-03 Cancer Rec Tech Ltd A method for detecting a genetic variant
ES2741400T3 (es) 2014-07-18 2020-02-10 Univ Hong Kong Chinese Análisis de patrones de metilación de tejidos en mezcla de ADN
CN107002122B (zh) 2014-07-25 2023-09-19 华盛顿大学 确定导致无细胞dna的产生的组织和/或细胞类型的方法以及使用其鉴定疾病或紊乱的方法
WO2016019042A1 (en) 2014-07-30 2016-02-04 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN107075581B (zh) * 2014-08-06 2022-03-18 纽亘技术公司 由靶向测序进行数字测量
US20160053301A1 (en) 2014-08-22 2016-02-25 Clearfork Bioscience, Inc. Methods for quantitative genetic analysis of cell free dna
US10184154B2 (en) 2014-09-26 2019-01-22 Mayo Foundation For Medical Education And Research Detecting cholangiocarcinoma
EP3227464B1 (en) 2014-12-05 2022-04-20 Foundation Medicine, Inc. Multigene analysis of tumor samples
WO2016090584A1 (zh) * 2014-12-10 2016-06-16 深圳华大基因研究院 确定肿瘤核酸浓度的方法和装置
EP3502273B1 (en) * 2014-12-12 2020-07-08 Verinata Health, Inc. Cell-free dna fragment
WO2016095093A1 (zh) * 2014-12-15 2016-06-23 天津华大基因科技有限公司 肿瘤筛查方法、目标区域变异检测方法和装置
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10429342B2 (en) 2014-12-18 2019-10-01 Edico Genome Corporation Chemically-sensitive field effect transistor
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
JP2018502602A (ja) * 2014-12-29 2018-02-01 カウンシル,インコーポレーテッド 相同性の高い領域において遺伝子型を決定する方法
WO2016109452A1 (en) * 2014-12-31 2016-07-07 Guardant Health , Inc. Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
US10364467B2 (en) * 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
EP3256605B1 (en) 2015-02-10 2022-02-09 The Chinese University Of Hong Kong Detecting mutations for cancer screening and fetal analysis
CN107532124B (zh) 2015-03-27 2022-08-09 精密科学公司 检测食管疾病
ES2969767T3 (es) 2015-05-01 2024-05-22 Guardant Health Inc Métodos de diagnóstico
WO2016183106A1 (en) 2015-05-11 2016-11-17 Natera, Inc. Methods and compositions for determining ploidy
US10395759B2 (en) * 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
CN107922971A (zh) 2015-05-18 2018-04-17 凯锐思公司 用于富集核酸群体的组合物和方法
JP6698708B2 (ja) 2015-06-09 2020-05-27 ライフ テクノロジーズ コーポレーション 分子タグ付けのための方法、システム、組成物、キット、装置、及びコンピュータ可読媒体
SG11201707649SA (en) * 2015-06-24 2017-10-30 Samsung Life Public Welfare Foundation Method and device for analyzing gene
CN107922973B (zh) * 2015-07-07 2019-06-14 远见基因组系统公司 用于基于测序的变型检测的方法和系统
AU2016293025A1 (en) * 2015-07-13 2017-11-02 Agilent Technologies Belgium Nv System and methodology for the analysis of genomic data obtained from a subject
EP3325667B1 (en) * 2015-07-21 2020-11-11 Guardant Health, Inc. Locked nucleic acids for capturing fusion genes
IL305462A (en) 2015-07-23 2023-10-01 Univ Hong Kong Chinese DNA fragmentation pattern analysis suitable clean
ES2745556T3 (es) 2015-07-29 2020-03-02 Progenity Inc Acidos nucleicos y métodos para detectar anomalías cromosómicas
WO2017020024A2 (en) * 2015-07-29 2017-02-02 Progenity, Inc. Systems and methods for genetic analysis
WO2017027473A1 (en) * 2015-08-07 2017-02-16 University Of Pittsburgh-Of The Commonwealth System Of Higher Education Methods for predicting prostate cancer relapse
US11286531B2 (en) 2015-08-11 2022-03-29 The Johns Hopkins University Assaying ovarian cyst fluid
CN108138235B (zh) 2015-08-31 2022-04-15 梅约医药教育及研究基金会 检测胃肿瘤
US11302416B2 (en) 2015-09-02 2022-04-12 Guardant Health Machine learning for somatic single nucleotide variant detection in cell-free tumor nucleic acid sequencing applications
WO2017044609A1 (en) * 2015-09-08 2017-03-16 Cold Spring Harbor Laboratory Genetic copy number determination using high throughput multiplex sequencing of smashed nucleotides
JP6991134B2 (ja) 2015-10-09 2022-01-12 ガーダント ヘルス, インコーポレイテッド 無細胞dnaを使用する集団ベースの処置レコメンダ
KR101848438B1 (ko) 2015-10-29 2018-04-13 바이오코아 주식회사 디지털 pcr을 이용한 산전진단 방법
AU2016343937B2 (en) 2015-10-30 2023-01-19 Exact Sciences Corporation Multiplex amplification detection assay and isolation and detection of DNA from plasma
RU2018121254A (ru) 2015-11-11 2019-12-16 Резолюшн Байосайенс, Инк. Высокоэффективное построение библиотек днк
US20180330050A1 (en) * 2015-11-16 2018-11-15 Mayo Foundation For Medical Education And Research Detecting copy number variations
PL3387152T3 (pl) 2015-12-08 2022-05-09 Twinstrand Biosciences, Inc. Ulepszone adaptory, sposoby i kompozycje do sekwencjonowania dupleksowego
WO2017106768A1 (en) 2015-12-17 2017-06-22 Guardant Health, Inc. Methods to determine tumor gene copy number by analysis of cell-free dna
EP3405573A4 (en) * 2016-01-22 2019-09-18 Grail, Inc. METHOD AND SYSTEMS FOR HIGH-FIDELITY SEQUENCING
CN109072309B (zh) 2016-02-02 2023-05-16 夸登特健康公司 癌症进化检测和诊断
US10095831B2 (en) 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
US11479878B2 (en) 2016-03-16 2022-10-25 Dana-Farber Cancer Institute, Inc. Methods for genome characterization
CA3185611A1 (en) 2016-03-25 2017-09-28 Karius, Inc. Synthetic nucleic acid spike-ins
US11384382B2 (en) 2016-04-14 2022-07-12 Guardant Health, Inc. Methods of attaching adapters to sample nucleic acids
EP4488686A3 (en) 2016-04-14 2025-04-30 Guardant Health, Inc. Methods for early detection of cancer
ITUA20162640A1 (it) * 2016-04-15 2017-10-15 Menarini Silicon Biosystems Spa Metodo e kit per la generazione di librerie di dna per sequenziamento massivo parallelo
WO2017181202A2 (en) 2016-04-15 2017-10-19 Natera, Inc. Methods for lung cancer detection
US20170298422A1 (en) 2016-04-18 2017-10-19 The Board Of Trustees Of The Leland Stanford Junior University Simultaneous single-molecule epigenetic imaging of dna methylation and hydroxymethylation
CA3024630A1 (en) 2016-05-16 2017-11-23 Accuragen Holdings Limited Method of improved sequencing by strand identification
WO2017201081A1 (en) 2016-05-16 2017-11-23 Agilome, Inc. Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids
JP2019521673A (ja) * 2016-06-07 2019-08-08 ザ リージェンツ オブ ザ ユニヴァーシティー オブ カリフォルニア 疾患および状態の分析のためのセルフリーdnaメチル化パターン
EP4257701A3 (en) 2016-06-30 2023-12-20 Grail, LLC Differential tagging of rna for preparation of a cell-free dna/rna sequencing library
CN107577917A (zh) * 2016-07-05 2018-01-12 魏霖静 一种生物信息学高性能信息化管理系统及数据处理方法
KR102610098B1 (ko) 2016-07-06 2023-12-04 가던트 헬쓰, 인크. 무세포 핵산의 프래그멘톰 프로파일링을 위한 방법
US11299780B2 (en) 2016-07-15 2022-04-12 The Regents Of The University Of California Methods of producing nucleic acid libraries
US11200963B2 (en) 2016-07-27 2021-12-14 Sequenom, Inc. Genetic copy number alteration classifications
US11319594B2 (en) 2016-08-25 2022-05-03 Resolution Bioscience, Inc. Methods for the detection of genomic copy changes in DNA samples
MX2019003344A (es) * 2016-09-22 2019-09-04 Illumina Inc Deteccion de variacion de numero de copias somaticas.
JP6560465B1 (ja) 2016-09-30 2019-08-21 ガーダント ヘルス, インコーポレイテッド 無細胞核酸の多重解像度分析のための方法
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
US11485996B2 (en) 2016-10-04 2022-11-01 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
US20200048711A1 (en) 2016-10-12 2020-02-13 Bellwether Bio, Inc Determining cell type origin of circulating cell-free dna with molecular counting
TWI797095B (zh) 2016-10-24 2023-04-01 美商格瑞爾有限責任公司 腫瘤檢測之方法及系統
WO2018081465A1 (en) * 2016-10-26 2018-05-03 Pathway Genomics Corporation Systems and methods for characterizing nucleic acid in a biological sample
CN106566877A (zh) * 2016-10-31 2017-04-19 天津诺禾致源生物信息科技有限公司 检测基因突变的方法和装置
GB201618485D0 (en) 2016-11-02 2016-12-14 Ucl Business Plc Method of detecting tumour recurrence
EP3541951B1 (en) 2016-11-15 2024-11-20 Personal Genome Diagnostics Inc. Non-unique barcodes in a genotyping assay
WO2018099418A1 (en) 2016-11-30 2018-06-07 The Chinese University Of Hong Kong Analysis of cell-free dna in urine and other samples
US10011870B2 (en) * 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
US11101019B2 (en) * 2016-12-08 2021-08-24 Life Technologies Corporation Methods for detecting mutation load from a tumor sample
US20180166170A1 (en) * 2016-12-12 2018-06-14 Konstantinos Theofilatos Generalized computational framework and system for integrative prediction of biomarkers
CA3046007A1 (en) 2016-12-22 2018-06-28 Guardant Health, Inc. Methods and systems for analyzing nucleic acid molecules
CN106701956A (zh) * 2017-01-11 2017-05-24 上海思路迪生物医学科技有限公司 ctDNA的数字化深度测序技术
CA3198931A1 (en) 2017-01-20 2018-07-26 Sequenom, Inc. Methods for non-invasive assessment of genetic alterations
US11694768B2 (en) 2017-01-24 2023-07-04 Sequenom, Inc. Methods and processes for assessment of genetic variations
EP4421489B1 (en) * 2017-01-25 2026-03-11 The Chinese University of Hong Kong Diagnostic applications using nucleic acid fragments
KR102892245B1 (ko) 2017-01-27 2025-11-27 이그젝트 싸이언스 디블롭먼트 컴패니, 엘엘씨 메틸화된 dna 분석에 의한 결장 신조직형성의 검출
US10894976B2 (en) 2017-02-21 2021-01-19 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
CN106755547A (zh) * 2017-03-15 2017-05-31 上海亿康医学检验所有限公司 一种膀胱癌的无创检测及其复发监测方法
JP7370862B2 (ja) 2017-03-17 2023-10-30 セクエノム, インコーポレイテッド 遺伝子モザイク症のための方法およびプロセス
US11584958B2 (en) 2017-03-31 2023-02-21 Grail, Llc Library preparation and use thereof for sequencing based error correction and/or variant identification
US12492430B2 (en) 2017-04-11 2025-12-09 Tecan Genomics, Inc. Library quantitation and qualification
WO2018191563A1 (en) 2017-04-12 2018-10-18 Karius, Inc. Sample preparation methods, systems and compositions
US11342047B2 (en) 2017-04-21 2022-05-24 Illumina, Inc. Using cell-free DNA fragment size to detect tumor-associated variant
CA3063627A1 (en) * 2017-05-15 2018-11-22 Katholieke Universiteit Leuven Method for analysing cell-free nucleic acids
WO2018213235A1 (en) 2017-05-16 2018-11-22 Life Technologies Corporation Methods for compression of molecular tagged nucleic acid sequence data
WO2018213498A1 (en) * 2017-05-16 2018-11-22 Guardant Health, Inc. Identification of somatic or germline origin for cell-free dna
KR102145417B1 (ko) * 2017-05-24 2020-08-19 지니너스 주식회사 무세포 핵산으로부터 수득된 서열 분석 데이터에 대한 배경 대립인자의 빈도 분포를 생성하는 방법 및 이를 이용하여 무세포 핵산으로부터 변이를 검출하는 방법
WO2018227202A1 (en) * 2017-06-09 2018-12-13 Bellwether Bio, Inc. Determination of cancer type in a subject by probabilistic modeling of circulating nucleic acid fragment endpoints
JP7009518B2 (ja) * 2017-06-20 2022-01-25 イルミナ インコーポレイテッド 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム
WO2019014656A1 (en) 2017-07-14 2019-01-17 Han Si Ping METALLIC OLIGONUCLEOTIDE JONCTIONS FOR THE ADMINISTRATION OF THERAPEUTIC AGENTS
EP3431611A1 (en) * 2017-07-21 2019-01-23 Menarini Silicon Biosystems S.p.A. Improved method and kit for the generation of dna libraries for massively parallel sequencing
IL316163A (en) 2017-07-26 2024-12-01 Univ Hong Kong Chinese Enhancement of cancer screening using cell-free viral nucleic acids
US11519024B2 (en) 2017-08-04 2022-12-06 Billiontoone, Inc. Homologous genomic regions for characterization associated with biological targets
US11430543B2 (en) 2017-08-04 2022-08-30 Billiontoone, Inc. Sequencing output determination and analysis with target-associated molecules in quantification associated with biological targets
EP3662480A4 (en) 2017-08-04 2021-05-19 BillionToOne, Inc. MOLECULES ASSOCIATED WITH A TARGET FOR A CHARACTERIZATION ASSOCIATED WITH BIOLOGICAL TARGETS
IL319255A (en) 2017-08-07 2025-04-01 Univ Johns Hopkins Methods and materials for cancer assessment and treatment
EP3665281A4 (en) 2017-08-10 2021-05-05 City of Hope CONDITIONAL SIRNA AND ITS USE IN THE TREATMENT OF CARDIAC HYERTROPHY
EP3685386A1 (en) 2017-09-20 2020-07-29 Guardant Health, Inc. Methods and systems for differentiating somatic and germline variants
CN107688726B (zh) * 2017-09-21 2021-09-07 深圳市易基因科技有限公司 基于液相捕获技术判定单基因病相关拷贝数缺失的方法
US11099202B2 (en) 2017-10-20 2021-08-24 Tecan Genomics, Inc. Reagent delivery system
CA3079252A1 (en) 2017-11-03 2019-05-09 Guardant Health, Inc. Correcting for deamination-induced sequence errors
EP3704268B1 (en) 2017-11-03 2025-01-22 Guardant Health, Inc. Normalizing tumor mutation burden
SG11202003885UA (en) 2017-11-08 2020-05-28 Twinstrand Biosciences Inc Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
JP7054133B2 (ja) * 2017-11-09 2022-04-13 国立研究開発法人国立がん研究センター 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体
NZ759171A (en) 2017-11-16 2022-05-27 Illumina Inc Systems and methods for determining microsatellite instability
AU2018375302A1 (en) 2017-11-28 2020-06-11 Grail, Llc Models for targeted sequencing
EP3622522A1 (en) 2017-12-01 2020-03-18 Illumina, Inc. Methods and systems for determining somatic mutation clonality
US10648025B2 (en) 2017-12-13 2020-05-12 Exact Sciences Development Company, Llc Multiplex amplification detection assay II
JP2021506342A (ja) 2017-12-14 2021-02-22 ティーエーアイ ダイアグノスティックス インコーポレイテッドTai Diagnostics,Inc. 移植のための移植片適合性の評価
CN108197428B (zh) * 2017-12-25 2020-06-19 西安交通大学 一种并行动态规划的下一代测序技术拷贝数变异检测方法
CN112365927B (zh) * 2017-12-28 2023-08-25 安诺优达基因科技(北京)有限公司 Cnv检测装置
ES2970286T3 (es) 2018-01-05 2024-05-27 Billiontoone Inc Plantillas de control de calidad para garantizar la validez de ensayos basados en secuenciación
US12590326B2 (en) 2018-01-10 2026-03-31 Guardant Health, Inc. Methods for fragmentome profiling of cell-free nucleic acids
US11584929B2 (en) 2018-01-12 2023-02-21 Claret Bioscience, Llc Methods and compositions for analyzing nucleic acid
IL283427B2 (en) * 2018-01-15 2023-10-01 Illumina Inc Identifying variants using Empiric ranking of variants
CN108268752B (zh) * 2018-01-18 2019-02-01 东莞博奥木华基因科技有限公司 一种染色体异常检测装置
KR102036609B1 (ko) * 2018-02-12 2019-10-28 바이오코아 주식회사 디지털 pcr을 이용한 산전진단 방법
US12398389B2 (en) 2018-02-15 2025-08-26 Natera, Inc. Methods for isolating nucleic acids with size selection
GB201804642D0 (en) * 2018-03-22 2018-05-09 Inivata Ltd Methods of labelling nucleic acids
US11203782B2 (en) 2018-03-29 2021-12-21 Accuragen Holdings Limited Compositions and methods comprising asymmetric barcoding
CN119753091A (zh) 2018-04-02 2025-04-04 格里尔公司 用于扩增与癌症相关联的cfDNA分子的化验板
AU2019252947A1 (en) 2018-04-13 2020-10-29 Guardant Health, Inc. Methods for detecting and suppressing alignment errors caused by fusion events
CA3090426A1 (en) 2018-04-14 2019-10-17 Natera, Inc. Methods for cancer detection and monitoring by means of personalized detection of circulating tumor dna
AU2019255613B2 (en) * 2018-04-16 2025-08-21 Memorial Sloan Kettering Cancer Center Systems and methods for detecting cancer via cfDNA screening
JP7590954B2 (ja) * 2018-04-20 2024-11-27 バイオファイア・ダイアグノスティクス,リミテッド・ライアビリティ・カンパニー シーケンシングデータの正規化および定量化のための方法
TW202012639A (zh) * 2018-04-24 2020-04-01 美商格瑞爾公司 使用病原體核酸負荷確定個體是否患有癌症病況的系統及方法
CN112888459B (zh) 2018-06-01 2023-05-23 格里尔公司 卷积神经网络系统及数据分类方法
WO2019236478A1 (en) 2018-06-04 2019-12-12 Guardant Health, Inc. Methods and systems for determining the cellular origin of cell-free nucleic acids
JP7537748B2 (ja) 2018-06-06 2024-08-21 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 核酸ライブラリを生成する方法ならびにそれを実施するための組成物およびキット
SG11202011696TA (en) 2018-06-11 2020-12-30 Foundation Medicine Inc Compositions and methods for evaluating genomic alterations
CN109192246B (zh) * 2018-06-22 2020-10-16 深圳市达仁基因科技有限公司 检测染色体拷贝数异常的方法、装置和存储介质
US12234509B2 (en) 2018-07-03 2025-02-25 Natera, Inc. Methods for detection of donor-derived cell-free DNA
EP3619712B1 (en) * 2018-07-11 2024-02-14 Illumina, Inc. Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors
US12073922B2 (en) 2018-07-11 2024-08-27 Illumina, Inc. Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (SSEs)
WO2020014693A1 (en) 2018-07-12 2020-01-16 Twinstrand Biosciences, Inc. Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications
JP7466519B2 (ja) 2018-07-23 2024-04-12 ガーダント ヘルス, インコーポレイテッド 腫瘍遺伝子変異量を腫瘍割合およびカバレッジによって調整するための方法およびシステム
US20210292851A1 (en) * 2018-07-27 2021-09-23 Roche Sequencing Solutions, Inc. Method of monitoring effectiveness of immunotherapy of cancer patients
US12071651B2 (en) 2018-08-06 2024-08-27 Billiontoone, Inc. Dilution tagging for quantification of biological targets
CN113166750B (zh) 2018-08-10 2025-02-18 希望之城 可编程的条件性sirna及其用途
US20210327535A1 (en) * 2018-08-22 2021-10-21 The Regents Of The University Of California Sensitively detecting copy number variations (cnvs) from circulating cell-free nucleic acid
KR20210052501A (ko) 2018-08-30 2021-05-10 가던트 헬쓰, 인크. 샘플 사이의 오염을 검출하기 위한 방법 및 시스템
JP7539367B2 (ja) 2018-08-31 2024-08-23 ガーダント ヘルス, インコーポレイテッド 無細胞dnaにおけるマイクロサテライト不安定性の検出
JP7535998B2 (ja) 2018-08-31 2024-08-19 ガーダント ヘルス, インコーポレイテッド マージされたリードおよびマージされないリードに基づいた遺伝的変異体の検出
JP7637615B2 (ja) 2018-09-04 2025-02-28 ガーダント ヘルス, インコーポレイテッド 無細胞核酸試料におけるアレル不均衡を検出するための方法およびシステム
WO2020056302A1 (en) * 2018-09-14 2020-03-19 The Jackson Laboratory Method and apparatus for detecting copy number variations in a genome
IL281741B2 (en) 2018-09-27 2026-04-01 Grail Inc Methylation markers and a targeted methylation detection panel
JP7654538B2 (ja) * 2018-10-08 2025-04-01 フリーノム ホールディングス,インク. 転写因子プロファイリング
CN109523520B (zh) * 2018-10-25 2020-12-18 北京大学第三医院 一种基于深度学习的染色体自动计数方法
EP4524263A3 (en) 2018-10-31 2025-05-28 Guardant Health, Inc. Methods, compositions and systems for calibrating epigenetic partitioning assays
ES3059710T3 (en) 2018-11-21 2026-03-23 Karius Inc Direct-to-library methods, systems, and compositions
CN109584961A (zh) * 2018-12-03 2019-04-05 元码基因科技(北京)股份有限公司 基于二代测序技术检测血液微卫星不稳定的方法
US11581062B2 (en) 2018-12-10 2023-02-14 Grail, Llc Systems and methods for classifying patients with respect to multiple cancer classes
US20200202975A1 (en) * 2018-12-19 2020-06-25 AiOnco, Inc. Genetic information processing system with mutation analysis mechanism and method of operation thereof
SG11202104701XA (en) 2018-12-20 2021-06-29 Guardant Health Inc Methods, compositions, and systems for improving recovery of nucleic acid molecules
CN109712671B (zh) * 2018-12-20 2020-06-26 北京优迅医学检验实验室有限公司 基于ctDNA的基因检测装置、存储介质及计算机系统
CN111383714B (zh) * 2018-12-29 2023-07-28 安诺优达基因科技(北京)有限公司 模拟目标疾病仿真测序文库的方法及其应用
EP4567131A3 (en) 2019-01-31 2025-09-03 Guardant Health, Inc. Compositions and methods for isolating cell-free dna
CN109841265B (zh) * 2019-02-22 2021-09-21 清华大学 使用片段化模式确定血浆游离核酸分子组织来源的方法和系统及应用
WO2020176659A1 (en) 2019-02-27 2020-09-03 Guardant Health, Inc. Methods and systems for determining the cellular origin of cell-free dna
US20200273538A1 (en) 2019-02-27 2020-08-27 Guardant Health, Inc. Computational modeling of loss of function based on allelic frequency
CN111755075B (zh) * 2019-03-28 2023-09-29 深圳华大生命科学研究院 对免疫组库高通量测序样本间序列污染进行过滤的方法
EP3947718A4 (en) 2019-04-02 2022-12-21 Enumera Molecular, Inc. METHODS, SYSTEMS AND COMPOSITIONS FOR COUNTING NUCLEIC ACID MOLECULES
EP3723096A1 (en) * 2019-04-12 2020-10-14 European Molecular Biology Laboratory Comprehensive detection of single cell genetic structural variations
US12497662B2 (en) 2019-04-16 2025-12-16 Grail, Inc. Systems and methods for tumor fraction estimation from small variants
CN110299185B (zh) * 2019-05-08 2023-07-04 西安电子科技大学 一种基于新一代测序数据的插入变异检测方法及系统
WO2020243722A1 (en) * 2019-05-31 2020-12-03 Guardant Health, Inc. Methods and systems for improving patient monitoring after surgery
EP3980559A1 (en) 2019-06-06 2022-04-13 Natera, Inc. Methods for detecting immune cell dna and monitoring immune system
CN114585751A (zh) * 2019-06-12 2022-06-03 阿尔缇玛基因组学公司 使用分子条形码进行准确碱基判定的方法
US12437840B2 (en) 2019-07-02 2025-10-07 International Business Machines Corporation Determining cell, tissue, or lesion representations in cell-free DNA
US11891653B2 (en) 2019-09-30 2024-02-06 Guardant Health, Inc. Compositions and methods for analyzing cell-free DNA in methylation partitioning assays
AU2020361455B2 (en) * 2019-10-10 2026-02-12 Carlsberg A/S Methods for preparing mutant plants
CN110578002A (zh) * 2019-10-10 2019-12-17 广州燃石医学检验所有限公司 用于检测循环肿瘤dna突变的质控品及其制备方法
EP4041888A4 (en) 2019-10-11 2023-11-01 Guardant Health, Inc. USE OF CELLULAR BACTERIAL NUCLEIC ACIDS FOR CANCER DETECTION
US11447819B2 (en) 2019-10-25 2022-09-20 Guardant Health, Inc. Methods for 3′ overhang repair
CN114467144B (zh) * 2019-10-25 2025-06-20 首尔大学校产学协力团 减少测序平台特异性错误的体细胞突变检测装置及方法
WO2021077411A1 (zh) * 2019-10-25 2021-04-29 苏州宏元生物科技有限公司 染色体不稳定性检测方法、系统及试剂盒
WO2021092476A1 (en) 2019-11-06 2021-05-14 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
CA3157560A1 (en) 2019-11-26 2021-06-03 Dustin Howard HITE Methods, compositions and systems for improving the binding of methylated polynucleotides
KR102184277B1 (ko) * 2020-01-16 2020-11-30 성균관대학교산학협력단 초음파 진단 및 dna 검사 일체형 ai 자가 건강 관리 장치 및 이를 이용한 원격 의료 진단 방법
EP3851542A1 (en) 2020-01-20 2021-07-21 Tecan Genomics, Inc. Depletion of abundant uninformative sequences
JP7763764B2 (ja) 2020-01-31 2025-11-04 ガーダント ヘルス, インコーポレイテッド 標的バリアントがクローンレベルで存在しないことの有意性モデリング
US12059674B2 (en) 2020-02-03 2024-08-13 Tecan Genomics, Inc. Reagent storage system
JP2023513606A (ja) 2020-02-14 2023-03-31 ザ・ジョンズ・ホプキンス・ユニバーシティー 核酸を評価するための方法および材料
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
JP7813712B2 (ja) 2020-03-11 2026-02-13 ガーダント ヘルス, インコーポレイテッド 無細胞核酸において検出された遺伝的突然変異を、腫瘍起源または非腫瘍起源として分類するための方法
CN111445950B (zh) * 2020-03-19 2022-10-25 西安交通大学 一种基于滤波策略的高容错基因组复杂结构变异检测方法
CN113436679B (zh) * 2020-03-23 2024-05-10 北京合生基因科技有限公司 确定待测核酸样本变异率的方法和系统
JP7843243B2 (ja) 2020-04-30 2026-04-09 ガーダント ヘルス, インコーポレイテッド 分配された核酸を使用した配列決定のための方法
US20230183811A1 (en) * 2020-05-14 2023-06-15 Georgia Tech Research Corporation Methods of detecting the efficacy of anticancer agents
WO2021231921A1 (en) 2020-05-14 2021-11-18 Guardant Health, Inc. Homologous recombination repair deficiency detection
WO2021228418A1 (en) 2020-05-15 2021-11-18 Universal Diagnostics, S.L. Methods and systems for identifying methylation biomarkers
US12592321B2 (en) * 2020-06-19 2026-03-31 University Health Network Cancer detection and classification using methylome analysis
EP4407042A3 (en) 2020-07-10 2024-09-18 Guardant Health, Inc. Methods of detecting genomic rearrangements using cell free nucleic acids
WO2023282916A1 (en) 2021-07-09 2023-01-12 Guardant Health, Inc. Methods of detecting genomic rearrangements using cell free nucleic acids
ES3018032T3 (en) 2020-07-30 2025-05-14 Guardant Health Inc Methods for isolating cell-free dna
JP2023540904A (ja) 2020-08-25 2023-09-27 シアー, インコーポレイテッド タンパク質および核酸をアッセイするための組成物および方法
JP2023540221A (ja) 2020-08-25 2023-09-22 ガーダント ヘルス, インコーポレイテッド バリアントの起源を予測するための方法およびシステム
WO2022047213A2 (en) 2020-08-27 2022-03-03 Guardant Health, Inc. Computational detection of copy number variation at a locus in the absence of direct measurement of the locus
US20220154285A1 (en) 2020-09-30 2022-05-19 Guardant Health, Inc. Analysis of methylated dna comprising methylation-sensitive or methylation-dependent restrictions
US12234518B2 (en) 2020-10-23 2025-02-25 Guardant Health, Inc. Compositions and methods for analyzing DNA using partitioning and base conversion
EP4251765A1 (en) 2020-11-30 2023-10-04 Guardant Health, Inc. Compositions and methods for enriching methylated polynucleotides
EP4267757A1 (en) 2020-12-23 2023-11-01 Guardant Health, Inc. Methods and systems for analyzing methylated polynucleotides
CN112735516A (zh) * 2020-12-29 2021-04-30 上海派森诺生物科技股份有限公司 一种无参考基因组的群体变异检测分析方法
CN112908411B (zh) * 2021-01-12 2024-05-14 广州市金域转化医学研究院有限公司 一种线粒体变异位点数据库及其建立方法和应用
WO2022174109A1 (en) 2021-02-12 2022-08-18 Guardant Health, Inc. Methods and compositions for detecting nucleic acid variants
US20220411876A1 (en) 2021-03-05 2022-12-29 Guardant Health, Inc. Methods and related aspects for analyzing molecular response
JP2024512372A (ja) 2021-03-09 2024-03-19 ガーダント ヘルス, インコーポレイテッド オフターゲットポリヌクレオチド配列決定データに基づく腫瘍の存在の検出
EP4314329A1 (en) 2021-03-25 2024-02-07 Guardant Health, Inc. Methods and compositions for quantifying immune cell dna
CN113130005B (zh) * 2021-04-12 2022-11-22 中国科学院东北地理与农业生态研究所 一种基于m2群体的候选因果突变位点基因定位的方法
US11783912B2 (en) 2021-05-05 2023-10-10 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
WO2022251655A1 (en) 2021-05-28 2022-12-01 Guardant Health, Inc. Compositions and methods for assaying circulating molecules
CN113284555B (zh) * 2021-06-11 2023-08-22 中山大学 一种基因突变网络的构建方法、装置、设备及存储介质
JP2024523401A (ja) 2021-06-21 2024-06-28 ガーダント ヘルス, インコーポレイテッド コピー数情報に基づく組織起源分析のための方法および組成物
WO2023283551A1 (en) * 2021-07-06 2023-01-12 Switch Therapeutics Inc. Methods of designing conditional-activatable small interfering rna sensors
EP4385021A4 (en) * 2021-08-10 2025-08-06 Univ Cornell ULTRASENSITIVE LIQUID BIOPSY BY PLASMA WHOLE GENOME SEQUENCING USING DEEP LEARNING
EP4409024A1 (en) 2021-09-30 2024-08-07 Guardant Health, Inc. Compositions and methods for synthesis and use of probes targeting nucleic acid rearrangements
CA3233805A1 (en) * 2021-10-04 2023-04-13 The Chinese University Of Hong Kong Sequencing of viral dna for predicting disease relapse
JP2024540168A (ja) 2021-11-02 2024-10-31 ガーダント ヘルス, インコーポレイテッド 品質管理方法
WO2023097325A2 (en) * 2021-11-29 2023-06-01 Mammoth Biosciences, Inc. Systems and methods for identifying genetic phenotypes using programmable nucleases
CN114703263B (zh) * 2021-12-20 2023-09-22 北京科迅生物技术有限公司 一种群组染色体拷贝数变异检测方法及装置
EP4453241A1 (en) 2021-12-21 2024-10-30 Guardant Health, Inc. Methods and systems for combinatorial chromatin-ip sequencing
EP4453240A1 (en) 2021-12-23 2024-10-30 Guardant Health, Inc. Compositions and methods for detection of metastasis
JP2025509878A (ja) 2022-03-21 2025-04-11 ビリオントゥーワン,インコーポレイテッド 処置モニタリングのためのメチル化セルフリーdnaの分子計数
CA3246524A1 (en) 2022-04-07 2023-10-12 Guardant Health, Inc. TUMOR PRESENCE DETECTION BASED ON THE METHYLATION STATE OF ACELLULAR NUCLEIC ACID MOLECULES
CN114724628B (zh) * 2022-04-24 2022-11-08 华中农业大学 一种对多物种进行多核苷酸变异鉴定和注释的方法
EP4523213A1 (en) 2022-05-09 2025-03-19 Guardant Health, Inc. Detecting degradation based on strand bias
JP2025522763A (ja) 2022-06-30 2025-07-17 ガーダント ヘルス, インコーポレイテッド 異常にメチル化されたdnaの富化
US20240191290A1 (en) 2022-07-21 2024-06-13 Guardant Health, Inc. Methods for detection and reduction of sample preparation-induced methylation artifacts
WO2024059840A1 (en) 2022-09-16 2024-03-21 Guardant Health, Inc. Compositions and methods for analyzing soluble proteins
WO2024073508A2 (en) 2022-09-27 2024-04-04 Guardant Health, Inc. Methods and compositions for quantifying immune cell dna
CN120188220A (zh) 2022-11-15 2025-06-20 夸登特健康公司 用来自基线循环肿瘤DNA(ctDNA)水平和ctDNA水平随时间纵向变化的信号从ctDNA预测非小细胞肺癌(NSCLC)患者药物响应或直至死亡或癌症进展的时间的方法
US12606872B2 (en) 2022-11-16 2026-04-21 Universal Diagnostics, S.A. Methods for stratification and early detection of advanced adenoma and/or colorectal cancer using DNA methylation markers
KR20250111338A (ko) 2022-11-17 2025-07-22 가던트 헬쓰, 인크. 무세포 dna 액체 생검 검정에서 비-종양 변이체를 분류하기 위한 생물정보학적 모델의 검증
AU2023409008A1 (en) 2022-12-21 2025-06-26 Guardant Health, Inc. Detecting homologous recombination deficiences based on methylation status of cell-free nucleic acid molecules
JP2025542261A (ja) 2022-12-22 2025-12-25 ガーダント ヘルス, インコーポレイテッド 統合された対象および全ゲノム体細胞およびdnaメチル化シーケンシングワークフロー
EP4638781A2 (en) 2022-12-22 2025-10-29 Guardant Health, Inc. Methods involving methylation preserving amplification with error correction
EP4649489A1 (en) 2023-01-11 2025-11-19 Guardant Health, Inc. Joint modeling of longitudinal and time-to-event data to predict patient survival
EP4655416A1 (en) 2023-01-25 2025-12-03 Guardant Health, Inc. Nucleic acid methylation profiling method
CN115798580B (zh) * 2023-02-10 2023-11-07 北京中仪康卫医疗器械有限公司 基于基因型填补和低深度测序的一体化基因组分析方法
CN120898247A (zh) 2023-04-07 2025-11-04 夸登特健康公司 基于无细胞核酸分子的甲基化状态检测肿瘤的存在
US20250101522A1 (en) 2023-04-12 2025-03-27 Guardant Health, Inc. Brca1 promoter methylation in sporadic breast cancer patients detected by liquid biopsy
EP4705514A1 (en) 2023-05-01 2026-03-11 Guardant Health, Inc. Quality control method for enzymatic conversion procedures
WO2024229433A1 (en) 2023-05-03 2024-11-07 Guardant Health, Inc. Methods for analysis of dna methylation
EP4705522A1 (en) 2023-05-05 2026-03-11 Guardant Health, Inc. Cell-free dna blood-based test for cancer screening
WO2024259251A1 (en) 2023-06-15 2024-12-19 Guardant Health, Inc. Method for hrd detection in targeted cfdna samples using de novo mutational signatures
WO2024264065A1 (en) 2023-06-23 2024-12-26 Guardant Health, Inc. Methods and compositions for quantifying immune cell nucleic acids
WO2025007034A1 (en) 2023-06-29 2025-01-02 Guardant Health, Inc. Methods for determining surveillance and therapy for diseases
WO2025029475A1 (en) 2023-07-28 2025-02-06 Guardant Health, Inc. Methods to enrich nucleotide variants by negative selection
WO2025038399A1 (en) 2023-08-11 2025-02-20 Guardant Health, Inc. Methylated enrichment methods for single-molecule genetic and epigenetic sequencing
US20250084469A1 (en) 2023-09-12 2025-03-13 Guardant Health, Inc. Methods for analyzing nucleic acids using sequence read family size distribution
WO2025064706A1 (en) 2023-09-19 2025-03-27 Guardant Health, Inc. Detecting the presence of a tumor based on methylation status of cell-free nucleic acid molecules
WO2025072467A1 (en) 2023-09-29 2025-04-03 Guardant Health, Inc. Genotyping cyp2d6
WO2025076452A1 (en) 2023-10-06 2025-04-10 Guardant Health, Inc. Detecting tumor-related information based on methylation status of cell-free nucleic acid molecules
WO2025076425A1 (en) 2023-10-06 2025-04-10 Guardant Health, Inc. Genomic and methylation biomarkers for prediction of copy number loss / gene deletion
WO2025079958A1 (ko) * 2023-10-11 2025-04-17 고려대학교 산학협력단 높은 처리량의 돌연변이 특이적 아답터 리게이션 방법
WO2025085784A1 (en) 2023-10-18 2025-04-24 Guardant Health, Inc. Genomic and methylation biomarkers for determining patient risk of heart disease and novel genomic and epigenomic drug targets to decrease risk of heart disease and/or improve patient outcome after myocardial infarction or cardiac injury
WO2025090956A1 (en) 2023-10-26 2025-05-01 Guardant Health, Inc. Methods for detecting nucleic acid variants using capture probes
WO2025090954A1 (en) 2023-10-26 2025-05-01 Guardant Health, Inc. Methods for detecting nucleic acid variants
WO2025090646A1 (en) 2023-10-27 2025-05-01 Guardant Health, Inc. Monitoring molecular response by allelic imbalance
WO2025106263A1 (en) 2023-11-15 2025-05-22 Guardant Health, Inc. Joint modeling of longitudinal and time-to-event data to predict patient survival
US20250243550A1 (en) 2023-11-15 2025-07-31 Guardant Health, Inc. Minimum residual disease (mrd) detection in early stage cancer using urine
WO2025137620A1 (en) 2023-12-21 2025-06-26 Guardant Health, Inc. Methods for high quality and high accuracy methylation sequencing
WO2025137389A2 (en) 2023-12-22 2025-06-26 Guardant Health, Inc. Methods for targeted single-molecule genetic and epigenetic sequencing
WO2025160433A1 (en) * 2024-01-24 2025-07-31 Guardant Health, Inc. Methods for analyzing sequencing reads
WO2025207817A1 (en) 2024-03-26 2025-10-02 Guardant Health, Inc. Method of determining the likelihood of a disease by combining biomarkers and imaging
US20250308636A1 (en) 2024-03-27 2025-10-02 Guardant Health, Inc. Inferring cnvs from the distribution of molecules in hyper partition
WO2025208044A1 (en) 2024-03-28 2025-10-02 Guardant Health, Inc. Methods for cancer detection using molecular patterns
WO2025207924A1 (en) 2024-03-28 2025-10-02 Guardant Health, Inc. Methods for selective deamination using cpg-binding proteins
WO2025212664A1 (en) 2024-04-01 2025-10-09 Guardant Health, Inc. Small variant calling with error-rate based model
WO2025235602A1 (en) 2024-05-07 2025-11-13 Guardant Health, Inc. Predictive, prognostic signatures for immuno-oncology using liquid biopsy
WO2025235889A1 (en) 2024-05-10 2025-11-13 Guardant Health, Inc. Methods involving multiplexed pooled pcr
WO2025245131A1 (en) * 2024-05-21 2025-11-27 SAGA Dx, Inc. Tumor marker selection and detection
WO2025250544A1 (en) 2024-05-31 2025-12-04 Guardant Health, Inc. Methods for analyzing chromatin architecture in tissue to boost detection of cancer associated signals in cell-free dna
US12467087B1 (en) 2024-06-25 2025-11-11 Guardant Health, Inc. Sequencing methods with partitioning
WO2026006432A2 (en) 2024-06-25 2026-01-02 Guardant Health, Inc. Sequencing methods with partitioning
WO2026015607A1 (en) 2024-07-09 2026-01-15 Guardant Health, Inc. Methods for partitioning hyper-, hypo-, and non-methylated dna
WO2026015794A1 (en) 2024-07-12 2026-01-15 Guardant Health, Inc. Methods for modifying dna using cpg-specific deamination and uracil base excision
WO2026024817A1 (en) 2024-07-24 2026-01-29 Guardant Health, Inc. Methods and compositions for anchored multiplex ngs workflows
WO2026024956A1 (en) 2024-07-24 2026-01-29 Guardant Health, Inc. Selecting low technical noise biomarkers for sensitive molecular diagnostics
WO2026024692A1 (en) 2024-07-24 2026-01-29 Guardant Health, Inc. Direct methylation single-base resolution sequencing of enriched unmethylated dna
WO2026043702A1 (en) 2024-08-21 2026-02-26 Guardant Health, Inc. Methods and approaches for personalized identification and monitoring of extrachromosomal circular dna
WO2026043718A1 (en) 2024-08-21 2026-02-26 Guardant Health, Inc. Methods to monitor patients treated with a cancer vaccine
WO2026050179A1 (en) 2024-08-26 2026-03-05 Guardant Health, Inc. Tumor fraction (tf) is associated with real-world progression-free survival (rwpfs) in non-small-cell lung cancer (nsclc) patients treated with platinum-based chemotherapy (chemo)
WO2026050287A1 (en) 2024-08-27 2026-03-05 Guardant Health, Inc. Methylation biomarkers for osimertinib treatment management
WO2026060266A1 (en) 2024-09-13 2026-03-19 Guardant Health, Inc. Use of copy number variants for the identification of false positive tumor calls
WO2026064529A2 (en) 2024-09-18 2026-03-26 Guardant Health, Inc. Methods for detecting nucleic acid variants using primers and ligation substrates
WO2026073140A1 (en) 2024-09-27 2026-04-02 Guardant Health, Inc. Framework to identify genomic regions indicative of one or more biological conditions
WO2026076332A1 (en) 2024-10-03 2026-04-09 Guardant Health, Inc. Methods involving multi-modal tumor variant identification and tracking of tumor molecules
WO2026080838A2 (en) 2024-10-11 2026-04-16 Guardant Health, Inc. Methods for detecting nucleic acid variants

Family Cites Families (279)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US604804A (en) * 1898-05-31 Shuttle for looms
US4725536A (en) 1985-09-19 1988-02-16 Genetics Institute, Inc. Reagent polynucleotide complex with multiple target binding regions, and kit and methods
US6150517A (en) 1986-11-24 2000-11-21 Gen-Probe Methods for making oligonucleotide probes for the detection and/or quantitation of non-viral organisms
US5149625A (en) 1987-08-11 1992-09-22 President And Fellows Of Harvard College Multiplex analysis of DNA
US4942124A (en) 1987-08-11 1990-07-17 President And Fellows Of Harvard College Multiplex sequencing
US5124246A (en) 1987-10-15 1992-06-23 Chiron Corporation Nucleic acid multimers and amplified nucleic acid hybridization assays using same
US5656731A (en) 1987-10-15 1997-08-12 Chiron Corporation Nucleic acid-amplified immunoassay probes
US5800992A (en) 1989-06-07 1998-09-01 Fodor; Stephen P.A. Method of detecting nucleic acids
US5925525A (en) 1989-06-07 1999-07-20 Affymetrix, Inc. Method of identifying nucleotide differences
US5871928A (en) 1989-06-07 1999-02-16 Fodor; Stephen P. A. Methods for nucleic acid analysis
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US6551784B2 (en) 1989-06-07 2003-04-22 Affymetrix Inc Method of comparing nucleic acid sequences
US5424186A (en) 1989-06-07 1995-06-13 Affymax Technologies N.V. Very large scale immobilized polymer synthesis
US5744101A (en) 1989-06-07 1998-04-28 Affymax Technologies N.V. Photolabile nucleoside protecting groups
US6309822B1 (en) 1989-06-07 2001-10-30 Affymetrix, Inc. Method for comparing copy number of nucleic acid sequences
US6040138A (en) 1995-09-15 2000-03-21 Affymetrix, Inc. Expression monitoring by hybridization to high density oligonucleotide arrays
US5200314A (en) 1990-03-23 1993-04-06 Chiron Corporation Polynucleotide capture assay employing in vitro amplification
DE69132905T2 (de) 1990-12-06 2002-08-01 Affymetrix, Inc. (N.D.Ges.D.Staates Delaware) Detektion von Nukleinsäuresequenzen
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US5981179A (en) 1991-11-14 1999-11-09 Digene Diagnostics, Inc. Continuous amplification reaction
US5424413A (en) 1992-01-22 1995-06-13 Gen-Probe Incorporated Branched nucleic acid probes
US5573905A (en) 1992-03-30 1996-11-12 The Scripps Research Institute Encoded combinatorial chemical libraries
US6020124A (en) 1992-04-27 2000-02-01 Trustees Of Dartmouth College Detection of soluble gene sequences in biological fluids
US5981176A (en) 1992-06-17 1999-11-09 City Of Hope Method of detecting and discriminating between nucleic acid sequences
DE69431719T2 (de) 1993-06-25 2003-09-18 Affymetrix, Inc. (N.D.Ges.D.Staates Delaware) Hybridisierung und sequenzierung von nukleinsäuren
US5500356A (en) 1993-08-10 1996-03-19 Life Technologies, Inc. Method of nucleic acid sequence selection
US6309823B1 (en) 1993-10-26 2001-10-30 Affymetrix, Inc. Arrays of nucleic acid probes for analyzing biotransformation genes and methods of using the same
US5681697A (en) 1993-12-08 1997-10-28 Chiron Corporation Solution phase nucleic acid sandwich assays having reduced background noise and kits therefor
CH686982A5 (fr) 1993-12-16 1996-08-15 Maurice Stroun Méthode pour le diagnostic de cancers.
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
US5714330A (en) 1994-04-04 1998-02-03 Lynx Therapeutics, Inc. DNA sequencing by stepwise ligation and cleavage
US5604097A (en) 1994-10-13 1997-02-18 Spectragen, Inc. Methods for sorting polynucleotides using oligonucleotide tags
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5695934A (en) 1994-10-13 1997-12-09 Lynx Therapeutics, Inc. Massively parallel sequencing of sorted polynucleotides
US6013445A (en) 1996-06-06 2000-01-11 Lynx Therapeutics, Inc. Massively parallel signature sequencing by ligation of encoded adaptors
US6600996B2 (en) 1994-10-21 2003-07-29 Affymetrix, Inc. Computer-aided techniques for analyzing biological sequences
EP0709466B1 (en) 1994-10-28 2006-09-27 Gen-Probe Incorporated Compositions and methods for the simultaneous detection and quantification of multiple specific nucleic acid sequences
US5648245A (en) 1995-05-09 1997-07-15 Carnegie Institution Of Washington Method for constructing an oligonucleotide concatamer library by rolling circle replication
US5968740A (en) 1995-07-24 1999-10-19 Affymetrix, Inc. Method of Identifying a Base in a Nucleic Acid
GB9516636D0 (en) 1995-08-14 1995-10-18 Univ London In-situ nucleic acid amplification and detection
US5763175A (en) 1995-11-17 1998-06-09 Lynx Therapeutics, Inc. Simultaneous sequencing of tagged polynucleotides
US5854033A (en) 1995-11-21 1998-12-29 Yale University Rolling circle replication reporter systems
AU2324997A (en) 1996-03-15 1997-10-01 Penn State Research Foundation, The Detection of extracellular tumor-associated nucleic acid in blood plasma or ser um using nucleic acid amplification assays
ATE471150T1 (de) 1996-03-26 2010-07-15 Kopreski Michael S Methoden aus plasma oder serum extrahierte extrazelluraere rna zur diagnoseüberwachung oder evaluation von krebs verwenden
US6458530B1 (en) 1996-04-04 2002-10-01 Affymetrix Inc. Selecting tag nucleic acids
US6300077B1 (en) 1996-08-14 2001-10-09 Exact Sciences Corporation Methods for the detection of nucleic acids
WO1998015644A2 (en) 1996-09-27 1998-04-16 The Chinese University Of Hong Kong Parallel polynucleotide sequencing method
US6124092A (en) 1996-10-04 2000-09-26 The Perkin-Elmer Corporation Multiplex polynucleotide capture methods and compositions
US6117631A (en) 1996-10-29 2000-09-12 Polyprobe, Inc. Detection of antigens via oligonucleotide antibody conjugates
US6046005A (en) 1997-01-15 2000-04-04 Incyte Pharmaceuticals, Inc. Nucleic acid sequencing with solid phase capturable terminators comprising a cleavable linking group
EP0985142A4 (en) 1997-05-23 2006-09-13 Lynx Therapeutics Inc SYSTEM AND APPARATUS FOR THE SEQUENTIAL TREATMENT OF ANALYTES
AU1603199A (en) 1997-12-03 1999-06-16 Curagen Corporation Methods and devices for measuring differential gene expression
AU5584999A (en) 1998-08-28 2000-03-21 Invitrogen Corporation System for the rapid manipulation of nucleic acid sequences
US6653077B1 (en) 1998-09-04 2003-11-25 Lynx Therapeutics, Inc. Method of screening for genetic polymorphism
US6503718B2 (en) 1999-01-10 2003-01-07 Exact Sciences Corporation Methods for detecting mutations using primer extension for detecting disease
US6573053B1 (en) 1999-02-05 2003-06-03 Amersham Biosciences Uk Limited Analysis method
US6629040B1 (en) 1999-03-19 2003-09-30 University Of Washington Isotope distribution encoded tags for protein identification
EP1165839A2 (en) 1999-03-26 2002-01-02 Whitehead Institute For Biomedical Research Universal arrays
CA2366778C (en) 1999-04-09 2008-07-22 Exact Sciences Corporation Methods for detecting nucleic acids indicative of cancer
US6355431B1 (en) 1999-04-20 2002-03-12 Illumina, Inc. Detection of nucleic acid amplification reactions using bead arrays
CA2304260C (en) 1999-04-20 2009-03-24 Japan Bioindustry Association Method for determining a concentration of target nucleic acid molecules, nucleic acid probes for the method and method for analyzing data obtained by the method
US6242186B1 (en) 1999-06-01 2001-06-05 Oy Jurilab Ltd. Method for detecting a risk of cancer and coronary heart disease and kit therefor
US6326148B1 (en) 1999-07-12 2001-12-04 The Regents Of The University Of California Detection of copy number changes in colon cancer
US6440706B1 (en) 1999-08-02 2002-08-27 Johns Hopkins University Digital amplification
US6849403B1 (en) 1999-09-08 2005-02-01 Exact Sciences Corporation Apparatus and method for drug screening
US6586177B1 (en) 1999-09-08 2003-07-01 Exact Sciences Corporation Methods for disease detection
WO2001042781A2 (en) 1999-12-07 2001-06-14 Exact Sciences Corporation Supracolonic aerodigestive neoplasm detection
US6489114B2 (en) 1999-12-17 2002-12-03 Bio Merieux Process for labeling a ribonucleic acid, and labeled RNA fragments which are obtained thereby
EP1990428B1 (en) 2000-02-07 2010-12-22 Illumina, Inc. Nucleic acid detection methods using universal priming
US20020072058A1 (en) 2000-03-24 2002-06-13 Voelker Leroy L. Method for amplifying quinolone-resistance-determining-regions and identifying polymorphic variants thereof
US20030207300A1 (en) 2000-04-28 2003-11-06 Matray Tracy J. Multiplex analytical platform using molecular tags
EP1158055A1 (fr) 2000-05-26 2001-11-28 Xu Qi University of Teaxs Laboratoire de Leucémie Chen Méthode pour le diagnostic de cancers
DE60131903T2 (de) 2000-10-24 2008-11-27 The Board of Trustees of the Leland S. Stanford Junior University, Palo Alto Direkte multiplex charakterisierung von genomischer dna
US20020142345A1 (en) 2000-12-22 2002-10-03 Nelsen Anita J. Methods for encoding and decoding complex mixtures in arrayed assays
US20030049616A1 (en) 2001-01-08 2003-03-13 Sydney Brenner Enzymatic synthesis of oligonucleotide tags
US6428964B1 (en) 2001-03-15 2002-08-06 Exact Sciences Corporation Method for alteration detection
CA2344599C (en) 2001-05-07 2011-07-12 Bioneer Corporation Selective polymerase chain reaction of dna of which base sequence is completely unknown
US7406385B2 (en) 2001-10-25 2008-07-29 Applera Corporation System and method for consensus-calling with per-base quality values for sample assemblies
EP1342794B1 (en) 2002-03-05 2005-12-14 Epigenomics AG Method and device for determination of tissue specificity of free floating DNA in bodily fluids
US20030186251A1 (en) 2002-04-01 2003-10-02 Brookhaven Science Associates, Llc Genome sequence tags
US7727720B2 (en) 2002-05-08 2010-06-01 Ravgen, Inc. Methods for detection of genetic disorders
US10229244B2 (en) 2002-11-11 2019-03-12 Affymetrix, Inc. Methods for identifying DNA copy number changes using hidden markov model based estimations
US7822555B2 (en) 2002-11-11 2010-10-26 Affymetrix, Inc. Methods for identifying DNA copy number changes
CA2505472A1 (en) 2002-11-11 2004-05-27 Affymetrix, Inc. Methods for identifying dna copy number changes
US7704687B2 (en) 2002-11-15 2010-04-27 The Johns Hopkins University Digital karyotyping
US20040209299A1 (en) 2003-03-07 2004-10-21 Rubicon Genomics, Inc. In vitro DNA immortalization and whole genome amplification using libraries generated from randomly fragmented DNA
US20040259118A1 (en) 2003-06-23 2004-12-23 Macevicz Stephen C. Methods and compositions for nucleic acid sequence analysis
EP1641809B2 (en) 2003-07-05 2018-10-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
DE60328193D1 (de) 2003-10-16 2009-08-13 Sequenom Inc Nicht invasiver Nachweis fötaler genetischer Merkmale
DE10348407A1 (de) 2003-10-17 2005-05-19 Widschwendter, Martin, Prof. Prognostische und diagnostische Marker für Zell-proliferative Erkrankungen von Brustgeweben
US20070111233A1 (en) 2003-10-30 2007-05-17 Bianchi Diana W Prenatal diagnosis using cell-free fetal DNA in amniotic fluid
JP2007524410A (ja) 2004-01-23 2007-08-30 リングヴィテ エーエス ポリヌクレオチドライゲーション反応の改良
DE602005018166D1 (de) 2004-02-12 2010-01-21 Population Genetics Technologi Genetische analyse mittels sequenzspezifischem sortieren
US20100216153A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US20060046258A1 (en) 2004-02-27 2006-03-02 Lapidus Stanley N Applications of single molecule sequencing
WO2005111242A2 (en) 2004-05-10 2005-11-24 Parallele Bioscience, Inc. Digital profiling of polynucleotide populations
US7276720B2 (en) 2004-07-19 2007-10-02 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060035258A1 (en) 2004-08-06 2006-02-16 Affymetrix, Inc. Methods for identifying DNA copy number changes
US7937225B2 (en) 2004-09-03 2011-05-03 New York University Systems, methods and software arrangements for detection of genome copy number variation
US20060073506A1 (en) 2004-09-17 2006-04-06 Affymetrix, Inc. Methods for identifying biological samples
WO2006047787A2 (en) 2004-10-27 2006-05-04 Exact Sciences Corporation Method for monitoring disease progression or recurrence
US7424371B2 (en) 2004-12-21 2008-09-09 Helicos Biosciences Corporation Nucleic acid analysis
US7393665B2 (en) 2005-02-10 2008-07-01 Population Genetics Technologies Ltd Methods and compositions for tagging and identifying polynucleotides
ITRM20050068A1 (it) 2005-02-17 2006-08-18 Istituto Naz Per Le Malattie I Metodo per la rivelazione di acidi nucleici di agenti patogeni batterici o di parassiti nelle urine.
WO2006099604A2 (en) 2005-03-16 2006-09-21 Compass Genetics, Llc Methods and compositions for assay readouts on multiple analytical platforms
EP1861512A4 (en) 2005-03-18 2009-12-09 Fluidigm Corp THERMAL REACTION DEVICE AND USE METHOD THEREFOR
EP1712639B1 (en) 2005-04-06 2008-08-27 Maurice Stroun Method for the diagnosis of cancer by detecting circulating DNA and RNA
US20070020640A1 (en) 2005-07-21 2007-01-25 Mccloskey Megan L Molecular encoding of nucleic acid templates for PCR and other forms of sequence analysis
US7666593B2 (en) 2005-08-26 2010-02-23 Helicos Biosciences Corporation Single molecule sequencing of captured nucleic acids
US20090170713A1 (en) 2005-09-29 2009-07-02 Keygene N.V. High throughput screening of mutagenized populations
WO2007087312A2 (en) 2006-01-23 2007-08-02 Population Genetics Technologies Ltd. Molecular counting
US20070172839A1 (en) 2006-01-24 2007-07-26 Smith Douglas R Asymmetrical adapters and methods of use thereof
US8383338B2 (en) 2006-04-24 2013-02-26 Roche Nimblegen, Inc. Methods and systems for uniform enrichment of genomic regions
US7702468B2 (en) 2006-05-03 2010-04-20 Population Diagnostics, Inc. Evaluating genetic disorders
CN103424541B (zh) 2006-05-18 2018-01-30 分子压型学会股份有限公司 确定针对病状的个性化医疗介入的系统和方法
US20080090239A1 (en) 2006-06-14 2008-04-17 Daniel Shoemaker Rare cell analysis using sample splitting and dna tags
FR2904833A1 (fr) 2006-08-11 2008-02-15 Bioquanta Sarl Procede de dosage d'acide nuclieque par fluorescence
US8603749B2 (en) 2006-11-15 2013-12-10 Biospherex, LLC Multitag sequencing ecogenomics analysis-US
WO2008070144A2 (en) 2006-12-06 2008-06-12 Duke University Imprinted genes and disease
US9090693B2 (en) 2007-01-25 2015-07-28 Dana-Farber Cancer Institute Use of anti-EGFR antibodies in treatment of EGFR mutant mediated disease
AR065687A1 (es) 2007-03-13 2009-06-24 Amgen Inc Metodo para determinar la presencia o no de una mutacion k-ras y terapia con anticuerpos anti-egfr
WO2008148072A2 (en) 2007-05-24 2008-12-04 The Brigham And Women's Hospital, Inc. Disease-associated genetic variations and methods for obtaining and using same
EP2164985A4 (en) 2007-06-01 2014-05-14 454 Life Sciences Corp SYSTEM AND METHOD FOR IDENTIFYING INDIVIDUAL SAMPLES FROM A MULTIPLEX MIXTURE
US8182993B2 (en) * 2007-06-06 2012-05-22 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
LT2557517T (lt) 2007-07-23 2023-01-10 The Chinese University Of Hong Kong Nukleino rūgščių sekos disbalanso nustatymas
US12180549B2 (en) 2007-07-23 2024-12-31 The Chinese University Of Hong Kong Diagnosing fetal chromosomal aneuploidy using genomic sequencing
US20090053719A1 (en) 2007-08-03 2009-02-26 The Chinese University Of Hong Kong Analysis of nucleic acids by digital pcr
CA2698545C (en) 2007-09-07 2014-07-08 Fluidigm Corporation Copy number variation determination, methods and systems
US20100173294A1 (en) 2007-09-11 2010-07-08 Roche Molecular Systems, Inc. Diagnostic test for susceptibility to b-raf kinase inhibitors
WO2009085473A2 (en) 2007-11-21 2009-07-09 Cosmosid Inc. Genome identification system
WO2009102632A2 (en) 2008-02-12 2009-08-20 Biocept, Inc. Method for isolating cell free apoptotic or fetal nucleic acids
US8216789B2 (en) 2008-02-27 2012-07-10 University Of Washington Diagnostic panel of cancer antibodies and methods for use
US20110003701A1 (en) 2008-02-27 2011-01-06 454 Life Sciences Corporation System and method for improved processing of nucleic acids for production of sequencable libraries
WO2009120808A2 (en) 2008-03-26 2009-10-01 Sequenom, Inc. Restriction endonuclease enhanced polymorphic sequence detection
MX2010010600A (es) 2008-03-28 2011-03-30 Pacific Biosciences California Inc Composiciones y metodos para secuenciacion de acidos nucleicos.
US20110160290A1 (en) 2008-05-21 2011-06-30 Muneesh Tewari Use of extracellular rna to measure disease
DE102008025656B4 (de) 2008-05-28 2016-07-28 Genxpro Gmbh Verfahren zur quantitativen Analyse von Nukleinsäuren, Marker dafür und deren Verwendung
US20090298709A1 (en) 2008-05-28 2009-12-03 Affymetrix, Inc. Assays for determining telomere length and repeated sequence copy number
CN102165073A (zh) 2008-07-10 2011-08-24 骆树恩 用于核酸作图和鉴定核酸中的精细结构变化的方法
US20100041048A1 (en) 2008-07-31 2010-02-18 The Johns Hopkins University Circulating Mutant DNA to Assess Tumor Dynamics
US20100062494A1 (en) 2008-08-08 2010-03-11 President And Fellows Of Harvard College Enzymatic oligonucleotide pre-adenylation
WO2010021936A1 (en) 2008-08-16 2010-02-25 The Board Of Trustees Of The Leland Stanford Junior University Digital pcr calibration for high throughput sequencing
US8583380B2 (en) 2008-09-05 2013-11-12 Aueon, Inc. Methods for stratifying and annotating cancer drug treatment options
US8383345B2 (en) * 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
HUE031848T2 (en) 2008-09-20 2017-08-28 Univ Leland Stanford Junior Non-invasive diagnosis of fetal aneuploidy by sequencing
WO2010075188A2 (en) 2008-12-23 2010-07-01 Illumina Inc. Multibase delivery for long reads in sequencing by synthesis protocols
ES2403312T3 (es) 2009-01-13 2013-05-17 Keygene N.V. Nuevas estrategias para la secuenciación del genoma
US20100323348A1 (en) 2009-01-31 2010-12-23 The Regents Of The University Of Colorado, A Body Corporate Methods and Compositions for Using Error-Detecting and/or Error-Correcting Barcodes in Nucleic Acid Amplification Process
US20120165202A1 (en) 2009-04-30 2012-06-28 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers
WO2010127186A1 (en) 2009-04-30 2010-11-04 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
US20130143747A1 (en) 2011-12-05 2013-06-06 Myriad Genetics, Incorporated Methods of detecting cancer
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
CN102459643B (zh) 2009-06-25 2016-06-01 弗雷德哈钦森癌症研究中心 检测获得性免疫的方法
WO2011011426A2 (en) 2009-07-20 2011-01-27 Bar Harbor Biotechnology, Inc. Methods for assessing disease risk
AU2010311535B2 (en) 2009-10-26 2015-05-21 Lifecodexx Ag Means and methods for non-invasive diagnosis of chromosomal aneuploidy
US9361426B2 (en) 2009-11-12 2016-06-07 Esoterix Genetic Laboratories, Llc Copy number analysis of genetic locus
US20110237444A1 (en) 2009-11-20 2011-09-29 Life Technologies Corporation Methods of mapping genomic methylation patterns
US9023769B2 (en) 2009-11-30 2015-05-05 Complete Genomics, Inc. cDNA library for nucleic acid sequencing
US9752187B2 (en) 2009-12-11 2017-09-05 Nucleix Categorization of DNA samples
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US9315857B2 (en) 2009-12-15 2016-04-19 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse label-tags
EP3088532B1 (en) 2009-12-22 2019-10-30 Sequenom, Inc. Processes and kits for identifying aneuploidy
US8965076B2 (en) 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
US20120100548A1 (en) * 2010-10-26 2012-04-26 Verinata Health, Inc. Method for determining copy number variations
US20110177512A1 (en) 2010-01-19 2011-07-21 Predictive Biosciences, Inc. Method for assuring amplification of an abnormal nucleic acid in a sample
ES2534758T3 (es) 2010-01-19 2015-04-28 Verinata Health, Inc. Métodos de secuenciación en diagnósticos prenatales
US20120010085A1 (en) * 2010-01-19 2012-01-12 Rava Richard P Methods for determining fraction of fetal nucleic acids in maternal samples
CA2786564A1 (en) 2010-01-19 2011-07-28 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing
WO2011103236A2 (en) 2010-02-18 2011-08-25 The Johns Hopkins University Personalized tumor biomarkers
WO2011115937A1 (en) 2010-03-14 2011-09-22 The Translational Genomics Research Institute Methods of determining susceptibility of tumors to tyrosine kinase inhibitors
CN101967517B (zh) 2010-03-19 2012-11-07 黄乐群 一种无需借助pcr的基因检测方法
US10047397B2 (en) 2010-04-16 2018-08-14 Chronix Biomedical Breast cancer associated circulating nucleic acid biomarkers
WO2011140510A2 (en) 2010-05-06 2011-11-10 Bioo Scientific Corporation Oligonucleotide ligation, barcoding and methods and compositions for improving data quality and throughput using massively parallel sequencing
US20140186827A1 (en) * 2010-05-14 2014-07-03 Fluidigm, Inc. Assays for the detection of genotype, mutations, and/or aneuploidy
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
CA2801468C (en) 2010-06-04 2018-09-04 Chronix Biomedical Prostate cancer associated circulating nucleic acid biomarkers
DK3425062T3 (da) 2010-06-09 2023-09-04 Keygene Nv Stregkoder med kombinatorisk sekvens til høj gennemløbsscreening
EP2400035A1 (en) 2010-06-28 2011-12-28 Technische Universität München Methods and compositions for diagnosing gastrointestinal stromal tumors
WO2012006291A2 (en) 2010-07-06 2012-01-12 Life Technologies Corporation Systems and methods to detect copy number variation
WO2012012693A2 (en) 2010-07-23 2012-01-26 President And Fellows Of Harvard College Methods for detecting signatures of disease or conditions in bodily fluids
EP2599545B1 (en) 2010-07-29 2019-09-04 Toto Ltd. Photocatalyst coated body and photocatalyst coating liquid
CN103392182B (zh) 2010-08-02 2017-07-04 众有生物有限公司 用于发现遗传疾病中致病突变的系统和方法
US20120034603A1 (en) 2010-08-06 2012-02-09 Tandem Diagnostics, Inc. Ligation-based detection of genetic variants
US11031095B2 (en) * 2010-08-06 2021-06-08 Ariosa Diagnostics, Inc. Assay systems for determination of fetal copy number variation
EP2426217A1 (en) 2010-09-03 2012-03-07 Centre National de la Recherche Scientifique (CNRS) Analytical methods for cell free nucleic acids and applications
AU2011299088B2 (en) 2010-09-09 2015-12-24 Traxxsson, Llc Combination methods of diagnosing cancer in a patient
CA2811185C (en) 2010-09-21 2020-09-22 Population Genetics Technologies Ltd. Increasing confidence of allele calls with molecular counting
RU2565550C2 (ru) 2010-09-24 2015-10-20 Те Борд Оф Трастиз Оф Те Лилэнд Стэнфорд Джуниор Юниверсити Прямой захват, амплификация и секвенирование днк-мишени с использованием иммобилизированных праймеров
WO2012042374A2 (en) 2010-10-01 2012-04-05 Anssi Jussi Nikolai Taipale Method of determining number or concentration of molecules
EP2625320B1 (en) 2010-10-08 2019-03-27 President and Fellows of Harvard College High-throughput single cell barcoding
US8725422B2 (en) 2010-10-13 2014-05-13 Complete Genomics, Inc. Methods for estimating genome-wide copy number variations
CA3080686C (en) 2010-10-22 2023-10-10 Cold Spring Harbor Laboratory Varietal counting of nucleic acids for obtaining genomic copy number information
WO2012066451A1 (en) 2010-11-15 2012-05-24 Pfizer Inc. Prognostic and predictive gene signature for colon cancer
MX349568B (es) 2010-11-30 2017-08-03 Univ Hong Kong Chinese Deteccion de aberraciones geneticas o moleculares asociadas con el cancer.
WO2012088456A2 (en) 2010-12-22 2012-06-28 Natera, Inc. Methods for non-invasive prenatal paternity testing
CA2822439A1 (en) 2010-12-23 2012-06-28 Sequenom, Inc. Fetal genetic variation detection
US9163281B2 (en) 2010-12-23 2015-10-20 Good Start Genetics, Inc. Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction
KR20190002733A (ko) 2010-12-30 2019-01-08 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
WO2012097053A1 (en) 2011-01-11 2012-07-19 Via Genomes, Inc. Methods, systems, databases, kits and arrays for screening for and predicting the risk of and identifying the presence of tumors and cancers
WO2012103031A2 (en) 2011-01-25 2012-08-02 Ariosa Diagnostics, Inc. Detection of genetic abnormalities
US20140024539A1 (en) * 2011-02-02 2014-01-23 Translational Genomics Research Institute Biomarkers and methods of use thereof
AU2011358564B9 (en) 2011-02-09 2017-07-13 Natera, Inc Methods for non-invasive prenatal ploidy calling
US20120238464A1 (en) 2011-03-18 2012-09-20 Baylor Research Institute Biomarkers for Predicting the Recurrence of Colorectal Cancer Metastasis
US9260753B2 (en) 2011-03-24 2016-02-16 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
AU2012236200B2 (en) 2011-03-30 2015-05-14 Verinata Health, Inc. Method for verifying bioassay samples
ES2625288T3 (es) 2011-04-15 2017-07-19 The Johns Hopkins University Sistema de secuenciación segura
US9411937B2 (en) 2011-04-15 2016-08-09 Verinata Health, Inc. Detecting and classifying copy number variation
US9347059B2 (en) 2011-04-25 2016-05-24 Bio-Rad Laboratories, Inc. Methods and compositions for nucleic acid analysis
EP2705157B1 (en) 2011-05-06 2017-02-01 New England Biolabs, Inc. Ligation enhancement
SG10201605049QA (en) 2011-05-20 2016-07-28 Fluidigm Corp Nucleic acid encoding reactions
US9752176B2 (en) 2011-06-15 2017-09-05 Ginkgo Bioworks, Inc. Methods for preparative in vitro cloning
KR101454886B1 (ko) 2011-08-01 2014-11-03 주식회사 셀레믹스 핵산분자의 제조방법
US10704164B2 (en) 2011-08-31 2020-07-07 Life Technologies Corporation Methods, systems, computer readable media, and kits for sample identification
US9834766B2 (en) 2011-09-02 2017-12-05 Atreca, Inc. DNA barcodes for multiplexed sequencing
US8712697B2 (en) 2011-09-07 2014-04-29 Ariosa Diagnostics, Inc. Determination of copy number variations using binomial probability calculations
US20130079241A1 (en) 2011-09-15 2013-03-28 Jianhua Luo Methods for Diagnosing Prostate Cancer and Predicting Prostate Cancer Relapse
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2850785C (en) 2011-10-06 2022-12-13 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130102485A1 (en) 2011-10-19 2013-04-25 Inhan Lee Method of Determining a Diseased State in a Subject
CA2852098C (en) 2011-10-21 2023-05-02 Chronix Biomedical Colorectal cancer associated circulating nucleic acid biomarkers
NO3051026T3 (es) 2011-10-21 2018-07-28
US20130122499A1 (en) 2011-11-14 2013-05-16 Viomics, Inc. System and method of detecting local copy number variation in dna samples
US10214775B2 (en) 2011-12-07 2019-02-26 Chronix Biomedical Prostate cancer associated circulating nucleic acid biomarkers
AU2012347522B2 (en) 2011-12-08 2015-07-30 Five3 Genomics, Llc MDM2-containing double minute chromosomes and methods therefore
US20130184165A1 (en) 2012-01-13 2013-07-18 Data2Bio Genotyping by next-generation sequencing
DK2814959T3 (en) 2012-02-17 2018-04-23 Hutchinson Fred Cancer Res COMPOSITIONS AND PROCEDURES FOR EXACTLY IDENTIFYING MUTATIONS
US10941396B2 (en) 2012-02-27 2021-03-09 Becton, Dickinson And Company Compositions and kits for molecular counting
EP2820174B1 (en) 2012-02-27 2019-12-25 The University of North Carolina at Chapel Hill Methods and uses for molecular tags
US9670529B2 (en) 2012-02-28 2017-06-06 Population Genetics Technologies Ltd. Method for attaching a counter sequence to a nucleic acid sample
US9890429B2 (en) 2012-02-29 2018-02-13 Dana-Farber Cancer Institute, Inc. Compositions, kits, and methods for the identification, assessment, prevention, and therapy of cancer
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
US9862995B2 (en) 2012-03-13 2018-01-09 Abhijit Ajit Patel Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing
EP3744857A1 (en) 2012-03-20 2020-12-02 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
WO2013142213A1 (en) 2012-03-20 2013-09-26 Wake Forest University Health Sciences Methods, systems, and computer readable media for tracking and verifying receipt of contents of a delivery within an organization
US10053729B2 (en) 2012-03-26 2018-08-21 The Johns Hopkins University Rapid aneuploidy detection
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
AU2013249012B2 (en) 2012-04-19 2019-03-28 The Medical College Of Wisconsin, Inc. Highly sensitive surveillance using detection of cell free DNA
WO2013173394A2 (en) * 2012-05-14 2013-11-21 Cb Biotechnologies, Inc. Method for increasing accuracy in quantitative detection of polynucleotides
AU2013267609C1 (en) 2012-05-31 2019-01-03 Board Of Regents, The University Of Texas System Method for accurate sequencing of DNA
SG11201407888RA (en) 2012-06-11 2014-12-30 Sequenta Inc Method of sequence determination using sequence tags
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
WO2014004726A1 (en) 2012-06-26 2014-01-03 Caifu Chen Methods, compositions and kits for the diagnosis, prognosis and monitoring of cancer
CA2878246C (en) 2012-07-20 2022-01-11 Verinata Health, Inc. Detecting and classifying copy number variation in a cancer genome
GB2533006B (en) 2012-09-04 2017-06-07 Guardant Health Inc Systems and methods to detect copy number variation
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
EP4293125A3 (en) 2012-12-10 2024-02-28 Resolution Bioscience, Inc. Methods for targeted genomic analysis
US20140336943A1 (en) 2013-01-05 2014-11-13 Foundation Medicine, Inc. System and method for managing genomic testing results
EP2945652B1 (en) 2013-01-18 2021-07-07 Foundation Medicine, Inc. Methods of treating cholangiocarcinoma
WO2014152990A1 (en) 2013-03-14 2014-09-25 University Of Rochester System and method for detecting population variation from nucleic acid sequencing data
US10017807B2 (en) 2013-03-15 2018-07-10 Verinata Health, Inc. Generating cell-free DNA libraries directly from blood
GB2528205B (en) * 2013-03-15 2020-06-03 Guardant Health Inc Systems and methods to detect rare mutations and copy number variation
CN113337604A (zh) 2013-03-15 2021-09-03 莱兰斯坦福初级大学评议会 循环核酸肿瘤标志物的鉴别和用途
CA2905410A1 (en) 2013-03-15 2014-09-25 Abbott Molecular Inc. Systems and methods for detection of genomic copy number changes
US10119134B2 (en) * 2013-03-15 2018-11-06 Abvitro Llc Single cell bar-coding for antibody discovery
EP2977464A4 (en) 2013-03-19 2016-10-19 Toppan Printing Co Ltd PROCEDURE FOR PREDICTING SENSITIVITY TO EGFR HEMMER
EP4321628B1 (en) 2013-05-23 2025-09-03 The Board of Trustees of the Leland Stanford Junior University Transposition into native chromatin for personal epigenomics
CA2929596C (en) 2013-11-13 2022-07-05 Nugen Technologies, Inc. Compositions and methods for identification of a duplicate sequencing read
JP2015096049A (ja) 2013-11-15 2015-05-21 凸版印刷株式会社 Vegf阻害剤長期奏功性予測方法
ES2660989T3 (es) 2013-12-28 2018-03-27 Guardant Health, Inc. Métodos y sistemas para detectar variantes genéticas
EP3132055A2 (en) 2014-04-14 2017-02-22 Yissum Research and Development Company of the Hebrew University of Jerusalem Ltd. A method and kit for determining the tissue or cell origin of dna
EP3957749A1 (en) 2014-04-21 2022-02-23 Natera, Inc. Detecting tumour specific mutations in biopsies with whole exome sequencing and in cell-free samples
EP3805404A1 (en) 2014-05-13 2021-04-14 Board of Regents, The University of Texas System Gene mutations and copy number alterations of egfr, kras and met
CN107002122B (zh) 2014-07-25 2023-09-19 华盛顿大学 确定导致无细胞dna的产生的组织和/或细胞类型的方法以及使用其鉴定疾病或紊乱的方法
HRP20220045T1 (hr) 2014-07-25 2022-04-15 Bgi Genomics Co., Limited Postupak za određivanje frakcije slobodnih fetalnih nukleinskih kiselina u uzorku periferne krvi trudnice i njihova uporaba
US20160053301A1 (en) 2014-08-22 2016-02-25 Clearfork Bioscience, Inc. Methods for quantitative genetic analysis of cell free dna
US10733903B2 (en) 2014-09-10 2020-08-04 Pathway Genomics Corporation Health and wellness management methods and systems useful for the practice thereof
EP3191628B1 (en) 2014-09-12 2022-05-25 The Board of Trustees of the Leland Stanford Junior University Identification and use of circulating nucleic acids
EP3256605B1 (en) 2015-02-10 2022-02-09 The Chinese University Of Hong Kong Detecting mutations for cancer screening and fetal analysis
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
PL3387152T3 (pl) 2015-12-08 2022-05-09 Twinstrand Biosciences, Inc. Ulepszone adaptory, sposoby i kompozycje do sekwencjonowania dupleksowego
WO2017165463A1 (en) 2016-03-22 2017-09-28 Counsyl, Inc. Combinatorial dna screening
EP4488686A3 (en) 2016-04-14 2025-04-30 Guardant Health, Inc. Methods for early detection of cancer

Also Published As

Publication number Publication date
US12049673B2 (en) 2024-07-30
US20180171415A1 (en) 2018-06-21
HK1212396A1 (en) 2016-06-10
DK2893040T5 (en) 2019-03-18
US12054783B2 (en) 2024-08-06
JP2020103298A (ja) 2020-07-09
HK1201080A1 (zh) 2015-08-21
GB2533006A (en) 2016-06-08
US20250223656A1 (en) 2025-07-10
US9834822B2 (en) 2017-12-05
KR102393608B1 (ko) 2022-05-03
PL3591073T3 (pl) 2022-03-28
IL237480A0 (en) 2015-04-30
JP7119014B2 (ja) 2022-08-16
US12110560B2 (en) 2024-10-08
EP4036247A1 (en) 2022-08-03
CA2883901C (en) 2023-04-11
HK1225416B (zh) 2017-09-08
JP6275145B2 (ja) 2018-02-07
US12319972B2 (en) 2025-06-03
ES2968333T3 (es) 2024-05-09
JP2025016591A (ja) 2025-02-04
US10738364B2 (en) 2020-08-11
SG10202000486VA (en) 2020-03-30
KR20220061271A (ko) 2022-05-12
US20260043090A1 (en) 2026-02-12
JP2020000237A (ja) 2020-01-09
US20230151435A1 (en) 2023-05-18
BR112015004847A2 (pt) 2020-04-22
JP6664025B2 (ja) 2020-03-13
GB201509071D0 (en) 2015-07-08
US20210355549A1 (en) 2021-11-18
EP4424826A3 (en) 2024-11-27
EP4424826A2 (en) 2024-09-04
US20210130912A1 (en) 2021-05-06
US9598731B2 (en) 2017-03-21
CA2883901A1 (en) 2014-03-13
US20250376734A1 (en) 2025-12-11
IL305303A (en) 2023-10-01
US10041127B2 (en) 2018-08-07
US10947600B2 (en) 2021-03-16
PL2893040T3 (pl) 2019-05-31
US20210032707A1 (en) 2021-02-04
US20200299785A1 (en) 2020-09-24
US11879158B2 (en) 2024-01-23
US10494678B2 (en) 2019-12-03
US20210139998A1 (en) 2021-05-13
US12252749B2 (en) 2025-03-18
US20150368708A1 (en) 2015-12-24
EP3591073A1 (en) 2020-01-08
EP3842551B1 (en) 2023-11-01
IL269097B1 (en) 2023-09-01
KR20210013317A (ko) 2021-02-03
MX367963B (es) 2019-09-11
MX2015002769A (es) 2015-08-14
KR20150067161A (ko) 2015-06-17
US20150299812A1 (en) 2015-10-22
US20210340632A1 (en) 2021-11-04
IL269097B2 (en) 2024-01-01
DK2893040T3 (en) 2019-03-11
US20180327862A1 (en) 2018-11-15
US20200087735A1 (en) 2020-03-19
EP2893040A1 (en) 2015-07-15
CA3190199A1 (en) 2014-03-13
US10683556B2 (en) 2020-06-16
US20220205051A1 (en) 2022-06-30
US10837063B2 (en) 2020-11-17
DE202013012824U1 (de) 2020-03-10
US20200248270A1 (en) 2020-08-06
US10457995B2 (en) 2019-10-29
US20240200150A1 (en) 2024-06-20
EP2893040A4 (en) 2016-04-27
US10961592B2 (en) 2021-03-30
JP2018027096A (ja) 2018-02-22
GB2533006B (en) 2017-06-07
US20230323477A1 (en) 2023-10-12
SG11201501662TA (en) 2015-05-28
EP3470533A1 (en) 2019-04-17
CN110872617A (zh) 2020-03-10
US11319597B2 (en) 2022-05-03
US20200087736A1 (en) 2020-03-19
US11319598B2 (en) 2022-05-03
US10822663B2 (en) 2020-11-03
US9840743B2 (en) 2017-12-12
IL269097A (en) 2019-11-28
US11773453B2 (en) 2023-10-03
EP2893040B1 (en) 2019-01-02
US20200291487A1 (en) 2020-09-17
ES2711635T3 (es) 2019-05-06
US20190177803A1 (en) 2019-06-13
US10501810B2 (en) 2019-12-10
US10501808B2 (en) 2019-12-10
US10876172B2 (en) 2020-12-29
US20170218459A1 (en) 2017-08-03
EP3470533B2 (en) 2023-01-18
PT2893040T (pt) 2019-04-01
EP3842551C0 (en) 2023-11-01
CN104781421B (zh) 2020-06-05
US10876171B2 (en) 2020-12-29
JP2015535681A (ja) 2015-12-17
KR20260025883A (ko) 2026-02-24
US20190185940A1 (en) 2019-06-20
EP3842551A1 (en) 2021-06-30
KR20190112843A (ko) 2019-10-07
ES2906714T3 (es) 2022-04-20
EP3591073B1 (en) 2021-12-01
US20190185941A1 (en) 2019-06-20
KR102210852B1 (ko) 2021-02-01
US20240240258A1 (en) 2024-07-18
EP3470533B1 (en) 2019-11-06
CN104781421A (zh) 2015-07-15
ES2769241T3 (es) 2020-06-25
ES2984550T3 (es) 2024-10-29
KR102028375B1 (ko) 2019-10-04
US11001899B1 (en) 2021-05-11
US20250051858A1 (en) 2025-02-13
US12606874B2 (en) 2026-04-21
US10995376B1 (en) 2021-05-04
US10793916B2 (en) 2020-10-06
WO2014039556A1 (en) 2014-03-13
US20180223374A1 (en) 2018-08-09
US20220042104A1 (en) 2022-02-10
KR20240007774A (ko) 2024-01-16
IL237480B (en) 2019-10-31
US20190177802A1 (en) 2019-06-13
JP2022169566A (ja) 2022-11-09
EP4036247B1 (en) 2024-04-10
US20170218460A1 (en) 2017-08-03

Similar Documents

Publication Publication Date Title
US11667959B2 (en) Systems and methods to detect rare mutations and copy number variation
ES2769241T5 (es) Sistemas y métodos para detectar variación en el número de copias
US10894974B2 (en) Systems and methods to detect rare mutations and copy number variation
ES2877088T3 (es) Procedimiento para detectar cáncer
US12281354B2 (en) Systems and methods to detect rare mutations and copy number variation
US20220389489A1 (en) Systems and methods to detect rare mutations and copy number variation