ES2704255T3 - Métodos y sistemas para alinear elementos de ADN repetitivos - Google Patents
Métodos y sistemas para alinear elementos de ADN repetitivos Download PDFInfo
- Publication number
- ES2704255T3 ES2704255T3 ES13712642T ES13712642T ES2704255T3 ES 2704255 T3 ES2704255 T3 ES 2704255T3 ES 13712642 T ES13712642 T ES 13712642T ES 13712642 T ES13712642 T ES 13712642T ES 2704255 T3 ES2704255 T3 ES 2704255T3
- Authority
- ES
- Spain
- Prior art keywords
- region
- sequence
- flanking region
- reading
- flanking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 108091081062 Repeated sequence (DNA) Proteins 0.000 title abstract description 17
- 238000009331 sowing Methods 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims abstract description 6
- 108020004414 DNA Proteins 0.000 claims description 25
- 108091093088 Amplicon Proteins 0.000 claims description 11
- 230000003252 repetitive effect Effects 0.000 claims description 11
- 239000000203 mixture Substances 0.000 claims description 8
- 238000010899 nucleation Methods 0.000 claims description 5
- 108091035707 Consensus sequence Proteins 0.000 claims description 3
- 108091092878 Microsatellite Proteins 0.000 description 73
- 108700028369 Alleles Proteins 0.000 description 38
- 230000003321 amplification Effects 0.000 description 24
- 238000003199 nucleic acid amplification method Methods 0.000 description 24
- 239000002773 nucleotide Substances 0.000 description 14
- 125000003729 nucleotide group Chemical group 0.000 description 14
- 238000012163 sequencing technique Methods 0.000 description 14
- 150000007523 nucleic acids Chemical group 0.000 description 10
- 238000003752 polymerase chain reaction Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 9
- 108020004707 nucleic acids Proteins 0.000 description 9
- 102000039446 nucleic acids Human genes 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 108091034117 Oligonucleotide Proteins 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000007481 next generation sequencing Methods 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 238000003556 assay Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000005251 capillar electrophoresis Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- YRIZYWQGELRKNT-UHFFFAOYSA-N 1,3,5-trichloro-1,3,5-triazinane-2,4,6-trione Chemical compound ClN1C(=O)N(Cl)C(=O)N(Cl)C1=O YRIZYWQGELRKNT-UHFFFAOYSA-N 0.000 description 1
- 108020005065 3' Flanking Region Proteins 0.000 description 1
- 108020005029 5' Flanking Region Proteins 0.000 description 1
- 102000007325 Amelogenin Human genes 0.000 description 1
- 108010007570 Amelogenin Proteins 0.000 description 1
- 101100227198 Campylobacter jejuni flaA gene Proteins 0.000 description 1
- FSNCEEGOMTYXKY-JTQLQIEISA-N Lycoperodine 1 Natural products N1C2=CC=CC=C2C2=C1CN[C@H](C(=O)O)C2 FSNCEEGOMTYXKY-JTQLQIEISA-N 0.000 description 1
- 241001417495 Serranidae Species 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229920001519 homopolymer Polymers 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007403 mPCR Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2525/00—Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
- C12Q2525/10—Modifications characterised by
- C12Q2525/151—Modifications characterised by repeat or repeated sequences, e.g. VNTR, microsatellite, concatemer
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Evolutionary Biology (AREA)
- Biochemistry (AREA)
- Genetics & Genomics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Un método para determinar la longitud y/o secuencia de un elemento de ADN repetitivo polimórfico que tiene una región de repetición situada entre una primera región flanqueante conservada y una segunda región flanqueante conservada, comprendiendo dicho método: (a) proporcionar un conjunto de datos que comprende al menos una lectura de secuencia del elemento de ADN repetitivo polimórfico; (b) proporcionar una secuencia de referencia que comprende la primera región flanqueante conservada y la segunda región flanqueante conservada; (c) alinear una porción de la primera región flanqueante de la secuencia de referencia con la lectura de secuencia; (d) alinear una porción de la segunda región flanqueante de la secuencia de referencia con la lectura de secuencia; y (e) determinar la longitud y/o secuencia de la región de repetición; en donde al menos las etapas (c), (d) y (c) se realizan utilizando un programa informático adecuado; en donde el alineamiento de una porción de la región flanqueante en una o ambas etapas (c) y (d) comprende: (i) determinar una ubicación de una región flanqueante conservada en la lectura utilizando una coincidencia exacta de k-meros de una región de siembra que se superpone o es adyacente a la región de repetición; y (ii) alinear la región flanqueante con la lectura de secuencia; en donde la región de siembra comprende una región de alta complejidad de la región flanqueante conservada, comprendiendo la región de alta complejidad una secuencia que es suficientemente distinta de la región de repetición para evitar el desalineamiento.
Description
DESCRIPCIÓN
Métodos y sistemas para alinear elementos de ADN repetitivos
Antecedentes
Los conjuntos de elementos de ADN repetitivos polimórficos son útiles para muchas aplicaciones genéticas, incluyendo las pruebas de paternidad, la identificación humana (análisis forense de ADN), el control de quimeras (control de trasplantes de tejidos), así como muchos otros usos en la genómica de plantas y animales. Una clase de estos elementos repetitivos comprende las repeticiones cortas en tándem (STR, por sus siglas en inglés). El alelo de un locus STR se define por su longitud, o número de unidades repetidas, y por su variación de secuencia. Si bien los sistemas de electroforesis capilar pueden mostrar la longitud del alelo, las tecnologías de secuenciación tienen la capacidad adicional de diferenciación para descubrir la variación de la secuencia, tal como los SNP.
Para aprovechar los datos de NGS, es ventajoso asignar las lecturas de manera precisa y eficiente al locus STR y al alelo STR correctos. En Gymrek M. et al, 2012, Genome Research, 22: 1154-1162, se describe un método para determinar la longitud y/o secuencia de un elemento de ADN repetitivo polimórfico que tiene una región de repetición situada entre una primera región flanqueadora conservada y una segunda región flanqueadora conservada.
Los métodos existentes para alinear las lecturas de secuenciación llevan tiempo y no son capaces de detectar todas las regiones repetitivas polimórficas conocidas y sin descubrir. Por tanto, existe una gran necesidad de métodos y sistemas mejorados para alinear elementos de ADN repetitivos.
Breve compendio
En esta memoria se presentan métodos y sistemas para alinear elementos de ADN repetitivos. Los métodos y sistemas utilizan los flancos conservados de loci polimórficos repetitivos para determinar efectivamente la longitud y la secuencia del elemento de ADN repetitivo.
Por consiguiente, una realización que se presenta en esta memoria es un método para determinar la longitud y/o secuencia de un elemento de ADN repetitivo polimórfico que tiene una región de repetición situada entre una primera región flanqueante conservada y una segunda región flanqueante conservada, comprendiendo dicho método: (a) proporcionar un conjunto de datos que comprende al menos una lectura de secuencia del elemento de ADN repetitivo polimórfico; (b) proporcionar una secuencia de referencia que comprende la primera región flanqueante conservada y la segunda región flanqueante conservada; (c) alinear una porción de la primera región flanqueante de la secuencia de referencia con la lectura de secuencia; (d) alinear una porción de la segunda región flanqueante de la secuencia de referencia con la lectura de secuencia; y (e) determinar la longitud y/o secuencia de la región de repetición; en donde al menos las etapas (c), (d) y (e) se realizan utilizando un programa informático adecuado; y en donde el alineamiento de una porción de la región flanqueante en una o ambas etapas (c) y (d) comprende: (i) determinar una ubicación de una región flanqueante conservada en la lectura utilizando una coincidencia exacta de k-meros de una región de siembra que se superpone o es adyacente a la región de repetición; y (ii) alinear la región flanqueante con la lectura de secuencia; en donde la región de siembra comprende una región de alta complejidad de la región flanqueante conservada, y la región de alta complejidad comprende una secuencia que es suficientemente distinta de la región de repetición para evitar el desalineamiento. En algunas realizaciones, el alineamiento puede comprender además alinear tanto la secuencia flanqueante como una región adyacente corta que comprende una porción de la región de repetición.
En esta memoria también se presenta un sistema para determinar la longitud y/o secuencia de un elemento de ADN repetitivo polimórfico que tiene una región de repetición situada entre una primera región flanqueante conservada y una segunda región flanqueante conservada, comprendiendo dicho sistema: un procesador; y un programa para determinar la longitud y/o secuencia de un elemento de ADN repetitivo polimórfico, comprendiendo el programa las instrucciones para que el procesador lleve a cabo las siguientes etapas: (a) proporcionar un conjunto de datos que comprende al menos una lectura de secuencia del elemento de ADN repetitivo polimórfico; (b) proporcionar una secuencia de referencia que comprende la primera región flanqueante conservada y la segunda región flanqueante conservada; (c) alinear una porción de la primera región flanqueante de la secuencia de referencia con la lectura de secuencia; (d) alinear una porción de la segunda región flanqueante de la secuencia de referencia con la lectura de secuencia; y (e) determinar la longitud y/o secuencia de la región de repetición; en donde el alineamiento de una porción de la región flanqueante en una o ambas etapas (c) y (d) comprende: (i) determinar una ubicación de una región flanqueante conservada en la lectura utilizando una coincidencia exacta de k-meros de una región de siembra que se superpone o es adyacente a la región de repetición; y (ii) alinear la región flanqueante con la lectura de secuencia; en donde la región de siembra comprende una región de alta complejidad de la región flanqueante conservada, y la región de alta complejidad comprende una secuencia que es lo suficientemente distinta de la región de repetición para evitar el desalineamiento. En algunas realizaciones, el alineamiento puede comprender además alinear tanto la secuencia flanqueante como una región corta adyacente que comprende una porción de la región de repetición.
En ciertas realizaciones de los métodos o sistemas anteriores, la región de siembra comprende una región de alta complejidad de la región flanqueante conservada, por ejemplo, la región de alta complejidad que comprende una
secuencia que tiene una mezcla diversa de bases. En algunas realizaciones, la región de siembra evita las regiones de baja complejidad de la región flanqueante conservada, por ejemplo, una secuencia que sustancialmente se asemeja a la de la secuencia de repetición y/o la secuencia que tiene una mezcla de bases con baja diversidad.
En ciertas realizaciones de los métodos o sistemas anteriores, la región de siembra es directamente adyacente a la región de repetición y/o comprende una porción de la región de repetición. En ciertas realizaciones, la región de siembra está desplazada desde la región de repetición.
En ciertas realizaciones de los métodos o sistemas anteriores, el conjunto de datos de lecturas de secuencia comprende datos de secuencia a partir de un amplicón de PCR que tiene una secuencia de cebador directo e inverso. En ciertas realizaciones, al menos una lectura de secuencia en el conjunto de datos comprende una secuencia de consenso derivada de múltiples lecturas de secuencia. En ciertas realizaciones, proporcionar una secuencia de referencia comprende identificar un locus de interés en base a la secuencia de cebador del amplicón de PCR.
En ciertos métodos o sistemas, la región de repetición es una repetición corta en tándem (STR) tal como, por ejemplo, una STR seleccionada de los loci STR autosómicos de CODIS, loci Y-STR de CODIS, loci STR autosómicos Eu , loci Y-STR EU y similares.
Los detalles de una o más realizaciones se exponen en los dibujos adjuntos y en la descripción a continuación. Otras características, objetos y ventajas serán evidentes a partir de la descripción y los dibujos, y de las reivindicaciones.
Breve descripción de los dibujos
La Figura 1 es un esquema que muestra un método de alineamiento de acuerdo con una realización.
La Figura 2 es un esquema que muestra varios errores de desalineamiento que pueden ocurrir si se utiliza la región flanqueante inmediatamente adyacente a la STR para sembrar el alineamiento.
La Figura 3 es un conjunto de gráficos que muestran la asignación de STR real en comparación con resultados teóricos basados en la entrada de muestras a partir de una mezcla de muestras.
La Figura 4 es una tabla que muestra 100% de coincidencia para las asignaciones alélicas de loci conocidos de cinco muestras de ADN de control.
Descripción detallada
Los conjuntos de elementos de ADN polimórficos y repetitivos son útiles para muchas aplicaciones genéticas, incluidas las pruebas de paternidad, la identificación humana (análisis forense de ADN), el control de quimeras (control de trasplantes de tejidos), así como muchos otros usos en la genómica de plantas y animales. Con el fin de aprovechar los datos de secuenciación de la próxima generación (NGS), se necesitan herramientas para la asignación precisa y eficiente de lecturas de secuenciación a los correctos locus y alelo de los elementos de ADN repetitivos. Una clase de estos elementos repetitivos comprende las repeticiones cortas en tándem (STR). El alelo de un locus STR se define por su longitud, o número de unidades repetidas, y por su variación de secuencia. Si bien los sistemas de electroforesis capilar pueden mostrar la longitud del alelo, las tecnologías de secuenciación tienen la capacidad adicional de diferenciación para descubrir la variación de las secuencias, tal como las SNP. Se apreciará que aunque los métodos y sistemas descritos aquí se consideran en el contexto de las STR, los mismos pueden aplicarse a cualquier otro elemento de ADN repetitivo.
Los métodos de alineamiento existentes fallan por varias razones. Un enfoque común es que frecuentemente se realiza el alineamiento con una secuencia de referencia. Sin embargo, la diferencia en el tamaño de los alelos difiere enormemente, incluso dentro de un solo locus. Por ejemplo, un locus de núcleo de EE.UU., FGA, tiene alelos conocidos entre 12,2 y 51,2, que incluyen diferencias de 156 nucleótidos (o incluso más). La mayoría de los alineadores no alinearán las lecturas con un espacio tan grande, y cualquier alelo que esté demasiado lejos de una secuencia de referencia será descartado por el alineador.
Otro enfoque con inconvenientes es el método de alineamiento con una escalera de referencia. Normalmente, se crea un "genoma de referencia" al construir una escalera de todos los alelos de STR conocidos y alinear las lecturas con esta referencia, como se hace típicamente con los datos de la secuencia del genoma completo de NGS o la secuenciación dirigida de regiones de ADN no repetitivas. Es método tiene deficiencias. Por ejemplo, se ignora la información conocida sobre la secuencia de STR, tal como la secuencia del cebador o las regiones flanqueantes conservadas. Las escaleras existentes son incompletas, ya que las secuencias de muchas regiones repetitivas polimórficas son actualmente desconocidas. Debido a la naturaleza altamente variable de estas regiones genómicas, se pueden descubrir nuevos alelos en el futuro. Además, los cambios en la secuencia de un alelo en la referencia pueden tener efectos globales en el alineamiento de las lecturas debido a la homología entre las secuencias.
Otra metodología alternativa para detectar las STR, conocida como lobSTR, detecta a todas las STR existentes a partir de los datos de secuenciación de una sola muestra de novo, sin conocimiento previo de las STR (ver Gyrnrek et al. 2012 Genome Research 22: 1154-62). Sin embargo, el método lobSTR ignora el conocimiento previo (secuencias
de cebadores, regiones flanqueantes) y recurre erróneamente a algunos alelos. Además, el lobSTR pierde los loci STR con patrones de repetición complejos, incluidos algunos de CODIS como D21S11, alelo 24 ([TCTA]4[TCTG]a[TCTA]aTA [TCTA]3TCA[TCTA]2TCCA TA[TCTA]a) o vWA, alelo 16 (TCTA [TCTG]3 [TCTA^TCCA TCTA). Además, el lobSTR asume alelos homocigotos o heterocigotos, y por lo tanto no es útil para el manejo de muestras que tienen mezclas.
Por lo tanto, existe una gran necesidad de un enfoque dirigido que utilice el conocimiento previo para aumentar en gran medida la sensibilidad y la especificidad.
En el presente documento se presentan métodos y sistemas que utilizan los flancos conservados de loci polimórficos repetitivos para determinar efectivamente la secuencia del elemento de ADN repetitivo. Los métodos alinean ventajosamente el comienzo de la secuencia de lectura con las posibles secuencias de cebadores para establecer el locus y la cadena a la que corresponde la lectura. Luego, las secciones de las secuencias flanqueantes apropiadas en cada lado del locus repetitivo se alinean con la lectura para extraer la longitud y secuencia exactas de la lectura. Estos alineamientos se siembran utilizando una estrategia de k-meros. Las regiones de siembra pueden estar, por ejemplo, en una región de alta complejidad preseleccionada de la secuencia flanqueante, cerca de la región de repetición, pero evitando la secuencia de baja complejidad con homología con el locus objetivo. Este enfoque evita ventajosamente el desalineamiento de secuencias flanqueantes de baja complejidad cerca de la región de repetición de interés.
El enfoque descrito en esta memoria es novedoso y sorprendentemente efectivo para determinar correctamente el tamaño y la secuencia del alelo. Los métodos emplean secuencias conocidas en los flancos de los propios STR, que se han definido previamente en base a las variaciones existentes conocidas entre la población humana. Ventajosamente, el alineamiento de un corto tramo de las regiones flanqueantes es computacionalmente rápido en comparación con otros métodos. Por ejemplo, un alineamiento de programación dinámica (tipo Smith-Waterman) de la lectura completa requiere el uso intensivo de CPU, y consume mucho tiempo, especialmente cuando se deben alinear múltiples lecturas de secuencia. Además, el tiempo dedicado a alinear una secuencia completa (para la que ni siquiera existe una referencia) requiere recursos informáticos valiosos.
El uso de regiones flanqueantes para determinar correctamente el alelo proporciona otras varias ventajas inesperadas con respecto a los métodos existentes. Por ejemplo, BWA, un alineador típico, funciona mal cuando se emplea para alinear con una referencia, principalmente debido a la naturaleza repetitiva de una secuencia STR y al estado incompleto de la referencia.
Además, los inventores han observado que cambiar la referencia para un locus STR a menudo afectó las asignaciones para otro locus, que debería ser independiente. Sin embargo, debido a que las aplicaciones forenses requieren asignaciones de alta fiabilidad, hay muy poco margen de error.
Realizaciones adicionales de los métodos proporcionados aquí identifican semillas únicas dentro de una secuencia flanqueante. Este enfoque permite reducir el tiempo de alineamiento y desempeña una función para evitar desalineamientos en el caso de flancos de baja complejidad.
Los métodos presentados aquí hacen uso del conocimiento previo de la secuencia flanqueante para asegurar la correcta asignación del alelo de STR. En contraste, los métodos existentes, que se basan en una secuencia de referencia completa para cada alelo, enfrentan tasas de fallo significativas en situaciones donde hay una referencia incompleta. Existen muchos alelos para los que no se conoce la secuencia, y posiblemente algunos alelos aún desconocidos. A modo de ilustración, se supone un locus con un patrón de repetición simple [TCTA] y un flanco 3' que se inicia con la secuencia TCAGCTA. Por lo tanto, la referencia puede incluir secuencias como [flanco1] [TCTA] nTCAGCTA [resto_del_flanco2], en donde n es el número de repeticiones en el alelo. El alelo 9.3 diferiría del alelo 10 por tener una deleción en algún lugar de la secuencia. Con suerte, estos se incluirían en la referencia, aunque no todos podrían estarlo. [TCTA]7TCA [TCTA]2 es un ejemplo de tal alelo. Conforme a los protocolos de alineamiento existentes, cualquier lectura que finalice después del [TCTA]7 y antes del [TCTA] final, se alineará con [flanco1] [TCTA]7TCAGCTA, por lo que se realizará una asignación incorrecta.
Métodos de alineamiento
Los métodos proporcionados aquí permiten determinar la longitud de un elemento de ADN repetitivo polimórfico que tiene una región de repetición situada entre una primera región flanqueante conservada y una segunda región flanqueante conservada. Un método comprende proporcionar un conjunto de datos que comprende al menos una lectura de secuencia de un elemento de ADN repetitivo polimórfico; proporcionar una secuencia de referencia que comprende la primera región flanqueante conservada y la segunda región flanqueante conservada; alinear una porción de la primera región flanqueante de la secuencia de referencia con la lectura de secuencia; alinear una porción de la segunda región flanqueante de la secuencia de referencia con la lectura de secuencia; y determinar la longitud y/o secuencia de la región de repetición. En los métodos típicos, uno o más etapas en el método se realizan utilizando un programa informático adecuado.
Como se utiliza en esta memoria, el término "lectura de secuencia" se refiere a los datos de secuencia para los cuales se determinará la longitud y/o la identidad del elemento repetitivo. La lectura de secuencia puede comprender todo el
elemento repetitivo, o una porción del mismo. La lectura de secuencia puede comprender además una región flanqueante conservada en un extremo del elemento repetitivo (por ej., una región flanqueante 5'). La lectura de secuencia puede comprender además una región flanqueante adicional conservada en otro extremo del elemento repetitivo (por ej., una región flanqueante de 3'). En las realizaciones típicas, la lectura de secuencia comprende datos de secuencia de un amplicón de PCR que tiene una secuencia de cebador directo e inverso. Los datos de secuencia se pueden obtener a partir de cualquier metodología de secuencia adecuada. La lectura de la secuenciación puede ser, por ejemplo, a partir de una reacción de secuenciación por síntesis (SBS), una reacción de secuenciación por ligación, o cualquier otra metodología de secuenciación adecuada por la cual se desea determinar la longitud y/o la identidad de un elemento repetitivo. La lectura de secuencia puede ser una secuencia de consenso derivada de múltiples lecturas de secuencia. En ciertas realizaciones, proporcionar una secuencia de referencia comprende identificar un locus de interés en base a la secuencia del cebador del amplicón de PCR.
Como se utiliza en esta memoria, el término "elemento de ADN repetitivo polimórfico" se refiere a cualquier secuencia de ADN que se repite, y los métodos aquí proporcionados se pueden emplear para alinear las regiones flanqueantes correspondientes de cualquier secuencia de ADN que se repite. Los métodos presentados aquí se pueden utilizar para cualquier región de repetición. Los métodos presentados en la presente memoria se pueden usar para cualquier región que sea difícil de alinear, independientemente de la clase de repetición. El método presentado en esta memoria es especialmente útil para una región que tiene regiones flanqueantes conservadas. Adicionalmente o en forma alternativa, los métodos presentados en esta memoria son especialmente útiles para lecturas de secuenciación que abarcan toda la región de repetición, incluyendo al menos una porción de cada región flanqueante. En realizaciones típicas, el ADN repetitivo es una repetición en tándem de número variable (VNTR, por sus siglas en inglés). Las VNTR son polimorfismos en los que una secuencia particular se repite en ese locus muchas veces. Algunas VNTR incluyen minisatélites y microsatélites, también conocidos como repeticiones de secuencia simple (SSR, por sus siglas en inglés) o repeticiones cortas en tándem (STR, por sus siglas en inglés). En algunas realizaciones, la secuencia repetitiva es típicamente menor que 20 pares de bases, aunque se pueden alinear unidades que se repiten más grandes. Por ejemplo, en realizaciones típicas, la unidad que se repite puede ser 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 o más nucleótidos, y se puede repetir hasta 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 o hasta por lo menos 100 veces o más. En ciertas realizaciones, el elemento de ADN repetitivo polimórfico es una STR. En algunos métodos, la STR se utiliza con fines forenses. En métodos típicos para aplicaciones forenses, por ejemplo, el elemento de ADN repetitivo polimórfico comprende unidades de repetición de tetra o pentanucleótidos, sin embargo, los métodos proporcionados en esta memoria son adecuados para cualquier longitud de unidad de repetición. En ciertos métodos, la región de repetición es una repetición corta en tándem (STR) tal como, por ejemplo, una STR seleccionada de los loci STR autosómicos de CODIS, loci Y-STR de CODIS, loci s Tr autosómicos EU, loci Y-STR EU y similares. Como un ejemplo, la base de datos CODIS (Sistema de índice combinado de ADN) es un conjunto de loci STR centrales identificados por el laboratorio del FBI e incluye 13 loci: CSF1PO, FGA, TH01, TPOX, vWA, D3S1358, D5S818, D7S820, D8S1179, D13S317, D16S539, D18S51 y D21S11. Las STR adicionales de interés para la comunidad forense y que se pueden alinear utilizando los métodos y sistemas proporcionados en esta memoria incluyen PENTA D y PENTA E. Los métodos y sistemas presentados aquí pueden aplicarse a cualquier elemento de ADN repetitivo y no se limitan a las STR descritas anteriormente. Como se emplea en esta memoria, el término "secuencia de referencia" se refiere a una secuencia conocida que actúa como un armazón sobre el cual se puede alinear una secuencia de muestra. En realizaciones típicas de los métodos y sistemas proporcionados en esta memoria, la secuencia de referencia comprende al menos una primera región flanqueante conservada y una segunda región flanqueante conservada. El término "región flanqueante conservada" se refiere a una región de secuencia fuera de la región de repetición. La región se conserva típicamente entre muchos alelos, aunque la región de repetición puede ser polimórfica. Una región flanqueante conservada como se usa en esta memoria típicamente será de mayor complejidad que la región de repetición. En realizaciones típicas, se puede emplear una única secuencia de referencia para alinear todos los alelos dentro de un locus. En algunas realizaciones, se emplea más de una secuencia de referencia para alinear todos los alelos dentro de un locus debido a la variación dentro de la región flanqueante. Por ejemplo, la región de repetición para Amelogenina tiene diferencias en los flancos entre X e Y, aunque una sola referencia puede representar la región de repetición si se incluye una región más larga en la referencia.
En los métodos presentados en esta memoria, una porción de una región flanqueante de una secuencia de referencia se alinea con la lectura de secuencia. El alineamiento se realiza determinando una ubicación de la región flanqueante conservada y luego realizando un alineamiento de secuencia de esa porción de la región flanqueante con la porción correspondiente de la lectura de secuencia. El alineamiento de una porción de una región flanqueante se realiza de acuerdo con métodos de alineamiento conocidos. En ciertos métodos, el alineamiento de una porción de la región flanqueante en una o ambas etapas (c) y (d) comprende: (i) determinar una ubicación de una región flanqueante conservada en la lectura mediante el uso de coincidencia exacta de k-meros de una región de siembra que se superpone o es adyacente a la región de repetición; y (ii) alinear la región flanqueante con la lectura de secuencia. En algunos métodos, el alineamiento puede comprender además alinear tanto la secuencia flanqueante como una región corta adyacente que comprende una porción de la región de repetición.
Un ejemplo de este enfoque se ilustra en la Figura 1. En la Figura 1 se muestra un amplicón ("molde") que tiene una STR de longitud y/o identidad desconocida. Como se muestra en la Figura 1, se realiza un alineamiento inicial del cebador para identificar el locus de interés, en este caso una STR. Los cebadores se ilustran como p1 y p2, que son
las secuencias de cebadores que se utilizaron para generar el amplicón. En la realización que se muestra en la Figura 1, se usa solamente p1 durante la etapa de alineamiento del cebador. En algunas realizaciones, solamente p2 se utiliza para el alineamiento del cebador. En otras realizaciones, tanto p1 como p2 se usan para el alineamiento del cebador.
Después del alineamiento del cebador, se alinea el flanco 1, indicado como fla1 en la Figura 1. El alineamiento del flanco 1 puede ir precedido por la siembra del flanco 1, designada como f1siembra en la Figura 1. Se siembra el flanco 1 para corregir un pequeño número (e) de indeles (inserciones o deleciones) entre el inicio de la lectura y la STR. La región de siembra puede estar directamente a continuación del inicio de la STR, o puede estar desplazada (como en la figura) para evitar regiones de baja complejidad. La siembra se puede realizar mediante coincidencia exacta de kmeros.
El alineamiento del flanco1 se continúa para determinar la posición inicial de la secuencia de STR. Si el patrón de STR se conserva lo suficiente como para predecir los primeros pocos nucleótidos (s1), estos se agregan al alineamiento para mejorar la precisión.
Como la longitud de la STR es desconocida, se realiza un alineamiento para el flanco 2 de la siguiente manera. Se realiza la siembra del flanco 2 para descubrir rápidamente las posibles posiciones finales de la STR. Como la siembra para el flanco 1, la siembra puede desplazarse para evitar regiones de baja complejidad y desalineamientos. Se desecha cualquier semilla del flanco 2 que no se alinee. Una vez que el flanco 2 se alinea correctamente, se puede determinar la posición final (s2) de la STR, y se puede calcular la longitud de la STR.
La región de siembra puede ser directamente adyacente a la región de repetición y/o comprender una porción de la región de repetición. En algunos métodos, la ubicación de la región de siembra dependerá de la complejidad de la región directamente adyacente a la región de repetición. El comienzo o el final de una STR puede estar limitado por una secuencia que comprende repeticiones adicionales o que tiene poca complejidad. Por lo tanto, puede ser ventajoso desplazar la siembra de la región flanqueante para evitar regiones de baja complejidad. Como se emplea en esta memoria, el término "baja complejidad" se refiere a una región con una secuencia que se asemeja a la de la secuencia de repetición. Adicionalmente o en forma alternativa, una región de baja complejidad incorpora una baja diversidad de nucleótidos. Por ejemplo, en algunas realizaciones, una región de baja complejidad comprende una secuencia que tiene más del 30%, 40%, 50%, 60%, 70% o más del 80% de similitud de secuencia con la secuencia de repetición. En realizaciones típicas, la región de baja complejidad incorpora cada uno de los cuatro nucleótidos a una frecuencia de menos del 20%, 15%, 10% o menos del 5% de todos los nucleótidos en la región. Se puede utilizar cualquier método adecuado para determinar una región de baja complejidad. Los métodos para determinar una región de baja complejidad son conocidos en la técnica, como se ejemplifica mediante los métodos descritos por Morgulis et al., (2006) Bioinformatics. 22 (2): 134-41. Por ejemplo, como se describe en Morgulis et al., se puede usar un algoritmo tal como DUST para identificar regiones dentro de una secuencia de nucleótidos dada que tienen baja complejidad.
En algunas realizaciones, la siembra se desplaza del inicio de la STR en al menos 1,2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40 o más nucleótidos. En algunas realizaciones, la región flanqueante se evalúa para identificar una región de alta complejidad. Tal como se utiliza aquí, el término "región de alta complejidad" se refiere a una región con una secuencia que es suficientemente diferente de la de la repetición para eliminar las posibilidades de desalineamientos. Adicionalmente o en forma alternativa, una región de alta complejidad incorpora una variedad de nucleótidos. Por ejemplo, en algunas realizaciones, una región de alta complejidad comprende una secuencia que tiene menos del 80%, 70%, 60%, 50%, 40%, 30%, 20% o menos del 10% de similitud con la secuencia de repetición. En realizaciones típicas, la región de alta complejidad incorpora cada uno de los cuatro nucleótidos a una frecuencia de al menos 10%, 15%, 20% o al menos el 25% de todos los nucleótidos en la región.
Tal como se emplea en la presente memoria, el término "coincidencia exacta de k-meros" se refiere a un método para encontrar un alineamiento óptimo utilizando un método de palabra donde la longitud de la palabra se define por tener un valor k. En algunas realizaciones, el valor de k es 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23. , 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40 o más nucleótidos de longitud. En las realizaciones típicas, k tiene un valor de entre 5 y 30 nucleótidos de longitud. En algunas realizaciones típicas, k tiene un valor de entre 5 y 16 nucleótidos de longitud. En ciertas realizaciones, k se selecciona en línea. Por ejemplo, si una región flanqueante es corta (cebador cerca de STR), k se reduce adecuadamente. En realizaciones típicas, k se selecciona para garantizar la búsqueda de todas las coincidencias con la distancia de edición e. Los métodos de palabras identifican una serie de subsecuencias cortas y no superpuestas ("palabras") en la secuencia de consulta que luego se comparan con las secuencias candidatas de la base de datos. Las posiciones relativas de la palabra en las dos secuencias que se comparan se eliminan para obtener un desplazamiento; esto indicará una región de alineamiento si múltiples palabras distintas producen el mismo desplazamiento. Solamente si se detecta esta región, estos métodos aplicarán criterios de alineamiento más sensibles, por lo que se eliminan muchas comparaciones innecesarias con secuencias sin una similitud apreciable. Los métodos para evaluar la coincidencia de k-meros, incluyendo la coincidencia exacta de k-meros, son bien conocidos en la técnica, como lo ejemplifican las divulgaciones de Lipman, et al., (1985) Science 227: 1435-41, y de Altschul, et al., (1990) Journal of Molecular Biology 215: 403-410.
En ciertas realizaciones, proporcionar una secuencia de referencia comprende identificar un locus de interés en base a la secuencia del cebador de un amplicón. Como se emplea en esta memoria, el término "amplicón" se refiere a
cualquier producto de amplificación adecuado para el cual se obtiene una secuencia. Típicamente, el producto de amplificación es un producto de una metodología de amplificación selectiva, que utiliza cebadores específicos de objetivos, tal como los cebadores de PCR. En ciertas realizaciones, los datos de secuencia son de un amplicón de PCR que tiene una secuencia de cebador directo e inverso. En algunas realizaciones, la amplificación selectiva puede incluir una o más etapas de amplificación no selectivas. Por ejemplo, un proceso de amplificación que utiliza cebadores aleatorios o degenerados puede ir seguido de uno o más ciclos de amplificación que emplean cebadores específicos de objetivo. Los métodos adecuados para la amplificación selectiva incluyen, pero no se limitan a, la reacción en cadena de la polimerasa (PCR, por sus siglas en inglés), la amplificación por desplazamiento de cadena (SDA, por sus siglas en inglés), la amplificación mediada por transcripción (TMA, por sus siglas en inglés) y la amplificación basada en la secuencia de ácido nucleico (NASBA, por sus siglas en inglés), tal como se describe en la patente de EE.UU. No. 8.003.354. Los métodos de amplificación anteriores pueden emplearse para amplificar selectivamente uno o más ácidos nucleicos de interés. Por ejemplo, la PCR, incluyendo PCR múltiplex, SDA, TMA, NASBA y similares, puede utilizarse para amplificar selectivamente uno o más ácidos nucleicos de interés. En tales realizaciones, los cebadores dirigidos específicamente al ácido nucleico de interés se incluyen en la reacción de amplificación. Otros métodos adecuados para la amplificación de ácidos nucleicos pueden incluir la extensión y la ligación de oligonucleótidos y la ligación, la amplificación de círculo rodante (RCa , por sus siglas en inglés) (Lizardi et al., Nat. Genet. 19: 225-232 (1998)) y el ensayo de ligación de oligonucleótidos (OLA, por sus siglas en inglés) (véanse en general las patentes de EE.UU. números 7.582.420, 5.185.243, 5.679.524 y 5.573.907; patente europea EP 0320308 B1; patente europea EP 0 336 731 B1; patente europea EP 0 439 182 B1; patente WO 90/01069; patente WO 89/12696; y patente WO 89/09835). Se apreciará que estas metodologías de amplificación pueden diseñarse para amplificar selectivamente un ácido nucleico objetivo de interés. Por ejemplo, en algunas realizaciones, el método de amplificación selectiva puede incluir reacciones de ensayo de amplificación de la sonda por ligación o por ligación de oligonucleótidos (OLA) que contienen cebadores dirigidos específicamente al ácido nucleico de interés. En algunas realizaciones, el método de amplificación selectiva puede incluir una reacción por ligación-extensión del cebador que contiene cebadores dirigidos específicamente al ácido nucleico de interés. Como ejemplo no limitativo de cebadores de extensión y cebadores de ligación que pueden diseñarse específicamente para amplificar un ácido nucleico de interés, la amplificación puede incluir cebadores utilizados para el ensayo GoldenGate™ (Illumina, Inc., San Diego, CA), como se describe en la patente de EE. UU. No. 7.582.420. Los presentes métodos no están limitados a ninguna técnica de amplificación particular y las técnicas de amplificación descritas en esta memoria son solo ejemplos con respecto a los métodos y realizaciones de la presente divulgación.
Los cebadores para la amplificación de un elemento de ADN repetitivo típicamente se hibridan con las secuencias únicas de las regiones flanqueantes. Los cebadores pueden diseñarse y generarse de acuerdo con cualquier metodología adecuada. El diseño de cebadores para regiones flanqueantes de regiones de repetición es bien conocido en la técnica, como se ejemplifica en Zhi, et al. (2006) Genome Biol, 7 (1): R7. Por ejemplo, los cebadores se pueden diseñar manualmente. Esto implica buscar repeticiones de microsatélite en la secuencia de ADN genómico, lo que se puede hacer mediante examen visual o con herramientas automatizadas como el software RepeatMasker. Una vez que se determinan las regiones de repetición y las regiones flanqueantes correspondientes, las secuencias flanqueantes se pueden usar para diseñar marcadores de oligonucleótidos que amplificarán la repetición específica en una reacción PCR.
Sistemas
En esta memoria también se presenta un sistema para determinar la longitud de un elemento de ADN repetitivo polimórfico que tiene una región de repetición situada entre una primera región flanqueante conservada y una segunda región flanqueante conservada, comprendiendo el sistema: un procesador; y un programa para determinar la longitud de un elemento de ADN repetitivo polimórfico, comprendiendo el programa instrucciones para: (a) proporcionar un conjunto de datos que comprenda al menos una lectura de secuencia del elemento de ADN repetitivo polimórfico; (b) proporcionar una secuencia de referencia que comprende la primera región flanqueante conservada y la segunda región flanqueante conservada; (c) alinear una porción de la primera región flanqueante de la secuencia de referencia con la lectura de secuencia; (d) alinear una porción de la segunda región flanqueante de la secuencia de referencia con la lectura de secuencia; y (c) determinar la longitud y/o secuencia de la región de repetición; en donde al menos las etapas (c), (d) y (e) se realizan utilizando un programa informático adecuado. En algunos sistemas, el alineamiento de una porción de la región flanqueante en una o ambas etapas (c) y (d) comprende: (i) determinar una ubicación de una región flanqueante conservada en la lectura utilizando la coincidencia exacta de k-meros de una región de siembra que se superpone o es adyacente a la región de repetición; y (ii) alinear la región flanqueante con la lectura de secuencia. En algunos sistemas, el alineamiento puede comprender además alinear tanto la secuencia flanqueante como una región corta adyacente que comprende una porción de la región de repetición.
Un sistema capaz de llevar a cabo un método descrito en esta memoria puede, aunque no necesariamente, estar integrado con un dispositivo de secuenciación. Más bien, también es posible un sistema independiente o un sistema integrado con otros dispositivos. Un sistema capaz de llevar a cabo un método descrito en esta memoria, ya sea integrado o no con capacidades de detección, puede incluir un controlador del sistema que sea capaz de ejecutar un conjunto de instrucciones para llevar a cabo una o más etapas de un método, técnica o proceso descritos en esta memoria . Opcionalmente, las instrucciones pueden además dirigir la realización de las etapas para detectar ácidos nucleicos. Un controlador del sistema útil puede incluir cualquier sistema basado en procesador o basado en
microprocesador, incluidos los sistemas que utilizan microcontroladores, computadoras con un conjunto de instrucciones reducido (RISC, por sus siglas en inglés), circuitos integrados específicos de aplicación (ASIC, por sus siglas en inglés), matriz de compuerta programable en campo (FPGA por sus siglas en inglés), circuitos lógicos y cualquier otro circuito o procesador capaz de ejecutar funciones descritas en esta memoria. Un conjunto de instrucciones para un controlador del sistema puede tener la forma de un programa de software. Como se emplean en esta memoria, los términos "software" y "firmware" son intercambiables, e incluyen cualquier programa de computación almacenado en la memoria para ser ejecutado por una computadora, incluyendo memoria RAM, memoria ROM, memoria EPROM, memoria EEPROM y memoria RAM no volátil (NVRAM, por sus siglas en inglés). El software puede estar en varias formas, tal como software del sistema o software de aplicación. Además, el software puede estar en forma de una colección de programas separados, o un módulo de programa dentro de un programa más grande o una porción de un módulo de programa. El software también puede incluir programación modular en forma de programación orientada a objetos.
Ejemplo 1
Alineamiento del locus D 18S51
Este ejemplo describe el alineamiento del locus D18S51 según una realización. Algunos loci tienen secuencias flanqueantes que son de baja complejidad y se asemejan a la secuencia de repetición STR. Esto puede hacer que la secuencia flanqueante no esté alineada (a veces con la propia secuencia de STR) y, por lo tanto, el alelo puede ser mal asignado. Un ejemplo de un locus problemático es D18S51. El motivo de repetición es [AGAA]n AAAG AGAGAG. La secuencia flanqueante se muestra a continuación con la secuencia de "problema" de baja complejidad subrayada
GAGACCTTGTCTC (S T R ) GAAAGAAAGAGAAAAAGAAAAGAAATAGTAC-CAACTGTTAT
Si la región flanqueante inmediatamente adyacente a la STR se utilizara para sembrar el alineamiento, se generarían k-meros como GAAAG, AAAGAA, AGAGAAA, que mapean a la secuencia de STR. Esto impide el rendimiento, ya que se obtienen muchas posibilidades a partir de la siembra, pero lo más importante es que el enfoque crea desalineamientos, como los que se muestran en la Figura 2. En las secuencias que se muestran en la Figura 2, se resalta la correcta secuencia de STR, la secuencia de STR que se obtiene del desalineamiento está subrayada y los errores de lectura se muestran en negrita.
Para estos flancos de baja complejidad, se aseguró que las regiones de siembra no se encuentren en la región de baja complejidad al alejarlos de la secuencia de STR. Si bien esto requiere lecturas más largas para la asignación de la STR, se garantiza una alta precisión y se evita el desalineamiento de la región flanqueante con la secuencia de STR (u otras porciones del flanco). El flanco de baja complejidad aún está alineado con la lectura para encontrar la posición final de la STR, pero debido a que el alineamiento está sembrado con una secuencia de alta complejidad, el mismo tiene que estar en la posición correcta.
Ejemplo 2
Alineamiento del locus Penta-D mediante la adición de secuencia STR corta
Un conjunto de secuencias Penta-D tendió a tener STR que fueron 1 nt más cortos de lo esperado. Tras una inspección adicional, se descubrió que ambos flancos contenían segmentos de pol-A y que los errores de secuenciación/ amplificación a menudo eliminaban una de las A en esos segmentos. Como se muestra en la siguiente secuencia, los segmentos homopoliméricos A se encuentran en ambos flancos.
Un error de lectura que cause una deleción en el primer flanco produciría hasta dos alineamientos igualmente viables:
l e c t u r a : . . . CAAGAAAGAAAAAAA-GA. . .
f l a n c o : • • . CAAGAAAs^AAAAAAAAG- (2 in d e le s )
lectura:. . .CAAGAAAGAAAAAAAGA... (2 no c o in c id e n c i a s )
f l a n c o : ...CAAGAAAGAAAAAAAAG
Hacer que la base más cercana a la STR sea una coincidencia no funcionó porque uno de los flancos en uno de tes STR terminó teniendo un SNP, lo que hizo que se reconsiderara ese método en su totalidad. Se descubrió que agregar solo 2 bases de la secuencia de STR resolvió la cuestión:
l e c t u r a : . . . CAAGAAAGAAAAAAA-GAA
f l a n c o : . . . CAAGAAAGAAAAAAAAGAA (1 in d e l) ^
l e c t u r a : . . . CAAGAAAGAAAAAAAG-AA (1 in d e l 1 no c o in c id e n c ia )
f l a n c o : . . . CAAGAAAGAAAAAAAAGAA
Ejemplo 3
Análisis de la mezcla de muestras de ADN
Se analizó una mezcla de muestras utilizando los métodos proporcionados en esta memoria para realizar asignaciones precisas para cada locus en un panel de STR forenses. Para cada locus, se contaron las lecturas de números correspondientes a cada alelo y a cada secuencia diferente para ese alelo.
Los resultados típicos se muestran en la Figura 3. Como se muestra, la barra a la derecha de cada par representa los datos reales obtenidos, que indican la proporción de lecturas para cada alelo. Los tonos diferentes representan secuencias diferentes. Se omiten los alelos con menos del 0,1% del recuento de lectura de locus y las secuencias con menos del 1% del recuento de alelos. La barra en el lado izquierdo de cada par representa las proporciones teóricas (sin intermitencias). Diferentes tonos representan diferentes ADN de control en la entrada como se indica en la leyenda. En la Figura 3, el eje x está en alelo de orden, y el eje Y indica la proporción de lecturas con el alelo indicado.
Como se muestra en la Figura, el enfoque de asignación de STR que emplea los métodos presentados en esta memoria lograron asignaciones sorprendentemente exactas para cada alelo en el panel.
Ejemplo 4
Análisis del panel de STR forense
Se analizó un panel de 15 loci diferentes en 5 muestras diferentes. Las muestras se obtuvieron de Promega Corp, e incluyeron las muestras 9947A, K562, 2800M, NIST: A y B (SRM 2391c). Los loci se eligieron entre los marcadores forenses STR de CODIS e incluyeron CSF1PO, D3S1358, D7S820, D16S539, D18S51, FGA, PentaE, TH01, vWA, D5S818, D8S1179, D13S317, d 21S11, PentaD y TPOX empleando el método de alineamiento presentado en esta memoria. Brevemente, los marcadores se amplificaron utilizando cebadores estándar, como se describe en Krenke, et al. (2002) J. Forensic Sci. 47 (4): 773-785. Los amplicones se agruparon y los datos de secuenciación se obtuvieron utilizando ciclos de 1x460 en un instrumento de secuenciación MiSeq (Illumina, San Diego, CA).
El alineamiento se realizó de acuerdo con los métodos presentados en esta memoria. Como se indica en la Fig. 4, se mostró una coincidencia del 100% para estas muestras de control en comparación con los datos de control. Además, este método identificó un SNP previamente desconocido en una de las muestras para el marcador D8S1179, lo que además demuestra la poderosa herramienta del análisis de STR basado en la secuencia cuando se combina con los métodos de alineamiento aquí proporcionados.
Se pretende que el término “que comprende” en la presente memoria sea abierto, incluyendo no solo los elementos citados, sino que además abarque cualquier elemento adicional.
Se han descrito varias realizaciones. Sin embargo, se entenderá que pueden hacerse varias modificaciones.
Claims (12)
1. Un método para determinar la longitud y/o secuencia de un elemento de ADN repetitivo polimórfico que tiene una región de repetición situada entre una primera región flanqueante conservada y una segunda región flanqueante conservada, comprendiendo dicho método:
(a) proporcionar un conjunto de datos que comprende al menos una lectura de secuencia del elemento de ADN repetitivo polimórfico;
(b) proporcionar una secuencia de referencia que comprende la primera región flanqueante conservada y la segunda región flanqueante conservada;
(c) alinear una porción de la primera región flanqueante de la secuencia de referencia con la lectura de secuencia; (d) alinear una porción de la segunda región flanqueante de la secuencia de referencia con la lectura de secuencia; y (e) determinar la longitud y/o secuencia de la región de repetición;
en donde al menos las etapas (c), (d) y (c) se realizan utilizando un programa informático adecuado;
en donde el alineamiento de una porción de la región flanqueante en una o ambas etapas (c) y (d) comprende: (i) determinar una ubicación de una región flanqueante conservada en la lectura utilizando una coincidencia exacta de k-meros de una región de siembra que se superpone o es adyacente a la región de repetición; y
(ii) alinear la región flanqueante con la lectura de secuencia; en donde la región de siembra comprende una región de alta complejidad de la región flanqueante conservada, comprendiendo la región de alta complejidad una secuencia que es suficientemente distinta de la región de repetición para evitar el desalineamiento.
2. El método de la reivindicación 1, que comprende además alinear tanto la secuencia flanqueante como una región corta adyacente que comprende una porción de la región de repetición.
3. El método de la reivindicación 1, en donde la región de alta complejidad comprende una secuencia que tiene una mezcla diversa de bases.
4. El método de la reivindicación 1, en donde la región de siembra evita las regiones de baja complejidad de la región flanqueante conservada.
5. El método de la reivindicación 4, en donde la región de baja complejidad comprende una secuencia que sustancialmente se asemeja a la de la secuencia de repetición.
6. El método de la reivindicación 4, en donde la región de baja complejidad comprende una secuencia que tiene una mezcla de bases con baja diversidad.
7. El método de la reivindicación 1, en donde la región de siembra es directamente adyacente a la región de repetición.
8. El método de la reivindicación 1, en donde la región de siembra comprende una porción de la región de repetición.
9. El método de la reivindicación 1, en donde la región de siembra está desplazada de la región de repetición.
10. El método de la reivindicación 1, en donde al menos una lectura de secuencia en el conjunto de datos comprende una secuencia de consenso derivada de múltiples lecturas de secuencia.
11. El método de la reivindicación 1, en donde proporcionar una secuencia de referencia comprende identificar un locus de interés en base a una secuencia de cebador de un amplicón de PCR.
12. Un sistema para determinar la longitud y/o secuencia de un elemento de ADN repetitivo polimórfico que tiene una región de repetición situada entre una primera región flanqueante conservada y una segunda región flanqueante conservada, comprendiendo el sistema:
un procesador; y
un programa para determinar la longitud y/o secuencia de un elemento polimórfico repetitivo de ADN, en donde el programa comprende instrucciones para que el procesador lleve a cabo las siguientes etapas:
(a) proporcionar un conjunto de datos que comprende al menos una lectura de secuencia del elemento polimórfico repetitivo de ADN;
(b) proporcionar una secuencia de referencia que comprende la primera región flanqueante conservada y la segunda región flanqueante conservada;
(c) alinear una porción de la primera región flanqueante de la secuencia de referencia con la lectura de secuencia; (d) alinear una porción de la segunda región flanqueante de la secuencia de referencia con la lectura de secuencia; y (e) determinar la longitud y/o secuencia de la región de repetición;
en donde el alineamiento de una porción de la región flanqueante en una o ambas etapas (c) y (d) comprende: (i) determinar una ubicación de una región flanqueante conservada en la lectura utilizando una coincidencia exacta de k-meros de una región de siembra que se superpone o es adyacente a la región de repetición; y
(ii) alinear la región flanqueante con la lectura de secuencia;
en donde la región de siembra comprende una región de alta complejidad de la región flanqueante conservada, comprendiendo la región de alta complejidad una secuencia que es lo suficientemente distinta de la región de repetición para evitar el desalineamiento.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/US2013/030867 WO2014142831A1 (en) | 2013-03-13 | 2013-03-13 | Methods and systems for aligning repetitive dna elements |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2704255T3 true ES2704255T3 (es) | 2019-03-15 |
Family
ID=47998537
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES13712642T Active ES2704255T3 (es) | 2013-03-13 | 2013-03-13 | Métodos y sistemas para alinear elementos de ADN repetitivos |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US20160110498A1 (es) |
| EP (1) | EP2971069B1 (es) |
| AU (2) | AU2013382195B2 (es) |
| CA (1) | CA2907484C (es) |
| ES (1) | ES2704255T3 (es) |
| WO (1) | WO2014142831A1 (es) |
Families Citing this family (29)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2016044233A1 (en) | 2014-09-18 | 2016-03-24 | Illumina, Inc. | Methods and systems for analyzing nucleic acid sequencing data |
| BR112019009949A2 (pt) | 2016-11-16 | 2019-08-20 | Illumina, Inc. | método implantado por computador para validar chamadas de variante e sistema para validar chamadas de variante |
| CN108614954B (zh) * | 2016-12-12 | 2020-07-28 | 深圳华大基因科技服务有限公司 | 一种二代序列的短序列纠错的方法和装置 |
| CN106701988B (zh) * | 2017-02-10 | 2021-12-17 | 上海荻硕贝肯医学检验所有限公司 | 用于检测短串联重复序列的引物、试剂盒及方法 |
| US10689684B2 (en) | 2017-02-14 | 2020-06-23 | Microsoft Technology Licensing, Llc | Modifications to polynucleotides for sequencing |
| US10930370B2 (en) | 2017-03-03 | 2021-02-23 | Microsoft Technology Licensing, Llc | Polynucleotide sequencer tuned to artificial polynucleotides |
| US20200385806A1 (en) * | 2017-10-10 | 2020-12-10 | Memorial Sloan Kettering Cancer Center | System and methods for primer extraction and clonality detection |
| CN110832596B (zh) | 2017-10-16 | 2021-03-26 | 因美纳有限公司 | 基于深度学习的深度卷积神经网络训练方法 |
| WO2019079202A1 (en) | 2017-10-16 | 2019-04-25 | Illumina, Inc. | ABERRANT CONNECTION DETECTION USING CONVOLUTION NEURAL NETWORKS (CNN) |
| CN110870016B (zh) | 2017-11-30 | 2024-09-06 | 伊鲁米那股份有限公司 | 用于序列变体呼出的验证方法和系统 |
| CA3065939A1 (en) | 2018-01-15 | 2019-07-18 | Illumina, Inc. | Deep learning-based variant classifier |
| US20190318806A1 (en) | 2018-04-12 | 2019-10-17 | Illumina, Inc. | Variant Classifier Based on Deep Neural Networks |
| US12073922B2 (en) | 2018-07-11 | 2024-08-27 | Illumina, Inc. | Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors (SSEs) |
| NL2023316B1 (en) | 2019-03-21 | 2020-09-28 | Illumina Inc | Artificial intelligence-based sequencing |
| US11783917B2 (en) | 2019-03-21 | 2023-10-10 | Illumina, Inc. | Artificial intelligence-based base calling |
| WO2020191389A1 (en) | 2019-03-21 | 2020-09-24 | Illumina, Inc. | Training data generation for artificial intelligence-based sequencing |
| US11210554B2 (en) | 2019-03-21 | 2021-12-28 | Illumina, Inc. | Artificial intelligence-based generation of sequencing metadata |
| US11593649B2 (en) | 2019-05-16 | 2023-02-28 | Illumina, Inc. | Base calling using convolutions |
| US11423306B2 (en) | 2019-05-16 | 2022-08-23 | Illumina, Inc. | Systems and devices for characterization and performance analysis of pixel-based sequencing |
| US12591780B2 (en) | 2020-02-20 | 2026-03-31 | Illumina, Inc. | Data compression for artificial intelligence-based base calling |
| US12354008B2 (en) | 2020-02-20 | 2025-07-08 | Illumina, Inc. | Knowledge distillation and gradient pruning-based compression of artificial intelligence-based base caller |
| CN121034400A (zh) | 2020-02-20 | 2025-11-28 | 因美纳有限公司 | 基于人工智能的多对多碱基判读 |
| US12592298B2 (en) | 2020-02-20 | 2026-03-31 | Illumina, Inc. | Hardware execution and acceleration of artificial intelligence-based base caller |
| US20210265009A1 (en) | 2020-02-20 | 2021-08-26 | Illumina, Inc. | Artificial Intelligence-Based Base Calling of Index Sequences |
| US12525320B2 (en) | 2021-03-16 | 2026-01-13 | Illumina, Inc. | Neural network parameter quantization for base calling |
| US12444482B2 (en) | 2021-04-15 | 2025-10-14 | Illumina, Inc. | Multi-channel protein voxelization to predict variant pathogenicity using deep convolutional neural networks |
| US12217829B2 (en) | 2021-04-15 | 2025-02-04 | Illumina, Inc. | Artificial intelligence-based analysis of protein three-dimensional (3D) structures |
| US12530882B2 (en) | 2021-07-01 | 2026-01-20 | Illumina, Inc. | Efficient artificial intelligence-based base calling of index sequences |
| WO2026006675A1 (en) * | 2024-06-28 | 2026-01-02 | Illumina, Inc. | Oligonucleotide amplification at reduced temperatures |
Family Cites Families (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA1323293C (en) | 1987-12-11 | 1993-10-19 | Keith C. Backman | Assay using template-dependent nucleic acid probe reorganization |
| CA1341584C (en) | 1988-04-06 | 2008-11-18 | Bruce Wallace | Method of amplifying and detecting nucleic acid sequences |
| AU3539089A (en) | 1988-04-08 | 1989-11-03 | Salk Institute For Biological Studies, The | Ligase-based amplification method |
| ATE144556T1 (de) | 1988-06-24 | 1996-11-15 | Amgen Inc | Verfahren und mittel zum nachweis von nukleinsäuresequenzen |
| ATE138106T1 (de) | 1988-07-20 | 1996-06-15 | David Segev | Verfahren zur amplifizierung und zum nachweis von nukleinsäuresequenzen |
| US5185243A (en) | 1988-08-25 | 1993-02-09 | Syntex (U.S.A.) Inc. | Method for detection of specific nucleic acid sequences |
| CA2035010C (en) | 1990-01-26 | 1996-12-10 | Keith C. Backman | Method of amplifying target nucleic acids applicable to both polymerase and ligase chain reactions |
| US5573907A (en) | 1990-01-26 | 1996-11-12 | Abbott Laboratories | Detecting and amplifying target nucleic acids using exonucleolytic activity |
| WO1995021271A1 (en) | 1994-02-07 | 1995-08-10 | Molecular Tool, Inc. | Ligase/polymerase-mediated genetic bit analysistm of single nucleotide polymorphisms and its use in genetic analysis |
| US7582420B2 (en) | 2001-07-12 | 2009-09-01 | Illumina, Inc. | Multiplex nucleic acid reactions |
| US7955794B2 (en) | 2000-09-21 | 2011-06-07 | Illumina, Inc. | Multiplex nucleic acid reactions |
| AU2001236555A1 (en) | 2000-02-22 | 2001-09-03 | Pe Corporation (Ny) | Method and system for the assembly of a whole genome using a shot-gun data set |
| US20030152955A1 (en) | 2000-02-24 | 2003-08-14 | Thomas Bureau | Method for identifying transposons from a nucleic acid database |
| WO2005116257A2 (en) * | 2004-05-17 | 2005-12-08 | The Ohio State University Research Foundation | Unique short tandem repeats and methods of their use |
| WO2008022036A2 (en) | 2006-08-10 | 2008-02-21 | Washington University | Method and apparatus for protein sequence alignment using fpga devices |
| WO2010036287A1 (en) | 2008-09-24 | 2010-04-01 | Pacific Biosciences Of California, Inc. | Intermittent detection during analytical reactions |
| WO2010075570A2 (en) | 2008-12-24 | 2010-07-01 | New York University | Methods, computer-accessible medium, and systems for score-driven whole-genome shotgun sequence assemble |
| US20120149593A1 (en) | 2009-01-23 | 2012-06-14 | Hicks James B | Methods and arrays for profiling dna methylation |
| US20110098193A1 (en) | 2009-10-22 | 2011-04-28 | Kingsmore Stephen F | Methods and Systems for Medical Sequencing Analysis |
| US9165109B2 (en) | 2010-02-24 | 2015-10-20 | Pacific Biosciences Of California, Inc. | Sequence assembly and consensus sequence determination |
| US20130261196A1 (en) | 2010-06-11 | 2013-10-03 | Lisa Diamond | Nucleic Acids For Multiplex Organism Detection and Methods Of Use And Making The Same |
| US8209130B1 (en) | 2012-04-04 | 2012-06-26 | Good Start Genetics, Inc. | Sequence assembly |
-
2013
- 2013-03-13 EP EP13712642.1A patent/EP2971069B1/en active Active
- 2013-03-13 ES ES13712642T patent/ES2704255T3/es active Active
- 2013-03-13 CA CA2907484A patent/CA2907484C/en active Active
- 2013-03-13 WO PCT/US2013/030867 patent/WO2014142831A1/en not_active Ceased
- 2013-03-13 AU AU2013382195A patent/AU2013382195B2/en not_active Ceased
- 2013-03-13 US US14/775,252 patent/US20160110498A1/en not_active Abandoned
-
2019
- 2019-12-11 AU AU2019280010A patent/AU2019280010A1/en not_active Abandoned
Also Published As
| Publication number | Publication date |
|---|---|
| EP2971069A1 (en) | 2016-01-20 |
| EP2971069B1 (en) | 2018-10-17 |
| WO2014142831A1 (en) | 2014-09-18 |
| AU2013382195B2 (en) | 2019-09-19 |
| AU2019280010A1 (en) | 2020-01-16 |
| CA2907484A1 (en) | 2014-09-18 |
| US20160110498A1 (en) | 2016-04-21 |
| AU2013382195A1 (en) | 2015-08-06 |
| CA2907484C (en) | 2021-06-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2704255T3 (es) | Métodos y sistemas para alinear elementos de ADN repetitivos | |
| ES2726149T3 (es) | Oligonucleótido aislado y su uso en la secuenciación de ácidos nucleicos | |
| US20220348998A1 (en) | Methods for labelling nucleic acids | |
| ES2984550T3 (es) | Métodos para detectar mutaciones raras y variación del número de copias | |
| ES2799074T3 (es) | Supresión de errores en fragmentos de ADN secuenciados mediante el uso de lecturas redundantes con índices moleculares únicos (UMI) | |
| Li et al. | Quality control of RNA-seq experiments | |
| ES2945311T3 (es) | Detección rápida de aneuploidía | |
| ES2870533T3 (es) | Métodos de determinación de la fracción de ácidos nucleicos fetales en muestras maternas | |
| ES3013487T3 (en) | Normalizing tumor mutation burden | |
| US10513726B2 (en) | Methods for controlled identification and/or quantification of transcript variants in one or more samples | |
| WO2019055715A1 (en) | UNIVERSAL SHORT ADAPTERS WITH UNIQUE NON-RANDOM MOLECULAR IDENTIFIERS OF VARIABLE LENGTH | |
| US11901043B2 (en) | Sequence analysis method, sequence analysis apparatus, reference sequence generation method, reference sequence generation apparatus, program, and storage medium | |
| ES3041118T3 (en) | Improved method and kit for the generation of dna libraries for massively parallel sequencing | |
| Lin et al. | Degraded RNA transcript stable regions (StaRs) as targets for enhanced forensic RNA body fluid identification | |
| CN105793438B (zh) | 未知序列的双股线性核酸的全长扩增方法 | |
| JP6766191B2 (ja) | 次世代シーケンシングにおける検体間相互汚染の検出方法 | |
| JP2025013900A (ja) | 無細胞核酸試料におけるアレル不均衡を検出するための方法およびシステム | |
| US20170101670A1 (en) | Method for detecting rare mutation | |
| CN113227393A (zh) | 用于校准表观遗传分区测定的方法、组合物和系统 | |
| ES3055990T3 (en) | Methods for addressing inefficiencies in amplification reactions | |
| ES2641690B1 (es) | Método de identificación de mutaciones | |
| KR102024581B1 (ko) | 이동성 유전인자 LINE-1(L1HS) 선택적 발굴을 위한 HiSeq 시퀀서 기반의 DNA 라이브러리 제작 방법 | |
| CN111542616A (zh) | 脱氨引起的序列错误的纠正 | |
| KR20230148578A (ko) | 표적 서열분석을 통한 암 진단 방법 및 장치 | |
| Chun et al. | Cancer Genomics: Chapter 2. Second-Generation Sequencing for Cancer Genome Analysis |