ES2897941T3 - Procedimiento de clasificación de una muestra biológica - Google Patents

Procedimiento de clasificación de una muestra biológica Download PDF

Info

Publication number
ES2897941T3
ES2897941T3 ES17705020T ES17705020T ES2897941T3 ES 2897941 T3 ES2897941 T3 ES 2897941T3 ES 17705020 T ES17705020 T ES 17705020T ES 17705020 T ES17705020 T ES 17705020T ES 2897941 T3 ES2897941 T3 ES 2897941T3
Authority
ES
Spain
Prior art keywords
group
descriptors
programmed
biological
measurement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17705020T
Other languages
English (en)
Inventor
Jean-Christophe Avarre
Christelle Reynes
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Centre National de la Recherche Scientifique CNRS
Universite de Montpellier
Institut de Recherche pour le Developpement IRD
Original Assignee
Centre National de la Recherche Scientifique CNRS
Universite de Montpellier
Institut de Recherche pour le Developpement IRD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Centre National de la Recherche Scientifique CNRS, Universite de Montpellier, Institut de Recherche pour le Developpement IRD filed Critical Centre National de la Recherche Scientifique CNRS
Application granted granted Critical
Publication of ES2897941T3 publication Critical patent/ES2897941T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6816Hybridisation assays characterised by the detection means
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

Procedimiento de clasificación de una muestra biológica de medición, que comprende: - una adquisición (9) de al menos una curva de fusión de ADN de la muestra biológica de medición, llamada al menos una curva de medición, - determinación (10) de una pertenencia de la muestra biológica de medición a un grupo determinado entre diferentes grupos posibles, por un análisis de descriptores derivados de la al menos una curva de medición, cada una de las etapas de adquisición y de determinación implican el uso de un medio técnico (101, 102), caracterizado porque los descriptores comprenden uno o varios puntos de la segunda derivada de cada curva de medición, dicho o cada uno de dichos puntos comprenden un valor de la segunda derivada de la curva de fusión para un valor de temperatura específico.

Description

DESCRIPCIÓN
Procedimiento de clasificación de una muestra biológica
Campo técnico
La presente invención se refiere a un procedimiento de clasificación de una muestra biológica, y un dispositivo asociado. Un dispositivo de este tipo permite a un usuario clasificar una muestra biológica entre varios grupos posibles. El campo de la invención es el de la clasificación biológica.
Estado de la técnica anterior
El artículo “Surface Melting Curve Analysis with R” de Rodiger et al. (The R Journal. Vol. 5/2, diciembre de 2013) describe un método para hacer un "resumen" o descripción de una curva de fusión.
Conocemos el documento WO2013/166373, que describe un procedimiento para determinar el estado de regulación de la vía de señalización de IL-6 / STAT3 en una muestra celular o en un sujeto. El estado de regulación de la vía de señalización de IL-6 / STAT3 en una muestra celular o en un sujeto se puede analizar basado en el nivel de expresión de uno o más de 16 genes de una firma de expresión. La expresión de biomarcadores se determina preferiblemente por reacción en cadena de la polimerasa con transcriptasa inversa (RT-PCR) usando procedimientos SYBR Green, y los datos de expresión se analizan y comparan con una muestra de control usando el método de bosque aleatorio. La determinación de las variables seleccionadas (aquí los 16 genes) es específica de la problemática y debe realizarse manualmente para cada nueva problemática.
Pueden surgir ciertos problemas técnicos para un procedimiento de clasificación de una muestra biológica en un grupo, en particular cuando el número de grupos posibles es grande, por ejemplo:
- ¿Cómo mejorar la precisión de la clasificación? y/o
- ¿Cómo poder procesar una muestra que no pertenece a ningún grupo conocido?
- ¿Cómo automatizar el procedimiento, sin selección manual de variables?
El objetivo de la presente invención es resolver al menos uno de estos problemas.
Descripción de la invención
Este objetivo se logra con un procedimiento de clasificación de una muestra biológica de medición, que comprende: - una adquisición de al menos una curva de fusión de ácido desoxirribonucleico (ADN) de la muestra biológica de medición, llamada al menos una curva de medición (preferiblemente una adquisición de varias curvas de fusión de ADN de la muestra biológica de medición, también llamadas réplicas técnicas), normalmente cada curva de medición que comprende diferentes puntos, cada punto que corresponde a una cantidad proporcional o representativa de una tasa o de una cantidad de desnaturalización del ADN de la muestra de medición en función de una temperatura,
- una determinación de una pertenencia de la muestra biológica de medición a un grupo determinado de entre diferentes grupos posibles, por un análisis de descriptores derivados de la al menos una curva de medición, cada una de las etapas de adquisición y de determinación implican el uso de un medio técnico.
caracterizado porque los descriptores comprenden uno o varios (preferiblemente varios) punto(s) de la segunda derivada de cada curva de medición, dicho punto o cada uno de dichos puntos que comprenden un valor de la segunda derivada de la curva de fusión para un valor de temperatura específico.
Los descriptores pueden comprender además:
- uno o varios (preferiblemente varios) punto(s) de la primera derivada de cada curva de medición, y/o
- uno o varios punto(s) de cada curva de medición, y/o
- uno o varios percentil(es) de cada curva de medición.
La adquisición de al menos una curva de fusión de ADN de la muestra biológica de medición puede comprender la adquisición de al menos una curva de fusión de un resultado de una reacción en cadena de la polimerasa (PCR) obtenida en presencia simultánea de varios pares de cebadores dirigidos a varias moléculas dianas de ADN, que corresponden por ejemplo a varios patógenos. Hablamos entonces de condiciones de “multiplexación”. Esta realización es útil para acelerar las búsquedas, por ejemplo, para varios patógenos muy raramente presentes en común en la misma muestra biológica. Se identifican casos raros, por ejemplo, de varios patógenos presentes en común en una muestra: normalmente, la curva de fusión tiene tantos puntos de inflexión como patógenos hay presentes; diferentes "grupos determinados" pueden entonces reunir las diferentes combinaciones de presencia de estos diferentes patógenos.
La determinación puede comprender una determinación por un método de los bosques aleatorios. El procedimiento según la invención puede comprender un entrenamiento que comprende:
- una adquisición de diferentes curvas de fusión de ADN, llamadas curvas de referencia, a partir de diferentes muestras biológicas de referencia que pertenecen a diferentes grupos iniciales conocidos y determinados antes del entrenamiento, luego
- una determinación de los descriptores a partir de las curvas de referencia, luego
- una construcción de un bosque según el método de los bosques aleatorios, comprende una construcción de varios árboles según el método de los bosques aleatorios, cada árbol que comprende, en cada nodo, el uso de uno de los descriptores asociados a un umbral y que permite separar las curvas de referencia en dos subconjuntos, cada hoja de cada árbol que corresponde a un solo grupo entre los diferentes grupos posibles.
La determinación de los descriptores puede comprender:
- una determinación preliminar de descriptores, luego
- una eliminación de ciertos descriptores redundantes.
La eliminación de ciertos descriptores puede comprender, para cada conjunto de descriptores que presentan de dos en dos un coeficiente de correlación de Pearson superior a 0,95, una retención de un solo descriptor.
El procedimiento según la invención puede comprender:
- después de la adquisición de diferentes curvas de referencia (y/o, preferiblemente, antes de la construcción de los árboles), una identificación de varias curvas de referencia que corresponden al mismo grupo inicial, llamado grupo ambiguo, y que presentan perfiles separados en varios subgrupos, y
- una separación de este grupo ambiguo en varios grupos posibles.
El procedimiento según la invención puede comprender:
- después de la adquisición de varias curvas de referencia (y/o preferiblemente después de la construcción de los árboles), una identificación de varias curvas de referencia que corresponden a varios grupos iniciales, llamados grupos combinados, y que presentan perfiles reunidos en un solo grupo, y
- una unificación de estos grupos combinados en un solo grupo posible.
El procedimiento según la invención puede comprender además un cálculo de un índice de confianza de la etapa de determinación de una pertenencia de la muestra biológica de medición a un grupo determinado. El cálculo del índice de confianza puede comprender:
- un cálculo de una distribución de proximidades medias entre curvas de referencia que pertenecen al grupo determinado,
- un cálculo de una proximidad media de la al menos una curva de medición con las curvas de referencia que pertenecen al grupo determinado, y
- un cálculo de una tasa de curvas de referencia que pertenecen al grupo determinado, y que tienen una proximidad media a las otras curvas de referencia que pertenecen al grupo determinado inferior a la proximidad media de la curva de la al menos una medición con las curvas de referencia que pertenece al grupo determinado.
El procedimiento según la invención puede comprender además, después de la etapa de determinación de una pertenencia de la muestra biológica de medición a un grupo determinado, un rechazo a asignar la muestra biológica de medición a cualquier grupo en función del valor del índice de confianza.
Según otro aspecto más de la invención, se proporciona un dispositivo de clasificación de una muestra biológica de medición, que comprende:
- medios dispuestos y/o programados para una adquisición de al menos una curva de fusión de ADN de la muestra biológica de medición, llamada al menos una curva de medición (preferiblemente una adquisición de varias curvas de fusión de ADN de la muestra biológica de medición, también llamadas réplicas técnicas), normalmente cada curva de medición que comprende preferiblemente diferentes puntos, cada punto que corresponde a una cantidad proporcional o representativa de una tasa o de una cantidad de desnaturalización del ADN de la muestra de medición en función de una temperatura,
- medios dispuestos y/o programados para una determinación de una pertenencia de la muestra biológica de medición a un grupo determinado entre diferentes grupos posibles, por un análisis de descriptores derivados de al menos una curva de medición,
caracterizado porque los descriptores comprenden uno o varios (preferiblemente varios) punto(s) de la segunda derivada de cada curva de medición, dicho o cada uno de dichos puntos que comprenden un valor de la segunda derivada de la curva de fusión para un valor de temperatura específico,
Los descriptores pueden comprender además:
- uno o varios (preferiblemente varios) punto(s) de la primera derivada de cada curva de medición, y/o
- uno o varios punto(s) de cada curva de medición, y/o
- uno o varios percentil(es) de cada curva de medición.
Los medios dispuestos y/o programados para la determinación comprenden preferiblemente medios dispuestos y/o programados para una determinación por un método de los bosques aleatorios. El dispositivo según la invención puede comprender medios dispuestos y/o programados para un entrenamiento que comprenden:
- medios dispuestos y/o programados para una adquisición de diferentes curvas de fusión de ADN, llamadas curvas de referencia, a partir de diferentes muestras biológicas de referencia que pertenecen a diferentes grupos iniciales conocidos y determinados antes del entrenamiento, luego
- medios dispuestos y/o programados para una determinación de los descriptores a partir de las curvas de referencia, luego
- medios dispuestos y/o programados para una construcción de un bosque según el método de los bosques aleatorios, que comprende los medios dispuestos y/o programados para una construcción de varios árboles según el método de los bosques aleatorios, cada árbol que comprende, en cada nodo, el uso uno de los descriptores asociados a un umbral y que permite separar las curvas de referencia en dos subconjuntos, cada hoja de cada árbol que corresponde a un solo grupo entre los diferentes grupos posibles.
Los medios dispuestos y/o programados para la determinación de los descriptores pueden comprender:
- medios dispuestos y/o programados para una determinación preliminar de descriptores,
- medios dispuestos y/o programados para, después de la determinación preliminar, una eliminación de ciertos descriptores redundantes.
Los medios dispuestos y/o programados para la eliminación de ciertos descriptores pueden comprender los medios dispuestos y/o programados para, para cada conjunto de descriptores que presentan de dos en dos un coeficiente de correlación de Pearson superior a 0,95, una retención de un solo descriptor.
El dispositivo según la invención puede comprender:
- medios dispuestos y/o programados para, después de la adquisición de diferentes curvas de referencia (y/o, preferiblemente, antes de la construcción de los árboles), una identificación de varias curvas de referencia que corresponden al mismo grupo inicial, llamado grupo ambiguo, y que presentan perfiles separados en varios subgrupos, y
- medios dispuestos y/o programados para una separación de este grupo ambiguo en varios grupos posibles.
El dispositivo según la invención puede comprender:
- medios dispuestos y/o programados para, después de la adquisición de diferentes curvas de referencia (y/o preferiblemente después de la construcción de los árboles), una identificación de varias curvas de referencia que corresponden a varios grupos iniciales, llamados grupos combinados, y que presentan perfiles reunidos en un solo grupo, y
- medios dispuestos y/o programados para una unificación de estos grupos combinados en un solo grupo posible.
El dispositivo según la invención puede comprender además medios dispuestos y/o programados para un cálculo de un índice de confianza de la etapa de determinación de una pertenencia de la muestra biológica de medición a un grupo determinado. Los medios dispuestos y/o programados para el cálculo del índice de confianza comprenden preferiblemente:
- medios dispuestos y/o programados para un cálculo de una distribución de proximidades medias entre curvas de referencia que pertenecen al grupo determinado,
- medios dispuestos y/o programados para un cálculo de una proximidad media de la al menos una curva de medición con las curvas de referencia que pertenecen al grupo determinado, y
- medios dispuestos y/o programados para un cálculo de una tasa de las curvas de referencia que pertenecen al grupo determinado, y que tienen una proximidad media a las otras curvas de referencia que pertenecen al grupo determinado inferior a la proximidad media de la al menos una curva de medición con las curvas de referencia que pertenecen al grupo determinado.
El dispositivo según la invención puede comprender además los medios dispuestos y/o programados para, después de la etapa de determinación de una pertenencia de la muestra biológica de medición a un grupo determinado, un rechazo a asignar la muestra biológica de medición a cualquier grupo en función del valor del índice de confianza.
Descripción de las figuras y realizaciones
Otras ventajas y características de la invención resultarán evidentes al leer la descripción detallada de implementaciones y realizaciones que no son de ninguna manera limitantes, y de los siguientes dibujos adjuntos: - la figura 1 es un diagrama de flujo de una realización preferida del procedimiento según la invención.
- la figura 2 ilustra varias curvas de fusión 12 llamadas “de referencia", para un entrenamiento de la realización del procedimiento según la invención.
la figura 3 ilustra:
o varias curvas de fusión normalizadas 13 (réplicas “técnicas”) llamadas “de medición” de una muestra para la que se busca determinar la pertenencia a un grupo determinado entre varios grupos posibles,
o los percentiles 14 de estas curvas de medición
o las primeras derivadas 15 de estas curvas de medición
o las segundas derivadas 16 de estas curvas de medición
la figura 4 ilustra varias curvas de fusión de referencia (réplicas técnicas) de varias muestras (réplicas biológicas) que pertenecen todas al grupo inicial "Mycobacterium fortuitum”,
la figura 5 ilustra varias curvas de fusión de referencia (réplicas técnicas) de varias muestras (réplicas biológicas) que pertenecen al grupo inicial "M. avium" o "M. szulgai”,
la figura 6 ilustra un ejemplo de un árbol de un bosque aleatorio, generado en un caso con tres descriptores a, p y 5 y con dos grupos posibles (grupo 1 y grupo 2); la respuesta afirmativa a la pregunta de cada nodo corresponde a la elección de la rama siguiente a la izquierda; la respuesta negativa a la pregunta de cada nodo corresponde a la elección de la rama siguiente a la derecha;
la figura 7 ilustra gráficamente el principio de un indicador de confianza según la invención,
la figura 8 es una curva característica de operación del receptor (ROC) asociada al uso del índice de confianza basado en las proximidades intragrupo para discriminar las observaciones asignadas o no al grupo correcto, y - la figura 9 ilustra esquemáticamente una realización del dispositivo 100 según la invención.
Por lo tanto, se describirá, con referencia a las figuras 1 a 8, una realización preferida del procedimiento según la invención. A continuación, en la presente descripción, la expresión "procedimiento según la invención" designará solo esta realización que no es de ninguna manera limitante.
El objetivo de esta realización es poder discriminar entre diferentes especies. Elegimos como un ejemplo no limitativo una discriminación de diferentes especies del género Mycobacterium.
En esta realización, una "muestra biológica" corresponde a cualquier tipo de muestra que contenga, o susceptible de contener, material biológico. Preferiblemente, se trata de una muestra susceptible de contener micobacterias y/o una muestra susceptible de contener ácido desoxirribonucleico (o "ADN"), o trazas de ADN de micobacterias.
Principio de obtención de una curva de fusión.
En esta realización, la técnica de biología molecular llamada de "fusión de ADN de alta resolución" también se llama "HRM" (para "fusión de alta resolución"). Esta técnica de HRM se realiza a partir de ADN de doble cadena. Antes del análisis por HRM, un fragmento del ADN, en el que son susceptibles de localizarse mutaciones de interés, se amplifica por una reacción de PCR (para "reacción en cadena de la polimerasa"). La muestra contiene entonces un gran número de copias del fragmento de ADN dirigido y amplificado por la reacción de PCR.
El análisis de HRM consiste entonces en calentar de manera precisa y controlada el fragmento de ADN amplificado por PCR para provocar su desnaturalización. El control de la desnaturalización del ADN, durante el análisis de HRM, permite así determinar un perfil de fusión específico del fragmento de ADN diana.
El "perfil de fusión" (también llamado "curva de fusión") corresponde a la evolución de la desnaturalización de una (o en media de cada) molécula de ADN en función de la temperatura. Dentro del significado de la invención, una curva de fusión no es necesariamente una curva gráfica, pero puede ser una lista o una tabla de valores de varios puntos de esta curva durante esta desnaturalización de una (o en media de cada) molécula de ADN en función de la temperatura.
La reacción de PCR comprende, por ejemplo, la repetición del ciclo compuesto por las 3 etapas siguientes:
- una etapa a una temperatura de 90°C a 99°C, de 5 a 30 segundos,
- seguido de una etapa a una temperatura de 58°C a 64°C, de 5 a 30 segundos,
- seguido de una etapa a una temperatura de 70°C a 74°C, de 5 segundos a 1 minuto.
Las tres etapas que constituyen el ciclo de PCR corresponden respectivamente a unas etapas:
- de desnaturalización del ADN (de 90°C a 99°C),
- de hibridación del ADN con los cebadores (de 58°C a 64°C),
- y de alargamiento de ADN por ADN polimerasa de los cebadores (70°C a 74°C).
El ciclo se repite normalmente de 40 a 50 veces, preferiblemente 45 veces.
Dicha reacción de PCR está preferiblemente precedida por una etapa de desnaturalización inicial del ADN contenido en dicha muestra biológica, preferiblemente a 95°C durante 10 minutos.
Esta etapa de desnaturalización inicial es una etapa de calentamiento realizado antes del ciclo de PCR. Esto permite preparar el ADN de la muestra, que servirá como una plantilla durante la reacción de amplificación, en particular deshibridando completamente el ADN de doble cadena, rompiendo las estructuras secundarias del ADN o activando el ADN polimerasa.
Dicha reacción de PCR se realiza, por ejemplo, usando una mezcla de reacción que comprende al menos:
- el ADN contenido en la muestra biológica
- MgCl2 a una tasa de 3 mM,
- los cebadores a una tasa de 0,4 pM, y
- al menos una unidad de ADN polimerasa.
Dicha reacción de PCR es, por ejemplo, seguida de una etapa de calentamiento progresivo entre 60°C y 100°C, preferiblemente de 65°C a 95°C, para realizar una desnaturalización de dicho producto de amplificación, y obtener un perfil de fusión de dicho producto de amplificación.
Esta etapa de calentamiento progresivo corresponde a un calentamiento de la muestra realizado de una manera controlada, durante el cual la temperatura aumenta progresivamente por etapas a lo largo del tiempo, como por ejemplo un aumento de 0,2°C/segundo.
La desnaturalización de dicho producto de amplificación se controla normalmente usando un marcador fluorescente, preferiblemente elegido entre el LC Green, el LC Green Plus, el ResoLight, el EvaGreen, el Chromofy, y el SYTO 9.
Las etapas de amplificación y de fusión se realizaron usando el kit de fusión de alta resolución LightCycler® 480 master kit (Roche). La mezcla de reacción se compone de 2X Mezclas Maestras, MgCl2, de cebadores sentido y antisentido, de ADN genómico y de agua, en un volumen final de 10 gl. El procedimiento de amplificación consiste en una desnaturalización inicial seguida de 45 ciclos de desnaturalización, hibridación y alargamiento. Después de la amplificación, el programa de fusión se realiza calentando a 95°C durante 1 minuto, enfriando a 40°C durante 1 minuto, seguido de la aplicación de un aumento de temperatura de 65 a 95°C con una velocidad de etapa de 0,2°C/s y de una medición de la fluorescencia continua. Cada reacción se realizó por triplicado en placas de 96 pocillos, con el sistema LightCycler® 480 (Roche). Cada análisis de HRM incluye un control negativo donde la plantilla de ADN se ha reemplazado con el agua.
Se observará que, de manera ventajosa para la invención, es más fácil obtener una curva de fusión que medir la expresión de un subconjunto de genes.
Entrenamiento
Como se ilustra en la figura 1, la realización del procedimiento según la invención comprende un entrenamiento 6 que comprende:
- una adquisición 1 de diferentes curvas de fusión de ADN, llamadas curvas de referencia, a partir de diferentes muestras biológicas de referencia que pertenecen a diferentes "grupos iniciales" conocidos y determinados antes del entrenamiento, luego
- una determinación 2, 3 de descriptores a partir de las curvas de referencia, luego
- una construcción 8 de un bosque según el método de los bosques aleatorios, que comprende una construcción de varios árboles según el método de los bosques aleatorios, cada árbol que comprende, en cada nodo, el uso de uno de los descriptores asociados a un umbral y que permite separar las curvas de referencia en dos subconjuntos, cada hoja de cada árbol que corresponde a un solo grupo entre los diferentes grupos posibles. En un árbol de clasificación, una hoja corresponde siempre a un solo grupo que es, de manera general, el grupo mayoritario de las observaciones que "caen" en esta hoja. La peculiaridad de las hojas puras es que todas las observaciones de la muestra de referencia que "caen" en esta hoja pertenecen al mismo grupo.
Los “grupos posibles”, entre los que buscará entonces para clasificar una muestra biológica desconocida, consisten en los diferentes “grupos iniciales” de las diferentes muestras biológicas de referencia usadas durante la etapa de entrenamiento, posiblemente modificados (por ejemplo, por al menos una etapa de separación de grupo y/o al menos una etapa de unificación de grupos como se describe a continuación para la racionalización de los grupos). Preferiblemente, los "grupos posibles" comprenden al menos una parte de los diferentes "grupos iniciales".
Esta fase de entrenamiento se realiza una vez para cada tipo de aplicación (con la posibilidad eventual de repetición de esta fase para inclusión de nuevas muestras de referencia y/o nuevos grupos). Su objetivo es definir los grupos (finales) posibles y construir la regla de decisión, con:
- como entradas para la etapa de entrenamiento: biblioteca de perfiles de fusión de entrenamiento normalizados con asignación, para cada uno, a un grupo inicial predefinido. Cada grupo inicial debe estar representado por varias réplicas biológicas. Cada réplica biológica debe estar representada por varias réplicas técnicas.
- en las salidas de la etapa de entrenamiento: regla de decisión de asignación
Importación de la señal normalizada : Para la etapa de adquisición 1 de las diferentes curvas de fusión de ADN de “de referencia” usadas para el entrenamiento, se usa el protocolo de obtención de curva de fusión descrito anteriormente y aplicando un método de normalización como se propone por ejemplo, por el software asociado a LightCycler® 480 (Roche), se realizaron 6 series de experimentos en diferentes fechas que permiten la producción de 417 perfiles de HRM (es decir, 417 curvas de fusión de referencia) que corresponden a 19 especies (o "grupos iniciales") de Mycobacterium diferentes. Cada especie se representa por varias réplicas técnicas de varias réplicas biológicas (de 2 a 20 réplicas biológicas por especie). Llamamos "réplicas biológicas" a las diferentes muestras biológicas que provienen de diferentes individuos de una misma especie. Llamamos "réplicas técnicas" de una misma réplica biológica las diferentes curvas de fusión obtenidas a partir de la misma muestra biológica. La entrada del software es un archivo de texto que contiene las coordenadas de los perfiles de fusión después de la normalización por el software en la salida de la máquina.
La distribución de las réplicas biológicas entre las especies viene dada en la Tabla 1 y la representación de las curvas de referencia normalizadas 12 asociadas al conjunto de las réplicas técnicas para las diferentes réplicas biológicas viene dada en la figura 2.
Figure imgf000008_0001
Tabla 1
Estas 19 especies forman los 19 grupos iniciales.
Determinación de los descriptores : entonces, se procede a la determinación de los descriptores. La determinación 2, 3 de los descriptores comprende en primer lugar una determinación preliminar 2 de los descriptores a partir de las curvas de fusión “de referencia” D(T) (Desnaturalización “D” del ADN (normalmente en % o en señal de fluorescencia) en función de la temperatura "T"), para lo cual consideramos:
- Los puntos de medición de cada curva de fusión normalizada (180 puntos en el caso presente). Se obtienen así 180 descriptores que permiten caracterizar cada curva de fusión.
- Los percentiles (101 cuantiles, de 0 a 100): nombramos i-ésimo percentil, la temperatura de una curva de fusión normalizada en la que se ha producido un i % de la desnaturalización del ADN. Se obtienen así 101 descriptores (obtenidos por interpolación entre los puntos de medición) que corresponden a los 101 percentiles, y que permiten caracterizar cada curva de fusión.
Añadimos además a las curvas de fusión en sentido estricto, para la determinación preliminar 2 de los descriptores, datos derivados que permitan describir las curvas con mayor precisión:
dD(T)
la primera derivada numérica de cada curva de fusión normalizada dT Obtenemos así, para una curva de fusión establecida inicialmente en 180 puntos (es decir, 180 valores de tasa de desnaturalización), 178 descriptores adicionales, que permiten caracterizar cada primera derivada de curva de fusión.
d 2D(T)
i t 2
la segunda derivada numérica de cada curva de fusión normalizada a i Obtenemos así, para una curva de fusión establecida inicialmente en 180 puntos (es decir, 180 valores de tasa de desnaturalización), 176 descriptores adicionales, y que permiten caracterizar cada segunda derivada de curva de fusión.
Finalmente obtenemos:
180+101+178+176 = 635 descriptores para describir cada curva de fusión o réplica técnica.
La determinación 2, 3 de los descriptores comprende:
- la determinación preliminar 2 de descriptores anteriormente descritos, luego
- una eliminación 3 de ciertos descriptores redundantes.
La redundancia de la información es perjudicial para el entrenamiento de los grupos posibles. Sin embargo, existen correlaciones muy fuertes entre valores sucesivos en una curva de fusión o en sus derivadas. Es por esto que solo se retiene un descriptor por conjunto de descriptores que presentan dos a dos un coeficiente de correlación de Pearson superior a 0,95. Así, la eliminación 3 de ciertos descriptores comprende, para cada conjunto de descriptores que presentan dos a dos un coeficiente de correlación de Pearson superior a 0,95, una retención de un solo descriptor. Se retienen finalmente 208 descriptores (entre los 635 iniciales) después de la eliminación de los descriptores redundantes, que incluyen:
- 38 puntos de curvas de fusión
- 12 percentiles
- 59 puntos de la primera derivada
- 99 puntos de la segunda derivada.
La ubicación de cada descriptor seleccionado viene dada por líneas verticales en la figura 3.
Esto ilustra claramente la ventaja del procedimiento según la invención: de hecho se puede ver que las derivadas (primera y segunda, en particular segunda) de las curvas de fusión son muy ricas en informaciones discriminantes lo que permite determinar que una muestra biológica pertenece a un grupo posible dado, porque comprenden una gran parte de los descriptores finalmente retenidos. Esto da como resultado una discriminación más precisa de los perfiles de fusión.
Racionalización de los grupos:
La realización del procedimiento según la invención se puede aplicar a un gran número de problemas o de aplicaciones de diversa complejidad de entrenamiento. Puede ser necesario discriminar entre grupos genéticamente más o menos similares. Por lo tanto, es imposible, a priori, saber si todos los grupos iniciales serán diferenciables por sus curvas de fusión. Por eso, durante el entrenamiento, se inserta una etapa de “racionalización de los grupos”. Esto permite definir el perímetro de los grupos iniciales que pueden ser diferenciables o no. Esta etapa es el resultado de dos hallazgos principales:
- ciertos grupos iniciales se componen de subgrupos heterogéneos;
- ciertos grupos iniciales no son diferenciables entre sí por sus curvas de fusión.
En la figura 2, vemos que:
1) las réplicas biológicas o técnicas pueden presentar perfiles muy diferentes dentro de un mismo grupo inicial. Este fenómeno aparece en dos de los grupos iniciales, en particular en el grupo inicial “M. fortuitum” ilustrado en la figura 4. Así cada uno de estos dos grupos iniciales se separa, por lo tanto, en varios (dos en el caso presente) subgrupos posibles para el entrenamiento , esto permite facilitar el proceso de entrenamiento; y
2) todas las réplicas biológicas o técnicas de diferentes grupos iniciales pueden ser bastante compactas.
Así, en el caso 1) anterior, la realización del procedimiento según la invención (más precisamente el entrenamiento 6) comprende:
- después de la adquisición de diferentes curvas de referencia (pero preferiblemente antes de la construcción de los árboles), una identificación de varias curvas de referencia que corresponden al mismo grupo inicial, llamado grupo ambiguo (como por ejemplo el grupo inicial "M. fortuitum" (figura 4), el grupo inicial “M. kansasii”), y que presentan perfiles separados en varios subgrupos; esta identificación se implementa, por ejemplo, usando un criterio de distancia intragrupo para el que se define un umbral, y
- una separación 4 de este grupo ambiguo en varios grupos posibles 12a y 12b.
Asimismo, en el caso 2) anterior, la realización del procedimiento según la invención (más precisamente el entrenamiento 6) comprende:
- después de la adquisición de diferentes curvas de referencia (pero preferiblemente después de la construcción de los árboles, la fusión o unificación de los grupos que pueden requerir una primera construcción de los árboles), una identificación de varias curvas de referencia que corresponden a varios grupos iniciales, llamados grupos combinados, y que presentan perfiles reunidos en un solo grupo; esta identificación es, por ejemplo, implementada usando las tasas de error de entrenamiento: si hacemos errores en un grupo, podemos asociar las observaciones clasificadas incorrectamente con las observaciones a las que más se acercan para formar un grupo fusionado o unificado;
- una unificación 5 de estos grupos combinados en un solo grupo posible;
En esta realización del procedimiento según la invención, los grupos iniciales “M. szulgai” 12c y “M. avium” 12d están, por ejemplo, muy cerca, pero no están finalmente unificados a pesar de su proximidad, gracias a la gran precisión de análisis del procedimiento según la invención.
Al final, obtenemos los siguientes 21 grupos finales posibles enumerados en la tabla 2:
Figure imgf000010_0001
Tabla 2
La etapa de “racionalización de los grupos” puede, además, ser iterativa, después de la construcción del bosque aleatorio descrito a continuación. En primer lugar, después de la optimización de los parámetros, aplicamos el método de los bosques aleatorios adaptado en validación cruzada en dos bloques. Identificamos entonces las réplicas biológicas que se asignan al grupo equivocado. Para cada una de estas réplicas, se crea un nuevo grupo que combina esta réplica asignada incorrectamente y la réplica biológica más cercana al grupo asignado incorrectamente. Por lo tanto, creamos un grupo "híbrido" que comprende una doble etiqueta. El procedimiento se repite hasta que todas las réplicas biológicas de la muestra de entrenamiento se asignan correctamente. Al final de esta etapa, se obtiene un cierto número de grupos que tienen una o varias "etiquetas".
Por supuesto, esta etapa puede comprender la creación de grupos híbridos que comprenden varios grupos iniciales. Pero es muy valioso en un contexto de predicción con un gran número de grupos tener la posibilidad de reducir significativamente el número de posibilidades. Más aún con este método, no obligamos a todo el grupo a fusionarse con otro, sino que razonamos en la escala de la réplica biológica. Así, si un grupo inicial es heterogéneo con un subconjunto de réplicas biológicas que es similar a otro grupo, obtenemos al final dos grupos finales posibles: un grupo final que comprende solo réplicas del grupo inicial y un grupo final híbrido.
Definición de un método de predicción y determinación de los parámetros del método de entrenamiento:
El entrenamiento 6 finalmente comprende la construcción 8 del bosque según el método de los bosques aleatorios.
El funcionamiento de este método de los bosques aleatorios se adapta aquí a la estructura de los datos en réplicas técnicas/réplicas biológicas según la invención. Las réplicas técnicas permiten tener en cuenta la variabilidad técnica de la obtención de los perfiles de fusión (variabilidad bastante limitada). La variabilidad biológica está en el corazón del entrenamiento porque refleja la variabilidad con la que se enfrentará la realización del procedimiento según la invención en condiciones reales de uso. Esto está ligado a las diferencias de secuencias que se pueden observar entre individuos de un mismo grupo posible.
Para discriminar los k diferentes grupos posibles (k = 21 grupos posibles en este ejemplo, ver tabla 2), usamos, por lo tanto, el método bien conocido de los bosques aleatorios (ver referencias [2], [3], [4] para más detalles, relativos a las generalidades bien conocidas de este método de los bosques aleatorios). El principio de este método, basado en los árboles de clasificación, consiste en construir varios árboles de clasificación usando para cada árbol un subconjunto de las n curvas de fusión de referencia iniciales (también llamadas “observaciones”) (n = 417 curvas fusión de referencia en este ejemplo) y, para cada nodo del árbol, un subconjunto de los p descriptores iniciales (también llamados “variables”) (p = 208 descriptores en este ejemplo). Este método depende de dos parámetros:
- ntree el número de árboles construidos, es decir, el número total de árboles implicados en la regla de decisión final y
- mtry el número de descriptores estudiados en cada nodo de cada árbol, con mtry < p, es decir, el número de descriptores elegidos aleatoriamente entre el conjunto de los descriptores disponibles durante el entrenamiento de cada nodo de cada árbol.
Estos dos parámetros se determinan durante una etapa 7 de optimización por validación cruzada en dos bloques en los datos de entrenamiento (curvas de referencia). Para esta etapa 7 (que es parte del entrenamiento 6), y para cada uso de validación cruzada, que funciona en la escala de la réplica biológica, es decir que en cada etapa de la validación cruzada, las réplicas técnicas de una réplica biológica se asignan todas al bloque de entrenamiento, o se asignan todas al bloque de validación. Esta restricción tiene la ventaja de imitar las condiciones de entrenamiento reales lo más fielmente posible. Los parámetros elegidos son los que maximizan los porcentajes de media correctamente clasificados obtenidos en 100 distribuciones aleatorias en bloques de entrenamiento/prueba. Así, para cada valor posible de la pareja (ntree, mtry), construimos un bosque (con varios árboles) según el método de los bosques aleatorios sobre la base de la mitad de las n observaciones, luego, probamos este bosque en la otra mitad de las n observaciones cuyos miembros ya sabemos en realidad la pertenencia o no a cada uno de los k grupos posibles; seleccionamos entonces el valor del par (ntree, mtry) que hemos construido de los bosques que dan en media (ya que se realizan 100 distribuciones aleatorias, que incluyen 100 bosques por cada par de valores) los mejores resultados. Obtenemos un número óptimo de ntree=1000 árboles y mtry=10 variables por nodo.
Construimos entonces los ntree=1000 árboles del bosque aleatorio usando las n=417 observaciones.
Para la construcción de cada árbol:
- 100 observaciones (o curvas de referencia) se extraen aleatoriamente de entre las n=417 disponibles, y
- en cada nodo 17 de cada árbol, extraemos aleatoriamente mtry=10 descriptores entre los p=208 disponibles, y seleccionamos, entre los mtry=10 descriptores extraídos, el descriptor y el umbral asociado que juntos optimizan el índice de Gini; hay tantos nodos como sean necesarios para que cada extremo de la ramificación 18 u “hoja” 18 sea pura, es decir que las observaciones que “caen” allí pertenezcan todas al mismo grupo inicial.
La figura 6 ilustra un ejemplo de árbol en un bosque aleatorio, en un caso con tres descriptores a, p y 5 (p=3) y con dos grupos posibles (k = 2, grupo 1 y grupo 2). Este árbol, incluso si no se corresponde con el caso de la realización del procedimiento según la invención de la figura 2 (k=21 grupos posibles, p=208 descriptores, con árboles mucho más grandes para ser ilustrados) ilustra perfectamente el principio de los árboles construidos en esta realización del procedimiento según la invención.
Cada nodo 17 corresponde a una pregunta formulada en relación con un descriptor, normalmente: ¿este descriptor tiene un valor inferior (o inferior o igual) a un umbral?
Por ejemplo:
- Para cada uno de los descriptores que forman parte de los puntos de curvas de fusión (38 descriptores): ¿El porcentaje de desnaturalización (u otra unidad arbitraria de la curva de fusión), por un valor de temperatura específico a este descriptor, tienen un valor inferior (o inferior o igual) a un umbral dado?
- Para cada uno de los descriptores que forman parte de los percentiles (12 descriptores): ¿la temperatura, por un valor de porcentaje de desnaturalización (u otra unidad arbitraria de la curva de fusión) específico para este descriptor, tiene un valor inferior (o inferior o igual ) a un umbral dado?
- Para cada uno de los descriptores que forman parte de los puntos de la primera derivada (59 descriptores): ¿la primera derivada de la curva de fusión, por un valor de temperatura específico a este descriptor, tiene un valor inferior (o inferior o igual) a un umbral dado?
- Para cada uno de los descriptores que forman parte de los puntos de la segunda derivada (99 descriptores): ¿la segunda derivada de la curva de fusión, por un valor de temperatura específico a este descriptor, tiene un valor inferior (o inferior o igual) a un umbral dado?
Cada hoja 18 corresponde a uno de los k grupos finales posibles.
Entrenamiento del índice de confianza:
Por construcción, el método de los bosques aleatorios permite calcular proximidades entre observaciones por el estudio del número de árboles en los que dos observaciones "caen" en la misma hoja. Esta proximidad se usa para calcular un indicador de confianza de la predicción y, por lo tanto, posiblemente rechazar la asignación de una observación a uno de los grupos posibles.
Así, después de la construcción del bosque aleatorio, durante la fase de entrenamiento 6, se calcula la distribución de las proximidades dos a dos de todos los pares de réplicas biológicas de la biblioteca de entrenamiento que pertenecen al mismo grupo posible. Las proximidades entre réplicas biológicas se definen por el valor mínimo de las proximidades calculadas entre sus réplicas técnicas (método llamado de enlace completo). Esta distribución se puede suavizar por un método de núcleos. Esta operación se repite para cada grupo posible, obteniendo así una distribución de las distancias intragrupo específicas de cada grupo.
Predicción : clasificación de una muestra biológica desconocida, llamada “de medición”
La predicción es la etapa actual de la realización del procedimiento según la invención. Su objetivo es aplicar la regla de decisión de una muestra biológica para obtener una asignación a uno de los grupos finales posibles (también llamados “clases”) obtenidos al final del proceso de entrenamiento (en particular después de la etapa de racionalización de los grupos), esta asignación va acompañada de un indicador de confianza. Entonces tenemos:
- como entradas para la etapa de predicción: un conjunto de perfiles de fusión (réplicas técnicas) obtenidos a partir de una misma muestra biológica “de medición”.
- como salidas de la etapa de predicción: decisión de asignación de la muestra “de medición” con un indicador de confianza, o posiblemente un rechazo de asignación a uno cualquiera de los grupos posibles.
De hecho, el objetivo de la realización del procedimiento según la invención es entonces, a partir de la descripción de las muestras “de medición” por su curva de fusión, decidir asignar o no este individuo a uno de los k grupos finales posibles determinado durante el entrenamiento (método supervisado) y asignar un indicador de confianza a la decisión propuesta.
Así, la realización del procedimiento según la invención comprende una adquisición (9) de al menos una curva normalizada (como se ve anteriormente) de fusión de ADN de la muestra biológica de medición, llamada al menos una curva de medición, cada curva de medición que comprende diferentes puntos, cada punto que corresponde a una cantidad proporcional (por ejemplo una señal de fluorescencia) o representativa de una tasa (normalmente en %) o de una cantidad de desnaturalización del ADN de la muestra de medición en función de la temperatura; esta adquisición puede comprender la realización de la PCR y de la propia curva de fusión (en laboratorio), y/o una simple descarga de datos (datos informáticos, por ejemplo) de esta curva de fusión.
De manera opcional, la realización de la PCR para esta curva de fusión se puede obtener en presencia simultánea de varios pares de cebadores dirigidos a varias moléculas dianas de ADN. Hablamos entonces de condiciones de “multiplexación”.
La realización del procedimiento según la invención comprende además una determinación 10, por el método de los bosques aleatorios basado en el bosque de árboles construido durante la fase de entrenamiento, de una pertenencia de la muestra biológica de medición a un grupo determinado entre k diferentes grupos finales posibles. Esta determinación que comprende un análisis, por el método de los bosques aleatorios basado en el bosque de árboles construido durante la fase de entrenamiento, de descriptores derivados de al menos una curva de medición, los descriptores que comprenden:
o uno o varios puntos de cada curva de medición y/o
o todo o parte de los 101 percentiles de las tasas de desnaturalización de cada curva de medición, y/o
o uno o varios puntos (normalmente al menos 30 puntos) de la primera derivada de cada curva de medición y/o
o uno o varios puntos (normalmente al menos 30 puntos) de la segunda derivada de cada curva de medición.
Las réplicas técnicas de la muestra biológica de medición se envían de forma independiente al bosque aleatorio y se asigna un grupo posible a cada una de ellas. De forma predeterminada, la muestra biológica de medición se asigna al grupo mayoritario entre los grupos predichos para cada réplica técnica. En el caso de varios grupos, se puede usar el índice de confianza para decidir.
Los bosques aleatorios son métodos estocásticos (varias aplicaciones pueden dar diferentes resultados), este método se aplica varias veces (3 veces en esta realización) para predecir la asignación de la muestra biológica.
La ubicación de cada descriptor viene dada por líneas verticales en la figura 3.
La figura 3 ilustra:
- en la parte superior izquierda, tres curvas de fusión de medición 13 (tres réplicas técnicas) de una misma muestra de medición para la que se busca determinar la pertenencia a uno de los k grupos posibles;
- en la parte superior derecha, tres curvas 14 que ilustran los percentiles que corresponden a las tres réplicas técnicas 13;
- en la parte inferior izquierda, las tres primeras derivadas 15 de las tres curvas de medición 13, y
- en la parte inferior derecha, las tres segundas derivadas 16 de las tres curvas de fusión de medición 13.
Cálculo de un indicador de confianza:
La calidad de la realización del procedimiento según la invención está condicionada por la calidad de la biblioteca inicial de entrenamiento. Cuanto más rica sea en variabilidad biológica, más preciso y generalizable será el entrenamiento a una gran diversidad de nuevas muestras.
Sin embargo, sea cual sea la calidad de la biblioteca de entrenamiento, durante la predicción de nuevas muestras, siempre es posible encontrar muestras que le son totalmente ajenas. En este caso, los métodos de entrenamiento clásicos seguirán proporcionando una predicción asignando la nueva muestra al grupo posible al que está más cerca. La realización del procedimiento según la invención debe poder rechazar asignar una nueva muestra a cualquier grupo posible.
Para ello, la realización del procedimiento según la invención comprende un cálculo de un índice de confianza de la etapa de determinación de una pertenencia de la muestra biológica de medición a un grupo determinado.
El objetivo de esta etapa del cálculo de un indicador de confianza es doble:
- cuantificar la fiabilidad de las predicciones hechas;
- permitir predecir que una réplica biológica no se asignará a ningún grupo posible.
Los bosques aleatorios tienen la ventaja de proporcionar medidas de proximidad entre observaciones. Para más detalles sobre esta noción bien conocida de "proximidad" en el método de los bosques aleatorios, se pueden consultar, por ejemplo, las referencias [3] y [4].
Estas medidas se usan para proporcionar el índice de confianza. De hecho, si la observación a predecir está cerca de las observaciones del grupo posible al que se asigna, entonces la calidad de la clasificación es potencialmente mejor que si la observación a predecir está lejos de las observaciones del grupo posible al que se asignan. Este principio se usó para construir el índice de confianza.
Sobre los datos de entrenamiento, se calculó la distribución de las proximidades medias de las curvas de fusión de referencia de un mismo grupo posible. Entonces, cuando se asigna una muestra biológica de medición a un grupo posible, se calcula su proximidad media a las réplicas biológicas de este grupo y se compara con las proximidades de las curvas de fusión de referencia de este grupo posible. Se puede entonces calcular el porcentaje de las curvas de fusión de referencia cuya proximidad es inferior a la de la curva de fusión de medición a predecir. Este porcentaje es una estimación de la probabilidad de pertenencia al grupo predicho y se usa como un índice de confianza.
La figura 7 ilustra el principio de este índice con dos grupos posibles 22, 23 a los que pertenecen las curvas de fusión de referencia (cruz) 32 y 33 respectivamente.
En el caso de que la (o cada una de las o la media de las) curva(s) de medición 13a (triángulo):
- está más cerca del grupo 22 que del grupo 23 y
- tiene su proximidad a las curvas de fusión 32 del grupo 22 según las proximidades observadas entre las curvas de fusión 32 del grupo 22;
entonces, se considera que la muestra que corresponde a las curvas 13a pertenece al grupo 22, y la realización del procedimiento según la invención confirma que el grupo determinado es efectivamente el grupo 22.
En el caso de que la (o cada una de las o la media de las) curva(s) de medición 13b (triángulo):
- está más cerca del grupo 22 que del grupo 23, pero
- tiene su proximidad a las curvas de fusión 32 del grupo 22 muy inferior a las proximidades observadas entre las curvas de fusión 32 del grupo 22,
entonces, la muestra que corresponde a las curvas 13b no pertenece ni al grupo 22 ni al grupo 23, y preferiblemente la realización del procedimiento según la invención comprende un rechazo a asignar la muestra biológica de medición al grupo determinado 22 e incluso posiblemente a cualquier grupo.
Durante la fase de entrenamiento, se calculó la distribución de las proximidades dos a dos de todos los pares de réplicas biológicas de la biblioteca de entrenamiento que pertenecen a un mismo grupo.
Durante la etapa de predicción, para cualquier nueva observación (es decir, para cualquier nueva curva de fusión "de medición"), se calcula, por el mismo método, su proximidad media a las réplicas biológicas de referencia del grupo al que se ha asignado. Usamos entonces la distribución global obtenida anteriormente para calcular la estimación de probabilidad de pertenencia a este grupo.
Si la nueva observación pasa esta etapa, la probabilidad de pertenencia a este grupo posible se le proporciona al usuario junto con el grupo predicho.
La posibilidad de aplicar esta última etapa está, por supuesto, condicionada por un tamaño suficiente de la biblioteca de entrenamiento.
La figura 8 muestra la curva ROC (para la “Característica de Operación del Receptor” o “característica de funcionamiento del receptor”) asociada a este índice (AUC = 0,9988, AUC que es el área debajo de la curva ROC o el “área bajo la curva”).
Esta figura 8 es de excelente calidad. De hecho, con referencia a la figura 7, si usamos un valor umbral igual a 0,14 para el índice de confianza entonces, todas las observaciones que tienen un índice inferior a este umbral (simbolizado por el bucle 19) son observaciones incorrectamente clasificadas mientras que sólo una observación correctamente clasificada tiene un índice superior a este umbral. Gracias a este índice, las observaciones correctamente clasificadas, por lo tanto, se pueden identificar de manera muy satisfactoria.
En el caso de las asignaciones a varios grupos posibles (siguiendo las diferentes aplicaciones de los bosques aleatorios o los resultados contradictorios de las diferentes réplicas técnicas) o de un índice de confianza baja, podemos calcular de nuevo la proximidad al conjunto de grupos posibles predichos al menos una vez (sobre el conjunto de los árboles del bosque) para una réplica biológica. Si el uno de estos grupos posibles presenta un índice superior al umbral de 0,14, esta curva de medición se puede marcar como que pertenece probablemente al grupo posible que tiene el valor máximo de índice.
Aplicando esta regla a las curvas de referencia para probar su eficacia, “recuperamos” curvas de fusión que habíamos asignado principalmente a la especie equivocada, pero para las que la especie correcta se había predicho al menos una vez y con las que el índice de la confianza calculado es superior a 0,14.
Finalmente, el índice de confianza se puede usar para separar dos grupos posibles que se habrían asignado el mismo número de veces a una curva de fusión de medición.
Así, en resumen, el cálculo del índice de confianza comprende:
- un cálculo de una distribución de proximidades medias entre curvas de referencia que pertenecen al grupo determinado,
- un cálculo de una proximidad media de la muestra biológica de medición con las curvas de referencia que pertenecen al grupo determinado, y
- un cálculo de una tasa de curvas de referencia que pertenecen al grupo determinado, y que tienen una proximidad media a las otras curvas de referencia que pertenecen al grupo determinado inferior a la proximidad media de la al menos una curva de medición con las curvas de referencia que pertenecen al grupo determinado.
Después de la etapa de determinación de una pertenencia de la muestra biológica de medición a un grupo determinado, la realización del procedimiento según la invención comprende (como etapa de provisión de un resultado 11, que se visualiza normalmente sobre una pantalla o se almacena en una memoria informática o electrónica) un rechazo o no a asignar la muestra biológica de medición a cualquier grupo posible en función del valor del índice de confianza, más exactamente:
- un rechazo a asignar la muestra biológica de medición a cualquier grupo posible si el índice de confianza es inferior a un valor de umbral, o
- una aceptación a asignar la muestra biológica de medición a uno de los grupos finales posibles si el índice de confianza es superior a un valor umbral
Combinando los resultados brutos del bosque aleatorio y el uso del índice de confianza, logramos asignar correctamente el 95,74 % de las observaciones. En cuanto al 4,26 % de observaciones restantes, la realización del procedimiento según la invención las identifica claramente como sospechosas en cuanto a su asignación.
En el caso de las curvas de la figura 3, la muestra se identifica como que pertenece al grupo de "abscesos".
En esta realización del procedimiento según la invención, cada una de las siguientes etapas:
- adquisición 1
- determinación de descriptores 2,3
- racionalización de los grupos 4, 5
- entrenamiento 6
- optimización 7 de los parámetros
- construcción del bosque aleatorio 8
- adquisición 9
- etapa 10 de análisis de los descriptores, aplicación del bosque aleatorio, la determinación del grupo determinado entre los varios grupos posibles, cálculo del índice de confianza y decisión de confirmar la asignación de la muestra biológica de medición al grupo determinado o un rechazo a asignar la muestra biológica de medición a cualquier grupo,
- provisión o visualización del resultado 11 no se realiza de una manera puramente abstracta o puramente intelectual, sino que implica el uso de un medio técnico (al igual que, de manera general, todas las demás etapas de esta realización del procedimiento según la invención).
La figura 9 ilustra esquemáticamente una realización del dispositivo 100 según la invención dispuesto y programado para implementar esta realización del procedimiento según la invención.
El dispositivo 100 comprende medios 102 dispuestos y programados para implementar cada una de las siguientes etapas: - determinación de los descriptores 2,3
- racionalización de los grupos 4, 5
- optimización de los parámetros 7
- construcción del bosque aleatorio 8
- la etapa 10 de análisis de los descriptores, aplicación del bosque aleatorio, determinación del grupo determinado entre los varios grupos posibles, cálculo del índice de confianza y decisión de confirmar la asignación de la muestra biológica de medición al grupo determinado o un rechazo a asignar la muestra biológica de medición a cualquier grupo
- provisión o visualización del resultado 11.
El dispositivo 100 comprende medios 101 y 102 dispuestos y/o programados para implementar:
- la etapa de entrenamiento 6 y más precisamente la etapa de adquisición 1 de las curvas de referencia, - la etapa de adquisición 9 de al menos una curva de medición.
Los medios 102 comprenden un ordenador, y/o una unidad central o informática, y/o un circuito electrónico analógico (preferiblemente dedicado), y/o un circuito electrónico digital (preferiblemente dedicado), y/o un microprocesador (preferiblemente dedicado) y/o medios de software. Estos medios 102 comprenden además preferiblemente una pantalla o medios de impresión o exportación de datos para la etapa 11 de provisión o visualización del resultado. Los medios 101 comprenden una máquina de PCR, y/o según de la variante puede comprender medios informáticos (software combinado con un puerto de bus serie universal (USB), un lector de tarjetas digitales seguras (SD), una conexión a una red de ordenadores, etc.) dispuestos y programados para cargar y leer curvas de fusión de ADN. Así, estos medios 101 están conectados o forman parte de los medios 102.
Por supuesto, la invención no se limita a los ejemplos que se acaban de describir y se pueden hacer numerosas modificaciones a estos ejemplos sin apartarse del alcance de la invención tal como se define en las reivindicaciones. Por ejemplo, se realizó otra prueba de concepto sobre otros microorganismos, que incluyen Coxiella burnetii, Chlamydophila spp, Neospora caninum, Toxoplasma gondii, y Anaplasmosis con el mismo éxito. Los experimentos demostraron que el método desarrollado permitía identificar los diferentes patógenos, incluso en condiciones de multiplexación, es decir, a través de una amplificación por PCR en presencia simultánea de todos los pares de cebadores dirigidos a las moléculas dianas de ADN de todos (los cinco) patógenos mencionados anteriormente. De manera general, la invención es aplicable sobre cualquier muestra biológica, en particular humana, animal, vegetal, vírica, bacteriana, de arquea, fúngica, de levadura, de viroide, de un eucariota, o de un protozoo...
Referencias citadas:
[1] : WO2013/166373
[2]: "Random Forests", Leo Breiman, publicado en "Machine learning", 45, 5-32, 2001.
[3] : "Classification and Regression by RandomForest", Andy Liaw y Matthew Wiener, R News, vol. 2/3, de diciembre de 2002, ISSN 1609-3631.
[4] : "Manual on setting up, using, and understanding random Forest V3.1", Leo Breiman, 2002

Claims (27)

REIVINDICACIONES
1. Procedimiento de clasificación de una muestra biológica de medición, que comprende:
- una adquisición (9) de al menos una curva de fusión de ADN de la muestra biológica de medición, llamada al menos una curva de medición,
- determinación (10) de una pertenencia de la muestra biológica de medición a un grupo determinado entre diferentes grupos posibles, por un análisis de descriptores derivados de la al menos una curva de medición, cada una de las etapas de adquisición y de determinación implican el uso de un medio técnico (101, 102), caracterizado porque los descriptores comprenden uno o varios puntos de la segunda derivada de cada curva de medición, dicho o cada uno de dichos puntos comprenden un valor de la segunda derivada de la curva de fusión para un valor de temperatura específico.
2. Procedimiento según la reivindicación 1, caracterizado porque los descriptores comprenden al menos 30 puntos de la segunda derivada de cada curva de medición.
3. Procedimiento según la reivindicación 1 o 2, caracterizado porque los descriptores comprenden además uno o varios puntos de la primera derivada de cada curva de medición y/o uno o varios puntos de cada curva de medición.
4. Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado porque los descriptores comprenden además uno o varios percentiles de cada curva de medición.
5. Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado porque la determinación (10) comprende una determinación por un método de los bosques aleatorios.
6. Procedimiento según la reivindicación 5, caracterizado porque comprende un entrenamiento (6) que comprende: - una adquisición (1) de diferentes curvas de fusión de ADN, llamadas curvas de referencia, a partir de diferentes muestras biológicas de referencia que pertenecen a diferentes grupos iniciales, luego
- una determinación (2, 3) de los descriptores a partir de las curvas de referencia, y luego
- una construcción (8) de un bosque según el método de los bosques aleatorios, que comprende una construcción de varios árboles según el método de los bosques aleatorios, la o las variable(s) estudiada(s) en cada nodo de cada árbol que comprenden uno o varios de los descriptores, cada hoja de cada árbol corresponde a un solo grupo entre los diferentes grupos posibles.
7. Procedimiento según la reivindicación 6, caracterizado porque la determinación (2, 3) de descriptores comprende: - una determinación preliminar (2) de los descriptores, y luego
- una eliminación (3) de ciertos descriptores redundantes.
8. Procedimiento según la reivindicación 7, caracterizado porque la eliminación (3) de ciertos descriptores comprende, para cada conjunto de descriptores que presentan dos a dos un coeficiente de correlación de Pearson superior a 0,95, una retención de un solo descriptor.
9. Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado porque comprende:
- después de la adquisición de diferentes curvas de referencia, una identificación de varias curvas de referencia que corresponden al mismo grupo inicial, llamado grupo ambiguo, y que presentan perfiles separados en varios subgrupos, y
- separación (4) de este grupo ambiguo en varios grupos posibles.
10. Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado porque comprende:
- después de la adquisición de diferentes curvas de referencia, una identificación de varias curvas de referencia que corresponden a varios grupos iniciales, llamados grupos combinados, y que tienen perfiles reunidos en un solo grupo, y
- una unificación (5) de estos grupos combinados en un solo grupo posible.
11. Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado porque comprende además el cálculo de un índice de confianza de la etapa de determinación de una pertenencia de la muestra biológica de medición a un grupo determinado.
12. Procedimiento según la reivindicación 11, caracterizado porque el cálculo del índice de confianza comprende:
- un cálculo de una distribución de proximidades medias entre curvas de referencia que pertenecen al grupo determinado,
- un cálculo de una proximidad media de la al menos una curva de medición con las curvas de referencia que pertenecen al grupo determinado, y
- un cálculo de una tasa de curvas de referencia que pertenecen al grupo determinado, y que tienen una proximidad media a las otras curvas de referencia que pertenecen al grupo determinado inferior a la proximidad media de la al menos una curva de medición con las curvas de referencia que pertenecen al grupo determinado.
13. Procedimiento según la reivindicación 11 o 12, caracterizado porque comprende además, después de la etapa de determinación de una pertenencia de la muestra biológica de medición a un grupo determinado, un rechazo a asignar la muestra biológica de medición a cualquier grupo, en función del valor del índice de confianza.
14. Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado porque la adquisición de al menos una curva de fusión de ADN de la muestra biológica de medición comprende la adquisición de al menos una curva de fusión de un resultado de una PCR obtenida en presencia simultánea de varios pares de cebadores dirigidos a varias moléculas dianas de ADN.
15. Dispositivo (100) de clasificación de una muestra biológica de medición, que comprende:
- medios (101) dispuestos y/o programados para una adquisición (9) de al menos una curva de fusión de ADN de la muestra biológica de medición, llamada al menos una curva de medición,
- medios (102) programados para una determinación (10) de una pertenencia de la muestra biológica de medición a un grupo determinado entre diferentes grupos posibles, por un análisis de descriptores derivados de la al menos una curva de medición,
caracterizado porque los descriptores comprenden uno o varios puntos de la segunda derivada de cada curva de medición, dicho o cada uno de dichos puntos comprenden un valor de la segunda derivada de la curva de fusión para un valor de temperatura específico.
16. Dispositivo según la reivindicación 15, caracterizado porque los descriptores comprenden al menos 30 puntos de la segunda derivada de cada curva de medición.
17. Dispositivo según la reivindicación 15 o 16, caracterizado porque los descriptores comprenden además uno o varios puntos de la primera derivada de cada curva de medición y/o uno o varios puntos de cada curva de medición.
18. Dispositivo según una cualquiera de las reivindicaciones 15 a 17, caracterizado porque los descriptores comprenden además uno o varios percentiles de cada curva de medición.
19. Dispositivo según una cualquiera de las reivindicaciones 15 a 18, caracterizado porque los medios (102) programados para la determinación (10) comprenden medios (102) programados para una determinación (10) por un método de los bosques aleatorios.
20. Dispositivo según la reivindicación 19, caracterizado porque comprende medios (101, 102) dispuestos y/o programados para un entrenamiento (6) que comprenden:
- medios (101) dispuestos y/o programados para una adquisición (1) de diferentes curvas de fusión de ADN, llamadas curvas de referencia, a partir de diferentes muestras biológicas de referencia que pertenecen a diferentes grupos iniciales, luego
- medios (102) programados para una determinación (2, 3) de los descriptores a partir de las curvas de referencia, luego
- medios (102) programados para una construcción (8) de un bosque según el método de los bosques aleatorios, que comprende medios (102) programados para una construcción de varios árboles según el método de los bosques aleatorios, la o las variable(s) estudiada(s) en cada nodo de cada árbol comprende(n) uno o varios de los descriptores, cada hoja de cada árbol corresponde a un solo grupo entre los diferentes grupos posibles.
21. Dispositivo según la reivindicación 20, caracterizado porque los medios (102) programados para la determinación (2, 3) de los descriptores comprenden:
- medios (102) programados para una determinación preliminar (2) de los descriptores,
- medios (102) programados para, después de la determinación preliminar, una eliminación (3) de ciertos descriptores redundantes.
22. Dispositivo según la reivindicación 21, caracterizado porque los medios (102) programados para la eliminación (3) de ciertos descriptores comprenden medios (102) programados para, para cada conjunto de descriptores que presentan dos a dos un coeficiente de correlación de Pearson superior a 0,95, una retención de un solo descriptor.
23. Dispositivo según una cualquiera de las reivindicaciones 15 a 22, caracterizado porque comprende:
- medios (102) programados para, después de la adquisición de diferentes curvas de referencia, una identificación de varias curvas de referencia que corresponden al mismo grupo inicial, llamado grupo ambiguo, y que presentan perfiles separados en varios subgrupos, y
- medios (102) programados para una separación (4) de este grupo ambiguo en varios grupos posibles.
24. Dispositivo según una cualquiera de las reivindicaciones 15 a 23, caracterizado porque comprende:
- medios (102) programados para, después de la adquisición de diferentes curvas de referencia, una identificación de varias curvas de referencia que corresponden a varios grupos iniciales, llamados grupos combinados, y que presentan perfiles reunidos en un solo grupo, y
- medios (102) programados para una unificación (5) de estos grupos combinados en un solo grupo posible.
25. Dispositivo según una cualquiera de las reivindicaciones 15 a 24, caracterizado porque comprende además medios (102) programados para un cálculo de un índice de confianza de la etapa de determinación que una pertenencia de la muestra biológica a un grupo determinado.
26. Dispositivo según la reivindicación 25, caracterizado porque los medios (102) programados para el cálculo del índice de confianza comprenden:
- medios (102) programados para un cálculo de una distribución de proximidades medias entre curvas de referencia que pertenecen al grupo determinado,
- medios (102) programados para un cálculo de una proximidad media de la al menos una curva de medición con las curvas de referencia que pertenecen al grupo determinado, y
- medios (102) programados para calcular una tasa de curvas de referencia que pertenecen al grupo determinado, y que tienen una proximidad media a las otras curvas de referencia que pertenecen al grupo determinado inferior a la proximidad media de la al menos una curva de medición con las curvas de referencia que pertenecen al grupo determinado.
27. Dispositivo según la reivindicación 25 o 26, caracterizado porque comprende además medios (102) programados para, después de la etapa de determinación de una pertenencia de la muestra biológica a un grupo determinado, un rechazo asignar la muestra biológica de medición a cualquier grupo, en función del valor del índice de confianza.
ES17705020T 2016-01-22 2017-01-23 Procedimiento de clasificación de una muestra biológica Active ES2897941T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1650527A FR3047013A1 (fr) 2016-01-22 2016-01-22 Procede de classification d'un echantillon biologique.
PCT/EP2017/051327 WO2017125606A1 (fr) 2016-01-22 2017-01-23 Procédé de classification d'un échantillon biologique

Publications (1)

Publication Number Publication Date
ES2897941T3 true ES2897941T3 (es) 2022-03-03

Family

ID=55808631

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17705020T Active ES2897941T3 (es) 2016-01-22 2017-01-23 Procedimiento de clasificación de una muestra biológica

Country Status (10)

Country Link
US (1) US20190050535A1 (es)
EP (1) EP3405899B1 (es)
JP (1) JP6845256B2 (es)
CN (1) CN109074431B (es)
AU (1) AU2017208665B2 (es)
CA (1) CA3012874A1 (es)
ES (1) ES2897941T3 (es)
FR (1) FR3047013A1 (es)
PL (1) PL3405899T3 (es)
WO (1) WO2017125606A1 (es)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024256397A1 (en) 2023-06-13 2024-12-19 Innovative Diagnostics New method of detection of several target nucleic acids in a biological sample

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010056374A2 (en) * 2008-11-17 2010-05-20 Veracyte, Inc. Methods and compositions of molecular profiling for disease diagnostics
US8606527B2 (en) * 2009-02-27 2013-12-10 Bio-Rad Laboratories, Inc. SNP detection by melt curve clustering
US20130218476A1 (en) * 2010-08-02 2013-08-22 Life Technologies Corporation Methods for the analysis of high resolution melt curve data
CN102762743A (zh) * 2009-12-09 2012-10-31 阿维埃尔公司 用于心血管疾病的诊断和分类的生物标记物检验
CN102399862B (zh) * 2010-09-16 2016-03-30 苏州承美生物科技有限公司 一种基于解链曲线的甲基化dna检测方法
EP2844769B1 (en) * 2012-05-03 2019-07-24 Qiagen Sciences, LLC Gene expression signature for il-6/stat3 signaling pathway and use thereof
EP4414988A3 (en) * 2013-01-31 2024-11-06 Codexis, Inc. Methods, systems, and software for identifying bio-molecules using models of multiplicative form

Also Published As

Publication number Publication date
US20190050535A1 (en) 2019-02-14
CN109074431A (zh) 2018-12-21
WO2017125606A1 (fr) 2017-07-27
HK1259490A1 (zh) 2019-11-29
BR112018014878A2 (pt) 2018-12-18
CN109074431B (zh) 2022-03-11
EP3405899A1 (fr) 2018-11-28
FR3047013A1 (fr) 2017-07-28
AU2017208665B2 (en) 2022-03-10
EP3405899B1 (fr) 2021-08-11
JP6845256B2 (ja) 2021-03-17
CA3012874A1 (fr) 2017-07-27
JP2019511242A (ja) 2019-04-25
PL3405899T3 (pl) 2022-02-28
AU2017208665A1 (en) 2018-08-23

Similar Documents

Publication Publication Date Title
US20250037797A1 (en) Systems and methods for detecting structural variants
US20210065847A1 (en) Systems and methods for determining consensus base calls in nucleic acid sequencing
US20180225416A1 (en) Systems and methods for visualizing a pattern in a dataset
US12421558B2 (en) Systems and methods for joint interactive visualization of gene expression and DNA chromatin accessibility
Hanssen et al. Optimizing body fluid recognition from microbial taxonomic profiles
US20230420078A1 (en) Scrnaseq analysis systems
US20240203531A1 (en) Cell type annotation
US12499972B2 (en) Identifying false positive variants using a significance model
CN116057182A (zh) 用于鉴定来自单细胞分区的多基因组特征数据中的细胞相关条形码的系统和方法
Lee et al. Accuracy of the high-throughput amplicon sequencing to identify species within the genus Aspergillus
ES2897941T3 (es) Procedimiento de clasificación de una muestra biológica
Aevermann et al. Production of a preliminary quality control pipeline for single nuclei Rna-Seq and its application in the analysis of cell type diversity of post-mortem human brain neocortex
CN112970068B (zh) 用于检测样品之间的污染的方法和系统
WO2017009718A1 (en) Automatic processing selection based on tagged genomic sequences
EP3847276A2 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
CN118497379A (zh) 一种用于唾液样本bmi预测的微生物标志物组合和筛选方法
Brunstein Digital PCR: theory and applications.
Tegfalk Application of machine learning techniques to perform base-calling in next-generation DNA sequencing
US20210158896A1 (en) Information processing system, mutation detection system, storage medium, and information processing method
BR112018014878B1 (pt) Método para classificar uma amostra biológica
Yasrebi et al. EMOTE-conv: a computational pipeline to convert exact mapping of transcriptome ends (EMOTE) data to the lists of quantified genomic positions correlated to related genomic information
US20250285708A1 (en) Monitoring molecular response by allelic imbalance
Altay Cell-type annotation in single-cell chromatin accessibility data
Suryawanshi Single cell Edit Detection and Identification Tool (scEDIT): computational workflow for efficient and economical single cell analysis of CRISPR edited cells
HK1259490B (en) Process for classifying a biological sample