ES2867860T3 - Método de clasificación de información digital - Google Patents

Método de clasificación de información digital Download PDF

Info

Publication number
ES2867860T3
ES2867860T3 ES16382649T ES16382649T ES2867860T3 ES 2867860 T3 ES2867860 T3 ES 2867860T3 ES 16382649 T ES16382649 T ES 16382649T ES 16382649 T ES16382649 T ES 16382649T ES 2867860 T3 ES2867860 T3 ES 2867860T3
Authority
ES
Spain
Prior art keywords
events
group
groups
event
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16382649T
Other languages
English (en)
Inventor
Rodriguez Rafael Fluxa
De Matos Correia E Vale José Alberto Orfao
Herrero Juan Bernardo Hernandez
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universidad de Salamanca
Cytognos SL
Original Assignee
Universidad de Salamanca
Cytognos SL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universidad de Salamanca, Cytognos SL filed Critical Universidad de Salamanca
Application granted granted Critical
Publication of ES2867860T3 publication Critical patent/ES2867860T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Un método implementado por ordenador para agrupar en grupos eventos presentes en una muestra (1), tal como una muestra biológica y/o una mezcla de partículas no biológicas funcionalizadas, y para clasificar dichos grupos, en donde cada evento es un elemento detectado por medio de hardware (2) y/o software (3), como partículas, preferiblemente células, orgánulos, vesículas, virus y/o esferas, cada evento estando caracterizado por un conjunto multidimensional de parámetros (4) obtenidos mediante dicho hardware (2) y/o software (3), en donde los valores de los parámetros (4) asociados a cada evento definen las coordenadas de posición de dicho evento en un espacio multidimensional, comprendiendo el método las siguientes etapas: a) agrupar los eventos en grupos, comprendiendo: a1) determinar la densidad de cada evento, y a2) conectar cada evento con su evento vecino más cercano que sea más denso que él, de entre los K eventos vecinos más cercanos a dicho evento en el espacio multidimensional, siendo K un número natural predefinido, de manera que los eventos conectados entre sí forman un grupo, y en donde en caso de no encontrar un evento más denso dentro de los K eventos vecinos más cercanos, se forma un grupo con los eventos que se han ido conectando y se continúa llevando a cabo la etapa a2) con otro evento para empezar a formar un nuevo grupo; b) comprobar si dentro de cada grupo formado existe alguna conexión entre eventos que supere un umbral de distancia máxima, estando dicho umbral de distancia máxima establecido en base a las conexiones entre eventos del propio grupo y, en caso de que alguna conexión entre eventos supere dicho umbral de distancia máxima, desconectar esos eventos, generando dos subgrupos por cada par de eventos que se desconectan; c) calcular la afinidad entre cada par de grupos de la muestra resultantes de la etapa anterior, en donde la afinidad entre dos grupos de la muestra se calcula en base al número de pares de eventos vecinos que verifican que: (i) uno de los eventos del par de eventos vecinos es uno de los Kaf eventos vecinos más cercanos al otro evento del par de eventos vecinos y (ii) en los que uno de los eventos del par de eventos vecinos forma parte de uno de dichos dos grupos y el otro evento del par de eventos vecinos forma parte del otro de dichos dos grupos, y en base a las distancias entre dichos eventos, siendo Kaf un número natural predefinido; y unir los dos grupos de la muestra cuando la afinidad entre dichos grupos supere un umbral mínimo de afinidad preestablecido; d) comparar cada grupo de la muestra con al menos un grupo de referencia almacenado en al menos una base de datos (5) para identificar automáticamente la población presente en la muestra, en donde cada grupo de referencia corresponde a una población específica, en donde la comparación comprende: reducir la dimensionalidad de los datos del grupo de la muestra junto con los datos del grupo de referencia hasta obtener una representación bidimensional de ambos grupos, y determinar para cada representación bidimensional las medianas y las curvas de desviación de los grupos de referencia; y e) clasificar los grupos de la muestra en base a las comparaciones con los grupos de referencia, empleando como criterio de clasificación la pertenencia de la mediana del grupo de la muestra y/o la pertenencia de un porcentaje mínimo de eventos del grupo de la muestra a las curvas de desviación de los grupos de referencia de la base de datos (5).

Description

DESCRIPCIÓN
Método de clasificación de información digital
OBJETO DE LA INVENCIÓN
La presente invención pertenece al campo técnico de la clasificación de información digital y se refiere a un método implementado por ordenador para la agrupación y clasificación automática de eventos caracterizados por un conjunto multidimensional de parámetros.
ANTECEDENTES DE LA INVENCIÓN
En la actualidad existen un gran número de técnicas (por ejemplo citometría de flujo y de escaneo, citometría de masas, microscopia confocal, termocicladores, microarrays en placa y en esferas, ultrasecuenciación, etc.) aplicadas a varios campos (por ejemplo proteómica, genómica, citómica, celular, metabolómica, etc.) para el análisis de muestras biológicas (por ejemplo muestras de sangre, médula ósea, tejidos, líquidos biológicos, levaduras, bacterias, alimentos, fluidos corporales, cultivos celulares, etc.). Estas técnicas proporcionan medidas de una serie de parámetros heterogéneos, en formato digital, que definen cada evento de forma individualizada. En el contexto de la invención, se entenderá como “evento” cada elemento detectado mediante hardware y/o software y definido por un conjunto de parámetros obtenidos mediante dicho hardware y/o software. Los eventos pueden ser de tipo biológico o artificial. Una célula es un ejemplo de evento de tipo biológico; una microesfera es un ejemplo de evento de tipo artificial.
Esta ingente cantidad de información asociada a eventos, preferentemente eventos de tipo biológico, puede ser representada en un espacio multidimensional, donde los valores de los parámetros definen las coordenadas de la posición de los eventos en dicho espacio multidimensional. Cada análisis o experimento realizado sobre una muestra puede incluir desde miles a varios millones de eventos con sus correspondientes parámetros asociados. El análisis de estos datos, que implica la clasificación de los eventos en poblaciones, puede realizarse de forma manual, pero este proceso se ralentiza considerablemente a medida que aumenta el número de parámetros a analizar. La tendencia en los últimos años en el campo de la química, la medicina y la biología es que los software de adquisición de los dispositivos biomédicos (ej. citómetros, termocicladores, ultrasecuenciadores, etc) realicen mediciones cada vez más complejas, con un mayor número de parámetros heterogéneos. Este hecho hace que resulte muy complicado el análisis manual de las grandes cantidades de información que se obtienen y que sea necesario emplear mucho tiempo, recursos y expertos especializados para realizar dicho análisis.
Los métodos utilizados tradicionalmente para solventar este problema implican la realización de numerosos pasos manuales por cada población a identificar, tal como selección, depuración, clasificación y reclasificación de los datos, lo que aumenta drásticamente el número de pasos en función del número de parámetros analizados. En un análisis de n parámetros habría que analizar (n*(n-1)/2) gráficos bidimensionales individuales en los que se puede ver la representación de todas las combinaciones de dos parámetros. En la gran mayoría de las ocasiones el usuario no analiza manualmente todas las poblaciones presentes en la muestra, sino que sólo tiene en cuenta la población que considera de interés, obviando gran cantidad de información que podría ser relevante, especialmente en diagnóstico, pronóstico o monitorización de enfermedades. Además, el usuario que realiza el análisis manual debe ser experto en la técnica de análisis para obtener resultados fiables y reproducibles por otro usuario. Aun así, los análisis no son siempre totalmente objetivos, con los riesgos e inexactitudes que esto implica.
Existen métodos de agrupación automática de poblaciones en la literatura, muchos de ellos basados en modelos de mezclas finitas de distribuciones, como el descrito en el documento US 9,164,022, o métodos jerárquicos aglomerativos, como el referido en el documento US20130060775. Sin embargo, estos métodos requieren un conocimiento previo por parte del usuario, ya que es necesario que el usuario defina previamente el número de grupos que desea detectar o un umbral que define las iteraciones hasta que el número de grupos identificados sea igual al número de grupos objetivo definidos por el usuario.
El estado de la técnica relativo a métodos de clasificación automática de datos en un espacio multidimensional es muy escaso. Se conoce el documento EP1785899A2, que describe un método que utiliza un modelo de mezclas finitas caracterizado por distribuciones gaussianas esperadas y bases de datos de expertos para agrupar los datos mediante aplicación de algoritmos de expectación y maximización. Este método está previsto para análisis repetitivos donde siempre se analizan el mismo tipo de muestras en las que las poblaciones presentes en la muestra siempre tienen que ser conocidas a priori, pero resulta muy poco efectivo en casos en que las poblaciones sean desconocidas, cuando las poblaciones siguen un tipo de distribución no gaussiana o cuando es complicado inferir datos sobre la distribución de las poblaciones.
Es necesario, por tanto, un método automático de clasificación de información asociada a eventos, que posea una mayor eficiencia y fiabilidad.
DESCRIPCIÓN DE LA INVENCIÓN
La presente invención resuelve los problemas anteriores mediante un método según la reivindicación independiente 1, un sistema de clasificación según la reivindicación independiente 13 y un programa de ordenador según la reivindicación independiente 15. Las reivindicaciones dependientes definen realizaciones preferidas de la invención.
En un primer aspecto inventivo, se define un método implementado por ordenador para agrupar en grupos eventos presentes en una muestra, tal como una muestra biológica y/o una mezcla de partículas no biológicas funcionalizadas, y para clasificar dichos grupos, en donde cada evento es un elemento detectado por medio de hardware y/o software, como partículas, preferiblemente células, orgánulos, vesículas, virus y/o esferas. Cada evento está caracterizado por un conjunto multidimensional de parámetros numéricos, obtenidos mediante hardware y/o software. Los valores de los parámetros numéricos asociados a cada evento definen las coordenadas de posición de dicho evento en un espacio multidimensional. El método comprende las siguientes etapas:
a) agrupar los eventos en grupos, comprendiendo:
a1) determinar la densidad de cada evento, y
a2) conectar cada evento con su evento vecino más cercano que sea más denso que él, de entre los K eventos vecinos más cercanos a dicho evento en el espacio multidimensional, siendo K un número natural predefinido, de manera que los eventos conectados verifican ser parte de un grupo y en donde en caso de no encontrar un evento más denso dentro de los K eventos vecinos más cercanos, se forma un grupo con los eventos que se han ido conectando y se continúa llevando a cabo la etapa a2) con otro evento para empezar a formar un nuevo grupo;
b) comprobar si dentro de cada grupo formado existe alguna conexión entre eventos que supere un umbral de distancia máxima, estando dicho umbral de distancia máxima preestablecido en base a las conexiones entre eventos del propio grupo y, en caso de que alguna conexión entre eventos supere dicho umbral de distancia máxima, desconectar esos eventos, generando dos subgrupos por cada par de eventos que se desconectan;
c) calcular la afinidad entre cada par de grupos de la muestra resultantes de la etapa anterior, en donde la afinidad entre dos grupos de la muestra se calcula en base al número de pares de eventos vecinos que verifican que uno de los eventos del par de eventos vecinos es uno de los Kaf eventos vecinos más cercanos al otro evento del par de eventos vecinos y en los que uno de los eventos del par de eventos vecinos forma parte de uno de dichos dos grupos y el otro evento del par de eventos vecinos forma parte del otro de dichos dos grupos, y en base a las distancias entre dichos eventos, siendo Kaf un número natural predefinido; y unir los dos grupos de la muestra cuando la afinidad entre dichos grupos supere un umbral mínimo de afinidad preestablecido;
d) comparar cada grupo de la muestra con al menos un grupo de referencia almacenado en al menos una base de datos para identificar automáticamente la población presente en la muestra, en donde cada grupo de referencia corresponde a una población específica, en donde la comparación comprende:
reducir la dimensionalidad de los datos del grupo de la muestra junto con los datos del grupo de referencia hasta obtener una representación bidimensional de ambos grupos, y
determinar para cada representación bidimensional las medianas y las curvas de desviación de los grupos de referencia; y
e) clasificar los grupos de la muestra en base a las comparaciones con los grupos de referencia, empleando como criterio de clasificación la pertenencia de la mediana del grupo de la muestra y/o la pertenencia de un porcentaje mínimo de eventos del grupo de la muestra a las curvas de desviación de los grupos de referencia de la base de datos.
El método de la invención, en una primera etapa, forma grupos de eventos aplicando cálculo de distancias entre eventos y cálculo de densidades de eventos. Para ello se determina la densidad de cada evento. Posteriormente, se conecta cada evento con su evento vecino más cercano que sea más denso que él, de entre los K eventos vecinos más cercanos a dicho evento, esto es, los K eventos más cercanos en distancia a dicho evento en el espacio multidimensional. Los eventos conectados entre sí verifican ser parte de un mismo grupo. K es un número natural configurable que determina el nivel de sensibilidad del método y que puede variar entre 1 y el número total de eventos en la muestra. En una realización, el valor del parámetro K se establece en función del tamaño mínimo de población a encontrar en la muestra. De manera preferida, K es menor o igual que el tamaño mínimo de población a encontrar en la muestra. Por ejemplo, en una realización, si se quieren encontrar poblaciones de tamaño mínimo 10 eventos, K se define como menor o igual que 10, mientras que si no se quieren encontrar poblaciones tan pequeñas, se define un K mayor.
Los grupos formados se someten a una etapa de comprobación, en la que se verifica si dentro de cada grupo formado existe alguna conexión entre eventos que supere un umbral de distancia máxima establecido y, en caso de que alguna conexión entre eventos supere dicho umbral de distancia máxima, el método de la presente invención desconecta dichos eventos, y genera dos subgrupos por cada par de eventos que se han desconectado. El umbral de distancia máxima está establecido para cada grupo en base a las conexiones entre eventos del propio grupo.
Además, el método de la invención tiene en cuenta la afinidad entre pares de grupos. La afinidad entre dos grupos se calcula en base al número de pares de eventos vecinos existentes entre eventos de dichos grupos y a las distancias entre dichos eventos. Cuando la afinidad entre dos grupos supera un umbral mínimo de afinidad, se unen los dos grupos. El umbral mínimo de afinidad representa la relación mínima entre dos grupos necesaria para considerarlos como un mismo grupo.
Se entenderá como “par de eventos vecinos” un par de eventos tales que uno de los dos eventos es uno de los eventos vecinos más cercanos al otro evento. Para el cálculo de la afinidad entre dos grupos se consideran los pares de eventos vecinos en los que uno de los dos eventos del par de eventos vecinos es uno de los Kaf eventos vecinos más cercanos al otro evento del par de eventos vecinos y en los que uno de los eventos del par de eventos vecinos forma parte de uno de los dos grupos y el otro evento del par de eventos vecinos forma parte del otro de los dos grupos. Kaf es un número natural predefinido que determina el número de eventos vecinos más cercanos considerados en el cálculo de afinidad. El valor de Kaf está comprendido entre 1 y el número total de eventos en la muestra. En una realización el número de eventos vecinos más cercanos considerados en el cálculo de afinidad es igual al número de eventos vecinos más cercanos considerados en la etapa a2), es decir, Kaf = K.
El método de la invención permite agrupar y desagrupar los eventos hasta obtener grupos con un nivel de sensibilidad mínimo configurable. Dicho nivel de sensibilidad viene determinado por el umbral mínimo de afinidad preestablecido y por el número de eventos vecinos K predefinido. Por lo tanto, esta primera fase del método de la invención permite la agrupación de eventos pertenecientes a cualquier tipo de población, tanto poblaciones grandes como poblaciones pequeñas o raras, sin necesidad de indicar el número de grupos a detectar en la muestra, independientemente del conocimiento del usuario y sin emplear bases de datos de expertos.
El valor del umbral mínimo de afinidad y del número de eventos vecinos K dependerá del tipo de muestra sobre la que se aplique el método de clasificación y de la sensibilidad requerida para cubrir el objetivo del análisis para dicho tipo de muestra. El umbral mínimo de afinidad y el número de eventos vecinos K (así como el número de eventos vecinos Kaf), una vez establecidos, pueden mantenerse constantes para todos los casos a analizar de un mismo tipo de muestra, salvo si en algún caso se desea modificar el nivel de sensibilidad.
En una realización preferida el método comprende una etapa previa de ajuste del umbral mínimo de afinidad para un tipo de muestra, comprendiendo dicha etapa los siguientes pasos:
(i) proporcionar un conjunto multidimensional de datos de parámetros asociados a eventos de una muestra representativa de dicho tipo de muestra;
(ii) establecer un umbral mínimo de afinidad inicial, preferentemente de 0,5;
(iii) realizar el método según el primer aspecto inventivo sobre los eventos caracterizados por el conjunto de datos de parámetros proporcionado en el paso (i), estableciendo el número de eventos vecinos más cercanos Kaf considerados en la etapa c) de cálculo de afinidad igual al número de eventos vecinos más cercanos K considerados en la etapa a2) del método, es decir, Kaf = K; y
(iv) determinar si el umbral mínimo de afinidad empleado es adecuado, con el siguiente criterio:
en el caso de que se hayan unido grupos de eventos que han de ser diferentes y deben tratarse por separado, se aumenta el valor del umbral mínimo de afinidad, por ejemplo en 0,1, y se repiten los pasos (iii) y (iv); en el caso de que se hayan separado demasiado los grupos de eventos y no sea necesaria tanta sensibilidad, se reduce el valor del umbral mínimo de afinidad, por ejemplo en 0,1, y se repiten los pasos (iii) y (iv);
en el caso de que la sensibilidad alcanzada con el umbral mínimo de afinidad inicial establecido en el paso (ii) sea adecuada, se establece dicho valor del umbral mínimo de afinidad inicial como umbral mínimo de afinidad para dicho tipo de muestra y se termina la etapa previa de ajuste del umbral mínimo de afinidad.
Cada grupo obtenido de la primera fase de agrupación del método de la presente invención, la cual engloba las etapas a), b) y c), se clasifica en una segunda fase de clasificación que engloba las etapas d) y e).
El método de la invención, en la fase de clasificación, utiliza un algoritmo de reducción dimensional y comparaciones con grupos de referencia de al menos una base de datos para identificar automáticamente las poblaciones presentes en la muestra, en donde cada grupo de referencia corresponde a una población específica. Para ello se compara cada grupo de la muestra resultante de la fase de agrupación con al menos un grupo de referencia almacenado en al menos una base de datos. La comparación comprende:
reducir la dimensionalidad de los datos del grupo de la muestra junto con los datos del grupo de referencia hasta obtener una representación bidimensional de ambos grupos, y
determinar para cada representación bidimensional las medianas y las curvas de desviación de los grupos de referencia.
Se entenderá que los datos del grupo de la muestra son los valores del conjunto de parámetros asociados a los eventos que forman parte de dicho grupo de la muestra y los datos del grupo de referencia son los valores del conjunto de parámetros asociados a los eventos que forman parte del grupo de referencia.
La mediana de un grupo representa el valor de la variable de posición central en un conjunto de datos ordenados. La curva de desviación de un grupo representa la curva alrededor de la media en un espacio de 2 dimensiones que encierra un porcentaje específico de eventos dentro de sí misma. En una realización, el porcentaje de eventos encerrado en el interior de la curva de desviación está comprendido entre 68% y 99%.
Los grupos de la muestra se clasifican en base a las comparaciones con los grupos de referencia de la base de datos. Para ello se emplea como criterio de clasificación:
la pertenencia de la mediana del grupo de la muestra a las curvas de desviación de los grupos de referencia, y/o
la pertenencia de un porcentaje mínimo de eventos del grupo de la muestra a las curvas de desviación de los grupos de referencia de la base de datos.
En el primer caso se determina adicionalmente para cada representación bidimensional la mediana de cada grupo de la muestra y se comprueba si la mediana del grupo de la muestra queda dentro del área encerrada por la curva de desviación del grupo de referencia. En el segundo caso se comprueba si un porcentaje de eventos del grupo de la muestra mayor o igual que un porcentaje mínimo predefinido queda dentro del área encerrada por la curva de desviación del grupo de referencia. Cuando se satisface el criterio de clasificación empleado en la comparación con un grupo de referencia, se considera que el grupo de la muestra corresponde a dicho grupo de referencia. Estos criterios de clasificación pueden emplearse por separado o en combinación. En una realización, ambos criterios de clasificación se usan en combinación y en el caso en que se satisfacen ambos criterios de clasificación se considera que el grupo de la muestra corresponde al grupo de referencia.
El método de la invención permite automatizar el proceso de agrupación de eventos en un espacio multidimensional definido por sus parámetros, obteniendo grupos de eventos que comparten características comunes, y comparar dichos grupos obtenidos con una o varias bases de datos dinámicas de referencia creadas previamente por expertos, logrando de este modo la clasificación automática de los grupos de la muestra y permitiendo su posterior representación gráfica si así se desea. En una realización para la clasificación de los grupos de una muestra se emplea una base de datos previamente creada por expertos con poblaciones normales. En el caso de que alguno de los grupos de la muestra no corresponda a ninguna de las poblaciones normales, dichos grupos se comparan con grupos de referencia de una o varias bases de datos de poblaciones patológicas. En otras realizaciones una única base de datos contiene grupos de referencia correspondientes a poblaciones tanto normales como patológicas. Así, la presente invención permite identificar la patología concreta siempre que esté contenida en las bases de datos. El método de la invención permite realizar un análisis en profundidad de las muestras objeto de estudio para su caracterización mediante la identificación de las poblaciones presentes en la muestra.
En el contexto de la invención, se entenderá que acciones referidas a eventos, tales como la agrupación, la clasificación o la conexión de eventos, son acciones realizadas sobre las representaciones de los eventos definidas por los parámetros asociados a dichos eventos, y no sobre los eventos físicos (tales como células u otras partículas) presentes en la muestra. Esto es debido a que un evento físico está caracterizado por un conjunto multidimensional de parámetros, obtenidos mediante hardware y/o software.
El número y heterogeneidad de parámetros asociados a cada evento permite diferenciar y agrupar estos eventos en diferentes poblaciones. En el contexto de la invención se entenderá como población al grupo de eventos con parámetros similares asociados a una funcionalidad específica. Cuanto mayor es el número de parámetros y más heterogéneos son estos parámetros, mejor definidas están las poblaciones de una muestra, permitiendo clasificar los eventos en sub-poblaciones específicas más pequeñas a partir de los parámetros analizados. Esto resulta de gran utilidad, por ejemplo, en la caracterización de la información de un individuo para el diagnóstico, pronóstico u otras evaluaciones de enfermedades.
La muestra se puede obtener a partir de seres humanos, animales, plantas, hongos y protistas así como de cualquier otra fuente como el aire, suelo, agua, etc.
En una realización, la muestra es una muestra biológica, tratada o no para su análisis, preferentemente tejido, tejido disgregado, biofluido, alimento, bebida, cultivo celular o mezclas de los mismos.
El término “biofluido” en el contexto de la presente invención se refiere a cualquier secreción o fluido biológico, ya sea fisiológico o patológico, que se produce en el cuerpo de un sujeto. Estos biofluidos incluyen, sin limitación, sangre, plasma, suero, líquido de lavado broncoalveolar, orina, secreción nasal, secreción de oído, secreción uretral, líquido cefalorraquídeo, líquido pleural, líquido sinovial, fluido peritoneal, líquido ascítico, líquido pericárdico, líquido amniótico, jugo gástrico, líquido linfático, líquido intersticial, humor vítreo, saliva, esputo, deposición líquida, lágrimas, mucosidad, sudor, leche, semen, secreciones vaginales, líquido procedente de úlcera, ampollas, abscesos y otras erupciones superficiales. Dichas muestras pueden obtenerse por métodos convencionales, utilizando procedimientos conocidos en el estado de la técnica por el experto en la técnica, tales como extracción de sangre, incubar y aspirar líquido durante la bronco-fibroscopia, punción cisternal, punción ventricular o lumbar, punción pleural o toracocentesis, articulación o punción percutánea sinovial, punción abdominal, amniocentesis, expectoración, punción peritoneal percutánea, punción pericárdica percutánea, etc., o por simple recogida de muestra.
En una realización preferida, el biofluido es sangre y/o líquido cefalorraquídeo. La muestra de sangre se extrae típicamente mediante punción de una arteria o vena, normalmente una vena de la parte interior del codo o de la parte posterior de la mano, recogiéndose la muestra de sangre en un vial o jeringa hermético. Una punción capilar normalmente en el talón o en las falanges distales de los dedos se puede realizar para el análisis por medio de un micrométodo.
En una realización preferida, el tejido es médula ósea.
El método de la invención no se lleva a cabo sobre el cuerpo humano o animal vivo. El método de la invención es un método in vitro, es decir, que se lleva a cabo en un ambiente controlado fuera de un organismo vivo.
En una realización, la muestra es una mezcla de partículas no biológicas funcionalizadas, que representan poblaciones artificiales. Estas partículas no biológicas están fabricadas con materiales como polímeros, copolímeros, latex, sílice y otros materiales. Estas partículas no biológicas son también conocidas en este campo técnico con el nombre de “micropartículas”, “micro-esferas” o “esferas” y preferiblemente tienen un diámetro entre 0,1 y 100 pm. Estas partículas no biológicas están disponibles comercialmente en el mercado por distintos fabricantes incluyendo pero no limitado a: Bangs Laboratories (EEUU), Polysciences (EEUU), Magsphere (EEUU), Spherotech Inc. (EEUU), Thermo Fisher (EEUU) y microParticles GmbH (Alemania).
En una realización, eventos son cualquier tipo de partícula cuyas propiedades pueden ser medidas por hardware y/o software. En una realización preferida los eventos son células, orgánulos, vesículas, virus y/o esferas.
Las células comprenden células eucariotas, células procariotas así como cultivos celulares. Las células eucariotas comprenden cualquier célula con uno o más núcleos, o sus derivados anucleados pertenecientes a cualquier organismo eucariota incluyendo humanos, animales, plantas, hongos y/o protistas. Las células procariotas son células sin núcleo definido incluyendo cualquier tipo de arquea y bacteria.
Los orgánulos comprenden normalmente cualquier componente de la célula como el núcleo, lisosomas, cromosomas, endosomas, retículo endoplasmático, aparato de Golgi, etc.
Vesículas comprenden partículas no celulares definidas por un compartimento de bicapa lipídica y sus componentes incluyen polímeros, proteínas, péptidos, receptores, etc.. Tanto las vesículas como sus componentes se consideran eventos en el contexto de la invención.
Virus comprenden cualquier parásito microscópico de las células que contenga una proteína y/o membrana y que se replican dentro de las células de otros organismos, incluyendo HIV, virus de la hepatitis, priones, viriones, etc.
En una realización la muestra incluye eventos de distintos tipos.
En una realización el método comprende antes de la etapa a) una etapa adicional que comprende almacenar en una memoria de un ordenador o en una memoria externa los datos obtenidos del hardware y/o software digitalizados, dichos datos incluyen los parámetros que caracterizan los eventos de la muestra.
En una realización el método comprende generar una estructura de datos constituida por registros, en donde cada registro está configurado para almacenar una representación de un evento y sus propiedades y uno o más punteros a otros registros para configurar una conexión a otros registros.
La distancia entre eventos se mide conforme a una métrica preestablecida. En una realización la distancia entre eventos es la distancia euclídea entre dichos eventos. Sin embargo, en otras realizaciones pueden emplearse otras distancias, como Manhattan.
La densidad representa el número de eventos por unidad de volumen en el espacio multidimensional. La densidad de un evento corresponde a la densidad determinada en las coordenadas de dicho evento en el espacio multidimensional. En una realización la densidad de cada evento se determina a partir de la distancia media de dicho evento a sus Kden eventos vecinos más cercanos, o a partir de la suma de las distancias de dicho evento a sus Kden eventos vecinos más cercanos, siendo Kden un número natural predefinido cuyo valor está comprendido entre 1 y el número total de eventos en la muestra. En ambos casos, la densidad aumenta al disminuir la suma de la distancia a eventos vecinos o al disminuir la distancia media a eventos vecinos y la densidad disminuye al aumentar la suma de la distancia a eventos vecinos o al aumentar la distancia media a eventos vecinos. En una realización preferida, el número de eventos vecinos más cercanos considerados en el cálculo de densidad es igual al número de eventos vecinos más cercanos considerados en la etapa a2), es decir, K = Kden. En una realización dicho número de eventos vecinos Kden es igual también al número de eventos vecinos más cercanos considerados en el cálculo de afinidad, es decir, K = Kden = Kaf. En otra realización la densidad de un evento se determina a partir del número de eventos que se encuentran a una distancia menor o igual que una distancia especificada respecto a dicho evento. En este caso, la densidad aumenta al aumentar el número de eventos que se encuentran a una distancia menor o igual que dicha distancia especificada respecto a dicho evento.
En una realización la etapa b) de comprobación de distancias comprende:
identificar en cada grupo de eventos resultante de la etapa a) los eventos extremos, es decir, aquellos eventos que no reciben ninguna conexión porque no verifican ser el evento vecino más cercano y más denso de ningún otro evento, de entre los K eventos vecinos más cercanos a dicho evento, y
determinar las distancias entre eventos conectados a lo largo del grafo de unión que comienza en cada evento extremo, estando el grafo de unión definido por las conexiones entre eventos resultantes de la etapa a). Según esta realización, se definen dos opciones preferidas para establecer el umbral de distancia máxima.
En una realización el umbral de distancia máxima entre dos eventos está establecido para cada conexión de eventos de un grafo de unión como la máxima distancia de las distancias correspondientes a las X conexiones de eventos anteriores a dicha conexión de eventos en dicho grafo de unión, siendo X el número de conexiones consideradas. De manera preferida, X está comprendido entre 3 y el número de conexiones anteriores a la conexión considerada. En una realización el umbral de distancia máxima entre dos eventos de un grupo está establecido en función de un modelo de regresión logarítmico estimado para las distancias entre eventos conectados de dicho grupo. De manera preferida, en esta realización la etapa b) comprende
obtener un modelo de regresión logarítmico para las distancias entre eventos conectados a lo largo de un grafo de unión de un grupo;
sumar el valor absoluto de las diferencias entre los valores de distancias reales y los obtenidos a partir del modelo de regresión logarítmico para cada una de las conexiones entre los eventos de dicho grafo de unión; y calcular la media de dichos valores absolutos.
En esta realización el umbral de distancia máxima entre dos eventos está establecido como un valor Y veces la media calculada de las diferencias en valor absoluto entre el valor del modelo de regresión logarítmico y el valor real de distancia, donde Y es un número real positivo. De manera preferida, Y está comprendido entre 2 y 5.
En una realización en la etapa c) de cálculo de afinidad entre cada par de grupos, la afinidad entre dos grupos se calcula asignando a cada par de eventos vecinos en los que uno de los eventos del par de eventos vecinos forma parte de uno de dichos dos grupos y el otro evento del par de eventos vecinos forma parte del otro de dichos dos grupos un peso determinado por una función Exponencial Negativa.
En una realización preferida, la afinidad entre dos grupos GA y GB ( A ag b ) se determina como:
A ga,gb = A a -^gb + A b ^-ga (Ec. 1)
siendo A a^ gb la afinidad del grupo GA con respecto al grupo GB y siendo A b ->ga la afinidad del grupo GB con respecto al grupo GA, en donde:
Figure imgf000007_0001
donde P representa el subconjunto de pares de eventos vecinos donde “i” es un evento del grupo GA y “j ” es un evento de los Kaf vecinos más cercanos de “i” que pertenece al grupo GB,
donde P' representa el subconjunto de pares de eventos vecinos donde “k” es un evento del grupo GB y “l” es un evento de los Kaf vecinos más cercanos de “k” que pertenece al grupo GA,
donde xt P — x P es la distancia entre los dos eventos i y j, donde x Pk ' — x P ' es la distancia entre los eventos k y l,
donde na es el número de eventos del grupo GA,
donde nb es el número de eventos del grupo GB, y
donde o es un parámetro configurable. Cuanto mayor sea el parámetro U, más grande será el resultado de la
función para una misma distancia. Dicha función exponencial negativa hace que en eventos vecinos cercanos entre sí el valor obtenido se acerque a 1 (sería 1 si la distancia entre ambos es 0) y tienda a 0 a medida que las distancias aumentan.
En una realización el parámetro a es inferido de los propios datos de los grupos y calculado para cada uno de los grupos de eventos de estudio.
En una realización, el a utilizado para la afinidad del grupo GA es:
Figure imgf000008_0001
siendo ith un evento del grupo GA y siendo m2 un evento vecino del evento m-i, siendo
Figure imgf000008_0002
el cuadrado de la distancia más pequeña encontrada entre todos los eventos del grupo GA y los Kaf eventos vecinos
más cercanos correspondientes a cada evento y siendo maxd(mx,m2)2 el cuadrado de la distancia más grande encontrada entre todos los eventos del grupo GA y los Kaf eventos vecinos más cercanos correspondientes a cada evento.
En otra realización, el a utilizado para la afinidad del grupo GA es:
2 mee d d (m , m2 )2 — min d (m , m2)
GA (Ec. 3b)
med d ( m , m2 )2
2ln
min d (m , m2)
siendo tu un evento del grupo GA y siendo m2 un evento vecino del evento tu , siendo m in d (mx,m2)2 el cuadrado de la distancia más pequeña encontrada entre todos los eventos del grupo GA y los Kaf eventos vecinos
más cercanos correspondientes a cada evento y siendo medd(m l , m 2 ) 2 Xmed veces la media de las distancias entre todos los eventos del grupo GA y los Kaf eventos vecinos más cercanos correspondientes a cada evento, siendo Xmed un número real positivo. De manera preferida, Xmed está comprendido entre 1 y 5.
En ambas realizaciones, la afinidad del grupo GA contra el grupo GB sería:
Figure imgf000008_0003
La afinidad del grupo GB contra el grupo GA sería:
Figure imgf000008_0004
Y la afinidad entre los dos grupos GA y GB sería:
A ga,gb A ga^ gb + A G,B^GA (Ec. 6)
en donde los parámetros o Q 2 A , <rG 2B han sido calculados según las expresiones (Ec. 3a) o (Ec. 3b).
En una realización en la etapa d) de comparación de los grupos de eventos de la muestra con la base de datos, cada grupo de la muestra se compara simultáneamente con pares de grupos de referencia de la base de datos, en donde para cada grupo de la muestra se realizan tantas comparativas como combinaciones de dos grupos de referencia haya en la base de datos. En esta realización, se realiza una comparación final entre el grupo de la muestra y un grupo de referencia candidato, siendo el grupo de referencia candidato el grupo de referencia de la base de datos que contiene la mediana del grupo de la muestra y/o un porcentaje mínimo de eventos del grupo de la muestra dentro de sus curvas de desviación en un mayor número de comparativas. En una realización, en caso de haber más de un grupo de referencia candidato, se selecciona para la clasificación el grupo de referencia candidato que tenga más medianas cercanas a la mediana del grupo de la muestra.
En una realización en la etapa d) de comparación de los grupos de eventos de la muestra con la base de datos, la reducción de dimensionalidad se realiza mediante Análisis de Componentes Principales o mediante Análisis de Correlación Canónica.
En una realización, en la etapa a) de agrupación de eventos la conexión de eventos con eventos vecinos comprende:
iterar sobre cada uno de los eventos, buscando para cada evento, dentro de los K eventos vecinos más cercanos, el evento más cercano que sea más denso que él, en donde:
(i) en caso de encontrar un evento más denso, se conecta el primer evento con dicho evento más denso y se toma dicho evento más denso como el siguiente evento en la iteración, y
(ii) en caso de no encontrar un evento más denso dentro de los K eventos vecinos más cercanos, se forma un grupo con los eventos que se han ido conectando y se continúa iterando con otro evento para empezar a formar un nuevo grupo.
En una realización, el método comprende evaluar el cumplimiento de al menos una regla predefinida, en donde dicha al menos una regla está basada en al menos un parámetro estadístico cuyo valor de referencia está inferido de los grupos de referencia de la base de datos. En una realización, la evaluación del cumplimiento de la regla se emplea como un criterio adicional en la clasificación de los grupos de la muestra y/o para comprobar la normalidad de los grupos clasificados. Adicional o alternativamente, dicha regla puede emplearse para generar un aviso en relación con al menos un grupo clasificado. En una realización, los parámetros estadísticos incluyen, sin estar restringido a, uno o varios de los siguientes parámetros: porcentaje de eventos en una población, ratio entre poblaciones específicas, coeficientes de variación de determinados parámetros respecto de la media del propio parámetro para poblaciones específicas, ausencia de una o varias poblaciones, desviaciones estándar o percentiles. El percentil indica, en un conjunto de datos ordenados de menor a mayor, el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones en un grupo de observaciones.
La comparación de uno o varios de dichos parámetros estadísticos con valores y/o intervalos de referencia inferidos de la base de datos puede usarse como criterio adicional para identificar a qué poblaciones corresponden los grupos de la muestra y/o para validar el grado de normalidad de las poblaciones identificadas en la muestra, pudiendo establecerse por ejemplo que un grupo corresponde a una determinada población y a la vez que está fuera de los parámetros normales.
En una realización, los parámetros relativos a eventos comprenden información digital obtenida a partir de análisis de proteómica, genómica, citómica y/o metabolómica.
En una realización, el hardware y/o software empleado para la obtención de los parámetros relativos a los eventos de la muestra es hardware y/o software biomédico.
En una realización, los parámetros obtenidos provienen de mediciones mediante citometría de flujo, citometría de imagen, citometría de masas, espectroscopia de impedancia, reacción en cadena de polimerasas, microscopia confocal, espectrometría de masas, microarrays de expresión génica y/o ultrasecuenciación.
En una realización, la base de datos contiene datos resultantes del análisis de muestras normales y de muestras patológicas.
En una realización, el método comprende retroalimentar la base de datos con la información de grupos resultantes de la clasificación realizada por el método de la invención. Ventajosamente, en esta realización la precisión y eficacia del método de la invención mejoran con cada análisis realizado, logrando una ampliación de la base de datos que mejora la etapa de clasificación automática.
En una realización, el método comprende representar gráficamente los grupos resultantes de la etapa de clasificación.
En una realización, K = Kaf. En una realización en la que la densidad de los eventos se determina en función de la distancia media o total de cada evento a los Kden eventos vecinos más cercanos, K= Kaf = Kden.
En una realización, el método comprende almacenar los resultados obtenidos en formato físico o digital.
La presente invención presenta una serie de ventajas frente a los métodos de análisis manuales:
- La presente invención posibilita el análisis automático de los datos resultantes de distintas técnicas biomédicas por parte de usuarios expertos o no expertos, evitando la subjetividad en los análisis y la ocurrencia de errores. Siempre que se utilicen los mismos protocolos para la obtención de los datos relativos a la muestra, cualquier usuario sin conocimiento previo puede realizar un análisis y obtener la clasificación automática de los eventos de la muestra en poblaciones normales, así como identificar aquellas poblaciones que se salgan de los patrones de normalidad definidos, por lo que resulta un método óptimo para análisis en hospitales, clínicas y laboratorios.
- La fiabilidad de la invención en relación a la detección de poblaciones que se separan de la normalidad resuelve el problema de la posible falta de efectividad en un análisis manual, teniendo en cuenta que se trata de tareas no realizadas frecuentemente, muy dependientes de la experiencia del experto. El uso cada vez más frecuente de más dimensiones para medir más características de las células o partículas también incrementa la dificultad de los análisis manuales y hace su labor mucho más tediosa. Todos estos factores dificultan la reproducibilidad de los resultados de un mismo caso de estudio en puntos temporales distintos realizados manualmente por el mismo u otro experto.
- La presente invención proporciona una mayor rapidez en el análisis de los datos obtenidos de las diferentes técnicas biomédicas a las que se aplique. El desarrollo de los dispositivos o hardware de adquisición aplicados al análisis de muestras supone que los usuarios se enfrenten a una gran cantidad de datos, resultando en muchos casos imposible su análisis de modo manual o en el mejor de los casos implicando la necesidad de invertir mucho tiempo en dicho análisis.
- La presente invención permite analizar de forma exhaustiva toda la información obtenida de la muestra en contraposición a los análisis manuales de los expertos que debido a la gran cantidad y complejidad de los datos, sólo tienen en cuenta un subconjunto de las poblaciones de la muestra obviando gran cantidad de información que podría ser relevante.
- La presente invención permite no sólo clasificar automáticamente las poblaciones conocidas en las bases de datos, sino también identificar aquellos grupos de la muestra que no corresponden a poblaciones identificadas en las bases de datos.
- La posibilidad de utilizar bases de datos dinámicas de referencia personalizables y actualizables hace que el método de la invención sea aplicable a un gran número de tecnologías biomédicas.
- La utilización de un gran número de variables en las etapas de agrupación, que incluyen distancias entre eventos, densidades y afinidad, hacen que el método de la invención sea más preciso y completo que otros métodos desarrollados hasta la actualidad.
La presente invención presenta una serie de ventajas frente a otros métodos de análisis automáticos:
- La agrupación de eventos no es dependiente de información previa de los grupos presentes en la muestra, como la distribución de los datos o el número de grupos esperados. Esto resulta en que no se pierden poblaciones formadas por pocos eventos y no se limita la detección a grupos de eventos conocidos o esperados.
- La base de datos utilizada para clasificar los grupos de eventos que en un principio contiene los datos originales de los expertos, permite añadir datos de otros análisis utilizando información no explotada hasta el momento, lo que significa que a medida que se utilice y se retroalimente la base de datos el método de clasificación de poblaciones será más sensible.
- El uso de una base de datos con múltiples referencias de distintos expertos permite aumentar de forma exponencial la calidad del análisis realizado.
En un segundo aspecto inventivo, se define un sistema para agrupar en grupos eventos presentes en una muestra, tal como una muestra biológica y/o una mezcla de partículas no-biológicas funcionalizadas, y para clasificar dichos grupos, en donde cada evento es un elemento detectado por medio de hardware y/o software, como partículas, preferiblemente células, orgánulos, vesículas, virus y/o esferas, cada evento estando caracterizado por un conjunto multidimensional de parámetros, comprendiendo el sistema:
- al menos un módulo de procesamiento configurado para recibir los parámetros que caracterizan los eventos de la muestra y para llevar a cabo el método según el primer aspecto inventivo de la invención.
En una realización, el sistema comprende adicionalmente al menos un módulo de representación configurado para representar los resultados de la clasificación. En una realización, el módulo de representación comprende una pantalla y/o impresora configuradas para visualizar y/o representar la clasificación obtenida.
En una realización, el sistema comprende un sistema de almacenamiento físico.
En una realización, al menos un módulo de procesamiento puede ser un ordenador, un microprocesador, un microcontrolador o un dispositivo electrónico, por ejemplo, Tablet, PDA o teléfono móvil, configurado para interpretar el método y ejecutar las etapas definidas según cualquiera de las realizaciones del primer aspecto inventivo, independientemente del sistema operativo o del lenguaje de programación nativos en dicho módulo de procesamiento. Siguiendo esta realización, el sistema puede comprender varios módulos de procesamiento configurados para trabajar en paralelo de acuerdo a las etapas del primer aspecto inventivo. En otros casos, el sistema puede tener un módulo de procesamiento con varios microprocesadores y/o microcontroladores configurados para trabajar en paralelo de acuerdo a las etapas del primer aspecto inventivo. Ventajosamente, estas realizaciones reducen el tiempo de ejecución del método según el primer aspecto inventivo, aumentado de esta manera la eficiencia de dicho método.
En una realización, el sistema está configurado para recibir los parámetros que caracterizan los eventos de la muestra de un módulo de adquisición. En una realización, el sistema está configurado para recibir los parámetros que caracterizan los eventos de la muestra de un sistema de almacenamiento físico, por ejemplo, un CD, una memoria USB, o un disco duro. Dicho sistema de almacenamiento físico está configurado para almacenar parámetros, es decir, datos digitales relativos a la muestra. En este ejemplo de realización, el módulo de adquisición de datos y/o el sistema de almacenamiento físico están configurados para transmitir datos entre ellos y el al menos un módulo de procesamiento. Dicha transmisión puede realizarse a través de un cable de comunicaciones o de forma inalámbrica.
En una realización, el sistema comprende adicionalmente un módulo de adquisición de datos configurado para obtener los parámetros que caracterizan los eventos de la muestra. En este ejemplo de realización, el módulo de adquisición de datos y el módulo de procesamiento están configurados para transmitir los parámetros entre ambos módulos. Dicha transmisión puede realizarse a través de un cable de comunicaciones o de forma inalámbrica. En un ejemplo de realización, el módulo de adquisición es de tipo biomédico.
En un tercer aspecto inventivo, se define un programa de ordenador que comprende instrucciones adaptadas para llevar a cabo un método según cualquiera de las realizaciones indicadas en el primer aspecto inventivo cuando dichas instrucciones son ejecutadas en un ordenador.
Todas las características descritas en esta memoria (incluyendo las reivindicaciones, descripción y dibujos) pueden combinarse en cualquier combinación, exceptuando las combinaciones de tales características mutuamente excluyentes.
DESCRIPCIÓN DE LOS DIBUJOS
Para complementar la descripción que seguidamente se va a realizar y con objeto de ayudar a una mejor comprensión de las características de la invención, de acuerdo con un ejemplo preferente de realización práctica de la misma, se acompaña como parte integrante de dicha descripción, un juego de dibujos en donde con carácter ilustrativo y no limitativo, se ha representado lo siguiente:
En la figura 1 se muestra un diagrama de flujo de una realización del método de la invención.
En la figura 2 se muestra una representación bidimensional de eventos en función del valor medido para dos parámetros A y B.
En la figura 3 se muestran los eventos de la figura 2, junto con un valor indicativo de la densidad de cada evento, en donde valores decrecientes implican densidades crecientes.
En la figura 4 se muestra la agrupación automática de los eventos de la figura 2 en dos grupos (C1 y C2).
En la figura 5 se muestra: (a) un ejemplo de grafo de unión de cada evento al evento más cercano que es más denso que dicho evento y (b) un ejemplo de grafo de unión de un evento a los 3 eventos vecinos más cercanos. En la figura 6 se muestra un diagrama de regresión logarítmica que representa las distancias entre eventos de uno de los grafos de unión de un mismo grupo.
En la figura 7 se muestra un ejemplo de tres grupos de referencia (P-A, P-B y P-C).
En la figura 8 se muestran tres comparativas de un grupo de eventos frente a grupos de referencia de la base de datos.
En la figura 9 se muestra una comparación de los eventos de un grupo de una muestra objeto de estudio (puntos grises) fusionados a los eventos de un grupo de referencia (puntos negros).
En la figura 10 se muestra un ejemplo de una representación bidimensional de los grupos de una muestra automáticamente identificados mediante el método de la invención.
En la figura 11 se muestra esquemáticamente un ejemplo del sistema para clasificar eventos según una realización de la invención.
REALIZACIÓN PREFERENTE DE LA INVENCIÓN
En la figura 1 se muestra un diagrama de flujo de una realización del método de la invención, en este caso aplicado al análisis de muestras biológicas. En el recuadro de líneas discontinuas se representan las fases de agrupación automática (S01) y clasificación automática (S02) de eventos y visualización gráfica (S03) de resultados.
El método de la invención permite el análisis de datos digitales (4) multidimensionales relativos a una muestra (1). Dichos datos contienen los parámetros que caracterizan los eventos de la muestra, es decir, la información digital (4) obtenida a partir del análisis de la muestra mediante hardware (2) y/o software (3). En esta realización, la muestra (1) es una muestra biológica (1) y se emplea para su análisis hardware (2) biomédico y el software (3) correspondiente a dicho hardware (2) biomédico. Mediante el hardware (2) y/o software (3) se detectan eventos presentes en la muestra analizada (1), por ejemplo células en una muestra de sangre (1), y se mide y/o determina para cada evento un conjunto de parámetros. En una realización el hardware biomédico es un citómetro de flujo y los parámetros se miden o determinan a partir de la luz difractada por las células presentes en la muestra. Dichos parámetros pueden incluir la granularidad y tamaño de cada célula, la cantidad de proteínas o la intensidad de fluorescencia que expresa el antígeno de la célula unido a un marcador (por ejemplo un anticuerpo) unido a su vez a una molécula fluorescente (por ejemplo un fluorocromo), en el caso de una muestra preparada con marcadores. En una realización el hardware biomédico es un citómetro de masas y los parámetros medidos incluyen la relación masa carga de los metales ionizados de cada célula, donde las células han sido previamente marcadas con anticuerpos unidos a isótopos de metales, preferiblemente isótopos de lantánidos.
En la fase de agrupación (S01) están incluidas las etapas (a), (b) y (c) del método de la invención. En la fase de agrupación (S01), los eventos detectados se agrupan en grupos mediante la conexión de cada evento con su evento vecino más cercano más denso que él, considerando los K eventos vecinos más cercanos a cada evento. Una vez formados los grupos de eventos, la fase de agrupación comprende adicionalmente dividir los grupos formados cuando la distancia entre un par de eventos conectados supera un umbral de distancia máxima. Dicho umbral de distancia máxima está establecido en base a las uniones de los eventos del propio grupo. Adicionalmente, se comprueba la afinidad entre grupos y, cuando la afinidad entre dos grupos es mayor que un umbral mínimo de afinidad preestablecido, los dos grupos se unen formando un solo grupo. La afinidad entre dos grupos se calcula en base al número de pares de eventos vecinos existentes entre eventos de ambos grupos y a las distancias entre dichos eventos. Como resultado de la fase de agrupación (S01), se obtienen uno o varios grupos de eventos (6) presentes en la muestra (1).
En la fase de clasificación (S02) están incluidas las etapas (d) y (e) del método de la invención. En la fase de clasificación (S02) cada uno de los grupos de eventos (6) formados se compara con grupos de referencia almacenados en una base de datos (5). Cada grupo de referencia de la base de datos (5) corresponde a una población específica. La comparación entre grupos se realiza mediante técnicas de reducción de dimensionalidad, identificando relaciones entre los grupos comparados, ponderando la importancia de los parámetros y buscando la combinación de parámetros que más separe dichos grupos. Los grupos de eventos (6) identificados en la muestra se clasifican en base a las comparaciones con los grupos de referencia de la base de datos (5), utilizando la información de los eventos, las medianas y/o las curvas de desviación de los grupos. Como resultado de la fase de clasificación (S02) se asocian los grupos (6) presentes en la muestra (1) con los grupos de referencia correspondientes de la base de datos (5), obteniéndose los grupos clasificados de la muestra (7).
Opcionalmente, el método puede incluir una fase de visualización (S03), en la que se representan gráficamente los grupos de la muestra junto con o sin los grupos de referencia de la base de datos (5), lo que permite al usuario comprobar visualmente la representación (8) de las poblaciones en las que se han clasificado los eventos de la muestra.
En una realización, la base de datos (5) ha sido construida previamente mediante la alimentación manual con datos de poblaciones conocidas. La base de datos (5) puede ser retroalimentada (S04) con los datos resultantes del análisis de muestras, incorporando la información obtenida de las poblaciones identificadas en muestras analizadas como parte de la información relativa a los grupos de referencia almacenados en la base de datos (5), correspondientes a dichas poblaciones.
A continuación se describen en mayor detalle las etapas del método de la invención, según una forma de realización preferida del mismo.
En esta realización la muestra biológica, previamente preparada y procesada, se analiza mediante un hardware biomédico que mide propiedades de cada uno de los eventos que componen la muestra, tales como propiedades físicas, químicas, morfológicas, eléctricas, foto-luminiscentes, etc. Generalmente, el hardware (2) biomédico dispone de un software de adquisición (3) que permite el envío de información de los parámetros obtenidos de cada uno de los eventos a un medio de almacenamiento para su posterior procesamiento. Dicho medio de almacenamiento puede ser por ejemplo una memoria de un ordenador o una memoria externa. Los datos obtenidos mediante el hardware y/o software caracterizan los eventos presentes en la muestra y pueden representarse en un espacio multidimensional, en donde la dimensión del espacio es el número de parámetros medidos para cada evento y en donde los valores obtenidos de dichos parámetros para cada evento definen las coordenadas de posición de dicho evento en dicho espacio multidimensional. En la figura 2 se muestra una representación bidimensional de eventos en función del valor medido para dos parámetros A y B.
Primera fase: Agrupación automática de datos digitales
En la fase de agrupación se forman grupos de eventos en base a los datos obtenidos mediante el hardware y/o software. Generalmente, los datos se obtienen en diferentes formatos que dependen del software de adquisición. La agrupación de eventos según el método de la invención se basa en una combinación de etapas basadas en cálculo de distancias entre eventos, cálculo de densidad de eventos y cálculo de afinidad entre grupos. En una realización la distancia utilizada en esta fase es la distancia Euclídea, aunque pueden utilizarse otros tipos de distancias.
Los principales pasos de la fase de agrupación según esta realización del método de la invención se describen a continuación.
En primer lugar, se determina la densidad de cada evento. En una realización la densidad de cada evento se determina a partir de la distancia media de dicho evento a los Kden eventos vecinos más cercanos a él, siendo Kden un número natural predefinido. En otra realización, la densidad de un evento se determina a partir de la suma de las distancias de dicho evento a los Kden eventos vecinos más cercanos a él. En ambos casos una mayor distancia media o una mayor suma de distancias corresponde a una menor densidad del evento. La figura 3 muestra el resultado del cálculo de la densidad de cada evento, para los eventos representados en la figura 2. El número representado junto a cada evento en la figura 3 representa dicha densidad (cuanto menor sea el número, mayor es la densidad). En esta realización, el número de eventos vecinos Kden considerado en el cálculo de la densidad es igual al número de eventos vecinos K considerado en la etapa a2). También puede determinarse la densidad de un evento como el número de eventos vecinos dentro de una distancia máxima predefinida respecto a dicho evento. En ese caso, un mayor número de eventos vecinos implicaría una mayor densidad. Otras formas de determinar o estimar la densidad de los eventos son también compatibles con el método de la invención.
Una vez determinada la densidad de los eventos, se busca para cada evento, entre los K eventos vecinos más cercanos a dicho evento en el espacio multidimensional definido por los parámetros medidos, el evento más cercano que sea más denso que él. En caso de encontrarlo, se conecta dicho evento vecino con el evento actual y se toma el evento vecino conectado como el siguiente por el que iterar. Cuando no se encuentre un evento más denso dentro de los K eventos vecinos más cercanos a un evento dado, se forma un grupo con los eventos que se han ido conectando y se continúa con un nuevo evento, que empezaría a formar un nuevo grupo. En el caso de que el evento vecino más cercano y más denso ya pertenezca a un grupo, el grupo actual se une con dicho grupo. Este proceso iterativo se continúa hasta haber recorrido todos los eventos de la muestra.
En la figura 4 se muestra un ejemplo de agrupación automática de los eventos de la figura 2 en dos grupos (C1 y C2). Los eventos pertenecientes al grupo C1 están representados en color negro y los eventos pertenecientes al grupo C2 están representados en gris. La conexión de cada evento con su evento vecino más cercano y más denso que él está representada mediante línea continua. En este caso el número de eventos vecinos considerado es K=5. La iteración sobre los eventos puede realizarse, por ejemplo, recorriendo los eventos en orden de densidad ascendente, en orden de densidad descendente o en un orden aleatorio. Tras el proceso iterativo, se obtienen una serie de grupos con un grafo de unión de eventos para cada uno de los grupos. El grafo de unión se define como las uniones que hay entre los eventos de un grupo. Como en las etapas anteriores se ha conectado cada evento con el evento más cercano que es más denso que él, pueden definirse como uniones entre eventos las conexiones realizadas en la etapa a) de agrupación y utilizar esa información para construir el grafo de unión, como se muestra en la figura 5a. En la figura 5a el grafo de unión representa la unión al evento vecino más cercano y más denso que un evento dado. En la figura 5a la unión entre eventos está representada mediante flechas, en donde la punta de la flecha apunta al evento vecino más cercano y más denso. En la figura 5b el grafo de unión representa la unión a un número predefinido de eventos vecinos más cercanos a un evento dado (en el ejemplo de la figura se consideran los 3 eventos vecinos más cercanos). En la figura 5b la unión entre eventos está representada mediante flechas, en donde la flecha sale desde el evento considerado y apunta a los 3 eventos vecinos más cercanos a dicho evento. El número de eventos vecinos Kaf considerado para construir el grafo de unión según la realización de la figura 5b puede ser igual o diferente al número de eventos vecinos K considerado en la etapa a2) de agrupación. Un grafo de unión como el de la figura 5b, que representa la unión de cada evento a los Kaf eventos vecinos más cercanos puede utilizarse en el cálculo de la afinidad entre grupos. El análisis del grafo de unión, al igual que el número de pares de eventos vecinos existentes entre eventos de distintos grupos o las distancias entre eventos conectados permite realizar diferentes controles sobre los grupos formados.
Así, el método comprende una etapa de control b) para determinar tras la etapa a) si existe alguna conexión no deseada entre eventos, por ejemplo alguna conexión entre eventos de un mismo grupo que suponga una anomalía. Para ello, se establecen umbrales de distancia máxima entre eventos de un mismo grupo y en caso de que la distancia entre dos eventos conectados de un mismo grupo sea mayor que dicho umbral, se desconectan esos dos eventos. Como los eventos se van conectando a eventos vecinos más densos, las distancias entre eventos conectados al avanzar desde las zonas menos densas a las zonas más densas de un grupo deberán ir reduciéndose. Por tanto, recorriendo las conexiones de los eventos y comprobando dichas distancias, es posible determinar si existe alguna anomalía.
En una realización de la etapa b) se toman los grafos de unión definidos por las conexiones construidas en la etapa a) y para cada grupo de eventos resultante de la etapa a) se identifican todos los eventos extremos, es decir, aquellos eventos a los que no les llega la conexión de ningún evento. En el ejemplo de la figura 5a, los eventos extremos de los dos grupos están marcados con un círculo en línea discontinua. Para cada evento extremo se realizan los siguientes pasos:
identificar el evento A2 al que se une el evento extremo A1 y determinar la distancia entre esos dos eventos,
identificar el evento A3 al que se une el evento A2 y determinar la distancia entre esos dos eventos, repitiendo el proceso hasta llegar a un evento que no se une a ninguno. Este es el evento más denso del grupo. En el caso de la figura 5a, el evento más denso es el evento A3 del grafo de unión definido por la conexión de eventos A1 ^ A2 ^A3.
En este momento se tienen una serie de uniones y de distancias entre eventos conectados que parten de un evento extremo en concreto. En el gráfico de la figura 6 se representan las distancias entre eventos conectados a lo largo de un grafo de unión, desde un evento extremo de un grupo. En este caso se representan las conexiones entre muchos más eventos que los representados en la figura 5a. En el eje de abscisas del gráfico de la figura 6 se enumeran las conexiones entre eventos conectados a lo largo del grafo de unión y en el eje de ordenadas se representa la distancia entre eventos conectados correspondiente a dichas conexiones. Así, el primer punto (1 en el eje de las abscisas) representaría una distancia de aproximadamente 1230 entre un evento extremo e1 del grupo y el evento e2 al que se une; el segundo punto (2 en el eje de las abscisas) representa la distancia entre el evento e2 y el evento e3 al que se une, y así sucesivamente hasta llegar al último punto (17 en el eje de las abscisas), que representa la distancia entre el evento e17 y el evento e18 al que se une. La zona identificada en la figura como Z1 corresponde a una disminución de las distancias, lo que significa que se está llegando al centro del grupo. La zona identificada como Z2 muestra un aumento de las distancias, lo que implica que se está llegando a lo que se consideraría otro grupo. El siguiente paso es el estudio de esas distancias.
Para definir el umbral de distancia máxima se pueden aplicar distintos métodos. En una realización, el umbral de distancia máxima para una conexión entre dos eventos está establecido como la máxima distancia de las X conexiones de eventos anteriores a dicha conexión entre eventos en el grafo de unión de eventos actual, siendo X el número de conexiones consideradas. En este caso, si una conexión entre eventos supera el umbral de distancia máxima establecido para dicha conexión, significaría que uno de los eventos se ha unido a lo que se consideraría otro grupo. En esta realización se comprueban las distancias entre los eventos conectados a lo largo del grafo de unión, determinando que cuando la distancia entre dos eventos sea mayor que las X distancias anteriores en el grafo de unión se trata de una distancia anómala y dividiendo en ese caso el grupo entre los dos eventos representados por dicha distancia. En una realización X =3.
Según esta realización, en el caso del ejemplo de la figura 6 se realizarían las siguientes comprobaciones:
i. El primer punto (1 en el eje de las abscisas) del gráfico representa la distancia entre el evento extremo e1 y el evento e2 al que se une. Como no hay ningún punto anterior, se determina la distancia como correcta.
ii. El siguiente punto del gráfico (2 en el eje de las abscisas) representa la distancia entre el evento e2 y el evento e3 al que se une. Esta distancia es aproximadamente 1080. Como esta distancia no es más grande que la de las 3 conexiones anteriores (en este caso solo hay una conexión anterior, de distancia 1230 aproximadamente), se determina como correcta.
iii. El siguiente punto (3 en el eje de las abscisas) representa la distancia entre los eventos e3 y e4. Dicha distancia es de aproximadamente 800. Como no se cumple que la distancia sea mayor que la distancia de las tres conexiones anteriores (1230 y 1080), se determina como correcta.
iv. Se continúa de la misma forma hasta recorrer todos los puntos (4 a 17 en el eje de las abscisas) que representan las distancias entre eventos conectados desde el evento extremo e1. En el caso de encontrar una distancia mayor que las tres distancias anteriores, se desconectan los eventos cuya conexión corresponde a dicha distancia. Por ejemplo, la distancia del punto 9 (aproximadamente 900) es mayor que las 3 distancias anteriores (785, 600 y 780), por lo que se desconectarían los eventos e9 y e10 cuya conexión corresponde a dicha distancia, formando así dos grupos de eventos diferentes, uno con todos los eventos que se conectan de forma directa o indirecta (a través de otras conexiones) con el evento e9 y otro con todos los eventos que se conectan de forma directa o indirecta con el evento e10.
En esta realización, la comprobación de distancias entre eventos a lo largo del grafo de unión se realiza para todos los grafos de unión de cada grupo, comenzando por los eventos extremos de cada grupo.
En otra realización, el umbral de distancia máxima entre dos eventos de un grupo se establece en función de un modelo de regresión logarítmico estimado para las distancias entre los eventos conectados a lo largo de un grafo de unión, comprobando si existen grandes diferencias entre la distancia esperada según el modelo de regresión y la distancia real. En la figura 6 se muestra un diagrama de regresión logarítmica que representa las distancias entre eventos de uno de los grafos de unión dentro de un grupo. La curva discontinua representa el camino esperado según el modelo logarítmico. En esta realización, para establecer el umbral de distancia máxima se establece un valor Y veces la media del valor absoluto de las diferencias entre el valor del modelo de regresión logarítmico y el valor real de distancia de todas las conexiones entre eventos del grafo de unión.
En esta realización se realiza una regresión logarítmica con los valores de las distancias entre eventos conectados. Al avanzar por el grafo de unión desde el evento extremo hasta el evento más denso la distancia entre eventos conectados se va haciendo más pequeña. La regresión logarítmica permite determinar la diferencia entre el valor esperado (es decir, el valor de la línea discontinua en la figura 6) y el valor real (representado con puntos). En una realización se suma el valor absoluto de las diferencias entre los valores reales y estimados de las distancias para todas las conexiones del grafo de unión, se hace la media de dichos valores absolutos dividiendo la suma entre el número de conexiones del grafo de unión y se determina si alguna de dichas diferencias es mayor que Y veces la media calculada. Si alguna de dichas diferencias es mayor que Y veces la media de las diferencias se determina que representa una distancia anómala y se separan los dos eventos correspondientes. En una realización Y es 4. En una realización se determina además el coeficiente de determinación del modelo de regresión y se aplica esta etapa sólo a los grafos de unión para los que el coeficiente de determinación es mayor o igual que un umbral predefinido, es decir, a los grafos de unión para los cuales el modelo de regresión se ajusta de forma suficientemente correcta a los resultados de distancias entre eventos. El coeficiente de determinación es un estadístico que determina la calidad del modelo de regresión.
La comprobación de distancias entre eventos a lo largo del grafo de unión se realiza para todos los grafos de unión de cada grupo, comenzando por los eventos extremos de cada grupo.
Como resultado de las etapas anteriores se obtienen uno o varios grupos de eventos. A continuación se realiza la etapa c) de unión de grupos afines. En la etapa c) se calcula la afinidad de cada par de grupos y se unen los grupos cuya afinidad es mayor que un umbral mínimo de afinidad. El cálculo de la afinidad entre dos grupos se realiza en base al número de pares de eventos vecinos existentes entre eventos de ambos grupos y a las distancias entre dichos eventos y opcionalmente teniendo en cuenta el tamaño de ambos grupos. Una opción es asignar un peso a cada par de eventos vecinos que involucra un evento de cada grupo, estando el peso basado en la distancia entre ambos eventos. Para ello, se recorren los eventos de ambos grupos buscando entre los Kaf eventos vecinos más cercanos a cada evento un evento perteneciente al otro grupo. En caso de encontrarlo, se suma a la afinidad total entre ambos grupos el peso correspondiente a dicho par de eventos vecinos. En la figura 5b se muestra un ejemplo de grafo de unión que representa la unión de cada evento a los Kaf eventos vecinos más cercanos. Cuantos más pares de eventos vecinos se tengan entre dos grupos y más cercanos sean los eventos de dicho par de eventos vecinos, más afinidad se asigna a ese par de grupos. Por ejemplo, una forma de estimar los pesos asignados a los pares de eventos vecinos es con una función Exponencial Negativa:
Figure imgf000016_0001
(Ec. 7)
donde ||x¿ — x ;.|| es la distancia entre los eventos y a es un parámetro configurable, donde cada evento pertenece a uno de los grupos.
En una realización, una vez calculados los pesos entre pares de eventos vecinos de ambos grupos se ponderan los pesos al tamaño de los grupos, favoreciendo así también la unión de grupos con pocos eventos.
En una realización la afinidad entre grupos se calcula mediante las expresiones matemáticas (Ec. 4) a (Ec. 6), siendo el parámetro a correspondiente a cada grupo el definido por las expresiones (Ec. 3a) o (Ec. 3b).
Adicionalmente se pueden utilizar etapas para reducir el coste computacional del método de la invención, así como añadir etapas de limpieza de datos, tal como la eliminación de outliers (eventos no representativos de la muestra). Base de datos (5)
El método de clasificación de la invención emplea en la fase de clasificación una o varias bases de datos. La base de datos (5) incluye distintos grupos de referencia, que se emplean para la comparación con los grupos de la muestra a analizar. Los grupos de referencia representan la clasificación de los eventos en poblaciones biológicas (por ejemplo, poblaciones de leucocitos) o artificiales (por ejemplo, microesferas). Cuanto más precisa sea la clasificación de grupos de referencia incluidos en la base de datos (5), mayor será la precisión de los resultados del método.
De manera preferida, la base de datos (5) está construida definiendo la estructura de grupos de referencia que se incluirán en la base de datos (5) y alimentando la base de datos (5) con ficheros de datos analizados por expertos. Como resultado se obtiene una base de datos (5) con grupos de referencia formados por los datos relativos a eventos de los ficheros introducidos.
De manera preferida los datos con que se alimenta la base de datos (5) provienen del análisis de muestras biológicas aplicando siempre un mismo protocolo o de muestras de partículas no biológicas funcionalizadas. A partir de estos análisis de muestras, se obtienen los valores de cada uno de los parámetros de todos los eventos que forman un grupo de referencia, por lo que las bases de datos contendrán información de las poblaciones y sub­ poblaciones conocidas asociadas a dichos grupos de eventos.
En la figura 7 se muestran tres grupos de referencia (P-A, P-B y P-C) de una base de datos (5) dinámica construida a partir de librerías de información digital analizadas previamente por un experto.
De manera preferida, la base de datos (5) se seguirá alimentando con ficheros adicionales analizados por expertos y/o con los datos de grupos resultantes de la clasificación realizada por el método de la invención. Ventajosamente, se aumenta de este modo la variabilidad de la base de datos (5). La base de datos (5) se puede retroalimentar adicional o alternativamente con otras bases de datos externas. De manera preferida, la base de datos (5) es editable, permitiendo su modificación para incluir nuevos grupos de referencia, para eliminar y/o para modificar los grupos de referencia existentes.
Segunda fase: Clasificación de los grupos formados mediante comparación con los grupos de referencia de la base de datos (5)
La etapa de clasificación comprende comparar cada grupo de la muestra formado como resultado de las etapas anteriores con al menos un grupo de referencia de la base de datos (5). La comparación de un grupo de la muestra con un grupo de referencia comprende reducir la dimensionalidad de los datos del grupo de la muestra junto con los datos del grupo de referencia hasta obtener una representación bidimensional de ambos grupos, y determinar las medianas y las curvas de desviación de los grupos de referencia.
De manera preferida, la comparación de los grupos de la muestra con los grupos de referencia se realiza aplicando un algoritmo de análisis de componentes principales (PCA) o de análisis de correlación canónica (CCA).
El análisis de componentes principales y el análisis de correlación canónica permiten reducir la dimensionalidad de los datos de los grupos extrayendo a su vez las características más importantes de los grupos y permiten representar los grupos en gráficos 2D sin perder información importante. En el caso del PCA, este análisis identifica las representaciones bidimensionales con mayor varianza de los datos. En el caso del CCA, este análisis identifica y cuantifica las relaciones entre dos grupos encontrando la representación bidimensional que maximiza la separación entre ambos grupos.
Dichas representaciones bidimensionales permiten visualizar gráficamente como imagen de referencia las curvas de desviación de todos los parámetros ponderados de todos los eventos que componen el grupo de referencia en la base de datos (5) sobre la que se compararán los grupos de la muestra a analizar. Dicha imagen de referencia puede emplearse para establecer los límites de pertenencia al grupo de referencia.
En una realización basada en análisis de correlación canónica (CCA), la obtención de los ejes canónicos sobre los que representar bidimensionalmente los grupos comprende las etapas siguientes:
1) Dados g grupos de eventos con tamaños ni, n 2,..., ng, se calcula la matriz de covarianzas muestral de cada grupo Sa, donde el tamaño de un grupo es el número de eventos que incluye. En el caso de una comparación entre un grupo de la muestra y un grupo de referencia de la base de datos (5), g = 2.
2) Se obtiene la matriz de dispersión dentro de los grupos W (también denominada within groups matrix):
Figure imgf000017_0001
3) A partir de la matriz de dispersión dentro de los grupos W se obtiene la matriz de covarianzas ponderada dentro de los grupos Sp (también denominada pooled within matrix):
Figure imgf000017_0002
siendo n el número de eventos totales en los grupos que se comparan.
4) Se calcula la matriz de dispersión entre los grupos B (también denominada between groups matrix):
B = S n a ( X a - X } ( X a - X ) (Ec. 10)
a=1
siendo X a el vector de medias del grupo a y siendo X el vector de medias muestral (o global) y donde
de cada dimensión es la media de los valores de los eventos de ese grupo para cada parámetro. Por ejemplo, en caso de un grupo con 7 parámetros (dimensiones) y 1000 eventos, el vector de medias sería un vector de 7 dimensiones donde el primer valor sería la media de los 1000 valores del parámetro 1, donde el segundo valor sería la media de los 1000 valores del parámetro 2 y así sucesivamente hasta tener la media para los 7 parámetros. El vector de medias global se construye de la misma manera pero contando todos los eventos de los grupos que intervienen (en el caso de una comparación entre un grupo de la muestra y un grupo de referencia serían los eventos de esos dos grupos).
5) De la diagonalización de la matriz de dispersión entre los grupos B respecto de la matriz de covarianzas ponderada dentro de los grupos Sp se obtienen los coeficientes ai, a%... de los ejes canónicos y con ellos se pueden calcular los ejes canónicos, donde j es el número de dimensiones (es decir, el número de parámetros medidos por cada evento), Xj el valor del evento i para la dimensión j e y el valor del evento i transformado en el eje canónico:
y = a1xi1 a 2 xt 2 — a j xij (Ec. 11)
A continuación se pueden crear gráficos comparativos 2D donde los eventos sean representados según los ejes obtenidos mediante la técnica de reducción de dimensionalidad. Si los grupos comparados no se separan en la representación bidimensional resultante de la técnica de reducción de dimensionalidad es porque corresponden a la misma población.
Así, cada grupo obtenido en la fase de agrupación se compara con los grupos de referencia de la base de datos (5).
En una realización, dicha comparación se realiza en tres etapas. En la primera etapa se seleccionan los grupos de referencia candidatos (aquellos que pueden corresponder al grupo a clasificar), comparando el grupo de entrada (es decir, el grupo de la muestra a clasificar) en tantas comparativas basadas en el c Ca como combinaciones de dos grupos de referencia haya en la base de datos (5) y seleccionando como grupos de referencia candidatos aquellos grupos de referencia de la base de datos (5) que contienen dentro de sus curvas de desviación, en un mayor número de comparativas, la mediana del grupo a clasificar y/o un porcentaje de eventos predeterminado del grupo a clasificar. En el caso de tener más de un grupo de referencia candidato, se realiza una etapa de desempate entre los grupos de referencia candidatos, seleccionando el grupo de referencia que tenga más medianas cercanas a la mediana del grupo de entrada. Finalmente, se realiza una última etapa de validación del grupo de referencia candidato seleccionado a través de una comparativa canónica basada en CCA entre el grupo a clasificar y el grupo de referencia candidato seleccionado. Las dos primeras etapas son opcionales, pero es ventajoso realizarlas por cuestiones de rendimiento, ya que si las comparativas entre los grupos de referencia de la base de datos (5) están pre-calculadas, se puede representar el grupo de entrada sobre los coeficientes de análisis canónico ya precalculados de los grupos de referencia, por lo que el procedimiento es rápido. En cambio la comparativa final entre el grupo a clasificar y un grupo de referencia de la base de datos (5) se realiza incluyendo para el cálculo de los ejes al grupo a clasificar y es mucho más lenta.
De manera alternativa se pueden hacer comparaciones entre el grupo a clasificar y cada uno de los grupos de referencia de la base de datos (5), sin hacer una preselección de grupos de referencia candidatos a través de las comparaciones simultáneas con dos grupos de referencia de la base de datos (5).
Por lo tanto, en una realización, para la clasificación de un grupo de entrada se realizan los siguientes pasos:
1) Se crean representaciones bidimensionales basadas en el CCA utilizando todas las combinaciones de 2 grupos de referencia que haya en la base de datos (5), sin importar el orden.
2) Sobre dichas representaciones bidimensionales se representa el grupo de entrada (grupo de la muestra) que se desea clasificar. En la figura 8 se muestran tres comparativas donde están representados el grupo de la muestra a clasificar (C) frente a grupos de referencia (P1, P2, P3, P4) de la base de datos (5). En la figura 8(a) el grupo a clasificar (C) se compara con los grupos de referencia P1 y P2, que corresponden respectivamente a poblaciones de Neutrófilos y de Monocitos. En la figura 8(b) el grupo a clasificar (C) se compara con los grupos de referencia P3 y P4, que corresponden a poblaciones de Eosinófilos y de Eritrocitos, respectivamente. La figura 8(c) corresponde a la comparación del grupo a clasificar (C) únicamente con el grupo de referencia de Neutrófilos (P1). En las figuras se han representado para cada grupo de referencia la curva de desviación 1SD (representada en línea discontinua), la curva de desviación 2,5SD (representada en línea continua) y las medianas (representadas como puntos). La curva de desviación 1SD representa la curva cerrada que contiene en su interior el 68,2% de los eventos del grupo de referencia. La curva de desviación 2,5SD representa la curva cerrada que contiene en su interior el 98,7% de los eventos del grupo de referencia. Estas curvas de desviación se han identificado en la figura 8 como “1SD” o “2.5SD”, según corresponda, precedido por la denominación del grupo de referencia correspondiente (P1, P2, P3 o P4). Por ejemplo, la curva “P1-1SD” es la curva de desviación 1SD del grupo de referencia P1. En la figura 8 las medianas aparecen representadas como puntos. Las medianas de cada grupo de referencia están contenidas en el interior de las curvas de desviación de dicho grupo de referencia. Las medianas de cada grupo de referencia de la base de datos (5) representan cada análisis que forma dicha población. Esto es, si la población de Neutrófilos está formada por los análisis de 11 muestras, se representa una mediana por cada análisis. En este caso serían 11 medianas. De manera preferida, las curvas de desviación del grupo de referencia son respecto a la población total del grupo de referencia. En la figura 8 la mediana del grupo de la muestra a clasificar se ha representado como un punto blanco y se ha denominado “C-m” para diferenciarlo de las medianas de los grupos de referencia.
Utilizando las comparativas del grupo a clasificar con los pares de grupos de referencia, el método identifica qué grupos de referencia de la base de datos (5) contienen en mayor número de comparativas la mediana del grupo a clasificar y/o un porcentaje predeterminado de eventos del grupo a clasificar dentro de sus curvas de desviación. Esos grupos de referencia se toman como los grupos de referencia candidatos. En el ejemplo de la figura 8 se ha utilizado la curva de desviación 2,5SD para las comparativas, pero en otras realizaciones puede utilizarse otra curva de desviación.
3) En una realización, si se identifica más de un grupo de referencia candidato, se realiza una etapa de desempate para seleccionar un grupo de referencia candidato final. En una realización, en la etapa de desempate se selecciona el grupo de referencia candidato que tenga más medianas cercanas a la mediana del grupo de entrada. En este caso se determina la distancia entre la mediana del grupo de entrada y la mediana del grupo de referencia. Puede utilizarse la distancia euclidea para determinar las medianas más cercanas a la mediana del grupo de entrada. En otra realización, en la etapa de desempate se selecciona el grupo de referencia candidato que contenga mayor porcentaje de eventos del grupo de entrada dentro de sus curvas de desviación. Como resultado de la etapa de desempate, se selecciona un grupo de referencia candidato final. En esta realización, independientemente del criterio utilizado (mediana y/o porcentaje de eventos), se utilizan las representaciones bidimensionales de dichos grupos de referencia candidatos junto con el grupo de entrada para seleccionar un único grupo de referencia candidato final según la cercanía de la mediana y/o el porcentaje de eventos antes descrito, contabilizando en cada una de las representaciones qué grupo de referencia tiene la mediana más cercana a la mediana del grupo de entrada o tiene mayor número de eventos del grupo de entrada dentro de sus curvas de desviación en un mayor número de comparativas. El grupo de referencia candidato que tenga la mediana más cercana a la mediana del grupo de entrada o tenga más eventos del grupo de entrada contenidos en sus curvas de desviación en un mayor número de comparativas se selecciona como el grupo de referencia candidato final. Cuando se emplea como criterio la cercanía de la mediana del grupo de referencia a la mediana del grupo de entrada, se puede emplear la mediana más cercana del grupo de referencia o la media de las medianas de los casos incluidos en el grupo de referencia. 4) Posteriormente, se realiza una comparación entre el grupo de entrada y el grupo de referencia candidato final seleccionado (si existiese). La comparación se realiza también en una representación bidimensional basada en el Análisis de Correlación Canónica, utilizando la mediana del grupo de entrada y las curvas de desviación del grupo de referencia de la base de datos (5) y/o utilizando un porcentaje predeterminado de eventos del grupo de entrada y las curvas de desviación del grupo de referencia de la base de datos. En el caso de utilizar el criterio de clasificación basado en la mediana del grupo de entrada, si la mediana del grupo de entrada queda dentro de la curva de desviación del grupo de referencia se entenderá que son el mismo grupo y se clasificará como tal. En la figura 8(c) se muestra la comparativa final frente al grupo de referencia candidato seleccionado, correspondiente a la población de Neutrófilos. En el caso de usar el criterio de clasificación basado en el porcentaje predeterminado de eventos del grupo de entrada, se entenderá que el grupo de entrada corresponde con el grupo de referencia si el porcentaje de eventos del grupo de entrada contenido en la curva de desviación del grupo de referencia es igual o mayor a dicho porcentaje predeterminado.
En una realización, cuando se identifica más de un grupo de referencia candidato, la etapa de desempate se realiza a través de una comparación individual en una representación bidimensional basada en el Análisis de Correlación Canónica entre cada grupo de referencia candidato y el grupo de entrada y se selecciona aquel grupo de referencia candidato que conteniendo la mediana del grupo de entrada dentro de sus curvas de desviación, presente más cercanía entre la mediana del grupo de entrada y la mediana del grupo de referencia más cercana a la mediana del grupo de entrada. Otra opción es seleccionar aquel grupo de referencia que presente un mayor porcentaje de eventos del grupo de entrada dentro de sus curvas de desviación.
En una realización si existen dos o más grupos de referencia candidatos el método identifica la población como no conocida sin hacer desempate ni comparación 1 a 1 o bien identifica la población como correspondiente a dichos grupos de referencia candidatos pero sin especificar a cuál de ellos.
En una realización no se realiza una fase de selección de grupos de referencia candidatos, sino que se compara el grupo de entrada de manera individual con cada uno de los grupos de referencia de la base de datos usando representaciones bidimensionales basadas en el Análisis de Correlación Canónica y se selecciona aquel grupo de referencia que, conteniendo la mediana del grupo de entrada dentro de sus curvas de desviación, presente más cercanía entre la mediana del grupo de entrada y la mediana del grupo de referencia más cercana a la mediana del grupo de entrada. En otra realización, se selecciona aquel grupo de referencia que presente un mayor porcentaje de eventos del grupo de entrada dentro de sus curvas de desviación.
Aunque en los ejemplos anteriores se ha empleado un algoritmo basado en Análisis de Correlación Canónica (CCA), se pueden utilizar otros tipos de algoritmos para representar bidimensionalmente los grupos, como los basados en PCA, así como añadir funciones que mejoren la velocidad, los desempates o la clasificación. Además, como se ha descrito, el criterio para seleccionar grupos de referencia como grupos de referencia candidatos puede ser por la posición de la mediana del grupo de entrada con respecto a las curvas de desviación de los grupos de referencia y/o por el porcentaje de eventos del grupo de entrada que caen dentro de las curvas de desviación de los grupos de referencia.
En la figura 9 se muestra una comparación de los eventos del grupo de la muestra objeto de estudio (representados como puntos grises e identificados como Gmuestra) fusionados a los eventos del grupo de referencia (representados como puntos negros e identificados como G f Se representa además la curva de desviación del grupo de referencia. Como el grupo objeto de estudio está dentro de la curva de desviación del grupo de referencia se considera que pertenecen a la misma población.
Además de esta clasificación fenotípica, según la expresión de las poblaciones en los diferentes parámetros que forman la muestra, en una realización existe una etapa adicional en la que se comprueban otros datos, tales como son el porcentaje de eventos de una población con respecto a otras poblaciones o cualquier otro tipo de estadística que se puede inferir de los grupos de referencia de la base de datos (5). Para ello, en una realización, el método comprende adicionalmente comprobar el cumplimiento de una o varias reglas definidas previamente sobre los grupos de referencia de la base de datos (5), con el objetivo de comparar parámetros estadísticos que no se han tenido en cuenta previamente, como puede ser el porcentaje de eventos de un determinado grupo en la muestra, un ratio entre dos grupos o cualquier otro dato estadístico que se pueda inferir de los datos almacenados en la base de datos (5). De manera preferida, estas reglas pueden ser modificadas, añadidas o actualizadas a lo largo del tiempo.
Es ventajoso implementar estas reglas porque muchas veces las aberraciones no vienen de la expresión de los propios parámetros, sino de datos estadísticos asociados a los grupos. Por ejemplo, al comparar los grupos de la muestra con los grupos de la base de datos (5) es posible que todos tengan una expresión normal en los parámetros, pero eso no significa que no haya ninguna aberración. Puede ocurrir que la aberración sea que esos eventos se encuentran en la muestra con una frecuencia anómala. Por ello en una realización la base de datos (5) incluye reglas mediante las que se comprueba al menos un parámetro estadístico de los grupos identificados, tomando como valores normales los rangos de normalidad obtenidos de los grupos de referencia de la base de datos (5) y como valores anómalos los valores que quedan fuera de dichos rangos.
En una realización estas reglas pueden utilizarse para generar un aviso según su cumplimiento y/o pueden utilizarse como un parámetro de discriminación para clasificar un grupo como una determinada población de la base de datos (5). Esto es, si se identifica que un grupo de entrada corresponde a una población A pero tiene un porcentaje de eventos fuera de lo normal, utilizando como parámetro de discriminación el porcentaje de eventos en la población se puede concluir que el grupo corresponde a una población B, siendo la población B igual que la A pero con diferentes porcentajes de eventos.
Como resultado final del método, se obtienen una serie de poblaciones clasificadas por comparación con poblaciones conocidas previamente definidas en la base de datos (5). Además, si el método incluye una etapa de comprobación del cumplimiento de al menos una regla predefinida, el resultado puede incluir uno o varios avisos, si se ha dado el caso de que alguna de las reglas predefinidas no se cumpla para alguna de las poblaciones clasificadas. El grado de exactitud a la hora de clasificar los grupos de la muestra en poblaciones depende de la fiabilidad de los grupos de referencia definidos en la base de datos (5). Adicionalmente, los grupos de la muestra pueden utilizarse para re-alimentar la base de datos (5) para adherirse y aumentar las poblaciones (grupos de referencia) ya existentes, de forma que se amplíe el conocimiento de la base de datos (5) inicial introduciendo nuevos grupos de referencia y aumentado la información sobre los ya existentes. Puede ocurrir que algún grupo de la muestra no pueda ser clasificado, si no corresponde a ninguno de los grupos de referencia de la base de datos (5).
Una vez que los eventos han sido agrupados y clasificados en poblaciones, es posible construir representaciones gráficas, que ayudarán a la visualización de los resultados del análisis por el ojo humano. El resumen de las poblaciones identificadas y no identificadas puede mostrarse, por ejemplo, en un gráfico tipo sectorial construido en diferentes niveles y mediante el uso de un código de colores. Este ejemplo permite visualizar el número y porcentaje de representatividad sobre la muestra global de cada una de las poblaciones. Además, usando sistemas de alarma visuales (colores, caracteres especiales, etc.) es posible focalizar la atención del usuario sobre aquellas poblaciones que quedan definidas fuera de los límites de normalidad definidos por las bases de datos, y que van a ser en última instancia las que requerirán un análisis posterior.
Ejemplo:
El ejemplo descrito a continuación demuestra la capacidad del método de la invención para la clasificación automática de los distintos tipos celulares presentes en una muestra de sangre periférica analizada por citometría de flujo. La muestra de sangre fue lisada con una solución lisante para eliminar los eritrocitos. Se entenderá que la utilización de este ejemplo en citometría de flujo no limita la aplicación de la invención en otros campos de la biología celular, genómica, proteómica, metabolómica u otros.
Para una mejor comprensión se describe a continuación el proceso completo de un ensayo. El ensayo comienza con el marcaje de una muestra de sangre periférica objeto de estudio con la combinación de marcadores celulares conjugados con fluorocromos que se estudian simultáneamente en cada célula para la evaluación de poblaciones linfocitarias. En este ejemplo se utilizó la combinación LST descrita en el documento WO2010140885A1 y definida en la siguiente tabla:
Figure imgf000020_0001
En este caso los diferentes niveles de expresión de los marcadores y la presencia o no de los mismos definen las diferentes poblaciones y sub-poblaciones celulares que componen la muestra.
Una vez procesadas, las muestras son analizadas en el citómetro de flujo (ej. FACSCanto II, BDB Biosciences, San Jose, CA, USA), de tal forma que cada célula pasa individualmente y es expuesta a un haz de luz de laser que permite obtener información sobre las propiedades físicas de cada evento de la muestra y sobre las medidas de fluorescencia que indican los niveles de expresión de los marcadores. La información es proporcionada posteriormente en un formato de datos estándar para citometría FCS (flow cytometry standard).
En el formato FCS cada combinación de eventos y parámetros asociados viene representada por una matriz donde los eventos se guardan en filas y los parámetros (10 en este caso) en las columnas. Estos datos en este formato son procesados en la fase de agrupación automática, que proporciona como resultado una serie de grupos de eventos que representan una serie de poblaciones celulares respectivas, aún sin clasificar. En este ejemplo el número de eventos vecinos utilizado es Kaf = K = 10 y el umbral mínimo de afinidad es 0,5. En esta realización la densidad se ha calculado en función de la distancia de cada evento a los Kden = K eventos vecinos. En este ejemplo la afinidad entre grupos se ha calculado mediante las expresiones matemáticas (Ec. 4) a (Ec. 6), con el parámetro a calculado para cada grupo según la expresión (Ec. 3a).
Posteriormente esos grupos de eventos pasan por la fase de clasificación automática, en la que se comparan frente a los grupos de referencia incluidos en la base de datos (5). En este ejemplo se utiliza una base de datos (5) previamente construida a través del análisis de un número elevado de muestras de sangre periférica normal marcada con la misma combinación de marcadores siguiendo el mismo procedimiento. En el análisis previo de dichas muestras, se identificaron a través de un análisis experto las siguientes poblaciones principales: Linfocitos T CD4+CD8-, Linfocitos T CD8+CD4-, Linfocitos T CD4-CD8- TCRgd+, Linfocitos T CD4-CD8- TCRgd-, Linfocitos B Kappa, Linfocitos B Lambda, Linfocitos NK, Células plasmáticas, Eosinófilos, Monocitos, Neutrófilos, Células dendríticas y Basófilos. También se identificaron debrises (es decir, eventos no válidos) y dobletes (es decir, dos células unidas) de cada población. Con los valores de los parámetros medidos y conocidos para dicho tipo de muestra se creó una base de datos (5) de 10 dimensiones que define las diferentes poblaciones encontradas en las muestras analizadas con los parámetros que definen cada población en cada caso. El grado de precisión a la hora de clasificar los grupos dependerá de la cantidad y calidad de la información contenida en la base de datos (5) contra la que se va a comparar; cuanto más completa sea la base de datos (5), más precisa será la identificación de poblaciones en la muestra.
En este ejemplo, para la clasificación automática de los grupos de la muestra se empleó un algoritmo de reducción de dimensionalidad basado en análisis de correlación canónica (CCA), tal como se describe en relación con las expresiones matemáticas (Ec. 8) a (Ec. 11). Mediante las comparativas entre pares de grupos de referencia y cada grupo de la muestra a clasificar se identificaron los grupos de referencia candidatos para cada grupo de la muestra, como se ha descrito anteriormente. Posteriormente, se realizó una comparativa en representación dimensional basada en CCA entre cada grupo de la muestra y el grupo de referencia candidato seleccionado. En caso de que algún grupo de la muestra no coincida con ningún grupo de referencia incluido en la base de datos (5), se considera que dicho grupo corresponde a una población diferente y, por lo tanto, desconocida, no clasificable por la base de datos (5). Para la comparación con los grupos de referencia los parámetros medidos para los eventos de la muestra deben coincidir con los parámetros incluidos en la base de datos para los eventos de los grupos de referencia. En el caso de que existan parámetros relativos a los eventos de la muestra que no estén incluidos en la base de datos, estos parámetros no se tienen en cuenta al comparar con los grupos de referencia de la base de datos. De manera preferida, esos parámetros no se tienen en cuenta en ninguna etapa del método de la invención.
En este ejemplo se identificaron con el método de la invención las siguientes poblaciones normales en la muestra analizada: Linfocitos T CD4+CD8-, Linfocitos T CD8+CD4-, Linfocitos T CD4-CD8- TCRgd+, Linfocitos T CD4-CD8+ TCRgd-, Linfocitos B Kappa, Linfocitos B Lambda, Linfocitos NK, Células plasmáticas, Eosinófilos, Monocitos, Neutrófilos, Células dendríticas y Basófilos. También se identificaron debrises (eventos no válidos) y dobletes de cada población. Además, resultaron no clasificados una serie de grupos al no tener correspondencia con ninguna población de la base de datos (5).
En la figura 10 se muestra una representación de algunos de los grupos de la muestra identificados.
G1: Linfocitos T CD4+CD8-G2: Linfocitos T CD8+CD4-,
G3: Eosinófilos
G4: Neutrófilos
G5: Monocitos
G6: Células dendríticas
G7: Linfocitos B Lambda
G8: Linfocitos B Kappa
G9: Población no normal sin correspondencia con ningún grupo de referencia de la base de datos (5).
A partir de los resultados obtenidos del método de clasificación pueden obtenerse conclusiones sobre la composición de la muestra analizada, teniendo en cuenta los siguientes criterios:
• Si mediante la comparación de la muestra a analizar con la base de datos (5) se pueden identificar con alto porcentaje de certeza todos los grupos de la muestra como poblaciones normales de la base de datos (5), se puede concluir que se trata de una muestra normal.
• Si mediante la comparación con la base de datos (5) se puede identificar con alto porcentaje de certeza algún grupo de la muestra como poblaciones desconocidas de la base de datos (5), se puede concluir que se trata de una muestra en la que existen poblaciones aberrantes porque presentan una ausencia de expresión de un marcador considerado normal para una población o presentan una expresión de un marcador considerado no normal para una población o presentan un dato estadístico considerado no normal para una población (por ejemplo, un marcador normal en un porcentaje anómalo respecto a otras poblaciones) y sería necesario realizar más pruebas, por ejemplo por parte de expertos. En el caso concreto del ejemplo la población G9 aberrante se identificó como una patología conocida como Linfoma difuso de célula grande CD10 positiva, que expresa el marcador CD10, considerado no normal.
Finalmente, una vez formados y clasificados los grupos de la muestra objeto del análisis, las representaciones gráficas de los grupos de la muestra sobre la base de datos (5) dinámica permiten la visualización de las poblaciones identificadas y no identificadas y conocer el grado de variación de cada uno de los parámetros que definen las poblaciones. Al emplear en este caso una base de datos (5) dinámica es posible retroalimentar la base de datos (5) inicial con las poblaciones resultantes de la clasificación, facilitando la identificación de dichas poblaciones en análisis posteriores.
En la figura 11 se muestra un ejemplo de realización del sistema (9) para clasificar datos digitales (4) multidimensionales relativos a eventos de una muestra (1). En este ejemplo, el sistema (9) comprende los elementos dentro del círculo punteado, en particular:
- un módulo de procesamiento (12), en este caso un ordenador con teclado y ratón.
- un módulo de representación (13), en este caso una pantalla.
- un módulo de análisis y adquisición (14), en este caso hardware y/o software.
Como se puede observar en la figura 11, el módulo de adquisición (14) detecta eventos de la muestra (1) a estudiar y obtiene los parámetros (4) asociados a dichos eventos. Posteriormente, el módulo de procesamiento (12) recibe los parámetros (4) y ejecuta el método de la invención clasificando dichos parámetros (4), y en consecuencia, clasificando dichos eventos. En una última etapa el sistema (9) muestra a través de la pantalla (13) la clasificación obtenida empleando el método de la invención.

Claims (15)

REIVINDICACIONES
1. - Un método implementado por ordenador para agrupar en grupos eventos presentes en una muestra (1), tal como una muestra biológica y/o una mezcla de partículas no biológicas funcionalizadas, y para clasificar dichos grupos, en donde cada evento es un elemento detectado por medio de hardware (2) y/o software (3), como partículas, preferiblemente células, orgánulos, vesículas, virus y/o esferas, cada evento estando caracterizado por un conjunto multidimensional de parámetros (4) obtenidos mediante dicho hardware (2) y/o software (3), en donde los valores de los parámetros (4) asociados a cada evento definen las coordenadas de posición de dicho evento en un espacio multidimensional, comprendiendo el método las siguientes etapas:
a) agrupar los eventos en grupos, comprendiendo:
a1) determinar la densidad de cada evento, y
a2) conectar cada evento con su evento vecino más cercano que sea más denso que él, de entre los K eventos vecinos más cercanos a dicho evento en el espacio multidimensional, siendo K un número natural predefinido, de manera que los eventos conectados entre sí forman un grupo, y en donde en caso de no encontrar un evento más denso dentro de los K eventos vecinos más cercanos, se forma un grupo con los eventos que se han ido conectando y se continúa llevando a cabo la etapa a2) con otro evento para empezar a formar un nuevo grupo;
b) comprobar si dentro de cada grupo formado existe alguna conexión entre eventos que supere un umbral de distancia máxima, estando dicho umbral de distancia máxima establecido en base a las conexiones entre eventos del propio grupo y, en caso de que alguna conexión entre eventos supere dicho umbral de distancia máxima, desconectar esos eventos, generando dos subgrupos por cada par de eventos que se desconectan;
c) calcular la afinidad entre cada par de grupos de la muestra resultantes de la etapa anterior, en donde la afinidad entre dos grupos de la muestra se calcula en base al número de pares de eventos vecinos que verifican que:
(i) uno de los eventos del par de eventos vecinos es uno de los Kaf eventos vecinos más cercanos al otro evento del par de eventos vecinos y
(ii) en los que uno de los eventos del par de eventos vecinos forma parte de uno de dichos dos grupos y el otro evento del par de eventos vecinos forma parte del otro de dichos dos grupos, y en base a las distancias entre dichos eventos, siendo Kaf un número natural predefinido; y unir los dos grupos de la muestra cuando la afinidad entre dichos grupos supere un umbral mínimo de afinidad preestablecido;
d) comparar cada grupo de la muestra con al menos un grupo de referencia almacenado en al menos una base de datos (5) para identificar automáticamente la población presente en la muestra, en donde cada grupo de referencia corresponde a una población específica, en donde la comparación comprende:
reducir la dimensionalidad de los datos del grupo de la muestra junto con los datos del grupo de referencia hasta obtener una representación bidimensional de ambos grupos, y
determinar para cada representación bidimensional las medianas y las curvas de desviación de los grupos de referencia; y
e) clasificar los grupos de la muestra en base a las comparaciones con los grupos de referencia, empleando como criterio de clasificación la pertenencia de la mediana del grupo de la muestra y/o la pertenencia de un porcentaje mínimo de eventos del grupo de la muestra a las curvas de desviación de los grupos de referencia de la base de datos (5).
2. - El método según la reivindicación 1, en el que en la etapa a) la densidad de cada evento se determina a partir de la distancia media de dicho evento a los Kden eventos vecinos más cercanos a dicho evento, o a partir de la suma de las distancias de dicho evento a los Kden eventos vecinos más cercanos a dicho evento, siendo Kden un número natural predefinido, siendo preferentemente Kden = K, o como el número de eventos que se encuentran a una distancia de dicho evento menor o igual que una distancia especificada.
3. - El método según cualquiera de las reivindicaciones precedentes, en el que en la etapa b) el umbral de distancia máxima entre dos eventos de un grupo está establecido en función de un modelo de regresión logarítmico estimado para las distancias entre eventos conectados de dicho grupo;
en donde la etapa b) comprende:
obtener un modelo de regresión logarítmico para distancias entre eventos conectados a lo largo de un grafo de unión de un grupo;
añadir el valor absoluto de las diferencias entre valores de distancia reales y valores de distancia obtenidos del modelo de regresión logarítmico para cada una de las conexiones entre los eventos de dicho grafo de unión; y calcular la media de dichos valores absolutos;
en donde el umbral de distancia máxima entre dos eventos se establece como un valor Y veces la media calculada de las diferencias de valor absoluto entre el valor del modelo de regresión logarítmico y el valor de distancia real, siendo Y un número real positivo.
4. - El método según cualquiera de las reivindicaciones precedentes, en el que en la etapa c) la afinidad entre dos grupos se calcula asignando un peso determinado por una función Exponencial Negativa a cada par de eventos vecinos en los que uno de los eventos del par de eventos vecinos forma parte de uno de dichos dos grupos y el otro evento del par de eventos vecinos forma parte del otro de dichos dos grupos;
en donde la función exponencial negativa es
Figure imgf000024_0001
donde ||x¿ — x ;.|| es la distancia entre los eventos y a es un parámetro configurable.
5. - El método según cualquiera de las reivindicaciones precedentes, en el que en la etapa d) cada grupo de la muestra se compara simultáneamente con pares de grupos de referencia de la base de datos (5), en donde para cada grupo de la muestra se realizan tantas comparativas como combinaciones de dos grupos de referencia haya en la base de datos (5) y en el que se realiza una comparación final entre el grupo de la muestra y un grupo de referencia candidato, siendo el grupo de referencia candidato el grupo de referencia de la base de datos (5) que contiene la mediana del grupo de la muestra y/o un porcentaje mínimo de eventos del grupo de la muestra dentro de sus curvas de desviación en un mayor número de comparativas.
6. - El método según la reivindicación 5 , en el que en caso de haber más de un grupo de referencia candidato, se selecciona para la clasificación el grupo de referencia que tenga más medianas cercanas a la mediana del grupo de la muestra.
7. - El método según cualquiera de las reivindicaciones precedentes, en el que en la etapa d) la reducción de dimensionalidad se realiza mediante Análisis de Componentes Principales o mediante Análisis de Correlación Canónica.
8. - El método según cualquiera de las reivindicaciones precedentes, en el que los eventos son partículas, preferentemente células, orgánulos, vesículas, virus y/o esferas.
9. - El método según cualquiera de las reivindicaciones precedentes, en el que K=Kf.
10. - El método según cualquiera de las reivindicaciones precedentes, que comprende adicionalmente evaluar el cumplimiento de al menos una regla predefinida, en donde dicha regla está basada en al menos un parámetro estadístico cuyo valor de referencia está inferido de los grupos de referencia de la base de datos (5).
11. - El método según la reivindicación 10, en el que la evaluación del cumplimiento de dicha al menos una regla se emplea como un criterio adicional en la clasificación de los grupos de la muestra.
12. - El método según cualquiera de las reivindicaciones precedentes, en el que la muestra (1) es:
una muestra biológica, preferentemente seleccionada del grupo que consiste en tejido, biofluido, alimento, bebida, cultivo celular y mezclas de los mismos, y/o
una mezcla de partículas no biológicas funcionalizadas.
13. - Un sistema (9) para agrupar en grupos eventos presentes en una muestra, tal como una muestra biológica y/o una mezcla de partículas no biológicas funcionalizadas, y para clasificar dichos grupos, en donde cada evento es un elemento detectado por medio de hardware (2) y/o software (3), como partículas, preferiblemente células, orgánulos, vesículas, virus y/o esferas, cada evento estando caracterizado por un conjunto multidimensional de parámetros (4), comprendiendo el sistema al menos un módulo de procesamiento (12), configurado para recibir los parámetros (4) que caracterizan los eventos de la muestra (1) y para llevar a cabo un método según cualquiera de las reivindicaciones 1 a 12.
14. - El sistema (9) según la reivindicación 13, que comprende adicionalmente al menos un módulo de representación (13) configurado para representar los resultados de la clasificación.
15. - Un programa de ordenador que comprende instrucciones adaptadas para llevar a cabo un método según cualquiera de las reivindicaciones 1 a 12 cuando son ejecutadas en un ordenador.
ES16382649T 2016-12-23 2016-12-23 Método de clasificación de información digital Active ES2867860T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP16382649.8A EP3340107B9 (en) 2016-12-23 2016-12-23 Method of digital information classification

Publications (1)

Publication Number Publication Date
ES2867860T3 true ES2867860T3 (es) 2021-10-21

Family

ID=58056946

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16382649T Active ES2867860T3 (es) 2016-12-23 2016-12-23 Método de clasificación de información digital

Country Status (3)

Country Link
US (1) US10133962B2 (es)
EP (1) EP3340107B9 (es)
ES (1) ES2867860T3 (es)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10447526B2 (en) * 2016-11-02 2019-10-15 Servicenow, Inc. Network event grouping
WO2019187905A1 (ja) * 2018-03-26 2019-10-03 アルプスアルパイン株式会社 位置推定装置、位置推定システム、位置推定方法、およびプログラム
EP3871183B1 (en) 2018-10-23 2024-10-09 F. Hoffmann-La Roche AG Distance-based tissue state determination
US20200200671A1 (en) * 2018-12-20 2020-06-25 Sony Corporation Information processing apparatus, information processing method, and program
CN111427875B (zh) * 2020-03-19 2023-09-12 广东蔚海数问大数据科技有限公司 一种数据质量检测的抽样方法、系统及存储介质
WO2023094625A1 (fr) * 2021-11-25 2023-06-01 Metafora Biosystems Procede d'analyse cytometrique

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043500B2 (en) * 2001-04-25 2006-05-09 Board Of Regents, The University Of Texas Syxtem Subtractive clustering for use in analysis of data
US20030065632A1 (en) * 2001-05-30 2003-04-03 Haci-Murat Hubey Scalable, parallelizable, fuzzy logic, boolean algebra, and multiplicative neural network based classifier, datamining, association rule finder and visualization software tool
US7975035B2 (en) * 2003-12-01 2011-07-05 International Business Machines Corporation Method and apparatus to support application and network awareness of collaborative applications using multi-attribute clustering
US8630833B2 (en) * 2005-02-18 2014-01-14 Hematologics, Inc. System, method, and article for detecting abnormal cells using multi-dimensional analysis
US7299135B2 (en) 2005-11-10 2007-11-20 Idexx Laboratories, Inc. Methods for identifying discrete populations (e.g., clusters) of data within a flow cytometer multi-dimensional data set
EP2259065A1 (en) 2009-06-03 2010-12-08 Erasmus University Medical Center Rotterdam Methods, reagents and kits for flow cytometric immunophenotyping
US9165052B2 (en) * 2009-11-24 2015-10-20 Zymeworks Inc. Density based clustering for multidimensional data
US10289802B2 (en) 2010-12-27 2019-05-14 The Board Of Trustees Of The Leland Stanford Junior University Spanning-tree progression analysis of density-normalized events (SPADE)
US8990047B2 (en) 2011-03-21 2015-03-24 Becton, Dickinson And Company Neighborhood thresholding in mixed model density gating
US9311899B2 (en) * 2012-10-12 2016-04-12 International Business Machines Corporation Detecting and describing visible features on a visualization
US9589045B2 (en) * 2014-04-08 2017-03-07 International Business Machines Corporation Distributed clustering with outlier detection
SG10201507049XA (en) * 2014-09-10 2016-04-28 Agency Science Tech & Res Method and system for automatically assigning class labels to objects
US20160328654A1 (en) * 2015-05-04 2016-11-10 Agt International Gmbh Anomaly detection for context-dependent data
JP6455310B2 (ja) * 2015-05-18 2019-01-23 本田技研工業株式会社 動作推定装置、ロボット、及び動作推定方法
JP6590606B2 (ja) * 2015-09-11 2019-10-16 キヤノン株式会社 画像処理装置、画像処理方法、プログラム
US10257211B2 (en) * 2016-05-20 2019-04-09 Informatica Llc Method, apparatus, and computer-readable medium for detecting anomalous user behavior
US20170371886A1 (en) * 2016-06-22 2017-12-28 Agency For Science, Technology And Research Methods for identifying clusters in a dataset, methods of analyzing cytometry data with the aid of a computer and methods of detecting cell sub-populations in a plurality of cells

Also Published As

Publication number Publication date
EP3340107A1 (en) 2018-06-27
EP3340107B1 (en) 2021-02-24
US10133962B2 (en) 2018-11-20
EP3340107B9 (en) 2021-07-21
US20180181835A1 (en) 2018-06-28

Similar Documents

Publication Publication Date Title
ES2867860T3 (es) Método de clasificación de información digital
US7299135B2 (en) Methods for identifying discrete populations (e.g., clusters) of data within a flow cytometer multi-dimensional data set
Zare et al. Data reduction for spectral clustering to analyze high throughput flow cytometry data
US9880155B2 (en) System, method, and article for detecting abnormal cells using multi-dimensional analysis
CN101981446B (zh) 用于使用支持向量机分析流式细胞术数据的方法和系统
US12461105B2 (en) System, method, and article for detecting abnormal cells using multi-dimensional analysis
US20100014741A1 (en) Methods and apparatus related to gate boundaries within a data space
US9183237B2 (en) Methods and apparatus related to gate boundaries within a data space
Zhao et al. Object type recognition for automated analysis of protein subcellular location
CN112424582A (zh) 血液样本检测的方法、血液样本检测仪和存储介质
Johnsson Structures in high-dimensional data: Intrinsic dimension and cluster analysis
CN119069004A (zh) 髓母细胞瘤的免疫微环境差异检测并分型方法及系统
EP3230887A1 (en) Automated flow cytometry analysis method and system
KR101913952B1 (ko) V-CNN 접근을 통한 iPSC 집락 자동 인식 방법
WO2023033056A1 (ja) 細胞集団同定システム、方法、およびプログラム
Bashashati et al. A pipeline for automated analysis of flow cytometry data: preliminary results on lymphoma sub-type diagnosis
Xin et al. Sample demultiplexing, multiplet detection, experiment planning and novel cell type verification in single cell sequencing
CN103776751A (zh) 用于粒子检测仪中散点图的粒子分类方法
WO2024185887A1 (ja) 細胞集団を特定するためのシステム、方法、およびプログラム
Chen Evaluating the performance of between-sample heterogeneity identification algorithms in large-scale flow cytometry data analysis
Shooshtari Computational techniques for flow cytometry: the application for automated analysis of innate immune response flow cytometry data.
Liu Friedman-Rafsky Test for cross-sample comparison in flow cytometry analysis
WO2025017300A1 (en) Apparatus and method
Alves et al. Iterative optimization algorithm-An alternative clustering tool for biological analysis using flow cytometry data
Sachs et al. Big data comes in tiny packages: single-cell driven science and health