ES2657378B2

ES2657378B2 - Procedimiento para la deteccion y localizacion de humanos en imagenes adquiridas por camaras omnidireccionales

Info

Publication number: ES2657378B2
Application number: ES201730478A
Authority: ES
Inventors: Del Blanco Adan Carlos Roberto; Lopez Pablo Carballeira; Nunez Fernando Jaureguizar; Santos Narciso Garcia; De Lucas Lorena Garcia
Original assignee: Universidad Politecnica de Madrid
Current assignee: Universidad Politecnica de Madrid
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2019-02-07
Anticipated expiration: 2037-03-30
Also published as: ES2657378A1

Description

DESCRIPCIÓN

PROCEDIMIENTO PARA LA DETECCIÓN Y LOCALIZACIÓN DE HUMANOS

EN IMÁGENES ADQUIRIDAS POR CÁMARAS OMNIDIRECCIONALES

SECTOR TÉCNICO

La presente invención se engloba en el sector de las Tecnologías de la información y las comunicaciones y tiene aplicaciones en los sectores industriales de seguridad (video-vigilancia, defensa), transporte (gestión de flujos de personas), sanidad (monitorización de pacientes), deporte y ocio (análisis de comportamientos, interacción hombre-máquina). Y más en concreto en la detección y localización de humanos en situaciones complejas en entornos no controlados usando cámaras omnidireccionales para cubrir amplias regiones de una escena real tridimensional.

ANTECEDENTES DE LA INVENCIÓN

La detección de humanos en una escena adquirida por una cámara convencional (o de perspectiva) es una tarea compleja debido a la gran variabilidad de la apariencia humana, la cual cambia drásticamente según la vestimenta, pose, condiciones de iluminación y punto de perspectiva de la cámara. Sin embargo es una tecnología muy deseable por su carácter no intrusivo y no colaborativo por parte de la persona a ser detectada, a diferencia de otras técnicas biométricas como reconocimiento de iris, huellas dactilares, etc.

El uso de cámaras omnidireccionales en el sistema de detección, en vez de convencionales o de perspectiva, entraña dificultadas adicionales debido a las graves distorsiones geométricas que introduce la óptica omnidireccional de la cámara. No obstante, tiene la notable ventaja de que es capaz de adquirir una mayor extensión de la escena real, reduciendo el número de cámaras necesarias (y el subyacente coste, mantenimiento, instalación y configuración) para monitorizar una escena de interés.

En general existen dos familias de métodos para la detección de humanos en imágenes adquiridas por cámaras dentro del campo de la visión artificial: los basados en detección por partes y aquellos basados en el concepto de ventana deslizante.

Los métodos de detección basados por partes tratan de encontrar partes de un humano en una imagen, generando una detección final si alguna o todas las partes configuran una disposición geométricamente plausible.

Los métodos de detección basados en el concepto de ventana deslizante detectan directamente a un humano en una cierta región de una imagen limitada por una ventana rectangular. Para detectar humanos en posiciones arbitrarias de una imagen, se desliza dicha ventana sobre toda la imagen, repitiéndose el proceso para ventanas con distintas escalas y proporciones con el objetivo de adaptarse a múltiples poses y tamaños de un humano en escena.

En la patente US 20140169664, se describe un aparato y un procedimiento orientado a la detección de personas en imágenes que adopta el esquema de ventana deslizante, usando como descriptores de regiones Patrones Locales Binarios y una combinación de los métodos de Máquinas Vectores Soporte y Adaboost para la tarea de clasificación.

Similarmente, la patente US 9008365 propone varios sistemas y métodos de detección de personas que utilizan como descriptores variaciones de los Patrones Locales Binarios que son procesados por Máquinas Vectores Soporte para la tarea de clasificación.

DESCRIPCIÓN DE LA INVENCIÓN

La invención referida en este documento describe un nuevo procedimiento de detección de personas que no pertenece a ninguna familia de los métodos anteriores, que además puede operar sobre imágenes adquiridas con cámaras omnidireccionales, a diferencia de los otros métodos. Este procedimiento tiene una mayor capacidad de detección que otros métodos, especialmente en situaciones complicadas (oclusiones, personas parcialmente fuera del marco imagen, apariencias distorsionadas por ópticas omnidireccionales), con un menor coste computacional y una menor complejidad en la instalación y configuración del sistema de detección.

El procedimiento para la detección y localización de humanos en secuencias de imágenes adquiridas por cámaras omnidireccionales de la presente invención comprende los siguientes sub-procedimientos:

a. Sub-procedimiento A para la detección y localización de humanos sobre imágenes adquiridas por una cámara estática omnidireccional, el cual está configurado para la detección y localización de humanos en un entorno/escena específico; y,

b. Sub-procedimiento B de configuración de parámetros para la detección y localización en imágenes de humanos en un entorno/escena específico.

El sub-procedimiento A comprende las siguientes etapas:

a. Etapa A.1: adquisición de imágenes con una cámara omnidireccional en posición estática;

b. Etapa A.2: extracción de un único super-vector de características por cada una de las imágenes adquiridas;

c. Etapa A.3: distribución del super-vector de características asociado a cada una de las imágenes a un conjunto de M clasificadores foveales;

d. Etapa A.4: predicción binaria por cada uno de los M clasificadores foveales en las categorías "humano presente en la fóvea del clasificador” y su complementario "humano no presente en la fóvea del clasificador”;

e. Etapa A.5: localización aproximada en la imagen de los humanos detectados; y,

f. Etapa A.6: localización precisa en la imagen de los humanos detectados.

La etapa A.2 comprende tres sub-etapas:

a. Sub-etapa A.2.1: división de la imagen en bloques de NxN píxeles, los cuales pueden estar solapados o no;

b. Sub-etapa A.2.2: extracción de un vector de características por cada bloque de NxN píxeles referido en la sub-etapa anterior; donde el algoritmo de extracción de características está seleccionado entre: Histogramas de Gradientes Orientados, Patrones Binarios Locales, Transformada de Características Invariantes a Escala, y Características Haar.

c. Sub-etapa A.2.3: concatenación de los vectores de características de cada bloque de la imagen en un único supervector de características que representa a toda la imagen.

Los Histogramas de Gradientes Orientados representan la estructura de objeto por medio de histogramas de gradientes, donde cada histograma se construye a partir de regiones distintas del objeto, de tal forma que la fase del gradiente de un píxel de una región determina a qué intervalo del histograma contribuye y el la magnitud del gradiente especifica en qué cantidad. Los Patrones Binarios Locales codifican la estructura de un objeto mediante un histograma de patrones locales. Cada patrón local se calcula mediante las diferencias en intensidad de cada pixel con su vecindad, las cuales se umbralizan por la función signo dando lugar a una palabra código binaria que se convierte a un número decimal que determina la contribución en el histograma. La Transformada de Características Invariantes a Escala se basa en los Histogramas de Gradientes Orientados pero añade una etapa inicial de procesado multi-escala y además solo calcula un histograma de gradientes que representa todo el objeto sin considerar sub-partes. Por último, las características Haar es un tipo de transformada Wavelet muy eficiente desde el punto de vista computacional que construye una representación dispersa del objeto.

La etapa A.4, que consta de un conjunto de M clasificadores foveales, cada uno de los cuales tiene asociado una fóvea y una referencia puntual sobre el plano imagen. La fóvea es una cierta región de la imagen en la que se centra la detección de humanos para un clasificador dado y cuya área y morfología es inferida por el Sub-procedimiento B, y que por tanto está automáticamente adaptada al entorno/escena. La referencia puntual es un par de coordenadas del plano imagen que representan la fóvea de un clasificador. El conjunto de referencias puntuales de los M clasificadores foveales forman una rejilla/malla espacial bidimensional que cubre el área de la imagen adquirida por la cámara.

Dicha rejilla/maNa espacial es configurable mediante diferentes patrones (hexagonal, rectangular, polar, etc.) y diferente número de clasificadores (por ejemplo, M=825). Cada clasificador foveal está entrenado/configurado para detectar humanos en su fóvea utilizando como entrada el super-vector de características de la imagen común a todos los clasificadores foveales. Las fóveas de los clasificadores pueden solaparse. El algoritmo de clasificación no está restringido, pudiendo usarse entre otros los siguientes clasificadores: Maquinas Vectores Soporte, Redes Neuronales, y Regresión Logística.

La etapa A.5 utiliza las referencias puntuales de los clasificadores foveales activos, es decir aquellos que han detectado un humano en sus fóveas, para determinar de forma aproximada la localización del humano en un área de la imagen.

La etapa A.6 que fusiona los resultados de detección de cada clasificador foveal activo para refinar la localización de los humanos y producir la detección final y única. Consta de tres sub-etapas:

a. Sub-etapa A.6.1: extracción de agrupaciones/vecindades de detecciones de acuerdo a la rejilla/malla que forman las referencias puntuales de los clasificadores foveales; Las agrupaciones/vecindades de detecciones deben superar un umbral mínimo para su consideración, ya que el área del humano sobre la imagen se solapa con múltiples fóveas de detectores foveales vecinos.

b. Sub-etapa A.6.2: supresión de no-máximos de las agrupaciones/vecindades extraídas, obteniéndose una única agrupación/vecindad por humano;

c. Sub-etapa A.6.3: localización precisa del humano sobre la imagen mediante la interpolación de las coordenadas de las referencias puntuales de los clasificadores foveales que forma parte de cada agrupación/vecindad obtenida en la etapa anterior;

de tal forma que se genera una única localización puntual por humano, que representa a su vez la detección final del mismo.

El sub-procedimiento B comprende las siguientes etapas:

a. Etapa B.1: creación de una base de datos de imágenes de una escena/entorno específico y que contiene instancias de humanos; donde las imágenes se adquieren con una cámara omnidireccional, la cual debe estar situada en la misma posición que la cámara utilizada en la detección;

b. Etapa B.2: anotación puntual de los humanos en la base de datos de imágenes. La anotación puntual consiste en la especificación de las coordenadas de un punto representativo del humano sobre la imagen. El punto representativo elegido debe ser consistente en todas las instancias del objeto anotadas (por ejemplo, la cabeza).

c. Etapa B.3: generación adaptativa de muestras positivas y negativas para cada clasificador foveal a partir de las anotaciones puntuales; Una anotación puntual genera una muestra positiva para un determinado clasificador foveal si la distancia entre las coordenadas de la anotación puntual y las coordenadas del punto de referencia del clasificador foveal es menor que un umbral. Si supera dicho umbral, se genera una muestra negativa para el clasificador implicado. Como resultado una misma anotación puntual generará un conjunto de muestras positivas para un subconjunto de clasificadores foveales y otro conjunto de muestras negativas para un subconjunto clasificadores foveales disjunto del anterior.

d. Etapa B.4: ajuste de los parámetros (entrenamiento en el argot de clasificadores) de cada clasificador foveal para la óptima detección de humanos usando las muestras positivas y negativas generadas.

El procedimiento de la presente invención no requiere información de la escena, más allá de las anotaciones puntuales en la base de datos, o calibración de la cámara.

El procedimiento de la presente invención puede extenderse a la localización y detección de objetos genéricos contenidos en imágenes adquiridas por cámaras omnidireccionales o perspectiva.

La invención anteriormente descrita tiene las siguientes ventajas y diferencias respecto del estado de la técnica.

La primera diferencia fundamental es que cada imagen se describe mediante un único vector de características global, en vez de extraerse numerosos vectores procedentes de cada desplazamiento de una ventana de detección (en el caso de los métodos basados en ventana deslizante), o bien de diferentes regiones de la imagen que conforman sub-partes del humano (en el caso de los métodos basados en partes). Esta diferencia tiene un gran impacto en la reducción del coste computacional, permitiendo la operación en tiempo real del sistema en arquitecturas hardware de bajo coste.

La segunda diferencia radical es que para detectar humanos en las escenas capturadas por la cámara en el método propuesto, se usa un conjunto de clasificadores independientes foveales que analizan un único vector de características correspondiente a toda la imagen. Cada clasificador foveal tiene asociado una fóvea (de la cual recibe su nombre) o área de atención en el plano de imagen que le permite detectar humanos con diferentes apariencias, poses, tamaños, localizaciones y con oclusiones arbitrarias. Esta característica es fundamental para los sistemas basados en cámaras omnidireccionales, en los cuales la apariencia de una persona cambia radicalmente en función de su posición sobre el plano imagen debido a la gran distorsión introducida por la óptica. Por otra parte, como cada clasificador foveal procesa el mismo vector de características correspondiente con toda la imagen, también tiene acceso a la información contextual de la escena. De esta forma cada clasificador no solo usa su fóvea para la detección de humanos, sino también el resto de áreas de la imagen, lo que le permite ser robusto a oclusiones parciales, y personas parcialmente fuera del área de la imagen. En cuanto al proceso de determinación de la fóvea de cada clasificador, este sigue un procedimiento automático basado en aprendizaje máquina (entrenamiento supervisado), de tal forma que el clasificador foveal aprende automáticamente el tamaño y forma de su fóvea a partir de una base de datos de anotaciones puntuales de humanos. Como resultado, cada clasificador foveal tiene que lidiar con un subconjunto limitado de variaciones de la apariencia humana, lo que simplifica la tarea de clasificación y permite mejorar el rendimiento de sistema de detección de humanos. De forma totalmente diferente, otros métodos y sistemas utilizan el mismo conjunto de clasificadores para analizar diferentes vectores de características procedentes de cada región de la imagen (determinada por una ventana deslizante o sub-partes de imagen parcialmente solapadas) con el objetivo de ser robusto a la gran variabilidad de la apariencia de un humano. Sin embargo, esta estrategia clásica de otros métodos tiene dos desventajas fundamentales. La primera es que incurre en un gran coste computacional al tener que calcular un elevado número de vectores de características por imagen. La segunda dificultad deriva del hecho de que se utiliza el mismo conjunto de clasificadores para cada región de la imagen, por lo que tiene que lidiar con todas las distorsiones geométricas que introduce una cámara omnidireccional, y que provoca que un mismo humano con una misma pose tenga una apariencia muy distinta en función de la posición del mismo sobre el plano imagen.

La tercera diferencia fundamental es el proceso de entrenamiento de los clasificadores. El resto de métodos necesitan especificar/etiquetar regiones de la imagen (normalmente rectangulares) que contengan humanos (muestras positivas) y otras que no contengan humanos (muestras negativas). Todo ello conlleva una ingente labor y mano de obra en el desarrollo de tal etiquetado. Sin embargo, el método de entrenamiento para los clasificadores foveales, no es solo diferente, sino además menos laborioso y por tanto eficiente. Para empezar, el etiquetado se reduce a una representación puntual que identifica al humano en la imagen. Entonces, las muestras positivas y negativas se generan automáticamente y de forma independiente para cada clasificador, de tal forma que el mismo vector de características de una imagen puede ser positivo para un clasificador foveal pero negativo para otros clasificadores, dependiendo de proximidad del etiquetado puntual del humano a las fóveas de cada clasificador.

Además de las ventajas descritas anteriormente, una ventaja competitiva adicional del procedimiento de detección de personas referido en esta invención es que se caracteriza por no requerir información de la escena (más allá de las anotaciones puntuales en la base de datos), ni calibración de la cámara omnidireccional. Por lo tanto, no solo se prescinde de la necesidad de etapas de calibración de la cámara y corrección geométrica de las imágenes capturadas, sino que también se evita los errores y dificultades derivadas de ellas y que reducen el rendimiento de detección.

BREVE DESCRIPCIÓN DE LAS FIGURAS

La Fig. 1 muestra un diagrama de bloques del procedimiento de detección y localización de humanos de la invención referida en este documento, el cual está compuesto por el sub-procedimiento A para la detección y localización de humanos sobre imágenes adquiridas por una cámara estática omnidireccional y el sub-procedimiento B de configuración (o entrenamiento) de parámetros del sub-procedimiento A que permite la correcta detección y localización de humanos en imágenes en un entorno/escena específico.

La Fig. 2 muestra las seis etapas del sub-procedimiento A, desde la adquisición de imágenes hasta la detección y localización final de humanos en esas imágenes.

La Fig. 3 muestra las cuatro etapas del sub-procedimiento B, desde la creación de una base anotada de imágenes hasta la configuración de los parámetros del sub-procedimiento A.

La Fig. 4 ilustra a etapa A.2 la cual genera un único super-vector de características por cada imagen adquirida mediante la división de la imagen en bloques, el cálculo de un vector de características por cada bloque y la concatenación de los vectores de características de todos los bloques para forma un super-vector que representa la imagen.

La Fig.5 muestra un patrón de rejilla hexagonal/quincuncial de M clasificadores foveales utilizado en una realización de la invención, y una agrupación/vecindad de Np clasificadores.

La Fig. 6 ilustra la etapa A.4 en la que los M clasificadores foveales realizan una predicción binaria para determinar si hay un humano presente en sus fóveas, generando en su caso una activación representada por el punto de referencia activo del clasificador foveal, y la etapa A.6 que localiza de forma precisa en la imagen los humanos detectados mediante la selección y filtrado de agrupaciones/vecindades de detecciones sobre la malla/rejilla de puntos de referencia de los clasificadores foveales y finalmente la interpolación de las coordenadas de los puntos de referencia de cada agrupación/vecindad.

La Fig. 7 ilustra la etapa B.2 de anotación puntual de humanos en las imágenes que componen la base de datos.

La Fig. 8 ilustra la etapa B.3 de generación adaptativa de muestras positivas y negativas para cada clasificador puntual a partir de las anotaciones puntuales de humanos de la base de datos.

DESCRIPCIÓN DE LA FORMA DE REALIZACIÓN PREFERIDA

Un procedimiento acorde con una realización de la invención integra dos sub-procedimientos diferenciados (Fig. 1). Sub-procedimiento A para la detección y localización de humanos (1) sobre imágenes (3) adquiridas por una cámara estática omnidireccional (2), el cual está explícitamente configurado para la detección y localización de humanos en un entorno/escena específico. La detección de humanos opera en tiempo real en un ordenador de propósito general y es robusta a la visibilidad parcial de humanos (1) en la escena (bien por oclusión o por estar parcialmente fuera de los márgenes de la imagen (3)), a cambios de iluminación, a variaciones de la apariencia humana (diferentes morfologías, poses y escalas), y a las distorsiones geométricas de la óptica de la cámara omnidireccional (2). Y sub-procedimiento B de configuración (o entrenamiento) de parámetros del sub-procedimiento A que permite la correcta detección y localización de humanos (1) en imágenes (2) en un entorno/escena específico.

El sub-procedimiento A comprende seis etapas desde la adquisición de imágenes (3) hasta la detección y localización final (4) de humanos en esas imágenes (Fig. 2).

La primera etapa A.1 adquiere imágenes (3) desde una cámara omnidireccional (2) en posición estática. Como ejemplo práctico, la cámara omnidireccional (2) se podría situar en el techo de la sala de oficinas para que las imágenes (3) adquiridas abarquen todo el interior de la sala. La misma configuración de la cámara debe respetarse para el sub-procedimiento B. Las imágenes adquiridas tienen una resolución de 800x600 píxeles.

La etapa A.2 genera un único vector de características (8) por cada imagen (3) adquirida (Fig. 4). Esta extracción del vector de características (8) se desglosa en tres sub-etapas. La primera sub-etapa A.2.1 divide la imagen (3) en bloques de NxN píxeles (6), los cuales pueden estar solapados o no. La sub-etapa A.2.2 genera un vector de características (7) por cada bloque de NxN píxeles (6) de la sub-etapa anterior. El procedimiento para la generación del vector de características (7) para cada bloque (6) puede ser uno de los siguientes: Histogramas de Gradientes Orientados (HOG), Patrones Binarios Locales, Transformada de Características Invariantes a Escala, y Características Haar. No obstante, no existe limitación a priori para el uso de otras técnicas de extracción de características. Como ejemplo preferible, la imagen (3) se ha dividido en bloques (6) de 16x16 píxeles no solapados. El descriptor de características de Histogramas de Gradientes Orientados (HOG) (N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection,” Conference on Computer Vision and Pattern Recognition (CVPR), 2005) ha sido calculado por cada bloque (6), utilizando los siguientes parámetros: tamaño de celda de 8x8 píxeles, solapamiento de área entre celdas de 1/2, y nueve intervalos orientados por histograma. Y finalmente, se ha concatenado todos los vectores HOG (7) en un único super-vector (8). La diferencia principal con respecto a la implementación estándar de HOG es el tamaño del bloque (6), el cual era originalmente de un tamaño de 64x128 píxeles. En este ejemplo de realización se utilizan bloques más pequeños (16x16 píxeles) para reducir el tamaño final del super-vector concatenado (8).

La sub-etapa A.2.3 concatena los vectores de características (7) de cada bloque (6) de la imagen (3) en un único super-vector de características (8) que representa a toda la imagen.

La etapa A.3 distribuye el super-vector de características (8) de la imagen a un conjunto de M clasificadores foveales (9).

En la etapa A.4, los M clasificadores foveales (9) realizan una predicción binaria en las categorías "humano presente en la fóvea del clasificador” y su complementario "humano no presente en la fóvea del clasificador”. La fóvea de un clasificador (10) es una cierta región de la imagen (3) en la que se centra la detección de humanos (1) y cuya área y morfología es automáticamente inferida por el Sub-procedimiento B de configuración de parámetros. Cada clasificador foveal tiene además asociado una referencia puntual (10) sobre el plano imagen, la cual es un par de coordenadas del plano imagen que representan la fóvea del clasificador. El conjunto de referencias puntuales de los M clasificadores foveales (9) forman una rejilla/malla espacial bidimensional que cubre el área de la imagen (3) adquirida por la cámara (Fig. 6). Dicha rejilla/malla espacial es configurable mediante diferentes patrones (hexagonal, rectangular, polar, etc.) y diferente número de clasificadores. La Fig. 5 muestra un ejemplo de patrón hexagonal/quincuncial. Cada clasificador foveal (10) está entrenado/configurado para detectar humanos (1) en su fóvea utilizando como entrada el super-vector de características (8) de la imagen (3), el cual es común a todos los clasificadores foveales. Esto supone una gran ventaja competitiva desde el punto de vista de coste computacional, ya que el número de operaciones es sensiblemente menor que otras técnicas basadas en el concepto de ventana deslizante o de detección por partes, ya que los clasificadores (9) solo tienen que procesar un único vector de características (8) por imagen (3). Por otra parte, el algoritmo de clasificación usado por los clasificadores foveales (9) no está a priori restringido, pudiendo usarse entre otros los siguientes clasificadores: Maquinas Vectores Soporte, Redes Neuronales, y Regresión Logística. Como ejemplo particular, se han utilizado 825 clasificadores (9) Máquinas Vectores Soporte (SVM) con un núcleo lineal, cuyas referencias puntuales (10) están dispuestas en una malla/rejilla con un patrón hexagonal/quincuncial.

La etapa A.5 localiza de forma aproximada en la imagen (3) los humanos detectados, utilizando las referencias puntuales (10) de los clasificadores foveales activos (12) (aquellos que han detectado un humano en su fóvea).

Nótese que varios clasificadores foveales (12) se activan por un mismo humano si sus fóveas están solapadas.

La última etapa A.6 localiza de forma precisa en la imagen (3) los humanos detectados, fusionando los resultados de detección de cada clasificador foveal (10), lo que permite refinar la localización y producir una detección final y única (4) por humano (1) (Fig. 6). La etapa A.6 consta de tres sub-etapas. La primera sub-etapa A.6.1 selecciona agrupaciones/vecindades (11) de detecciones acordes con la estructura espacial de la rejilla/malla (9) que forman las referencias puntuales (10) de los clasificadores foveales (Np clasificadores forman una vecindad en la Fig.5). Las agrupaciones/vecindades (11) de detecciones deben superar un umbral mínimo para su consideración, ya que el área que ocupa un humano (1) sobre la imagen (3) corresponde a una región en la que se solapan múltiples fóveas de clasificadores foveales vecinos (11). Esta restricción evita falsos positivos por detecciones aisladas de los clasificadores (9). La sub-etapa A.6.2 realiza una supresión de no-máximos de las agrupaciones/vecindades (11) activadas, obteniéndose una única agrupación/vecindad por humano (1). La última sub-etapa A.6.3 localiza de forma precisa el humano (1) sobre la imagen (3) mediante la interpolación de las coordenadas de las referencias puntuales (10) de los clasificadores foveales pertenecientes a la agrupación/vecindad (11) seleccionada en la etapa anterior. Esta interpolación está ponderada por la medida de confianza en la detección de cada clasificador foveal (10). Se genera, por tanto, una única localización puntual (4) por humano (1), que representa a su vez la detección final del mismo. Típicamente, se selecciona agrupaciones/vecindades (11) que contienen al menos 5 detecciones de acuerdo a la estructura espacial de la rejilla/malla (9). La localización precisa (4) de un humano (1) detectado sobre la imagen (3) se realiza mediante la interpolación de las coordenadas de todas las referencias puntuales (10) de los clasificadores foveales que forman parte de una agrupación/vecindad (11) que ha superado los criterios de número mínimo de detecciones por agrupación/vecindad y supresión de no-máximos.

El sub-procedimiento B comprende cuatro etapas desde la creación de una base anotada de imágenes (5) hasta la configuración de los parámetros del sub-procedimiento A (Fig. 3). La primera etapa B.1 crea de una base de datos de imágenes (5) de una escena/entorno específico y que contiene instancias de humanos (1). Las imágenes (3) se adquieren con una cámara omnidireccional (2), la cual debe estar situada en la misma posición que la cámara utilizada en la detección. Por ejemplo, la cámara omnidireccional (2) se sitúa en el techo de la sala de oficinas para que las imágenes (3) adquiridas abarquen todo el interior de la sala. La misma configuración de la cámara debe respetarse para el sub-procedimiento A. La etapa B.2 realiza una anotación puntual de los humanos (1) en la base de datos de imágenes (5) (Fig. 7). La anotación puntual consiste en la especificación de las coordenadas de un punto representativo del humano (1) sobre la imagen (3). El punto representativo elegido debe ser consistente en todas las instancias del objeto anotadas. Por ejemplo, el punto representativo del humano (1) sobre la imagen (3) para realizar la anotación de humanos es la cabeza, por ser esta una referencia que se ve mínimamente afectada por las oclusiones con objetos de la sala y otros humanos para la localización de la cámara considerada. La anotación puntual supone una gran ventaja competitiva en el coste de generación de una base de datos anotada en comparación con otras técnicas de detección en imágenes que requiere anotaciones más complejas (rectángulos u otros polígonos, áreas de imagen, etc.). La etapa B.3 genera adaptativamente un conjunto de muestras positivas y negativas para cada clasificador foveal (10) a partir de las anotaciones puntuales (Fig. 8). Una anotación puntual genera una muestra positiva para un determinado clasificador foveal (10) si la distancia entre las coordenadas de la anotación puntual y las coordenadas del punto de referencia del clasificador foveal es menor que un umbral. Si supera dicho umbral, se genera una muestra negativa para el clasificador implicado (10). Como resultado, una misma anotación puntual generará un conjunto de muestras positivas para un subconjunto de clasificadores foveales (11) y otro conjunto de muestras negativas para el subconjunto de clasificadores foveales complementario al anterior. Por ejemplo, para el conjunto de muestras positivas y negativas para cada clasificador foveal, se determina que una anotación puntual genera una muestra positiva para siete clasificadores foveales (Np=7), que son aquellos con una distancia menor entre las coordenadas de la anotación puntual y las coordenadas del punto de referencia de los clasificadores foveales. La anotación puntual genera una muestra negativa para el resto de clasificadores foveales. La última etapa B.4 realiza el ajuste de los parámetros (entrenamiento en el argot de clasificadores) de cada clasificador foveal (10) para la óptima detección de humanos, usando las muestras positivas y negativas generadas en la sub-etapa anterior. Como ejemplo, se puede utilizar el algoritmo de entrenamiento estándar de las Máquinas Vectores Soporte con regularización.

Nótese que el procedimiento referido en esta invención se caracteriza por no requerir información de la escena (más allá de las anotaciones puntuales en la base de datos (5)) o calibración de la cámara (2). Esto supone ventajas competitivas en el despliegue, configuración y aplicación práctica del procedimiento de detección y localización de humanos. Además, dicho procedimiento podría extenderse a la localización y detección de objetos genéricos contenidos en imágenes (3) adquiridas por cámaras omnidireccionales (2) y perspectiva, ya que por un lado solo es necesaria la anotación consiste de un objeto en una base de datos (5) (no existe una particularización especial a la características de un humano), y por otro no se realiza ningún tratamiento específico para la óptica de la cámara (prueba de ello es la ausencia de una etapa de calibración).

Claims

REIVINDICACIONES

1. Procedimiento para la detección y localización de humanos (1) en secuencias de imágenes (3) adquiridas por cámaras omnidireccionales (2), caracterizado porque comprende los siguientes sub-procedimientos:

a. Sub-procedimiento A para la detección y localización de humanos (1) sobre imágenes (3) adquiridas por una cámara estática omnidireccional (2), el cual está configurado para la detección y localización de humanos en un entorno/escena específico mediante las siguientes etapas:

i. Etapa A.1: adquisición de unas imágenes (3) con una cámara omnidireccional (2) en posición estática;

ii. Etapa A.2: extracción de un único super-vector de características (8) por cada una de las imágenes (3) adquiridas;

iii. Etapa A.3: distribución del super-vector de características (8) asociado a cada una de las imágenes (3) a un conjunto de M clasificadores foveales (9);

iv. Etapa A.4: predicción binaria por cada uno de los M clasificadores foveales (10) en las categorías "humano presente en la fóvea del clasificador” y su complementario "humano no presente en la fóvea del clasificador”;

v. Etapa A.5: localización aproximada (12) en la imagen (3) de los humanos detectados; y,

vi. Etapa A.6: localización precisa (4) en la imagen (3) de los humanos detectados;

b. Sub-procedimiento B de configuración de parámetros para la detección y localización en imágenes (3) de humanos (1) en un entorno/escena específico mediante las siguientes etapas:

i. Etapa B.1: creación de una base de datos (5) de imágenes (3) de una escena/entorno específico y que contiene instancias de humanos (1); donde las imágenes se adquieren con una cámara omnidireccional (2), la cual debe estar situada en la misma posición que la cámara utilizada en la detección;

ii. Etapa B.2: anotación puntual de los humanos (1) en la base de datos de imágenes (3);

iii. Etapa B.3: generación adaptativa de muestras positivas y negativas para cada clasificador foveal (10) a partir de las anotaciones puntuales;

iv. Etapa B.4: ajuste de los parámetros de cada clasificador foveal (10) para la óptima detección de humanos (3) usando las muestras positivas y negativas generadas;

en donde la etapa A.2 comprende tres sub-etapas:

a. Sub-etapa A.2.1: división de la imagen (3) en bloques de NxN píxeles (6), los cuales pueden estar solapados o no;

b. Sub-etapa A.2.2: extracción de un vector de características (7) por cada bloque de NxN píxeles (6) referido en la sub-etapa anterior; donde el algoritmo de extracción de características está seleccionado entre: Histogramas de Gradientes Orientados, Patrones Binarios Locales, Transformada de Características Invariantes a Escala, y Características Haar;

c. Sub-etapa A.2.3: concatenación de los vectores (7) de características de cada bloque de la imagen en un único super-vector de características (8) que representa a toda la imagen (3);

en donde la etapa A.4, que consta de un conjunto de M clasificadores foveales (9), cada uno de los cuales (10) tiene asociado una fóvea y una referencia puntual sobre el plano imagen;

en donde la etapa A.5 utiliza las referencias puntuales de los clasificadores foveales activos (12);

en donde la etapa A.6 comprende tres sub-etapas:

a. Sub-etapa A.6.1: extracción de agrupaciones/vecindades (11) de detecciones de acuerdo a la rejilla/malla (9) que forman las referencias puntuales (10) de los clasificadores foveales; b. Sub-etapa A.6.2: supresión de no-máximos de las agrupaciones/vecindades (11) extraídas, obteniéndose una única agrupación/vecindad por humano (1);

c. Sub-etapa A.6.3: localización precisa (4) del humano (1) sobre la imagen (3) mediante la interpolación de las coordenadas de las referencias puntuales (10) de los clasificadores foveales que forma parte de cada agrupación/vecindad (11) obtenida en la etapa anterior;

de tal forma que se genera una única localización puntual por humano(1), que representa a su vez la detección final (4) del mismo.