ES2347517B2

ES2347517B2 - Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada.

Info

Publication number: ES2347517B2
Application number: ES201031215A
Authority: ES
Inventors: Jose Manuel Pardo Muñoz; Ricardo De Cordoba Herralde; Javier Ferreiros Lopez; Juan Manuel Montero Martinez; Ruben San Segundo Hernandez
Original assignee: Universidad Politecnica de Madrid
Current assignee: Universidad Politecnica de Madrid
Priority date: 2010-08-04
Filing date: 2010-08-04
Publication date: 2011-05-18
Anticipated expiration: 2030-08-04
Also published as: ES2347517A1

Abstract

Método y sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, que comprende captar señales acústicas binaurales; digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal; agrupar N muestras consecutivas en tramas; extraer, de cada trama, una pluralidad de características que definen dicha trama; seleccionar un subconjunto de las características extraídas; detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido; estimar la distancia a la que se encuentra la fuente del evento acústico detectado; calcular la dirección en la que se sitúa la fuente del evento acústico; localizar la fuente del evento acústico en la escena; codificar visualmente la información del evento acústico y generar un vídeo a partir de una secuencia de imágenes; superponer la secuencia de vídeo generada con las imágenes captadas por al menos una cámara de vídeo (13); y mostrar la señal visual combinada.

Description

Método y sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada.

Campo de la invención

La presente invención pertenece al campo técnico de las tecnologías de la información y las comunicaciones para el desarrollo de sistemas que mejoran la calidad de vida de las personas con discapacidad.

Estado de la técnica

En la actualidad hay una gran cantidad de trabajos relacionados con la percepción binaural que abordan tanto el problema de localización de la fuente de los eventos acústicos, como los problemas de clasificación de sonidos o incluso reconocimiento de habla. Sin embargo, en estos trabajos no se plantea el problema de clasificar una gran cantidad de tipos de sonidos sino que se centran en la diferenciación entre voz o no voz para saber qué parte de la señal acústica se debe mandar a un reconocedor de voz.

Las solicitudes WO2007063139 A2 y WO2009072040 A1 contemplan la incorporación de información acústica, obtenida de la percepción binaural, para mejorar un sistema de realidad aumentada de audio (no visual) para personas con deficiencias auditivas. En estas solicitudes no se plantea ningún tipo de clasificación del tipo de ruido sino que se proponen algoritmos generales de mejora de las señales acústicas. Su objetivo consiste en mejorar la percepción del habla, rechazando aquellos tipos de eventos acústicos que no sean habla. Por tanto, dichas patentes no detectan el tipo de evento acústico para informar al usuario, únicamente rechazan lo que no sea habla.

Es por tanto deseable un método y un sistema que integre la información que reciba mediante señales binaurales, de forma que partiendo de la detección de ciertos eventos acústicos, pueda formar una realidad aumentada del audio de dicha escena y mostrarla en forma de video, añadiendo los eventos acústicos como iconos o dibujos superpuestos a la señal de video recogida por una o varias cámaras.

Descripción de la invención

La presente invención resuelve los problemas existentes en el estado de la técnica mediante un método y un sistema capaz de representar de forma visual eventos acústicos en un sistema visual de realidad aumentada.

La invención propuesta consiste en un método y un sistema capaz de captar las señales acústicas recibidas por unos micrófonos situados en la posición de los oídos de una persona (por ejemplo en las patillas de unas gafas), e incorporar, de forma visual, la información acerca de los eventos acústicos detectados (algunos ejemplos de eventos acústicos serían la voz de personas hablando, música, golpes, sirenas, alarmas, pitidos o vehículos en movimiento). El sistema añade esta información de forma complementaria a la visión que se está mostrando a través de un sistema visual de realidad aumentada, por ejemplo, unas gafas de realidad aumentada.

El método y sistema propuesto establecen un marco de integración de tecnologías que aumentan la capacidad de percepción de las personas sordas, mejorando sensiblemente su calidad de vida.

El método para incorporar información acústica binaural en un sistema visual de realidad aumentada, comprende las siguientes etapas:

a): captar señales acústicas binaurales de una escena;

b): digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal;

c): agrupar N muestras consecutivas en tramas, siendo N un número configurable;

d): extraer, de cada trama, una pluralidad de características que definen dicha trama;

e): seleccionar un subconjunto de las características extraídas;

f): detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;

g): estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema de la energía de la señal acústica y de la distribución espectral de dicha señal;

h): calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales;

i): localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;

j): codificar visualmente la información del evento acústico, generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:

\bullet: seleccionar, de una base de datos, un dibujo asociado al tipo de evento acústico;

\bullet: determinar la zona de la imagen en la que se representará el dibujo a partir de la localización de la fuente acústica;

\bullet: determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acústico;

k): superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo;

l): mostrar la señal visual combinada.

Preferentemente, la extracción de características en cada trama comprende, extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel- Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral;

Preferentemente, la selección de un subconjunto de características se realiza mediante LDA (Linear Discriminant Analysis) o mediante árboles de decisión a partir de las características extraídas en la etapa d. El sistema que implemente el método, de manera preferente, comprenderá una base de datos con ejemplos previamente etiquetados y reglas para aprender, de forma automática, las características que mejor ayudan en la detección de los eventos acústicos que serán aquellas que ofrezcan una mayor capacidad de discriminación.

Preferentemente, el reconocimiento de patrones comprende calcular la distancia entre el subconjunto de características seleccionadas y cada patrón almacenado en la base de datos del sistema, obteniéndose como tipo de evento acústico detectado aquel cuyo patrón ofrezca una menor distancia con el subconjunto de características.

Preferentemente, la estimación de la distancia a la que se encuentra la fuente del evento acústico se obtiene a partir del tipo de evento acústico detectado, de la energía de la señal acústica y de la distribución espectral de dicha señal. Conociendo el tipo de evento acústico y la energía que llega a los micrófonos se puede estimar la distancia a la que está la fuente del evento acústico. Por otro lado, la oreja o pabellón auditivo establece un filtro acústico que conforma y atenúa las señales acústicas percibidas dotándolas de una menor energía y una distribución espectral de su energía (distribución de energía en bandas de frecuencia) característica. Es importante saber si la fuente del evento acústico está situada detrás del oyente para adaptar la estimación de la distancia a esta situación: considerando una atenuación adicional debida al pabellón auditivo y no a una mayor distancia a la fuente acústica.

El sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, comprende:

\bullet: al menos dos micrófonos omnidireccionales configurados para captar señales acústicas binaurales de una escena;

\bullet: un módulo de extracción de características que comprende:

\medcirc: un módulo de extracción de características de las señales captadas por un primer micrófono configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;

\medcirc: un módulo de extracción de características de las señales captadas por un segundo micrófono configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;

\medcirc: un módulo de selección de características configurado para seleccionar un subconjunto de características a partir de las características extraídas;

\bullet: un módulo de caracterización de la fuente de sonido que comprende:

\medcirc: un módulo de detección del tipo de evento acústico configurado para detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;

\medcirc: un módulo de estimación de la distancia de la fuente configurado para estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema;

\medcirc: un módulo de localización de la fuente del evento acústico configurado para calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales y para localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;

\bullet: un módulo de realidad aumentada que comprende:

\medcirc: un módulo de codificación configurado para generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:

\medcirc: un módulo de combinación configurado para superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo de la escena;

\medcirc: un módulo de representación visual configurado para mostrar la señal visual combinada.

Preferentemente, el módulo de extracción de características de las señales captadas por un primer micrófono y el módulo de extracción de características de las señales captadas por un segundo micrófono están configurados para extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, para extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel- Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral.

Preferentemente, el módulo de extracción de características de las señales captadas por un primer micrófono y el módulo de extracción de características de las señales captadas por un segundo micrófono están configurados para realizar la selección del subconjunto de características mediante LDA (Linear Discriminant Analysis) o mediante árboles de decisión a partir de las características extraídas.

Preferentemente, el sistema comprende una base de datos configurada para aprender automáticamente las características con mayor capacidad de discriminación. La base de datos comprende ejemplos de eventos acústicos previamente etiquetados con sus características y el tipo de evento que es además de una pluralidad de reglas que definen la selección de un dibujo asociado al tipo de evento acústico detectado. El proceso de aprendizaje de la capacidad de discriminación de cada característica se realiza analizando el tipo de evento y las características extraídas para dicho evento.

Preferentemente, el módulo de detección del tipo de evento acústico está configurado para realizar un reconocimiento de patrones, comprendiendo dicho reconocimiento, calcular la distancia entre el subconjunto de características seleccionadas y cada patrón almacenado en la base de datos del sistema, obteniéndose como tipo de evento acústico detectado aquel cuyo patrón ofrezca una menor distancia con el subconjunto de características.

Preferentemente, el módulo de estimación de la distancia de la fuente está configurado para estimar la distancia a la que se encuentra la fuente del evento acústico a partir del tipo de evento acústico detectado, de la energía de la señal acústica y de la distribución espectral de dicha señal.

La presente invención abre un nuevo mundo de posibilidades a las personas con discapacidad auditiva: permitiría desarrollar sistemas de realidad aumentada que suplieran parcialmente esta discapacidad, incluso llegando al desarrollo de videojuegos más accesibles para personas sordas.

Breve descripción de los dibujos

A continuación, para facilitar la comprensión de la invención, a modo ilustrativo pero no limitativo se describirá una realización de la invención que hace referencia a una serie de figuras.

La figura 1 muestra el diagrama de bloques de la realización preferida del sistema propuesto.

La figura 2 muestra una realización del sistema propuesto.

Descripción detallada de un modo de realización

La realización preferente de la invención presenta el diagrama de bloques mostrado en la figura 1. Los módulos que forman esta realización son los siguientes:

\bullet: El primer módulo consiste en un módulo de extracción de características 2 de las señales acústicas binaurales captadas por dos micrófonos omnidireccionales 1 situados en posiciones similares a la localización de los oídos de una persona. Este módulo comprende:

\medcirc: un módulo de extracción de características de las señales captadas por un primer micrófono 3. Las señales acústicas se digitalizan a una frecuencia de muestreo de, al menos, 16 Khz. Las muestras se agrupan en tramas (o secuencias de N muestras consecutivas) solapadas en el tiempo con el fin de extraer diferentes características de las señales para cada una de las tramas. Las características a extraer son tanto en el dominio del tiempo (como por ejemplo, tasa de cruces por cero, evolución de la energía o retardo entre señales) como en el dominio de la frecuencia, como por ejemplo, LPC (Linear Prediction Coeficients), MFCC (Mel-frequency cepstral coefficients), energías en subbandas de frecuencias o flujo espectral;

\medcirc: un módulo de extracción de características de las señales captadas por un segundo micrófono 4. Este módulo extrae características de forma similar pero independiente al módulo de extracción de características de las señales captadas por el primer micrófono 3;

\medcirc: un módulo de selección de características 5. Después de extraer las características de las señales acústicas binaurales captadas por los micrófonos omnidireccionales 1 se selecciona un subconjunto de características a partir de las características extraídas.

\bullet: El segundo módulo consiste en un módulo de caracterización de la fuente de sonido 6. Este módulo comprende:

\medcirc: un módulo de detección del tipo de evento acústico 7. Este módulo consiste en un sistema de reconocimiento de patrones que partiendo de las características extraídas en el módulo de extracción de características 2 decide el tipo de evento acústico ocurrido. Este sistema puede estar basado en mezclas de gaussianas (modelos Bayesianos) o redes neuronales;

\medcirc: un módulo de estimación de la distancia de la fuente 8. En función del tipo de evento acústico, de la energía de la señal acústica y de la distribución espectral de la energía de la señal, se puede hacer una estimación de la distancia de los micrófonos a la fuente del evento acústico;

\medcirc: un módulo de localización de la fuente del evento acústico 9. Utilizando información sobre la distancia de la fuente y calculando la dirección en la que se sitúa dicha fuente, es posible calcular su localización espacial. La evolución de esta localización a lo largo del tiempo pueda dar información sobre el movimiento de la fuente. Una característica muy útil para el cálculo de la dirección en la que se sitúa la fuente es el retardo con el que las señales acústicas llegan a uno u otro micrófono. Este retardo se puede calcular mediante un análisis de la correlación entre las señales obtenidas de ambos micrófonos omnidireccionales 1.

\bullet: Una vez estimadas las características del evento acústico (tipo de evento, distancia a la fuente del evento y localización de dicha fuente del evento) se procede a representar dicha información mediante un módulo de realidad aumentada 10. Este módulo comprende:

\medcirc: un módulo de codificación 11 que codifica visualmente la información del evento acústico, generando un video (secuencia de imágenes) con la representación visual del evento acústico. Para cada una de las imágenes que forman la secuencia de video, este módulo selecciona, de una base de datos, un dibujo asociado al evento acústico. El dibujo seleccionado y su color, depende del tipo de evento acústico a representar. Por otro lado, dependiendo de la localización de la fuente acústica, el dibujo se mostrará en una zona de la imagen diferente. Y finalmente, el tamaño del dibujo dependerá de la distancia a la que se encuentra la fuente del evento acústico. Las variaciones del tamaño tendrán un límite superior e inferior asociadas a una distancia máxima y mínima, respectivamente. Las imágenes resultantes mostrarán los dibujos de los eventos acústicos, siendo el resto de la imagen transparente;

\medcirc: un módulo de combinación 12 que superpone la secuencia de video generada artificialmente por el módulo de codificación 11 (y que incluye información sobre los eventos acústicos detectados) con las imágenes captadas por una o varias cámaras de vídeo 13 de la escena;

\medcirc: un módulo de representación visual 14 que muestra la señal visual combinada.

La figura 2 muestra un ejemplo de sistema visual de realidad aumentada. El ejemplo consiste en unas gafas 15 con micrófonos omnidireccionales 16 situados en sus patillas. Se puede observar la representación de ciertos eventos acústicos: voz de personas que están cerca y situadas a la derecha 17, voz de personas que están más lejos 18 y ruido de un tren acercándose por la izquierda 19.

En este ejemplo, el módulo de codificación 11 de la información del evento acústico se realiza de la siguiente manera:

\bullet: Según el tipo de evento acústico se representa una imagen o dibujo diferente, con un color diferente. El dibujo será lo menos invasivo posible para evitar que dificulte la visión de objetos reales. En la figura 2 se muestran algunos ejemplos de dibujos posibles: voz de personas que están cerca y situadas a la derecha 17, voz de personas que están más lejos 18 y ruido de un tren acercándose por la izquierda 19.

\bullet: La localización de la imagen o dibujo en pantalla dependerá de la localización de la fuente del evento acústico.

\bullet: Y finalmente, el tamaño de la imagen o dibujo ofrece información sobre la distancia a la que se encuentra la fuente del evento acústico.

La invención propuesta se puede utilizar en las siguientes aplicaciones industriales:

\bullet: Diseño y fabricación de un sistema visual de realidad aumentada para la mejora de la interacción de las personas sordas en entornos urbanos. Por ejemplo en una estación de metro, las personas sordas podrían percibir visualmente algunos sonidos (como la llegada de un nuevo tren o alguna alarma acústica). En este tipo de aplicación podrían estar interesadas tanto las administraciones públicas, como las asociaciones de personas sordas.

\bullet: Las empresas de videojuegos podrían incorporar esta información visual para ofrecer juegos más accesibles para este colectivo.

\bullet: Finalmente, una aplicación muy interesante sería la conducción de un coche. Actualmente, las personas sordas pueden conducir un coche aunque no perciban las señales acústicas (como pitidos de otros coches). Con un sistema visual de realidad aumentada que incorpore información sobre los eventos acústicos, se podría hacer que las personas sordas percibieran visualmente eventos acústicos como los pitidos de otros coches.

Una vez descrita de forma clara la invención, se hace constar que las realizaciones particulares anteriormente descritas son susceptibles de modificaciones de detalle siempre que no alteren el principio fundamental y la esencia de la invención.

Claims

1. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, caracterizado porque comprende las siguientes etapas:

a): captar señales acústicas binaurales de una escena;

e): seleccionar un subconjunto de las características extraídas;

\bullet: determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acús- tico;

k): superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo (13);

l): mostrar la señal visual combinada.

\vskip1.000000\baselineskip

2. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, según la reivindicación 1, caracterizado porque la extracción de características en cada trama comprende, extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel-Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral.

3. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones anteriores, caracterizado porque la selección de un subconjunto de características se realiza mediante la selección entre:

\bullet: aplicar LDA (Linear Discriminant Analysis) a partir de las características extraídas en la etapa d;

\bullet: aplicar árboles de decisión a partir de las características extraídas en la etapa d.

\vskip1.000000\baselineskip

4. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones anteriores, caracterizado porque el reconocimiento de patrones comprende calcular la distancia entre el subconjunto de características seleccionadas y cada patrón almacenado en la base de datos del sistema, obteniéndose como tipo de evento acústico detectado aquel cuyo patrón ofrezca una menor distancia con el subconjunto de características.

\global\parskip0.930000\baselineskip

5. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones anteriores, caracterizado porque la estimación de la distancia a la que se encuentra la fuente del evento acústico se obtiene a partir del tipo de evento acústico detectado, de la energía de la señal acústica y de la distribución espectral de dicha señal.

6. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, caracterizado porque comprende:

\bullet: al menos dos micrófonos omnidireccionales (1) configurados para captar señales acústicas binaurales de una escena;

\bullet: un módulo de extracción de características (2) que comprende:

\medcirc: un módulo de extracción de características de las señales captadas por un primer micrófono (3) configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;

\medcirc: un módulo de extracción de características de las señales captadas por un segundo micrófono (4) configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;

\medcirc: un módulo de selección de características (5) configurado para seleccionar un subconjunto de características a partir de las características extraídas;

\bullet: un módulo de caracterización de la fuente de sonido (6) que comprende:

\medcirc: un módulo de detección del tipo de evento acústico (7) configurado para detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;

\medcirc: un módulo de estimación de la distancia de la fuente (8) configurado para estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema;

\medcirc: un módulo de localización de la fuente del evento acústico (9) configurado para calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales y para localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;

\bullet: un módulo de realidad aumentada (10) que comprende:

\medcirc: un módulo de codificación (11) configurado para generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:

\medcirc: un módulo de combinación (12) configurado para superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo (13) de la escena;

\medcirc: un módulo de representación visual (14) configurado para mostrar la señal visual combinada.

\vskip1.000000\baselineskip

7. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según la reivindicación 6, caracterizado porque el módulo de extracción de características de las señales captadas por un primer micrófono (3) está configurado para extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, para extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel-Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral.

\global\parskip1.000000\baselineskip

8. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-7, caracterizado porque el módulo de extracción de características de las señales captadas por un segundo micrófono (4) está configurado para extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, para extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel-Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral.

9. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-8, caracterizado porque el módulo de extracción de características de las señales captadas por un primer micrófono (3) está configurado para realizar la selección del subconjunto de características mediante LDA (Linear Discriminant Analysis) a partir de las características extraídas.

10. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-9, caracterizado porque el módulo de extracción de características de las señales captadas por un segundo micrófono (4) está configurado para realizar la selección del subconjunto de características mediante LDA (Linear Discriminant Analysis) a partir de las características extraídas.

11. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-10, caracterizado porque el módulo de extracción de características de las señales captadas por un primer micrófono (3) está configurado para realizar la selección del subconjunto de características mediante árboles de decisión a partir de las características extraídas.

12. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-11, caracterizado porque el módulo de extracción de características de las señales captadas por un segundo micrófono (4) está configurado para realizar la selección del subconjunto de características mediante árboles de decisión a partir de las características extraídas.

13. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-12, caracterizado porque comprende una base de datos que comprende eventos acústicos previamente etiquetados y una pluralidad de reglas que definen la selección de un dibujo asociado al tipo de evento acústico detectado.

14. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-13, caracterizado porque el módulo de detección del tipo de evento acústico (7) está configurado para realizar un reconocimiento de patrones, comprendiendo dicho reconocimiento, calcular la distancia entre el subconjunto de características seleccionadas y cada patrón almacenado en la base de datos del sistema, obteniéndose como tipo de evento acústico detectado aquel cuyo patrón ofrezca una menor distancia con el subconjunto de características.

15. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-14, caracterizado porque el módulo de estimación de la distancia de la fuente (8) está configurado para estimar la distancia a la que se encuentra la fuente del evento acústico a partir del tipo de evento acústico detectado, de la energía de la señal acústica y de la distribución espectral de dicha señal.