ES2347517B2 - Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada. - Google Patents

Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada. Download PDF

Info

Publication number
ES2347517B2
ES2347517B2 ES201031215A ES201031215A ES2347517B2 ES 2347517 B2 ES2347517 B2 ES 2347517B2 ES 201031215 A ES201031215 A ES 201031215A ES 201031215 A ES201031215 A ES 201031215A ES 2347517 B2 ES2347517 B2 ES 2347517B2
Authority
ES
Spain
Prior art keywords
acoustic
source
binaural
signal
augmented reality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES201031215A
Other languages
English (en)
Other versions
ES2347517A1 (es
Inventor
Jose Manuel Pardo Muñoz
Ricardo De Cordoba Herralde
Javier Ferreiros Lopez
Juan Manuel Montero Martinez
Ruben San Segundo Hernandez
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universidad Politecnica de Madrid
Original Assignee
Universidad Politecnica de Madrid
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universidad Politecnica de Madrid filed Critical Universidad Politecnica de Madrid
Priority to ES201031215A priority Critical patent/ES2347517B2/es
Publication of ES2347517A1 publication Critical patent/ES2347517A1/es
Application granted granted Critical
Publication of ES2347517B2 publication Critical patent/ES2347517B2/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

Método y sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, que comprende captar señales acústicas binaurales; digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal; agrupar N muestras consecutivas en tramas; extraer, de cada trama, una pluralidad de características que definen dicha trama; seleccionar un subconjunto de las características extraídas; detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido; estimar la distancia a la que se encuentra la fuente del evento acústico detectado; calcular la dirección en la que se sitúa la fuente del evento acústico; localizar la fuente del evento acústico en la escena; codificar visualmente la información del evento acústico y generar un vídeo a partir de una secuencia de imágenes; superponer la secuencia de vídeo generada con las imágenes captadas por al menos una cámara de vídeo (13); y mostrar la señal visual combinada.

Description

Método y sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada.
Campo de la invención
La presente invención pertenece al campo técnico de las tecnologías de la información y las comunicaciones para el desarrollo de sistemas que mejoran la calidad de vida de las personas con discapacidad.
Estado de la técnica
En la actualidad hay una gran cantidad de trabajos relacionados con la percepción binaural que abordan tanto el problema de localización de la fuente de los eventos acústicos, como los problemas de clasificación de sonidos o incluso reconocimiento de habla. Sin embargo, en estos trabajos no se plantea el problema de clasificar una gran cantidad de tipos de sonidos sino que se centran en la diferenciación entre voz o no voz para saber qué parte de la señal acústica se debe mandar a un reconocedor de voz.
Las solicitudes WO2007063139 A2 y WO2009072040 A1 contemplan la incorporación de información acústica, obtenida de la percepción binaural, para mejorar un sistema de realidad aumentada de audio (no visual) para personas con deficiencias auditivas. En estas solicitudes no se plantea ningún tipo de clasificación del tipo de ruido sino que se proponen algoritmos generales de mejora de las señales acústicas. Su objetivo consiste en mejorar la percepción del habla, rechazando aquellos tipos de eventos acústicos que no sean habla. Por tanto, dichas patentes no detectan el tipo de evento acústico para informar al usuario, únicamente rechazan lo que no sea habla.
Es por tanto deseable un método y un sistema que integre la información que reciba mediante señales binaurales, de forma que partiendo de la detección de ciertos eventos acústicos, pueda formar una realidad aumentada del audio de dicha escena y mostrarla en forma de video, añadiendo los eventos acústicos como iconos o dibujos superpuestos a la señal de video recogida por una o varias cámaras.
Descripción de la invención
La presente invención resuelve los problemas existentes en el estado de la técnica mediante un método y un sistema capaz de representar de forma visual eventos acústicos en un sistema visual de realidad aumentada.
La invención propuesta consiste en un método y un sistema capaz de captar las señales acústicas recibidas por unos micrófonos situados en la posición de los oídos de una persona (por ejemplo en las patillas de unas gafas), e incorporar, de forma visual, la información acerca de los eventos acústicos detectados (algunos ejemplos de eventos acústicos serían la voz de personas hablando, música, golpes, sirenas, alarmas, pitidos o vehículos en movimiento). El sistema añade esta información de forma complementaria a la visión que se está mostrando a través de un sistema visual de realidad aumentada, por ejemplo, unas gafas de realidad aumentada.
El método y sistema propuesto establecen un marco de integración de tecnologías que aumentan la capacidad de percepción de las personas sordas, mejorando sensiblemente su calidad de vida.
El método para incorporar información acústica binaural en un sistema visual de realidad aumentada, comprende las siguientes etapas:
a)
captar señales acústicas binaurales de una escena;
b)
digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal;
c)
agrupar N muestras consecutivas en tramas, siendo N un número configurable;
d)
extraer, de cada trama, una pluralidad de características que definen dicha trama;
e)
seleccionar un subconjunto de las características extraídas;
f)
detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;
g)
estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema de la energía de la señal acústica y de la distribución espectral de dicha señal;
h)
calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales;
i)
localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;
j)
codificar visualmente la información del evento acústico, generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:
\bullet
seleccionar, de una base de datos, un dibujo asociado al tipo de evento acústico;
\bullet
determinar la zona de la imagen en la que se representará el dibujo a partir de la localización de la fuente acústica;
\bullet
determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acústico;
k)
superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo;
l)
mostrar la señal visual combinada.
Preferentemente, la extracción de características en cada trama comprende, extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel- Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral;
Preferentemente, la selección de un subconjunto de características se realiza mediante LDA (Linear Discriminant Analysis) o mediante árboles de decisión a partir de las características extraídas en la etapa d. El sistema que implemente el método, de manera preferente, comprenderá una base de datos con ejemplos previamente etiquetados y reglas para aprender, de forma automática, las características que mejor ayudan en la detección de los eventos acústicos que serán aquellas que ofrezcan una mayor capacidad de discriminación.
Preferentemente, el reconocimiento de patrones comprende calcular la distancia entre el subconjunto de características seleccionadas y cada patrón almacenado en la base de datos del sistema, obteniéndose como tipo de evento acústico detectado aquel cuyo patrón ofrezca una menor distancia con el subconjunto de características.
Preferentemente, la estimación de la distancia a la que se encuentra la fuente del evento acústico se obtiene a partir del tipo de evento acústico detectado, de la energía de la señal acústica y de la distribución espectral de dicha señal. Conociendo el tipo de evento acústico y la energía que llega a los micrófonos se puede estimar la distancia a la que está la fuente del evento acústico. Por otro lado, la oreja o pabellón auditivo establece un filtro acústico que conforma y atenúa las señales acústicas percibidas dotándolas de una menor energía y una distribución espectral de su energía (distribución de energía en bandas de frecuencia) característica. Es importante saber si la fuente del evento acústico está situada detrás del oyente para adaptar la estimación de la distancia a esta situación: considerando una atenuación adicional debida al pabellón auditivo y no a una mayor distancia a la fuente acústica.
El sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, comprende:
\bullet
al menos dos micrófonos omnidireccionales configurados para captar señales acústicas binaurales de una escena;
\bullet
un módulo de extracción de características que comprende:
\medcirc
un módulo de extracción de características de las señales captadas por un primer micrófono configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;
\medcirc
un módulo de extracción de características de las señales captadas por un segundo micrófono configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;
\medcirc
un módulo de selección de características configurado para seleccionar un subconjunto de características a partir de las características extraídas;
\bullet
un módulo de caracterización de la fuente de sonido que comprende:
\medcirc
un módulo de detección del tipo de evento acústico configurado para detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;
\medcirc
un módulo de estimación de la distancia de la fuente configurado para estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema;
\medcirc
un módulo de localización de la fuente del evento acústico configurado para calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales y para localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;
\bullet
un módulo de realidad aumentada que comprende:
\medcirc
un módulo de codificación configurado para generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:
\bullet
seleccionar, de una base de datos, un dibujo asociado al tipo de evento acústico;
\bullet
determinar la zona de la imagen en la que se representará el dibujo a partir de la localización de la fuente acústica;
\bullet
determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acústico;
\medcirc
un módulo de combinación configurado para superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo de la escena;
\medcirc
un módulo de representación visual configurado para mostrar la señal visual combinada.
Preferentemente, el módulo de extracción de características de las señales captadas por un primer micrófono y el módulo de extracción de características de las señales captadas por un segundo micrófono están configurados para extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, para extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel- Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral.
Preferentemente, el módulo de extracción de características de las señales captadas por un primer micrófono y el módulo de extracción de características de las señales captadas por un segundo micrófono están configurados para realizar la selección del subconjunto de características mediante LDA (Linear Discriminant Analysis) o mediante árboles de decisión a partir de las características extraídas.
Preferentemente, el sistema comprende una base de datos configurada para aprender automáticamente las características con mayor capacidad de discriminación. La base de datos comprende ejemplos de eventos acústicos previamente etiquetados con sus características y el tipo de evento que es además de una pluralidad de reglas que definen la selección de un dibujo asociado al tipo de evento acústico detectado. El proceso de aprendizaje de la capacidad de discriminación de cada característica se realiza analizando el tipo de evento y las características extraídas para dicho evento.
Preferentemente, el módulo de detección del tipo de evento acústico está configurado para realizar un reconocimiento de patrones, comprendiendo dicho reconocimiento, calcular la distancia entre el subconjunto de características seleccionadas y cada patrón almacenado en la base de datos del sistema, obteniéndose como tipo de evento acústico detectado aquel cuyo patrón ofrezca una menor distancia con el subconjunto de características.
Preferentemente, el módulo de estimación de la distancia de la fuente está configurado para estimar la distancia a la que se encuentra la fuente del evento acústico a partir del tipo de evento acústico detectado, de la energía de la señal acústica y de la distribución espectral de dicha señal.
La presente invención abre un nuevo mundo de posibilidades a las personas con discapacidad auditiva: permitiría desarrollar sistemas de realidad aumentada que suplieran parcialmente esta discapacidad, incluso llegando al desarrollo de videojuegos más accesibles para personas sordas.
Breve descripción de los dibujos
A continuación, para facilitar la comprensión de la invención, a modo ilustrativo pero no limitativo se describirá una realización de la invención que hace referencia a una serie de figuras.
La figura 1 muestra el diagrama de bloques de la realización preferida del sistema propuesto.
La figura 2 muestra una realización del sistema propuesto.
Descripción detallada de un modo de realización
La realización preferente de la invención presenta el diagrama de bloques mostrado en la figura 1. Los módulos que forman esta realización son los siguientes:
\bullet
El primer módulo consiste en un módulo de extracción de características 2 de las señales acústicas binaurales captadas por dos micrófonos omnidireccionales 1 situados en posiciones similares a la localización de los oídos de una persona. Este módulo comprende:
\medcirc
un módulo de extracción de características de las señales captadas por un primer micrófono 3. Las señales acústicas se digitalizan a una frecuencia de muestreo de, al menos, 16 Khz. Las muestras se agrupan en tramas (o secuencias de N muestras consecutivas) solapadas en el tiempo con el fin de extraer diferentes características de las señales para cada una de las tramas. Las características a extraer son tanto en el dominio del tiempo (como por ejemplo, tasa de cruces por cero, evolución de la energía o retardo entre señales) como en el dominio de la frecuencia, como por ejemplo, LPC (Linear Prediction Coeficients), MFCC (Mel-frequency cepstral coefficients), energías en subbandas de frecuencias o flujo espectral;
\medcirc
un módulo de extracción de características de las señales captadas por un segundo micrófono 4. Este módulo extrae características de forma similar pero independiente al módulo de extracción de características de las señales captadas por el primer micrófono 3;
\medcirc
un módulo de selección de características 5. Después de extraer las características de las señales acústicas binaurales captadas por los micrófonos omnidireccionales 1 se selecciona un subconjunto de características a partir de las características extraídas.
\bullet
El segundo módulo consiste en un módulo de caracterización de la fuente de sonido 6. Este módulo comprende:
\medcirc
un módulo de detección del tipo de evento acústico 7. Este módulo consiste en un sistema de reconocimiento de patrones que partiendo de las características extraídas en el módulo de extracción de características 2 decide el tipo de evento acústico ocurrido. Este sistema puede estar basado en mezclas de gaussianas (modelos Bayesianos) o redes neuronales;
\medcirc
un módulo de estimación de la distancia de la fuente 8. En función del tipo de evento acústico, de la energía de la señal acústica y de la distribución espectral de la energía de la señal, se puede hacer una estimación de la distancia de los micrófonos a la fuente del evento acústico;
\medcirc
un módulo de localización de la fuente del evento acústico 9. Utilizando información sobre la distancia de la fuente y calculando la dirección en la que se sitúa dicha fuente, es posible calcular su localización espacial. La evolución de esta localización a lo largo del tiempo pueda dar información sobre el movimiento de la fuente. Una característica muy útil para el cálculo de la dirección en la que se sitúa la fuente es el retardo con el que las señales acústicas llegan a uno u otro micrófono. Este retardo se puede calcular mediante un análisis de la correlación entre las señales obtenidas de ambos micrófonos omnidireccionales 1.
\bullet
Una vez estimadas las características del evento acústico (tipo de evento, distancia a la fuente del evento y localización de dicha fuente del evento) se procede a representar dicha información mediante un módulo de realidad aumentada 10. Este módulo comprende:
\medcirc
un módulo de codificación 11 que codifica visualmente la información del evento acústico, generando un video (secuencia de imágenes) con la representación visual del evento acústico. Para cada una de las imágenes que forman la secuencia de video, este módulo selecciona, de una base de datos, un dibujo asociado al evento acústico. El dibujo seleccionado y su color, depende del tipo de evento acústico a representar. Por otro lado, dependiendo de la localización de la fuente acústica, el dibujo se mostrará en una zona de la imagen diferente. Y finalmente, el tamaño del dibujo dependerá de la distancia a la que se encuentra la fuente del evento acústico. Las variaciones del tamaño tendrán un límite superior e inferior asociadas a una distancia máxima y mínima, respectivamente. Las imágenes resultantes mostrarán los dibujos de los eventos acústicos, siendo el resto de la imagen transparente;
\medcirc
un módulo de combinación 12 que superpone la secuencia de video generada artificialmente por el módulo de codificación 11 (y que incluye información sobre los eventos acústicos detectados) con las imágenes captadas por una o varias cámaras de vídeo 13 de la escena;
\medcirc
un módulo de representación visual 14 que muestra la señal visual combinada.
La figura 2 muestra un ejemplo de sistema visual de realidad aumentada. El ejemplo consiste en unas gafas 15 con micrófonos omnidireccionales 16 situados en sus patillas. Se puede observar la representación de ciertos eventos acústicos: voz de personas que están cerca y situadas a la derecha 17, voz de personas que están más lejos 18 y ruido de un tren acercándose por la izquierda 19.
En este ejemplo, el módulo de codificación 11 de la información del evento acústico se realiza de la siguiente manera:
\bullet
Según el tipo de evento acústico se representa una imagen o dibujo diferente, con un color diferente. El dibujo será lo menos invasivo posible para evitar que dificulte la visión de objetos reales. En la figura 2 se muestran algunos ejemplos de dibujos posibles: voz de personas que están cerca y situadas a la derecha 17, voz de personas que están más lejos 18 y ruido de un tren acercándose por la izquierda 19.
\bullet
La localización de la imagen o dibujo en pantalla dependerá de la localización de la fuente del evento acústico.
\bullet
Y finalmente, el tamaño de la imagen o dibujo ofrece información sobre la distancia a la que se encuentra la fuente del evento acústico.
La invención propuesta se puede utilizar en las siguientes aplicaciones industriales:
\bullet
Diseño y fabricación de un sistema visual de realidad aumentada para la mejora de la interacción de las personas sordas en entornos urbanos. Por ejemplo en una estación de metro, las personas sordas podrían percibir visualmente algunos sonidos (como la llegada de un nuevo tren o alguna alarma acústica). En este tipo de aplicación podrían estar interesadas tanto las administraciones públicas, como las asociaciones de personas sordas.
\bullet
Las empresas de videojuegos podrían incorporar esta información visual para ofrecer juegos más accesibles para este colectivo.
\bullet
Finalmente, una aplicación muy interesante sería la conducción de un coche. Actualmente, las personas sordas pueden conducir un coche aunque no perciban las señales acústicas (como pitidos de otros coches). Con un sistema visual de realidad aumentada que incorpore información sobre los eventos acústicos, se podría hacer que las personas sordas percibieran visualmente eventos acústicos como los pitidos de otros coches.
Una vez descrita de forma clara la invención, se hace constar que las realizaciones particulares anteriormente descritas son susceptibles de modificaciones de detalle siempre que no alteren el principio fundamental y la esencia de la invención.

Claims (15)

1. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, caracterizado porque comprende las siguientes etapas:
a)
captar señales acústicas binaurales de una escena;
b)
digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal;
c)
agrupar N muestras consecutivas en tramas, siendo N un número configurable;
d)
extraer, de cada trama, una pluralidad de características que definen dicha trama;
e)
seleccionar un subconjunto de las características extraídas;
f)
detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;
g)
estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema de la energía de la señal acústica y de la distribución espectral de dicha señal;
h)
calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales;
i)
localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;
j)
codificar visualmente la información del evento acústico, generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:
\bullet
seleccionar, de una base de datos, un dibujo asociado al tipo de evento acústico;
\bullet
determinar la zona de la imagen en la que se representará el dibujo a partir de la localización de la fuente acústica;
\bullet
determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acús- tico;
k)
superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo (13);
l)
mostrar la señal visual combinada.
\vskip1.000000\baselineskip
2. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, según la reivindicación 1, caracterizado porque la extracción de características en cada trama comprende, extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel-Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral.
3. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones anteriores, caracterizado porque la selección de un subconjunto de características se realiza mediante la selección entre:
\bullet
aplicar LDA (Linear Discriminant Analysis) a partir de las características extraídas en la etapa d;
\bullet
aplicar árboles de decisión a partir de las características extraídas en la etapa d.
\vskip1.000000\baselineskip
4. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones anteriores, caracterizado porque el reconocimiento de patrones comprende calcular la distancia entre el subconjunto de características seleccionadas y cada patrón almacenado en la base de datos del sistema, obteniéndose como tipo de evento acústico detectado aquel cuyo patrón ofrezca una menor distancia con el subconjunto de características.
\global\parskip0.930000\baselineskip
5. Método para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones anteriores, caracterizado porque la estimación de la distancia a la que se encuentra la fuente del evento acústico se obtiene a partir del tipo de evento acústico detectado, de la energía de la señal acústica y de la distribución espectral de dicha señal.
6. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, caracterizado porque comprende:
\bullet
al menos dos micrófonos omnidireccionales (1) configurados para captar señales acústicas binaurales de una escena;
\bullet
un módulo de extracción de características (2) que comprende:
\medcirc
un módulo de extracción de características de las señales captadas por un primer micrófono (3) configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;
\medcirc
un módulo de extracción de características de las señales captadas por un segundo micrófono (4) configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;
\medcirc
un módulo de selección de características (5) configurado para seleccionar un subconjunto de características a partir de las características extraídas;
\bullet
un módulo de caracterización de la fuente de sonido (6) que comprende:
\medcirc
un módulo de detección del tipo de evento acústico (7) configurado para detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;
\medcirc
un módulo de estimación de la distancia de la fuente (8) configurado para estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema;
\medcirc
un módulo de localización de la fuente del evento acústico (9) configurado para calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales y para localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;
\bullet
un módulo de realidad aumentada (10) que comprende:
\medcirc
un módulo de codificación (11) configurado para generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:
\bullet
seleccionar, de una base de datos, un dibujo asociado al tipo de evento acústico;
\bullet
determinar la zona de la imagen en la que se representará el dibujo a partir de la localización de la fuente acústica;
\bullet
determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acústico;
\medcirc
un módulo de combinación (12) configurado para superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo (13) de la escena;
\medcirc
un módulo de representación visual (14) configurado para mostrar la señal visual combinada.
\vskip1.000000\baselineskip
7. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según la reivindicación 6, caracterizado porque el módulo de extracción de características de las señales captadas por un primer micrófono (3) está configurado para extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, para extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel-Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral.
\global\parskip1.000000\baselineskip
8. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-7, caracterizado porque el módulo de extracción de características de las señales captadas por un segundo micrófono (4) está configurado para extraer características en el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la energía de la señal en esa trama y el retardo entre las señales binaurales captadas, y, para extraer características en el dominio de la frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear Prediction Coding), los coeficientes MFC (Mel-Frequency Cepstral), la energía en una selección previa de bandas de frecuencias de la señal y el flujo espectral.
9. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-8, caracterizado porque el módulo de extracción de características de las señales captadas por un primer micrófono (3) está configurado para realizar la selección del subconjunto de características mediante LDA (Linear Discriminant Analysis) a partir de las características extraídas.
10. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-9, caracterizado porque el módulo de extracción de características de las señales captadas por un segundo micrófono (4) está configurado para realizar la selección del subconjunto de características mediante LDA (Linear Discriminant Analysis) a partir de las características extraídas.
11. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-10, caracterizado porque el módulo de extracción de características de las señales captadas por un primer micrófono (3) está configurado para realizar la selección del subconjunto de características mediante árboles de decisión a partir de las características extraídas.
12. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-11, caracterizado porque el módulo de extracción de características de las señales captadas por un segundo micrófono (4) está configurado para realizar la selección del subconjunto de características mediante árboles de decisión a partir de las características extraídas.
13. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-12, caracterizado porque comprende una base de datos que comprende eventos acústicos previamente etiquetados y una pluralidad de reglas que definen la selección de un dibujo asociado al tipo de evento acústico detectado.
14. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-13, caracterizado porque el módulo de detección del tipo de evento acústico (7) está configurado para realizar un reconocimiento de patrones, comprendiendo dicho reconocimiento, calcular la distancia entre el subconjunto de características seleccionadas y cada patrón almacenado en la base de datos del sistema, obteniéndose como tipo de evento acústico detectado aquel cuyo patrón ofrezca una menor distancia con el subconjunto de características.
15. Sistema para incorporar información acústica binaural en un sistema visual de realidad aumentada, según cualquiera de las reivindicaciones 6-14, caracterizado porque el módulo de estimación de la distancia de la fuente (8) está configurado para estimar la distancia a la que se encuentra la fuente del evento acústico a partir del tipo de evento acústico detectado, de la energía de la señal acústica y de la distribución espectral de dicha señal.
ES201031215A 2010-08-04 2010-08-04 Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada. Active ES2347517B2 (es)

Priority Applications (1)

Application Number Priority Date Filing Date Title
ES201031215A ES2347517B2 (es) 2010-08-04 2010-08-04 Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES201031215A ES2347517B2 (es) 2010-08-04 2010-08-04 Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada.

Publications (2)

Publication Number Publication Date
ES2347517A1 ES2347517A1 (es) 2010-10-29
ES2347517B2 true ES2347517B2 (es) 2011-05-18

Family

ID=42942297

Family Applications (1)

Application Number Title Priority Date Filing Date
ES201031215A Active ES2347517B2 (es) 2010-08-04 2010-08-04 Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada.

Country Status (1)

Country Link
ES (1) ES2347517B2 (es)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3066634A1 (fr) * 2017-05-16 2018-11-23 Orange Procede et equipement d'assistance auditive
MX2022011716A (es) 2020-04-02 2022-10-07 Dawn Ella Pierne Sistemas y metodos de configuracion de energia acustica y visual.

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029216A (en) * 1989-06-09 1991-07-02 The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration Visual aid for the hearing impaired
WO2007063139A2 (en) * 2007-01-30 2007-06-07 Phonak Ag Method and system for providing binaural hearing assistance
WO2009072040A1 (en) * 2007-12-07 2009-06-11 Koninklijke Philips Electronics N.V. Hearing aid controlled by binaural acoustic source localizer

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194726A (ja) * 1998-10-19 2000-07-14 Sony Corp 情報処理装置及び方法、情報処理システム並びに提供媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029216A (en) * 1989-06-09 1991-07-02 The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration Visual aid for the hearing impaired
WO2007063139A2 (en) * 2007-01-30 2007-06-07 Phonak Ag Method and system for providing binaural hearing assistance
WO2009072040A1 (en) * 2007-12-07 2009-06-11 Koninklijke Philips Electronics N.V. Hearing aid controlled by binaural acoustic source localizer

Also Published As

Publication number Publication date
ES2347517A1 (es) 2010-10-29

Similar Documents

Publication Publication Date Title
JP7337699B2 (ja) 口の画像を入力コマンドと相互に関連付けるシステム及び方法
TWI543635B (zh) Speech Acquisition Method of Hearing Aid System and Hearing Aid System
US20220028406A1 (en) Audio-visual sound enhancement
CN108226854B (zh) 提供后车的可视化信息的装置和方法
US20170188173A1 (en) Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene
GB2604964A (en) Systems and methods for detecting symptoms of occupant illness
KR101421046B1 (ko) 안경 및 그 제어방법
CN111398965A (zh) 基于智能穿戴设备的危险信号监控方法、系统和穿戴设备
KR20140033009A (ko) 시각 장애인을 위한 광학 디바이스
JP2012029209A (ja) 音処理システム
JP3632099B2 (ja) ロボット視聴覚システム
US12207074B2 (en) Method and system for detecting sound event liveness using a microphone array
JP2023519495A (ja) スマート・オーディオ・フォーカス制御を有する聴覚支援デバイス
CN109031200A (zh) 一种基于深度学习的声源空间方位检测方法
CH720407B1 (fr) Procédé mis en œuvre par ordinateur et système pour avertir un utilisateur malvoyant de la présence d'un objet et/ou d'un obstacle
CN111435574A (zh) 用于重度听障者的沟通辅具系统
CN115240142A (zh) 基于跨媒体的室外重点场所人群异常行为预警系统和方法
ES2347517B2 (es) Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada.
CN113432276B (zh) 自动调节空调的方法、设备和空调
JP2013017555A (ja) 環境情報伝達装置
KR101455830B1 (ko) 안경 및 그 제어방법
US12264931B1 (en) Navigation assistance using spatial audio
CN107580785A (zh) 头戴式音频采集模块
ES2692828T3 (es) Procedimiento de asistencia en el seguimiento de una conversación para una persona con problemas de audición
KR101794260B1 (ko) 음성인식을 이용한 보안등 및 보안시스템

Legal Events

Date Code Title Description
EC2A Search report published

Date of ref document: 20101029

Kind code of ref document: A1

FG2A Definitive protection

Ref document number: 2347517

Country of ref document: ES

Kind code of ref document: B2

Effective date: 20110506