ES2347517B2 - Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada. - Google Patents
Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada. Download PDFInfo
- Publication number
- ES2347517B2 ES2347517B2 ES201031215A ES201031215A ES2347517B2 ES 2347517 B2 ES2347517 B2 ES 2347517B2 ES 201031215 A ES201031215 A ES 201031215A ES 201031215 A ES201031215 A ES 201031215A ES 2347517 B2 ES2347517 B2 ES 2347517B2
- Authority
- ES
- Spain
- Prior art keywords
- acoustic
- source
- binaural
- signal
- augmented reality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Stereophonic System (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
Método y sistema para incorporar información
acústica binaural en un sistema visual de realidad aumentada, que
comprende captar señales acústicas binaurales; digitalizar las
señales acústicas captadas obteniendo una pluralidad de muestras de
señal; agrupar N muestras consecutivas en tramas; extraer, de cada
trama, una pluralidad de características que definen dicha trama;
seleccionar un subconjunto de las características extraídas;
detectar mediante un reconocimiento de patrones el tipo de evento
acústico ocurrido; estimar la distancia a la que se encuentra la
fuente del evento acústico detectado; calcular la dirección en la
que se sitúa la fuente del evento acústico; localizar la fuente del
evento acústico en la escena; codificar visualmente la información
del evento acústico y generar un vídeo a partir de una secuencia de
imágenes; superponer la secuencia de vídeo generada con las imágenes
captadas por al menos una cámara de vídeo (13); y mostrar la señal
visual combinada.
Description
Método y sistema para incorporar información
acústica binaural en un sistema visual de realidad aumentada.
La presente invención pertenece al campo técnico
de las tecnologías de la información y las comunicaciones para el
desarrollo de sistemas que mejoran la calidad de vida de las
personas con discapacidad.
En la actualidad hay una gran cantidad de
trabajos relacionados con la percepción binaural que abordan tanto
el problema de localización de la fuente de los eventos acústicos,
como los problemas de clasificación de sonidos o incluso
reconocimiento de habla. Sin embargo, en estos trabajos no se
plantea el problema de clasificar una gran cantidad de tipos de
sonidos sino que se centran en la diferenciación entre voz o no voz
para saber qué parte de la señal acústica se debe mandar a un
reconocedor de voz.
Las solicitudes WO2007063139 A2 y WO2009072040
A1 contemplan la incorporación de información acústica, obtenida de
la percepción binaural, para mejorar un sistema de realidad
aumentada de audio (no visual) para personas con deficiencias
auditivas. En estas solicitudes no se plantea ningún tipo de
clasificación del tipo de ruido sino que se proponen algoritmos
generales de mejora de las señales acústicas. Su objetivo consiste
en mejorar la percepción del habla, rechazando aquellos tipos de
eventos acústicos que no sean habla. Por tanto, dichas patentes no
detectan el tipo de evento acústico para informar al usuario,
únicamente rechazan lo que no sea habla.
Es por tanto deseable un método y un sistema que
integre la información que reciba mediante señales binaurales, de
forma que partiendo de la detección de ciertos eventos acústicos,
pueda formar una realidad aumentada del audio de dicha escena y
mostrarla en forma de video, añadiendo los eventos acústicos como
iconos o dibujos superpuestos a la señal de video recogida por una o
varias cámaras.
La presente invención resuelve los problemas
existentes en el estado de la técnica mediante un método y un
sistema capaz de representar de forma visual eventos acústicos en un
sistema visual de realidad aumentada.
La invención propuesta consiste en un método y
un sistema capaz de captar las señales acústicas recibidas por unos
micrófonos situados en la posición de los oídos de una persona (por
ejemplo en las patillas de unas gafas), e incorporar, de forma
visual, la información acerca de los eventos acústicos detectados
(algunos ejemplos de eventos acústicos serían la voz de personas
hablando, música, golpes, sirenas, alarmas, pitidos o vehículos en
movimiento). El sistema añade esta información de forma
complementaria a la visión que se está mostrando a través de un
sistema visual de realidad aumentada, por ejemplo, unas gafas de
realidad aumentada.
El método y sistema propuesto establecen un
marco de integración de tecnologías que aumentan la capacidad de
percepción de las personas sordas, mejorando sensiblemente su
calidad de vida.
El método para incorporar información acústica
binaural en un sistema visual de realidad aumentada, comprende las
siguientes etapas:
- a)
- captar señales acústicas binaurales de una escena;
- b)
- digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal;
- c)
- agrupar N muestras consecutivas en tramas, siendo N un número configurable;
- d)
- extraer, de cada trama, una pluralidad de características que definen dicha trama;
- e)
- seleccionar un subconjunto de las características extraídas;
- f)
- detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;
- g)
- estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema de la energía de la señal acústica y de la distribución espectral de dicha señal;
- h)
- calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales;
- i)
- localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;
- j)
- codificar visualmente la información del evento acústico, generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:
- \bullet
- seleccionar, de una base de datos, un dibujo asociado al tipo de evento acústico;
- \bullet
- determinar la zona de la imagen en la que se representará el dibujo a partir de la localización de la fuente acústica;
- \bullet
- determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acústico;
- k)
- superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo;
- l)
- mostrar la señal visual combinada.
Preferentemente, la extracción de
características en cada trama comprende, extraer características en
el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la
energía de la señal en esa trama y el retardo entre las señales
binaurales captadas, y, extraer características en el dominio de la
frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear
Prediction Coding), los coeficientes MFC (Mel- Frequency Cepstral),
la energía en una selección previa de bandas de frecuencias de la
señal y el flujo espectral;
Preferentemente, la selección de un subconjunto
de características se realiza mediante LDA (Linear Discriminant
Analysis) o mediante árboles de decisión a partir de las
características extraídas en la etapa d. El sistema que implemente
el método, de manera preferente, comprenderá una base de datos con
ejemplos previamente etiquetados y reglas para aprender, de forma
automática, las características que mejor ayudan en la detección de
los eventos acústicos que serán aquellas que ofrezcan una mayor
capacidad de discriminación.
Preferentemente, el reconocimiento de patrones
comprende calcular la distancia entre el subconjunto de
características seleccionadas y cada patrón almacenado en la base de
datos del sistema, obteniéndose como tipo de evento acústico
detectado aquel cuyo patrón ofrezca una menor distancia con el
subconjunto de características.
Preferentemente, la estimación de la distancia a
la que se encuentra la fuente del evento acústico se obtiene a
partir del tipo de evento acústico detectado, de la energía de la
señal acústica y de la distribución espectral de dicha señal.
Conociendo el tipo de evento acústico y la energía que llega a los
micrófonos se puede estimar la distancia a la que está la fuente del
evento acústico. Por otro lado, la oreja o pabellón auditivo
establece un filtro acústico que conforma y atenúa las señales
acústicas percibidas dotándolas de una menor energía y una
distribución espectral de su energía (distribución de energía en
bandas de frecuencia) característica. Es importante saber si la
fuente del evento acústico está situada detrás del oyente para
adaptar la estimación de la distancia a esta situación: considerando
una atenuación adicional debida al pabellón auditivo y no a una
mayor distancia a la fuente acústica.
El sistema para incorporar información acústica
binaural en un sistema visual de realidad aumentada, comprende:
- \bullet
- al menos dos micrófonos omnidireccionales configurados para captar señales acústicas binaurales de una escena;
- \bullet
- un módulo de extracción de características que comprende:
- \medcirc
- un módulo de extracción de características de las señales captadas por un primer micrófono configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;
- \medcirc
- un módulo de extracción de características de las señales captadas por un segundo micrófono configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;
- \medcirc
- un módulo de selección de características configurado para seleccionar un subconjunto de características a partir de las características extraídas;
- \bullet
- un módulo de caracterización de la fuente de sonido que comprende:
- \medcirc
- un módulo de detección del tipo de evento acústico configurado para detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;
- \medcirc
- un módulo de estimación de la distancia de la fuente configurado para estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema;
- \medcirc
- un módulo de localización de la fuente del evento acústico configurado para calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales y para localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;
- \bullet
- un módulo de realidad aumentada que comprende:
- \medcirc
- un módulo de codificación configurado para generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:
- \bullet
- seleccionar, de una base de datos, un dibujo asociado al tipo de evento acústico;
- \bullet
- determinar la zona de la imagen en la que se representará el dibujo a partir de la localización de la fuente acústica;
- \bullet
- determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acústico;
- \medcirc
- un módulo de combinación configurado para superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo de la escena;
- \medcirc
- un módulo de representación visual configurado para mostrar la señal visual combinada.
Preferentemente, el módulo de extracción de
características de las señales captadas por un primer micrófono y el
módulo de extracción de características de las señales captadas por
un segundo micrófono están configurados para extraer características
en el dominio del tiempo, comprendiendo, la tasa de cruces por cero,
la energía de la señal en esa trama y el retardo entre las señales
binaurales captadas, y, para extraer características en el dominio
de la frecuencia, comprendiendo el cálculo de los coeficientes LPC
(Linear Prediction Coding), los coeficientes MFC (Mel- Frequency
Cepstral), la energía en una selección previa de bandas de
frecuencias de la señal y el flujo espectral.
Preferentemente, el módulo de extracción de
características de las señales captadas por un primer micrófono y el
módulo de extracción de características de las señales captadas por
un segundo micrófono están configurados para realizar la selección
del subconjunto de características mediante LDA (Linear Discriminant
Analysis) o mediante árboles de decisión a partir de las
características extraídas.
Preferentemente, el sistema comprende una base
de datos configurada para aprender automáticamente las
características con mayor capacidad de discriminación. La base de
datos comprende ejemplos de eventos acústicos previamente
etiquetados con sus características y el tipo de evento que es
además de una pluralidad de reglas que definen la selección de un
dibujo asociado al tipo de evento acústico detectado. El proceso de
aprendizaje de la capacidad de discriminación de cada característica
se realiza analizando el tipo de evento y las características
extraídas para dicho evento.
Preferentemente, el módulo de detección del tipo
de evento acústico está configurado para realizar un reconocimiento
de patrones, comprendiendo dicho reconocimiento, calcular la
distancia entre el subconjunto de características seleccionadas y
cada patrón almacenado en la base de datos del sistema, obteniéndose
como tipo de evento acústico detectado aquel cuyo patrón ofrezca una
menor distancia con el subconjunto de características.
Preferentemente, el módulo de estimación de la
distancia de la fuente está configurado para estimar la distancia a
la que se encuentra la fuente del evento acústico a partir del tipo
de evento acústico detectado, de la energía de la señal acústica y
de la distribución espectral de dicha señal.
La presente invención abre un nuevo mundo de
posibilidades a las personas con discapacidad auditiva: permitiría
desarrollar sistemas de realidad aumentada que suplieran
parcialmente esta discapacidad, incluso llegando al desarrollo de
videojuegos más accesibles para personas sordas.
A continuación, para facilitar la comprensión de
la invención, a modo ilustrativo pero no limitativo se describirá
una realización de la invención que hace referencia a una serie de
figuras.
La figura 1 muestra el diagrama de bloques de la
realización preferida del sistema propuesto.
La figura 2 muestra una realización del sistema
propuesto.
La realización preferente de la invención
presenta el diagrama de bloques mostrado en la figura 1. Los módulos
que forman esta realización son los siguientes:
- \bullet
- El primer módulo consiste en un módulo de extracción de características 2 de las señales acústicas binaurales captadas por dos micrófonos omnidireccionales 1 situados en posiciones similares a la localización de los oídos de una persona. Este módulo comprende:
- \medcirc
- un módulo de extracción de características de las señales captadas por un primer micrófono 3. Las señales acústicas se digitalizan a una frecuencia de muestreo de, al menos, 16 Khz. Las muestras se agrupan en tramas (o secuencias de N muestras consecutivas) solapadas en el tiempo con el fin de extraer diferentes características de las señales para cada una de las tramas. Las características a extraer son tanto en el dominio del tiempo (como por ejemplo, tasa de cruces por cero, evolución de la energía o retardo entre señales) como en el dominio de la frecuencia, como por ejemplo, LPC (Linear Prediction Coeficients), MFCC (Mel-frequency cepstral coefficients), energías en subbandas de frecuencias o flujo espectral;
- \medcirc
- un módulo de extracción de características de las señales captadas por un segundo micrófono 4. Este módulo extrae características de forma similar pero independiente al módulo de extracción de características de las señales captadas por el primer micrófono 3;
- \medcirc
- un módulo de selección de características 5. Después de extraer las características de las señales acústicas binaurales captadas por los micrófonos omnidireccionales 1 se selecciona un subconjunto de características a partir de las características extraídas.
- \bullet
- El segundo módulo consiste en un módulo de caracterización de la fuente de sonido 6. Este módulo comprende:
- \medcirc
- un módulo de detección del tipo de evento acústico 7. Este módulo consiste en un sistema de reconocimiento de patrones que partiendo de las características extraídas en el módulo de extracción de características 2 decide el tipo de evento acústico ocurrido. Este sistema puede estar basado en mezclas de gaussianas (modelos Bayesianos) o redes neuronales;
- \medcirc
- un módulo de estimación de la distancia de la fuente 8. En función del tipo de evento acústico, de la energía de la señal acústica y de la distribución espectral de la energía de la señal, se puede hacer una estimación de la distancia de los micrófonos a la fuente del evento acústico;
- \medcirc
- un módulo de localización de la fuente del evento acústico 9. Utilizando información sobre la distancia de la fuente y calculando la dirección en la que se sitúa dicha fuente, es posible calcular su localización espacial. La evolución de esta localización a lo largo del tiempo pueda dar información sobre el movimiento de la fuente. Una característica muy útil para el cálculo de la dirección en la que se sitúa la fuente es el retardo con el que las señales acústicas llegan a uno u otro micrófono. Este retardo se puede calcular mediante un análisis de la correlación entre las señales obtenidas de ambos micrófonos omnidireccionales 1.
- \bullet
- Una vez estimadas las características del evento acústico (tipo de evento, distancia a la fuente del evento y localización de dicha fuente del evento) se procede a representar dicha información mediante un módulo de realidad aumentada 10. Este módulo comprende:
- \medcirc
- un módulo de codificación 11 que codifica visualmente la información del evento acústico, generando un video (secuencia de imágenes) con la representación visual del evento acústico. Para cada una de las imágenes que forman la secuencia de video, este módulo selecciona, de una base de datos, un dibujo asociado al evento acústico. El dibujo seleccionado y su color, depende del tipo de evento acústico a representar. Por otro lado, dependiendo de la localización de la fuente acústica, el dibujo se mostrará en una zona de la imagen diferente. Y finalmente, el tamaño del dibujo dependerá de la distancia a la que se encuentra la fuente del evento acústico. Las variaciones del tamaño tendrán un límite superior e inferior asociadas a una distancia máxima y mínima, respectivamente. Las imágenes resultantes mostrarán los dibujos de los eventos acústicos, siendo el resto de la imagen transparente;
- \medcirc
- un módulo de combinación 12 que superpone la secuencia de video generada artificialmente por el módulo de codificación 11 (y que incluye información sobre los eventos acústicos detectados) con las imágenes captadas por una o varias cámaras de vídeo 13 de la escena;
- \medcirc
- un módulo de representación visual 14 que muestra la señal visual combinada.
La figura 2 muestra un ejemplo de sistema visual
de realidad aumentada. El ejemplo consiste en unas gafas 15 con
micrófonos omnidireccionales 16 situados en sus patillas. Se puede
observar la representación de ciertos eventos acústicos: voz de
personas que están cerca y situadas a la derecha 17, voz de personas
que están más lejos 18 y ruido de un tren acercándose por la
izquierda 19.
En este ejemplo, el módulo de codificación 11 de
la información del evento acústico se realiza de la siguiente
manera:
- \bullet
- Según el tipo de evento acústico se representa una imagen o dibujo diferente, con un color diferente. El dibujo será lo menos invasivo posible para evitar que dificulte la visión de objetos reales. En la figura 2 se muestran algunos ejemplos de dibujos posibles: voz de personas que están cerca y situadas a la derecha 17, voz de personas que están más lejos 18 y ruido de un tren acercándose por la izquierda 19.
- \bullet
- La localización de la imagen o dibujo en pantalla dependerá de la localización de la fuente del evento acústico.
- \bullet
- Y finalmente, el tamaño de la imagen o dibujo ofrece información sobre la distancia a la que se encuentra la fuente del evento acústico.
La invención propuesta se puede utilizar en las
siguientes aplicaciones industriales:
- \bullet
- Diseño y fabricación de un sistema visual de realidad aumentada para la mejora de la interacción de las personas sordas en entornos urbanos. Por ejemplo en una estación de metro, las personas sordas podrían percibir visualmente algunos sonidos (como la llegada de un nuevo tren o alguna alarma acústica). En este tipo de aplicación podrían estar interesadas tanto las administraciones públicas, como las asociaciones de personas sordas.
- \bullet
- Las empresas de videojuegos podrían incorporar esta información visual para ofrecer juegos más accesibles para este colectivo.
- \bullet
- Finalmente, una aplicación muy interesante sería la conducción de un coche. Actualmente, las personas sordas pueden conducir un coche aunque no perciban las señales acústicas (como pitidos de otros coches). Con un sistema visual de realidad aumentada que incorpore información sobre los eventos acústicos, se podría hacer que las personas sordas percibieran visualmente eventos acústicos como los pitidos de otros coches.
Una vez descrita de forma clara la invención, se
hace constar que las realizaciones particulares anteriormente
descritas son susceptibles de modificaciones de detalle siempre que
no alteren el principio fundamental y la esencia de la
invención.
Claims (15)
1. Método para incorporar información acústica
binaural en un sistema visual de realidad aumentada,
caracterizado porque comprende las siguientes etapas:
- a)
- captar señales acústicas binaurales de una escena;
- b)
- digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal;
- c)
- agrupar N muestras consecutivas en tramas, siendo N un número configurable;
- d)
- extraer, de cada trama, una pluralidad de características que definen dicha trama;
- e)
- seleccionar un subconjunto de las características extraídas;
- f)
- detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;
- g)
- estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema de la energía de la señal acústica y de la distribución espectral de dicha señal;
- h)
- calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales;
- i)
- localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;
- j)
- codificar visualmente la información del evento acústico, generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:
- \bullet
- seleccionar, de una base de datos, un dibujo asociado al tipo de evento acústico;
- \bullet
- determinar la zona de la imagen en la que se representará el dibujo a partir de la localización de la fuente acústica;
- \bullet
- determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acús- tico;
- k)
- superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo (13);
- l)
- mostrar la señal visual combinada.
\vskip1.000000\baselineskip
2. Método para incorporar información acústica
binaural en un sistema visual de realidad aumentada, según la
reivindicación 1, caracterizado porque la extracción de
características en cada trama comprende, extraer características en
el dominio del tiempo, comprendiendo, la tasa de cruces por cero, la
energía de la señal en esa trama y el retardo entre las señales
binaurales captadas, y, extraer características en el dominio de la
frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear
Prediction Coding), los coeficientes MFC
(Mel-Frequency Cepstral), la energía en una
selección previa de bandas de frecuencias de la señal y el flujo
espectral.
3. Método para incorporar información acústica
binaural en un sistema visual de realidad aumentada, según
cualquiera de las reivindicaciones anteriores, caracterizado
porque la selección de un subconjunto de características se realiza
mediante la selección entre:
- \bullet
- aplicar LDA (Linear Discriminant Analysis) a partir de las características extraídas en la etapa d;
- \bullet
- aplicar árboles de decisión a partir de las características extraídas en la etapa d.
\vskip1.000000\baselineskip
4. Método para incorporar información acústica
binaural en un sistema visual de realidad aumentada, según
cualquiera de las reivindicaciones anteriores, caracterizado
porque el reconocimiento de patrones comprende calcular la distancia
entre el subconjunto de características seleccionadas y cada patrón
almacenado en la base de datos del sistema, obteniéndose como tipo
de evento acústico detectado aquel cuyo patrón ofrezca una menor
distancia con el subconjunto de características.
\global\parskip0.930000\baselineskip
5. Método para incorporar información acústica
binaural en un sistema visual de realidad aumentada, según
cualquiera de las reivindicaciones anteriores, caracterizado
porque la estimación de la distancia a la que se encuentra la fuente
del evento acústico se obtiene a partir del tipo de evento acústico
detectado, de la energía de la señal acústica y de la distribución
espectral de dicha señal.
6. Sistema para incorporar información acústica
binaural en un sistema visual de realidad aumentada,
caracterizado porque comprende:
- \bullet
- al menos dos micrófonos omnidireccionales (1) configurados para captar señales acústicas binaurales de una escena;
- \bullet
- un módulo de extracción de características (2) que comprende:
- \medcirc
- un módulo de extracción de características de las señales captadas por un primer micrófono (3) configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;
- \medcirc
- un módulo de extracción de características de las señales captadas por un segundo micrófono (4) configurado para digitalizar las señales acústicas captadas obteniendo una pluralidad de muestras de señal, agrupar N muestras consecutivas en tramas, siendo N un número configurable, y extraer, de cada trama, una pluralidad de características que definen dicha trama;
- \medcirc
- un módulo de selección de características (5) configurado para seleccionar un subconjunto de características a partir de las características extraídas;
- \bullet
- un módulo de caracterización de la fuente de sonido (6) que comprende:
- \medcirc
- un módulo de detección del tipo de evento acústico (7) configurado para detectar mediante un reconocimiento de patrones el tipo de evento acústico ocurrido en la escena analizada a partir del subconjunto de características seleccionadas y de una pluralidad de patrones previamente almacenados en una base de datos del sistema;
- \medcirc
- un módulo de estimación de la distancia de la fuente (8) configurado para estimar la distancia a la que se encuentra la fuente del evento acústico detectado a partir del tipo de evento acústico y de una pluralidad de características de señal previamente almacenadas en una base de datos del sistema;
- \medcirc
- un módulo de localización de la fuente del evento acústico (9) configurado para calcular la dirección en la que se sitúa la fuente del evento acústico a partir del retardo existente entre las señales acústicas captadas, de la diferencia de energía entre las señales captadas y de la distribución espectral de la energía de dichas señales y para localizar la fuente del evento acústico en la escena a partir de la distancia de la fuente estimada y de la dirección calculada en la que se sitúa dicha fuente;
- \bullet
- un módulo de realidad aumentada (10) que comprende:
- \medcirc
- un módulo de codificación (11) configurado para generar un vídeo a partir de una secuencia de imágenes, comprendiendo para cada imagen:
- \bullet
- seleccionar, de una base de datos, un dibujo asociado al tipo de evento acústico;
- \bullet
- determinar la zona de la imagen en la que se representará el dibujo a partir de la localización de la fuente acústica;
- \bullet
- determinar el tamaño del dibujo a partir de la distancia a la que se encuentra la fuente del evento acústico;
- \medcirc
- un módulo de combinación (12) configurado para superponer la secuencia de video generada con las imágenes captadas por al menos una cámara de vídeo (13) de la escena;
- \medcirc
- un módulo de representación visual (14) configurado para mostrar la señal visual combinada.
\vskip1.000000\baselineskip
7. Sistema para incorporar información acústica
binaural en un sistema visual de realidad aumentada, según la
reivindicación 6, caracterizado porque el módulo de
extracción de características de las señales captadas por un primer
micrófono (3) está configurado para extraer características en el
dominio del tiempo, comprendiendo, la tasa de cruces por cero, la
energía de la señal en esa trama y el retardo entre las señales
binaurales captadas, y, para extraer características en el dominio
de la frecuencia, comprendiendo el cálculo de los coeficientes LPC
(Linear Prediction Coding), los coeficientes MFC
(Mel-Frequency Cepstral), la energía en una
selección previa de bandas de frecuencias de la señal y el flujo
espectral.
\global\parskip1.000000\baselineskip
8. Sistema para incorporar información acústica
binaural en un sistema visual de realidad aumentada, según
cualquiera de las reivindicaciones 6-7,
caracterizado porque el módulo de extracción de
características de las señales captadas por un segundo micrófono (4)
está configurado para extraer características en el dominio del
tiempo, comprendiendo, la tasa de cruces por cero, la energía de la
señal en esa trama y el retardo entre las señales binaurales
captadas, y, para extraer características en el dominio de la
frecuencia, comprendiendo el cálculo de los coeficientes LPC (Linear
Prediction Coding), los coeficientes MFC
(Mel-Frequency Cepstral), la energía en una
selección previa de bandas de frecuencias de la señal y el flujo
espectral.
9. Sistema para incorporar información acústica
binaural en un sistema visual de realidad aumentada, según
cualquiera de las reivindicaciones 6-8,
caracterizado porque el módulo de extracción de
características de las señales captadas por un primer micrófono (3)
está configurado para realizar la selección del subconjunto de
características mediante LDA (Linear Discriminant Analysis) a partir
de las características extraídas.
10. Sistema para incorporar información acústica
binaural en un sistema visual de realidad aumentada, según
cualquiera de las reivindicaciones 6-9,
caracterizado porque el módulo de extracción de
características de las señales captadas por un segundo micrófono (4)
está configurado para realizar la selección del subconjunto de
características mediante LDA (Linear Discriminant Analysis) a partir
de las características extraídas.
11. Sistema para incorporar información acústica
binaural en un sistema visual de realidad aumentada, según
cualquiera de las reivindicaciones 6-10,
caracterizado porque el módulo de extracción de
características de las señales captadas por un primer micrófono (3)
está configurado para realizar la selección del subconjunto de
características mediante árboles de decisión a partir de las
características extraídas.
12. Sistema para incorporar información acústica
binaural en un sistema visual de realidad aumentada, según
cualquiera de las reivindicaciones 6-11,
caracterizado porque el módulo de extracción de
características de las señales captadas por un segundo micrófono (4)
está configurado para realizar la selección del subconjunto de
características mediante árboles de decisión a partir de las
características extraídas.
13. Sistema para incorporar información acústica
binaural en un sistema visual de realidad aumentada, según
cualquiera de las reivindicaciones 6-12,
caracterizado porque comprende una base de datos que
comprende eventos acústicos previamente etiquetados y una pluralidad
de reglas que definen la selección de un dibujo asociado al tipo de
evento acústico detectado.
14. Sistema para incorporar información acústica
binaural en un sistema visual de realidad aumentada, según
cualquiera de las reivindicaciones 6-13,
caracterizado porque el módulo de detección del tipo de
evento acústico (7) está configurado para realizar un reconocimiento
de patrones, comprendiendo dicho reconocimiento, calcular la
distancia entre el subconjunto de características seleccionadas y
cada patrón almacenado en la base de datos del sistema, obteniéndose
como tipo de evento acústico detectado aquel cuyo patrón ofrezca una
menor distancia con el subconjunto de características.
15. Sistema para incorporar información acústica
binaural en un sistema visual de realidad aumentada, según
cualquiera de las reivindicaciones 6-14,
caracterizado porque el módulo de estimación de la distancia
de la fuente (8) está configurado para estimar la distancia a la que
se encuentra la fuente del evento acústico a partir del tipo de
evento acústico detectado, de la energía de la señal acústica y de
la distribución espectral de dicha señal.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| ES201031215A ES2347517B2 (es) | 2010-08-04 | 2010-08-04 | Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada. |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| ES201031215A ES2347517B2 (es) | 2010-08-04 | 2010-08-04 | Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada. |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| ES2347517A1 ES2347517A1 (es) | 2010-10-29 |
| ES2347517B2 true ES2347517B2 (es) | 2011-05-18 |
Family
ID=42942297
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES201031215A Active ES2347517B2 (es) | 2010-08-04 | 2010-08-04 | Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada. |
Country Status (1)
| Country | Link |
|---|---|
| ES (1) | ES2347517B2 (es) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| FR3066634A1 (fr) * | 2017-05-16 | 2018-11-23 | Orange | Procede et equipement d'assistance auditive |
| MX2022011716A (es) | 2020-04-02 | 2022-10-07 | Dawn Ella Pierne | Sistemas y metodos de configuracion de energia acustica y visual. |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5029216A (en) * | 1989-06-09 | 1991-07-02 | The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration | Visual aid for the hearing impaired |
| WO2007063139A2 (en) * | 2007-01-30 | 2007-06-07 | Phonak Ag | Method and system for providing binaural hearing assistance |
| WO2009072040A1 (en) * | 2007-12-07 | 2009-06-11 | Koninklijke Philips Electronics N.V. | Hearing aid controlled by binaural acoustic source localizer |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000194726A (ja) * | 1998-10-19 | 2000-07-14 | Sony Corp | 情報処理装置及び方法、情報処理システム並びに提供媒体 |
-
2010
- 2010-08-04 ES ES201031215A patent/ES2347517B2/es active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5029216A (en) * | 1989-06-09 | 1991-07-02 | The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration | Visual aid for the hearing impaired |
| WO2007063139A2 (en) * | 2007-01-30 | 2007-06-07 | Phonak Ag | Method and system for providing binaural hearing assistance |
| WO2009072040A1 (en) * | 2007-12-07 | 2009-06-11 | Koninklijke Philips Electronics N.V. | Hearing aid controlled by binaural acoustic source localizer |
Also Published As
| Publication number | Publication date |
|---|---|
| ES2347517A1 (es) | 2010-10-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7337699B2 (ja) | 口の画像を入力コマンドと相互に関連付けるシステム及び方法 | |
| TWI543635B (zh) | Speech Acquisition Method of Hearing Aid System and Hearing Aid System | |
| US20220028406A1 (en) | Audio-visual sound enhancement | |
| CN108226854B (zh) | 提供后车的可视化信息的装置和方法 | |
| US20170188173A1 (en) | Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene | |
| GB2604964A (en) | Systems and methods for detecting symptoms of occupant illness | |
| KR101421046B1 (ko) | 안경 및 그 제어방법 | |
| CN111398965A (zh) | 基于智能穿戴设备的危险信号监控方法、系统和穿戴设备 | |
| KR20140033009A (ko) | 시각 장애인을 위한 광학 디바이스 | |
| JP2012029209A (ja) | 音処理システム | |
| JP3632099B2 (ja) | ロボット視聴覚システム | |
| US12207074B2 (en) | Method and system for detecting sound event liveness using a microphone array | |
| JP2023519495A (ja) | スマート・オーディオ・フォーカス制御を有する聴覚支援デバイス | |
| CN109031200A (zh) | 一种基于深度学习的声源空间方位检测方法 | |
| CH720407B1 (fr) | Procédé mis en œuvre par ordinateur et système pour avertir un utilisateur malvoyant de la présence d'un objet et/ou d'un obstacle | |
| CN111435574A (zh) | 用于重度听障者的沟通辅具系统 | |
| CN115240142A (zh) | 基于跨媒体的室外重点场所人群异常行为预警系统和方法 | |
| ES2347517B2 (es) | Metodo y sistema para incorporar informacion acustica binaural en un sistema visual de realidad aumentada. | |
| CN113432276B (zh) | 自动调节空调的方法、设备和空调 | |
| JP2013017555A (ja) | 環境情報伝達装置 | |
| KR101455830B1 (ko) | 안경 및 그 제어방법 | |
| US12264931B1 (en) | Navigation assistance using spatial audio | |
| CN107580785A (zh) | 头戴式音频采集模块 | |
| ES2692828T3 (es) | Procedimiento de asistencia en el seguimiento de una conversación para una persona con problemas de audición | |
| KR101794260B1 (ko) | 음성인식을 이용한 보안등 및 보안시스템 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EC2A | Search report published |
Date of ref document: 20101029 Kind code of ref document: A1 |
|
| FG2A | Definitive protection |
Ref document number: 2347517 Country of ref document: ES Kind code of ref document: B2 Effective date: 20110506 |