ES2377056T3 - Procedimiento de filtrado de los ruidos laterales no estacionarios para un dispositivo de audio multimicrófono, en particular un dispositivo telefónico "manos libres" para vehículo automóvil - Google Patents

Procedimiento de filtrado de los ruidos laterales no estacionarios para un dispositivo de audio multimicrófono, en particular un dispositivo telefónico "manos libres" para vehículo automóvil Download PDF

Info

Publication number
ES2377056T3
ES2377056T3 ES10166119T ES10166119T ES2377056T3 ES 2377056 T3 ES2377056 T3 ES 2377056T3 ES 10166119 T ES10166119 T ES 10166119T ES 10166119 T ES10166119 T ES 10166119T ES 2377056 T3 ES2377056 T3 ES 2377056T3
Authority
ES
Spain
Prior art keywords
probability
noise
transients
signal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10166119T
Other languages
English (en)
Inventor
Guillaume Vitte
Julie Seris
Guillaume Pinto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Parrot SA
Original Assignee
Parrot SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parrot SA filed Critical Parrot SA
Application granted granted Critical
Publication of ES2377056T3 publication Critical patent/ES2377056T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers
    • H04R3/005Circuits for transducers for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • H04R2201/107Monophonic and stereophonic headphones with microphone for two-way hands free communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Procedimiento de eliminación de ruido de una señal acústica ruidosa captada por una pluralidad de micrófonos de un dispositivo de audio multimicrófono que opera en un medio ruidoso, en particular un dispositivo telefónico manos libres"para vehículo automóvil, comprendiendo la señal acústica ruidosa una componente útil de voz procedente de una fuente de voz direccional y una componente parásita de ruido, incluyendo esta componente de ruido en sí misma una componente de ruido lateral no estacionaria direccional, procedimiento caracterizado por que consta, en el dominio de frecuencia para una pluralidad de bandas de frecuencias definidas para tramas temporales sucesivas de señal, de las siguientes etapas de procesamiento de la señal: a) combinación (12) de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos en una señal combinada ruidosa (X (k, l) ) ;b) a partir de la señal combinada ruidosa, estimación (14) de una componente de ruido pseudoestacionaria (V (k, l) ) contenida en esta señal combinada ruidosa;c) a partir de la componente de ruido pseudoestacionaria estimada en la etapa b) y de la señal combinada ruidosa, cálculo (16) de una probabilidad de presencia de transitorios (pTransitorio (k, l) ) en la señal combinada ruidosa;d) a partir de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos y de la probabilidad de presencia de transitorios calculada en la etapac), estimación (18) de una dirección principal de llegada de los transitorios ( (k, l) ) ;e) a partir de la dirección principal de llegada de los transitorios estimados en la etapa d) , cálculo (20) de una probabilidad de presencia de voz con respecto a un criterio espacial (pssp (k, l) ), adecuado para distinguir entre voz útil y ruido lateral entre los transitorios;f) a partir de la probabilidad de presencia de voz calculada en la etapa e) y de la señal combinada ruidosa, reducción selectiva del ruido (22) mediante la aplicación de una ganancia variable propia de cada banda de frecuencias y de cada trama temporal.

Description

Procedimiento de filtrado de los ruidos laterales no estacionarios para un dispositivo de audio multimicrófono, en particular un dispositivo telefónico “manos libres” para vehículo automóvil. 5 La invención se refiere al procesamiento de la voz en un medio ruidoso.
Se refiere en particular, pero de manera no limitativa, al procesamiento de las señales de voz captadas por dispositivos de telefonía para vehículos automóviles.
Estos aparatos constan de un micrófono (“micro”) sensible que capta no sólo la voz de usuario, sino también el ruido ambiental, ruido que constituye un elemento perturbador que puede ir, en algunos casos, hasta hacer incomprensibles las palabras del hablante. Ocurre lo mismo si se quieren aplicar técnicas de reconocimiento de voz, ya que es muy difícil llevar a cabo un reconocimiento de forma en palabras sumergidas en un nivel de ruido
15 elevado.
Esta dificultad ligada a los ruidos ambientales es particularmente molesta en el caso de los dispositivos “manos libres”. En particular, la distancia importante entre el micro y el hablante implica un nivel relativo de ruido elevado que dificulta la extracción de la señal útil sumergida en el ruido. Además, el medio muy ruidoso típico del entorno automóvil presenta características espectrales no estacionarias, es decir que evolucionan de manera imprevisible en función de las condiciones de conducción: paso sobre calzadas deformadas o con adoquinadas, autorradio en funcionamiento, etc.
Algunos de estos dispositivos prevén el uso de varios micros, generalmente dos micros, y utilizan la media de las
25 señales captadas, u otras operaciones más complejas, para obtener una señal con un nivel menor de perturbaciones. En particular, una técnica denominada conformación de haz permite crear por medios de software una directividad que mejora la relación señal/ruido, pero los rendimientos de esta técnica son muy limitados cuando se usan sólo dos micrófonos.
Por otra parte, las técnicas clásicas se adaptan sobre todo al filtrado de los ruidos difusos, estacionarios, que proceden de los alrededores del dispositivo y que se encuentran a niveles comparables en las señales captadas por los dos micros.
Por el contrario, un ruido no estacionario, es decir que evoluciona de manera imprevisible en función del tiempo, no 35 se discriminará de la voz y por lo tanto no se atenuará.
Ahora bien, en el entorno automóvil, estos ruidos no estacionarios y directivos son muy frecuentes: toque de bocina, paso de una motocicleta, adelantamiento de un coche, etc.
Una de las dificultades del filtrado de estos ruidos no estacionarios se debe a que sus características temporales y espaciales están muy próximas de las de la voz, de ahí la dificultad, por una parte, de estimar la presencia de una voz (ya que el hablante no está hablando todo el tiempo) y, por otra parte, de extraer la señal útil de voz en un entorno muy ruidoso tal como un habitáculo de vehículo automóvil.
45 Uno de los objetivos de la invención es aprovechar la estructura multimicrófono del dispositivo para llevar a cabo una detección espacial de estos ruidos no estacionarios y, a continuación, discriminar entre todas las componentes no estacionarias (en lo sucesivo, “transitorios”), las que son componentes de ruido no estacionario de las que son componentes de voz y, finalmente, tratar la señal captada para eliminar el ruido de la misma de manera eficaz minimizando a la vez las distorsiones introducidas por este procesamiento.
En lo sucesivo se denominará “ruido lateral” un ruido no estacionario directivo cuya dirección de llegada está alejada de la de la señal útil, y se denominará “cono privilegiado” la dirección o sector angular del espacio donde se encuentra la fuente de señal útil (la voz del hablante) respecto de la red de micros. Cuando una fuente sonora se manifieste fuera del cono privilegiado, se tratará por lo tanto de un ruido lateral, que se intentará atenuar.
55 El punto de partida de la invención consiste en asociar las propiedades de no estacionalidad temporal y frecuencial, por una parte, y de directividad espacial, por otra parte, para detectar un tipo de ruido que es normalmente difícil de discriminar de la voz y, a continuación, para deducir una probabilidad de presencia de la voz que servirá para atenuar este ruido.
Más concretamente, la invención tiene por objeto un procedimiento de eliminación de ruido de una señal acústica ruidosa captada por una pluralidad de micrófonos de un dispositivo de audio multimicrófono que opera en un medio ruidoso. La señal acústica ruidosa comprende una componente útil de voz procedente de una fuente de voz directiva y una componente parásita de ruido, incluyendo esta componente de ruido una componente de ruido
65 lateral no estacionaria directiva.
Tal procedimiento se divulga, por ejemplo, por 1. Cohen, Analysis of Two-Channel Generalized Sidelobe Canceller
(GSC) with Post-Filtering”, IEEE Transactions on Speech and Audio Processing, Vol. 11, nº 6, noviembre de 2003, páginas 684-699.
Esencialmente, y de manera característica de la invención, el procedimiento consta de las siguientes etapas de 5 procesamiento, ejecutadas en el dominio de frecuencia:
a) combinación de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos en una señal combinada ruidosa; b) a partir de la señal combinada ruidosa, estimación de una componente de ruido pseudoestacionaria contenida en esta señal combinada ruidosa; c) a partir de la componente de ruido pseudoestacionaria estimada en la etapa b) y de la señal combinada ruidosa, cálculo de una probabilidad de presencia de transitorios en la señal combinada ruidosa; d) a partir de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos y de la probabilidad de presencia de transitorios calculada en la etapa c), estimación de una dirección principal de
15 llegada de los transitorios; e) a partir de la dirección principal de llegada de los transitorios estimada en la etapa d), cálculo de una probabilidad de presencia de voz con respecto a un criterio espacial, propio para distinguir entre voz útil y ruido lateral entre los transitorios; f) a partir de la probabilidad de presencia de voz calculada en la etapa e) y de la señal combinada ruidosa, reducción selectiva del ruido mediante aplicación de una ganancia variable propia de cada banda de frecuencias y de cada trama temporal.
Según diversas formas de puesta en práctica subsidiarias ventajosas:
25 − el procesamiento de la etapa a) es un procesamiento de prefiltrado de tipo conformación fija de haz;
− el procesamiento de la etapa d) comprende las siguientes subetapas sucesivas: d1) partición del espacio en una pluralidad de sectores angulares; d2) para cada sector, evaluación de un estimador de dirección de llegada a partir de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos; d3) ponderación de cada estimador por la probabilidad de presencia de transitorios calculada en la etapa c); d4) a partir de los valores de estimadores ponderados calculados en la etapa d3), estimación de una dirección principal de llegada de los transitorios; y d5) validación o invalidación de la estimación de la dirección principal de llegada de los transitorios llevada a cabo en la etapa d4).
− en la etapa d5) la estimación sólo se valida si el valor del estimador ponderado que corresponde a la dirección estimada es superior a un umbral predeterminado, y/o en ausencia de máximo local del estimador ponderado 35 en el sector angular de origen de la señal de voz útil, y/o si el valor del estimador es creciente de manera
monótona en una pluralidad de tramas temporales sucesivas; − el procedimiento comprende además una etapa de mantenimiento de la estimación de la dirección principal de llegada durante un lapso de tiempo mínimo predeterminado;
− la probabilidad de presencia de voz calculada en la etapa e) es o bien una probabilidad binaria, que toma un valor de 1 ó 0 dependiendo de si la dirección principal de llegada de los transitorios estimada en la etapa d) está situada o no en el sector angular de origen de la señal de voz útil, o bien una probabilidad de valores múltiples, función de la desviación angular entre la dirección principal de llegada de los transitorios estimada en la etapa d) y la dirección de origen de la señal de voz útil;
− el procesamiento de la etapa f) es un procesamiento de reducción selectiva del ruido mediante la aplicación de 45 una ganancia de amplitud espectral logarítmica modificada optimizada OM-LSA.
A continuación se describirá un ejemplo de aplicación del procedimiento de la invención con referencia a la figura adjunta.
La Figura 1 es un esquema de bloques que muestra los diferentes módulos y funciones aplicadas por el procedimiento de la invención así como sus interacciones.
El procedimiento de la invención se aplica por medios de software, que se pueden descomponer y esquematizar mediante un cierto número de módulos 10 a 24 ilustrados en la Figura 1.
55 Estos procesamientos se aplican en forma de algoritmos apropiados ejecutados por un microcontrolador o un procesador digital de señal. Aunque, por motivos de claridad, estos diversos procesamientos se presentan en forma de distintos módulos, aplican elementos comunes y corresponden en la práctica a una pluralidad de funciones globalmente ejecutadas por un mismo software.
La señal de la que se desea eliminar el ruido procede de una pluralidad de señales captadas por una red de micros (que, en la configuración mínima, puede ser simplemente una red de dos micros) dispuestos según una configuración predeterminada.
65 La red de micros capta la señal emitida por la fuente de señal útil (señal de voz) y la diferencia de posición entre los micros induce un conjunto de desfases y variaciones de amplitud en el registro de las señales emitidas por la fuente
de señal útil. Más concretamente, el micro de índice n emite una señal:
5 donde an es la atenuación de amplitud debida a la pérdida de energía entre la posición de la fuente sonora s y el micro, τn es el desfase entre la señal emitida y recibida por el micro y vn representa el valor del campo de ruido difuso en la posición del micro.
En la medida en que la fuente se encuentra alejada al menos algunos centímetros de los micros, se podrá llevar a
10 cabo la aproximación que la fuente sonora emite una onda plana. Los retardos τn se podrán entonces calcular a partir del ángulo 8s, definido como el ángulo entre las mediatrices de las parejas de micros (n, m) y la dirección de referencia correspondiente a la fuente s de señal útil. Cuando el sistema considerado consta de dos micros cuya mediatriz corta la fuente, el ángulo 8s es nulo.
15 Transformada de Fourier de las señales captadas por los micros (bloques 10)
La señal en el dominio de tiempo xn(t) procedente de cada uno de los N micros se digitaliza, se divide en tramas de T puntos temporales, aventanada temporalmente por una ventana de tipo Hanning, y luego la transformada de Fourier rápida FFT (transformada a corto plazo) Xn(k,l) se calcula para cada una de estas señales:
con :
25 1 siendo el índice de la trama temporal, k siendo el índice de la banda de frecuencias, y fk siendo la frecuencia central de la banda de frecuencia de índice k.
Constitución de una señal combinada con ruido parcialmente eliminado (bloque 12)
30 Las señales Xn(k,l) pueden combinarse entre sí mediante una técnica sencilla de prefiltrado por conformación de haz del tipo Delay and Sum, que se aplica para obtener una señal combinada X(k,l) con ruido parcialmente eliminado:
Cabe resaltar que, concretamente, al estar limitado el número de micros, este procesamiento sólo proporciona una ligera mejoría de la relación señal/ruido, del orden de 1 dB solamente.
40 Cuando el sistema considerado consta de dos micros cuya mediatriz corta la fuente, el ángulo 8s es nulo y se trata de una simple media que se realiza en los dos micrófonos.
Estimación del ruido pseudoestacionario (bloque 14)
45 Esta etapa tiene por objeto calcular una estimación de la componente de ruido pseudoestacionario Vˆ(k,l) presente en la señal X(k,l).
Existe un gran número de publicaciones acerca de este tema, siendo en efecto la estimación y la reducción del ruido pseudoestacionario un problema clásico bastante bien resuelto. Diferentes procedimientos son eficaces y 50 pueden utilizarse para obtener Vˆ(k,l), en particular un algoritmo de estimación de la energía de la componente de ruido pseudoestacionario con promediación recursiva mediante control de los mínimos (MCRA) como el descrito por
I. Cohen y B. Berdugo, Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement, IEEE Signal Processing Letters, Vol. 9, nº 1, páginas 12-15, enero de 2002.
55 Cálculo de la probabilidad de presencia de los transitorios (bloque 16)
Los “transitorios” designan todas las señales no estacionarias, incluyendo tanto la voz útil como los ruidos no estacionarios esporádicos, que pueden tener una energía equivalente o a veces superior a la voz útil (paso de un vehículo, sirena, claxon, voz de otras personas, etc.).
5 Es posible detectar estos transitorios con la ayuda de la estimación establecida anteriormente de la componente de ruido pseudoestacionario Vˆ(k,l), sustrayendo esta última de la señal global X(k,l).
Más adelante se verá (descripción detallada de los bloques 18 y 20) de qué manera es posible discriminar de entre
10 estos transitorios los que corresponden a la voz útil y los que corresponden a ruidos no estacionarios y que tienen características similares a la voz útil. El procesamiento llevado a cabo por el bloque 16 consiste solamente en calcular una probabilidad pTransitorio(k,l) de presencia de señales transitorias, sin distinción entre voz útil y ruidos parásitos no estacionarios. El algoritmo es el siguiente:
15 Para cada trama I y para cada banda de frecuencia k,
(i)
calcular la Relación Transitorios-Estacionarios:
(ii)
Si TSR(k,l) : TSRmin:
pTransitorio(k,l) = 0
(iii) Si TSR(k,1) � TSRmax:
pTransitorio(k,l) = 1
30 (iv) Si TSRmin < TSR(k,l) < TSRmax:
Las constantes TSRmin y TSRmax se eligen de manera que se correspondan con situaciones típicas, próximas a la realidad.
35 Cálculo de la dirección de llegada de los transitorios (bloque 18)
Este cálculo aprovecha el hecho de que, a diferencia de la componente pseudoestacionaria del ruido que es difusa, los transitorios son a menudo directivos, es decir, procedentes de una fuente sonora puntual (como la boca del
40 hablante para la voz útil, o el motor de una motocicleta para un ruido lateral). Por lo tanto es conveniente calcular la dirección de llegada de estas señales, que en general se definirá correctamente, y comparar esta dirección de llegada con el ángulo 8s correspondiente a la dirección de origen de voz útil), para determinar si la señal no estacionaria considerada es útil o parásita, y efectuar de este modo la discriminación entre voz útil y ruido no estacionario.
45 La primera etapa consiste en estimar la dirección de llegada del transitorio. El procedimiento utilizado aquí se basa en el uso de la probabilidad de presencia de los transitorios pTransitorio(k,l) determinada por el bloque 18 de la manera expuesta más arriba.
50 Más concretamente, se lleva a cabo una partición del espacio en sectores angulares correspondiendo cada uno a una dirección definida por un ángulo 8i, i ∈ [1, Μ], (por ejemplo, M = 19, con el conjunto de ángulos {-90º, -80º, …, 0º, …, +80º, +90º}). Se observará que no hay ninguna relación entre el número N de micros y el número M de ángulos probados. Por ejemplo, es totalmente posible probar una decena de ángulos (M = 10) con una sola pareja de micros (N=2).
55 Cada ángulo 8i se prueba para determinar el que está más próximo a la dirección de llegada de la señal no estacionaria estudiada. Para esto, se considera cada pareja de micros (n, m) y se calcula un estimador de dirección de llegada Pn,m(8i,k,l) correspondiente, cuyo módulo será máximo cuando el ángulo 8i probado sea el más próximo a la dirección de llegada del transitorio.
con In,m siendo la distancia entre los micros de índices n y m , y siendo c la celeridad del sonido.
Un primer procedimiento, clásico, consiste en tomar para la estimación de la dirección de llegada el ángulo que maximiza el módulo de este estimador, es decir:
Otro procedimiento, utilizado aquí de manera preferida, consiste en ponderar el estimador Pn,m(8i,k,l) por la probabilidad de presencia de transitorios pTransitorio(k,l) y definir una nueva estrategia de decisión. El estimador de 15 dirección de llegada correspondiente será:
El estimador puede promediarse en las parejas de micros (n,m):
La integración de la probabilidad de presencia de transitorios en el estimador de dirección de llegada presenta tres ventajas importantes:
− la estimación de dirección tiene como objetivo las partes no estacionarias de la señal (donde la probabilidad pTransitorio(k,l) es próxima a 1), cuya dirección de llegada está bien definida, lo cual hace que la estimación sea coherente;
25 − la estimación de dirección es robusta con respecto al ruido difuso (donde la probabilidad pTransitorio(k,l) es próxima a cero), lo que normalmente perturba las estimaciones de dirección de llegada;
− la fiabilidad del estimador PNuevon,m (ai,k,l) permite distinguir varias señales no estacionarias que corresponden a diferentes direcciones y simultáneamente presentes (se verá más abajo que esta distinción puede realizarse por banda de frecuencias o por análisis de los máximos angulares locales en una misma banda de frecuencias). De este modo, si se tiene al mismo tiempo una señal de voz útil y un ruido lateral potente, se detectarán los dos tipos de señal, evitando que la señal de voz útil concomitante se elimine por error en el resto del proceso, aunque su energía sea baja.
Ahora se explicitarán las reglas de decisión que permiten a partir de Pnuevo:
35 − o bien proporcionar una estimación (k,l) de la dirección de llegada del transitorio, − o bien indicar que no puede proporcionarse ninguna estimación de dirección de llegada, si estas reglas no se
cumplen.
P (θ ,k,)
1º) Significado de PNuevo(8max,k,l),(siendo 8max el ángulo que maximiza el valor )
Nuevo i
Regla 1:
PNuevo (θmax ,k,l)
Una estimación de dirección sólo puede proporcionarse si sobrepasa un umbral dado PMIN,
45 Esta primera regla permite asegurar que en la parte (k,l) de la señal considerada, la probabilidad de presencia de un transitorio y el nivel de intercorrelación son lo bastante elevados para que la estimación sea coherente.
2º) Monotonía de PNuevo en el intervalo |8s – 8max; 8max| (para aligerar las notaciones, en lo sucesivo se retirarán las barras de módulo de PNuevo)
Regla 2:
Si 8max está fuera del cono privilegiado, una estimación de ángulo sólo será validada si PNuevo aumenta de 55 manera monótona en el intervalo [8s – 8max; 8max].
Esta segunda regla analiza el contenido del “cono privilegiado”, correspondiente al sector angular en el cual está centrada la fuente s y que presenta una extensión angular de 80. Este cono privilegiado se define mediante los ángulos
tales que |8 -8s| �80.
El “ruido lateral” corresponderá a una señal cuya dirección de llegada es exterior al cono privilegiado, y se considerará por lo tanto que un ruido lateral está presente si |8max – 8s| sobrepasa el umbral 80. Para validar esta detección de un ruido lateral, hay que verificar que una señal de voz útil no se encuentra simultáneamente en la entrada del sistema.
5 Para esto, PNuevo(8mzx,k,l) se confronta con los valores de PNuevo(8i,k,l) obtenidos para otros ángulos, en particular los que pertenecen al cono privilegiado. La regla permite de este modo garantizar que no hay ningún máximo local en el cono privilegiado.
3º) Fiabilización de la detección de un ruido lateral
Regla 3:
Si 8max se encuentra fuera del cono privilegiado por primera vez en la trama I considerada, una estimación de ángulo solo se validará si:
Si se detecta un ruido lateral, esta tercera regla tiene en cuenta las tramas anteriores para evitar las activaciones falsas. Se aplica sólo a la primera trama de un presunto ruido lateral, y verifica que PNuevo(8max, k,l) aumente de manera significativa con respecto a los datos correspondientes obtenidos en las cinco tramas anteriores. Los parámetros α1 y α2 se eligen para que correspondan a situaciones típicas, próximas a la realidad. Si se
25 cumplen las tres reglas 1 a 3 anteriores, la estimación (k,l) de la dirección de llegada vendrá dada por:
(k,l) = 8max.
4º) Estabilización de la detección de un ruido lateral:
Las dos últimas reglas están destinadas a impedir los cortes en la detección de un ruido lateral. Después de un periodo de detección, siguen manteniendo este estado durante un lapso de tiempo denominado de persistencia, aunque ya no se verifiquen las reglas de decisión anteriores. Esto permite detectar los eventuales periodos de baja energía de un ruido no estacionario.
35 Regla 4:
Si (k,l-1) está fuera del cono privilegiado (trama anterior), si cpt1 : TiempoPersistencia1, (es decir, el periodo de persistencia no ha terminado), y si PNuevo(8(k,l-1), k,l) es superior a un umbral dado P1 entonces la estimación de ángulo se mantiene y cpt1 se incrementa.
Regla 5:
Si 2 : TiempoPersistencia2 y si
es superior a un umbral dado P2, entonces la estimación de ángulo se mantiene
y cpt2 se incrementa.
Si una de estas dos últimas reglas (Regla nº 4 o nº 5) se cumple, es prioritaria, y de ella resulta que : (k,l)= (k,l-1),
por consiguiente con corrección eventual del valor de (k,l), que no será igual a max pero que se mantendrá en su valor anterior.
Resumiendo, el cálculo de (k,l) sigue tres casos posibles:
(i) si se cumple la regla nº 4 o nº 5, entonces (k,l) = (k,l-1); 55 (ii) en caso contrario (no se cumplen ni la regla nº 4, ni la regla nº 5), si se cumplen las reglas nº 1, nº 2 y nº
3, entonces (k,l) = 8max;
(iii) si no (no se cumplen ni la regla nº 4, ni la regla nº 5, y al menos no se cumple una de las reglas nº 1, nº 2 y nº 3), entonces no se define (k,l).
En una variante, el estimador PNuevo es media en paquetes de bandas de frecuencias K1, K2..., Kp:
Cj designando el cardinal de Kj.
5 En este caso, la estimación de ángulo 8max no se realiza en cada banda de frecuencias, sino en cada paquete Kj de bandas de frecuencias.
Se observará asimismo que un enfoque de “banda completa” es posible (p=1, estimándose un solo ángulo por 10 trama).
Finalmente se observará que el procedimiento propuesto es compatible con el uso de micros unidireccionales. En este caso, será habitual utilizar una red lineal (micros alineados y cuyas direcciones privilegiadas son idénticas) y orientada hacia el hablante. En este caso, el valor de 8s es por lo tanto naturalmente conocido e igual a cero.
Cálculo de una probabilidad de presencia de voz con criterio espacial (bloque 20)
La siguiente etapa, característica del procedimiento de la invención, consiste en calcular una probabilidad de presencia de voz en función de la estimación de dirección de llegada (k,l) obtenida de la manera indicada más 20 arriba.
Se trata de una probabilidad denotada como pspa(k,l), que tiene por lo tanto como novedad ser calculada con un
criterio espacial (a partir de (k,l)), y que permitirá distinguir entre las señales no estacionarias la voz útil de los ruidos parásitos. Esta probabilidad se utilizará entonces en una estructura clásica de eliminación de ruido (bloque 25 22, descrito a continuación).
La probabilidad pspa(k,l) puede calcularse de diferentes maneras, dando un valor binario o bien múltiples valores. A continuación se darán dos ejemplos de cálculo de pspa(k,l), sabiendo que pueden utilizarse otras leyes para
expresar pspa(k,l) a partir de (k,l). 30 1º) Cálculo de una probabilidad Pspa(k,l) binaria:
La probabilidad de presencia de voz tomará los valores '0' o '1':
35 − valdrá '0' cuando se detecte un ruido lateral, es decir un transitorio procedente de una dirección exterior al cono privilegiado; − valdrá '1' cuando la dirección de llegada del transitorio se encuentre en el interior del cono privilegiado, o cuando no se haya podido realizar ninguna estimación fiable en esta dirección.
40 El algoritmo correspondiente es el siguiente:
Si (k,l) está en el interior del cono privilegiado (| (k,l) -8s| �80) entonces pspa(k,l) = 1
Si (k,l) está en el exterior del cono privilegiado (| (k,l) -8s| > 80) entonces pspa(k,l) = 0
Si (k,l) no se define, entonces pspa(k,l) = 1 45 2º) Cálculo de una probabilidad pspa(k,l) con valores continuos en [0;1]:
Es posible utilizar para pspa(k,l) un cálculo progresivo, por ejemplo según el siguiente algoritmo:
50 Si (k,l) está en el interior del cono privilegiado |( (k,l) -8s|
Si (k,l) está en el exterior del cono privilegiado (| (k,1) -8s| > 80) entonces
Si (k,l) no se define, entonces pspa(k,l) = 1
Reducción de ruido lateral (bloque 22)
55 La probabilidad pspa(k,l) de presencia de voz calculada en el bloque 20, que depende de la probabilidad pTransitorio(k,l) de presencia de transitorios calculada en el bloque 16, se va a utilizar como parámetro de entrada en una técnica clásica de eliminación de ruido.
Se sabe que la probabilidad de presencia de voz es un estimador crucial para el buen funcionamiento de un algoritmo de eliminación de ruido, ya que sirve de base a la buena estimación del ruido y el cálculo de una ganancia óptima eficaz. Puede utilizarse de manera ventajosa un procedimiento de eliminación de ruido de tipo OM-LSA (Optimally Modified - Log Spectral Amplitude) como el descrito por I. Cohen Optimal Speech Enhancement Under
5 Signal Presence Uncertainty Using Log-Spectral Amplitude Estimator, IEEE Signal Processing Letters, Vol. 9, nº 4, abril de 2002.
Esencialmente, la aplicación de una ganancia denominada “ganancia LSA” (Log-Spectral Amplitude) permite minimizar la distancia cuadrática media entre el logaritmo de la amplitud de la señal estimada y el logaritmo de la amplitud de la señal de voz original. Este segundo criterio se muestra superior al primero ya que la distancia elegida es más adecuada al comportamiento del oído humano y da por lo tanto cualitativamente mejores resultados. En todos los casos, la idea esencial es disminuir la energía de las componentes de frecuencia muy parasitadas aplicándoles una ganancia baja, dejando a la vez intactas (por aplicación de una ganancia igual a 1) las que lo están poco o nada.
15 El algoritmo “OM-LSA” (Optimally-Modified Log-Spectral Amplitude) mejora el cálculo de la ganancia LSA que ha de aplicarse ponderándola por la probabilidad condicional de presencia de voz.
En este procedimiento, la probabilidad de presencia de voz interviene en dos momentos importantes, para la estimación de la energía del ruido y para el cálculo de la ganancia final, y la probabilidad pspa(k,l) se utilizará a estos dos niveles.
Si se denota como λˆ(k,l)la estimación de la densidad espectral de potencia del ruido, esta estimación viene
Ruido
con:
Puede observarse aquí que la probabilidad pspa(k,l) modula el factor de olvido en la estimación del ruido, que se actualiza más rápidamente en la señal ruidosa X(k,l) cuando la probabilidad de voz es baja, condicionando este
mecanismo totalmente la calidad de λˆ(k,l).
Ruido
35 La ganancia de eliminación de ruido GOM-LSI(k,l) viene dada por:
GH1(k,l) siendo una ganancia de eliminación de ruido (cuyo cálculo depende de la estimación del ruido λˆ )
Ruido
descrita en el artículo anteriormente mencionado de Cohen, y Gmin siendo una constante correspondiente a la eliminación de ruido aplicada cuando se considera la voz como ausente.
45 Se observa aquí que la probabilidad pspa(k,l) desempeña una función importante en la determinación de la ganancia GOM-LSA(k,l). En particular, cuando esta probabilidad es nula, la ganancia es igual a Gmin y se aplica una reducción de ruido máxima: si por ejemplo se elige un valor de 20 dB para Gmin, los ruidos no estacionarios detectados anteriormente se atenúan en 20 dB.
La señal sin ruidos S(k,l) a la salida del bloque 22 viene dada por:
55 Se observará que comúnmente tal estructura de eliminación de ruido produce un resultado poco natural y agresivo sobre los ruidos no estacionarios, que se confunden con la voz útil. Uno de los principales intereses de la presente invención, es eliminar eficazmente estos ruidos no estacionarios.
Por otra parte, es posible utilizar en las expresiones anteriores una probabilidad de presencia de voz híbrida phíbrida(k,l), es decir, calculada con la ayuda de pspa(k,l) combinada con otra probabilidad de presencia de voz p(k,l), por ejemplo calculada según el procedimiento descrito en el documento WO 2007/099222 A1 (Parrot SA). Se obtiene que:
Esta probabilidad híbrida permite beneficiarse de la localización de los ruidos no estacionarios asociada a los pequeños valores de pspa(k,l), y completar la estimación de la probabilidad phíbrida(k,l) en las partes (k,l) donde la
5 estimación de dirección de llegada (k,l) no se ha definido (produciendo una probabilidad pspa(k,l) forzada en el valor 1 por seguridad).
La probabilidad híbrida phíbrida(k,l) integra de este modo a la vez los ruidos no estacionarios detectados por pspa(k,l) y los otros ruidos (por ejemplo pseudoestacionarios) detectados por p(k,l).
10 Reconstitución temporal de la señal (bloque 24)
La última etapa consiste en aplicar a la señal S(k,l) una transformada de Fourier rápida inversa iFFT para obtener en el dominio de tiempo la señal de voz con ruido eliminado sˆ(t).

Claims (9)

  1. REIVINDICACIONES
    1. Procedimiento de eliminación de ruido de una señal acústica ruidosa captada por una pluralidad de micrófonos de un dispositivo de audio multimicrófono que opera en un medio ruidoso, en particular un dispositivo
    5 telefónico “manos libres” para vehículo automóvil, comprendiendo la señal acústica ruidosa una componente útil de voz procedente de una fuente de voz direccional y una componente parásita de ruido, incluyendo esta componente de ruido en sí misma una componente de ruido lateral no estacionaria direccional, procedimiento caracterizado por que consta, en el dominio de frecuencia para una pluralidad de bandas de frecuencias definidas para tramas temporales sucesivas de señal, de las siguientes etapas de procesamiento de la señal:
    a) combinación (12) de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos en una señal combinada ruidosa (X(k,l)); 15 b) a partir de la señal combinada ruidosa, estimación (14) de una componente de ruido pseudoestacionaria
    (Vˆ(k,l))contenida en esta señal combinada ruidosa; c) a partir de la componente de ruido pseudoestacionaria estimada en la etapa b) y de la señal combinada ruidosa, cálculo (16) de una probabilidad de presencia de transitorios (pTransitorio(k,l)) en la señal combinada ruidosa; d) a partir de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos y de la probabilidad de presencia de transitorios calculada en la etapa c), estimación (18) de una dirección
    principal de llegada de los transitorios ( (k,l)); e) a partir de la dirección principal de llegada de los transitorios estimados en la etapa d), cálculo (20) de una probabilidad de presencia de voz con respecto a un criterio espacial (pssp(k,l)), adecuado para
    25 distinguir entre voz útil y ruido lateral entre los transitorios; f) a partir de la probabilidad de presencia de voz calculada en la etapa e) y de la señal combinada ruidosa, reducción selectiva del ruido (22) mediante la aplicación de una ganancia variable propia de cada banda de frecuencias y de cada trama temporal.
  2. 2.
    El procedimiento de la reivindicación 1, en el que el procesamiento de la etapa a) es un procesamiento de prefiltrado de tipo conformación fija de haz.
  3. 3.
    El procedimiento de la reivindicación 1, en el que el procesamiento de la etapa d) comprende las siguientes subetapas sucesivas:
    35 d1) partición del espacio en una pluralidad de sectores angulares; d2) para cada sector, evaluación de un estimador de dirección de llegada a partir de la pluralidad de señales captadas por la pluralidad correspondiente de micrófonos; d3) ponderación de cada estimador por la probabilidad de presencia de transitorios calculada en la etapa c); d4) a partir de los valores de estimadores ponderados calculados en la etapa d3), estimación de una dirección principal de llegada de los transitorios; d5) validación o invalidación de la estimación de la dirección principal de llegada de los transitorios llevada a cabo en la etapa d4).
  4. 4.
    El procedimiento de la reivindicación 3, en el que, en la etapa d5), la estimación sólo se valida si el valor del estimador ponderado que corresponde a la dirección estimada es superior a un umbral predeterminado.
  5. 5.
    El procedimiento de la reivindicación 3, en el que, en la etapa d5), la estimación sólo se valida en ausencia de un máximo local del estimador ponderado en el sector angular de origen de la señal de voz útil.
  6. 6.
    El procedimiento de la reivindicación 3, en el que, en la etapa d5), la estimación sólo se valida si el valor del estimador es creciente de manera monótona en una pluralidad de tramas temporales sucesivas.
    55 7. El procedimiento de la reivindicación 3, que comprende además una etapa de mantenimiento de la estimación de la dirección principal de llegada durante un periodo de tiempo mínimo predeterminado.
  7. 8.
    El procedimiento de la reivindicación 1, en el que la probabilidad de presencia de voz calculada en la etapa e) es una probabilidad binaria, que toma un valor de 1 ó 0 dependiendo de si la dirección principal de llegada de los transitorios estimada en la etapa d) está situada o no en el sector angular de origen de la señal de voz útil.
  8. 9.
    El procedimiento de la reivindicación 1, en el que la probabilidad de presencia de voz calculada en la etapa
    e) es una probabilidad de múltiples valores, función de la desviación angular entre la dirección principal de 65 llegada de los transitorios estimada en la etapa d) y la dirección de origen de la señal de voz útil;
  9. 10. El procedimiento de la reivindicación 1, en el que el procesamiento de la etapa f) es un procesamiento de reducción selectiva del ruido mediante la aplicación de una ganancia de amplitud espectral logarítmica modificada optimizada OM-LSA.
    ptransitorio (k,l)
    ESTIMACIÓN RUIDO PSEUDOESTACIONAR. SEÑAL RUIDOSA
ES10166119T 2009-07-23 2010-06-16 Procedimiento de filtrado de los ruidos laterales no estacionarios para un dispositivo de audio multimicrófono, en particular un dispositivo telefónico "manos libres" para vehículo automóvil Active ES2377056T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0955133 2009-07-23
FR0955133A FR2948484B1 (fr) 2009-07-23 2009-07-23 Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile

Publications (1)

Publication Number Publication Date
ES2377056T3 true ES2377056T3 (es) 2012-03-22

Family

ID=41683233

Family Applications (1)

Application Number Title Priority Date Filing Date
ES10166119T Active ES2377056T3 (es) 2009-07-23 2010-06-16 Procedimiento de filtrado de los ruidos laterales no estacionarios para un dispositivo de audio multimicrófono, en particular un dispositivo telefónico "manos libres" para vehículo automóvil

Country Status (5)

Country Link
US (1) US8370140B2 (es)
EP (1) EP2293594B1 (es)
AT (1) ATE532345T1 (es)
ES (1) ES2377056T3 (es)
FR (1) FR2948484B1 (es)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
JP5974901B2 (ja) * 2011-02-01 2016-08-23 日本電気株式会社 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
US9626982B2 (en) * 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
GB2491173A (en) * 2011-05-26 2012-11-28 Skype Setting gain applied to an audio signal based on direction of arrival (DOA) information
FR2976710B1 (fr) * 2011-06-20 2013-07-05 Parrot Procede de debruitage pour equipement audio multi-microphones, notamment pour un systeme de telephonie "mains libres"
GB2493327B (en) 2011-07-05 2018-06-06 Skype Processing audio signals
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals
US10107887B2 (en) * 2012-04-13 2018-10-23 Qualcomm Incorporated Systems and methods for displaying a user interface
US8676579B2 (en) * 2012-04-30 2014-03-18 Blackberry Limited Dual microphone voice authentication for mobile device
JP6114915B2 (ja) * 2013-03-25 2017-04-19 パナソニックIpマネジメント株式会社 音声入力選択装置及び音声入力選択方法
US9449610B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
WO2016029469A1 (en) * 2014-08-29 2016-03-03 SZ DJI Technology Co., Ltd. An unmanned aerial vehicle (uav) for collecting audio data
US9979724B2 (en) 2015-02-06 2018-05-22 NXT-ID, Inc. Distributed method and system to improve collaborative services across multiple devices
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US10419428B2 (en) 2015-07-05 2019-09-17 NXT-ID, Inc. System and method to authenticate electronics using electronic-metrics
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
EP3732680B1 (en) * 2017-12-29 2025-02-19 Harman International Industries, Incorporated Acoustical in-cabin noise cancellation system for far-end telecommunications
CN112335261B (zh) 2018-06-01 2023-07-18 舒尔获得控股公司 图案形成麦克风阵列
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US10699727B2 (en) 2018-07-03 2020-06-30 International Business Machines Corporation Signal adaptive noise filter
CN108985234B (zh) * 2018-07-19 2021-08-31 沈阳建筑大学 一种适用于非高斯信号的贝叶斯小波包降噪方法
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
JP7572964B2 (ja) 2019-03-21 2024-10-24 シュアー アクイジッション ホールディングス インコーポレイテッド 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
CN109949810B (zh) * 2019-03-28 2021-09-07 荣耀终端有限公司 一种语音唤醒方法、装置、设备及介质
TW202101422A (zh) 2019-05-23 2021-01-01 美商舒爾獲得控股公司 可操縱揚聲器陣列、系統及其方法
WO2020243471A1 (en) 2019-05-31 2020-12-03 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
CN114467312A (zh) 2019-08-23 2022-05-10 舒尔获得控股公司 具有改进方向性的二维麦克风阵列
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
CN111564161B (zh) * 2020-04-28 2023-07-07 世邦通信股份有限公司 智能抑制噪音的声音处理装置、方法、终端设备及可读介质
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
JP7814400B2 (ja) 2021-01-28 2026-02-16 シュアー アクイジッション ホールディングス インコーポレイテッド ハイブリッドオーディオビーム形成システム
US12452584B2 (en) 2021-01-29 2025-10-21 Shure Acquisition Holdings, Inc. Scalable conferencing systems and methods
US12542123B2 (en) 2021-08-31 2026-02-03 Shure Acquisition Holdings, Inc. Mask non-linear processor for acoustic echo cancellation
US12289584B2 (en) 2021-10-04 2025-04-29 Shure Acquisition Holdings, Inc. Networked automixer systems and methods
EP4427465A1 (en) 2021-11-05 2024-09-11 Shure Acquisition Holdings, Inc. Distributed algorithm for automixing speech over wireless networks
US12250526B2 (en) 2022-01-07 2025-03-11 Shure Acquisition Holdings, Inc. Audio beamforming with nulling control system and methods
US12598261B2 (en) 2022-09-28 2026-04-07 Shure Acquisition Holdings, Inc. Wideband doubletalk detection for optimization of acoustic echo cancellation

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2687496B1 (fr) * 1992-02-18 1994-04-01 Alcatel Radiotelephone Procede de reduction de bruit acoustique dans un signal de parole.
JP3453898B2 (ja) * 1995-02-17 2003-10-06 ソニー株式会社 音声信号の雑音低減方法及び装置
US6535666B1 (en) * 1995-06-02 2003-03-18 Trw Inc. Method and apparatus for separating signals transmitted over a waveguide
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
US6130949A (en) * 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
FI114422B (fi) * 1997-09-04 2004-10-15 Nokia Corp Lähteen puheaktiviteetin tunnistus
US6192134B1 (en) * 1997-11-20 2001-02-20 Conexant Systems, Inc. System and method for a monolithic directional microphone array
SE515674C2 (sv) * 1997-12-05 2001-09-24 Ericsson Telefon Ab L M Apparat och metod för brusreducering
DE19812697A1 (de) * 1998-03-23 1999-09-30 Volkswagen Ag Verfahren und Einrichtung zum Betrieb einer Mikrofonanordnung, insbesondere in einem Kraftfahrzeug
US7072831B1 (en) * 1998-06-30 2006-07-04 Lucent Technologies Inc. Estimating the noise components of a signal
JP4163294B2 (ja) * 1998-07-31 2008-10-08 株式会社東芝 雑音抑圧処理装置および雑音抑圧処理方法
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US7062049B1 (en) * 1999-03-09 2006-06-13 Honda Giken Kogyo Kabushiki Kaisha Active noise control system
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6243322B1 (en) * 1999-11-05 2001-06-05 Wavemakers Research, Inc. Method for estimating the distance of an acoustic signal
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
AU2001284910B2 (en) * 2000-08-16 2007-03-22 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
WO2002032356A1 (en) * 2000-10-19 2002-04-25 Lear Corporation Transient processing for communication system
US7117145B1 (en) * 2000-10-19 2006-10-03 Lear Corporation Adaptive filter for speech enhancement in a noisy environment
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
DE10118653C2 (de) * 2001-04-14 2003-03-27 Daimler Chrysler Ag Verfahren zur Geräuschreduktion
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6937980B2 (en) * 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
US7171008B2 (en) * 2002-02-05 2007-01-30 Mh Acoustics, Llc Reducing noise in audio systems
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7084801B2 (en) * 2002-06-05 2006-08-01 Siemens Corporate Research, Inc. Apparatus and method for estimating the direction of arrival of a source signal using a microphone array
US8073157B2 (en) * 2003-08-27 2011-12-06 Sony Computer Entertainment Inc. Methods and apparatus for targeted sound detection and characterization
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US8073689B2 (en) * 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
EP1473964A3 (en) * 2003-05-02 2006-08-09 Samsung Electronics Co., Ltd. Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
DE102004005998B3 (de) * 2004-02-06 2005-05-25 Ruwisch, Dietmar, Dr. Verfahren und Vorrichtung zur Separierung von Schallsignalen
JP2005249816A (ja) * 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
US20070230712A1 (en) * 2004-09-07 2007-10-04 Koninklijke Philips Electronics, N.V. Telephony Device with Improved Noise Suppression
US7949520B2 (en) * 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
CA2621940C (en) * 2005-09-09 2014-07-29 Mcmaster University Method and device for binaural signal enhancement
FR2898209B1 (fr) * 2006-03-01 2008-12-12 Parrot Sa Procede de debruitage d'un signal audio
JP5070873B2 (ja) * 2006-08-09 2012-11-14 富士通株式会社 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
EP1912472A1 (de) * 2006-10-10 2008-04-16 Siemens Audiologische Technik GmbH Verfahren zum Betreiben einer Hörhilfe, sowie Hörhilfe
FR2908003B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres"
US8098842B2 (en) * 2007-03-29 2012-01-17 Microsoft Corp. Enhanced beamforming for arrays of directional microphones
US8005237B2 (en) * 2007-05-17 2011-08-23 Microsoft Corp. Sensor array beamformer post-processor
GB0720473D0 (en) * 2007-10-19 2007-11-28 Univ Surrey Accoustic source separation
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8189807B2 (en) * 2008-06-27 2012-05-29 Microsoft Corporation Satellite microphone array for video conferencing
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
US8392185B2 (en) * 2008-08-20 2013-03-05 Honda Motor Co., Ltd. Speech recognition system and method for generating a mask of the system
US8081772B2 (en) * 2008-11-20 2011-12-20 Gentex Corporation Vehicular microphone assembly using fractional power phase normalization
EP2394270A1 (en) * 2009-02-03 2011-12-14 University Of Ottawa Method and system for a multi-microphone noise reduction
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
FR2950461B1 (fr) * 2009-09-22 2011-10-21 Parrot Procede de filtrage optimise des bruits non stationnaires captes par un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile

Also Published As

Publication number Publication date
ATE532345T1 (de) 2011-11-15
US20110054891A1 (en) 2011-03-03
FR2948484B1 (fr) 2011-07-29
EP2293594A1 (fr) 2011-03-09
EP2293594B1 (fr) 2011-11-02
US8370140B2 (en) 2013-02-05
FR2948484A1 (fr) 2011-01-28

Similar Documents

Publication Publication Date Title
ES2377056T3 (es) Procedimiento de filtrado de los ruidos laterales no estacionarios para un dispositivo de audio multimicrófono, en particular un dispositivo telefónico &#34;manos libres&#34; para vehículo automóvil
ES2375844T3 (es) Procedimiento de filtrado optimizado de los ruidos no estacionarios captados por un dispositivo de audio multimicrófono, en particular un dispositivo telefónico &#34;manos libres&#34; para veh�?culo automóvil.
ES2430121T3 (es) Equipo de audio que comprende unos medios de supresión de ruido de una señal de habla mediante filtrado de retardo fraccionario
ES2582232T3 (es) Detector de actividad de voz de múltiples micrófonos
US8194881B2 (en) Detection and suppression of wind noise in microphone signals
CN101510426B (zh) 一种噪声消除方法及系统
US11665459B2 (en) Noise reduction device
US20140064514A1 (en) Target sound enhancement device and car navigation system
JP5141691B2 (ja) 音処理装置、補正装置、補正方法及びコンピュータプログラム
US20130030803A1 (en) Microphone-array-based speech recognition system and method
WO2001015137A1 (en) Noise reduction apparatus
CN103680512B (zh) 车用阵列话筒的语音识别水平提升系统及其方法
CN106024018B (zh) 实时风冲击噪声检测
US20140244245A1 (en) Method for soundproofing an audio signal by an algorithm with a variable spectral gain and a dynamically modulatable hardness
JP2014168188A (ja) マイク感度差補正装置、方法、プログラム、及び雑音抑圧装置
US20150195647A1 (en) Audio distortion compensation method and acoustic channel estimation method for use with same
US20140193000A1 (en) Method and apparatus for generating a noise reduced audio signal using a microphone array
JP6361271B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
US9865278B2 (en) Audio signal processing device, audio signal processing method, and audio signal processing program
Pfeifenberger et al. Blind source extraction based on a direction-dependent a-priori SNR.
US20210168490A1 (en) Noise elimination device and noise elimination method
Kim et al. Probabilistic spectral gain modification applied to beamformer-based noise reduction in a car environment
Li et al. A two microphone-based approach for speech enhancement in adverse environments
Pfeifenberger et al. A multi-channel postfilter based on the diffuse noise sound field
JP7819579B2 (ja) マイクシステム