ES2373511T3 - Detector de actividad vocal en múltiples micrófonos. - Google Patents
Detector de actividad vocal en múltiples micrófonos. Download PDFInfo
- Publication number
- ES2373511T3 ES2373511T3 ES08833863T ES08833863T ES2373511T3 ES 2373511 T3 ES2373511 T3 ES 2373511T3 ES 08833863 T ES08833863 T ES 08833863T ES 08833863 T ES08833863 T ES 08833863T ES 2373511 T3 ES2373511 T3 ES 2373511T3
- Authority
- ES
- Spain
- Prior art keywords
- vocal
- reference signal
- frequency
- noise
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001755 vocal effect Effects 0.000 title claims description 309
- 238000000034 method Methods 0.000 claims description 64
- 230000004044 response Effects 0.000 claims description 21
- 230000003595 spectral effect Effects 0.000 claims description 17
- 238000000926 separation method Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 abstract description 52
- 238000001514 detection method Methods 0.000 abstract description 24
- 238000012545 processing Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 241001503987 Clematis vitalba Species 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
- Push-Button Switches (AREA)
- Details Of Audible-Bandwidth Transducers (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
Un procedimiento para detectar actividad vocal, comprendiendo el procedimiento: recibir (722) una señal de referencia de frecuencia vocal procedente de un micrófono (112) de referencia de frecuencia vocal; recibir (724) una señal de referencia de ruido procedente de un micrófono (114) de referencia de ruido distinto del micrófono (112) de referencia de frecuencia vocal; determinar (742) un valor característico de frecuencia vocal en base, al menos en parte, a la señal de referencia de frecuencia vocal; determinar (746) un valor característico combinado en base, al menos en parte, a la señal de referencia de frecuencia vocal y a la señal de referencia de ruido; determinar (750) una métrica de actividad vocal en base, al menos en parte, al valor característico de frecuencia vocal y al valor característico combinado, en el que determinar (742) el valor característico de frecuencia vocal comprende determinar un valor absoluto de una autocorrelación de la señal de referencia de frecuencia vocal y determinar (746) el valor característico combinado comprende determinar una correlación cruzada en base a la señal de referencia de frecuencia vocal y a la señal de referencia de ruido, y en el que determinar (750) la métrica de actividad vocal comprende determinar una relación del valor absoluto de la autocorrelación de la señal de referencia de frecuencia vocal con respecto a la correlación cruzada; y determinar (760) un estado de actividad vocal en base a la métrica de actividad vocal.
Description
Detector de actividad vocal en múltiples micrófonos
Campo de la invención
La revelación versa acerca del campo del procesamiento de audio. En particular, la revelación versa acerca de una detección de actividad vocal utilizando múltiples micrófonos.
Antecedentes
Descripción de la técnica relacionada
Los detectores de actividad de señales, tales como los detectores de actividad vocal, pueden ser utilizados para minimizar la cantidad de procesamiento necesario en un dispositivo electrónico. El detector de actividad vocal puede controlar de forma selectiva una o más etapas de procesamiento de señales posteriores a un micrófono.
Por ejemplo, un dispositivo de grabación puede implementar un detector de actividad vocal para minimizar un procesamiento y una grabación de señales de ruido. El detector de actividad vocal puede desconectar o desactivar de otra manera un procesamiento y una grabación de señales durante periodos de actividad no vocal. De forma similar, un dispositivo de comunicaciones, tal como un teléfono móvil, una agenda electrónica, o un ordenador portátil, pueden implementar un detector de actividad vocal para reducir la potencia de procesamiento asignado a señales de ruido y para reducir las señales de ruido que son transmitidas o comunicadas de otra manera a un dispositivo de destino remoto. El detector de actividad vocal puede desconectar o desactivar el procesamiento y la transmisión de voz durante periodos de actividad no vocal.
La capacidad del detector de actividad vocal para operar de forma satisfactoria puede ser dificultada por condiciones variables de ruido y condiciones de ruido que tienen una energía significativa de ruido. El rendimiento de un detector de actividad vocal puede complicarse adicionalmente cuando la detección de actividad vocal está integrada en un dispositivo móvil, que está expuesto a un entorno dinámico de ruido. Un dispositivo móvil puede operar en entornos relativamente libres de ruido o puede operar en condiciones considerables de ruido, en las que la energía de ruido es del orden de la energía vocal.
La presencia de un entorno dinámico de ruido complica la decisión de actividad vocal. La indicación errónea de actividad vocal puede tener como resultado el procesamiento y la transmisión de señales de ruido. El procesamiento y la transmisión de señales de ruido pueden crear una experiencia deficiente para el usuario, en particular cuando hay intercalados periodos de transmisión de ruido con periodos de inactividad debido a una indicación de una ausencia de actividad vocal por medio del detector de actividad vocal.
Por el contado, una mala detección de actividad vocal puede tener como resultado la pérdida de porciones considerables de señales vocales. La pérdida de porciones iniciales de actividad vocal puede tener como resultado que un usuario necesite repetir a menudo porciones de una conversación, lo que es una condición no deseable.
Los algoritmos tradicionales de Detección de actividad de voz (VAD) solo utilizan una señal de micrófono. Los primeros algoritmos de VAD utilizan criterios basados en energía. Este tipo de algoritmo estima un umbral para tomar la decisión acerca de la actividad vocal. Una VAD en un único micrófono puede funcionar bien para ruido estacionario. Sin embargo, una VAD en un único micrófono tiene algo de dificultad para enfrentarse a ruido no estacionario.
Otra técnica de VAD cuenta el paso de señales por el cero y toma una decisión de actividad vocal en base a la tasa en el paso por el cero. Este procedimiento puede funcionar bien cuando el ruido de fondo son señales no vocales. Cuando la señal de fondo es una señal similar a la frecuencia vocal, este procedimiento no logra tomar una decisión fiable. Se pueden utilizar otras características, tales como el tono, la forma formante, el cepstrum y la periodicidad para la detección de actividad de voz. Estas características son detectadas y comparadas con la señal de frecuencia vocal para tomar una decisión de actividad de voz.
En vez de utilizar características de frecuencia vocal, también pueden utilizarse modelos estadísticos de presencia de frecuencia vocal y de ausencia de frecuencia vocal para tomar una decisión de actividad de voz. En tales implementaciones, se actualizan los modelos estadísticos y se toma una decisión de actividad de voz en base a la relación de probabilidad de los modelos estadísticos. Otro procedimiento utiliza una red de separación de la fuente de un único micrófono para preprocesar la señal. Se toma la decisión utilizando una señal de error filtrada de redes neurales de programación de Lagrange y un umbral adaptado a la actividad.
También han sido estudiados los algoritmos de VAD basados en múltiples micrófonos. Las realizaciones de múltiples micrófonos pueden combinar la supresión de ruido, la adaptación del umbral y la detección del tono para conseguir una detección robusta. Una realización utiliza un filtrado lineal para maximizar una relación de señal/interferencia (SIR). Entonces, se utiliza un procedimiento basado en un modelo estadístico para detectar la actividad vocal utilizando a señal realzada. Otra realización utiliza un conjunto de micrófono lineal y transformadas
de Fourier para generar una representación de dominio frecuencial del vector de salida del conjunto. Se pueden utilizar las representaciones de dominio frecuencial para estimar una relación de señal/ruido (SNR) y un umbral predeterminado para detectar una actividad de frecuencia vocal. Otra realización más sugiere utilizar la magnitud de coherencia cuadrada (MSC) y un umbral adaptativo para detectar la actividad vocal en un procedimiento de VAD basado en dos sensores. Se proporciona un ejemplo de tal realización en LE BOUQUIN-JEANNES R ET AL: “Study of a voice activity detector and its influence on a noise reduction system”, SPEECH COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, PAÍSES BAJOS, Vol. 16, nº 3, 1 de abril de 1995, páginas 245-254. Otra realización más, tal como el documento WO 2005/031703 A1, sugiere utilizar un micrófono para frecuencia vocal y un micrófono para ruido al igual que una medida de la variación de las señales entre los dos micrófonos para detectar la actividad de frecuencia vocal.
Muchos de los algoritmos de detección de actividad de voz requieren mucho cálculo y no son adecuados para aplicaciones móviles, en las que son motivo de preocupación un consumo de energía y la complejidad de cálculo. Sin embargo, las aplicaciones móviles también presentan entornos de detección de actividad de voz que suponen un reto debido en parte al entorno dinámico de ruido y a la naturaleza no estacionaria de las señales de ruido que inciden en un dispositivo móvil.
Breve resumen
La detección de actividad de voz utilizando múltiples micrófonos puede estar basada en una relación entre la energía en cada uno de un micrófono de referencia de frecuencia vocal y un micrófono de referencia de ruido. Se puede determinar el gasto de energía de cada uno del micrófono de referencia de frecuencia vocal y del micrófono de referencia de ruido. Se puede determinar una relación de energía de frecuencia vocal a ruido y se puede comparar con un umbral predeterminado de actividad vocal. En otra realización, se determinan el valor absoluto de la correlación de frecuencia vocal y la autocorrelación y/o el valor absoluto de la autocorrelación de las señales de referencia de ruido y se determina una relación en base a los valores de correlación. Las relaciones que superan el umbral predeterminado pueden indicar la presencia de una señal de frecuencias vocales. Se pueden determinar las energías o correlaciones de frecuencia vocal y de ruido utilizando una media ponderada o en un tamaño discreto de trama.
Los aspectos de la invención incluyen un procedimiento, un aparato y un medio legible por un ordenador como en las reivindicaciones 1, 7 y 14, respectivamente.
Breve descripción de los dibujos
Las características, los objetos, y las ventajas de las realizaciones de la revelación serán evidentes a partir de la descripción detallada definida a continuación cuando es tomada junto con los dibujos, en los que los elementos similares tienen números similares de referencia.
La Figura 1 es un diagrama simplificado de bloques funcionales de un dispositivo de múltiples micrófonos que opera en un entorno de ruido.
La Figura 2 es un diagrama simplificado de bloques funcionales de una realización de un dispositivo móvil con un detector calibrado de actividad de voz en múltiples micrófonos.
La Figura 3 es un diagrama simplificado de bloques funcionales de una realización de un dispositivo móvil con un detector de actividad de voz y una cancelación de eco.
La Figura 4A es un diagrama simplificado de bloques funcionales de una realización de un dispositivo móvil con un detector de actividad de voz con un realce de señales.
La Figura 4B es un diagrama simplificado de bloques funcionales de un realce de señales que utiliza una formación de haces.
La Figura 5 es un diagrama simplificado de bloques funcionales de una realización de un dispositivo móvil con un detector de actividad de voz con un realce de señales.
La Figura 6 es un diagrama simplificado de bloques funcionales de una realización de un dispositivo móvil con un detector de actividad de voz con una codificación de frecuencia vocal.
La Figura 7 es un diagrama de flujo de un procedimiento simplificado de detección de actividad de voz.
La Figura 8 es un diagrama simplificado de bloques funcionales de una realización de un dispositivo móvil con un detector calibrado de actividad de voz en múltiples micrófonos.
Descripción detallada de realizaciones de la invención
Se dan a conocer un aparato y procedimientos para la Detección de actividad de voz (VAD) utilizando múltiples micrófonos. El aparato y los procedimientos utilizan un primer conjunto o grupo de micrófonos configurados sustancialmente en un campo próximo de un punto de referencia boca (PRB), considerándose el PRB la posición de la fuente de las señales. Puede haber configurado un segundo conjunto o grupo de micrófonos sustancialmente en una ubicación reducida de voz. Idealmente, el segundo conjunto de micrófonos está colocado sustancialmente en el mismo entorno de ruido que el primer conjunto de micrófonos, pero no acopla sustancialmente ninguna de las señales de frecuencia vocal. Algunos dispositivos móviles no permiten esta configuración óptima, sino que permiten una configuración en la que la frecuencia vocal recibida en el primer conjunto de micrófonos es constantemente mayor que la frecuencia vocal recibida por el segundo conjunto de micrófonos.
El primer conjunto de micrófonos recibe y convierte una señal de frecuencia vocal que es normalmente de mejor calidad con respecto al segundo conjunto de micrófonos. Como tal, el primer conjunto de micrófonos puede ser considerado micrófonos de referencia de frecuencia vocal y el segundo conjunto de micrófonos puede ser considerado micrófonos de referencia de ruido.
Un módulo de VAD puede determinar inicialmente una característica en base a las señales en cada uno de los micrófonos de referencia de frecuencia vocal y de los micrófonos de referencia de ruido. Se utilizan los valores característicos correspondientes a los micrófonos de referencia de frecuencia vocal y a los micrófonos de referencia de ruido para tomar la decisión de actividad de voz.
Por ejemplo, un módulo de VAD puede estar configurado para calcular, estimar, o determinar de otra manera las energías de cada una de las señales procedentes de los micrófonos de referencia de frecuencia vocal y los micrófonos de referencia de ruido. Las energías pueden ser calculadas en instantes predeterminados de muestra de frecuencia vocal y de ruido o pueden ser calculadas en base a una trama de muestras de frecuencia vocal y de ruido.
En otro ejemplo, el módulo de VAD puede estar configurado para determinar una autocorrelación de las señales en cada uno de los micrófonos de referencia de frecuencia vocal y de los micrófonos de referencia de ruido. Los valores de autocorrelación pueden corresponderse con un instante predeterminado de muestra o pueden ser calculados en un intervalo predeterminado de trama.
El módulo de VAD puede calcular o determinar de otra manera una métrica de actividad en base, al menos en parte, a una relación de los valores característicos. En una realización, el módulo de VAD está configurado para determinar una relación de energía de los micrófonos de referencia de frecuencia vocal con respecto a la energía de los micrófonos de referencia de ruido. El módulo de VAD puede estar configurado para determinar una relación de autocorrelación de los micrófonos de referencia de frecuencia vocal con respecto a la autocorrelación de los micrófonos de referencia de ruido. En otra realización, se utiliza la raíz cuadrada de una de las relaciones descritas anteriormente como la métrica de actividad. La VAD compara la métrica de actividad con un umbral predeterminado para determinar la presencia o ausencia de actividad vocal.
La Figura 1 es un diagrama simplificado de bloques funcionales de un entorno operativo 100 que incluye un dispositivo móvil 110 de múltiples micrófonos que tiene una detección de actividad de voz. Aunque se describen en el contexto de un dispositivo móvil, es evidente que los procedimientos y el aparato de detección de actividad de voz dados a conocer en el presente documento no están limitados a la aplicación en dispositivos móviles, sino que pueden ser implementados en dispositivos estacionarios, dispositivos portátiles, dispositivos móviles, y pueden operar mientras que el dispositivo anfitrión es móvil o estacionario.
El entorno operativo 100 muestra un dispositivo móvil 110 de múltiples micrófonos. El dispositivo de múltiples micrófonos incluye al menos un micrófono 12 de referencia de frecuencia vocal, mostrado aquí en una cara frontal del dispositivo móvil 110, y al menos un micrófono 114 de referencia de ruido, mostrado aquí en un lado del dispositivo móvil 110 frente al micrófono 112 de referencia de frecuencia vocal.
Aunque el dispositivo móvil 110 de la Figura 1, y en general, las realizaciones mostradas en las figuras, muestran un micrófono 112 de referencia de frecuencia vocal y un micrófono 114 de referencia de ruido, el dispositivo móvil 110 puede implementar un grupo de micrófonos de referencia de frecuencia vocal y un grupo de micrófonos de referencia de ruido. Cada uno del grupo de micrófonos de referencia de frecuencia vocal y del grupo de micrófonos de referencia de ruido puede incluir uno o más micrófonos. El grupo de micrófonos de referencia de frecuencia vocal puede incluir un número de micrófonos que es distinto o igual que el número de micrófonos en el grupo de micrófonos de referencia de ruido.
Además, los micrófonos del grupo de micrófonos de referencia de frecuencia vocal son normalmente exclusivos de los micrófonos en el grupo de micrófonos de referencia de ruido, pero esta no es una limitación absoluta, dado que se pueden compartir uno o más micrófonos entre los dos grupos de micrófonos. Sin embargo, la unión del grupo de micrófonos de referencia de frecuencia vocal con el grupo de micrófonos de referencia de ruido incluye al menos dos micrófonos.
Se muestra que el micrófono 112 de referencia de frecuencia vocal está en una superficie del dispositivo móvil 110 que es generalmente frente a la superficie que tiene el micrófono 114 de referencia de ruido. La colocación del micrófono 112 de referencia de frecuencia vocal y del micrófono 114 de referencia de ruido no está limitada a ninguna orientación física. Normalmente, la colocación de los micrófonos está regida por la capacidad para aislar señales de frecuencia vocal del micrófono 114 de referencia de ruido.
En general, los micrófonos de los dos grupos de micrófonos están montados en distintas ubicaciones en el dispositivo móvil 110. Cada micrófono recibe su propia versión de combinación de frecuencia vocal deseada y ruido de fondo. Se puede suponer que la señal frecuencia vocal es de fuentes de campo próximo. El nivel de presión sonora (SPL) en los dos grupos de micrófonos puede ser distinta dependiendo de la ubicación de los micrófonos. Si un micrófono se encuentra más cercano al punto de referencia boca (PRB) o a una fuente 130 de frecuencia vocal, puede recibir un mayor SPL que otro micrófono colocado más lejos del PRB. El micrófono con el mayor SPL es denominado el micrófono 112 de referencia de frecuencia vocal o el micrófono primario, que genera una señal de referencia de frecuencia vocal, denotado como sSP(n). El micrófono que tiene el SPL reducido del PRB de la fuente 130 de frecuencia vocal es denominado el micrófono 114 de referencia de ruido o el micrófono secundario, que genera una señal de referencia de ruido, denotes como s NS (n). Se hace notar que la señal de referencia de frecuencia vocal contiene normalmente ruido de fondo, y la señal de referencia de ruido también puede contener frecuencia vocal deseada.
El dispositivo móvil 110 puede incluir una detección de actividad de voz, como se describe con más detalle a continuación, para determinar la presencia de una señal de frecuencia vocal procedente de la fuente 130 de frecuencia vocal. La operación de la detección de actividad de voz puede complicarse mediante el número y la distribución de las fuentes de ruido que puede haber en el entorno operativo 100.
El ruido incidente sobre el dispositivo móvil 110 puede tener un componente significativo de ruido blanco no correlacionado, pero también puede incluir una o más fuentes de ruido de color, por ejemplo 140-1 a 140-4. Además, el propio teléfono móvil 110 puede generar una interferencia, por ejemplo, en forma de una señal de eco que se acopla desde un transductor 120 de salida a uno del micrófono 112 de referencia de frecuencia vocal y del micrófono 114 de referencia de ruido, o a ambos.
La o las fuentes de ruido de color pueden generar señales de ruido que se originan cada una desde una ubicación distinta y una orientación relativa al dispositivo móvil 110. Cada una de las fuentes primera 140-1 de ruido y segunda 140-2 de ruido puede ser colocada más cerca del micrófono 112 de referencia de frecuencia vocal, o en una vía más directa al mismo, mientras que puede haber colocadas fuentes tercera y cuarta 140-3 y 140-4 de ruido más cerca del micrófono 114 de referencia de ruido, o en una vía más directa al mismo. Además, una o más fuentes de ruido, por ejemplo 140-4, pueden generar una señal de ruido que se refleja de una superficie 150 o que recorre de otra manera múltiples vías hasta el dispositivo móvil 110.
Aunque cada una de las fuentes de ruido puede contribuir una señal significativa a los micrófonos, cada una de las fuentes 140-1 a 140-4 de ruido está colocada normalmente en el campo distante, y por lo tanto, contribuye Niveles de presión sonora (SPL) sustancialmente similares a cada uno del micrófono 112 de referencia de frecuencia vocal y del micrófono 114 de referencia de ruido.
La naturaleza dinámica de la magnitud, de la posición, y de la respuesta de frecuencia asociadas con cada señal de ruido contribuye a la complejidad del procedimiento de detección de actividad de voz. Además, el dispositivo móvil 110 está alimentado por batería normalmente y, por lo tanto, el consumo de energía asociado con la detección de actividad de voz puede ser un motivo de preocupación.
El dispositivo móvil 110 puede llevar a cabo una detección de actividad de voz al procesar cada una de las señales procedentes del micrófono 112 de referencia de frecuencia vocal y el micrófono 114 de referencia de ruido para generar valores característicos correspondientes de frecuencia vocal y de ruido. El dispositivo móvil 110 puede generar una métrica de actividad vocal basado en parte en los valores característicos de frecuencia vocal y de ruido, y puede determinar una actividad vocal al comparar la métrica de actividad vocal con un valor umbral.
La Figura 2 es un diagrama simplificado de bloques funcionales de una realización de un dispositivo móvil 110 con un detector calibrado de actividad de voz en múltiples micrófonos. El dispositivo móvil 110 incluye un micrófono 112 de referencia de frecuencia vocal, que puede ser un grupo de micrófonos, y un micrófono 114 de referencia de ruido, que puede ser un grupo de micrófonos de referencia de ruido.
La salida del micrófono 112 de referencia de frecuencia vocal puede estar acoplada a un primer Convertidor 212 de analógico a digital (ADC). Aunque el dispositivo móvil 110 implementa normalmente un procesamiento analógico de las señales de los micrófonos, tal como filtrado y amplificación, no se muestra el procesamiento analógico de las señales de frecuencia vocal en aras de la claridad y brevedad.
La salida del micrófono 114 de referencia de ruido puede estar acoplada a un segundo ADC 214. Normalmente, el procesamiento analógico de las señales de referencia de ruido puede ser sustancialmente el mismo que el procesamiento analógico llevado a cabo en las señales de referencia de frecuencia vocal para mantener
sustancialmente la misma respuesta espectral. Sin embargo, la respuesta espectral de las porciones de procesamiento analógico no necesita ser la misma, dado que un calibrador 220 puede proporcionar alguna corrección. Además, se pueden implementar algunas de las funciones, o todas ellas, del calibrador 220 en las porciones de procesamiento analógico en vez del procesamiento digital mostrado en la Figura 2.
Cada uno de los ADC primero y segundo 212 y 214 convierte sus señales respectivas en una representación digital. Las salidas digitalizada de los ADC primero y segundo 212 y 214 están acopladas a un calibrador 220 que opera para igualar sustancialmente la respuesta espectral de los recorridos de las señales de frecuencia vocal y de ruido antes de la detección de actividad de voz.
El calibrador 220 incluye un generador 222 de calibración que está configurado para determinar una corrección selectiva de frecuencias y controlar un escalador/filtro 224 colocado en serie con uno del recorrido de señal de frecuencia vocal o del recorrido de la señal de ruido. El generador 222 de calibración puede estar configurado para controlar el escalador/filtro 224 para proporcionar una curva fija de respuesta de calibración, o el generador 222 de calibración puede estar configurado para controlar el escalador/filtro 224 para proporcionar una curva dinámica de respuesta de calibración. El generador 222 de calibración puede controlar el escalador/filtro 224 para proporcionar una curva variable de respuesta de calibración basada en uno o más parámetros operativos. Por ejemplo, el generador 222 de calibración puede incluir un detector (no mostrado) de potencia de la señal, o acceder al mismo de otra manera, y puede variar la respuesta del escalador/filtro 224 en respuesta a la intensidad de la frecuencia vocal o del ruido. Otras realizaciones pueden utilizar otros parámetros o combinación de parámetros.
El calibrador 220 puede estar configurado para determinar la calibración proporcionada por el escalador/filtro 224 durante un periodo de calibración. El dispositivo móvil 110 puede ser calibrado inicialmente, por ejemplo, durante su fabricación, o puede ser calibrado según un plan de calibración que puede iniciar la calibración tras uno o más eventos, tiempos, o una combinación de eventos y tiempos. Por ejemplo, el calibrador 220 puede iniciar una calibración cada vez que se enciende el dispositivo móvil, o durante el encendido solo si ha transcurrido un tiempo predeterminado desde la calibración más reciente.
Durante la calibración, el dispositivo móvil 110 puede estar en una condición en la que se encuentra en la presencia de fuentes de campo distante, y no experimenta señales de campo próximo ni en el micrófono 112 de referencia de frecuencia vocal ni en el micrófono 114 de referencia de ruido. El generador 222 de calibración monitoriza cada una de la señal de frecuencia vocal y la señal de ruido y determina la respuesta espectral relativa. El generador 222 de calibración genera o caracteriza de otra manera una señal de control de calibración que, cuando es aplicada al escalador/filtro 224, hace que el escalador/filtro 224 compense las diferencias relativas en la respuesta espectral.
El escalador/filtro 224 puede introducir amplificación, atenuación, filtrado, o algún otro procesamiento de señales que puede compensar sustancialmente las diferencias espectrales. Se muestra el escalador/filtro 224 colocado en el recorrido de la señal de ruido, lo que puede ser conveniente para evitar que el escalador/filtro distorsione las señales de frecuencia vocal. Sin embargo, porciones del escalador/filtro 224, o todo él, pueden estar colocadas en el recorrido de la señal de frecuencia vocal, y pueden estar distribuidas a través de los recorridos de las señales analógica y digital de uno del recorrido de señal de frecuencia vocal y del recorrido de señal de ruido, o de ambos.
El calibrador 220 acopla las señales calibradas de frecuencia vocal y de ruido a entradas respectivas de un módulo 230 de detección de actividad de voz (VAD). El módulo 230 de VAD incluye un generador 232 de valor característico de frecuencia vocal, un generador 234 de valor característico de ruido, un módulo 240 de métrica de actividad vocal que opera sobre valores característicos de frecuencia vocal y de ruido, y un comparador 250 configurado para determinar la presencia o ausencia de actividad vocal en base a la métrica de actividad vocal. El módulo 230 de VAD puede incluir opcionalmente un generador 236 de valor característico combinado configurado para generar una característica basada en una combinación tanto de la señal de referencia de frecuencia vocal como de la señal de referencia de ruido. Por ejemplo, el generador 236 de valor característico combinado puede estar configurado para determinar una correlación cruzada de las señales de frecuencia vocal y de ruido. Puede tomarse el valor absoluto de la correlación cruzada, o pueden elevarse al cuadrado los componentes de la correlación cruzada.
El generador 232 de valor característico de frecuencia vocal puede estar configurado para generar un valor que está basado al menos en parte en la señal de frecuencia vocal. El generador 232 de valor característico de frecuencia vocal puede estar configurado, por ejemplo, para generar un valor característico tal como una energía de la señal de frecuencia vocal en un instante específico de muestra (ESP(n)), una autocorrelación de la señal de frecuencia vocal en un instante específico de muestra (ρSP(n)), o puede tomarse algún otro valor característico de la señal, como el valor absoluto de la autocorrelación de la señal de frecuencia vocal o los componentes de la autocorrelación.
El generador 234 de valor característico de ruido puede estar configurado para generar un valor característico complementario de ruido. Es decir, el generador 234 de valor característico de ruido puede estar configurado para generar un valor de energía de ruido en un instante específico (ENS(n)) si el generador 232 de valor característico de frecuencia vocal genera un valor de energía de frecuencia vocal. De forma similar, el generador 234 de valor característico de ruido puede estar configurado para generar un valor de autocorrelación de ruido en un instante específico (ρNS(n)) si el generador 232 de valor característico de frecuencia vocal genera un valor de autocorrelación
de frecuencia vocal. También puede ser tomado el valor absoluto del valor de autocorrelación de ruido, o se puede tomar el valor de autocorrelación de ruido.
El módulo 240 de métrica de actividad vocal puede estar configurado para generar una métrica de actividad vocal en base al valor característico de frecuencia vocal, al valor característico de ruido, y opcionalmente, al valor de correlación cruzada. El módulo 240 de métrica de actividad vocal puede estar configurado, por ejemplo, para generar una métrica de actividad vocal que no es complejo de calcular. Por lo tanto, el módulo 230 de VAD puede generar una señal de detección de actividad de voz sustancialmente en tiempo real, y utilizando relativamente pocos recursos de procesamiento. En una realización, el módulo 240 de métrica de actividad vocal está configurado para determinar una relación de uno o más de los valores característicos o de una relación de uno o más de los valores característicos y el valor de correlación cruzada o una relación de uno o más de los valores característicos y el valor absoluto del valor de correlación cruzada.
El módulo 240 de métrica de actividad vocal acopla la métrica a un comparador 250 que puede estar configurado para determinar la presencia de actividad de frecuencia vocal al comparar la métrica de actividad vocal con uno o más umbrales. Cada uno de los umbrales puede ser un umbral fijo predeterminado, o uno o más de los umbrales pueden ser un umbral dinámico.
En una realización, el módulo 230 de VAD determina tres correlaciones distintas para determinar la actividad de frecuencia vocal. El generador 2323 de valor característico de frecuencia vocal genera una autocorrelación de la señal ρSP(n) de referencia de frecuencia vocal, el generador 234 de valor característico de ruido genera una autocorrelación de la señal ρNS(n) de referencia de ruido y el módulo 236 de correlación cruzada genera la correlación cruzada de valores absolutos de la señal de referencia de frecuencia vocal y de la señal ρc(n) de referencia de ruido. Aquí, n representa un índice de tiempos. Para evitar un retraso excesivo, las correlaciones pueden ser calculadas aproximadamente utilizando un procedimiento de ventana exponencial utilizando las siguientes ecuaciones. Para una autocorrelación, la ecuación es:
Para la correlación cruzada, la ecuación es:
ρc(n) = αρc(n −1)+
sSP (n)sNS(n)
o ρc(n) = αρc(n−1)+ (1−α )
sSP (n)sNS(n)
.
En las anteriores ecuaciones, ρ(n) es la correlación en el instante n. s(n) es una de las señales de frecuencia vocal o de ruido en el instante n. α es una constante entre 0 y 1. 1•1representa el valor absoluto. La correlación también puede ser calculada utilizando una ventana cuadrada con un tamaño N de ventana como sigue:
ρ(n)=ρ(n −1)+ s(n)2 − s(n − N)2
o
ρc(n) = pc(n −1)+
sSP (n)sNS(n)
−
sSP (n − N)sNS(n − N)
.
La decisión de VAD puede ser tomada en base a ρSP(n), ρNS(n) y ρc(n). En general,
En los siguientes ejemplos, se describen dos categorías de la decisión de VAD. Una es un procedimiento de decisión de VAD en base a muestras. La otra es un procedimiento de decisión de VAD en base a tramas. En general, los procedimientos de decisión de VAD que están basados en el uso del valor absoluto de la autocorrelación o la correlación cruzada pueden permitir un intervalo dinámico menor de la correlación cruzada o de la autocorrelación. La reducción del intervalo dinámico puede permitir transiciones más estables en los procedimientos de decisión de VAD.
Decisión de VAD basada en muestras
El módulo de VAD puede tomar una decisión de VAD para cada par de muestras de frecuencia vocal y de ruido en el instante n en base a las correlaciones calculadas en el instante n. Como ejemplo, el módulo de métrica de actividad vocal puede estar configurado para determinar la métrica de actividad vocal en base a una relación entre los tres valores de correlación.
Se puede determinar la cantidad T(n) en base a ρSP(n), ρNS(n) y R(n), por ejemplo
El comparador puede tomar la decisión de VAD en base a R(n) y T(n), por ejemplo
Como ejemplo específico, la métrica R(n) de actividad vocal puede ser definida para que sea la relación entre el valor ρSP(n) de autocorrelación de frecuencia vocal del generador 232 de valor característico de frecuencia vocal y la correlación cruzada ρC(n) del módulo 236 de correlación cruzada. En el instante n, la métrica de actividad vocal puede ser la relación definida como:
ρSP (n)
ρC (n)+δ
En el anterior ejemplo de la métrica de actividad vocal, el módulo 240 de métrica de actividad vocal limita el valor. El módulo 240 de métrica de actividad vocal limita el valor al limitar el denominador a no menos de δ, siendo δ un número positivo pequeño para evitar la división por cero. Como otro ejemplo, R(n) puede ser definido ser entre ρC(n) y ρNS(n), por ejemplo
ρC (n)
ρNS(n)+δ
Como ejemplo específico, la cantidad T(n) puede ser un umbral fijo. Sea RSP(n) la relación mínima cuando hay presente frecuencia vocal deseada hasta el instante n. Sea RNS(n) la relación máxima cuando la frecuencia vocal deseada está ausente hasta el instante n. El umbral T(n) puede ser determinado o seleccionado de otra manera para ser entre RNS (n) y RSP(n), o de forma equivalente:
RNS(n)≤ Th(n)≤ RSP (n).
El umbral también puede ser variable y puede variar en base al menos en parte al cambio de frecuencia vocal deseada y ruido de fondo. En tal caso, se pueden determinar RSP(n) y RNS(n) en base a las señales más recientes de micrófonos.
El comparador 250 compara el umbral con la métrica de actividad vocal, aquí la relación R(n), para tomar una decisión acerca de una actividad vocal. En este ejemplo específico, la función de adopción de la decisión vad(•,•) puede estar definida como sigue
{
Decisión de VAD basada en tramas
También se puede tomar la decisión de VAD de forma que una trama completa de muestras genere y comparta una decisión de VAD. La trama de muestras puede ser generada o recibida de otra manera entre el instante m y el instante m + M - 1, en la que M representa el tamaño de la trama.
Como ejemplo, el generador 232 de valor característico de frecuencia vocal, el generador 234 de valor característico de ruido y el generador 236 de valor característico combinado pueden determinar las correlaciones para una trama completa de datos. En comparación con las correlaciones calculadas utilizando una ventana cuadrada, la correlación de la trama es equivalente a la correlación calculada en el instante m + M - 1, por ejemplo ρ(m +M - 1).
La decisión de VAD puede ser tomada en base a los valores de energía o de autocorrelación de las dos señales de micrófono. De forma similar, el módulo 240 de métrica de actividad vocal puede determinar la métrica de actividad en base a una relación R(n) como se ha descrito anteriormente en la realización basada en muestras. El comparador puede basar la decisión de actividad de voz en base a un umbral T(n).
VAD basada en señales después de un realce de señales
Cuando la SNR de la señal de referencia de frecuencia vocal es baja, la decisión de VAD tiende a ser agresiva. Las partes de comienzo y de final de la frecuencia vocal pueden estar clasificadas como segmentos que no son de 8
frecuencia vocal. Si los niveles de señal del micrófono de referencia de frecuencia vocal y del micrófono de referencia de ruido son similares cuando hay presente la señal de frecuencia vocal deseada, el aparato y los procedimientos de VAD descritos anteriormente pueden no proporcionar una decisión fiable de VAD. En tales casos, se puede aplicar un realce adicional de señales a una o más de las señales de los micrófonos para ayudar a la VAD a tomar una decisión fiable.
Se puede implementar el realce de señales para reducir la cantidad de ruido de fondo en la señal de referencia de frecuencia vocal sin cambiar la señal de frecuencia vocal deseada. También se puede implementar el realce de señales para reducir el nivel o la cantidad de frecuencia vocal en la señal de referencia de ruido sin cambiar el ruido de fondo. En algunas realizaciones, el realce de señales puede llevar a cabo una combinación de realce de referencia de frecuencia vocal y de realce de referencia de ruido.
La Figura 3 es un diagrama simplificado de bloques funcionales de una realización de dispositivo móvil 110 con un detector de actividad vocal y una cancelación de eco. Se muestra el dispositivo móvil 110 sin el calibrador mostrado en la Figura 2, pero la implementación de la cancelación de eco en el dispositivo móvil 110 no es exclusiva de la calibración. Además, el dispositivo móvil 110 implementa la cancelación de eco en el dominio digital, pero parte de la cancelación de eco, o toda ella, puede ser llevada a cabo en el dominio analógico.
La porción de procesamiento de voz del dispositivo móvil 110 puede ser sustancialmente similar a la porción ilustrada en la Figura 2. Un micrófono 112 o un grupo de micrófonos de referencia de frecuencia vocal recibe una señal de frecuencia vocal y convierte el SPL de la señal de audio en una señal eléctrica de referencia de frecuencia vocal. El primer ADC 212 convierte la señal analógica de referencia de frecuencia vocal en una representación digital. El primer ADC 212 acopla la señal digitalizada de referencia de frecuencia vocal a una primera entrada de un primer combinador 352.
De forma similar, un micrófono 114 o grupo de micrófonos de referencia de ruido recibe las señales de ruido y genera una señal de referencia de ruido. El segundo ADC 214 convierte la señal analógica de referencia de ruido en una representación digital. El segundo ADC 214 acopla la señal digitalizada de referencia de ruido a una primera entrada de un segundo combinador 354.
Los combinadores primero y segundo 352 y 354 pueden ser parte de una porción de cancelación de eco del dispositivo móvil 110. Los combinadores primero y segundo 352 y 354 pueden ser, por ejemplo, sumadores de señales, restadores de señales, acopladores, moduladores, y similares, o algún otro dispositivo configurado para combinar señales.
El dispositivo móvil 110 puede implementar la cancelación de eco para eliminar de forma eficaz la señal de eco atribuible a la salida de audio del dispositivo móvil 110. El dispositivo móvil 110 incluye un convertidor digital a analógico (DAC) 310 de salida que recibe una señal digitalizada de salida de audio procedente una fuente (no mostrada) de señales tal como un procesador de banda base y convierte la señal digitalizada de audio en una representación analógica. La salida del DAC 310 puede estar acoplada a un transductor de salida, tal como un altavoz 320. El altavoz 320, que puede ser un receptor o un altavoz, puede estar configurado para convertir la señal analógica en una señal de audio. El dispositivo móvil 110 puede implementar una o más etapas de procesamiento de audio entre el DAC 310 y el altavoz 320. Sin embargo, las etapas de procesamiento de señales de salida no están ilustradas en aras de la brevedad.
La señal de salida digital también puede estar acoplada a entradas de un primer cancelador 342 de ecos y a un segundo cancelador 344 de ecos. El primer cancelador 342 de ecos puede estar configurado para generar una señal de cancelación de ecos que se aplica a la señal de referencia de frecuencia vocal, mientras que el segundo cancelador 344 de ecos puede estar configurado para generar una señal de cancelación de ecos que se aplica a la señal de referencia de ruido.
La salida del primer cancelador 342 de ecos puede estar acoplada a una segunda entrada del primer combinador
342. La salida del segundo cancelador 344 de ecos puede estar acoplada a una segunda entrada del segundo combinador 344. Los combinadores 352 y 354 acoplan las señales combinadas al módulo 230 de VAD. El módulo 230 de VAD puede estar configurado para operar de una forma descrita en relación con la Figura 2.
Cada uno de los canceladores 342 y 344 de ecos puede estar configurado para generar una señal de cancelación de ecos que reduce o elimina sustancialmente la señal de eco en las líneas respectivas de señales. Cada cancelador 342 y 344 de ecos puede incluir una entrada que muestrea o monitoriza de otra manera la señal de eco cancelado en la salida de los combinadores respectivos 352 y 354. La salida de los combinadores 352 y 354 opera como una señal de realimentación de errores que puede ser utilizada por los canceladores respectivos 342 y 344 de ecos para minimizar el eco residual.
Cada cancelador 342 y 344 de ecos puede incluir, por ejemplo, amplificadores, atenuadores, filtros, módulos de retraso, o alguna combinación de los mismos para generar la señal de cancelación de eco. La correlación alta entre la señal de salida y la señal de eco puede permitir que los canceladores 342 y 344 de ecos detecten y compensen más fácilmente la señal de eco.
En otras realizaciones, puede ser deseable un realce adicional de las señales porque no se cumpla la suposición de que los micrófonos de referencia de frecuencia vocal están colocados más cerca del punto de referencia boca. Por ejemplo, los dos micrófonos pueden estar colocados tan cerca entre sí que la diferencia entre las dos señales de los micrófonos es muy pequeña. En este caso, las señales no realzadas pueden no producir una decisión fiable de VAD. En este caso, se puede utilizar un realce de señales para ayudar a mejorar la decisión de VAD.
La Figura 4 es un diagrama simplificado de bloques funcionales de una realización del dispositivo móvil 110 con un detector de actividad vocal con un realce de señales. Como antes, se pueden implementar una o ambas técnicas y aparato de calibración y de cancelación de ecos descritos anteriormente en relación con las Figuras 2 y 3, además de un realce de las señales.
El dispositivo móvil 110 incluye un micrófono 112 o un grupo de micrófonos de referencia de frecuencia vocal configurado para recibir una señal de frecuencia vocal y convertir el SPL de la señal de audio en una señal eléctrica de referencia de frecuencia vocal. El primer ADC 212 convierte la señal analógica de referencia de frecuencia vocal en una representación digital. El primer ADC 212 acopla la señal digitalizada de referencia de frecuencia vocal a una primera entrada de un módulo 400 de realce de señales.
De forma similar, un micrófono 114 o grupo de micrófonos de referencia de ruido recibe las señales de ruido y genera una señal de referencia de ruido. El segundo ADC 214 convierte la señal analógica de referencia de ruido en una representación digital. El segundo ADC 214 acopla la señal digitalizada de referencia de ruido en una segunda entrada del módulo 400 de realce de señales.
El módulo 400 de realce de señales puede estar configurado para generar una señal realzada de referencia de frecuencia vocal y una señal realzada de referencia de ruido. El módulo 400 de realce de señales acopla las señales realzadas de referencia de frecuencia vocal y de ruido a un módulo 230 de VAD. El módulo 230 de VAD opera en las señales realzadas de referencia de frecuencia vocal y de ruido para tomar la decisión de actividad de voz.
VAD basada en señales después de la formación de haces o la separación de señales
El módulo 400 de realce de señales puede estar configurado para implementar la formación adaptativa de haces para producir una directividad de los sensores. El módulo 400 de realce de señales implementa la formación adaptativa de haces utilizando un conjunto de filtros y tratando los micrófonos como un conjunto de sensores. Esta directividad de los sensores puede ser utilizado para extraer una señal deseada cuando hay presentes múltiples fuentes de señales. Hay disponibles muchos algoritmos de formación de haces para conseguir una directividad de los sensores. Una instanciación de un algoritmo de formación de haces o de una combinación de algoritmos de formación de haces es denominada formador de haces. En comunicaciones de frecuencia vocal de dos micrófonos, el formador de haces puede ser utilizado para dirigir la dirección del sensor al punto de referencia boca para generar una señal realzada de referencia de frecuencia vocal en la que puede estar reducido el ruido de fondo. También puede generar una señal realzada de referencia de ruido en la que puede estar reducido la frecuencia vocal deseada.
La Figura 4B es un diagrama simplificado de bloques funcionales de una realización de un módulo 400 de realce de señales de formación de haces los micrófonos 112 y 114 de referencia de frecuencia vocal y de ruido.
El módulo 400 de realce de señales incluye un conjunto de micrófonos 112-1 a 112-n de referencia de frecuencia vocal que comprende un primer conjunto de micrófonos. Cada uno de los micrófonos 112-1 a 112-n de referencia de frecuencia vocal puede acoplar su salida a un filtro correspondiente 412-1 a 412-n. Cada uno de los filtros 412-1 a 412-n proporciona una respuesta que puede ser controlada por el primer controlador 420-1 de formación de haces. Cada filtro, por ejemplo 412-1, puede estar controlado para proporcionar un retraso variable, una respuesta espectral, una ganancia o algún otro parámetro.
El primer controlador 420-1 de formación de haces puede estar configurado con un conjunto predeterminado de señales de control de los filtros, correspondientes a un conjunto predeterminado de haces, o puede estar configurado para variar las respuestas de los filtros según un algoritmo predeterminado para orientar de forma eficaz el haz de forma continua.
Cada uno de los filtros 412-1 a 412 da salida a su señal filtrada a una entrada correspondiente de un primer combinador 430-1. La salida del primer combinador 430-1 puede ser una señal formada en haz de referencia de frecuencia vocal.
La señal de referencia de ruido puede estar formada en haz, de forma similar, utilizando un conjunto de micrófonos 114-1 a 114-k de referencia de ruido que comprende un segundo conjunto de micrófonos. El número, k, de micrófonos de referencia de ruido puede ser distinto del número, n, de micrófonos de referencia de frecuencia vocal,
o puede ser el mismo.
Aunque el dispositivo móvil 110 de la Figura 4B ilustra micrófonos 112-1 a 112-n de referencia de frecuencia vocal y micrófonos 114-1 a 114-k de referencia de ruido distintos, en otras realizaciones, se pueden utilizar algunos de los
micrófonos 112-1 a 112-n de referencia de frecuencia vocal, o todos ellos, como los micrófonos 114-1 a 114-k de referencia de ruido. Por ejemplo, el conjunto de micrófonos 112-1 a 112-n de referencia de frecuencia vocal pueden ser los mismos micrófonos utilizados para el conjunto de micrófonos 114-1 a 114-k de referencia de ruido.
Cada uno de los micrófonos 114-1 a 114-k de referencia de ruido acopla su salida a un filtro correspondiente 414-1 a 414-k. Cada uno de los filtros 414-1 a 414-k proporciona una respuesta que puede estar controlada por el segundo controlador 420-2 de formación de haces. Cada filtro, por ejemplo 414-1, puede estar controlado para proporcionar un retraso variables, una respuesta espectral, una ganancia, o algún otro parámetro. El segundo controlador 420-2 de formación de haces puede controlar los filtros 414-1 a 414-k para proporcionar un número discreto predeterminado de configuraciones de haces, o puede estar configurado para orientar el haz de forma sustancialmente continua.
En el módulo 400 de realce de señales de la Figura 4B, se utilizan controladores distintos 420-1 y 420-2 de formación de haces para formar haces de forma independiente con las señales de referencia de frecuencia vocal y de ruido. Sin embargo, en otras realizaciones, se puede utilizar un único controlador de formación de haces para formar haces tanto con las señales de referencia de frecuencia vocal como con las señales de referencia de ruido.
El módulo 400 de realce de señales puede implementar una separación ciega de fuentes. La separación ciega de fuentes (BSS) es un procedimiento para restaurar señales de fuentes independientes utilizando mediciones de mezclas de estas señales. Aquí, el término “ciego” tiene un doble significado. El primero, que no son conocidas las señales originales ni las fuentes de las señales. El segundo, que puede no ser conocido el procedimiento de mezclado. Existen muchos algoritmos disponibles para conseguir la separación de señales. En comunicaciones de frecuencia vocal de dos micrófonos, se puede utilizar la BSS para separar la frecuencia vocal y el ruido de fondo. Después de la separación de señales, el ruido de fondo en la señal de referencia de frecuencia vocal puede estar algo reducido y la frecuencia vocal en la señal de referencia de ruido puede estar algo reducida.
El módulo 400 de realce de señales puede, por ejemplo, implementar uno de los procedimientos y aparatos de BSS descritos en uno cualquiera de S. Amari, A. Cichocki, y H. H. Yang, “A new learning algorithm for blind signal separation”, en Advances in Neural Information Processing Systems 8, MIT Press, 1996, L. Molgedey y H. G. Schuster, “Separation of a mixture of independent signals using time delayed correlations”, Phys. Rev. Lett., 72(23): 3634-3637, 1994, o L. Parra y C. Spence, “Convolutive blind source separation of non-stationary sources”, IEEE Trans. On Speech and Audio Processing, 8(3): 320-327, mayo de 2000.
VAD basada en un realce más agresivo de señales
A veces el nivel de ruido de fondo es tan elevado que la SNR de la señal sigue sin ser buena después de la formación de haces o la separación de señales. En este caso, se puede realzar adicionalmente la SNR de la señal en la señal de referencia de frecuencia vocal. Por ejemplo, el módulo 400 de realce de señales puede implementar una sustracción espectral para realzar adicionalmente la SNR de la señal de referencia de frecuencia vocal. La señal de referencia de ruido puede o no necesitar ser realzada en este caso.
El módulo 400 de realce de señales puede, por ejemplo, implementar uno de los procedimientos y aparatos de sustracción espectral descritos en uno cualquiera de S. F. Boll, “Suppression of Acoustic Noise in Speech Using Spectral Subtraction”, IEEE Trans. Acoustics, Speech and Signal Processing, 27(2): 112-120, abril de 1979, R. Mukai, S. Araki, H. Sawada y S. Makino, “Removal of residual crosstalk components in blind source separation using LMS filters”, en Proc. Of 12th IEEE Workshop on Neural Networks for Signal Processing, pp. 435-444, Matigny, Suiza, septiembre de 2002, o R. Mukai, S. Araki, H. Sawada y S. Makino, “Removal of residual cross-talk components in blind source separation using time-delayed spectral subtraction”, en Proc. of ICASSP 2002, pp. 17891792, mayo de 2002.
Aplicaciones potenciales
Se pueden utilizar los procedimientos y el aparato de VAD descritos en el presente documento para eliminar el ruido de fondo. Los ejemplos proporcionados a continuación no son exhaustivos de posibles aplicaciones y no limitan la aplicación del aparato y de los procedimientos de VAD de múltiples micrófonos descritos en el presente documento. Se pueden utilizar potencialmente los procedimientos y el aparato de VAD descritos en cualquier aplicación en la que sea necesaria una decisión de VAD y haya disponibles señales de múltiples micrófonos. La VAD es adecuada para un procesamiento de señales en tiempo real pero no está limitada por una implementación potencial en aplicaciones de procesamiento de señales fuera de línea.
La Figura 5 es un diagrama simplificado de bloques funcionales de una realización de un dispositivo móvil 110 con un detector de actividad vocal con un realce opcional de señales. Se puede utilizar la decisión de VAD del módulo 230 de VAD para controlar la ganancia de un amplificador 510 de ganancia variable.
El módulo 230 de VAD puede acoplar la señal de detección de actividad de voz de salida a la entrada de un generador 520 o controlador de ganancia, que está configurado para controlar la ganancia aplicada a la señal de referencia de frecuencia vocal. En una realización, el generador 520 de ganancia está configurado para controlar la
ganancia aplicada por un amplificador 510 de ganancia variable. Se muestra el amplificador 510 de ganancia variable implementado en el dominio digital, y puede estar implementado, por ejemplo, como un escalador, un multiplicador, un registrador de impulsos, un rotador de registros, y similar, o alguna combinación de los mismos.
Como ejemplo, se puede aplicar una ganancia escalar controlada por la VAD de dos micrófonos a la señal de referencia de frecuencia vocal. Como ejemplo específico, se puede establecer la ganancia del amplificador 510 de ganancia variable como I cuando se detecta una frecuencia vocal. Se puede establecer la ganancia del amplificador 510 de ganancia variable menor que I cuando no se detecta una frecuencia vocal.
Se muestra el amplificador 510 de ganancia variable en el dominio digital, pero la ganancia variable puede ser aplicada directamente a una señal procedente del micrófono 112 de referencia de frecuencia vocal. La ganancia variable también puede ser aplicada a la señal de referencia de frecuencia vocal en el dominio digital o a la señal realzada de referencia de frecuencia vocal obtenida del módulo 400 de realce de señales, como se muestra en la Figura 5.
También se pueden utilizar los procedimientos y el aparato de VAD descritos en el presente documento para ayudar en la codificación de frecuencia vocal en módem. La Figura 6 es un diagrama simplificado de bloques funcionales de una realización de un dispositivo móvil 110 con un detector de actividad de voz que controla la codificación de la frecuencia vocal.
En la realización de la Figura 6, el módulo 230 de VAD acopla la decisión de VAD a una entrada de control de un codificador 600 de frecuencia vocal.
En general, los codificadores de frecuencia vocal en módem pueden tener detectores internos de actividad vocal, que utilizan tradicionalmente la señal o la señal realzada de un micrófono. Al utilizar un realce de señal de dos micrófonos, tal como se proporciona por el módulo 400 de realce de señales, la señal recibida por la VAD interna puede tener una SNR mejor que la señal original del micrófono. Por lo tanto, es probable que la VAD interna que utiliza la señal realzada pueda tomar una decisión más fiable. Al combinar la decisión de la VAD interna y la VAD externa, que utiliza dos señales, es posible obtener una decisión de VAD aún más fiable. Por ejemplo, el codificador 600 de frecuencia vocal puede estar configurado para llevar a cabo una combinación lógica de la decisión de VAD interna y de la decisión de VAD del módulo 230 de VAD. El codificador 600 de frecuencia vocal puede, por ejemplo, operar en la lógica Y o en la lógica O de las dos señales.
La Figura 7 es un diagrama de flujo de un procedimiento simplificado 700 de detección de actividad vocal. El procedimiento 700 puede ser implementado por el dispositivo móvil de la Figura 1 con uno o una combinación del aparato y técnicas descritos en relación con las Figuras 2-6.
Se describe el procedimiento 700 con varias etapas opcionales que pueden ser omitidas en implementaciones particulares. Además, se describe el procedimiento 700 como llevado a cabo en un orden particular únicamente para fines ilustrativos, y se pueden llevar a cabo algunas etapas en un orden distinto.
El procedimiento comienza en el bloque 710, en el que el dispositivo móvil lleva a cabo inicialmente una calibración. El dispositivo móvil puede, por ejemplo, introducir una ganancia selectiva de frecuencia, una atenuación, o un retraso para igualar sustancialmente la respuesta de los recorridos de las señales de referencia de frecuencia vocal y de referencia de ruido.
Después de la calibración, el dispositivo móvil avanza hasta el bloque 722 y recibe una señal de referencia de frecuencia vocal procedente de los micrófonos de referencia. La señal de referencia de frecuencia vocal puede incluir la presencia o la ausencia de actividad vocal.
El dispositivo móvil avanza hasta el bloque 724 y recibe al mismo tiempo una señal calibrada de referencia de ruido procedente del módulo de calibración basada en una señal procedente de un micrófono de referencia de ruido. Normalmente, el micrófono de referencia de ruido acopla un nivel reducido de señal de frecuencias vocales con respecto a los micrófonos de referencia de frecuencia vocal, pero no se requiere que lo haga.
El dispositivo móvil avanza hasta el bloque opcional 728 y lleva a cabo una cancelación de eco en las señales recibidas de frecuencia vocal y de ruido, por ejemplo, cuando el dispositivo móvil da salida a una señal de audio que puede ser acoplada a una de las señales de referencia de frecuencia vocal y de ruido, o a ambas.
El dispositivo móvil avanza hasta el bloque 730 y lleva a cabo, opcionalmente, un realce de señales de las señales de referencia de frecuencia vocal y de las señales de referencia de ruido. El dispositivo móvil puede incluir un realce de señales en dispositivos que no pueden separar de forma significativa el micrófono de referencia de frecuencia vocal del micrófono de referencia de ruido, por ejemplo, debido a limitaciones físicas. Si la estación móvil lleva a cabo un realce de señales, el procesamiento subsiguiente puede llevarse a cabo en la señal realzada de referencia de frecuencia vocal y la señal realzada de referencia de ruido. Si se omite el realce de señales, el dispositivo móvil puede operar en la señal de referencia de frecuencia vocal y la señal de referencia de ruido.
El dispositivo móvil avanza hasta el bloque 742 y determina, calcula, o genera de otra manera un valor característico de frecuencia vocal en base a la señal de referencia de frecuencia vocal. El dispositivo móvil puede estar configurado para determinar un valor característico de frecuencia vocal que es relevante para una muestra particular, en base a una pluralidad de muestras, en base a una media ponderada de muestras previas, en base a una disminución exponencial de muestras anteriores, o en base a una ventana predeterminada de muestras.
En una realización, el dispositivo móvil está configurado para determinar una autocorrelación de la señal de referencia de frecuencia vocal. En otra realización, el dispositivo móvil está configurado para determinar una energía de la señal recibida.
El dispositivo móvil avanza hasta el bloque 744 y determina, calcula, o genera de otra manera un valor característico complementario de ruido. Normalmente, la estación móvil determina el valor característico de ruido utilizando las mismas técnicas utilizadas para generar el valor característico de frecuencia vocal. Es decir, si el dispositivo móvil determina un valor característico de frecuencia vocal basado en tramas, el dispositivo móvil determina de la misma manera un valor característico de ruido basado en tramas. De forma similar, si el dispositivo móvil determina una autocorrelación como el valor característico de frecuencia vocal, el dispositivo móvil determina una autocorrelación de la señal de ruido como el valor característico de ruido.
La estación móvil puede avanzar opcionalmente hasta el bloque 746 y determinar, calcular, o generar de otra manera un valor característico combinado complementario, basado al menos en parte tanto en la señal de referencia de frecuencia vocal como en la señal de referencia de ruido. Por ejemplo, el dispositivo móvil puede estar configurado para determinar una correlación cruzada de las dos señales. En otras realizaciones, el dispositivo móvil puede omitir la determinación de un valor característico combinado, por ejemplo, tal como cuando la métrica de actividad vocal no está basada en un valor característico combinado.
El dispositivo móvil avanza hasta el bloque 750 y determina, calcula, o genera de otra manera una métrica de actividad vocal basada al menos en parte en uno o más del valor característico de frecuencia vocal, del valor característico de ruido, y del valor característico combinado. En una realización, el dispositivo móvil está configurado para determinar una relación del valor de autocorrelación de frecuencia vocal con respecto al valor de correlación cruzada combinado. En otra realización, el dispositivo móvil está configurado para determinar una relación del valor de energía de frecuencia vocal con respecto al valor de energía de ruido. El dispositivo móvil puede determinar, de forma similar, otra métrica de actividad utilizando otras técnicas.
El dispositivo móvil avanza hasta el bloque 760 y toma la decisión de actividad de voz o determina de otra manera el estado de actividad vocal. Por ejemplo, el dispositivo móvil puede tomar la determinación de actividad vocal al comparar la métrica de actividad vocal con uno o más umbrales. Los umbrales pueden ser fijos o dinámicos. En una realización, el dispositivo móvil determina la presencia de actividad vocal si la métrica de actividad vocal supera un umbral predeterminado.
Después de determinar el estado de actividad vocal, el dispositivo móvil avanza hasta el bloque 770 y varía, ajusta,
o modifica de otra manera uno o más parámetros o controles en base en parte al estado de actividad vocal. Por ejemplo, el dispositivo móvil puede establecer una ganancia de un amplificador de señal de referencia de frecuencia vocal en base al estado de actividad vocal, puede utilizar el estado de actividad vocal para controlar un codificador de frecuencia vocal, o puede utilizar el estado de actividad vocal en combinación con otra decisión de VAD para controlar un estado del codificador de la frecuencia vocal.
El dispositivo móvil avanza hasta el bloque 780 de decisión para determinar si se desea una recalibración. El dispositivo móvil puede llevar a cabo una calibración tras el paso de uno o más eventos, periodos de tiempo, y similares, o alguna combinación de los mismos. Si se desea una recalibración, el dispositivo móvil vuelve al bloque
710. De lo contrario, el dispositivo móvil puede volver al bloque 722 para continuar monitorizando las señales de referencia de frecuencia vocal y de ruido en busca de actividad vocal.
La Figura 8 es un diagrama simplificado de bloques funcionales de una realización de un dispositivo móvil 800 con un detector calibrado de actividad vocal en múltiples micrófonos y un realce de señales. El dispositivo móvil 800 incluye micrófonos 812 y 814 de referencia de frecuencia vocal y de ruido, un medio para convertir las señales de referencia de frecuencia vocal y de ruido en representaciones digitales, 822 y 824, y medios para cancelar ecos en las señales 842 y 844 de referencia de frecuencia vocal y de ruido. Los medios para cancelar los ecos operan junto con medios para combinar una señal 832 y 834 con la salida procedente del medio de cancelación.
Las señales de referencia de frecuencia vocal y de ruido de eco cancelado pueden ser acopladas a un medio para calibrar 850 una respuesta espectral de un recorrido de la señal de referencia de frecuencia vocal para que sea sustancialmente similar a una respuesta espectral de un recorrido de la señal de referencia de ruido. Las señales de referencia de frecuencia vocal y de ruido también pueden estar acopladas a un medio 856 para realzar al menos una de la señal de referencia de frecuencia vocal o la señal de referencia de ruido. Si se utiliza el medio 856 para realzar, la métrica de actividad vocal está basada al menos en parte en una de una señal realzada de referencia de frecuencia vocal o una señal realzada de referencia de ruido.
Un medio para detectar 860 actividad vocal puede incluir un medio para determinar una autocorrelación basada en la señal de referencia de frecuencia vocal, un medio para determinar una correlación cruzada basada en la señal de referencia de frecuencia vocal y en la señal de referencia de ruido, un medio para determinar una métrica de actividad vocal basada en parte en una relación de la autocorrelación de la señal de referencia de frecuencia vocal con respecto a la correlación cruzada, y un medio para determinar un estado de actividad vocal al comparar la métrica de actividad vocal con al menos un umbral.
En el presente documento se describen los procedimientos y el aparato para una detección de actividad vocal y para variar la operación de una o más porciones de un dispositivo móvil en base al estado de actividad vocal. Los procedimientos y el aparato de VAD presentados en el presente documento pueden ser utilizados por sí solos, pueden ser combinados con procedimientos y aparatos tradicionales de VAD para tomar decisiones de VAD más fiables. Como ejemplo, el procedimiento de VAD dado a conocer puede ser combinado con un procedimiento de paso por cero para tomar una decisión más fiable de actividad vocal.
Se debería hacer notar que una persona con un nivel normal de dominio de la técnica reconocerá que un circuito puede implementar algunas de las funciones descritas anteriormente, o todas ellas. Puede haber un circuito que implemente todas las funciones. También puede haber múltiples secciones de un circuito en combinación con un segundo circuito que puede implementar todas las funciones. En general, si se implementan múltiples funciones en el circuito, puede ser un circuito integrado. Con las tecnologías actuales de plataforma móvil, un circuito integrado comprende al menos un procesador de señales digitales (DSP), y al menos un procesador ARM para controlar y/o comunicarse con el al menos un DSP. Se puede describir un circuito por secciones. A menudo, se reutilizan secciones para llevar a cabo distintas funciones. Por lo tanto, al describir qué circuitos comprenden algunas de las anteriores descripciones, una persona con un nivel normal de dominio de la técnica comprenderá que una primera sección, una segunda sección, una tercera sección, una cuarta sección, y una quinta sección de un circuito pueden ser el mismo circuito, o pueden ser distintos circuitos que son parte de un circuito mayor o de un conjunto de circuitos.
Un circuito puede estar configurado para detectar la actividad vocal, comprendiendo el circuito una primera sección adaptada para recibir una señal de referencia de frecuencia vocal de salida procedente de un micrófono de referencia de frecuencia vocal. El mismo circuito, un circuito distinto, o una segunda sección del mismo circuito, o diferente, puede estar configurado para recibir una señal de referencia de salida procedente de un micrófono de referencia de ruido. Además, puede haber un mismo circuito, un distinto circuito, o una tercera sección del mismo circuito, o distinto, que comprende un generador de valor característico de frecuencia vocal acoplado a la primera sección configurada para determinar un valor característico de frecuencia vocal. Una cuarta sección que comprende un generador de valor característico combinado acoplado a la primera sección y a la segunda sección configuradas para determinar un valor característico combinado también pueden ser parte del circuito integrado. Además, una quinta sección que comprende un módulo de métrica de actividad vocal configurado para determinar una métrica de actividad vocal en base, al menos en parte, al valor característico de frecuencia vocal y al valor característico combinado puede ser parte del circuito integrado. Para comparar la métrica de actividad vocal con un umbral y una salida de un estado de actividad vocal se puede utilizar un comparador. En general, cualquiera de las secciones (primera, segunda, tercera, cuarta o quinta) puede ser parte del circuito integrado, o ser independiente del mismo. Es decir, cada una de las secciones puede ser parte de un circuito mayor, o cada una puede ser un circuito integrado individual o una combinación de los dos.
Como se ha descrito anteriormente, el micrófono de referencia de frecuencia vocal comprende una pluralidad de micrófonos y el generador de valor característico de frecuencia vocal puede estar configurado para determinar una autocorrelación de la señal de referencia de frecuencia vocal y/o determinar una energía de la señal de referencia de frecuencia vocal, y/o determinar una media ponderada en base a una disminución exponencial de anteriores valores característicos de frecuencia vocal. Como se ha descrito anteriormente, las funciones del generador de valor característico de frecuencia vocal pueden ser implementadas en una o más secciones de un circuito.
Según se utiliza en el presente documento, el término acoplado o conectado se utiliza con el significado de un acoplamiento indirecto al igual que un acoplamiento o una conexión directos. Cuando hay acoplados dos o más bloques, módulos, dispositivos o aparatos, puede haber uno o más bloques interpuestos entre los dos bloques acoplados.
Los diversos bloques lógicos, módulos, y circuitos ilustrativos descritos en conexión con las realizaciones dadas a conocer en el presente documento pueden ser implementados o llevados a cabo con un procesador para uso general, un procesador de señales digitales (DSP), un procesador de un Ordenador con grupo reducido de instrucciones (RISC), un Circuito integrado para aplicaciones específicas (ASIC), una Matriz de puertas de campo programable, u otro dispositivo lógico programable, puerta discreta o lógica de transistor, componentes discretos de hardware, o cualquier combinación de los mismos diseñada para llevar a cabo las funciones descritas en el presente documento. Un procesador para uso general puede ser un microprocesador, pero de forma alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador, o máquina de estado. También se puede implementar un procesador como una combinación de dispositivos informáticos, por ejemplo, una combinación de un
DSP y un microprocesador, una pluralidad de microprocesadores, uno o más microprocesadores junto con un núcleo de DSP, o cualquier otra configuración de ese tipo.
Las etapas de un procedimiento, proceso, o algoritmo descrito en conexión con las realizaciones dadas a conocer en el presente documento pueden ser implementadas directamente en el hardware, en un módulo de software 5 ejecutado por un procesador, o en una combinación de los dos. Las diversas etapas o acciones en un procedimiento
o proceso pueden ser llevadas a cabo en el orden mostrado, o pueden ser llevadas a cabo en otro orden. Además, se pueden omitir una o más etapas del proceso o del procedimiento o se pueden añadir una o más etapas del proceso o del procedimiento a los procedimientos o procesos. Se puede añadir una etapa, un bloque, o una acción adicional al comienzo, al final, o interpuesto entre elementos existentes de los procedimientos y procesos.
10 Se proporciona la anterior descripción de las realizaciones dadas a conocer para permitir a cualquier persona con un nivel normal de dominio de la técnica realizar o utilizar la revelación. Serán inmediatamente evidentes diversas modificaciones a estas realizaciones para las personas con un nivel normal de dominio de la técnica, y los principios genéricos definidos en el presente documento pueden ser aplicados a otras realizaciones sin alejarse del alcance de la revelación siempre que que se encuentren dentro del alcance de las reivindicaciones adjuntas.
Claims (10)
- REIVINDICACIONES
- 1.
- Un procedimiento para detectar actividad vocal, comprendiendo el procedimiento:
- recibir (722) una señal de referencia de frecuencia vocal procedente de un micrófono (112) de referencia de
- frecuencia vocal;
- 5
- recibir (724) una señal de referencia de ruido procedente de un micrófono (114) de referencia de ruido
- distinto del micrófono (112) de referencia de frecuencia vocal;
- determinar (742) un valor característico de frecuencia vocal en base, al menos en parte, a la señal de
- referencia de frecuencia vocal;
- determinar (746) un valor característico combinado en base, al menos en parte, a la señal de referencia de
- 10
- frecuencia vocal y a la señal de referencia de ruido;
- determinar (750) una métrica de actividad vocal en base, al menos en parte, al valor característico de
- frecuencia vocal y al valor característico combinado,
- en el que determinar (742) el valor característico de frecuencia vocal comprende determinar un valor
- absoluto de una autocorrelación de la señal de referencia de frecuencia vocal y determinar (746) el valor
- 15
- característico combinado comprende determinar una correlación cruzada en base a la señal de
- referencia de frecuencia vocal y a la señal de referencia de ruido, y
- en el que determinar (750) la métrica de actividad vocal comprende determinar una relación del valor
- absoluto de la autocorrelación de la señal de referencia de frecuencia vocal con respecto a la
- correlación cruzada; y
- 20
- determinar (760) un estado de actividad vocal en base a la métrica de actividad vocal.
-
- 2.
- El procedimiento de la reivindicación 1, que comprende, además:
- formar un haz con al menos una de la señal de referencia de frecuencia vocal o la señal de referencia de
- ruido;
- llevar a cabo una Separación ciega de fuentes, BSS, en la señal de referencia de frecuencia vocal y la
- 25
- señal de referencia de ruido para realizar un componente de señal de frecuencia vocal en la señal de
- referencia de frecuencia vocal;
- llevar a cabo una sustracción espectral en al menos una de la señal de referencia de frecuencia vocal o la
- señal de referencia de ruido; o
- determinar un valor característico de ruido en base, al menos en parte, a la señal de referencia de ruido, y
- 30
- en el que la métrica de actividad vocal está basada, al menos en parte, en el valor característico de ruido.
-
- 3.
- El procedimiento de la reivindicación 1, en el que la señal de referencia de frecuencia vocal incluye la presencia
- o la ausencia de actividad vocal, y preferentemente:
- la autocorrelación comprende una suma ponderada de una autocorrelación anterior con una energía de
- referencia de frecuencia vocal en un instante temporal particular;
- 35
- determinar el valor característico de frecuencia vocal comprende determinar una energía de la señal de
- referencia de frecuencia vocal;
- determinar el valor característico combinado comprende determinar una correlación cruzada en base a la
- señal de referencia de frecuencia vocal y a la señal de referencia de ruido; o
- determinar el estado de actividad vocal comprende comparar la métrica de actividad vocal con un umbral.
- 40
- 4. El procedimiento de la reivindicación 1, en el que:
- el micrófono (112) de referencia de frecuencia vocal comprende al menos un micrófono de frecuencia vocal;
- el micrófono (114) de referencia de ruido comprende al menos un micrófono de ruido distinto del al menos
- un micrófono de frecuencia vocal;
- determinar (742) el valor característico de frecuencia vocal comprende determinar una autocorrelación en
- 45
- base a la señal de referencia de frecuencia vocal; y
determinar (760) el estado de actividad vocal comprende comparar la métrica de actividad vocal con al menos un umbral. - 5. El procedimiento de la reivindicación 4, que comprende, además:llevar a cabo (730) un realce de señal de al menos una de la señal de referencia de frecuencia vocal o de la 5 señal de referencia de ruido, y en el que la métrica de actividad vocal está basada, al menos en parte, en una de una señal realzada de referencia de frecuencia vocal o una señal realzada de referencia de ruido; ovariar (770) un parámetro operativo en base al estado de actividad vocal.
- 6. El procedimiento de la reivindicación 5, en el que el parámetro operativo comprende:una ganancia aplicada a la señal de referencia de frecuencia vocal; o 10 un estado de un codificador de frecuencia vocal que opera en la señal de referencia de frecuencia vocal.
- 7. Un aparato configurado para detectar actividad vocal, comprendiendo el aparato: un medio (112) para recibir una señal de referencia de frecuencia vocal; un medio (114) para recibir una señal de referencia de ruido; un medio (232) para determinar un valor característico de frecuencia vocal en base a la señal de referencia15 de frecuencia vocal al determinar un valor absoluto de una autocorrelación de la señal de referencia defrecuencia vocal; un medio (236) para determinar un valor característico combinado al determinar una correlación cruzada en base a la señal de referencia de frecuencia vocal y a la señal de referencia de ruido;un medio (240) para determinar una métrica de actividad vocal al determinar una relación del valor absoluto20 de la autocorrelación de la señal de referencia de frecuencia vocal con respecto a la correlación cruzada; y un medio (250) para determinar un estado de actividad vocal al comparar la métrica de actividad vocal con al menos un umbral.
- 8. El aparato de la reivindicación 7, que comprende, además: un micrófono de referencia de frecuencia vocal configurado para dar salida a una señal de referencia de25 frecuencia vocal; y un micrófono de referencia de ruido configurado para dar salida a una señal de referencia de ruido.
- 9. El aparato de la reivindicación 7, que comprende, además, un medio para calibrar una respuesta espectral de un recorrido de la señal de referencia de frecuencia vocal para que sea sustancialmente similar a una respuesta espectral de un recorrido de la señal de referencia de ruido.30 10. El aparato de la reivindicación 8, en el que:el micrófono de referencia de frecuencia vocal comprende una pluralidad de micrófonos; oel medio para determinar un valor característico de frecuencia vocal está configurado para determinar una media ponderada en base a una disminución exponencial de valores característicos anteriores de frecuencia vocal.35 11. El aparato de la reivindicación 8, en el que el medio para determinar una métrica de actividad vocal está configurado para determinar una relación del valor característico de frecuencia vocal con respecto a un valor característico de ruido determinado en base a la señal de referencia de ruido.
- 12. El aparato de la reivindicación 7, que comprende un circuito configurado para detectar actividad vocal, en el que:40 el medio para recibir una señal de referencia de frecuencia vocal comprende una primera sección del circuito adaptada para recibir una señal de referencia de frecuencia vocal de salida procedente de un micrófono de referencia de frecuencia vocal;el medio para recibir una señal de referencia de ruido comprende una segunda sección del circuito adaptada para recibir una señal de referencia de ruido de salida procedente de un micrófono de referencia 45 de ruido;el medio para determinar un valor característico de frecuencia vocal comprende una tercera sección del circuito que comprende un generador de valor característico de frecuencia vocal acoplado a la primera sección configurada para determinar un valor característico de frecuencia vocal, en el que determinar el valor característico de frecuencia vocal comprende determinar un valor absoluto de la autocorrelación de la5 señal de referencia de frecuencia vocal;el medio para determinar un valor característico combinado comprende una cuarta sección del circuito que comprende un generador de valor característico combinado acoplado a la primera sección y a la segunda sección configuradas para determinar un valor característico combinado, en el que determinar el valor característico combinado comprende determinar una correlación cruzada en base a la señal de referencia10 de frecuencia vocal y a la señal de referencia de ruido;el medio para determinar una métrica de actividad vocal comprende una quinta sección del circuito que comprende un módulo de métrica de actividad vocal configurado para determinar una métrica de actividad vocal al determinar una relación del valor absoluto de la autocorrelación de la señal de referencia de frecuencia vocal con respecto a la correlación cruzada; y15 el medio para determinar un estado de actividad vocal comprende un comparador configurado para comparar la métrica de actividad vocal con un umbral y dar salida a un estado de actividad vocal.
- 13. El aparato de la reivindicación 12, en el que cualesquiera dos secciones en un grupo consistente en la primera sección, la segunda sección, la tercera sección, la cuarta sección, y la quinta sección del circuito comprenden circuitería similar.20 14. Un medio legible por un ordenador que incluye instrucciones que, cuando son ejecutadas por un procesador, tienen como resultado la realización de etapas de procedimiento de cualquiera de las reivindicaciones 1 a 6.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US864897 | 2007-09-28 | ||
| US11/864,897 US8954324B2 (en) | 2007-09-28 | 2007-09-28 | Multiple microphone voice activity detector |
| PCT/US2008/077994 WO2009042948A1 (en) | 2007-09-28 | 2008-09-26 | Multiple microphone voice activity detector |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2373511T3 true ES2373511T3 (es) | 2012-02-06 |
Family
ID=40002930
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES08833863T Active ES2373511T3 (es) | 2007-09-28 | 2008-09-26 | Detector de actividad vocal en múltiples micrófonos. |
Country Status (12)
| Country | Link |
|---|---|
| US (1) | US8954324B2 (es) |
| EP (1) | EP2201563B1 (es) |
| JP (1) | JP5102365B2 (es) |
| KR (1) | KR101265111B1 (es) |
| CN (1) | CN101790752B (es) |
| AT (1) | ATE531030T1 (es) |
| BR (1) | BRPI0817731A8 (es) |
| CA (1) | CA2695231C (es) |
| ES (1) | ES2373511T3 (es) |
| RU (1) | RU2450368C2 (es) |
| TW (1) | TWI398855B (es) |
| WO (1) | WO2009042948A1 (es) |
Families Citing this family (126)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8019091B2 (en) | 2000-07-19 | 2011-09-13 | Aliphcom, Inc. | Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression |
| US8280072B2 (en) | 2003-03-27 | 2012-10-02 | Aliphcom, Inc. | Microphone array with rear venting |
| US8326611B2 (en) * | 2007-05-25 | 2012-12-04 | Aliphcom, Inc. | Acoustic voice activity detection (AVAD) for electronic systems |
| US9066186B2 (en) | 2003-01-30 | 2015-06-23 | Aliphcom | Light-based detection for acoustic applications |
| US9099094B2 (en) | 2003-03-27 | 2015-08-04 | Aliphcom | Microphone array with rear venting |
| US8477961B2 (en) * | 2003-03-27 | 2013-07-02 | Aliphcom, Inc. | Microphone array with rear venting |
| US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
| US8321213B2 (en) * | 2007-05-25 | 2012-11-27 | Aliphcom, Inc. | Acoustic voice activity detection (AVAD) for electronic systems |
| US8503686B2 (en) | 2007-05-25 | 2013-08-06 | Aliphcom | Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems |
| US8046219B2 (en) * | 2007-10-18 | 2011-10-25 | Motorola Mobility, Inc. | Robust two microphone noise suppression system |
| DE602008002695D1 (de) * | 2008-01-17 | 2010-11-04 | Harman Becker Automotive Sys | Postfilter für einen Strahlformer in der Sprachverarbeitung |
| US8560307B2 (en) * | 2008-01-28 | 2013-10-15 | Qualcomm Incorporated | Systems, methods, and apparatus for context suppression using receivers |
| US8812309B2 (en) * | 2008-03-18 | 2014-08-19 | Qualcomm Incorporated | Methods and apparatus for suppressing ambient noise using multiple audio signals |
| US9113240B2 (en) * | 2008-03-18 | 2015-08-18 | Qualcomm Incorporated | Speech enhancement using multiple microphones on multiple devices |
| US8184816B2 (en) * | 2008-03-18 | 2012-05-22 | Qualcomm Incorporated | Systems and methods for detecting wind noise using multiple audio sources |
| US8606573B2 (en) * | 2008-03-28 | 2013-12-10 | Alon Konchitsky | Voice recognition improved accuracy in mobile environments |
| EP2107553B1 (en) * | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Method for determining barge-in |
| US8275136B2 (en) * | 2008-04-25 | 2012-09-25 | Nokia Corporation | Electronic device speech enhancement |
| US8244528B2 (en) * | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
| US8611556B2 (en) * | 2008-04-25 | 2013-12-17 | Nokia Corporation | Calibrating multiple microphones |
| JP4516157B2 (ja) * | 2008-09-16 | 2010-08-04 | パナソニック株式会社 | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム |
| US8724829B2 (en) * | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
| US8229126B2 (en) * | 2009-03-13 | 2012-07-24 | Harris Corporation | Noise error amplitude reduction |
| US9049503B2 (en) * | 2009-03-17 | 2015-06-02 | The Hong Kong Polytechnic University | Method and system for beamforming using a microphone array |
| US8620672B2 (en) * | 2009-06-09 | 2013-12-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal |
| CN104485118A (zh) * | 2009-10-19 | 2015-04-01 | 瑞典爱立信有限公司 | 用于语音活动检测的检测器和方法 |
| US20110125497A1 (en) * | 2009-11-20 | 2011-05-26 | Takahiro Unno | Method and System for Voice Activity Detection |
| EP2339574B1 (en) * | 2009-11-20 | 2013-03-13 | Nxp B.V. | Speech detector |
| US8462193B1 (en) * | 2010-01-08 | 2013-06-11 | Polycom, Inc. | Method and system for processing audio signals |
| US8718290B2 (en) | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
| US8626498B2 (en) * | 2010-02-24 | 2014-01-07 | Qualcomm Incorporated | Voice activity detection based on plural voice activity detectors |
| TWI408673B (zh) * | 2010-03-17 | 2013-09-11 | Issc Technologies Corp | Voice detection method |
| CN102201231B (zh) * | 2010-03-23 | 2012-10-24 | 创杰科技股份有限公司 | 语音侦测方法 |
| US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
| WO2011133924A1 (en) * | 2010-04-22 | 2011-10-27 | Qualcomm Incorporated | Voice activity detection |
| US9378754B1 (en) * | 2010-04-28 | 2016-06-28 | Knowles Electronics, Llc | Adaptive spatial classifier for multi-microphone systems |
| CN101867853B (zh) * | 2010-06-08 | 2014-11-05 | 中兴通讯股份有限公司 | 基于传声器阵列的语音信号处理方法及装置 |
| US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
| US20120114130A1 (en) * | 2010-11-09 | 2012-05-10 | Microsoft Corporation | Cognitive load reduction |
| ES2740173T3 (es) | 2010-12-24 | 2020-02-05 | Huawei Tech Co Ltd | Un método y un aparato para realizar una detección de actividad de voz |
| ES2489472T3 (es) * | 2010-12-24 | 2014-09-02 | Huawei Technologies Co., Ltd. | Método y aparato para una detección adaptativa de la actividad vocal en una señal de audio de entrada |
| CN102740215A (zh) * | 2011-03-31 | 2012-10-17 | Jvc建伍株式会社 | 声音输入装置、通信装置、及声音输入装置的动作方法 |
| CN102300140B (zh) | 2011-08-10 | 2013-12-18 | 歌尔声学股份有限公司 | 一种通信耳机的语音增强方法及降噪通信耳机 |
| US9648421B2 (en) | 2011-12-14 | 2017-05-09 | Harris Corporation | Systems and methods for matching gain levels of transducers |
| US9064497B2 (en) | 2012-02-22 | 2015-06-23 | Htc Corporation | Method and apparatus for audio intelligibility enhancement and computing apparatus |
| US20130282373A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
| JP6028502B2 (ja) | 2012-10-03 | 2016-11-16 | 沖電気工業株式会社 | 音声信号処理装置、方法及びプログラム |
| JP6107151B2 (ja) * | 2013-01-15 | 2017-04-05 | 富士通株式会社 | 雑音抑圧装置、方法、及びプログラム |
| US9107010B2 (en) * | 2013-02-08 | 2015-08-11 | Cirrus Logic, Inc. | Ambient noise root mean square (RMS) detector |
| US9312826B2 (en) | 2013-03-13 | 2016-04-12 | Kopin Corporation | Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction |
| US9560444B2 (en) * | 2013-03-13 | 2017-01-31 | Cisco Technology, Inc. | Kinetic event detection in microphones |
| US12380906B2 (en) | 2013-03-13 | 2025-08-05 | Solos Technology Limited | Microphone configurations for eyewear devices, systems, apparatuses, and methods |
| US10306389B2 (en) | 2013-03-13 | 2019-05-28 | Kopin Corporation | Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods |
| JP2016526331A (ja) * | 2013-05-23 | 2016-09-01 | ノールズ エレクトロニクス,リミテッド ライアビリティ カンパニー | Vad検出マイク及びその動作方法 |
| US20140358552A1 (en) * | 2013-05-31 | 2014-12-04 | Cirrus Logic, Inc. | Low-power voice gate for device wake-up |
| US9978387B1 (en) * | 2013-08-05 | 2018-05-22 | Amazon Technologies, Inc. | Reference signal generation for acoustic echo cancellation |
| US9251806B2 (en) * | 2013-09-05 | 2016-02-02 | Intel Corporation | Mobile phone with variable energy consuming speech recognition module |
| CN104751853B (zh) * | 2013-12-31 | 2019-01-04 | 辰芯科技有限公司 | 双麦克风噪声抑制方法及系统 |
| CN107293287B (zh) * | 2014-03-12 | 2021-10-26 | 华为技术有限公司 | 检测音频信号的方法和装置 |
| US9530433B2 (en) * | 2014-03-17 | 2016-12-27 | Sharp Laboratories Of America, Inc. | Voice activity detection for noise-canceling bioacoustic sensor |
| US9516409B1 (en) | 2014-05-19 | 2016-12-06 | Apple Inc. | Echo cancellation and control for microphone beam patterns |
| CN104092802A (zh) * | 2014-05-27 | 2014-10-08 | 中兴通讯股份有限公司 | 音频信号的消噪方法及系统 |
| US9288575B2 (en) * | 2014-05-28 | 2016-03-15 | GM Global Technology Operations LLC | Sound augmentation system transfer function calibration |
| CN105321528B (zh) * | 2014-06-27 | 2019-11-05 | 中兴通讯股份有限公司 | 一种麦克风阵列语音检测方法及装置 |
| CN104134440B (zh) * | 2014-07-31 | 2018-05-08 | 百度在线网络技术(北京)有限公司 | 用于便携式终端的语音检测方法和语音检测装置 |
| US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
| US9516159B2 (en) * | 2014-11-04 | 2016-12-06 | Apple Inc. | System and method of double talk detection with acoustic echo and noise control |
| TWI616868B (zh) * | 2014-12-30 | 2018-03-01 | Hon Hai Precision Industry Co., Ltd. | 會議記錄裝置及其自動生成會議記錄的方法 |
| US9685156B2 (en) * | 2015-03-12 | 2017-06-20 | Sony Mobile Communications Inc. | Low-power voice command detector |
| US9330684B1 (en) * | 2015-03-27 | 2016-05-03 | Continental Automotive Systems, Inc. | Real-time wind buffet noise detection |
| US10242689B2 (en) * | 2015-09-17 | 2019-03-26 | Intel IP Corporation | Position-robust multiple microphone noise estimation techniques |
| US11631421B2 (en) * | 2015-10-18 | 2023-04-18 | Solos Technology Limited | Apparatuses and methods for enhanced speech recognition in variable environments |
| CN105280195B (zh) * | 2015-11-04 | 2018-12-28 | 腾讯科技(深圳)有限公司 | 语音信号的处理方法及装置 |
| US10325134B2 (en) | 2015-11-13 | 2019-06-18 | Fingerprint Cards Ab | Method and system for calibration of an optical fingerprint sensing device |
| US20170140233A1 (en) * | 2015-11-13 | 2017-05-18 | Fingerprint Cards Ab | Method and system for calibration of a fingerprint sensing device |
| CN105609118B (zh) * | 2015-12-30 | 2020-02-07 | 生迪智慧科技有限公司 | 语音检测方法及装置 |
| CN106971741B (zh) * | 2016-01-14 | 2020-12-01 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
| CN106997768B (zh) | 2016-01-25 | 2019-12-10 | 电信科学技术研究院 | 一种语音出现概率的计算方法、装置及电子设备 |
| KR102468148B1 (ko) | 2016-02-19 | 2022-11-21 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 및 잡음 분류 방법 |
| US10403307B2 (en) * | 2016-03-31 | 2019-09-03 | OmniSpeech LLC | Pitch detection algorithm based on multiband PWVT of Teager energy operator |
| US10074380B2 (en) * | 2016-08-03 | 2018-09-11 | Apple Inc. | System and method for performing speech enhancement using a deep neural network-based signal |
| JP6567478B2 (ja) * | 2016-08-25 | 2019-08-28 | 日本電信電話株式会社 | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置 |
| US10237647B1 (en) * | 2017-03-01 | 2019-03-19 | Amazon Technologies, Inc. | Adaptive step-size control for beamformer |
| EP3392882A1 (en) * | 2017-04-20 | 2018-10-24 | Thomson Licensing | Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium |
| JP2018191145A (ja) * | 2017-05-08 | 2018-11-29 | オリンパス株式会社 | 収音装置、収音方法、収音プログラム及びディクテーション方法 |
| US10395667B2 (en) | 2017-05-12 | 2019-08-27 | Cirrus Logic, Inc. | Correlation-based near-field detector |
| WO2018236349A1 (en) | 2017-06-20 | 2018-12-27 | Hewlett-Packard Development Company, L.P. | Signal combiner |
| US11316865B2 (en) | 2017-08-10 | 2022-04-26 | Nuance Communications, Inc. | Ambient cooperative intelligence system and method |
| US11114186B2 (en) * | 2017-08-10 | 2021-09-07 | Nuance Communications, Inc. | Automated clinical documentation system and method |
| US9973849B1 (en) * | 2017-09-20 | 2018-05-15 | Amazon Technologies, Inc. | Signal quality beam selection |
| US10839822B2 (en) * | 2017-11-06 | 2020-11-17 | Microsoft Technology Licensing, Llc | Multi-channel speech separation |
| EP3714452B1 (en) * | 2017-11-23 | 2023-02-15 | Harman International Industries, Incorporated | Method and system for speech enhancement |
| CN109994122B (zh) * | 2017-12-29 | 2023-10-31 | 阿里巴巴集团控股有限公司 | 语音数据的处理方法、装置、设备、介质和系统 |
| KR102475989B1 (ko) | 2018-02-12 | 2022-12-12 | 삼성전자주식회사 | 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법 |
| US20190272902A1 (en) | 2018-03-05 | 2019-09-05 | Nuance Communications, Inc. | System and method for review of automated clinical documentation |
| EP3762921A4 (en) | 2018-03-05 | 2022-05-04 | Nuance Communications, Inc. | AUTOMATED CLINICAL DOCUMENTATION SYSTEM AND PROCESS |
| US11250382B2 (en) | 2018-03-05 | 2022-02-15 | Nuance Communications, Inc. | Automated clinical documentation system and method |
| SG11202009556XA (en) * | 2018-03-28 | 2020-10-29 | Telepathy Labs Inc | Text-to-speech synthesis system and method |
| RU2756385C1 (ru) * | 2018-03-29 | 2021-09-29 | 3М Инновейтив Пропертиз Компани | Активируемое голосом преобразование звука для головных гарнитур с использованием представления сигналов микрофона в частотной области |
| US10957337B2 (en) | 2018-04-11 | 2021-03-23 | Microsoft Technology Licensing, Llc | Multi-microphone speech separation |
| US11341987B2 (en) * | 2018-04-19 | 2022-05-24 | Semiconductor Components Industries, Llc | Computationally efficient speech classifier and related methods |
| US10847178B2 (en) * | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
| CN108632711B (zh) * | 2018-06-11 | 2020-09-04 | 广州大学 | 扩声系统增益自适应控制方法 |
| CN112384975B (zh) * | 2018-07-12 | 2024-08-02 | 杜比实验室特许公司 | 使用辅助信号的音频装置的传输控制 |
| EP3667662B1 (en) * | 2018-12-12 | 2022-08-10 | Panasonic Intellectual Property Corporation of America | Acoustic echo cancellation device, acoustic echo cancellation method and acoustic echo cancellation program |
| CN111294473B (zh) * | 2019-01-28 | 2022-01-04 | 展讯通信(上海)有限公司 | 信号处理方法及装置 |
| JP7404664B2 (ja) * | 2019-06-07 | 2023-12-26 | ヤマハ株式会社 | 音声処理装置及び音声処理方法 |
| US11216480B2 (en) | 2019-06-14 | 2022-01-04 | Nuance Communications, Inc. | System and method for querying data points from graph data structures |
| US11043207B2 (en) | 2019-06-14 | 2021-06-22 | Nuance Communications, Inc. | System and method for array data simulation and customized acoustic modeling for ambient ASR |
| US11227679B2 (en) | 2019-06-14 | 2022-01-18 | Nuance Communications, Inc. | Ambient clinical intelligence system and method |
| CN112153505A (zh) * | 2019-06-28 | 2020-12-29 | 中强光电股份有限公司 | 降噪系统及降噪方法 |
| US11531807B2 (en) | 2019-06-28 | 2022-12-20 | Nuance Communications, Inc. | System and method for customized text macros |
| US11670408B2 (en) | 2019-09-30 | 2023-06-06 | Nuance Communications, Inc. | System and method for review of automated clinical documentation |
| CN111049848B (zh) * | 2019-12-23 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 通话方法、装置、系统、服务器及存储介质 |
| CN115605953B (zh) | 2020-05-08 | 2026-03-17 | 微软技术许可有限责任公司 | 用于多麦克风信号处理的数据增强的系统和方法 |
| WO2021253235A1 (zh) * | 2020-06-16 | 2021-12-23 | 华为技术有限公司 | 语音活动检测方法和装置 |
| US11482236B2 (en) * | 2020-08-17 | 2022-10-25 | Bose Corporation | Audio systems and methods for voice activity detection |
| US11222103B1 (en) | 2020-10-29 | 2022-01-11 | Nuance Communications, Inc. | Ambient cooperative intelligence system and method |
| EP4075822B1 (en) * | 2021-04-15 | 2023-06-07 | Rtx A/S | Microphone mute notification with voice activity detection |
| EP4404196A4 (en) * | 2021-11-09 | 2025-01-22 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE FOR CONTROLLING BEAM FORMING AND OPERATING METHOD THEREFOR |
| CN114822522A (zh) * | 2022-04-14 | 2022-07-29 | 厦门亿联网络技术股份有限公司 | 一种基于多麦克风的语音识别方法及装置 |
| US12506836B1 (en) * | 2022-05-17 | 2025-12-23 | Apple Inc. | Method and system for controlling echo cancellation |
| CN115831145B (zh) * | 2023-02-16 | 2023-06-27 | 之江实验室 | 一种双麦克风语音增强方法和系统 |
| US12401942B1 (en) | 2023-05-25 | 2025-08-26 | Amazon Technologies, Inc. | Group beam selection and beam merging |
| US12531048B1 (en) | 2023-09-05 | 2026-01-20 | Amazon Technologies, Inc. | Step-size control for multi-channel acoustic echo canceller |
| CN119402791B (zh) * | 2024-07-26 | 2025-11-14 | 南京航空航天大学 | 保留语音的降噪方法 |
Family Cites Families (50)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1989008910A1 (en) | 1988-03-11 | 1989-09-21 | British Telecommunications Public Limited Company | Voice activity detection |
| US5276779A (en) * | 1991-04-01 | 1994-01-04 | Eastman Kodak Company | Method for the reproduction of color images based on viewer adaption |
| IL101556A (en) * | 1992-04-10 | 1996-08-04 | Univ Ramot | Multi-channel signal separation using cross-polyspectra |
| TW219993B (en) | 1992-05-21 | 1994-02-01 | Ind Tech Res Inst | Speech recognition system |
| US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
| US5825671A (en) * | 1994-03-16 | 1998-10-20 | U.S. Philips Corporation | Signal-source characterization system |
| JP2758846B2 (ja) | 1995-02-27 | 1998-05-28 | 埼玉日本電気株式会社 | ノイズキャンセラ装置 |
| US5694474A (en) | 1995-09-18 | 1997-12-02 | Interval Research Corporation | Adaptive filter for signal processing and method therefor |
| FI100840B (fi) | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
| US5774849A (en) | 1996-01-22 | 1998-06-30 | Rockwell International Corporation | Method and apparatus for generating frame voicing decisions of an incoming speech signal |
| TW357260B (en) | 1997-11-13 | 1999-05-01 | Ind Tech Res Inst | Interactive music play method and apparatus |
| JP3505085B2 (ja) | 1998-04-14 | 2004-03-08 | アルパイン株式会社 | オーディオ装置 |
| US6526148B1 (en) * | 1999-05-18 | 2003-02-25 | Siemens Corporate Research, Inc. | Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals |
| US6694020B1 (en) * | 1999-09-14 | 2004-02-17 | Agere Systems, Inc. | Frequency domain stereophonic acoustic echo canceller utilizing non-linear transformations |
| US6424960B1 (en) * | 1999-10-14 | 2002-07-23 | The Salk Institute For Biological Studies | Unsupervised adaptation and classification of multiple classes and sources in blind signal separation |
| US7558391B2 (en) * | 1999-11-29 | 2009-07-07 | Bizjak Karl L | Compander architecture and methods |
| US6606382B2 (en) | 2000-01-27 | 2003-08-12 | Qualcomm Incorporated | System and method for implementation of an echo canceller |
| WO2001095666A2 (en) | 2000-06-05 | 2001-12-13 | Nanyang Technological University | Adaptive directional noise cancelling microphone system |
| US20030179888A1 (en) * | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
| US20070233479A1 (en) * | 2002-05-30 | 2007-10-04 | Burnett Gregory C | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
| KR100394840B1 (ko) * | 2000-11-30 | 2003-08-19 | 한국과학기술원 | 독립 성분 분석을 이용한 능동 잡음 제거방법 |
| US7941313B2 (en) | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
| JP3364487B2 (ja) | 2001-06-25 | 2003-01-08 | 隆義 山本 | 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体 |
| JP2003241787A (ja) | 2002-02-14 | 2003-08-29 | Sony Corp | 音声認識装置および方法、並びにプログラム |
| GB0204548D0 (en) * | 2002-02-27 | 2002-04-10 | Qinetiq Ltd | Blind signal separation |
| US6904146B2 (en) * | 2002-05-03 | 2005-06-07 | Acoustic Technology, Inc. | Full duplex echo cancelling circuit |
| JP3682032B2 (ja) * | 2002-05-13 | 2005-08-10 | 株式会社ダイマジック | オーディオ装置並びにその再生用プログラム |
| US7082204B2 (en) | 2002-07-15 | 2006-07-25 | Sony Ericsson Mobile Communications Ab | Electronic devices, methods of operating the same, and computer program products for detecting noise in a signal based on a combination of spatial correlation and time correlation |
| US7359504B1 (en) * | 2002-12-03 | 2008-04-15 | Plantronics, Inc. | Method and apparatus for reducing echo and noise |
| JP2006510069A (ja) | 2002-12-11 | 2006-03-23 | ソフトマックス,インク | 改良型独立成分分析を使用する音声処理ためのシステムおよび方法 |
| JP2004274683A (ja) | 2003-03-12 | 2004-09-30 | Matsushita Electric Ind Co Ltd | エコーキャンセル装置、エコーキャンセル方法、プログラムおよび記録媒体 |
| US7496482B2 (en) * | 2003-09-02 | 2009-02-24 | Nippon Telegraph And Telephone Corporation | Signal separation method, signal separation device and recording medium |
| US7099821B2 (en) | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
| GB0321722D0 (en) * | 2003-09-16 | 2003-10-15 | Mitel Networks Corp | A method for optimal microphone array design under uniform acoustic coupling constraints |
| US20050071158A1 (en) * | 2003-09-25 | 2005-03-31 | Vocollect, Inc. | Apparatus and method for detecting user speech |
| SG119199A1 (en) * | 2003-09-30 | 2006-02-28 | Stmicroelectronics Asia Pacfic | Voice activity detector |
| JP2005227511A (ja) | 2004-02-12 | 2005-08-25 | Yamaha Motor Co Ltd | 対象音検出方法、音信号処理装置、音声認識装置及びプログラム |
| JP2005227512A (ja) | 2004-02-12 | 2005-08-25 | Yamaha Motor Co Ltd | 音信号処理方法及びその装置、音声認識装置並びにプログラム |
| US8687820B2 (en) | 2004-06-30 | 2014-04-01 | Polycom, Inc. | Stereo microphone processing for teleconferencing |
| DE102004049347A1 (de) * | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
| WO2006077745A1 (ja) | 2005-01-20 | 2006-07-27 | Nec Corporation | 信号除去方法、信号除去システムおよび信号除去プログラム |
| WO2006131959A1 (ja) | 2005-06-06 | 2006-12-14 | Saga University | 信号分離装置 |
| US7464029B2 (en) * | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
| JP4556875B2 (ja) | 2006-01-18 | 2010-10-06 | ソニー株式会社 | 音声信号分離装置及び方法 |
| US7970564B2 (en) | 2006-05-02 | 2011-06-28 | Qualcomm Incorporated | Enhancement techniques for blind source separation (BSS) |
| US8068619B2 (en) * | 2006-05-09 | 2011-11-29 | Fortemedia, Inc. | Method and apparatus for noise suppression in a small array microphone system |
| US7817808B2 (en) * | 2007-07-19 | 2010-10-19 | Alon Konchitsky | Dual adaptive structure for speech enhancement |
| US8175871B2 (en) * | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
| US8046219B2 (en) * | 2007-10-18 | 2011-10-25 | Motorola Mobility, Inc. | Robust two microphone noise suppression system |
| US8223988B2 (en) * | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
-
2007
- 2007-09-28 US US11/864,897 patent/US8954324B2/en active Active
-
2008
- 2008-09-25 TW TW097136965A patent/TWI398855B/zh not_active IP Right Cessation
- 2008-09-26 ES ES08833863T patent/ES2373511T3/es active Active
- 2008-09-26 EP EP08833863A patent/EP2201563B1/en active Active
- 2008-09-26 JP JP2010527214A patent/JP5102365B2/ja not_active Expired - Fee Related
- 2008-09-26 CN CN200880104664.5A patent/CN101790752B/zh active Active
- 2008-09-26 BR BRPI0817731A patent/BRPI0817731A8/pt not_active Application Discontinuation
- 2008-09-26 WO PCT/US2008/077994 patent/WO2009042948A1/en not_active Ceased
- 2008-09-26 AT AT08833863T patent/ATE531030T1/de not_active IP Right Cessation
- 2008-09-26 RU RU2010116727/08A patent/RU2450368C2/ru not_active IP Right Cessation
- 2008-09-26 CA CA2695231A patent/CA2695231C/en not_active Expired - Fee Related
- 2008-09-26 KR KR1020107009383A patent/KR101265111B1/ko not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| RU2450368C2 (ru) | 2012-05-10 |
| BRPI0817731A8 (pt) | 2019-01-08 |
| CN101790752B (zh) | 2013-09-04 |
| RU2010116727A (ru) | 2011-11-10 |
| CA2695231C (en) | 2015-02-17 |
| TW200926151A (en) | 2009-06-16 |
| CN101790752A (zh) | 2010-07-28 |
| WO2009042948A1 (en) | 2009-04-02 |
| US8954324B2 (en) | 2015-02-10 |
| KR20100075976A (ko) | 2010-07-05 |
| JP2010541010A (ja) | 2010-12-24 |
| JP5102365B2 (ja) | 2012-12-19 |
| CA2695231A1 (en) | 2009-04-02 |
| EP2201563A1 (en) | 2010-06-30 |
| TWI398855B (zh) | 2013-06-11 |
| KR101265111B1 (ko) | 2013-05-16 |
| US20090089053A1 (en) | 2009-04-02 |
| EP2201563B1 (en) | 2011-10-26 |
| ATE531030T1 (de) | 2011-11-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2373511T3 (es) | Detector de actividad vocal en múltiples micrófonos. | |
| CN111833896B (zh) | 融合反馈信号的语音增强方法、系统、装置和存储介质 | |
| Hadad et al. | The binaural LCMV beamformer and its performance analysis | |
| TWI720314B (zh) | 基於相關性之近場偵測器 | |
| US7464029B2 (en) | Robust separation of speech signals in a noisy environment | |
| US10848887B2 (en) | Blocked microphone detection | |
| US11574645B2 (en) | Bone conduction headphone speech enhancement systems and methods | |
| US9378754B1 (en) | Adaptive spatial classifier for multi-microphone systems | |
| KR20130108063A (ko) | 다중 마이크로폰의 견고한 잡음 억제 | |
| CN114302286B (zh) | 一种通话语音降噪方法、装置、设备及存储介质 | |
| JP2025501949A (ja) | ニューラルネットワーク補聴器のための方法、装置、およびシステム | |
| CN106328160B (zh) | 一种基于双麦克的降噪方法 | |
| Naik et al. | A literature survey on single channel speech enhancement techniques | |
| Zhang et al. | Quantization-aware binaural MWF based noise reduction incorporating external wireless devices | |
| Zohourian et al. | GSC-based binaural speaker separation preserving spatial cues | |
| Ayrapetian et al. | Asynchronous acoustic echo cancellation over wireless channels | |
| Balasubrahmanyam et al. | A Comprehensive Review of Conventional to Modern Algorithms of Speech Enhancement | |
| Tanaka et al. | Acoustic beamforming with maximum SNR criterion and efficient generalized eigenvector tracking | |
| Gerkmann | Cepstral weighting for speech dereverberation without musical noise | |
| Zhao et al. | Diffusion-based distributed multi-frame Kalman filtering with speech distortionless constraint for speech enhancement | |
| JP7724678B2 (ja) | ハウリング防止回路、マイクロホン装置及び電子機器 | |
| CN120564736A (zh) | 一种音频处理方法,音频处理装置以及计算机存储介质 | |
| CN119789033A (zh) | 一种用于双耳助听器的声源定位及增强方法 |