ES2992242T3

ES2992242T3 - Detección de doble conversación usando muestreo ascendente

Info

Publication number: ES2992242T3
Application number: ES21717734T
Authority: ES
Inventors: Ning Wang
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2020-03-23
Filing date: 2021-03-19
Publication date: 2024-12-10
Anticipated expiration: 2041-03-19
Also published as: CN115349250A; EP4128731A1; KR20220156834A; BR112022018182A2; WO2021194881A1; JP2023518716A; EP4128731B1; US20230115316A1

Abstract

Un método de detección de habla doble incluye el uso de sobremuestreo. Las señales de audio recibidas desde el extremo lejano se sobremuestrean antes de ser emitidas por el altavoz del extremo cercano. El micrófono del extremo cercano captura el audio a la frecuencia sobremuestreada, y la salida de audio del altavoz es detectable debido a que no tiene energía en las bandas de frecuencia sobremuestreadas. El detector de habla doble utiliza esta información para generar una señal para suprimir el eco del audio del extremo lejano de la señal de audio capturada que se transmite al extremo lejano. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Detección de doble conversación usando muestreo ascendente

Campo

La presente divulgación se refiere al procesamiento de audio y, en particular, a la detección de doble conversación.

Antecedentes

A menos que se indique lo contrario en el presente documento, los enfoques descritos en esta sección no son técnica anterior para las reivindicaciones en esta solicitud y no se admite que sean técnica anterior mediante la inclusión en esta sección.

Un dispositivo de telecomunicaciones tal como un sistema de audioconferencia incluye generalmente tanto un altavoz como un micrófono. Las dos partes en una comunicación pueden denominarse parte extrema cercana y parte extrema lejana. La parte extrema cercana está próxima a un primer dispositivo de telecomunicaciones, y la parte extrema lejana está en una ubicación diferente a la parte extrema cercana y se comunica usando un segundo dispositivo de telecomunicaciones a través de una red de telecomunicaciones cableada o inalámbrica. El micrófono del dispositivo de extremo cercano captura no solo la alocución de la parte de extremo cercano, sino que también puede capturar la alocución de la parte de extremo lejano que se ha emitido desde el altavoz en el extremo cercano. La salida del altavoz que es capturada por el micrófono se denomina generalmente eco. El dispositivo de telecomunicaciones de extremo cercano incluye generalmente un sistema de gestión de eco para reducir el eco antes de transmitir el audio capturado en el extremo cercano al extremo lejano.

El término doble conversación se usa generalmente para describir la situación en la que ambas partes en una conversación están hablando al mismo tiempo. Ambas partes consideran que la doble conversación es molesta, y generalmente uno dejará de hablar. Sería ventajoso tener un dispositivo que pueda responder apropiadamente cuando se produzca una doble conversación con el fin de mejorar la calidad de la comunicación, mejorando por ello la experiencia del usuario.

El documento US2003133565 divulga un sistema, método y aparato de cancelación de eco. El sistema incluye un detector de doble conversación configurado para detectar una condición de doble conversación monitorizando la energía de voz en una primera banda de frecuencia. Un filtro adaptativo está configurado para producir una señal de eco en base a un conjunto de coeficientes, y mantiene el conjunto de coeficientes constante cuando el detector de doble conversación detecta la condición de doble conversación.

El documento US2011033059 divulga un algoritmo de cancelación de eco en un dispositivo de comunicación que inicializa un valor de tamaño de escalón usado en un filtro de eco adaptativo en base a un nivel de potencia de señal de ruido de fondo con relación a un nivel de potencia de una señal recibida y un nivel de potencia de una estimación de eco con relación a una salida de un cancelador de eco. El algoritmo ajusta entonces el valor de tamaño de escalón.

Sumario

Cuando existe una doble conversación, es deseable transmitir la alocución de extremo cercano al extremo lejano sin realizar mucha (o ninguna) reducción del eco, con el fin de proporcionar el indicio audible al extremo lejano de que se está produciendo una doble conversación. El dispositivo de telecomunicaciones en el extremo cercano puede incluir un detector de doble conversación para detectar doble conversación, y a su vez para controlar el sistema de gestión de eco para no realizar demasiada atenuación.

Un problema con sistemas de detección de doble conversación existentes es que la naturaleza no estacionaria de las señales de voz da como resultado una alta tasa de falsos positivos en detectar doble conversación. Además, para dispositivos de telecomunicaciones tales como ordenadores portátiles en los que el altavoz está en estrecha proximidad al micrófono, el sistema de gestión de eco necesita realizar más atenuación por defecto, de modo que la detección de falsos positivos de doble conversación se vuelve incluso más indeseable en una conversación. Dado lo anterior, existe la necesidad de mejorar la detección de doble conversación, especialmente para dispositivos en los que el altavoz está en estrecha proximidad al micrófono.

De acuerdo con una realización, un método implementado por ordenador de procesamiento de audio incluye recibir una primera señal de audio, en donde la primera señal de audio tiene una primera frecuencia de muestreo. El método incluye además el muestreo ascendente de la primera señal de audio para generar una segunda señal de audio, en donde la segunda señal de audio tiene una segunda frecuencia de muestreo que es mayor que la primera frecuencia de muestreo. El método incluye además emitir, mediante un altavoz, una salida de altavoz correspondiente a la segunda señal de audio. El método incluye además capturar, mediante un micrófono, una tercera señal de audio, en donde la tercera señal de audio se muestrea a la segunda frecuencia de muestreo. El método incluye además determinar una potencia de señal de la tercera señal de audio y detectar una doble conversación cuando hay potencia de señal de la tercera señal de audio determinada en una banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo.

El método puede incluir además generar selectivamente una señal de control cuando se detecta la doble conversación, y realizar gestión de eco en la tercera señal de audio de acuerdo con la señal de control.

La determinación de la potencia de señal de la tercera señal de audio y la detección de la doble conversación pueden incluir medir la potencia de señal de la tercera señal de audio en la banda de frecuencia mayor que la primera frecuencia de muestreo; rastrear de una potencia de ruido de fondo de la tercera señal de audio en la banda de frecuencia mayor que la primera frecuencia de muestreo; y detectar la doble conversación como resultado de comparar la potencia de señal de la tercera señal de audio en la banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo y la potencia de ruido de fondo de la tercera señal de audio en la banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo.

De acuerdo con otra realización, un aparato incluye un altavoz, un micrófono y un procesador. El procesador está configurado para controlar el aparato para implementar uno o más de los métodos descritos en el presente documento. El aparato puede incluir adicionalmente detalles similares a los de uno o más de los métodos descritos en el presente documento.

De acuerdo con otra realización, un medio no transitorio legible por ordenador almacena un programa de ordenador que, cuando se ejecuta por un procesador, controla un aparato para ejecutar el procesamiento que incluye uno o más de los métodos descritos en el presente documento.

La siguiente descripción detallada y dibujos que se acompañan proporcionan una comprensión adicional de la naturaleza y ventajas de diversas implementaciones.

Breve descripción de los dibujos

La figura 1 es un diagrama de bloques de un sistema de procesamiento de audio 100.

La figura 2 es un diagrama de bloques que muestra detalles adicionales del sistema de códec de audio 201 (véase la figura 1).

Las figuras 3A-3B son gráficos que muestran el espectro de potencia de la señal muestreada ascendentemente 210 y la señal de audio capturada 211 en dos situaciones.

La figura 4 es un diagrama de bloques que muestra detalles adicionales del detector de doble conversación 401 (véanse también las figuras 1-2).

La figura 5 es un diagrama de bloques de un detector de doble conversación 501.

La figura 6 es una arquitectura de dispositivo móvil 600 para implementar las características y procesos descritos en el presente documento, de acuerdo con una realización.

La figura 7 es un diagrama de flujo de un método 700 de procesamiento de audio.

Descripción detallada

En el presente documento se describen técnicas relacionadas con la detección de doble conversación. En la siguiente descripción, con fines explicativos, se exponen numerosos ejemplos y detalles específicos con el fin de proporcionar una comprensión exhaustiva de la presente divulgación. Será evidente, sin embargo, para un experto en la técnica que la presente divulgación como se define por las reivindicaciones puede incluir algunas o todas las características en estos ejemplos solas o en combinación con otras características descritas a continuación, y puede incluir además modificaciones y equivalentes de las características y conceptos descritos en el presente documento.

En la siguiente descripción se detallan diversos métodos, procesos y procedimientos. Aunque pueden describirse etapas particulares en un cierto orden, tal orden es principalmente por conveniencia y claridad. Una etapa particular puede repetirse más de una vez, puede ocurrir antes o después de otras etapas (incluso si esas etapas se describen de otro modo en otro orden), y puede ocurrir en paralelo con otras etapas. Se requiere una segunda etapa para seguir una primera etapa solamente cuando la primera etapa debe completarse antes de que comience la segunda etapa. Tal situación se indicará específicamente cuando no esté clara a partir del contexto.

En este documento, se usan los términos “y”, “o” y “y/o”. Tales términos deben leerse como que tienen un significado inclusivo. Por ejemplo, “A y B” puede significar al menos lo siguiente: “tanto A como B”, “al menos tanto A como B”. Como otro ejemplo, “A o B” puede significar al menos lo siguiente: “al menos A”, “al menos B”, “tanto A como B”, “al menos tanto A como B”. Como otro ejemplo, “A y/o B” puede significar al menos lo siguiente: “A y B”, “A o B”. Cuando se pretende que sea un “o exclusivo”, se indicará específicamente esto (por ejemplo, “A o B”, “como máximo uno de A y B”).

Este documento describe diversas funciones de procesamiento que están asociadas con estructuras tales como bloques, elementos, componentes, circuitos, etc. En general, estas estructuras pueden implementarse mediante un procesador que está controlado por uno o más programas de ordenador.

La figura 1 es un diagrama de bloques de un sistema de procesamiento de audio 100. El sistema de procesamiento de audio 100 puede implementarse en diversos dispositivos, tales como ordenadores portátiles, teléfonos móviles, teléfonos de altavoz, sistemas de audioconferencia, sistemas de videoconferencia, etc. Por ejemplo, el sistema de procesamiento de audio 100 puede implementarse en un ordenador portátil, con diversos componentes implementados por programas de ordenador que ejecuta el ordenador portátil. El sistema de procesamiento de audio 100 incluye una aplicación de comunicación 102, un sistema de controlador de audio 103, un sistema de códec de audio 201, un altavoz 106 y un micrófono 108. El sistema de procesamiento de audio 100 puede incluir otros componentes que (por brevedad) no se analizan en detalle.

La aplicación de comunicación 102 controla generalmente las entradas y salidas de audio del dispositivo que implementa el sistema de procesamiento de audio 100. Por ejemplo, cuando el dispositivo de implementación es un ordenador portátil, la aplicación de comunicaciones 102 puede ser un programa de ordenador tal como una aplicación Microsoft Skype™, una aplicación Microsoft Teams™, una aplicación Zoom™, etc. La aplicación de comunicación 102 se comunica con una red (no mostrada), para recibir audio desde dispositivos remotos (también denominados dispositivos de extremo lejano) para su salida por el sistema de procesamiento de audio 100 (también denominado dispositivo de extremo cercano), y para transmitir audio capturado por el sistema de procesamiento de audio 100 a los dispositivos remotos. El audio recibido desde la red para la salida de extremo cercano se denomina señal de audio de reproducción 120, y el audio transmitido a la red para la salida de extremo lejano se denomina señal de audio capturada 122.

El sistema de controlador de audio 103 realiza generalmente procesamiento de audio en las señales que recibe y genera señales de audio procesadas. El sistema de controlador de audio 103 recibe la señal de audio de reproducción 120 y genera una señal de audio de reproducción 124; y recibe una señal de audio capturada 126 y genera la señal de audio capturada 122. La aplicación de comunicaciones 102 puede descargar diversos procesos de procesamiento de audio al sistema de controlador de audio 103, y el sistema de controlador de audio 103 puede ser un componente de la aplicación de comunicaciones 102. El sistema de controlador de audio 103 puede denominarse pila de reproducción/captura, objeto de procesamiento de audio (APO), etc. Un ejemplo del sistema de controlador de audio 103 es el sistema de comunicaciones Dolby Voice™. El sistema de controlador de audio 103 proporciona la señal de audio de reproducción 124 al sistema de códec de audio 201 y recibe la señal de audio capturada 126 desde el sistema de códec de audio 201.

El sistema de controlador de audio 103 incluye diversos módulos de procesamiento, incluyendo un sistema de gestión de eco 130. El sistema de gestión de eco 130 atenúa generalmente el eco de la voz de extremo lejano emitido desde el altavoz 106 y capturado por el micrófono 108, conservando al mismo tiempo la voz de extremo cercano capturada por el micrófono 108. El sistema de gestión de eco 130 incluye un cancelador de eco 132, un supresor de eco 134 y un detector de doble conversación 401.

El cancelador de eco 132 realiza generalmente una cancelación de eco en la señal de audio capturada 126. La cancelación de eco también puede denominarse cancelación de eco acústico. En general, la cancelación de eco aplica una atenuación lineal a la señal. El cancelador de eco puede implementarse con un filtro adaptativo. El filtro adaptativo modela la respuesta de sala del sistema combinado del altavoz 106 y el micrófono 108. El cancelador de eco 132 puede aplicar típicamente hasta entre 20 y 25 dB de atenuación a la señal de audio capturada 126.

El supresor de eco 134 realiza generalmente supresión de eco en la señal audio capturada 126. En general, la supresión de eco aplica una atenuación no lineal a la señal. La atenuación no lineal puede realizarse sobre la base de bandas de potencia, y el supresor de eco 134 puede aplicar diferentes supresiones a diferentes bandas. Si el supresor de eco 134 detecta eco en bandas particulares, el supresor de eco 134 aplica supresión a esas bandas particulares. El supresor de eco 134 puede aplicar típicamente hasta entre 20 y 25 dB de atenuación a la señal de audio capturada 126.

El detector de doble conversación 401 genera generalmente una señal de control 410 para controlar el cancelador de eco 132 y el supresor de eco 134. Doble conversación se refiere generalmente a que el micrófono 108 captura audio (en el extremo cercano) simultáneamente a que el altavoz 106 emite audio (recibido desde el extremo lejano). Cuando no hay doble conversación, la señal de audio capturada 126 incluye solamente eco de la alocución de extremo lejano emitida por el altavoz 106, y la señal de control 410 controla el sistema de gestión de eco 130 para realizar atenuación para reducir la cantidad de eco en la señal de audio capturada 122 transmitida al extremo lejano. Cuando hay doble conversación, la señal de audio capturada 126 incluye el eco de la alocución tanto de extremo lejano como de extremo cercano capturado por el micrófono 108, y la señal de control 410 controla el supresor de eco 134 para realizar poca (o ninguna) atenuación cuando se genera la señal de audio capturada 122 transmitida al extremo lejano; la señal de control 410 también puede controlar el cancelador de eco 132 para detener la actualización del filtro adaptativo, con el fin de reducir la adaptación errónea debida a doble conversación. Detalles adicionales del detector de doble conversación 401 se proporcionan a continuación con referencia a la figura 4.

El sistema de códec de audio 201 realiza generalmente una conversión de analógico a digital y de digital a analógico en las señales que recibe. El sistema de códec de audio 201 también realiza muestreo ascendente y muestreo descendente, como se detalla adicionalmente a continuación con referencia a la figura 2. El sistema de códec de audio 201 recibe la señal de audio de reproducción 124, realiza una conversión de digital a analógico, y genera una señal de audio de reproducción 140. El sistema de códec de audio 201 recibe una señal de audio capturada 142, realiza una conversión de analógico a digital y genera la señal de audio capturada 126. El sistema de códec de audio 201 proporciona la señal de audio de reproducción 140 al altavoz 106, y recibe la señal de audio capturada 142 desde el micrófono 108. Detalles adicionales del sistema de códec de audio 201 se proporcionan a continuación con referencia a la figura 2.

El altavoz 106 generalmente emite sonido correspondiente a la señal de audio de reproducción 140.

El micrófono 108 captura generalmente sonido en el entorno en el que está presente el dispositivo que implementa el sistema de procesamiento de audio 100, y genera la señal de audio capturada 142. El sonido capturado no solo incluye el sonido deseado (por ejemplo, la alocución de personas que hablan en el entorno de extremo cercano), sino también la salida de sonido desde el altavoz 106, que se denomina “eco”. Un objetivo del sistema de gestión de eco 130 es generalmente reducir (o atenuar o eliminar) el eco de la señal de audio capturada 142, en circunstancias apropiadas.

El sistema de gestión de eco 130 se puede hacer funcionar generalmente en tres situaciones, en base a las combinaciones de cualquiera o ambas de entre la alocución de extremo lejano y la alocución de extremo cercano presentes. (El término “alocución” se usa porque la alocución es generalmente la señal de interés; sin embargo, las señales capturadas en el extremo cercano y el extremo lejano generalmente incluirán tanto alocución como otro audio distinto de alocución tal como música, ruido ambiental, etc., sin que el término “alocución” signifique excluir audio distinto de alocución). Cuando hay alocución de extremo lejano emitida por el altavoz 106 y no hay alocución de extremo cercano, el micrófono 108 captura solo el eco de la alocución de extremo lejano, de modo que el sistema de gestión de eco 130 realiza gestión de eco para cancelar la alocución de extremo lejano procedente de la señal de audio capturada 126 cuando se genera la señal de audio capturada 122 (por ejemplo, una gran cantidad de atenuación). Cuando hay tanto alocución de extremo lejano emitida por el altavoz 106 como alocución de extremo cercano, el micrófono 108 captura tanto el eco de la alocución de extremo lejano como la alocución de extremo cercano (“doble conversación”), por lo que el sistema de gestión de eco 130 funciona de acuerdo con la señal de control 410. Cuando no hay alocución de extremo lejano, el micrófono 108 captura solamente alocución de extremo cercano, de modo que el sistema de gestión de eco 130 realiza atenuación mínima (o nula). De esta manera, la señal de control 410 ayuda al sistema de gestión de eco 130 a diferenciar entre las tres situaciones.

En resumen, el sistema de gestión de eco 130 funciona generalmente para cancelar la alocución de extremo lejano de la señal de audio capturada 126, dejando la alocución de extremo cercano cuando se genera la señal de audio capturada 122. El detector de doble conversación 401 controla generalmente el sistema de gestión de eco 130 para evitar aplicar atenuación agresiva cuando hay alocución de extremo cercano y no hay alocución de extremo lejano. Por ejemplo, en una situación ideal, el supresor de eco 134 realiza una atenuación mínima (o nula) cuando hay alocución de extremo cercano.

La cantidad de eco presente en la señal de audio capturada 142 puede variar dependiendo de los atributos físicos del dispositivo que implementa el sistema de procesamiento de audio 100. Por ejemplo, para un dispositivo portátil, la separación física entre el altavoz y el micrófono 108 solo puede proporcionar aproximadamente 10 dB de atenuación de señal. En los sistemas de telecomunicaciones, la experiencia del usuario generalmente prefiere entre 45 y 55 dB de cancelación de eco y supresión de eco, de modo que el sistema de gestión de eco 130 generalmente funciona para proporcionar los otros 35 a 45 dB de cancelación de eco y supresión de eco

La figura 2 es un diagrama de bloques que muestra detalles adicionales del sistema de códec de audio 201 (véase la figura 1). El sistema de códec de audio 201 incluye un muestreador ascendente 220, un convertidor de señal 222 y un muestreador descendente 224. Otros componentes mostrados en la figura 2 son similares a los descritos anteriormente con referencia a la figura 1 (por ejemplo, el sistema de controlador de audio 103, el altavoz 106, el micrófono 108, el detector de doble conversación 401, etc.) que tienen números de referencia similares. El sistema de códec de audio 201 puede incluir componentes adicionales que (por brevedad) no se analizan en detalle.

El muestreador ascendente 220 recibe una señal de audio de reproducción 212, realiza un muestreo ascendente y genera una señal muestreada ascendentemente 210. La señal de audio de reproducción 212 corresponde generalmente a la señal de audio de reproducción 124 proporcionada por el sistema de controlador de audio 103 (véase la figura 1). Muestreo ascendente se refiere generalmente a convertir una señal en una frecuencia de muestreo dada a una frecuencia de muestreo más alta. Por ejemplo, la señal de audio de reproducción 212 puede tener una frecuencia de muestreo de 8 kHz (por ejemplo, para una conexión telefónica), 16 kHz (por ejemplo, una señal de audio de Microsoft Teams™), 24 kHz (por ejemplo, una señal de audio de Zoom™), etc.; y la señal muestreada ascendentemente 210 puede tener una frecuencia de muestreo de 16 kHz (por ejemplo, 2x la señal de 8 kHz, etc.), 32 kHz (por ejemplo, 4x la señal de 8 kHz, 2x la señal de 16 kHz, 1,333x la señal de 24 kHz, etc.), 48 kHz (6x la señal de 8 kHz, 4x la señal de 16 kHz, 2x la señal de 24 kHz, etc.), etc. La frecuencia de muestreo inferior puede denominarse fs0, y la frecuencia de muestreo superior puede denominarse fs1.

El convertidor de señal 222 realiza generalmente una conversión de analógico a digital y de digital a analógico en señales. El convertidor de señal 222 recibe la señal muestreada ascendentemente 210, realiza una conversión de digital a analógico, y genera la señal de audio de reproducción 140 para su salida por el altavoz 106. El convertidor de señal 222 recibe la señal de audio capturada 142 capturada por el micrófono 108, realiza una conversión de analógico a digital y genera una señal de audio capturada 211. El convertidor de señal 222 realiza generalmente conversión a la frecuencia de muestreo más alta (por ejemplo, 48 kHz, correspondiente a fs1 que es más alta que la frecuencia de muestreo más baja fs0 de la señal de audio de reproducción 212), de modo que la señal de audio capturada 211 también tiene la frecuencia de muestreo más alta (por ejemplo, 48 kHz).

El muestreador descendente 224 recibe la señal de audio capturada 211, realiza un muestreo descendente y genera una señal muestreada descendentemente 213. La señal muestreada descendentemente 213 corresponde generalmente a la señal de audio capturada 126 proporcionada al sistema de controlador de audio 103 (véase la figura 1). Muestreo descendente se refiere generalmente a convertir una señal en una frecuencia de muestreo dada a una frecuencia de muestreo más baja. Por ejemplo, la señal de audio capturada 211 puede tener una frecuencia de muestreo de 8 kHz (por ejemplo, para una conexión telefónica), 16 kHz (por ejemplo, una señal de audio de Microsoft Teams™), 24 kHz (por ejemplo, una señal de audio de Zoom™), etc. En general, la señal muestreada descendentemente 213 y la señal de audio de reproducción 212 tendrán la misma frecuencia de muestreo.

El detector de doble conversación 401 recibe la señal de audio capturada 211 desde el sistema de códec de audio 201. En consecuencia, la señal de audio capturada 126 de la figura 1 corresponde tanto a la señal de audio capturada 211 como a la señal muestreada descendentemente 213.

Opcionalmente, el detector de doble conversación 401 también puede recibir la señal de audio de reproducción 212 que el sistema de controlador de audio 103 proporciona al sistema de códec de audio 201. Esta disposición opcional se analiza con más detalle a continuación con referencia a la figura 5.

Debido a que la señal muestreada ascendentemente 210 que se proporciona al altavoz 106 para la salida resulta del muestreo ascendente de la señal de audio de reproducción 212, el eco de la señal muestreada ascendentemente 210 capturada por el micrófono 108 carecerá de energía de señal a frecuencias por encima de la mitad de la frecuencia de muestreo de la señal de audio de reproducción 212, como se detalla adicionalmente con referencia a las figuras 3A-3B.

Las figuras 3A-3B son gráficos que muestran el espectro de potencia de la señal muestreada ascendentemente 210 y la señal de audio capturada 211 en dos situaciones. La figura 3A muestra el espectro de potencia cuando el micrófono 108 captura solamente alocución de extremo lejano que ha sido emitida por el altavoz 106 (véanse las figuras 1-2) sin ninguna alocución de extremo cercano capturada. La figura 3B muestra el espectro de potencia cuando el micrófono 108 captura tanto alocución de extremo lejano que ha sido emitida por el altavoz 106 (véanse las figuras 1-2) como alocución de extremo cercano. Estas dos situaciones ilustran que, cuando el micrófono 108 ha capturado una señal, el sistema de procesamiento de audio 100 necesita determinar si existe una doble conversación (en cuyo caso necesita aplicar poca o ninguna atenuación) o si no existe una doble conversación (en cuyo caso necesita aplicar una cantidad relativamente grande de atenuación debido al eco de la señal de extremo lejano).

En la figura 3A, el eje y es la potencia de la señal y el eje x es la frecuencia. Las frecuencias mostradas son 1/2 fs0 y 1/2 fs1 porque, según el teorema de muestreo de Nyquist-Shannon, una tasa de muestreo dada S permite una reconstrucción precisa de una señal con una frecuencia máxima presente en la señal de 1/2 S. Por ejemplo, fs0 puede ser 24 kHz y fs1 puede ser 48 kHz, en cuyo caso 1/2 fs0 es 12 kHz y 1/2 fs1 es 24 kHz. Cuando el micrófono 108 captura solo alocución de extremo lejano que ha sido emitida por el altavoz 106 sin ninguna alocución de extremo cercano capturada, la señal muestreada ascendentemente 210 y la señal de audio capturada 211 tienen, ambas, potencia de señal solo por debajo de 1/2 fs0. Esto es porque la señal de audio de reproducción 212 tiene una frecuencia de muestreo de fs0 y de este modo no tiene energía de señal por encima de 1/2 fs0, de modo que realizar muestreo ascendente da igualmente como resultado que la señal muestreada ascendentemente 210 tampoco tiene energía de señal por encima de 1/2 fs0. De este modo, en la situación de la figura 3A, la ausencia de potencia de señal por encima de 1/2 fs0 indica la ausencia de doble conversación. En la figura 3B, cuando el micrófono 108 captura tanto alocución de extremo lejano que ha sido emitida por el altavoz 106 (véanse las figuras 1-2) como alocución de extremo cercano, la señal muestreada ascendentemente 210 tiene potencia de señal solo por debajo de 1/2 fs0, pero la señal de audio capturada 211 tiene potencia de señal por encima de 1/2 fs0 (tanto por debajo de 1/2 fs0 como entre 1/2 fs0 y 1/2 fs1). Esto es porque la señal de audio capturada 211 tiene una frecuencia de muestreo de fs1 y de este modo la alocución de extremo cercano tiene energía que se captura hasta 1/2 fs1, pero la señal de audio de reproducción 212 aún no tiene energía de señal superior a 1/2 fs0. De este modo, en la situación de la figura 3B, la presencia de potencia de señal por encima de 1/2 fs0 (por ejemplo, entre 1/2 fs0 y 1/2 fs1) indica la presencia de doble conversación.

La figura 4 es un diagrama de bloques que muestra detalles adicionales del detector de doble conversación 401 (véanse también las figuras 1-2). El detector de doble conversación 401 incluye un medidor de potencia 405, un seguidor de mínimo 404, y un tomador de decisiones 406. El detector de doble conversación 401 puede incluir otros componentes que (por brevedad) no se analizan en detalle.

El medidor de potencia 405 recibe generalmente la señal de audio capturada 211 (véase la figura 2), mide la potencia entre 1/2 fs0 y 1/2 fs1, y genera una señal de potencia 402. La señal de potencia 402 corresponde generalmente a la potencia cuadrática media (rms) en la banda entre 1/2 fs0 y 1/2 fs1; también puede denominarse potencia instantánea o potencia suavizada de la señal de audio capturada 211.

El seguidor de mínimo 404 recibe generalmente la señal de potencia 402, rastrea la potencia de ruido de fondo, y genera una señal de potencia de ruido de fondo 403. La señal de potencia de ruido de fondo 403 corresponde generalmente a la potencia de ruido de fondo entre 1/2 fs0 y 1/2 fs1 de la señal de potencia 402.

El tomador de decisiones 406 recibe generalmente la señal de potencia 402 y la señal de potencia de ruido de fondo 403, compara sus niveles, y genera la señal de control 410. El tomador de decisiones 406 puede funcionar de acuerdo con un proceso de decisión de histéresis, por ejemplo para filtrar las entradas de modo que la salida reaccione menos rápidamente de lo que lo haría de otro modo al tener en cuenta el historial reciente del sistema. Cuando no hay doble conversación y el nivel de la señal de potencia 402 excede el nivel de la señal de potencia de ruido de fondo 403 en una primera cantidad de umbral, el tomador de decisiones 406 se enciende. Cuando hay una doble conversación (es decir, el tomador de decisiones 406 está en el estado encendido), el tomador de decisiones 406 cambia al estado apagado solo cuando la señal de potencia 402 cae por debajo de una segunda cantidad de umbral.

La figura 5 es un diagrama de bloques de un detector de doble conversación 501. El detector de doble conversación 501 es similar al detector de doble conversación 401 (véase la figura 4), con componentes adicionales, y que también recibe la señal de audio de reproducción 212 (véase la figura 2). Dispositivos tales como portátiles y teléfonos móviles a menudo implementan el altavoz 106 (véase la figura 1) usando microaltavoces. Para los microaltavoces, los componentes de transductor y las distorsiones mecánicas generales del dispositivo pueden crear potencia adicional en el rango de frecuencia de [1/2 fs0, 1/2 fs1]. El detector de doble conversación 501 puede usarse en tal caso para reducir la tasa de falsas alarmas (por ejemplo, una falsa alarma debida a la detección de que se captura voz de extremo cercano cuando en realidad no hay voz de extremo cercano).

El detector de doble conversación 501 incluye un filtro de paso de banda 511, un medidor de potencia 512 y un regulador no lineal 513. El detector de doble conversación 501 incluye también un medidor de potencia 555, un seguidor de mínimo 554, y un tomador de decisiones 556 (que son similares al medidor de potencia 405, al seguidor de mínimo 404 y al tomador de decisiones 406 de la figura 4).

El medidor de potencia 555 recibe generalmente la señal de audio capturada 211 (véase la figura 2) y genera una señal de potencia 552, de una manera similar a la del medidor de potencia 405. El seguidor de mínimo 554 recibe generalmente la señal de potencia 552 y genera una señal de potencia de ruido de fondo 553, de una manera similar a la del seguidor de mínimo 404.

El filtro de paso de banda 511 recibe generalmente la señal de audio de reproducción 212, realiza un filtrado de paso de banda y genera una señal filtrada 521. La banda de paso del filtro de paso de banda 511 puede ser una banda B alrededor de una frecuencia resonante fres. La frecuencia resonante fres corresponde generalmente a los componentes específicos usados para implementar el altavoz 106 y los otros componentes del dispositivo que implementa el sistema de procesamiento de audio 100, y pueden medirse empíricamente. La banda B también puede determinarse empíricamente en base a los otros componentes del dispositivo que implementa el sistema de procesamiento de audio 100. Un ejemplo de rango de la banda B es 600 Hz, dando como resultado que el filtro de paso de banda 511 tenga una banda de paso de [fres - 300, fres 300].

El medidor de potencia 512 recibe generalmente la señal filtrada 521, mide la potencia de señal, y genera una señal de potencia resonante 522. La señal de potencia resonante (Pres) 522 corresponde a la potencia de señal de la señal filtrada 521 (por ejemplo, la potencia de la resonancia mecánica del altavoz 106).

El regulador no lineal 513 recibe generalmente la señal de potencia resonante 522, realiza una regulación no lineal y genera una señal de potencia de distorsión (Pdist) 514. La señal de potencia de distorsión 514 corresponde a la potencia de distorsión en el rango de frecuencia [1/2 fs0, 1/2 fs1]. El regulador no lineal 513 puede realizar una regulación no lineal para generar la señal de potencia de distorsión Pdist como viene a continuación:

En la ecuación anterior, th0 es un parámetro de umbral y k es un parámetro de sintonización; estos parámetros pueden ajustarse como se desee de acuerdo con mediciones empíricas. La regulación se denomina no lineal debido a las dos funciones de Pdist que dependen de la relación entre Pres y th0. La pendiente de Pdist se controla mediante el parámetro de sintonización k aplicado a la diferencia entre Pres y th0, y el punto de partida en el que Pdist empieza a aumentar desde cero está controlado por la relación entre Pres y th0.

El tomador de decisiones 556 recibe generalmente la señal de potencia 552, la señal de potencia de ruido de fondo 553 y la señal de potencia de distorsión 514, compara sus niveles y genera la señal de control 410. En general, el tomador de decisiones 556 usa la señal de potencia de distorsión 514 como parte de la determinación de si la energía es principalmente procedente de la voz de extremo cercano capturada o procedente de distorsiones de dispositivo. Más específicamente, el tomador de decisiones 556 usa la señal de potencia de distorsión 514 para aumentar el umbral de la histéresis aplicada a la señal de potencia 552 y la señal de potencia de ruido de fondo 553 (por ejemplo, el primer umbral analizado anteriormente con respecto al tomador de decisiones 406). El tomador de decisiones 556 es, por lo demás, similar al tomador de decisiones 406.

La figura 6 es una arquitectura de dispositivo móvil 600 para implementar las características y procesos descritos en el presente documento, de acuerdo con una realización. La arquitectura 600 puede implementarse en cualquier dispositivo electrónico, incluyendo, pero sin limitarse a: un ordenador de escritorio, equipo audio/visual (AV) de consumidor, equipo de radiodifusión, dispositivos móviles (por ejemplo, teléfono inteligente, tableta, ordenador portátil, dispositivo ponible), etc. En la realización de ejemplo mostrada, la arquitectura 600 es para un ordenador portátil e incluye procesador(es) 601, interfaz de periféricos 602, subsistema de audio 603, altavoces 604, micrófono 605, sensores 606 (por ejemplo, acelerómetros, giroscopios, barómetro, magnetómetro, cámara), procesador de ubicación 607 (por ejemplo, receptor GNSS), subsistemas de comunicaciones inalámbricas 608 (por ejemplo, Wi-Fi, Bluetooth, celular) y subsistema(s) de E/S 609, que incluyen placa de control táctil 610 y otras placas de control de entrada 611, superficie táctil 612 y otros dispositivos de entrada/control 613. También se pueden usar otras arquitecturas con más o menos componentes para implementar las realizaciones divulgadas.

La interfaz de memoria 614 está acoplada a procesadores 601, interfaz de periféricos 602 y memoria 615 (por ejemplo, flash, RAM, ROM). La memoria 615 almacena instrucciones y datos de programa de ordenador, incluyendo, pero sin limitarse a: instrucciones de sistema operativo 616, instrucciones de comunicación 617, instrucciones de GUI 618, instrucciones de procesamiento de sensor 619, instrucciones de teléfono 620, instrucciones de mensajería electrónica 621, instrucciones de exploración web 622, instrucciones de procesamiento de audio 623, instrucciones de GNSS/navegación 624 y aplicaciones/datos 625. Las instrucciones de procesamiento de audio 623 incluyen instrucciones para realizar el procesamiento de audio descrito en el presente documento.

La figura 7 es un diagrama de flujo de un método 700 de procesamiento de audio. El método 700 puede ser realizado por un dispositivo (por ejemplo, un ordenador portátil, un teléfono móvil, etc.) con los componentes de la arquitectura 600 de la figura 6, para implementar la funcionalidad del sistema de procesamiento de audio 100 (véase la figura 1), el sistema de códec de audio 201 (véase la figura 2), el detector de doble conversación 401 (véase la figura 4), el detector de doble conversación 501 (véase la figura 5), etc., por ejemplo ejecutando uno o más programas de ordenador.

En 702, se recibe una primera señal de audio. La primera señal de audio tiene una primera frecuencia de muestreo. Por ejemplo, el sistema de códec de audio 201 (véase la figura 2) puede recibir la señal de audio de reproducción 212 que tiene la frecuencia de muestreo fs0.

En 704, la primera señal de audio se muestrea ascendentemente para generar una segunda señal de audio. La segunda señal de audio tiene una segunda frecuencia de muestreo que es mayor que la primera frecuencia de muestreo. Por ejemplo, el muestreador ascendente 220 (véase la figura 2) puede muestrear ascendentemente la señal de audio de reproducción 212 para generar la señal muestreada ascendentemente 210 que tiene la frecuencia de muestreo fs1. Como ejemplo específico, fs0 puede ser 24 kHz y fs1 puede ser 48 kHz.

En 706, una salida de altavoz correspondiente a la segunda señal de audio puede ser emitida por un altavoz. Por ejemplo, el altavoz 106 (véase la figura 2) puede emitir una salida de audio correspondiente a la señal muestreada ascendentemente 210.

En 708, una tercera señal de audio es capturada por un micrófono. La tercera señal de audio tiene una tercera frecuencia de muestreo que es mayor que la primera frecuencia de muestreo. La tercera frecuencia de muestreo puede ser la misma que la segunda frecuencia de muestreo. Por ejemplo, el micrófono 108 (véase la figura 2) puede capturar la señal de audio capturada 211 que tiene la frecuencia de muestreo fs1. La señal de audio capturada 211 puede incluir eco (por ejemplo, de la salida de altavoz correspondiente a la segunda señal de audio), alocución de extremo cercano capturada (por ejemplo, conversación local), distorsión mecánica del dispositivo que está realizando el método 700 (por ejemplo, otro audio local), etc.

En 710, se determina una potencia de señal de la tercera señal de audio. Por ejemplo, el detector de doble conversación 401 (véase la figura 4) puede determinar la potencia de señal de la señal de audio capturada 211. Como otro ejemplo, el detector de doble conversación 501 (véase la figura 5) puede determinar la potencia de señal de la señal de audio capturada 211.

En 712, se detecta doble conversación cuando hay potencia de señal de la tercera señal de audio determinada en una banda de frecuencia mayor que la primera frecuencia de muestreo. Por ejemplo, el detector de doble conversación 401 puede detectar doble conversación en base a la potencia de señal en la banda de frecuencia [1/2 fs0, 1/2 fs1 ]; cuando no hay potencia de señal (por ejemplo, como se muestra en la figura 3A), no se detecta doble conversación, y, cuando hay potencia de señal (por ejemplo, como se muestra en la figura 3B), se detecta doble conversación.

En 714, se genera selectivamente una señal de control cuando se detecta la doble conversación. Por ejemplo, el detector de doble conversación 401 (véase la figura 4) puede generar la señal de control 410 cuando se detecta doble conversación. Como otro ejemplo, el detector de doble conversación 501 (véase la figura 5) puede generar la señal de control 410 cuando se detecta doble conversación.

En 716, se realiza gestión de eco en la tercera señal de audio de acuerdo con la señal de control. Por ejemplo, el sistema de gestión de eco 130 (véase la figura 1) puede realizar cancelación de eco, supresión de eco, etc., en la señal de audio capturada 126, en base a la señal de control 410, para generar la señal de audio capturada 122. El método 700 puede incluir etapas adicionales correspondientes a las otras funcionalidades del sistema de procesamiento de audio 100 descrito en el presente documento.

Aplicaciones adicionales

Como se analizó anteriormente, el sistema de procesamiento de audio 100 es capaz de detectar doble conversación como parte del proceso de gestión de eco. Además, el sistema de procesamiento de audio 100 es capaz de detectar otras distorsiones de audio, por ejemplo debido al movimiento del dispositivo, o de otro modo cuando el dispositivo es sometido a interacciones táctiles. En tal caso, el sistema de gestión de eco 130 puede adaptar el cancelador de eco 132 para realizar cancelación de eco, incluso en ausencia de alocución de extremo cercano o alocución de extremo lejano capturada.

Detalles de implementación

Una realización puede implementarse en hardware, módulos ejecutables almacenados en un medio legible por ordenador, o una combinación de ambos (por ejemplo, matrices lógicas programables). A menos que se especifique lo contrario, las etapas ejecutadas por realizaciones no necesitan estar inherentemente relacionadas con ningún ordenador u otro aparato particular, aunque pueden estar en ciertas realizaciones. En particular, se pueden usar diversas máquinas de propósito general con programas escritos de acuerdo con las enseñanzas del presente documento, o puede ser más conveniente construir aparatos más especializados (por ejemplo, circuitos integrados) para realizar las etapas de método requeridas. De este modo, pueden implementarse realizaciones en uno o más programas de ordenador que se ejecutan en uno o más sistemas de ordenador programables que comprenden cada uno al menos un procesador, al menos un sistema de almacenamiento de datos (incluyendo memoria volátil y no volátil y/o elementos de almacenamiento), al menos un puerto o dispositivo de entrada, y al menos un puerto o dispositivo de salida. Se aplica código de programa a datos de entrada para realizar las funciones descritas en el presente documento y generar información de salida. La información de salida se aplica a uno o más dispositivos de salida, de manera conocida.

Cada uno de tales programas de ordenador se almacena o descarga preferiblemente en un medio o dispositivo de almacenamiento (por ejemplo, memoria o medios de estado sólido, o medios magnéticos u ópticos) legible por un ordenador programable de propósito general o especial, para configurar y hacer funcionar el ordenador cuando el medio o dispositivo de almacenamiento es leído por el sistema de ordenador para realizar los procedimientos descritos en el presente documento. También puede considerarse que el sistema inventivo se implemente como un medio de almacenamiento legible por ordenador, configurado con un programa de ordenador, donde el medio de almacenamiento así configurado hace que un sistema de ordenador funcione de una manera específica y predefinida para realizar las funciones descritas en el presente documento. (El software per se y las señales intangibles o transitorias se excluyen en la medida en que son materia no patentable).

Aspectos de los sistemas descritos en el presente documento pueden implementarse en un entorno apropiado de red de procesamiento de sonido basado en ordenador para procesar archivos de audio digital o digitalizado. Porciones del sistema de audio adaptativo pueden incluir una o más redes que comprenden cualquier número deseado de máquinas individuales, incluyendo uno o más enrutadores (no mostrados) que sirven para almacenar temporalmente y enrutar los datos transmitidos entre los ordenadores. Tal red puede construirse sobre diversos protocolos de red diferentes, y puede ser Internet, una red de área amplia (WAN), una red de área local (LAN) o cualquier combinación de las mismas.

Uno o más de los componentes, bloques, procesos u otros componentes funcionales pueden implementarse a través de un programa de ordenador que controla la ejecución de un dispositivo informático basado en procesador del sistema. También debe observarse que las diversas funciones divulgadas en el presente documento pueden describirse usando cualquier número de combinaciones de hardware, firmware y/o como datos y/o instrucciones incorporadas en diversos medios legibles por máquina o legibles por ordenador, en términos de su comportamiento, transferencia de registro, componente lógico y/u otras características. Los medios legibles por ordenador en los que se pueden incorporar tales datos y/o instrucciones formateados incluyen, pero no se limitan a, medios de almacenamiento físicos (no transitorios), no volátiles en diversas formas, tales como medios de almacenamiento ópticos, magnéticos o semiconductores.

La descripción anterior ilustra diversas realizaciones de la presente divulgación junto con ejemplos de cómo se pueden implementar aspectos de la presente divulgación. No debe considerarse que los ejemplos y realizaciones anteriores son las únicas realizaciones, y se presentan para ilustrar la flexibilidad y ventajas de la presente divulgación como se define mediante las siguientes reivindicaciones. En base a la divulgación anterior y las siguientes reivindicaciones, otras disposiciones, realizaciones, implementaciones y equivalentes serán evidentes para los expertos en la técnica y pueden emplearse sin salir del alcance de las reivindicaciones adjuntas.

Claims

REIVINDICACIONES

1. Un método implementado por ordenador de procesamiento de audio, comprendiendo el método:

recibir (702) una primera señal de audio, en donde la primera señal de audio tiene una primera frecuencia de muestreo;

muestrear ascendentemente (704) la primera señal de audio para generar una segunda señal de audio, en donde la segunda señal de audio tiene una segunda frecuencia de muestreo que es mayor que la primera frecuencia de muestreo;

emitir (706), mediante un altavoz, una salida de altavoz correspondiente a la segunda señal de audio; capturar (708), mediante un micrófono, una tercera señal de audio, en donde la tercera señal de audio se muestrea a la segunda frecuencia de muestreo;

determinar (710) una potencia de señal de la tercera señal de audio; y

detectar (712) doble conversación cuando hay potencia de señal de la tercera señal de audio determinada en una banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo.

2. El método de la reivindicación 1, que comprende además:

generar selectivamente (714) una señal de control cuando se detecta la doble conversación; y

realizar (716) gestión de eco en la tercera señal de audio de acuerdo con la señal de control.

3. El método de la reivindicación 2, en el que realizar gestión de eco incluye:

realizar cancelación de eco en la tercera señal de audio de acuerdo con la señal de control, en donde la cancelación de eco realiza una atenuación lineal en la tercera señal de audio.

4. El método de una cualquiera de las reivindicaciones 2-3, en el que realizar gestión de eco incluye: realizar supresión de eco en la tercera señal de audio de acuerdo con la señal de control, en donde la supresión de eco realiza una atenuación no lineal en bandas de frecuencia particulares de la tercera señal de audio.

5. El método de una cualquiera de las reivindicaciones 1-4, en el que la tercera señal de audio incluye audio local y la salida de altavoz, en donde el audio local corresponde a audio distinto de la salida de altavoz, y en donde el audio local no es emitido por el altavoz y es capturado por el micrófono.

6. El método de una cualquiera de las reivindicaciones 1-5, en el que la primera frecuencia de muestreo es 8 kHz, en el que la segunda frecuencia de muestreo es al menos 16 kHz.

7. El método de una cualquiera de las reivindicaciones 1-6, que comprende además:

muestrear descendentemente la tercera señal de audio para generar una cuarta señal de audio, en donde la cuarta señal de audio tiene una tercera frecuencia de muestreo que es menor que la segunda frecuencia de muestreo; y

transmitir la cuarta señal de audio a un dispositivo de extremo lejano.

8. El método de la reivindicación 7, en el que la tercera frecuencia de muestreo y la primera frecuencia de muestreo son la misma frecuencia de muestreo.

9. El método de una cualquiera de las reivindicaciones 1-8, en el que determinar la potencia de señal de la tercera señal de audio y detectar la doble conversación incluye:

medir la potencia de señal de la tercera señal de audio en la banda de frecuencia superior a la primera frecuencia de muestreo;

rastrear una potencia de ruido de fondo de la tercera señal de audio en la banda de frecuencia superior a la primera frecuencia de muestreo; y

detectar la doble conversación como resultado de comparar la potencia de señal de la tercera señal de audio en la banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo y la potencia de ruido de fondo de la tercera señal de audio en la banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo.

10. El método de una cualquiera de las reivindicaciones 1-8, en el que determinar la potencia de señal de la tercera señal de audio y detectar la doble conversación incluye:

rastrear una potencia de ruido de fondo de la tercera señal de audio en la banda de frecuencia superior a la primera frecuencia de muestreo;

medir una potencia de distorsión de la primera señal de audio; y

detectar la doble conversación en base a la potencia de señal de la tercera señal de audio en la banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo, la potencia de ruido de fondo de la tercera señal de audio en la banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo, y la potencia de distorsión de la primera señal de audio.

11. El método de la reivindicación 10, en el que medir la potencia de distorsión de la primera señal de audio incluye:

generar una señal filtrada mediante la realización de filtrado de paso de banda en la primera señal de audio; medir una potencia de señal de la señal filtrada; y

determinar la potencia de distorsión mediante la realización de regulación no lineal sobre la potencia de señal de la señal filtrada.

12. Un medio no transitorio legible por ordenador que almacena un programa de ordenador que, cuando se ejecuta por un procesador, controla un aparato para ejecutar el procesamiento que incluye el método de una cualquiera de las reivindicaciones 1-11.

13. Un aparato para procesamiento de audio, comprendiendo el aparato:

un altavoz (106);

un micrófono (108); y

un procesador (601);

en donde el procesador está configurado para controlar el aparato para realizar el método de una cualquiera de las reivindicaciones 1-11.