ES2992242T3 - Detección de doble conversación usando muestreo ascendente - Google Patents

Detección de doble conversación usando muestreo ascendente Download PDF

Info

Publication number
ES2992242T3
ES2992242T3 ES21717734T ES21717734T ES2992242T3 ES 2992242 T3 ES2992242 T3 ES 2992242T3 ES 21717734 T ES21717734 T ES 21717734T ES 21717734 T ES21717734 T ES 21717734T ES 2992242 T3 ES2992242 T3 ES 2992242T3
Authority
ES
Spain
Prior art keywords
audio signal
signal
audio
sampling frequency
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES21717734T
Other languages
English (en)
Inventor
Ning Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2992242T3 publication Critical patent/ES2992242T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • H04B3/234Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers using double talk detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Un método de detección de habla doble incluye el uso de sobremuestreo. Las señales de audio recibidas desde el extremo lejano se sobremuestrean antes de ser emitidas por el altavoz del extremo cercano. El micrófono del extremo cercano captura el audio a la frecuencia sobremuestreada, y la salida de audio del altavoz es detectable debido a que no tiene energía en las bandas de frecuencia sobremuestreadas. El detector de habla doble utiliza esta información para generar una señal para suprimir el eco del audio del extremo lejano de la señal de audio capturada que se transmite al extremo lejano. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Detección de doble conversación usando muestreo ascendente
Campo
La presente divulgación se refiere al procesamiento de audio y, en particular, a la detección de doble conversación.
Antecedentes
A menos que se indique lo contrario en el presente documento, los enfoques descritos en esta sección no son técnica anterior para las reivindicaciones en esta solicitud y no se admite que sean técnica anterior mediante la inclusión en esta sección.
Un dispositivo de telecomunicaciones tal como un sistema de audioconferencia incluye generalmente tanto un altavoz como un micrófono. Las dos partes en una comunicación pueden denominarse parte extrema cercana y parte extrema lejana. La parte extrema cercana está próxima a un primer dispositivo de telecomunicaciones, y la parte extrema lejana está en una ubicación diferente a la parte extrema cercana y se comunica usando un segundo dispositivo de telecomunicaciones a través de una red de telecomunicaciones cableada o inalámbrica. El micrófono del dispositivo de extremo cercano captura no solo la alocución de la parte de extremo cercano, sino que también puede capturar la alocución de la parte de extremo lejano que se ha emitido desde el altavoz en el extremo cercano. La salida del altavoz que es capturada por el micrófono se denomina generalmente eco. El dispositivo de telecomunicaciones de extremo cercano incluye generalmente un sistema de gestión de eco para reducir el eco antes de transmitir el audio capturado en el extremo cercano al extremo lejano.
El término doble conversación se usa generalmente para describir la situación en la que ambas partes en una conversación están hablando al mismo tiempo. Ambas partes consideran que la doble conversación es molesta, y generalmente uno dejará de hablar. Sería ventajoso tener un dispositivo que pueda responder apropiadamente cuando se produzca una doble conversación con el fin de mejorar la calidad de la comunicación, mejorando por ello la experiencia del usuario.
El documento US2003133565 divulga un sistema, método y aparato de cancelación de eco. El sistema incluye un detector de doble conversación configurado para detectar una condición de doble conversación monitorizando la energía de voz en una primera banda de frecuencia. Un filtro adaptativo está configurado para producir una señal de eco en base a un conjunto de coeficientes, y mantiene el conjunto de coeficientes constante cuando el detector de doble conversación detecta la condición de doble conversación.
El documento US2011033059 divulga un algoritmo de cancelación de eco en un dispositivo de comunicación que inicializa un valor de tamaño de escalón usado en un filtro de eco adaptativo en base a un nivel de potencia de señal de ruido de fondo con relación a un nivel de potencia de una señal recibida y un nivel de potencia de una estimación de eco con relación a una salida de un cancelador de eco. El algoritmo ajusta entonces el valor de tamaño de escalón.
Sumario
Cuando existe una doble conversación, es deseable transmitir la alocución de extremo cercano al extremo lejano sin realizar mucha (o ninguna) reducción del eco, con el fin de proporcionar el indicio audible al extremo lejano de que se está produciendo una doble conversación. El dispositivo de telecomunicaciones en el extremo cercano puede incluir un detector de doble conversación para detectar doble conversación, y a su vez para controlar el sistema de gestión de eco para no realizar demasiada atenuación.
Un problema con sistemas de detección de doble conversación existentes es que la naturaleza no estacionaria de las señales de voz da como resultado una alta tasa de falsos positivos en detectar doble conversación. Además, para dispositivos de telecomunicaciones tales como ordenadores portátiles en los que el altavoz está en estrecha proximidad al micrófono, el sistema de gestión de eco necesita realizar más atenuación por defecto, de modo que la detección de falsos positivos de doble conversación se vuelve incluso más indeseable en una conversación. Dado lo anterior, existe la necesidad de mejorar la detección de doble conversación, especialmente para dispositivos en los que el altavoz está en estrecha proximidad al micrófono.
De acuerdo con una realización, un método implementado por ordenador de procesamiento de audio incluye recibir una primera señal de audio, en donde la primera señal de audio tiene una primera frecuencia de muestreo. El método incluye además el muestreo ascendente de la primera señal de audio para generar una segunda señal de audio, en donde la segunda señal de audio tiene una segunda frecuencia de muestreo que es mayor que la primera frecuencia de muestreo. El método incluye además emitir, mediante un altavoz, una salida de altavoz correspondiente a la segunda señal de audio. El método incluye además capturar, mediante un micrófono, una tercera señal de audio, en donde la tercera señal de audio se muestrea a la segunda frecuencia de muestreo. El método incluye además determinar una potencia de señal de la tercera señal de audio y detectar una doble conversación cuando hay potencia de señal de la tercera señal de audio determinada en una banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo.
El método puede incluir además generar selectivamente una señal de control cuando se detecta la doble conversación, y realizar gestión de eco en la tercera señal de audio de acuerdo con la señal de control.
La determinación de la potencia de señal de la tercera señal de audio y la detección de la doble conversación pueden incluir medir la potencia de señal de la tercera señal de audio en la banda de frecuencia mayor que la primera frecuencia de muestreo; rastrear de una potencia de ruido de fondo de la tercera señal de audio en la banda de frecuencia mayor que la primera frecuencia de muestreo; y detectar la doble conversación como resultado de comparar la potencia de señal de la tercera señal de audio en la banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo y la potencia de ruido de fondo de la tercera señal de audio en la banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo.
De acuerdo con otra realización, un aparato incluye un altavoz, un micrófono y un procesador. El procesador está configurado para controlar el aparato para implementar uno o más de los métodos descritos en el presente documento. El aparato puede incluir adicionalmente detalles similares a los de uno o más de los métodos descritos en el presente documento.
De acuerdo con otra realización, un medio no transitorio legible por ordenador almacena un programa de ordenador que, cuando se ejecuta por un procesador, controla un aparato para ejecutar el procesamiento que incluye uno o más de los métodos descritos en el presente documento.
La siguiente descripción detallada y dibujos que se acompañan proporcionan una comprensión adicional de la naturaleza y ventajas de diversas implementaciones.
Breve descripción de los dibujos
La figura 1 es un diagrama de bloques de un sistema de procesamiento de audio 100.
La figura 2 es un diagrama de bloques que muestra detalles adicionales del sistema de códec de audio 201 (véase la figura 1).
Las figuras 3A-3B son gráficos que muestran el espectro de potencia de la señal muestreada ascendentemente 210 y la señal de audio capturada 211 en dos situaciones.
La figura 4 es un diagrama de bloques que muestra detalles adicionales del detector de doble conversación 401 (véanse también las figuras 1-2).
La figura 5 es un diagrama de bloques de un detector de doble conversación 501.
La figura 6 es una arquitectura de dispositivo móvil 600 para implementar las características y procesos descritos en el presente documento, de acuerdo con una realización.
La figura 7 es un diagrama de flujo de un método 700 de procesamiento de audio.
Descripción detallada
En el presente documento se describen técnicas relacionadas con la detección de doble conversación. En la siguiente descripción, con fines explicativos, se exponen numerosos ejemplos y detalles específicos con el fin de proporcionar una comprensión exhaustiva de la presente divulgación. Será evidente, sin embargo, para un experto en la técnica que la presente divulgación como se define por las reivindicaciones puede incluir algunas o todas las características en estos ejemplos solas o en combinación con otras características descritas a continuación, y puede incluir además modificaciones y equivalentes de las características y conceptos descritos en el presente documento.
En la siguiente descripción se detallan diversos métodos, procesos y procedimientos. Aunque pueden describirse etapas particulares en un cierto orden, tal orden es principalmente por conveniencia y claridad. Una etapa particular puede repetirse más de una vez, puede ocurrir antes o después de otras etapas (incluso si esas etapas se describen de otro modo en otro orden), y puede ocurrir en paralelo con otras etapas. Se requiere una segunda etapa para seguir una primera etapa solamente cuando la primera etapa debe completarse antes de que comience la segunda etapa. Tal situación se indicará específicamente cuando no esté clara a partir del contexto.
En este documento, se usan los términos “y”, “o” y “y/o”. Tales términos deben leerse como que tienen un significado inclusivo. Por ejemplo, “A y B” puede significar al menos lo siguiente: “tanto A como B”, “al menos tanto A como B”. Como otro ejemplo, “A o B” puede significar al menos lo siguiente: “al menos A”, “al menos B”, “tanto A como B”, “al menos tanto A como B”. Como otro ejemplo, “A y/o B” puede significar al menos lo siguiente: “A y B”, “A o B”. Cuando se pretende que sea un “o exclusivo”, se indicará específicamente esto (por ejemplo, “A o B”, “como máximo uno de A y B”).
Este documento describe diversas funciones de procesamiento que están asociadas con estructuras tales como bloques, elementos, componentes, circuitos, etc. En general, estas estructuras pueden implementarse mediante un procesador que está controlado por uno o más programas de ordenador.
La figura 1 es un diagrama de bloques de un sistema de procesamiento de audio 100. El sistema de procesamiento de audio 100 puede implementarse en diversos dispositivos, tales como ordenadores portátiles, teléfonos móviles, teléfonos de altavoz, sistemas de audioconferencia, sistemas de videoconferencia, etc. Por ejemplo, el sistema de procesamiento de audio 100 puede implementarse en un ordenador portátil, con diversos componentes implementados por programas de ordenador que ejecuta el ordenador portátil. El sistema de procesamiento de audio 100 incluye una aplicación de comunicación 102, un sistema de controlador de audio 103, un sistema de códec de audio 201, un altavoz 106 y un micrófono 108. El sistema de procesamiento de audio 100 puede incluir otros componentes que (por brevedad) no se analizan en detalle.
La aplicación de comunicación 102 controla generalmente las entradas y salidas de audio del dispositivo que implementa el sistema de procesamiento de audio 100. Por ejemplo, cuando el dispositivo de implementación es un ordenador portátil, la aplicación de comunicaciones 102 puede ser un programa de ordenador tal como una aplicación Microsoft Skype™, una aplicación Microsoft Teams™, una aplicación Zoom™, etc. La aplicación de comunicación 102 se comunica con una red (no mostrada), para recibir audio desde dispositivos remotos (también denominados dispositivos de extremo lejano) para su salida por el sistema de procesamiento de audio 100 (también denominado dispositivo de extremo cercano), y para transmitir audio capturado por el sistema de procesamiento de audio 100 a los dispositivos remotos. El audio recibido desde la red para la salida de extremo cercano se denomina señal de audio de reproducción 120, y el audio transmitido a la red para la salida de extremo lejano se denomina señal de audio capturada 122.
El sistema de controlador de audio 103 realiza generalmente procesamiento de audio en las señales que recibe y genera señales de audio procesadas. El sistema de controlador de audio 103 recibe la señal de audio de reproducción 120 y genera una señal de audio de reproducción 124; y recibe una señal de audio capturada 126 y genera la señal de audio capturada 122. La aplicación de comunicaciones 102 puede descargar diversos procesos de procesamiento de audio al sistema de controlador de audio 103, y el sistema de controlador de audio 103 puede ser un componente de la aplicación de comunicaciones 102. El sistema de controlador de audio 103 puede denominarse pila de reproducción/captura, objeto de procesamiento de audio (APO), etc. Un ejemplo del sistema de controlador de audio 103 es el sistema de comunicaciones Dolby Voice™. El sistema de controlador de audio 103 proporciona la señal de audio de reproducción 124 al sistema de códec de audio 201 y recibe la señal de audio capturada 126 desde el sistema de códec de audio 201.
El sistema de controlador de audio 103 incluye diversos módulos de procesamiento, incluyendo un sistema de gestión de eco 130. El sistema de gestión de eco 130 atenúa generalmente el eco de la voz de extremo lejano emitido desde el altavoz 106 y capturado por el micrófono 108, conservando al mismo tiempo la voz de extremo cercano capturada por el micrófono 108. El sistema de gestión de eco 130 incluye un cancelador de eco 132, un supresor de eco 134 y un detector de doble conversación 401.
El cancelador de eco 132 realiza generalmente una cancelación de eco en la señal de audio capturada 126. La cancelación de eco también puede denominarse cancelación de eco acústico. En general, la cancelación de eco aplica una atenuación lineal a la señal. El cancelador de eco puede implementarse con un filtro adaptativo. El filtro adaptativo modela la respuesta de sala del sistema combinado del altavoz 106 y el micrófono 108. El cancelador de eco 132 puede aplicar típicamente hasta entre 20 y 25 dB de atenuación a la señal de audio capturada 126.
El supresor de eco 134 realiza generalmente supresión de eco en la señal audio capturada 126. En general, la supresión de eco aplica una atenuación no lineal a la señal. La atenuación no lineal puede realizarse sobre la base de bandas de potencia, y el supresor de eco 134 puede aplicar diferentes supresiones a diferentes bandas. Si el supresor de eco 134 detecta eco en bandas particulares, el supresor de eco 134 aplica supresión a esas bandas particulares. El supresor de eco 134 puede aplicar típicamente hasta entre 20 y 25 dB de atenuación a la señal de audio capturada 126.
El detector de doble conversación 401 genera generalmente una señal de control 410 para controlar el cancelador de eco 132 y el supresor de eco 134. Doble conversación se refiere generalmente a que el micrófono 108 captura audio (en el extremo cercano) simultáneamente a que el altavoz 106 emite audio (recibido desde el extremo lejano). Cuando no hay doble conversación, la señal de audio capturada 126 incluye solamente eco de la alocución de extremo lejano emitida por el altavoz 106, y la señal de control 410 controla el sistema de gestión de eco 130 para realizar atenuación para reducir la cantidad de eco en la señal de audio capturada 122 transmitida al extremo lejano. Cuando hay doble conversación, la señal de audio capturada 126 incluye el eco de la alocución tanto de extremo lejano como de extremo cercano capturado por el micrófono 108, y la señal de control 410 controla el supresor de eco 134 para realizar poca (o ninguna) atenuación cuando se genera la señal de audio capturada 122 transmitida al extremo lejano; la señal de control 410 también puede controlar el cancelador de eco 132 para detener la actualización del filtro adaptativo, con el fin de reducir la adaptación errónea debida a doble conversación. Detalles adicionales del detector de doble conversación 401 se proporcionan a continuación con referencia a la figura 4.
El sistema de códec de audio 201 realiza generalmente una conversión de analógico a digital y de digital a analógico en las señales que recibe. El sistema de códec de audio 201 también realiza muestreo ascendente y muestreo descendente, como se detalla adicionalmente a continuación con referencia a la figura 2. El sistema de códec de audio 201 recibe la señal de audio de reproducción 124, realiza una conversión de digital a analógico, y genera una señal de audio de reproducción 140. El sistema de códec de audio 201 recibe una señal de audio capturada 142, realiza una conversión de analógico a digital y genera la señal de audio capturada 126. El sistema de códec de audio 201 proporciona la señal de audio de reproducción 140 al altavoz 106, y recibe la señal de audio capturada 142 desde el micrófono 108. Detalles adicionales del sistema de códec de audio 201 se proporcionan a continuación con referencia a la figura 2.
El altavoz 106 generalmente emite sonido correspondiente a la señal de audio de reproducción 140.
El micrófono 108 captura generalmente sonido en el entorno en el que está presente el dispositivo que implementa el sistema de procesamiento de audio 100, y genera la señal de audio capturada 142. El sonido capturado no solo incluye el sonido deseado (por ejemplo, la alocución de personas que hablan en el entorno de extremo cercano), sino también la salida de sonido desde el altavoz 106, que se denomina “eco”. Un objetivo del sistema de gestión de eco 130 es generalmente reducir (o atenuar o eliminar) el eco de la señal de audio capturada 142, en circunstancias apropiadas.
El sistema de gestión de eco 130 se puede hacer funcionar generalmente en tres situaciones, en base a las combinaciones de cualquiera o ambas de entre la alocución de extremo lejano y la alocución de extremo cercano presentes. (El término “alocución” se usa porque la alocución es generalmente la señal de interés; sin embargo, las señales capturadas en el extremo cercano y el extremo lejano generalmente incluirán tanto alocución como otro audio distinto de alocución tal como música, ruido ambiental, etc., sin que el término “alocución” signifique excluir audio distinto de alocución). Cuando hay alocución de extremo lejano emitida por el altavoz 106 y no hay alocución de extremo cercano, el micrófono 108 captura solo el eco de la alocución de extremo lejano, de modo que el sistema de gestión de eco 130 realiza gestión de eco para cancelar la alocución de extremo lejano procedente de la señal de audio capturada 126 cuando se genera la señal de audio capturada 122 (por ejemplo, una gran cantidad de atenuación). Cuando hay tanto alocución de extremo lejano emitida por el altavoz 106 como alocución de extremo cercano, el micrófono 108 captura tanto el eco de la alocución de extremo lejano como la alocución de extremo cercano (“doble conversación”), por lo que el sistema de gestión de eco 130 funciona de acuerdo con la señal de control 410. Cuando no hay alocución de extremo lejano, el micrófono 108 captura solamente alocución de extremo cercano, de modo que el sistema de gestión de eco 130 realiza atenuación mínima (o nula). De esta manera, la señal de control 410 ayuda al sistema de gestión de eco 130 a diferenciar entre las tres situaciones.
En resumen, el sistema de gestión de eco 130 funciona generalmente para cancelar la alocución de extremo lejano de la señal de audio capturada 126, dejando la alocución de extremo cercano cuando se genera la señal de audio capturada 122. El detector de doble conversación 401 controla generalmente el sistema de gestión de eco 130 para evitar aplicar atenuación agresiva cuando hay alocución de extremo cercano y no hay alocución de extremo lejano. Por ejemplo, en una situación ideal, el supresor de eco 134 realiza una atenuación mínima (o nula) cuando hay alocución de extremo cercano.
La cantidad de eco presente en la señal de audio capturada 142 puede variar dependiendo de los atributos físicos del dispositivo que implementa el sistema de procesamiento de audio 100. Por ejemplo, para un dispositivo portátil, la separación física entre el altavoz y el micrófono 108 solo puede proporcionar aproximadamente 10 dB de atenuación de señal. En los sistemas de telecomunicaciones, la experiencia del usuario generalmente prefiere entre 45 y 55 dB de cancelación de eco y supresión de eco, de modo que el sistema de gestión de eco 130 generalmente funciona para proporcionar los otros 35 a 45 dB de cancelación de eco y supresión de eco
La figura 2 es un diagrama de bloques que muestra detalles adicionales del sistema de códec de audio 201 (véase la figura 1). El sistema de códec de audio 201 incluye un muestreador ascendente 220, un convertidor de señal 222 y un muestreador descendente 224. Otros componentes mostrados en la figura 2 son similares a los descritos anteriormente con referencia a la figura 1 (por ejemplo, el sistema de controlador de audio 103, el altavoz 106, el micrófono 108, el detector de doble conversación 401, etc.) que tienen números de referencia similares. El sistema de códec de audio 201 puede incluir componentes adicionales que (por brevedad) no se analizan en detalle.
El muestreador ascendente 220 recibe una señal de audio de reproducción 212, realiza un muestreo ascendente y genera una señal muestreada ascendentemente 210. La señal de audio de reproducción 212 corresponde generalmente a la señal de audio de reproducción 124 proporcionada por el sistema de controlador de audio 103 (véase la figura 1). Muestreo ascendente se refiere generalmente a convertir una señal en una frecuencia de muestreo dada a una frecuencia de muestreo más alta. Por ejemplo, la señal de audio de reproducción 212 puede tener una frecuencia de muestreo de 8 kHz (por ejemplo, para una conexión telefónica), 16 kHz (por ejemplo, una señal de audio de Microsoft Teams™), 24 kHz (por ejemplo, una señal de audio de Zoom™), etc.; y la señal muestreada ascendentemente 210 puede tener una frecuencia de muestreo de 16 kHz (por ejemplo, 2x la señal de 8 kHz, etc.), 32 kHz (por ejemplo, 4x la señal de 8 kHz, 2x la señal de 16 kHz, 1,333x la señal de 24 kHz, etc.), 48 kHz (6x la señal de 8 kHz, 4x la señal de 16 kHz, 2x la señal de 24 kHz, etc.), etc. La frecuencia de muestreo inferior puede denominarse fs0, y la frecuencia de muestreo superior puede denominarse fs1.
El convertidor de señal 222 realiza generalmente una conversión de analógico a digital y de digital a analógico en señales. El convertidor de señal 222 recibe la señal muestreada ascendentemente 210, realiza una conversión de digital a analógico, y genera la señal de audio de reproducción 140 para su salida por el altavoz 106. El convertidor de señal 222 recibe la señal de audio capturada 142 capturada por el micrófono 108, realiza una conversión de analógico a digital y genera una señal de audio capturada 211. El convertidor de señal 222 realiza generalmente conversión a la frecuencia de muestreo más alta (por ejemplo, 48 kHz, correspondiente a fs1 que es más alta que la frecuencia de muestreo más baja fs0 de la señal de audio de reproducción 212), de modo que la señal de audio capturada 211 también tiene la frecuencia de muestreo más alta (por ejemplo, 48 kHz).
El muestreador descendente 224 recibe la señal de audio capturada 211, realiza un muestreo descendente y genera una señal muestreada descendentemente 213. La señal muestreada descendentemente 213 corresponde generalmente a la señal de audio capturada 126 proporcionada al sistema de controlador de audio 103 (véase la figura 1). Muestreo descendente se refiere generalmente a convertir una señal en una frecuencia de muestreo dada a una frecuencia de muestreo más baja. Por ejemplo, la señal de audio capturada 211 puede tener una frecuencia de muestreo de 8 kHz (por ejemplo, para una conexión telefónica), 16 kHz (por ejemplo, una señal de audio de Microsoft Teams™), 24 kHz (por ejemplo, una señal de audio de Zoom™), etc. En general, la señal muestreada descendentemente 213 y la señal de audio de reproducción 212 tendrán la misma frecuencia de muestreo.
El detector de doble conversación 401 recibe la señal de audio capturada 211 desde el sistema de códec de audio 201. En consecuencia, la señal de audio capturada 126 de la figura 1 corresponde tanto a la señal de audio capturada 211 como a la señal muestreada descendentemente 213.
Opcionalmente, el detector de doble conversación 401 también puede recibir la señal de audio de reproducción 212 que el sistema de controlador de audio 103 proporciona al sistema de códec de audio 201. Esta disposición opcional se analiza con más detalle a continuación con referencia a la figura 5.
Debido a que la señal muestreada ascendentemente 210 que se proporciona al altavoz 106 para la salida resulta del muestreo ascendente de la señal de audio de reproducción 212, el eco de la señal muestreada ascendentemente 210 capturada por el micrófono 108 carecerá de energía de señal a frecuencias por encima de la mitad de la frecuencia de muestreo de la señal de audio de reproducción 212, como se detalla adicionalmente con referencia a las figuras 3A-3B.
Las figuras 3A-3B son gráficos que muestran el espectro de potencia de la señal muestreada ascendentemente 210 y la señal de audio capturada 211 en dos situaciones. La figura 3A muestra el espectro de potencia cuando el micrófono 108 captura solamente alocución de extremo lejano que ha sido emitida por el altavoz 106 (véanse las figuras 1-2) sin ninguna alocución de extremo cercano capturada. La figura 3B muestra el espectro de potencia cuando el micrófono 108 captura tanto alocución de extremo lejano que ha sido emitida por el altavoz 106 (véanse las figuras 1-2) como alocución de extremo cercano. Estas dos situaciones ilustran que, cuando el micrófono 108 ha capturado una señal, el sistema de procesamiento de audio 100 necesita determinar si existe una doble conversación (en cuyo caso necesita aplicar poca o ninguna atenuación) o si no existe una doble conversación (en cuyo caso necesita aplicar una cantidad relativamente grande de atenuación debido al eco de la señal de extremo lejano).
En la figura 3A, el eje y es la potencia de la señal y el eje x es la frecuencia. Las frecuencias mostradas son 1/2 fs0 y 1/2 fs1 porque, según el teorema de muestreo de Nyquist-Shannon, una tasa de muestreo dada S permite una reconstrucción precisa de una señal con una frecuencia máxima presente en la señal de 1/2 S. Por ejemplo, fs0 puede ser 24 kHz y fs1 puede ser 48 kHz, en cuyo caso 1/2 fs0 es 12 kHz y 1/2 fs1 es 24 kHz. Cuando el micrófono 108 captura solo alocución de extremo lejano que ha sido emitida por el altavoz 106 sin ninguna alocución de extremo cercano capturada, la señal muestreada ascendentemente 210 y la señal de audio capturada 211 tienen, ambas, potencia de señal solo por debajo de 1/2 fs0. Esto es porque la señal de audio de reproducción 212 tiene una frecuencia de muestreo de fs0 y de este modo no tiene energía de señal por encima de 1/2 fs0, de modo que realizar muestreo ascendente da igualmente como resultado que la señal muestreada ascendentemente 210 tampoco tiene energía de señal por encima de 1/2 fs0. De este modo, en la situación de la figura 3A, la ausencia de potencia de señal por encima de 1/2 fs0 indica la ausencia de doble conversación. En la figura 3B, cuando el micrófono 108 captura tanto alocución de extremo lejano que ha sido emitida por el altavoz 106 (véanse las figuras 1-2) como alocución de extremo cercano, la señal muestreada ascendentemente 210 tiene potencia de señal solo por debajo de 1/2 fs0, pero la señal de audio capturada 211 tiene potencia de señal por encima de 1/2 fs0 (tanto por debajo de 1/2 fs0 como entre 1/2 fs0 y 1/2 fs1). Esto es porque la señal de audio capturada 211 tiene una frecuencia de muestreo de fs1 y de este modo la alocución de extremo cercano tiene energía que se captura hasta 1/2 fs1, pero la señal de audio de reproducción 212 aún no tiene energía de señal superior a 1/2 fs0. De este modo, en la situación de la figura 3B, la presencia de potencia de señal por encima de 1/2 fs0 (por ejemplo, entre 1/2 fs0 y 1/2 fs1) indica la presencia de doble conversación.
La figura 4 es un diagrama de bloques que muestra detalles adicionales del detector de doble conversación 401 (véanse también las figuras 1-2). El detector de doble conversación 401 incluye un medidor de potencia 405, un seguidor de mínimo 404, y un tomador de decisiones 406. El detector de doble conversación 401 puede incluir otros componentes que (por brevedad) no se analizan en detalle.
El medidor de potencia 405 recibe generalmente la señal de audio capturada 211 (véase la figura 2), mide la potencia entre 1/2 fs0 y 1/2 fs1, y genera una señal de potencia 402. La señal de potencia 402 corresponde generalmente a la potencia cuadrática media (rms) en la banda entre 1/2 fs0 y 1/2 fs1; también puede denominarse potencia instantánea o potencia suavizada de la señal de audio capturada 211.
El seguidor de mínimo 404 recibe generalmente la señal de potencia 402, rastrea la potencia de ruido de fondo, y genera una señal de potencia de ruido de fondo 403. La señal de potencia de ruido de fondo 403 corresponde generalmente a la potencia de ruido de fondo entre 1/2 fs0 y 1/2 fs1 de la señal de potencia 402.
El tomador de decisiones 406 recibe generalmente la señal de potencia 402 y la señal de potencia de ruido de fondo 403, compara sus niveles, y genera la señal de control 410. El tomador de decisiones 406 puede funcionar de acuerdo con un proceso de decisión de histéresis, por ejemplo para filtrar las entradas de modo que la salida reaccione menos rápidamente de lo que lo haría de otro modo al tener en cuenta el historial reciente del sistema. Cuando no hay doble conversación y el nivel de la señal de potencia 402 excede el nivel de la señal de potencia de ruido de fondo 403 en una primera cantidad de umbral, el tomador de decisiones 406 se enciende. Cuando hay una doble conversación (es decir, el tomador de decisiones 406 está en el estado encendido), el tomador de decisiones 406 cambia al estado apagado solo cuando la señal de potencia 402 cae por debajo de una segunda cantidad de umbral.
La figura 5 es un diagrama de bloques de un detector de doble conversación 501. El detector de doble conversación 501 es similar al detector de doble conversación 401 (véase la figura 4), con componentes adicionales, y que también recibe la señal de audio de reproducción 212 (véase la figura 2). Dispositivos tales como portátiles y teléfonos móviles a menudo implementan el altavoz 106 (véase la figura 1) usando microaltavoces. Para los microaltavoces, los componentes de transductor y las distorsiones mecánicas generales del dispositivo pueden crear potencia adicional en el rango de frecuencia de [1/2 fs0, 1/2 fs1]. El detector de doble conversación 501 puede usarse en tal caso para reducir la tasa de falsas alarmas (por ejemplo, una falsa alarma debida a la detección de que se captura voz de extremo cercano cuando en realidad no hay voz de extremo cercano).
El detector de doble conversación 501 incluye un filtro de paso de banda 511, un medidor de potencia 512 y un regulador no lineal 513. El detector de doble conversación 501 incluye también un medidor de potencia 555, un seguidor de mínimo 554, y un tomador de decisiones 556 (que son similares al medidor de potencia 405, al seguidor de mínimo 404 y al tomador de decisiones 406 de la figura 4).
El medidor de potencia 555 recibe generalmente la señal de audio capturada 211 (véase la figura 2) y genera una señal de potencia 552, de una manera similar a la del medidor de potencia 405. El seguidor de mínimo 554 recibe generalmente la señal de potencia 552 y genera una señal de potencia de ruido de fondo 553, de una manera similar a la del seguidor de mínimo 404.
El filtro de paso de banda 511 recibe generalmente la señal de audio de reproducción 212, realiza un filtrado de paso de banda y genera una señal filtrada 521. La banda de paso del filtro de paso de banda 511 puede ser una banda B alrededor de una frecuencia resonante fres. La frecuencia resonante fres corresponde generalmente a los componentes específicos usados para implementar el altavoz 106 y los otros componentes del dispositivo que implementa el sistema de procesamiento de audio 100, y pueden medirse empíricamente. La banda B también puede determinarse empíricamente en base a los otros componentes del dispositivo que implementa el sistema de procesamiento de audio 100. Un ejemplo de rango de la banda B es 600 Hz, dando como resultado que el filtro de paso de banda 511 tenga una banda de paso de [fres - 300, fres 300].
El medidor de potencia 512 recibe generalmente la señal filtrada 521, mide la potencia de señal, y genera una señal de potencia resonante 522. La señal de potencia resonante (Pres) 522 corresponde a la potencia de señal de la señal filtrada 521 (por ejemplo, la potencia de la resonancia mecánica del altavoz 106).
El regulador no lineal 513 recibe generalmente la señal de potencia resonante 522, realiza una regulación no lineal y genera una señal de potencia de distorsión (Pdist) 514. La señal de potencia de distorsión 514 corresponde a la potencia de distorsión en el rango de frecuencia [1/2 fs0, 1/2 fs1]. El regulador no lineal 513 puede realizar una regulación no lineal para generar la señal de potencia de distorsión Pdist como viene a continuación:
En la ecuación anterior, th0 es un parámetro de umbral y k es un parámetro de sintonización; estos parámetros pueden ajustarse como se desee de acuerdo con mediciones empíricas. La regulación se denomina no lineal debido a las dos funciones de Pdist que dependen de la relación entre Pres y th0. La pendiente de Pdist se controla mediante el parámetro de sintonización k aplicado a la diferencia entre Pres y th0, y el punto de partida en el que Pdist empieza a aumentar desde cero está controlado por la relación entre Pres y th0.
El tomador de decisiones 556 recibe generalmente la señal de potencia 552, la señal de potencia de ruido de fondo 553 y la señal de potencia de distorsión 514, compara sus niveles y genera la señal de control 410. En general, el tomador de decisiones 556 usa la señal de potencia de distorsión 514 como parte de la determinación de si la energía es principalmente procedente de la voz de extremo cercano capturada o procedente de distorsiones de dispositivo. Más específicamente, el tomador de decisiones 556 usa la señal de potencia de distorsión 514 para aumentar el umbral de la histéresis aplicada a la señal de potencia 552 y la señal de potencia de ruido de fondo 553 (por ejemplo, el primer umbral analizado anteriormente con respecto al tomador de decisiones 406). El tomador de decisiones 556 es, por lo demás, similar al tomador de decisiones 406.
La figura 6 es una arquitectura de dispositivo móvil 600 para implementar las características y procesos descritos en el presente documento, de acuerdo con una realización. La arquitectura 600 puede implementarse en cualquier dispositivo electrónico, incluyendo, pero sin limitarse a: un ordenador de escritorio, equipo audio/visual (AV) de consumidor, equipo de radiodifusión, dispositivos móviles (por ejemplo, teléfono inteligente, tableta, ordenador portátil, dispositivo ponible), etc. En la realización de ejemplo mostrada, la arquitectura 600 es para un ordenador portátil e incluye procesador(es) 601, interfaz de periféricos 602, subsistema de audio 603, altavoces 604, micrófono 605, sensores 606 (por ejemplo, acelerómetros, giroscopios, barómetro, magnetómetro, cámara), procesador de ubicación 607 (por ejemplo, receptor GNSS), subsistemas de comunicaciones inalámbricas 608 (por ejemplo, Wi-Fi, Bluetooth, celular) y subsistema(s) de E/S 609, que incluyen placa de control táctil 610 y otras placas de control de entrada 611, superficie táctil 612 y otros dispositivos de entrada/control 613. También se pueden usar otras arquitecturas con más o menos componentes para implementar las realizaciones divulgadas.
La interfaz de memoria 614 está acoplada a procesadores 601, interfaz de periféricos 602 y memoria 615 (por ejemplo, flash, RAM, ROM). La memoria 615 almacena instrucciones y datos de programa de ordenador, incluyendo, pero sin limitarse a: instrucciones de sistema operativo 616, instrucciones de comunicación 617, instrucciones de GUI 618, instrucciones de procesamiento de sensor 619, instrucciones de teléfono 620, instrucciones de mensajería electrónica 621, instrucciones de exploración web 622, instrucciones de procesamiento de audio 623, instrucciones de GNSS/navegación 624 y aplicaciones/datos 625. Las instrucciones de procesamiento de audio 623 incluyen instrucciones para realizar el procesamiento de audio descrito en el presente documento.
La figura 7 es un diagrama de flujo de un método 700 de procesamiento de audio. El método 700 puede ser realizado por un dispositivo (por ejemplo, un ordenador portátil, un teléfono móvil, etc.) con los componentes de la arquitectura 600 de la figura 6, para implementar la funcionalidad del sistema de procesamiento de audio 100 (véase la figura 1), el sistema de códec de audio 201 (véase la figura 2), el detector de doble conversación 401 (véase la figura 4), el detector de doble conversación 501 (véase la figura 5), etc., por ejemplo ejecutando uno o más programas de ordenador.
En 702, se recibe una primera señal de audio. La primera señal de audio tiene una primera frecuencia de muestreo. Por ejemplo, el sistema de códec de audio 201 (véase la figura 2) puede recibir la señal de audio de reproducción 212 que tiene la frecuencia de muestreo fs0.
En 704, la primera señal de audio se muestrea ascendentemente para generar una segunda señal de audio. La segunda señal de audio tiene una segunda frecuencia de muestreo que es mayor que la primera frecuencia de muestreo. Por ejemplo, el muestreador ascendente 220 (véase la figura 2) puede muestrear ascendentemente la señal de audio de reproducción 212 para generar la señal muestreada ascendentemente 210 que tiene la frecuencia de muestreo fs1. Como ejemplo específico, fs0 puede ser 24 kHz y fs1 puede ser 48 kHz.
En 706, una salida de altavoz correspondiente a la segunda señal de audio puede ser emitida por un altavoz. Por ejemplo, el altavoz 106 (véase la figura 2) puede emitir una salida de audio correspondiente a la señal muestreada ascendentemente 210.
En 708, una tercera señal de audio es capturada por un micrófono. La tercera señal de audio tiene una tercera frecuencia de muestreo que es mayor que la primera frecuencia de muestreo. La tercera frecuencia de muestreo puede ser la misma que la segunda frecuencia de muestreo. Por ejemplo, el micrófono 108 (véase la figura 2) puede capturar la señal de audio capturada 211 que tiene la frecuencia de muestreo fs1. La señal de audio capturada 211 puede incluir eco (por ejemplo, de la salida de altavoz correspondiente a la segunda señal de audio), alocución de extremo cercano capturada (por ejemplo, conversación local), distorsión mecánica del dispositivo que está realizando el método 700 (por ejemplo, otro audio local), etc.
En 710, se determina una potencia de señal de la tercera señal de audio. Por ejemplo, el detector de doble conversación 401 (véase la figura 4) puede determinar la potencia de señal de la señal de audio capturada 211. Como otro ejemplo, el detector de doble conversación 501 (véase la figura 5) puede determinar la potencia de señal de la señal de audio capturada 211.
En 712, se detecta doble conversación cuando hay potencia de señal de la tercera señal de audio determinada en una banda de frecuencia mayor que la primera frecuencia de muestreo. Por ejemplo, el detector de doble conversación 401 puede detectar doble conversación en base a la potencia de señal en la banda de frecuencia [1/2 fs0, 1/2 fs1 ]; cuando no hay potencia de señal (por ejemplo, como se muestra en la figura 3A), no se detecta doble conversación, y, cuando hay potencia de señal (por ejemplo, como se muestra en la figura 3B), se detecta doble conversación.
En 714, se genera selectivamente una señal de control cuando se detecta la doble conversación. Por ejemplo, el detector de doble conversación 401 (véase la figura 4) puede generar la señal de control 410 cuando se detecta doble conversación. Como otro ejemplo, el detector de doble conversación 501 (véase la figura 5) puede generar la señal de control 410 cuando se detecta doble conversación.
En 716, se realiza gestión de eco en la tercera señal de audio de acuerdo con la señal de control. Por ejemplo, el sistema de gestión de eco 130 (véase la figura 1) puede realizar cancelación de eco, supresión de eco, etc., en la señal de audio capturada 126, en base a la señal de control 410, para generar la señal de audio capturada 122. El método 700 puede incluir etapas adicionales correspondientes a las otras funcionalidades del sistema de procesamiento de audio 100 descrito en el presente documento.
Aplicaciones adicionales
Como se analizó anteriormente, el sistema de procesamiento de audio 100 es capaz de detectar doble conversación como parte del proceso de gestión de eco. Además, el sistema de procesamiento de audio 100 es capaz de detectar otras distorsiones de audio, por ejemplo debido al movimiento del dispositivo, o de otro modo cuando el dispositivo es sometido a interacciones táctiles. En tal caso, el sistema de gestión de eco 130 puede adaptar el cancelador de eco 132 para realizar cancelación de eco, incluso en ausencia de alocución de extremo cercano o alocución de extremo lejano capturada.
Detalles de implementación
Una realización puede implementarse en hardware, módulos ejecutables almacenados en un medio legible por ordenador, o una combinación de ambos (por ejemplo, matrices lógicas programables). A menos que se especifique lo contrario, las etapas ejecutadas por realizaciones no necesitan estar inherentemente relacionadas con ningún ordenador u otro aparato particular, aunque pueden estar en ciertas realizaciones. En particular, se pueden usar diversas máquinas de propósito general con programas escritos de acuerdo con las enseñanzas del presente documento, o puede ser más conveniente construir aparatos más especializados (por ejemplo, circuitos integrados) para realizar las etapas de método requeridas. De este modo, pueden implementarse realizaciones en uno o más programas de ordenador que se ejecutan en uno o más sistemas de ordenador programables que comprenden cada uno al menos un procesador, al menos un sistema de almacenamiento de datos (incluyendo memoria volátil y no volátil y/o elementos de almacenamiento), al menos un puerto o dispositivo de entrada, y al menos un puerto o dispositivo de salida. Se aplica código de programa a datos de entrada para realizar las funciones descritas en el presente documento y generar información de salida. La información de salida se aplica a uno o más dispositivos de salida, de manera conocida.
Cada uno de tales programas de ordenador se almacena o descarga preferiblemente en un medio o dispositivo de almacenamiento (por ejemplo, memoria o medios de estado sólido, o medios magnéticos u ópticos) legible por un ordenador programable de propósito general o especial, para configurar y hacer funcionar el ordenador cuando el medio o dispositivo de almacenamiento es leído por el sistema de ordenador para realizar los procedimientos descritos en el presente documento. También puede considerarse que el sistema inventivo se implemente como un medio de almacenamiento legible por ordenador, configurado con un programa de ordenador, donde el medio de almacenamiento así configurado hace que un sistema de ordenador funcione de una manera específica y predefinida para realizar las funciones descritas en el presente documento. (El software per se y las señales intangibles o transitorias se excluyen en la medida en que son materia no patentable).
Aspectos de los sistemas descritos en el presente documento pueden implementarse en un entorno apropiado de red de procesamiento de sonido basado en ordenador para procesar archivos de audio digital o digitalizado. Porciones del sistema de audio adaptativo pueden incluir una o más redes que comprenden cualquier número deseado de máquinas individuales, incluyendo uno o más enrutadores (no mostrados) que sirven para almacenar temporalmente y enrutar los datos transmitidos entre los ordenadores. Tal red puede construirse sobre diversos protocolos de red diferentes, y puede ser Internet, una red de área amplia (WAN), una red de área local (LAN) o cualquier combinación de las mismas.
Uno o más de los componentes, bloques, procesos u otros componentes funcionales pueden implementarse a través de un programa de ordenador que controla la ejecución de un dispositivo informático basado en procesador del sistema. También debe observarse que las diversas funciones divulgadas en el presente documento pueden describirse usando cualquier número de combinaciones de hardware, firmware y/o como datos y/o instrucciones incorporadas en diversos medios legibles por máquina o legibles por ordenador, en términos de su comportamiento, transferencia de registro, componente lógico y/u otras características. Los medios legibles por ordenador en los que se pueden incorporar tales datos y/o instrucciones formateados incluyen, pero no se limitan a, medios de almacenamiento físicos (no transitorios), no volátiles en diversas formas, tales como medios de almacenamiento ópticos, magnéticos o semiconductores.
La descripción anterior ilustra diversas realizaciones de la presente divulgación junto con ejemplos de cómo se pueden implementar aspectos de la presente divulgación. No debe considerarse que los ejemplos y realizaciones anteriores son las únicas realizaciones, y se presentan para ilustrar la flexibilidad y ventajas de la presente divulgación como se define mediante las siguientes reivindicaciones. En base a la divulgación anterior y las siguientes reivindicaciones, otras disposiciones, realizaciones, implementaciones y equivalentes serán evidentes para los expertos en la técnica y pueden emplearse sin salir del alcance de las reivindicaciones adjuntas.

Claims (13)

REIVINDICACIONES
1. Un método implementado por ordenador de procesamiento de audio, comprendiendo el método:
recibir (702) una primera señal de audio, en donde la primera señal de audio tiene una primera frecuencia de muestreo;
muestrear ascendentemente (704) la primera señal de audio para generar una segunda señal de audio, en donde la segunda señal de audio tiene una segunda frecuencia de muestreo que es mayor que la primera frecuencia de muestreo;
emitir (706), mediante un altavoz, una salida de altavoz correspondiente a la segunda señal de audio; capturar (708), mediante un micrófono, una tercera señal de audio, en donde la tercera señal de audio se muestrea a la segunda frecuencia de muestreo;
determinar (710) una potencia de señal de la tercera señal de audio; y
detectar (712) doble conversación cuando hay potencia de señal de la tercera señal de audio determinada en una banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo.
2. El método de la reivindicación 1, que comprende además:
generar selectivamente (714) una señal de control cuando se detecta la doble conversación; y
realizar (716) gestión de eco en la tercera señal de audio de acuerdo con la señal de control.
3. El método de la reivindicación 2, en el que realizar gestión de eco incluye:
realizar cancelación de eco en la tercera señal de audio de acuerdo con la señal de control, en donde la cancelación de eco realiza una atenuación lineal en la tercera señal de audio.
4. El método de una cualquiera de las reivindicaciones 2-3, en el que realizar gestión de eco incluye: realizar supresión de eco en la tercera señal de audio de acuerdo con la señal de control, en donde la supresión de eco realiza una atenuación no lineal en bandas de frecuencia particulares de la tercera señal de audio.
5. El método de una cualquiera de las reivindicaciones 1-4, en el que la tercera señal de audio incluye audio local y la salida de altavoz, en donde el audio local corresponde a audio distinto de la salida de altavoz, y en donde el audio local no es emitido por el altavoz y es capturado por el micrófono.
6. El método de una cualquiera de las reivindicaciones 1-5, en el que la primera frecuencia de muestreo es 8 kHz, en el que la segunda frecuencia de muestreo es al menos 16 kHz.
7. El método de una cualquiera de las reivindicaciones 1-6, que comprende además:
muestrear descendentemente la tercera señal de audio para generar una cuarta señal de audio, en donde la cuarta señal de audio tiene una tercera frecuencia de muestreo que es menor que la segunda frecuencia de muestreo; y
transmitir la cuarta señal de audio a un dispositivo de extremo lejano.
8. El método de la reivindicación 7, en el que la tercera frecuencia de muestreo y la primera frecuencia de muestreo son la misma frecuencia de muestreo.
9. El método de una cualquiera de las reivindicaciones 1-8, en el que determinar la potencia de señal de la tercera señal de audio y detectar la doble conversación incluye:
medir la potencia de señal de la tercera señal de audio en la banda de frecuencia superior a la primera frecuencia de muestreo;
rastrear una potencia de ruido de fondo de la tercera señal de audio en la banda de frecuencia superior a la primera frecuencia de muestreo; y
detectar la doble conversación como resultado de comparar la potencia de señal de la tercera señal de audio en la banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo y la potencia de ruido de fondo de la tercera señal de audio en la banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo.
10. El método de una cualquiera de las reivindicaciones 1-8, en el que determinar la potencia de señal de la tercera señal de audio y detectar la doble conversación incluye:
medir la potencia de señal de la tercera señal de audio en la banda de frecuencia superior a la primera frecuencia de muestreo;
rastrear una potencia de ruido de fondo de la tercera señal de audio en la banda de frecuencia superior a la primera frecuencia de muestreo;
medir una potencia de distorsión de la primera señal de audio; y
detectar la doble conversación en base a la potencia de señal de la tercera señal de audio en la banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo, la potencia de ruido de fondo de la tercera señal de audio en la banda de frecuencia que tiene frecuencias todas mayores que la mitad de la primera frecuencia de muestreo, y la potencia de distorsión de la primera señal de audio.
11. El método de la reivindicación 10, en el que medir la potencia de distorsión de la primera señal de audio incluye:
generar una señal filtrada mediante la realización de filtrado de paso de banda en la primera señal de audio; medir una potencia de señal de la señal filtrada; y
determinar la potencia de distorsión mediante la realización de regulación no lineal sobre la potencia de señal de la señal filtrada.
12. Un medio no transitorio legible por ordenador que almacena un programa de ordenador que, cuando se ejecuta por un procesador, controla un aparato para ejecutar el procesamiento que incluye el método de una cualquiera de las reivindicaciones 1-11.
13. Un aparato para procesamiento de audio, comprendiendo el aparato:
un altavoz (106);
un micrófono (108); y
un procesador (601);
en donde el procesador está configurado para controlar el aparato para realizar el método de una cualquiera de las reivindicaciones 1-11.
ES21717734T 2020-03-23 2021-03-19 Detección de doble conversación usando muestreo ascendente Active ES2992242T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062993136P 2020-03-23 2020-03-23
US202163153522P 2021-02-25 2021-02-25
PCT/US2021/023196 WO2021194881A1 (en) 2020-03-23 2021-03-19 Double talk detection using up-sampling

Publications (1)

Publication Number Publication Date
ES2992242T3 true ES2992242T3 (es) 2024-12-10

Family

ID=75439580

Family Applications (1)

Application Number Title Priority Date Filing Date
ES21717734T Active ES2992242T3 (es) 2020-03-23 2021-03-19 Detección de doble conversación usando muestreo ascendente

Country Status (8)

Country Link
US (1) US20230115316A1 (es)
EP (1) EP4128731B1 (es)
JP (1) JP2023518716A (es)
KR (1) KR20220156834A (es)
CN (1) CN115349250A (es)
BR (1) BR112022018182A2 (es)
ES (1) ES2992242T3 (es)
WO (1) WO2021194881A1 (es)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240070586A (ko) * 2021-09-30 2024-05-21 돌비 레버러토리즈 라이쎈싱 코오포레이션 음향 에코 제거를 위한 강인한 전경/배경 필터링 제어

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5526347A (en) * 1992-11-02 1996-06-11 Advanced Micro Devices, Inc. Decorrelation controller for an adaptive echo cancellor
US5486457A (en) * 1993-08-25 1996-01-23 Children's Medical Center Corporation Method and system for measurement of mechanical properties of molecules and cells
US6163608A (en) * 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
US20030133565A1 (en) * 2002-01-15 2003-07-17 Chienchung Chang Echo cancellation system method and apparatus
JP2004228939A (ja) * 2003-01-23 2004-08-12 Mitsubishi Electric Corp エコー処理装置及び音声処理装置
US7787613B2 (en) * 2005-11-18 2010-08-31 Motorola, Inc. Method and apparatus for double-talk detection in a hands-free communication system
US8923509B2 (en) * 2007-10-23 2014-12-30 Cisco Technology, Inc. Controlling echo in a wideband voice conference
PL216396B1 (pl) * 2008-03-06 2014-03-31 Politechnika Gdanska Sposób i układ tłumienia echa akustycznego w terminalu VoIP
US8625775B2 (en) * 2009-08-06 2014-01-07 Hti Ip, L.L.C. Method and system for reducing echo and noise in a vehicle passenger compartment environment
US8804977B2 (en) * 2011-03-18 2014-08-12 Dolby Laboratories Licensing Corporation Nonlinear reference signal processing for echo suppression
US9654609B2 (en) * 2011-12-16 2017-05-16 Qualcomm Incorporated Optimizing audio processing functions by dynamically compensating for variable distances between speaker(s) and microphone(s) in an accessory device
US8712076B2 (en) * 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US9083783B2 (en) * 2012-11-29 2015-07-14 Texas Instruments Incorporated Detecting double talk in acoustic echo cancellation using zero-crossing rate
US9697847B2 (en) * 2013-03-14 2017-07-04 Semiconductor Components Industries, Llc Acoustic signal processing system capable of detecting double-talk and method
DE112015007128B4 (de) * 2015-11-16 2019-07-11 Mitsubishi Electric Corporation Echolöscheinrichtung und Sprachtelekommunikationseinrichtung
US10389885B2 (en) * 2017-02-01 2019-08-20 Cisco Technology, Inc. Full-duplex adaptive echo cancellation in a conference endpoint
JP6945158B2 (ja) * 2017-06-16 2021-10-06 パナソニックIpマネジメント株式会社 通話装置、プログラム及び通話システム
BR112022018422A2 (pt) * 2020-03-23 2022-10-25 Dolby Laboratories Licensing Corp Supressão residual de eco
US11875772B2 (en) * 2022-03-17 2024-01-16 Airoha Technology Corp. Adaptive active noise control system with double talk handling and associated method

Also Published As

Publication number Publication date
CN115349250A (zh) 2022-11-15
EP4128731A1 (en) 2023-02-08
KR20220156834A (ko) 2022-11-28
BR112022018182A2 (pt) 2022-10-25
WO2021194881A1 (en) 2021-09-30
JP2023518716A (ja) 2023-05-08
EP4128731B1 (en) 2024-09-11
US20230115316A1 (en) 2023-04-13

Similar Documents

Publication Publication Date Title
CA2766196C (en) Apparatus, method and computer program for controlling an acoustic signal
US10832702B2 (en) Robustness of speech processing system against ultrasound and dolphin attacks
KR101725744B1 (ko) 능동 잡음 제거 출력의 제한
WO2019073191A1 (en) DETECTION OF THE GOOD PLACEMENT OF A HELMET ON THE EARS
WO2010145723A1 (en) Portable communication device and a method of processing signals therein
CN103997561B (zh) 通讯装置及其语音处理方法
EP2396958A1 (en) Controlling an adaptation of a behavior of an audio device to a current acoustic environmental condition
WO2014169757A1 (zh) 自适应调节频响的方法及终端
US20150348562A1 (en) Apparatus and method for improving an audio signal in the spectral domain
US9769567B2 (en) Audio system and method
EP2806424A1 (en) Improved noise reduction
KR20140055932A (ko) 상이한 이퀄라이저 모드들 사이에 출력음 크기와 음질을 유지하기 위한 장치 및 방법
US10516941B2 (en) Reducing instantaneous wind noise
KR20200062320A (ko) 생기의 검출
US11375066B2 (en) Echo suppression device, echo suppression method, and echo suppression program
US20140257799A1 (en) Shout mitigating communication device
ES2992242T3 (es) Detección de doble conversación usando muestreo ascendente
US20180158447A1 (en) Acoustic environment understanding in machine-human speech communication
RU2832721C1 (ru) Обнаружение одновременного разговора с использованием повышающей дискретизации
JP4887181B2 (ja) エコー防止装置及びプログラム
TW201521416A (zh) 通訊裝置音量調節系統、方法及通訊裝置
WO2023242348A1 (en) Audio signal processing method and system for noise mitigation of a voice signal measured by an audio sensor in an ear canal of a user