ES2309315T3 - Metodo y dispositivo para la potenciacion del tono del habla descodificado. - Google Patents

Metodo y dispositivo para la potenciacion del tono del habla descodificado. Download PDF

Info

Publication number
ES2309315T3
ES2309315T3 ES03727092T ES03727092T ES2309315T3 ES 2309315 T3 ES2309315 T3 ES 2309315T3 ES 03727092 T ES03727092 T ES 03727092T ES 03727092 T ES03727092 T ES 03727092T ES 2309315 T3 ES2309315 T3 ES 2309315T3
Authority
ES
Spain
Prior art keywords
decoded
signal
sound signal
postprocessing
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03727092T
Other languages
English (en)
Inventor
Bruno Bessette
Claude Laflamme
Milan Jelinek
Roch Lefebvre
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VoiceAge Corp
Original Assignee
VoiceAge Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=29589086&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2309315(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by VoiceAge Corp filed Critical VoiceAge Corp
Application granted granted Critical
Publication of ES2309315T3 publication Critical patent/ES2309315T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Working-Up Tar And Pitch (AREA)
  • Inorganic Fibers (AREA)
  • Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Executing Machine-Instructions (AREA)

Abstract

Un método para el posprocesado de una señal de sonido descodificada (112) con objeto de potenciar una calidad percibida de dicha señal de sonido descodificada (112), que comprende: dividir la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia: y aplicar el posprocesado a por lo menos una se las señales de la sub-banda de frecuencia; caracterizado porque para potenciar el tono, se aplica el posprocesado a solamente una sub-banda inferior de las señales de sub-banda de frecuencia.

Description

Método y dispositivo para la potenciación del tono del habla descodificado.
Antecedentes del invento 1. Campo del invento
El presente invento se refiere a un método y un dispositivo para el posprocesado de una señal de sonido descodificada, con el fin de mejorar la calidad percibida de esa señal de sonido descodificada.
Este método y este dispositivo de posprocesado pueden ser aplicados, en particular aunque no exclusivamente, a la codificación digital de señales de sonido (incluidas las del habla). Por ejemplo, este método y este dispositivo de posprocesado pueden ser también aplicados al caso más general de mejora de la señal cuando la fuente de ruido pueda ser la de cualquier medio o sistema, no necesariamente relacionado con el ruido de la codificación o de la cuantificación.
2. Breve descripción de la tecnología actual 2.1 Codificadores del habla
Los codificadores del habla son de uso muy generalizado en los sistemas de comunicaciones digitales para transmitir eficientemente y/o almacenar las señales de palabras. En los sistemas digitales, la señal de palabra de entrada analógica es primero muestreada con una velocidad de muestreo apropiada, y las muestras de palabras sucesivas son además procesadas en el dominio digital. En particular, un codificador del habla recibe las muestras de palabras como una entrada, y genera una corriente de bits comprimidos de salida para que sea transmitida a través de un canal o almacenada en un medio de almacenamiento apropiado. En el receptor, un descodificador del habla recibe la corriente de bits como una entrada, y produce una señal de palabra reconstruida de salida.
Para que sea útil, un codificador del habla debe producir una corriente de bits comprimidos con una velocidad de bits más baja que la velocidad de bits de la señal de palabra de entrada muestreada digital. Los codificadores del habla del estado de la técnica consiguen típicamente una relación de compresión de al menos 16 a 1, y siguen siendo capaces de realizar la descodificación de las palabras con alta calidad. Muchos de estos codificadores del habla del estado de la técnica están basados en el modelo CELP (Predictivo Lineal Excitado por Código), con diferentes variantes que dependen del algoritmo.
En la codificación CELP la señal de palabra digital es procesada en bloques sucesivos de muestras de palabras denominados cuadros. Por cada cuadro, el codificador extrae de las muestras de palabras digitales una serie de parámetros que son codificados digitalmente y luego transmitidos y/o almacenados. El descodificador está diseñado para procesar los parámetros recibidos para reconstruir o sintetizar el cuadro dado de la señal de palabra. Típicamente, de las muestras de palabras digitales son extraídos los siguientes parámetros por un codificador CELP.
-
Coeficientes de Predicción Lineal (Coeficientes LP), transmitidos en un dominio tradicional, tal como el de Frecuencias Espectrales de Línea (LSF), o bien el de Frecuencias Espectrales de Inmitancia (ISF);
-
Parámetros de Tono, incluyendo un retardo (o retraso) de tono y una ganancia de tono; y
-
Parámetros de excitación de innovación (índice del libro de claves fijo y ganancia). Los parámetros de tono y los parámetros de excitación de innovación describen juntos la que se denomina señal de excitación. Esta señal de excitación es suministrada como una entrada a un filtro de Predicción Lineal (LP) mediante los coeficientes de LP. El filtro de LP puede verse como un modo 1 del tracto vocal, en que se puede ver la señal de excitación como la salida desde la glotis. Los coeficientes LP o LSF se calculan típicamente y se transmiten en cada cuadro, en donde se calculan y se transmiten los parámetros de tono y de excitación de innovación varias veces por cuadro. Más concretamente, se divide cada cuadro en varios bloques de señales, denominados subcuadros, y se calculan y se transmiten los parámetros de tono y los parámetros de excitación de innovación en cada subcuadro. Un cuadro tiene típicamente una duración de 10 a 30 milisegundos, mientras que un subcuadro tiene típicamente una duración de 5 milisegundos.
Varias normas de codificación de palabras están basadas en el modelo Algebraico CELP (ACELP) y más concretamente en el algoritmo ACELP. Una de las principales características del ACELP es la de hacer uso de libros de claves algebraicas para codificar la excitación de innovación en cada subcuadro. Un libro de claves algebraicas divide un subcuadro en un conjunto de pistas de posiciones de impulsos intercalados. Se remiten solamente unos pocos impulsos de amplitud distintos de cero por pista, y, cada impulso de amplitud distinta de cero está limitado a las posiciones de la pista correspondiente. El codificador usa algoritmos de búsqueda rápida para hallar las posiciones y las amplitudes óptimas de los impulsos para los impulsos de cada subcuadro. Se puede ver una descripción del algoritmo ACELP en el artículo de R. SALAMI y otros titulado "Diseño y Descripción de un CSUB BANDAACELP: un código de palabra de barrera de calidad de 8 kb/s", IEEE Trans on Speech and Audio Proc Vol. 6, Nº 2, páginas 116-130, marzo de 1998, que queda aquí incorporado por su referencia, y en el que se describe el algoritmo de codificación de palabras de banda estrecha de 8 kbits/segundo ITU-TG.729c sub-banda ACELP. Es de hacer notar que hay varias variaciones en la búsqueda en el libro de claves de innovación ACELP, que dependen de la norma de que se trate. El presente invento no depende de esas variaciones, ya que únicamente se aplica al posprocesado de la señal de palabra descodificada (sintetizada).
Una norma reciente basada en el algoritmo ACELP es el algoritmo de codificación de palabras ETSV3GPP AMR-WB, el cual fue también adoptado por el ITU-T (Sector de Normalización de Telecomunicaciones de la ITU (Unidad de Telecomunicaciones Internacional) como recomendación G. 722.2 [Recomendación G.722.2 de la ITU-T "Codificación de Banda Ancha de Palabras a aproximadamente 16 kbit/s, usando Banda Ancha Multi-velocidad de Adaptación (AMR-WB)", Ginebra, Z00Z [Codec (Codificador/Descodificador) de Palabras de Banda Ancha AMR, 3GPP TS 26.190, "Especificación Técnica 3GPP"]. El AMR-WB es un algoritmo de múltiples velocidades diseñado para operar a nueve velocidades de bits diferentes entre 6,6 y 23,85 kbit/segundo. Quienes posean los conocimientos corrientes de la técnica, saben que la calidad de la palabra descodificada aumenta en general con la velocidad de bits. El AMR-WB ha sido diseñado para permitir que los sistemas de comunicación celular reduzcan la velocidad de bits del codificador de palabras en el caso de malas condiciones de canal; los bits se convierten en bits de codificación de canal para aumentar la protección de los bits transmitidos. De esa manera, se puede mantener la calidad total de los bits transmitidos más alta que si fuera el caso de que el codificador del habla operase a una sola velocidad de bits fija.
La Figura 7 es un diagrama bloque esquemático que representa el principio del descodificador AMR-WB. Más concretamente, la Figura 7 es una representación de alto nivel del descodificador, destacando el hecho de que la corriente de bits recibida codifica la señal de palabra solamente hasta 6,4 kHz (frecuencia de muestreo de 12,8 kHz), y las frecuencias más altas que 6,4 kHz son sintetizadas en el descodificador a partir de los parámetros de banda más baja. Esto implica que, en el codificador, la señal de palabra muestreada de 16 kHz de anchura de banda original, fue primeramente muestreada a una frecuencia de muestreo rebajada de 12,8 kHz, usando técnicas de conversión de múltiples velocidades, bien conocidas por quienes posean los conocimientos corrientes de la técnica. El descodificador de parámetros 701 y el descodificador del habla 702 de la Figura 7 son análogos al descodificador de parámetros 106 y al descodificador de la fuente 107 de la Figura 1. La corriente de bits recibida 709 es primeramente descodificada por el descodificador de parámetros 701 para recuperar los parámetros 710 suministrados al descodificador del habla 702 para resintetizar la señal de palabra. En el caso específico del descodificador AMR-WB, esos parámetros son:
-
coeficientes de ISF por cada cuadro de 20 milisegundos;
-
un retardo del tono entero TO, un valor del tono fraccionario TO_frac, alrededor de TO, y una ganancia de tono por cada subcuadro de 5 milisegundos; y
-
una forma de libro de claves algebraicas (posiciones y signos de impulsos) y de ganancia por cada subcuadro de 5 milisegundos.
A partir de los parámetros 710, el descodificador del habla 702 está diseñado para sintetizar un cuadro dado de la señal de palabra para las frecuencias iguales y menores que 6,4 kHz, y producir con ello una señal de palabra sintetizada de banda baja 712 a la frecuencia de muestreo de 12,8 kHz. Para recuperar la señal de banda completa correspondiente a la frecuencia de muestreo de 16 kHz, el descodificador AMR-WB comprende un procesador de resíntesis de banda alta 707, que responde a los parámetros 710 descodificados del descodificador de parámetros 701 para resintetizar una señal de banda alta 711 a la frecuencia de muestreo de 16 kHz. Los detalles del procesador 707 de resíntesis de la señal de banda alta pueden verse en las siguientes publicaciones, que quedan aquí incorporadas por sus referencias:
-
Recomendación G.722.2 de la ITU-T \cdotCodificación de Banda Ancha de Señal de Alrededor de 16 kbit/s usando Banda Ancha de Velocidades Múltiples de Adaptación (AMR-INB), Ginebra, 2002; y
-
3GPP TS 26.190, "Codec (Codificador/Descodificador) de Palabras de Banda Ancha AMR: Funciones de Transcodificación", Especificación Técnica 3GPP.
La salida del procesador de resíntesis de banda alta 707, designada como la señal de banda alta 711 de la Figura 7, es una señal ala frecuencia de muestreo de 16 kHz, que tiene una energía concentrada por encima de 6,4 kHz. El procesador 708 suma la señal de banda alta 711 a una señal de palabra 713 de banda baja muestreada en sentido ascendente de 16 kHz, para formar la señal de palabra descodificada completa 714 del descodificador AMR-WB a la frecuencia de muestreo de 16 kHz.
En la Patente de EE.UU. Nº 5.806.025 se describe un método para filtrado de adaptación de una señal de palabra para supresión de ruidos.
2.2 Necesidad del posprocesado
Siempre que se use un codificador del habla en un sistema de comunicaciones, la señal de palabra sintetizada o descodificada jamás es idéntica a la señal de palabra original, ni siquiera cuando no haya errores de transmisión. Cuanto más alta sea la relación de compresión, tanto más alta será la distorsión introducida por el codificador. Esa distorsión puede hacerse subjetivamente pequeña usando diferentes soluciones. Una primera solución es la de condicionar la señal en el codificador para describir o modificar mejor la información subjetivamente relevante en la señal de palabra. El uso de un filtro de ponderación del formante, que se representa frecuentemente como W(z), es un ejemplo generalmente usado de esa primera solución [compiladores B. Kleijn y K. Pallwall de la obra "Codificación y Síntesis del Habla", Elsevier, 1995]]. Este filtro W(z) se hace típicamente de adaptación, y se calcula de tal modo que reduzca la energía de la señal a casi los formantes espectrales, aumentando con ello la energía relativa para las bandas de más baja energía. El codificador puede entonces cuantificar mejor las bandas de más baja energía, que de no hacerse así serían enmascaradas por el ruido de codificación, aumentando la distorsión percibida. Otro ejemplo de acondicionamiento de la señal en el codificador es el denominado filtro de afinamiento del tono, el cual mejora la estructura de armónicos de la señal de excitación en el codificador. El afinamiento del tono permite asegurar que el nivel de ruido entre amónicos se mantiene lo suficientemente bajo en el sentido de la percepción.
Una segunda solución para minimizar la distorsión percibida introducida por un codificador del habla es la de aplicar un algoritmo denominado de "posprocesado". El posprocesado se aplica en el descodificador como se ha ilustrado en la Figura 1. En la Figura 1, el codificador del habla 101 y el descodificador del habla 105 son subdivididos en dos módulos. En el caso del codificador del habla 101, un codificador de fuente 102 produce una serie de parámetros de codificador del habla 109 para ser transmitidos o almacenados. Estos parámetros 109 son luego codificados en notación binaria por el codificador de parámetros 103 usando un método de codificación específico, que depende del algoritmo de codificación de la palabra y de los parámetros a codificar. La señal de palabra codificada (parámetros codificados en notación binaria) 110 es luego transmitida al descodificador a través de un canal de comunicaciones 104. En el descodificador, la corriente de bits recibida 1 es primero analizada por un descodificador de parámetros 106 para descodificar los parámetros de codificación de la señal de sonido rectificada recibida, los cuales son luego usados por el descodificador de fuente 107 para generar la señal de palabra sintetizada 112. El objetivo del posprocesado (véase el posprocesador 108 de la Figura 1) es mejorar la información relevante de percepción en la señal de palabra sintetizada, o lo que es equivalente, reducir o retirar la información perceptualmente perturbadora. Dos formas corrientemente usadas para el posprocesado son el posprocesado de formantes y el posprocesado del tono. En el primer caso, la estructura formante de la señal de palabra sintetizada es amplificada mediante el uso de un filtro de adaptación con una respuesta de frecuencia correlacionada con los formantes de la palabra. Los picos del espectro de la señal de palabra sintetizada son luego acentuados a expensas de valles espectrales, cuya energía relativa se hace menor. En el caso del posprocesado del tono, se aplica también un filtro de adaptación a la señal de palabra sintetizada. Sin embargo, en este caso la respuesta de frecuencia de los filtros está correlacionada con la estructura espectral fina, es decir, la delos armónicos. Un posfiltrado del tono acentúa entonces los armónicos, a expensas de la energía entre armónicos, la cual se hace relativamente más pequeña. Obsérvese que la respuesta de frecuencia de un posfiltrado del tono cubre típicamente todo el rango de frecuencias. El impacto es el de que se impone una estructura de armónicos sobre la palabra posprocesada, incluso en las bandas de frecuencia que no presentaban una estructura de armónicos en la palabra descodificada. Esta no es una solución perceptualmente óptima para la palabra de banda ancha (palabra muestreada a 16 kHz), la cual raramente presenta una estructura periódica en todo el rango de frecuencias.
Sumario del invento
El presente invento se refiere a un método, según la reivindicación 1, para el posprocesado de una señal de sonido descodificada, con objeto de potenciar una calidad percibida de esa señal de sonido descodificada, que comprende dividir la señal de sonido descodificada en una pluralidad de señales de sub-banda de frecuencia, y aplicar el posprocesado a por lo menos una de las señales de sub-banda de frecuencia, pero no a todas las señales de sub-banda de frecuencia, caracterizado porque, para la potenciación del tono, se aplica el posprocesado a solamente una sub-banda inferior de las señales de sub-banda de frecuencia.
El presente invento concierne también a un dispositivo según la reivindicación 32, para el posprocesado de una señal de sonido descodificada, con objeto de potenciar una calidad percibida de esa señal de sonido descodificada, que comprende medios para dividir la señal de sonido descodificada en una pluralidad de señales de sub-banda de frecuencia, y medios para el posprocesado solamente de la sub-banda inferior de las señales de sub-banda de frecuencia.
De acuerdo con una realización ilustrativa, después del posprocesado de la señal de sub-banda inferior antes mencionada, se suman las señales de sub-banda para producir una señal de sonido descodificada posprocesada de salida.
En consecuencia, el método y el dispositivo para el posprocesado hacen posible localizar el posprocesado en la sub-banda deseada y dejar virtualmente inalteradas las demás sub-bandas.
El presente invento se refiere además a un descodificador de la señal de sonido, según la reivindicación 63, que comprende una entrada para recibir una señal de sonido codificada, un descodificador de parámetros al que se suministra la señal de sonido codificada para descodificar parámetros de codificación de la señal de sonido, un descodificador de la señal de sonido al que se suministran los parámetros de codificación de la señal de sonido descodificados para producir una señal de sonido descodificada, y un dispositivo de posprocesado como se ha descrito en lo que antecede para el posprocesado de la señal de sonido descodificada, con objeto de mejorar la calidad percibida de esa señal de sonido descodificada.
Los anteriores y otros objetos, ventajas y características del presente invento se pondrán mejo de manifiesto tras la lectura de la descripción que sigue, no limitativa, de realizaciones ilustrativas del mismo, que se incluyen solo a modo de ejemplos y con referencia a los dibujos que se acompañan.
Breve descripción de los dibujos
En los dibujos que se acompañan:
La Figura 1 es un diagrama bloque esquemático de la estructura de alto nivel de un ejemplo de sistema de codificador/descodificador del habla que usa el posprocesado en el descodificador.
La Figura 2 es un diagrama bloque esquemático en el que se muestra el principio general de una realización ilustrativa del presente invento, usando un banco de filtros de adaptación y de filtros de sub-banda, en el que la entrada de los filtros adaptativos es la señal de palabra (sintetizada) descodificada (línea de trazo lleno) y los parámetros descodificados (línea de trazos);
La Figura 3 es un diagrama bloque esquemático de un potenciador del tono de dos bandas, que constituye un caso especial de la realización ilustrativa de la Figura 2;
La Figura 4 es un diagrama bloque esquemático de una realización ilustrativa del presente invento, tal como se aplica al caso especial del descodificador de palabras de banda ancha AMR-WB;
La Figura 5 es un diagrama bloque esquemático de una forma de ejecución alternativa de la realización ilustrativa de la Figura 4;
La Figura 6a es un gráfico que ilustra un ejemplo de espectro de una señal preprocesada:
La Figura 6b es un gráfico que ilustra un ejemplo de estructura de la señal posprocesada obtenida cuando se usa el método descrito en la Figura 3;
La Figura 7 es un diagrama bloque esquemático en el que se ha representado el principio de la operación del descodificador 3GPP AMR-WB;
Las Figuras 8a y 8b son gráficos que representan un ejemplo de la respuesta de frecuencia de un filtro potenciador del tono, tal como se describe mediante la Ecuación (1), con el caso especial de muestras de un período del tono T=10;
La Figura 9a es un gráfico que representa un ejemplo de la respuesta de frecuencia para el filtro 404 de paso bajo de la Figura 4;
La Figura 9b es un gráfico que representa un ejemplo de la respuesta de frecuencia para el filtro de paso de banda 407 de la Figura 4;
La Figura 9c es un gráfico que representa un ejemplo de respuesta de frecuencia combinada para el filtro de paso bajo 404 y los filtros de paso de banda 407 de la Figura 4; y
La Figura 10 es un gráfico que representa un ejemplo de la respuesta de frecuencia de un filtro entre armónicos, tal como se describe mediante la Ecuación (2), y usado en el filtro 503 entre armónicos de la Figura 5 para el caso específico de T=10 muestras.
Descripción detallada de las realizaciones ilustrativas
La Figura 2 es un diagrama bloque esquemático que ilustra el principio general de una realización ilustrativa del presente invento.
En la Figura 1, la señal de entrada (señal a la cual se aplica el posprocesado) es la señal de palabra descodificada (sintetizada) 112 producida por el descodificador del habla 105 (Figura 1) en el receptor de un sistema de comunicaciones (salida del descodificador 107 de fuente de la Figura 1). El objetivo es producir una señal de palabra descodificada sometida a posprocesado en la salida 113 del posprocesador 108 de la Figura 1 (la cual es también la salida del procesador 203 de la Figura 2), con una calidad percibida mejorada. Esto se consigue aplicando primeo al menos una, y posiblemente más de una, operación de filtrado adaptativo a la señal de entrada 112 (véanse los filtros adaptativos 201 a, 201 b... 201 N). Estos filtros adaptativos se describirán en la descripción que sigue. Es de señalar aquí que algunos de los filtros adaptativos 201 a 201 N pueden ser funciones triviales siempre que se requiera, por ejemplo, con la salida igual a la entrada. La salida 204a, 204b..., 204N, de cada filtro adaptativo 201 a, 201 b..., 201 N, es luego sometida a filtrado de paso de banda a través de un filtro de sub-banda 202a, 202b..., 202N, respectivamente, y la señal de palabra descodificada posprocesada 113 se obtiene añadiendo a través de un procesador 203 las respectivas salidas resultantes 205a, 205b..., 205N de los filtros de sub-banda 202a, 202b..., 202N.
En una realización ilustrativa, se usa una descomposición en dos bandas y se aplica un filtrado adaptativo solamente a la banda inferior. Esto da por resultado un posprocesado total que está principalmente dirigido a frecuencias próximas a la de los primeros armónicos de la señal de palabra sintetizada.
\newpage
La Figura 3 es un diagrama bloque esquemático de un potenciador del tono de dos bandas, que constituye un caso especial de la realización ilustrativa de la Figura 2. Más concretamente, la Figura 3 representa las funciones básicas de un posprocesador de dos bandas (véase el posprocesador 108 de la Figura 1). De acuerdo con esta realización ilustrativa, solamente se considera la potenciación del tono como posprocesado, aunque se podrían contemplar otros tipos de posprocesado. En la Figura 3, la señal de palabra descodificada (supuesto que sea la salida 112 del descodificador 107 de fuente de la Figura 1) es suministrada a través de un par de sub- ramas 308 y 309.
En la rama más alta 308, la señal de palabra descodificada 112 es filtrada por un filtro de paso alto 301 para producir la señal de banda más alta 310 (SH). En este ejemplo específico no se usa filtro adaptativo alguno en la rama más alta. En la rama más baja 309, se procesa primero la señal de palabra descodificada 112 a través de un filtro adaptativo 307 que comprende un filtro 302 de paso bajo opcional, un módulo de seguimiento del tono 303, y un potenciador del tono 304. y luego se filtra a través de un filtro de paso bajo 305, para obtener la señal posprocesada 311 (SLEF) de la banda inferior, La señal de palabra descodificada posprocesada 113 se obtiene añadiendo a través de una sumadora 306, las señales posprocesadas de banda inferior 311 y de banda superior 312, desde la salida del filtro de paso bajo 305 y del filtro de paso alto 301, respectivamente. Es de señalar que los filtros de paso bajo 305 y de paso alto 301 podrían ser de muchos tipos diferentes, por ejemplo, de Respuesta de impulso infinito (UR), o de Respuesta de Impulso Finito (FIR). En esta realización ilustrativa se usan filtros FIR de fase lineal.
Por lo tanto, el filtro adaptativo 307 de la Figura 3 está compuesto de dos, y posiblemente de tres, procesadores, el filtro de paso bajo opcional 302 similar al filtro de paso bajo 305, el módulo de seguimiento del tono 303, y el potenciador del tono 304. El filtro de paso bajo 302 puede omitirse, pero se incluirá para permitir la visión del posprocesado de la Figura 3 como una descomposición en dos bandas, seguida de un filtrado específico en cada sub-banda. Después del filtrado de paso bajo opcional (filtro 302) de la señal de palabra descodificada 112 en la banda inferior, se procesa la señal resultante SL a través del potenciador de tono 304.El objeto del potenciador del tono 304 es reducir el ruido entre armónicos en la señal de palabra descodificada. En la presente realización ilustrativa, se consigue el potenciador de tono 304 mediante un filtro lineal variable en el tiempo, que se describe mediante la siguiente ecuación:
1
donde \alpha es un coeficiente que controla la atenuación inter armónicos. T es el período del tono de la señal de entrada x[n], e y[n] es la señal de salida del totalizador del tono. Podría también usarse una ecuación más general, en la que las tomas de filtro en n-T y en n + T podrían ser con diferentes retardos (por ejemplo, n-T1 y n +T2). Los parámetros T y \alpha varían en el tiempo y vienen dados por el módulo de seguimiento del tono 303. Con un valor de \alpha = 1, la ganancia del filtro descrito por la Ecuación (1) es exactamente 0 para las frecuencias 1/(27), 3/(27), 5/(27), etc., es decir en el punto medio entre las frecuencias de los armónicos 1/T, 3/T, 5/T; etc. Cuando \alpha = 0, la salida del filtro es igual a su entrada. La Figura 8 representa la respuesta de frecuencia (en dB) del filtro descrito por la Ecuación (1) para los valores de \alpha = 0,8 y 1, cuando el retardo del tono es (arbitrariamente) ajustado a un valor de T = 10 muestras. El valor de \alpha puede calcularse usando varias aproximaciones. Por ejemplo, la correlación de tono normalizada, que es bien conocida por quienes poseen los conocimientos corrientes de la técnica, puede usarse para controlar el coeficiente \alpha: cuanto más alta sea la correlación del tono normalizada (cuanto más próxima sea a 1) tanto más alto será el valor de \alpha. Una señal periódica x[n] con un período T = 10 muestras, tendría armónicos ala máxima de las respuestas de frecuencia de la Figura 8, es decir, a las frecuencias normalizadas de 0,2, 0,4, etc. Es fácil comprender, de la Figura 8, que el potenciador del tono de la Ecuación (1) atenuaría la energía de la señal solamente entre sus armónicos, y que los componentes armónicos no serían alterados por el filtro. La Figura 8 representa también que la variación del parámetro \alpha permite controlar la cantidad de atenuación inter armónicos proporcionada por el filtro de la Ecuación (1). Obsérvese que la respuesta de frecuencia del filtro de la Ecuación (1), representada en la Figura 8, se extiende a todas las frecuencias del espectro.
Puesto que el período del tono de una señal de palabra varía en el tiempo, el valor T del tono del potenciador del tono 304 tiene que variar en consecuencia. El módulo 303 de seguimiento del tono es responsable de proporcionar el valor de tono apropiado T al potenciador del tono 304,por cada cuadro de la señal de palabra descodificada que haya de ser procesada. Para ese fin, el módulo de seguimiento del tono 303 recibe como entrada no solamente las muestras de palabras descodificadas sino también los parámetros 114 descodificados desde el descodificador 106 de parámetros de la Figura 1.
Puesto que un codificador del habla típico extrae por cada subcuadro de palabra un retardo del tono que denominamos To, y posiblemente un valor fraccionario To_frac usado para interpolar la contribución del libro de claves adaptativas a la resolución de muestras fraccionarias, el módulo de seguimiento del tono 303 puede entonces usar ese retardo del tono descodificado para enfocar el seguimiento del tono en el descodificador. Una posibilidad es la de usar To y To_frac directamente en el potenciador del tono 304, sacando partido del hecho de que el codificador ha efectuado ya el seguimiento del tono. Otra posibilidad, usada en esta realización ilustrativa, es la de volver a calcular el seguimiento del tono en el descodificador enfocando sobre valores de alrededor, y múltiplos o submúltiplos del valor To del tono descodificado. El módulo 303 de seguimiento del tono proporciona entonces un retardo de tono T al potenciador del tono 304, el cual usa ese valor de T en la Ecuación (1) para el presente cuadro de la señal de palabra descodificada. La salida es la señal SLE.
\global\parskip0.880000\baselineskip
La señal de tono potenciado SLE es entonces filtrada en paso bajo a través del filtro 305 para aislar las bajas frecuencias de la señal de tono potenciado SLE y para retirar los componentes de alta frecuencia que surgen cuando se varía en el tiempo el filtro potenciador del tono de la Ecuación (1), de acuerdo con el retardo de tono T, en los límites del cuadro de palabra descodificada. Esto produce la señal posprocesada de banda inferior SLEF, la cual puede ser entonces añadida a la señal de banda superior SH en la sumadora 306.El resultado es la señal de palabra descodificada posprocesada 113, con el ruido inter armónicos reducido en la banda inferior. La banda de frecuencia en la que será aplicada la potenciación del tono depende de la frecuencia de corte del filtro de paso bajo 305 (y opcionalmente del filtro de paso bajo 302).
Las Figuras 6a y 6b presentan un ejemplo de espectro de la señal que ilustra el efecto del posprocesado descrito en la Figura 3. La Figura 6a es el espectro de la señal de entrada 112 del posprocesador 108 de la Figura 1 (señal de palabra descodificada 112 de la Figura 3).En este ejemplo ilustrativo, la señal de entrada está compuesta de 20 armónicos, con la frecuencia fundamental fo = 373 Hz elegida arbitrariamente, con componentes "ruidosos" añadidos a las frecuencias fo/2, 3fo/2 y 5fo/2. Estos tres componentes ruidosos pueden verse entre los armónicos de baja frecuencia de la Figura 6a. La frecuencia de muestreo se supone que es de 16 kHz en este ejemplo. El potenciador del tono de dos bandas representado en la Figura 3 y que se ha descrito en lo que antecede es entonces aplicado a la señal de la Figura 6a.Con una frecuencia de muestreo de 16 kHz, y una señal periódica de la frecuencia fundamental igual a 373 Hz, como en la Figura 6a, el módulo 303 de seguimiento del tono deberá hallar un período T = 16000/373 = 43 muestras. Este es el valor que fue usado para el filtro potenciador del tono de la Ecuación (1), aplicado al potenciador del tono 304 de la Figura 3. Se usó también un valor de \alpha = 0,5. Los filtros 305 de paso bajo y 301 de paso alto, son filtros FIR de fase lineal simétricos con 31 tomas. La frecuencia de corte para este ejemplo se ha elegido de 2000 Hz. Estos valores específicos se dan únicamente a modo de ejemplos ilustrativos.
La señal de palabra descodificada posprocesada 113 en la salida de la sumadora 306 tiene un espectro representado en la Figura 6b.Puede verse que las tres sinusoides inter armónicos de la Figura 6a han sido eliminados por completo, mientras que los armónicos de la señal permanecen prácticamente inalterables. También se hace notar que el efecto del potenciador del tono disminuye a medida que la frecuencia se va aproximando a la frecuencia de corte del filtro de paso bajo (2000 Hz en este ejemplo). Por consiguiente, solamente es afectada la banda inferior por el posprocesado. Esta es una característica clave de esta realización ilustrativa del presente invento. Variando las frecuencias de corte del filtro 202 de paso bajo opcional, del filtro 305 de paso bajo y del filtro 301 de paso alto, es posible controlar hasta qué potenciación del tono de la frecuencia se aplica.
Aplicación al descodificador del habla AMR-WB
El presente invento puede ser aplicado a cualquier señal de palabra sintetizada por un descodificador del habla, o incluso a cualquier señal de palabra corrompida por ruido inter armónicos que haya necesidad de reducir. En esta sección se presentará una forma de ejecución específica, que sirva de ejemplo del presente invento, para una señal de palabra descodificada AMR-WB. El posprocesado se aplica a la señal de palabra sintetizada de banda baja 712 de la Figura 7, es decir, a la salida del descodificador del habla 702, el cual produce una palabra sintetizada a una frecuencia de muestreo de 12,8 kHz.
En la Figura 4 se ha representado el diagrama bloque de un posprocesador del tono cuando la señal de entrada es la señal de palabra sintetizada de banda baja AMR-WB a la frecuencia de muestreo de 12,8 kHz. Más concretamente, el posprocesador presentado en la Figura 4 sustituye a la unidad de muestreo en sentido ascendente 703,la cual comprende los procesadores 704, 705 y 706. El posprocesador del tono dela Figura 4 podría ser aplicado también a la señal de palabra sintetizada muestreada en sentido ascendente de 16 kHz, pero aplicándolo antes del muestreo ascendente reduce el número de operaciones de filtrado en el descodificador, y por consiguiente reduce la complejidad.
La señal de entrada (de palabra sintetizada de banda baja AMR-WB (12,8 kHz)) de la Figura 4 se ha designado como la señal s. En este ejemplo específico, la señal s es la señal de palabra sintetizada de banda baja AMR-WB a la frecuencia de muestreo de 12,8 kHz (salida del procesador 702). El posprocesador del tono de la Figura 4 comprende un módulo 401 de seguimiento del tono para determinar, por cada subcuadro de 5 milisegundos, el retardo del tono T usando los parámetros descodificados recibidos 114 (Figura 1) y la señal de palabra sintetizada s. Los parámetros descodificados usados por el módulo de seguimiento del tono son To, el valor entero del tono para el subcuadro, y To_frac, el valor fraccionario del tono para resolución de la submuestra. El retardo del tono T calculado en el módulo 401 de seguimiento del tono será usado en los siguientes pasos para la potenciación del tono. Sería posible usar directamente los parámetros de tono descodificados recibidos To y To_frac para formar el retardo T usado por el potenciador del tono en el filtro de tono 402. Sin embargo, el módulo 401 de seguimiento del tono es capaz de corregir los múltiplos o submúltiplos del tono, los cuales podrían tener un efecto perjudicial en la potenciación del tono.
Una realización ilustrativa del algoritmo de seguimiento del tono para el módulo 401, es la siguiente (los valores seguidos específicos de umbrales y de tono se dan únicamente a modo de ejemplos):
-
En primer lugar se compara la información de tono descodificada (retardo del tono To) con un valor almacenado del retardo de tono descodificado To_prev del cuadro previo. T_prev puede haber sido modificado por alguno de los siguientes pasos, de acuerdo con el algoritmo de seguimiento del tono. Por ejemplo, si To < 1,16*T_prev, se va entonces al caso 1 que se expone a continuación, de lo contrario, si To > 1,16*T_prev, se establece entonces T_Temp. = To, y se va al caso 2 que se expone a continuación.
\global\parskip1.000000\baselineskip
\global\parskip0.900000\baselineskip
Caso 1:
En primer lugar se calcula la correlación cruzada C2 (producto cruzado) entre el último subcuadro sintetizado y la señal de síntesis, partiendo de muestras To/2 antes del principio del último subcuadro (véase la correlación a la mitad del valor del tono descodificado).
\quad
Luego se calcula la correlación cruzada C3 (producto cruzado) entre el último subcuadro sintetizado y la señal de síntesis, partiendo de To/3 muestras antes del principio del último subcuadro (véase la correlación a un tercio del valor del tono descodificado).
\quad
Después se selecciona el valor máximo entre C2 y C3 y se calcula la correlación normalizada Cn (versión normalizada de C2 ó de C3) para el correspondiente submúltiplo de To (para To/2 si C2 > C3, y para To/3 si C3 > C2). Se llama T_nuevo al submúltiplo del tono correspondiente a la correlación normalizada más alta.
\quad
Si Cn > 0,95 (correlación normalizada fuerte), el nuevo período del tono es T_nuevo (en vez de To). Se da salida del valor T = T_nuevo del módulo de seguimiento del tono 401. Se guarda T_prev = T para el siguiente subcuadro de seguimiento del tono y se sale del módulo 401 de seguimiento del tono.
\quad
Si 0,7 < Cn < 0,95, se guarda entonces T_Temp. = To/2 o To/3, de acuerdo con C2 o C3, antes definidos, para comparaciones en el caso 2 que sigue. De lo contrario, si Cn < 0,7, se guarda T_Temp. = To.
Caso 2:
Se calculan todos los posibles valores de la relación Tn = [T_templn], donde [x] significa la parte entera de x, y n = 1, 2, 3, etc., es un número entero.
\quad
Se calculan todas las correlaciones cruzadas Cn en los submúltiplos del retardo del tono Tn. Se retiene Cn_max como la máxima correlación cruzada entre todos los Cn. Si n > 1 y Cn > 0,8, salida de Tn como la salida T del período del tono de la unidad 401 de seguimiento del tono. De lo contrario, salida T1 = T_Temp.. Aquí, el valor de T_Temp. dependerá de los cálculos hechos en el Caso 1 anterior.
\vskip1.000000\baselineskip
Es de hacer notar que el anterior ejemplo de módulo 401 de seguimiento del tono se da únicamente con fines ilustrativos. Se podría poner en práctica cualquier otro método o dispositivo de seguimiento del tono en el módulo 401 (o en el 303 y en el 502) para asegurar un mejor seguimiento del tono en el descodificador.
Por lo tanto, la salida del módulo de seguimiento del tono es el período T a ser usado en el filtro de tono 402 el cual, en esta realización preferida, es descrito por el filtro de la Ecuación (1). De nuevo, un valor de \alpha = 0 implica ausencia de filtrado (la salida del filtro de tono 402 es igual a su entrada), y un valor de \alpha = 1 corresponde a la máxima cantidad de potenciación del tono.
Una vez que se ha determinado la señal potenciada SE (Figura 4), se combina con la señal de entrada s, de tal modo que, como en la Figura 3, solamente se somete a la potenciación del tono la banda inferior. En la Figura 4, se usa una solución modificada comparada con la de la Figura 3. Puesto que el posprocesador del tono de la Figura 4 reemplaza a la unidad 703 de muestreo en sentido ascendente de la Figura 7, los filtros de sub-banda 301 y 305 de la Figura 3 se combinan con el filtro de interpolación 705 de la Figura 7,para minimizar el número de operaciones de filtrado, y el retardo del filtrado. Más concretamente, los filtros 404 y 407 de la Figura 4 actúan ambos como filtros de paso de banda (para separar las bandas de frecuencia) y como filtros de interpolación (para el muestreo en sentido ascendente desde 12,8 a 16 kHz). Estos filtros 404 y 407 podrían ser además diseñados de tal modo que el filtro de paso d banda 407 tenga limitaciones relajadas en su banda de tope de baja frecuencia (es decir, que no tiene que atenuar por completo la señal a bajas frecuencias). Esto se podría conseguir usando limitaciones de diseño similares a las representadas en la Figura 9. La Figura 9a es un ejemplo de respuesta de frecuencia para el filtro de paso bajo 404. Es de hacer notar que la ganancia de corriente continua de este filtro es de 5 (en vez de 1), ya que este filtro actúa también como filtro de interpolación, con una relación de interpolación de 5/4, lo que implica que la ganancia del filtro debe ser de 5 a 0 Hz. Además, la Figura 9 representa la respuesta de frecuencia del filtro de paso de banda 407, haciendo este filtro 407 complementario, en la banda baja, del filtro de paso de banda 404. En este ejemplo, el filtro 407 es un filtro de paso de banda, no un filtro de paso alto como el filtro 301, ya que debe actuar tanto como filtro de paso alto (tal como el filtro 301), que como filtro e paso bajo (tal como el filtro de interpolación 705). Con referencia de nuevo a la Figura 9, vemos que los filtros de paso bajo y de paso de banda 404 y 407 son complementarios cuando se consideran en paralelo, como en la Figura 4. Su respuesta de frecuencia combinada (cuando se usan en paralelo) se ha representado en la Figura 9c.
Para completar lo expuesto, se dan a continuación las tablas de coeficientes de filtros basados en esta realización ilustrativa de los filtros 404 y 407. Por supuesto, estas tablas de coeficientes de filtro se dan únicamente a modo de ejemplo. Ha de quedar entendido que estos filtros pueden ser sustituidos sin modificar el alcance, ni el espíritu, ni la naturaleza del presente invento.
\global\parskip1.000000\baselineskip
TABLA 1 Coeficientes de paso bajo del filtro 404
2
TABLA 2 Coeficientes de paso de banda del filtro 407
3
La salida del filtro de tono 402 de la Figura 4 se denomina SE. Para que sea recombinada con la señal de la rama Superior, se muestrea primero en sentido ascendente mediante el procesador 403, el filtro de paso bajo 404 y el procesador 405, y se añade a través de una sumadora 409 a la señal 410 de la rama Superior muestreada en sentido ascendente. La operación de muestreo en sentido ascendente en la rama Superior se efectúa con el procesador 406, el filtro de paso de banda 407 y el procesador 408.
Forma de realización alternativa del potenciador de tono propuesto
En la Figura 5 se ha representado una forma de realización alternativa de un potenciador de tono de dos bandas de acuerdo con una realización ilustrativa del presente invento. Es de hacer notar que la rama Superior de la Figura 5 no procesa la señal de entrada en absoluto. Esto significa que, en este caso particular, los filtros de la rama Superior de la Figura 2 (filtros adaptativos 201a y 201b) tienen características de entrada-salida triviales (la salida es igual a la entrada). En la rama inferior, la señal de entrada (señal a ser potenciada) es procesada primero a través de un filtro de paso bajo opcional 501, y luego a través de un filtro lineal denominado filtro inter armónicos 503, definido por la siguiente ecuación:
4
es de hacer notar el signo negativo delante del segundo término del lado de la derecha de la ecuación, comparado con el de la Ecuación (1). Es también de hacer notar que el factor de potenciación no ha sido incluido en la Ecuación (2), sino que se ha introducido por medio de una ganancia adaptativa por el procesador 504 dela Figura 5. El filtro 503 inter armónicos, descrito por la Ecuación (2), tiene una respuesta de frecuencia tal que elimina por completo los armónicos de una señal periódica que tenga un período de T muestras, y de tal modo que una sinusoide a una frecuencia que esté exactamente entre dos armónicos pasa a través del filtro sin cambio de amplitud pero con una inversión de fase de exactamente 180 grados (lo mismo que una inversión de signo). Por ejemplo, en la figura se ha representado la respuesta de frecuencia del filtro descrito por la Ecuación (2) cuando se elige el período (arbitrariamente) para T = 10 muestras. Una señal periódica con un período T = 10 muestras presentaría armónicos a las frecuencias normalizadas de 0,2, 0,4, 0,6, etc., y en la Figura 16 se ha representado que el filtro de la Ecuación (2), con T = 10 muestras, eliminaría por completo esos armónicos. Por otra parte, las frecuencias en el punto medio exacto entre los armónicos aparecerían en la salida del filtro con la misma amplitud, pero con un cambio de fase de 1800. Esa es la razón por la que el filtro descrito por la Ecuación (2) y usado como filtro 503 se denomina filtro inter armónicos.
El valor T del tono para uso en el filtro 503 inter armónicos se obtiene por adaptación mediante el módulo 502 de seguimiento del tono. El módulo 502 de seguimiento del tono opera sobre la señal de palabra descodificada y los parámetros descodificados, en forma similar a como lo hacía por los métodos anteriormente descritos representados en las Figuras 3 y 4.
Entonces, la salida 507 del filtro 503 inter armónicos es una señal formada esencialmente por la parte inter armónicos de la señal descodificada de entrada 112 con un cambio de fase de 1800 en el punto medio entre los armónicos de la señal. Entonces, se multiplica la salida 507 del filtro 503 inter armónicos por una ganancia \alpha (procesador 504) y a continuación se somete a un filtrado de paso bajo (filtro 505) para obtener la modificación de la banda de baja frecuencia que se aplica a la señal de palabra descodificada de entrada 112 de la Figura 5, para obtener la señal descodificada posprocesada (señal potenciada) 509.El coeficiente \alpha en el procesador 504 controla la cantidad de tono o la potenciación inter armónicos. Cuanto más por encima esté \alpha de 1, tanto más alta será la potenciación. Cuando \alpha sea igual a 0, no se obtiene potenciación alguna, es decir, que la salida de la sumadora 506 es exactamente igual a la señal de entrada (de palabra descodificada en la Figura 5). Se puede calcular el valor de \alpha usando varias soluciones. Por ejemplo, se puede usar la correlación de tono normalizada, que es bien conocida por quienes poseen los conocimientos corrientes de la técnica, para controlar el coeficiente \alpha: cuanto más alta sea la correlación de tono normalizada (cuanto más próxima esté a 1), tanto más alto será el valor de \alpha.
La señal de palabra descodificada posprocesada final 509 se obtiene añadiendo por medio de una sumadora 506 la salida del filtro de paso bajo 505 a la señal de entrada (señal de palabra descodificada 112 de la Figura 5). Dependiendo de la frecuencia de corte del filtro de paso bajo 505, el impacto de ese posprocesado quedará limitado a las bajas frecuencias de la señal de entrada 112, hasta una frecuencia dada. Las frecuencias más altas no serán afectadas efectivamente por el posprocesado.
Alternativa de una banda usando un filtro de paso alto de adaptación
Una última alternativa para poner en práctica el posprocesado sub-banda para potenciar la señal de síntesis a bajas frecuencias, es la de usar un filtro de paso alto adaptativo, cuya frecuencia de corte se varíe de acuerdo con el valor del tono de la señal de entrada. Concretamente, y sin hacer referencia a dibujo alguno, la potenciación de baja frecuencia usando esta realización ilustrativa se efectuaría, en cada cuadro de la señal de entrada, de acuerdo con los siguientes pasos:
1.
Determinar el valor del tono de la señal de entrada (período de la señal) usando la señal de entrada y posiblemente los parámetros descodificados (salida del descodificador del habla 105) si se posprocesa una señal de palabra descodificada; esta es una operación similar a la operación de seguimiento del tono de los módulos 303, 401 y 502.
2.
Calcular los coeficientes del filtro de paso alto de tal modo que la frecuencia de corte esté por debajo de, pero próxima a, la frecuencia fundamental de la señal de entrada; como alternativa, interpolar entre las frecuencias de corte conocidas de filtros de paso alto almacenadas (la interpolación puede hacerse en el dominio de derivaciones del filtro, o bien en el dominio de polo-cero), o bien en algún otro dominio transformado, tal como el dominio de las LSF (Frecuencias Espectrales de Línea) de ISF (Frecuencias Espectrales de Inmitancia).
3.
Filtrar el cuadro de señales de entrada con el filtro de paso alto calculado, para obtener la señal posprocesada para ese cuadro.
Es de señalar que la presente realización ilustrativa del presente invento es equivalente a usar solamente una rama de procesado en la Figura 2, y a definir el filtro adaptativo de esa rama como un filtro de paso alto de tono controlado. El posprocesado que se consigue con esta solución afectará únicamente al rango de frecuencias por debajo del primer armónico, y no a la energía inter armónicos por encima del primer armónico.
Aunque se ha descrito el presente invento en la descripción hecha en lo que antecede con referencia a realizaciones ilustrativas del mismo, estas realizaciones pueden ser modificadas a voluntad, dentro del alcance de las reivindicaciones que se acompañan, sin desviarse de la naturaleza del presente invento. Por ejemplo, aunque las realizaciones ilustrativas se han descrito en relación con una señal de palabra descodificada, quienes posean los conocimientos corrientes de la técnica apreciarán que los conceptos del presente invento pueden ser aplicados a otros tipos de señales descodificadas, y en particular, aunque no exclusivamente, a otros tipos de señales de sonido descodificadas.

Claims (63)

1. Un método para el posprocesado de una señal de sonido descodificada (112) con objeto de potenciar una calidad percibida de dicha señal de sonido descodificada (112), que comprende:
dividir la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia: y
aplicar el posprocesado a por lo menos una se las señales de la sub-banda de frecuencia;
caracterizado porque para potenciar el tono, se aplica el posprocesado a solamente una sub-banda inferior de las señales de sub-banda de frecuencia.
2. Un método de posprocesado según la reivindicación 1, que comprende además sumar las señales de sub-banda de frecuencia, después del posprocesado de dicha al menos una señal de sub-banda, para producir una señal de sonido descodificada posprocesada de salida.
3. Un método de posprocesado según la reivindicación 1, en el que la aplicación del posprocesado a por lo menos una de las señales de sub-banda de frecuencia comprende pasar por un filtro adaptativo dicha al menos una señal de sub-banda de frecuencia.
4. Un método de posprocesado según la reivindicación 1, en el que la división de la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia comprende filtrar la sub-banda de la señal de sonido descodificada (112) para producir la pluralidad de señales de sub-banda de frecuencia.
5. Un método de posprocesado según la reivindicación 1, en el que, para dicha al menos una de las señales de sub-banda de frecuencia:
la aplicación del posprocesado comprende pasar por un filtro adaptativo la señal de sonido descodificada (112), y
la división de la señal de sonido descodificada (112) comprende filtrar la sub-banda de la señal de sonido descodificada pasada por el filtro adaptativo.
6. Un método de posprocesado según la reivindicación 1, en el que:
la división de la señal de sonido descodificada en una pluralidad de señales de sub-banda de frecuencia comprende:
-
un filtrado de paso alto de la señal de sonido descodificada (112) para producir una señal de banda alta de frecuencia (310); y
-
un primer filtrado de paso bajo de la señal de sonido descodificada (112) para producir una señal de banda baja de frecuencia (311); y
la aplicación del posprocesado a por lo menos una de las señales de sub-banda de frecuencia comprende:
-
aplicar el posprocesado a la señal de sonido descodificada (112) antes del primer filtrado de paso bajo de la señal de sonido descodificada (112) para producir la señal de banda baja de frecuencia (311).
7. Un método de posprocesado según la reivindicación 6, en el que la aplicación del posprocesado a la señal de sonido descodificada (112) comprende potenciar el tono de dicha señal de sonido descodificada (112) para reducir un ruido inter armónicos en la señal de sonido descodificada (112).
8. Un método de posprocesado según la reivindicación 7, en el que la aplicación del posprocesado a la señal de sonido descodificada (112) comprende además un segundo filtrado de paso bajo de la señal de sonido descodificada (112) antes de potenciar el tono de dicha señal de sonido descodificada (112).
9. Un método de posprocesado según la reivindicación 6, que comprende además sumar las señales de banda alta (310) y de banda baja (311) de frecuencia para producir una señal de sonido descodificada posprocesada de salida.
10. Un método de posprocesado según la reivindicación 1, en el que:
la división de la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia comprende:
-
filtrado de paso de banda de la señal de sonido descodificada (112) para producir una señal de banda superior de frecuencia (410); y
-
filtrado de paso bajo de la señal de sonido descodificada (112) para producir una señal de banda inferior de frecuencia; y
la aplicación del posprocesado a por lo menos una de las señales de sub-banda de frecuencia, comprende:
aplicar el posprocesado a la señal de sonido descodificada (112) antes del filtrado de paso bajo de la señal de sonido descodificada (112) para producir la señal de banda inferior de frecuencia.
11. Un método de posprocesado según la reivindicación 10, en el que la aplicación del posprocesado a la señal de banda inferior de frecuencia comprende potenciar el tono de la señal de sonido descodificada (112) antes del filtrado de paso bajo de la señal de sonido descodificada (112).
12. Un método de posprocesado según la reivindicación 10, que comprende además sumar las señales de banda superior y de banda inferior de frecuencia para producir una señal de sonido descodificada posprocesada de salida.
13. Un método de posprocesado según la reivindicación 1, en el que:
la división de la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia, comprende:
-
filtrado de paso bajo de la señal de sonido descodificada (112) para producir una señal de banda baja de frecuencia; y
la aplicación del posprocesado a por lo menos una de las señales de sub-banda de frecuencia comprende:
-
aplicar el posprocesado a la señal de banda baja de frecuencia.
14. Un método de posprocesado según la reivindicación 13, en el que la aplicación del posprocesado a la señal de banda baja de frecuencia comprende procesar la señal de sonido descodificada (112) a través de un filtro inter armónicos (5503) para la atenuación inter armónicos de la señal de sonido descodificada (112).
15. Un método de posprocesado según la reivindicación 14, en el que la aplicación del posprocesado a la señal de banda baja de frecuencia comprende multiplicar la señal de sonido descodificada filtrada inter armónicos (507) mediante una ganancia (\alpha) de potenciación del tono adaptativa.
16. Un método de posprocesado según la reivindicación 14, que comprende además el filtrado de paso bajo de la señal de sonido descodificada (112) antes de procesar la señal de sonido descodificada (112) a través del filtro inter armónicos (503).
17. Un método de posprocesado según la reivindicación 13, que comprende además sumar la señal de sonido descodificada (112) y la señal de banda baja de frecuencia para producir una señal de sonido descodificada posprocesada de salida (509).
18. Un método de posprocesado según la reivindicación 13, en el que la aplicación del posprocesado a la señal de banda baja de frecuencia comprende procesar la señal de sonido descodificada (112) a través de un filtro inter armónicos (503) que tiene la siguiente función de transferencia:
5
para la atenuación inter armónicos de la señal de sonido descodificada, en donde x[n] es la señal de sonido descodificada, y[n] es la señal de sonido descodificada filtrada inter armónicos en una sub-banda dada, y T es un retardo del tono de la señal de sonido descodificada.
19. Un método de posprocesado según la reivindicación 18, que comprende además sumar la señal de sonido descodificada no procesada (112) y la señal de sub-banda baja de frecuencia filtrada inter armónicos (508) para producir una señal de sonido descodificada posprocesada de salida (509).
20. Un método de posprocesado según la reivindicación 1, en el que la aplicación del posprocesado a por lo menos una de las señales de sub-banda de frecuencia comprende potenciar el tono de la señal de sonido descodificada (112) usando la siguiente ecuación:
6
donde x[n] es la señal de sonido descodificada, y[n] es la señal de sonido descodificada de tono potenciado en una sub-banda descodificada, T es un retardo del tono de la señal de sonido descodificada, y \alpha es un coeficiente que varía entre 0 1 1, para controlar la cantidad de atenuación inter armónicos de la señal de sonido descodificada.
21. Un método de posprocesado según la reivindicación 20, que comprende recibir el retardo T del tono a través de una corriente de bits.
22. Un método de posprocesado según la reivindicación 20, que comprende descodificar el retardo T del tono a partir de una corriente de bits codificada recibida.
23. Un método de posprocesado según la reivindicación 20, que comprende calcular el retardo T del tono en respuesta a la señal de sonido descodificada (112) para un seguimiento mejorado del tono.
24. Un método de posprocesado según la reivindicación 1, en el que, durante la codificación, se muestrea en sentido descendente la señal de sonido desde una frecuencia de muestreo superior hasta una frecuencia de muestreo inferior, y en que la división de la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia comprende muestrear en sentido ascendente la señal de sonido descodificada desde la frecuencia de muestreo inferior a la frecuencia de muestreo superior.
25. Un método de posprocesado según la reivindicación 24, en el que la división de la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia comprende el filtrado de sub-banda de la señal de sonido descodificada (112), y en el que el muestreo en sentido ascendente de la señal de sonido descodificada (112) desde la frecuencia de muestreo inferior a la frecuencia de muestreo superior se combina en el filtrado sub-banda.
26. Un método de posprocesado según la reivindicación 24, que comprende:
filtrar en paso de banda la señal de sonido descodificada (112) para producir una señal de banda de frecuencia superior, siendo combinada dicho filtrado de paso de banda de la señal de sonido descodificada (112) con el muestreo en sentido ascendente de la señal de sonido descodificada (112), desde la frecuencia de muestreo inferior a la frecuencia de muestreo superior; y
posprocesar la señal de sonido descodificada (112) y filtrar en paso bajo la señal de sonido descodificada (112) posprocesada, para producir una señal de banda de frecuencia inferior, SINDO combinado dicho filtrado de paso bajo de la señal de sonido descodificada posprocesada con el muestreo en sentido ascendente de la señal de sonido descodificada posprocesada desde la frecuencia de muestreo inferior a la frecuencia de muestreo superior.
27. Un método de posprocesado según la reivindicación 26, que comprende además sumar la señal de banda de frecuencia superior a la señal de banda de frecuencia inferior para formar una señal de sonido descodificada posprocesada y muestreada en sentido ascendente de salida.
28. Un método de posprocesado según la reivindicación 26, en el que el posprocesado de la señal de sonido descodificada (112) comprende potenciar el tono de la señal de sonido descodificada (112) para reducir un ruido inter armónicos en la señal de sonido descodificada (112).
29. Un método de posprocesado según la reivindicación 28, en el que la potenciación del tono de la señal de sonido descodificada (112) comprende procesar la señal de sonido descodificada (112) por medio dela siguiente ecuación:
7
donde s[n] es la señal de sonido descodificada, y[n] es la señal de sonido descodificada potenciada en tono en una sub-banda dada, T es un retardo del tono de la señal de sonido descodificada, y \alpha es un coeficiente que varía entre 0 y 1 para controlar una cantidad de atenuación inter armónicos de la señal de sonido descodificada.
30. Un método de posprocesado según la reivindicación 1, en el que:
la división de la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia comprende dividir la señal de sonido descodificada (112) en una señal de banda de frecuencia superior y una señal de banda de frecuencia inferior; y
la aplicación del posprocesado a por lo menos una de las señales de sub-banda de frecuencia comprende el posprocesado de la señal de banda de frecuencia inferior.
\newpage
31. Un método de posprocesado según la reivindicación 1, en el que la aplicación del posprocesado a dicha al menos una de las señales de sub-banda de frecuencia comprende:
determinar un valor del tono de la señal de sonido descodificada;
calcular, en relación con el valor determinado del tono, un filtro de paso alto con una frecuencia de corte por debajo de una frecuencia fundamental de la señal de sonido descodificada; y
procesar la señal de sonido descodificada a través del filtro de paso alto calculado.
32. Un dispositivo para posprocesado (108) de una señal de sonido descodificada (112) con objeto de potenciar una calidad percibida de dicha señal de sonido descodificada (112), que comprende:
medios para dividir (202a a 202N; 301, 305; 407, 404; 505) la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia; y
medios para posprocesar (201 a 201 N; 307; 401, 402; 503, 504, 502) al menos una de las señales de sub-banda de frecuencia;
medios para potenciar el tono de una señal de sub-banda; y
caracterizado porque los medios para posprocesar están adaptados para suministrar solamente una sub-banda inferior de las señales de sub-banda de frecuencia a los medios de potenciación del tono.
33. Un dispositivo para posprocesar (108) según la reivindicación 32, que comprende además medios de sumadora (203; 306; 409; 506) para sumar las señales de sub-banda de frecuencia, después de posprocesar dichas al menos una señal de sub-banda de frecuencia para producir una señal de sonido descodificada posprocesada de salida (113).
34. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que los medios para posprocesar comprenden medios de filtro adaptativo (201 a 201 N; 307) a los que se suministra la señal de sonido descodificada (112).
35. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que los medios de división comprenden medios de filtro de sub-banda (202a a 202N; 301, 305; 407, 404; 505) a los que se suministra la señal de sonido descodificada (112).
36. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que, para dicha al menos una señal de sub-banda de frecuencia:
los medios para posprocesar comprenden un filtro adaptativo (201 a; 307), a los que se suministra la señal de sonido descodificada (112) para producir una señal de sonido descodificada sometida a filtrado adaptativo (204 a; SLE); y
los medios de división comprenden un filtro de sub-banda (202a) al que se suministra la señal de sonido descodificada sometida a filtrado adaptativo (204 A; SLE).
37. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que:
los medios de división comprenden:
-
un filtro de paso alto (301) al que se suministra la señal de sonido descodificada (112) para producir una señal de banda de frecuencia alta (310); y
-
un primer filtro de paso bajo (305) al que se suministra la señal de sonido descodificada (112) para producir una señal de banda de banda baja (311); y
\vskip1.000000\baselineskip
los medios para posprocesado comprenden:
-
un posprocesador (307) para el posprocesado de la señal de sonido descodificada (112) antes del filtrado de paso bajo de la señal de sonido descodificada (112) a través del primer filtro de paso bajo (305).
38. Un dispositivo para posprocesar (108) según la reivindicación 37, en el que el posprocesador (307) comprende un potenciador del tono (304) al que se suministra la señal de sonido descodificada (112) para producir una señal de sonido descodificada de tono potenciad (SLE).
39. Un dispositivo para posprocesar (108) según la reivindicación 38, en el que el posprocesador (307) comprende además un segundo filtro de paso bajo (302) al que se suministra la señal de sonido descodificada (112) para producir una señal de sonido descodificada sometida a filtrado de paso bajo (SL) que se suministra al potenciador del tono (304).
40. Un dispositivo para posprocesar (108) según la reivindicación 37, que comprende además una sumadora (306) para sumar las señales de banda de frecuencia alta (310) y de banda de banda baja (311) para producir una señal de sonido descodificada posprocesada de salida (113).
41. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que:
los medios de división comprenden:
-
un filtro de paso de banda (407) al que se suministra la señal de sonido descodificada para producir una señal de banda de frecuencia superior (410); y
-
un filtro de paso bajo (404) al que se suministra la señal de sonido descodificada para producir una señal de banda de frecuencia inferior; y
los medios para posprocesar comprenden:
-
un posprocesador (402; 401) para el posprocesado de la señal de sonido descodificada, antes del filtrado de paso bajo de la señal de sonido descodificada a través del filtro de paso bajo (404),para producir la señal de banda de frecuencia inferior.
42. Un dispositivo para posprocesar (108) según la reivindicación 41, en el que el posprocesador comprende un filtro de tono (402) al que se suministra la señal de sonido descodificada (s) para producir una señal de sonido descodificada potenciada en tono (SE) suministrada al filtro de paso bajo (404).
43. Un dispositivo para posprocesar (108) según la reivindicación 41, que comprende además una sumadora (409) para sumar las señales de banda de frecuencia superior y de banda de frecuencia inferior para producir una señal de sonido descodificada posprocesada de salida.
44. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que:
los medios de división comprenden:
-
un filtro de paso bajo (505) al que se suministra la señal de sonido descodificada (112) para producir una señal de banda de banda baja (508); y
los medios para posprocesar comprenden:
-
un posprocesador (503; 504; 502) para el posprocesado de la señal de sonido descodificada (112) para producir una señal de sonido descodificada posprocesada suministrada al filtro de paso bajo (505).
45. Un dispositivo para posprocesar (108) según la reivindicación 44, en el que el posprocesador (503; 504; 502) comprende un filtro inter armónicos (503) al que se suministra la señal de sonido descodificada (112) para producir una señal de sonido descodificada atenuada, inter armónicos, (507).
46. Un dispositivo para posprocesar (108) según la reivindicación 45, en el que el posprocesador (503; 504; 502) comprende un multiplicador (504) para multiplicar la señal de sonido descodificada (507) atenuada, inter armónicos, por una ganancia de potenciación del tono adaptativa (\alpha).
47. Un dispositivo para posprocesar (108) según la reivindicación 45, que comprende además un filtro de paso bajo (501) al que se suministra la señal de sonido descodificada (112) para producir una señal de sonido descodificada sometida a filtrado de paso bajo (SLP) suministrada al filtro inter armónicos (503).
48. Un dispositivo para posprocesar (108) según la reivindicación 44, que comprende además una sumadora (506) para sumar la señal de sonido descodificada (112) y la señal de banda de banda baja (508) para producir una señal de sonido descodificada posprocesada de salida (509).
49. Un dispositivo para posprocesado (108) según la reivindicación 44, en el que el posprocesador (503; 504; 502) comprende un filtro inter armónicos (503) que tiene la siguiente función de transferencia:
\vskip1.000000\baselineskip
8
para atenuar los inter armónicos de la señal de sonido descodificada, donde x[n] es la señal de sonido descodificada, y[n] es la señal de sonido descodificada filtrada de inter armónicos en una sub-banda dada, y T es un retardo del tono de la señal de sonido descodificada.
50. Un dispositivo de posprocesado (108) según la reivindicación 49, que comprende además una sumadora (506) para sumar la señal de sonido descodificada (112) no procesada y la señal de banda de banda baja sometida a filtrado de inter armónicos (508) para producir una señal de sonido descodificada posprocesada de salida (509).
51. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que los medios para posprocesar (307) comprenden un potenciador del tono (304) de la señal de sonido descodificada (112), usando la siguiente ecua-
ción:
9
donde x[n] es la señal de sonido descodificada, y[n] es la señal de sonido descodificada potenciada en tono en una sub-banda dada, T es un retardo del tono de la señal de sonido descodificada, y \alpha es un coeficiente que varía entre 0 y 1 para controlar la cantidad de atenuación de inter armónicos de la señal de sonido descodificada (112).
52. Un dispositivo para posprocesar (108) según la reivindicación 51, que comprende medios para recibir el retardo T del tono a través de una corriente de bits.
53. Un dispositivo para posprocesar (108) según la reivindicación 51, que comprende medios para descodificar el retardo T del tono, a partir de una corriente de bits codificada recibida.
54. Un dispositivo para posprocesar (108) según la reivindicación 51, que comprende medios para calcular el retardo T del tono en respuesta a la señal de sonido descodificada para un seguimiento mejorado del tono.
55. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que, durante la codificación, la señal de sonido es muestreada en sentido descendente desde una frecuencia de muestreo superior a una frecuencia de muestreo inferior, y en el que los medios de dividir comprenden medios para muestreo en sentido ascendente (403, 404, 405; 406, 407, 408) la señal de sonido descodificada desde la frecuencia de muestreo inferior a la frecuencia de muestreo superior.
56. Un dispositivo para posprocesar (108) según la reivindicación 55, en el que los medios de dividir comprenden medios de filtro de sub-banda(407), a los que se suministra la señal de sonido descodificada, y en el que los medios de muestreo en sentido ascendente (406) están combinados con los medios de filtro de sub-banda (407).
57. Un dispositivo para posprocesar (108) según la reivindicación 55, en el que:
-
los medios para posprocesar comprenden:
medios para posprocesar (402; 401) de la señal de sonido descodificada; y
-
los medios de dividir comprenden:
un filtro de paso de banda (407) al que se suministra la señal de sonido descodificada para producir una señal de banda de frecuencia superior, estando dicho filtro de paso de banda (407) combinado con los medios de muestreo en sentido ascendente (406, 407, 408); y un filtro de paso bajo (404) al que se suministra la señal de sonido descodificada posprocesada para producir una señal de banda de frecuencia inferior, estando dicho filtro de paso de banda (404) combinado con los medios de muestreo en sentido ascendente (403, 404, 405).
\vskip1.000000\baselineskip
58. Un dispositivo para posprocesar (108) según la reivindicación 57, que comprende además una sumadora (409) para sumar la señal de banda de frecuencia superior (410) con la señal de banda de frecuencia inferior para formar una señal de sonido descodificada posprocesada de salida y muestreada en sentido ascendente.
59. Un dispositivo para posprocesar (108) según la reivindicación 57, en el que los medios para posprocesar de la señal de sonido descodificada comprenden medios para potenciación del tono (402) de la señal de sonido descodificada, para reducir el ruido inter armónicos en la señal de sonido descodificada.
60. Un dispositivo para posprocesar (108) según la reivindicación 59, en el que los medios para potenciación del tono (402) comprenden medios para procesar la señal de sonido descodificada por medio de la siguiente ecuación:
10
donde x[n] es la señal de sonido descodificada, y[n] es la señal de sonido descodificada potenciada en tono en una sub-banda dada, T es un retardo del tono de la señal de sonido descodificada, y \alpha es un coeficiente que varía entre 0 y 1,para controlar la cantidad de atenuación inter armónicos de la señal de sonido descodificada.
61. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que:
los medios de dividir comprenden medios para dividir la señal de sonido descodificada en una señal de banda de frecuencia superior (711) y una señal de banda inferior de frecuencia (713); y
los medios para posprocesar (703) comprenden medios para posprocesar la señal de banda de frecuencia inferior.
62. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que los medios par posprocesar comprenden:
medios (303; 401; 502) para determinar un valor del tono de la señal de sonido descodificada;
medios para calcular, con relación al valor determinado del tono, un filtro de paso alto con una frecuencia de corte por debajo de una frecuencia fundamental de la señal de sonido descodificada; y
medios para procesar la señal de sonido descodificada (112) a través del filtro de paso alto calculado.
63. Un descodificador de la señal de sonido (105) que comprende:
una entrada para recibir una señal de sonido codificada (110);
un descodificador de parámetros (108) al que se suministra la señal de sonido codificada (110) para descodificar los parámetros de codificación de la señal de sonido;
un descodificador de la señal de sonido (107) al que se suministran los parámetros de codificación de la señal de sonido descodificada para producir una señal de sonido descodificada (112); y
un dispositivo para posprocesar (108) según cualquiera de las reivindicaciones 32 a 62,para posprocesar la señal de sonido descodificada (112) con objeto de potenciar una calidad percibida de dicha señal de sonido descodificada (112).
ES03727092T 2002-05-31 2003-05-30 Metodo y dispositivo para la potenciacion del tono del habla descodificado. Expired - Lifetime ES2309315T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA2388352 2002-05-31
CA002388352A CA2388352A1 (en) 2002-05-31 2002-05-31 A method and device for frequency-selective pitch enhancement of synthesized speed

Publications (1)

Publication Number Publication Date
ES2309315T3 true ES2309315T3 (es) 2008-12-16

Family

ID=29589086

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03727092T Expired - Lifetime ES2309315T3 (es) 2002-05-31 2003-05-30 Metodo y dispositivo para la potenciacion del tono del habla descodificado.

Country Status (21)

Country Link
US (1) US7529660B2 (es)
EP (1) EP1509906B1 (es)
JP (1) JP4842538B2 (es)
KR (1) KR101039343B1 (es)
CN (1) CN100365706C (es)
AT (1) ATE399361T1 (es)
AU (1) AU2003233722B2 (es)
BR (2) BR0311314A (es)
CA (2) CA2388352A1 (es)
CY (1) CY1110439T1 (es)
DE (1) DE60321786D1 (es)
DK (1) DK1509906T3 (es)
ES (1) ES2309315T3 (es)
MX (1) MXPA04011845A (es)
MY (1) MY140905A (es)
NO (1) NO332045B1 (es)
NZ (1) NZ536237A (es)
PT (1) PT1509906E (es)
RU (1) RU2327230C2 (es)
WO (1) WO2003102923A2 (es)
ZA (1) ZA200409647B (es)

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6315985B1 (en) * 1999-06-18 2001-11-13 3M Innovative Properties Company C-17/21 OH 20-ketosteroid solution aerosol products with enhanced chemical stability
JP4380174B2 (ja) * 2003-02-27 2009-12-09 沖電気工業株式会社 帯域補正装置
US7619995B1 (en) * 2003-07-18 2009-11-17 Nortel Networks Limited Transcoders and mixers for voice-over-IP conferencing
FR2861491B1 (fr) * 2003-10-24 2006-01-06 Thales Sa Procede de selection d'unites de synthese
DE102004007184B3 (de) * 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007191B3 (de) * 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
EP1744139B1 (en) * 2004-05-14 2015-11-11 Panasonic Intellectual Property Corporation of America Decoding apparatus and method thereof
US8463602B2 (en) * 2004-05-19 2013-06-11 Panasonic Corporation Encoding device, decoding device, and method thereof
CN101006495A (zh) * 2004-08-31 2007-07-25 松下电器产业株式会社 语音编码装置、语音解码装置、通信装置以及语音编码方法
JP4407538B2 (ja) * 2005-03-03 2010-02-03 ヤマハ株式会社 マイクロフォンアレー用信号処理装置およびマイクロフォンアレーシステム
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
US8346546B2 (en) * 2006-08-15 2013-01-01 Broadcom Corporation Packet loss concealment based on forced waveform alignment after packet loss
US20100049512A1 (en) * 2006-12-15 2010-02-25 Panasonic Corporation Encoding device and encoding method
US8036886B2 (en) * 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
WO2008081920A1 (ja) * 2007-01-05 2008-07-10 Kyushu University, National University Corporation 音声強調処理装置
JP5046233B2 (ja) * 2007-01-05 2012-10-10 国立大学法人九州大学 音声強調処理装置
CN101622668B (zh) * 2007-03-02 2012-05-30 艾利森电话股份有限公司 电信网络中的方法和装置
CN101622666B (zh) * 2007-03-02 2012-08-15 艾利森电话股份有限公司 非因果后置滤波器
JP5255575B2 (ja) * 2007-03-02 2013-08-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) レイヤード・コーデックのためのポストフィルタ
CN101266797B (zh) * 2007-03-16 2011-06-01 展讯通信(上海)有限公司 语音信号后处理滤波方法
ES2598113T3 (es) * 2007-06-27 2017-01-25 Telefonaktiebolaget Lm Ericsson (Publ) Método y disposición para mejorar señales de audio espaciales
JPWO2009004718A1 (ja) * 2007-07-03 2010-08-26 パイオニア株式会社 楽音強調装置、楽音強調方法、楽音強調プログラムおよび記録媒体
JP2009044268A (ja) * 2007-08-06 2009-02-26 Sharp Corp 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、及び、記録媒体
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
KR101475724B1 (ko) * 2008-06-09 2014-12-30 삼성전자주식회사 오디오 신호 품질 향상 장치 및 방법
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
GB2466668A (en) * 2009-01-06 2010-07-07 Skype Ltd Speech filtering
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
GB2473266A (en) * 2009-09-07 2011-03-09 Nokia Corp An improved filter bank
JP5519230B2 (ja) * 2009-09-30 2014-06-11 パナソニック株式会社 オーディオエンコーダ及び音信号処理システム
HUE071544T2 (hu) 2009-10-21 2025-09-28 Dolby Int Ab Túlmintavételezés kombinált transzponáló szûrõbankban
WO2011062535A1 (en) * 2009-11-19 2011-05-26 Telefonaktiebolaget Lm Ericsson (Publ) Methods and arrangements for loudness and sharpness compensation in audio codecs
ES2924180T3 (es) * 2009-12-14 2022-10-05 Fraunhofer Ges Forschung Dispositivo de cuantificación vectorial, dispositivo de codificación de habla, procedimiento de cuantificación vectorial y procedimiento de codificación de habla
CN102870156B (zh) * 2010-04-12 2015-07-22 飞思卡尔半导体公司 音频通信设备、输出音频信号的方法和通信系统
US8793126B2 (en) 2010-04-14 2014-07-29 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US8423357B2 (en) * 2010-06-18 2013-04-16 Alon Konchitsky System and method for biometric acoustic noise reduction
EP3079153B1 (en) * 2010-07-02 2018-08-01 Dolby International AB Audio decoding with selective post filtering
WO2012110476A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Linear prediction based coding scheme using spectral domain noise shaping
JP5914527B2 (ja) 2011-02-14 2016-05-11 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 過渡検出及び品質結果を使用してオーディオ信号の一部分を符号化する装置及び方法
EP2676268B1 (en) * 2011-02-14 2014-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a decoded audio signal in a spectral domain
PL2550653T3 (pl) 2011-02-14 2014-09-30 Fraunhofer Ges Forschung Reprezentacja sygnału informacyjnego z użyciem transformacji zakładkowej
TR201903388T4 (tr) 2011-02-14 2019-04-22 Fraunhofer Ges Forschung Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi.
WO2012110447A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
ES2689072T3 (es) * 2012-05-23 2018-11-08 Nippon Telegraph And Telephone Corporation Codificación de una señal de audio
FR3000328A1 (fr) * 2012-12-21 2014-06-27 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
US8927847B2 (en) * 2013-06-11 2015-01-06 The Board Of Trustees Of The Leland Stanford Junior University Glitch-free frequency modulation synthesis of sounds
US9418671B2 (en) 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
JP6220610B2 (ja) * 2013-09-12 2017-10-25 日本電信電話株式会社 信号処理装置、信号処理方法、プログラム、記録媒体
BR112016007515B1 (pt) 2013-10-18 2021-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Método de codificação de segmento de sinal de áudio, codificador de segmento de sinal de áudio, e, terminal de usuário.
LT3511935T (lt) 2014-04-17 2021-01-11 Voiceage Evs Llc Būdas, įrenginys ir kompiuteriu nuskaitoma neperkeliama atmintis garso signalų tiesinės prognozės kodavimui ir dekodavimui po perėjimo tarp kadrų su skirtingais mėginių ėmimo greičiais
EP2980799A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
CN107210718A (zh) * 2014-11-20 2017-09-26 迪芬尼香港有限公司 使用多速率fir和全通iir滤波器均衡扬声器系统的声学响应的方法和装置
TWI693594B (zh) * 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US10109284B2 (en) * 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
KR102299193B1 (ko) 2016-04-12 2021-09-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 상부 주파수 대역에서 검출된 피크 스펙트럼 영역을 고려하여 오디오 신호를 부호화하는 오디오 인코더, 오디오 신호를 부호화하는 방법, 및 컴퓨터 프로그램
RU2676022C1 (ru) * 2016-07-13 2018-12-25 Общество с ограниченной ответственностью "Речевая аппаратура "Унитон" Способ повышения разборчивости речи
CN111128230B (zh) * 2019-12-31 2022-03-04 广州市百果园信息技术有限公司 语音信号重建方法、装置、设备和存储介质
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation
CN113053353B (zh) * 2021-03-10 2022-10-04 度小满科技(北京)有限公司 一种语音合成模型的训练方法及装置
US12254895B2 (en) 2021-07-02 2025-03-18 Digital Voice Systems, Inc. Detecting and compensating for the presence of a speaker mask in a speech signal
US11990144B2 (en) 2021-07-28 2024-05-21 Digital Voice Systems, Inc. Reducing perceived effects of non-voice data in digital speech
US12451151B2 (en) 2022-04-08 2025-10-21 Digital Voice Systems, Inc. Tone frame detector for digital speech
US20240386899A1 (en) * 2023-05-16 2024-11-21 Apple Inc. Downlink noise suppression
US12462814B2 (en) 2023-10-06 2025-11-04 Digital Voice Systems, Inc. Bit error correction in digital speech
KR102874451B1 (ko) 2024-04-25 2025-10-22 엘아이지넥스원 주식회사 수중 음향 기만용 노이즈 신호 최적화 방법 및 이를 위한 장치
CN119229884B (zh) * 2024-08-20 2025-12-19 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SU447857A1 (ru) 1971-09-07 1974-10-25 Предприятие П/Я А-3103 Устройство дл записи информации на термопластический носитель
SU447853A1 (ru) 1972-12-01 1974-10-25 Предприятие П/Я А-7306 Устройство передачи и приема речевых сигналов
JPS6041077B2 (ja) * 1976-09-06 1985-09-13 喜徳 喜谷 1,2‐ジアミノシクロヘキサン異性体のシス白金(2)錯体
JP3137805B2 (ja) * 1993-05-21 2001-02-26 三菱電機株式会社 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
JP3321971B2 (ja) * 1994-03-10 2002-09-09 ソニー株式会社 音声信号処理方法
JP3062392B2 (ja) * 1994-04-22 2000-07-10 株式会社河合楽器製作所 波形形成装置およびこの出力波形を用いた電子楽器
IL114852A (en) * 1994-08-08 2000-02-29 Debiopharm Sa Pharmaceutically stable preparation of oxaliplatinum
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
GB9512284D0 (en) 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
US5806025A (en) * 1996-08-07 1998-09-08 U S West, Inc. Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6385576B2 (en) * 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
GB9804013D0 (en) * 1998-02-25 1998-04-22 Sanofi Sa Formulations
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US7167828B2 (en) * 2000-01-11 2007-01-23 Matsushita Electric Industrial Co., Ltd. Multimode speech coding apparatus and decoding apparatus
JP3612260B2 (ja) * 2000-02-29 2005-01-19 株式会社東芝 音声符号化方法及び装置並びに及び音声復号方法及び装置
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
CA2327041A1 (en) * 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
US6937978B2 (en) * 2001-10-30 2005-08-30 Chungwa Telecom Co., Ltd. Suppression system of background noise of speech signals and the method thereof
US6476068B1 (en) * 2001-12-06 2002-11-05 Pharmacia Italia, S.P.A. Platinum derivative pharmaceutical formulations
CN101022790A (zh) * 2003-08-28 2007-08-22 梅恩医药有限公司 含有酸的奥沙利铂制剂

Also Published As

Publication number Publication date
RU2004138291A (ru) 2005-05-27
ATE399361T1 (de) 2008-07-15
US7529660B2 (en) 2009-05-05
ZA200409647B (en) 2006-06-28
CN1659626A (zh) 2005-08-24
CY1110439T1 (el) 2015-04-29
CN100365706C (zh) 2008-01-30
EP1509906A2 (en) 2005-03-02
DE60321786D1 (de) 2008-08-07
NO20045717L (no) 2004-12-30
JP2005528647A (ja) 2005-09-22
RU2327230C2 (ru) 2008-06-20
CA2483790C (en) 2011-12-20
JP4842538B2 (ja) 2011-12-21
EP1509906B1 (en) 2008-06-25
PT1509906E (pt) 2008-11-13
MXPA04011845A (es) 2005-07-26
US20050165603A1 (en) 2005-07-28
KR101039343B1 (ko) 2011-06-08
NO332045B1 (no) 2012-06-11
CA2483790A1 (en) 2003-12-11
MY140905A (en) 2010-01-29
BR0311314A (pt) 2005-02-15
DK1509906T3 (da) 2008-10-20
KR20050004897A (ko) 2005-01-12
HK1078978A1 (en) 2006-03-24
NZ536237A (en) 2007-05-31
WO2003102923A2 (en) 2003-12-11
WO2003102923A3 (en) 2004-09-30
BRPI0311314B1 (pt) 2018-02-14
CA2388352A1 (en) 2003-11-30
AU2003233722B2 (en) 2009-06-04
AU2003233722A1 (en) 2003-12-19

Similar Documents

Publication Publication Date Title
ES2309315T3 (es) Metodo y dispositivo para la potenciacion del tono del habla descodificado.
EP1141946B1 (en) Coded enhancement feature for improved performance in coding communication signals
JP5161212B2 (ja) Itu−tg.711規格と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形デバイスおよび方法
EP1509903B1 (en) Method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP4662673B2 (ja) 広帯域音声及びオーディオ信号復号器における利得平滑化
KR101366124B1 (ko) 오디오 인코딩/디코딩에서의 인지 가중 장치
KR20090039659A (ko) 전대역 오디오 파형의 외삽법에 기초한 부분대역 예측코딩에 대한 패킷 손실 은닉 기법
KR20120121928A (ko) 오디오 코덱 포스트 필터
US6678651B2 (en) Short-term enhancement in CELP speech coding
US5913187A (en) Nonlinear filter for noise suppression in linear prediction speech processing devices
KR20030022894A (ko) 음향 신호 부호화 방법 및 장치, 음향 신호 복호화 방법및 장치, 및 기록 매체
Schnitzler et al. Trends and perspectives in wideband speech coding
McElroy et al. Wideband speech coding in 7.2 kbit/s
EP1892701A1 (en) Injection high frequency noise into pulse excitation for low bit rate celp
HK1078978B (en) Method and device for pitch enhancement of decoded speech
Ma Multiband Excitation Based Vocoders and Their Real Time Implementation
AU2757602A (en) Multimode speech encoder
HK1113430A (en) Injection high frequency noise into pulse excitation for low bit rate celp