ES2309315T3

ES2309315T3 - Metodo y dispositivo para la potenciacion del tono del habla descodificado.

Info

Publication number: ES2309315T3
Application number: ES03727092T
Authority: ES
Inventors: Bruno Bessette; Claude Laflamme; Milan Jelinek; Roch Lefebvre
Original assignee: VoiceAge Corp
Current assignee: VoiceAge Corp
Priority date: 2002-05-31
Filing date: 2003-05-30
Publication date: 2008-12-16
Anticipated expiration: 2023-05-30
Also published as: RU2004138291A; ATE399361T1; US7529660B2; ZA200409647B; CN1659626A; CY1110439T1; CN100365706C; EP1509906A2; DE60321786D1; NO20045717L; JP2005528647A; RU2327230C2; CA2483790C; JP4842538B2; EP1509906B1; PT1509906E; MXPA04011845A; US20050165603A1; KR101039343B1; NO332045B1

Abstract

Un método para el posprocesado de una señal de sonido descodificada (112) con objeto de potenciar una calidad percibida de dicha señal de sonido descodificada (112), que comprende: dividir la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia: y aplicar el posprocesado a por lo menos una se las señales de la sub-banda de frecuencia; caracterizado porque para potenciar el tono, se aplica el posprocesado a solamente una sub-banda inferior de las señales de sub-banda de frecuencia.

Description

Método y dispositivo para la potenciación del tono del habla descodificado.

Antecedentes del invento 1. Campo del invento

El presente invento se refiere a un método y un dispositivo para el posprocesado de una señal de sonido descodificada, con el fin de mejorar la calidad percibida de esa señal de sonido descodificada.

Este método y este dispositivo de posprocesado pueden ser aplicados, en particular aunque no exclusivamente, a la codificación digital de señales de sonido (incluidas las del habla). Por ejemplo, este método y este dispositivo de posprocesado pueden ser también aplicados al caso más general de mejora de la señal cuando la fuente de ruido pueda ser la de cualquier medio o sistema, no necesariamente relacionado con el ruido de la codificación o de la cuantificación.

2. Breve descripción de la tecnología actual 2.1 Codificadores del habla

Los codificadores del habla son de uso muy generalizado en los sistemas de comunicaciones digitales para transmitir eficientemente y/o almacenar las señales de palabras. En los sistemas digitales, la señal de palabra de entrada analógica es primero muestreada con una velocidad de muestreo apropiada, y las muestras de palabras sucesivas son además procesadas en el dominio digital. En particular, un codificador del habla recibe las muestras de palabras como una entrada, y genera una corriente de bits comprimidos de salida para que sea transmitida a través de un canal o almacenada en un medio de almacenamiento apropiado. En el receptor, un descodificador del habla recibe la corriente de bits como una entrada, y produce una señal de palabra reconstruida de salida.

Para que sea útil, un codificador del habla debe producir una corriente de bits comprimidos con una velocidad de bits más baja que la velocidad de bits de la señal de palabra de entrada muestreada digital. Los codificadores del habla del estado de la técnica consiguen típicamente una relación de compresión de al menos 16 a 1, y siguen siendo capaces de realizar la descodificación de las palabras con alta calidad. Muchos de estos codificadores del habla del estado de la técnica están basados en el modelo CELP (Predictivo Lineal Excitado por Código), con diferentes variantes que dependen del algoritmo.

En la codificación CELP la señal de palabra digital es procesada en bloques sucesivos de muestras de palabras denominados cuadros. Por cada cuadro, el codificador extrae de las muestras de palabras digitales una serie de parámetros que son codificados digitalmente y luego transmitidos y/o almacenados. El descodificador está diseñado para procesar los parámetros recibidos para reconstruir o sintetizar el cuadro dado de la señal de palabra. Típicamente, de las muestras de palabras digitales son extraídos los siguientes parámetros por un codificador CELP.

-: Coeficientes de Predicción Lineal (Coeficientes LP), transmitidos en un dominio tradicional, tal como el de Frecuencias Espectrales de Línea (LSF), o bien el de Frecuencias Espectrales de Inmitancia (ISF);

-: Parámetros de Tono, incluyendo un retardo (o retraso) de tono y una ganancia de tono; y

-: Parámetros de excitación de innovación (índice del libro de claves fijo y ganancia). Los parámetros de tono y los parámetros de excitación de innovación describen juntos la que se denomina señal de excitación. Esta señal de excitación es suministrada como una entrada a un filtro de Predicción Lineal (LP) mediante los coeficientes de LP. El filtro de LP puede verse como un modo 1 del tracto vocal, en que se puede ver la señal de excitación como la salida desde la glotis. Los coeficientes LP o LSF se calculan típicamente y se transmiten en cada cuadro, en donde se calculan y se transmiten los parámetros de tono y de excitación de innovación varias veces por cuadro. Más concretamente, se divide cada cuadro en varios bloques de señales, denominados subcuadros, y se calculan y se transmiten los parámetros de tono y los parámetros de excitación de innovación en cada subcuadro. Un cuadro tiene típicamente una duración de 10 a 30 milisegundos, mientras que un subcuadro tiene típicamente una duración de 5 milisegundos.

Varias normas de codificación de palabras están basadas en el modelo Algebraico CELP (ACELP) y más concretamente en el algoritmo ACELP. Una de las principales características del ACELP es la de hacer uso de libros de claves algebraicas para codificar la excitación de innovación en cada subcuadro. Un libro de claves algebraicas divide un subcuadro en un conjunto de pistas de posiciones de impulsos intercalados. Se remiten solamente unos pocos impulsos de amplitud distintos de cero por pista, y, cada impulso de amplitud distinta de cero está limitado a las posiciones de la pista correspondiente. El codificador usa algoritmos de búsqueda rápida para hallar las posiciones y las amplitudes óptimas de los impulsos para los impulsos de cada subcuadro. Se puede ver una descripción del algoritmo ACELP en el artículo de R. SALAMI y otros titulado "Diseño y Descripción de un CSUB BANDAACELP: un código de palabra de barrera de calidad de 8 kb/s", IEEE Trans on Speech and Audio Proc Vol. 6, Nº 2, páginas 116-130, marzo de 1998, que queda aquí incorporado por su referencia, y en el que se describe el algoritmo de codificación de palabras de banda estrecha de 8 kbits/segundo ITU-TG.729c sub-banda ACELP. Es de hacer notar que hay varias variaciones en la búsqueda en el libro de claves de innovación ACELP, que dependen de la norma de que se trate. El presente invento no depende de esas variaciones, ya que únicamente se aplica al posprocesado de la señal de palabra descodificada (sintetizada).

Una norma reciente basada en el algoritmo ACELP es el algoritmo de codificación de palabras ETSV3GPP AMR-WB, el cual fue también adoptado por el ITU-T (Sector de Normalización de Telecomunicaciones de la ITU (Unidad de Telecomunicaciones Internacional) como recomendación G. 722.2 [Recomendación G.722.2 de la ITU-T "Codificación de Banda Ancha de Palabras a aproximadamente 16 kbit/s, usando Banda Ancha Multi-velocidad de Adaptación (AMR-WB)", Ginebra, Z00Z [Codec (Codificador/Descodificador) de Palabras de Banda Ancha AMR, 3GPP TS 26.190, "Especificación Técnica 3GPP"]. El AMR-WB es un algoritmo de múltiples velocidades diseñado para operar a nueve velocidades de bits diferentes entre 6,6 y 23,85 kbit/segundo. Quienes posean los conocimientos corrientes de la técnica, saben que la calidad de la palabra descodificada aumenta en general con la velocidad de bits. El AMR-WB ha sido diseñado para permitir que los sistemas de comunicación celular reduzcan la velocidad de bits del codificador de palabras en el caso de malas condiciones de canal; los bits se convierten en bits de codificación de canal para aumentar la protección de los bits transmitidos. De esa manera, se puede mantener la calidad total de los bits transmitidos más alta que si fuera el caso de que el codificador del habla operase a una sola velocidad de bits fija.

La Figura 7 es un diagrama bloque esquemático que representa el principio del descodificador AMR-WB. Más concretamente, la Figura 7 es una representación de alto nivel del descodificador, destacando el hecho de que la corriente de bits recibida codifica la señal de palabra solamente hasta 6,4 kHz (frecuencia de muestreo de 12,8 kHz), y las frecuencias más altas que 6,4 kHz son sintetizadas en el descodificador a partir de los parámetros de banda más baja. Esto implica que, en el codificador, la señal de palabra muestreada de 16 kHz de anchura de banda original, fue primeramente muestreada a una frecuencia de muestreo rebajada de 12,8 kHz, usando técnicas de conversión de múltiples velocidades, bien conocidas por quienes posean los conocimientos corrientes de la técnica. El descodificador de parámetros 701 y el descodificador del habla 702 de la Figura 7 son análogos al descodificador de parámetros 106 y al descodificador de la fuente 107 de la Figura 1. La corriente de bits recibida 709 es primeramente descodificada por el descodificador de parámetros 701 para recuperar los parámetros 710 suministrados al descodificador del habla 702 para resintetizar la señal de palabra. En el caso específico del descodificador AMR-WB, esos parámetros son:

-: coeficientes de ISF por cada cuadro de 20 milisegundos;

-: un retardo del tono entero TO, un valor del tono fraccionario TO_frac, alrededor de TO, y una ganancia de tono por cada subcuadro de 5 milisegundos; y

-: una forma de libro de claves algebraicas (posiciones y signos de impulsos) y de ganancia por cada subcuadro de 5 milisegundos.

A partir de los parámetros 710, el descodificador del habla 702 está diseñado para sintetizar un cuadro dado de la señal de palabra para las frecuencias iguales y menores que 6,4 kHz, y producir con ello una señal de palabra sintetizada de banda baja 712 a la frecuencia de muestreo de 12,8 kHz. Para recuperar la señal de banda completa correspondiente a la frecuencia de muestreo de 16 kHz, el descodificador AMR-WB comprende un procesador de resíntesis de banda alta 707, que responde a los parámetros 710 descodificados del descodificador de parámetros 701 para resintetizar una señal de banda alta 711 a la frecuencia de muestreo de 16 kHz. Los detalles del procesador 707 de resíntesis de la señal de banda alta pueden verse en las siguientes publicaciones, que quedan aquí incorporadas por sus referencias:

-: Recomendación G.722.2 de la ITU-T \cdotCodificación de Banda Ancha de Señal de Alrededor de 16 kbit/s usando Banda Ancha de Velocidades Múltiples de Adaptación (AMR-INB), Ginebra, 2002; y

-: 3GPP TS 26.190, "Codec (Codificador/Descodificador) de Palabras de Banda Ancha AMR: Funciones de Transcodificación", Especificación Técnica 3GPP.

La salida del procesador de resíntesis de banda alta 707, designada como la señal de banda alta 711 de la Figura 7, es una señal ala frecuencia de muestreo de 16 kHz, que tiene una energía concentrada por encima de 6,4 kHz. El procesador 708 suma la señal de banda alta 711 a una señal de palabra 713 de banda baja muestreada en sentido ascendente de 16 kHz, para formar la señal de palabra descodificada completa 714 del descodificador AMR-WB a la frecuencia de muestreo de 16 kHz.

En la Patente de EE.UU. Nº 5.806.025 se describe un método para filtrado de adaptación de una señal de palabra para supresión de ruidos.

2.2 Necesidad del posprocesado

Siempre que se use un codificador del habla en un sistema de comunicaciones, la señal de palabra sintetizada o descodificada jamás es idéntica a la señal de palabra original, ni siquiera cuando no haya errores de transmisión. Cuanto más alta sea la relación de compresión, tanto más alta será la distorsión introducida por el codificador. Esa distorsión puede hacerse subjetivamente pequeña usando diferentes soluciones. Una primera solución es la de condicionar la señal en el codificador para describir o modificar mejor la información subjetivamente relevante en la señal de palabra. El uso de un filtro de ponderación del formante, que se representa frecuentemente como W(z), es un ejemplo generalmente usado de esa primera solución [compiladores B. Kleijn y K. Pallwall de la obra "Codificación y Síntesis del Habla", Elsevier, 1995]]. Este filtro W(z) se hace típicamente de adaptación, y se calcula de tal modo que reduzca la energía de la señal a casi los formantes espectrales, aumentando con ello la energía relativa para las bandas de más baja energía. El codificador puede entonces cuantificar mejor las bandas de más baja energía, que de no hacerse así serían enmascaradas por el ruido de codificación, aumentando la distorsión percibida. Otro ejemplo de acondicionamiento de la señal en el codificador es el denominado filtro de afinamiento del tono, el cual mejora la estructura de armónicos de la señal de excitación en el codificador. El afinamiento del tono permite asegurar que el nivel de ruido entre amónicos se mantiene lo suficientemente bajo en el sentido de la percepción.

Una segunda solución para minimizar la distorsión percibida introducida por un codificador del habla es la de aplicar un algoritmo denominado de "posprocesado". El posprocesado se aplica en el descodificador como se ha ilustrado en la Figura 1. En la Figura 1, el codificador del habla 101 y el descodificador del habla 105 son subdivididos en dos módulos. En el caso del codificador del habla 101, un codificador de fuente 102 produce una serie de parámetros de codificador del habla 109 para ser transmitidos o almacenados. Estos parámetros 109 son luego codificados en notación binaria por el codificador de parámetros 103 usando un método de codificación específico, que depende del algoritmo de codificación de la palabra y de los parámetros a codificar. La señal de palabra codificada (parámetros codificados en notación binaria) 110 es luego transmitida al descodificador a través de un canal de comunicaciones 104. En el descodificador, la corriente de bits recibida 1 es primero analizada por un descodificador de parámetros 106 para descodificar los parámetros de codificación de la señal de sonido rectificada recibida, los cuales son luego usados por el descodificador de fuente 107 para generar la señal de palabra sintetizada 112. El objetivo del posprocesado (véase el posprocesador 108 de la Figura 1) es mejorar la información relevante de percepción en la señal de palabra sintetizada, o lo que es equivalente, reducir o retirar la información perceptualmente perturbadora. Dos formas corrientemente usadas para el posprocesado son el posprocesado de formantes y el posprocesado del tono. En el primer caso, la estructura formante de la señal de palabra sintetizada es amplificada mediante el uso de un filtro de adaptación con una respuesta de frecuencia correlacionada con los formantes de la palabra. Los picos del espectro de la señal de palabra sintetizada son luego acentuados a expensas de valles espectrales, cuya energía relativa se hace menor. En el caso del posprocesado del tono, se aplica también un filtro de adaptación a la señal de palabra sintetizada. Sin embargo, en este caso la respuesta de frecuencia de los filtros está correlacionada con la estructura espectral fina, es decir, la delos armónicos. Un posfiltrado del tono acentúa entonces los armónicos, a expensas de la energía entre armónicos, la cual se hace relativamente más pequeña. Obsérvese que la respuesta de frecuencia de un posfiltrado del tono cubre típicamente todo el rango de frecuencias. El impacto es el de que se impone una estructura de armónicos sobre la palabra posprocesada, incluso en las bandas de frecuencia que no presentaban una estructura de armónicos en la palabra descodificada. Esta no es una solución perceptualmente óptima para la palabra de banda ancha (palabra muestreada a 16 kHz), la cual raramente presenta una estructura periódica en todo el rango de frecuencias.

Sumario del invento

El presente invento se refiere a un método, según la reivindicación 1, para el posprocesado de una señal de sonido descodificada, con objeto de potenciar una calidad percibida de esa señal de sonido descodificada, que comprende dividir la señal de sonido descodificada en una pluralidad de señales de sub-banda de frecuencia, y aplicar el posprocesado a por lo menos una de las señales de sub-banda de frecuencia, pero no a todas las señales de sub-banda de frecuencia, caracterizado porque, para la potenciación del tono, se aplica el posprocesado a solamente una sub-banda inferior de las señales de sub-banda de frecuencia.

El presente invento concierne también a un dispositivo según la reivindicación 32, para el posprocesado de una señal de sonido descodificada, con objeto de potenciar una calidad percibida de esa señal de sonido descodificada, que comprende medios para dividir la señal de sonido descodificada en una pluralidad de señales de sub-banda de frecuencia, y medios para el posprocesado solamente de la sub-banda inferior de las señales de sub-banda de frecuencia.

De acuerdo con una realización ilustrativa, después del posprocesado de la señal de sub-banda inferior antes mencionada, se suman las señales de sub-banda para producir una señal de sonido descodificada posprocesada de salida.

En consecuencia, el método y el dispositivo para el posprocesado hacen posible localizar el posprocesado en la sub-banda deseada y dejar virtualmente inalteradas las demás sub-bandas.

El presente invento se refiere además a un descodificador de la señal de sonido, según la reivindicación 63, que comprende una entrada para recibir una señal de sonido codificada, un descodificador de parámetros al que se suministra la señal de sonido codificada para descodificar parámetros de codificación de la señal de sonido, un descodificador de la señal de sonido al que se suministran los parámetros de codificación de la señal de sonido descodificados para producir una señal de sonido descodificada, y un dispositivo de posprocesado como se ha descrito en lo que antecede para el posprocesado de la señal de sonido descodificada, con objeto de mejorar la calidad percibida de esa señal de sonido descodificada.

Los anteriores y otros objetos, ventajas y características del presente invento se pondrán mejo de manifiesto tras la lectura de la descripción que sigue, no limitativa, de realizaciones ilustrativas del mismo, que se incluyen solo a modo de ejemplos y con referencia a los dibujos que se acompañan.

Breve descripción de los dibujos

En los dibujos que se acompañan:

La Figura 1 es un diagrama bloque esquemático de la estructura de alto nivel de un ejemplo de sistema de codificador/descodificador del habla que usa el posprocesado en el descodificador.

La Figura 2 es un diagrama bloque esquemático en el que se muestra el principio general de una realización ilustrativa del presente invento, usando un banco de filtros de adaptación y de filtros de sub-banda, en el que la entrada de los filtros adaptativos es la señal de palabra (sintetizada) descodificada (línea de trazo lleno) y los parámetros descodificados (línea de trazos);

La Figura 3 es un diagrama bloque esquemático de un potenciador del tono de dos bandas, que constituye un caso especial de la realización ilustrativa de la Figura 2;

La Figura 4 es un diagrama bloque esquemático de una realización ilustrativa del presente invento, tal como se aplica al caso especial del descodificador de palabras de banda ancha AMR-WB;

La Figura 5 es un diagrama bloque esquemático de una forma de ejecución alternativa de la realización ilustrativa de la Figura 4;

La Figura 6a es un gráfico que ilustra un ejemplo de espectro de una señal preprocesada:

La Figura 6b es un gráfico que ilustra un ejemplo de estructura de la señal posprocesada obtenida cuando se usa el método descrito en la Figura 3;

La Figura 7 es un diagrama bloque esquemático en el que se ha representado el principio de la operación del descodificador 3GPP AMR-WB;

Las Figuras 8a y 8b son gráficos que representan un ejemplo de la respuesta de frecuencia de un filtro potenciador del tono, tal como se describe mediante la Ecuación (1), con el caso especial de muestras de un período del tono T=10;

La Figura 9a es un gráfico que representa un ejemplo de la respuesta de frecuencia para el filtro 404 de paso bajo de la Figura 4;

La Figura 9b es un gráfico que representa un ejemplo de la respuesta de frecuencia para el filtro de paso de banda 407 de la Figura 4;

La Figura 9c es un gráfico que representa un ejemplo de respuesta de frecuencia combinada para el filtro de paso bajo 404 y los filtros de paso de banda 407 de la Figura 4; y

La Figura 10 es un gráfico que representa un ejemplo de la respuesta de frecuencia de un filtro entre armónicos, tal como se describe mediante la Ecuación (2), y usado en el filtro 503 entre armónicos de la Figura 5 para el caso específico de T=10 muestras.

Descripción detallada de las realizaciones ilustrativas

La Figura 2 es un diagrama bloque esquemático que ilustra el principio general de una realización ilustrativa del presente invento.

En la Figura 1, la señal de entrada (señal a la cual se aplica el posprocesado) es la señal de palabra descodificada (sintetizada) 112 producida por el descodificador del habla 105 (Figura 1) en el receptor de un sistema de comunicaciones (salida del descodificador 107 de fuente de la Figura 1). El objetivo es producir una señal de palabra descodificada sometida a posprocesado en la salida 113 del posprocesador 108 de la Figura 1 (la cual es también la salida del procesador 203 de la Figura 2), con una calidad percibida mejorada. Esto se consigue aplicando primeo al menos una, y posiblemente más de una, operación de filtrado adaptativo a la señal de entrada 112 (véanse los filtros adaptativos 201 a, 201 b... 201 N). Estos filtros adaptativos se describirán en la descripción que sigue. Es de señalar aquí que algunos de los filtros adaptativos 201 a 201 N pueden ser funciones triviales siempre que se requiera, por ejemplo, con la salida igual a la entrada. La salida 204a, 204b..., 204N, de cada filtro adaptativo 201 a, 201 b..., 201 N, es luego sometida a filtrado de paso de banda a través de un filtro de sub-banda 202a, 202b..., 202N, respectivamente, y la señal de palabra descodificada posprocesada 113 se obtiene añadiendo a través de un procesador 203 las respectivas salidas resultantes 205a, 205b..., 205N de los filtros de sub-banda 202a, 202b..., 202N.

En una realización ilustrativa, se usa una descomposición en dos bandas y se aplica un filtrado adaptativo solamente a la banda inferior. Esto da por resultado un posprocesado total que está principalmente dirigido a frecuencias próximas a la de los primeros armónicos de la señal de palabra sintetizada.

\newpage

La Figura 3 es un diagrama bloque esquemático de un potenciador del tono de dos bandas, que constituye un caso especial de la realización ilustrativa de la Figura 2. Más concretamente, la Figura 3 representa las funciones básicas de un posprocesador de dos bandas (véase el posprocesador 108 de la Figura 1). De acuerdo con esta realización ilustrativa, solamente se considera la potenciación del tono como posprocesado, aunque se podrían contemplar otros tipos de posprocesado. En la Figura 3, la señal de palabra descodificada (supuesto que sea la salida 112 del descodificador 107 de fuente de la Figura 1) es suministrada a través de un par de sub- ramas 308 y 309.

En la rama más alta 308, la señal de palabra descodificada 112 es filtrada por un filtro de paso alto 301 para producir la señal de banda más alta 310 (SH). En este ejemplo específico no se usa filtro adaptativo alguno en la rama más alta. En la rama más baja 309, se procesa primero la señal de palabra descodificada 112 a través de un filtro adaptativo 307 que comprende un filtro 302 de paso bajo opcional, un módulo de seguimiento del tono 303, y un potenciador del tono 304. y luego se filtra a través de un filtro de paso bajo 305, para obtener la señal posprocesada 311 (SLEF) de la banda inferior, La señal de palabra descodificada posprocesada 113 se obtiene añadiendo a través de una sumadora 306, las señales posprocesadas de banda inferior 311 y de banda superior 312, desde la salida del filtro de paso bajo 305 y del filtro de paso alto 301, respectivamente. Es de señalar que los filtros de paso bajo 305 y de paso alto 301 podrían ser de muchos tipos diferentes, por ejemplo, de Respuesta de impulso infinito (UR), o de Respuesta de Impulso Finito (FIR). En esta realización ilustrativa se usan filtros FIR de fase lineal.

Por lo tanto, el filtro adaptativo 307 de la Figura 3 está compuesto de dos, y posiblemente de tres, procesadores, el filtro de paso bajo opcional 302 similar al filtro de paso bajo 305, el módulo de seguimiento del tono 303, y el potenciador del tono 304. El filtro de paso bajo 302 puede omitirse, pero se incluirá para permitir la visión del posprocesado de la Figura 3 como una descomposición en dos bandas, seguida de un filtrado específico en cada sub-banda. Después del filtrado de paso bajo opcional (filtro 302) de la señal de palabra descodificada 112 en la banda inferior, se procesa la señal resultante SL a través del potenciador de tono 304.El objeto del potenciador del tono 304 es reducir el ruido entre armónicos en la señal de palabra descodificada. En la presente realización ilustrativa, se consigue el potenciador de tono 304 mediante un filtro lineal variable en el tiempo, que se describe mediante la siguiente ecuación:

1

donde \alpha es un coeficiente que controla la atenuación inter armónicos. T es el período del tono de la señal de entrada x[n], e y[n] es la señal de salida del totalizador del tono. Podría también usarse una ecuación más general, en la que las tomas de filtro en n-T y en n + T podrían ser con diferentes retardos (por ejemplo, n-T1 y n +T2). Los parámetros T y \alpha varían en el tiempo y vienen dados por el módulo de seguimiento del tono 303. Con un valor de \alpha = 1, la ganancia del filtro descrito por la Ecuación (1) es exactamente 0 para las frecuencias 1/(27), 3/(27), 5/(27), etc., es decir en el punto medio entre las frecuencias de los armónicos 1/T, 3/T, 5/T; etc. Cuando \alpha = 0, la salida del filtro es igual a su entrada. La Figura 8 representa la respuesta de frecuencia (en dB) del filtro descrito por la Ecuación (1) para los valores de \alpha = 0,8 y 1, cuando el retardo del tono es (arbitrariamente) ajustado a un valor de T = 10 muestras. El valor de \alpha puede calcularse usando varias aproximaciones. Por ejemplo, la correlación de tono normalizada, que es bien conocida por quienes poseen los conocimientos corrientes de la técnica, puede usarse para controlar el coeficiente \alpha: cuanto más alta sea la correlación del tono normalizada (cuanto más próxima sea a 1) tanto más alto será el valor de \alpha. Una señal periódica x[n] con un período T = 10 muestras, tendría armónicos ala máxima de las respuestas de frecuencia de la Figura 8, es decir, a las frecuencias normalizadas de 0,2, 0,4, etc. Es fácil comprender, de la Figura 8, que el potenciador del tono de la Ecuación (1) atenuaría la energía de la señal solamente entre sus armónicos, y que los componentes armónicos no serían alterados por el filtro. La Figura 8 representa también que la variación del parámetro \alpha permite controlar la cantidad de atenuación inter armónicos proporcionada por el filtro de la Ecuación (1). Obsérvese que la respuesta de frecuencia del filtro de la Ecuación (1), representada en la Figura 8, se extiende a todas las frecuencias del espectro.

Puesto que el período del tono de una señal de palabra varía en el tiempo, el valor T del tono del potenciador del tono 304 tiene que variar en consecuencia. El módulo 303 de seguimiento del tono es responsable de proporcionar el valor de tono apropiado T al potenciador del tono 304,por cada cuadro de la señal de palabra descodificada que haya de ser procesada. Para ese fin, el módulo de seguimiento del tono 303 recibe como entrada no solamente las muestras de palabras descodificadas sino también los parámetros 114 descodificados desde el descodificador 106 de parámetros de la Figura 1.

Puesto que un codificador del habla típico extrae por cada subcuadro de palabra un retardo del tono que denominamos To, y posiblemente un valor fraccionario To_frac usado para interpolar la contribución del libro de claves adaptativas a la resolución de muestras fraccionarias, el módulo de seguimiento del tono 303 puede entonces usar ese retardo del tono descodificado para enfocar el seguimiento del tono en el descodificador. Una posibilidad es la de usar To y To_frac directamente en el potenciador del tono 304, sacando partido del hecho de que el codificador ha efectuado ya el seguimiento del tono. Otra posibilidad, usada en esta realización ilustrativa, es la de volver a calcular el seguimiento del tono en el descodificador enfocando sobre valores de alrededor, y múltiplos o submúltiplos del valor To del tono descodificado. El módulo 303 de seguimiento del tono proporciona entonces un retardo de tono T al potenciador del tono 304, el cual usa ese valor de T en la Ecuación (1) para el presente cuadro de la señal de palabra descodificada. La salida es la señal SLE.

\global\parskip0.880000\baselineskip

La señal de tono potenciado SLE es entonces filtrada en paso bajo a través del filtro 305 para aislar las bajas frecuencias de la señal de tono potenciado SLE y para retirar los componentes de alta frecuencia que surgen cuando se varía en el tiempo el filtro potenciador del tono de la Ecuación (1), de acuerdo con el retardo de tono T, en los límites del cuadro de palabra descodificada. Esto produce la señal posprocesada de banda inferior SLEF, la cual puede ser entonces añadida a la señal de banda superior SH en la sumadora 306.El resultado es la señal de palabra descodificada posprocesada 113, con el ruido inter armónicos reducido en la banda inferior. La banda de frecuencia en la que será aplicada la potenciación del tono depende de la frecuencia de corte del filtro de paso bajo 305 (y opcionalmente del filtro de paso bajo 302).

Las Figuras 6a y 6b presentan un ejemplo de espectro de la señal que ilustra el efecto del posprocesado descrito en la Figura 3. La Figura 6a es el espectro de la señal de entrada 112 del posprocesador 108 de la Figura 1 (señal de palabra descodificada 112 de la Figura 3).En este ejemplo ilustrativo, la señal de entrada está compuesta de 20 armónicos, con la frecuencia fundamental fo = 373 Hz elegida arbitrariamente, con componentes "ruidosos" añadidos a las frecuencias fo/2, 3fo/2 y 5fo/2. Estos tres componentes ruidosos pueden verse entre los armónicos de baja frecuencia de la Figura 6a. La frecuencia de muestreo se supone que es de 16 kHz en este ejemplo. El potenciador del tono de dos bandas representado en la Figura 3 y que se ha descrito en lo que antecede es entonces aplicado a la señal de la Figura 6a.Con una frecuencia de muestreo de 16 kHz, y una señal periódica de la frecuencia fundamental igual a 373 Hz, como en la Figura 6a, el módulo 303 de seguimiento del tono deberá hallar un período T = 16000/373 = 43 muestras. Este es el valor que fue usado para el filtro potenciador del tono de la Ecuación (1), aplicado al potenciador del tono 304 de la Figura 3. Se usó también un valor de \alpha = 0,5. Los filtros 305 de paso bajo y 301 de paso alto, son filtros FIR de fase lineal simétricos con 31 tomas. La frecuencia de corte para este ejemplo se ha elegido de 2000 Hz. Estos valores específicos se dan únicamente a modo de ejemplos ilustrativos.

La señal de palabra descodificada posprocesada 113 en la salida de la sumadora 306 tiene un espectro representado en la Figura 6b.Puede verse que las tres sinusoides inter armónicos de la Figura 6a han sido eliminados por completo, mientras que los armónicos de la señal permanecen prácticamente inalterables. También se hace notar que el efecto del potenciador del tono disminuye a medida que la frecuencia se va aproximando a la frecuencia de corte del filtro de paso bajo (2000 Hz en este ejemplo). Por consiguiente, solamente es afectada la banda inferior por el posprocesado. Esta es una característica clave de esta realización ilustrativa del presente invento. Variando las frecuencias de corte del filtro 202 de paso bajo opcional, del filtro 305 de paso bajo y del filtro 301 de paso alto, es posible controlar hasta qué potenciación del tono de la frecuencia se aplica.

Aplicación al descodificador del habla AMR-WB

El presente invento puede ser aplicado a cualquier señal de palabra sintetizada por un descodificador del habla, o incluso a cualquier señal de palabra corrompida por ruido inter armónicos que haya necesidad de reducir. En esta sección se presentará una forma de ejecución específica, que sirva de ejemplo del presente invento, para una señal de palabra descodificada AMR-WB. El posprocesado se aplica a la señal de palabra sintetizada de banda baja 712 de la Figura 7, es decir, a la salida del descodificador del habla 702, el cual produce una palabra sintetizada a una frecuencia de muestreo de 12,8 kHz.

En la Figura 4 se ha representado el diagrama bloque de un posprocesador del tono cuando la señal de entrada es la señal de palabra sintetizada de banda baja AMR-WB a la frecuencia de muestreo de 12,8 kHz. Más concretamente, el posprocesador presentado en la Figura 4 sustituye a la unidad de muestreo en sentido ascendente 703,la cual comprende los procesadores 704, 705 y 706. El posprocesador del tono dela Figura 4 podría ser aplicado también a la señal de palabra sintetizada muestreada en sentido ascendente de 16 kHz, pero aplicándolo antes del muestreo ascendente reduce el número de operaciones de filtrado en el descodificador, y por consiguiente reduce la complejidad.

La señal de entrada (de palabra sintetizada de banda baja AMR-WB (12,8 kHz)) de la Figura 4 se ha designado como la señal s. En este ejemplo específico, la señal s es la señal de palabra sintetizada de banda baja AMR-WB a la frecuencia de muestreo de 12,8 kHz (salida del procesador 702). El posprocesador del tono de la Figura 4 comprende un módulo 401 de seguimiento del tono para determinar, por cada subcuadro de 5 milisegundos, el retardo del tono T usando los parámetros descodificados recibidos 114 (Figura 1) y la señal de palabra sintetizada s. Los parámetros descodificados usados por el módulo de seguimiento del tono son To, el valor entero del tono para el subcuadro, y To_frac, el valor fraccionario del tono para resolución de la submuestra. El retardo del tono T calculado en el módulo 401 de seguimiento del tono será usado en los siguientes pasos para la potenciación del tono. Sería posible usar directamente los parámetros de tono descodificados recibidos To y To_frac para formar el retardo T usado por el potenciador del tono en el filtro de tono 402. Sin embargo, el módulo 401 de seguimiento del tono es capaz de corregir los múltiplos o submúltiplos del tono, los cuales podrían tener un efecto perjudicial en la potenciación del tono.

Una realización ilustrativa del algoritmo de seguimiento del tono para el módulo 401, es la siguiente (los valores seguidos específicos de umbrales y de tono se dan únicamente a modo de ejemplos):

-: En primer lugar se compara la información de tono descodificada (retardo del tono To) con un valor almacenado del retardo de tono descodificado To_prev del cuadro previo. T_prev puede haber sido modificado por alguno de los siguientes pasos, de acuerdo con el algoritmo de seguimiento del tono. Por ejemplo, si To < 1,16*T_prev, se va entonces al caso 1 que se expone a continuación, de lo contrario, si To > 1,16*T_prev, se establece entonces T_Temp. = To, y se va al caso 2 que se expone a continuación.

\global\parskip1.000000\baselineskip

\global\parskip0.900000\baselineskip

Caso 1:: En primer lugar se calcula la correlación cruzada C2 (producto cruzado) entre el último subcuadro sintetizado y la señal de síntesis, partiendo de muestras To/2 antes del principio del último subcuadro (véase la correlación a la mitad del valor del tono descodificado).

\quad: Luego se calcula la correlación cruzada C3 (producto cruzado) entre el último subcuadro sintetizado y la señal de síntesis, partiendo de To/3 muestras antes del principio del último subcuadro (véase la correlación a un tercio del valor del tono descodificado).

\quad: Después se selecciona el valor máximo entre C2 y C3 y se calcula la correlación normalizada Cn (versión normalizada de C2 ó de C3) para el correspondiente submúltiplo de To (para To/2 si C2 > C3, y para To/3 si C3 > C2). Se llama T_nuevo al submúltiplo del tono correspondiente a la correlación normalizada más alta.

\quad: Si Cn > 0,95 (correlación normalizada fuerte), el nuevo período del tono es T_nuevo (en vez de To). Se da salida del valor T = T_nuevo del módulo de seguimiento del tono 401. Se guarda T_prev = T para el siguiente subcuadro de seguimiento del tono y se sale del módulo 401 de seguimiento del tono.

\quad: Si 0,7 < Cn < 0,95, se guarda entonces T_Temp. = To/2 o To/3, de acuerdo con C2 o C3, antes definidos, para comparaciones en el caso 2 que sigue. De lo contrario, si Cn < 0,7, se guarda T_Temp. = To.

Caso 2:: Se calculan todos los posibles valores de la relación Tn = [T_templn], donde [x] significa la parte entera de x, y n = 1, 2, 3, etc., es un número entero.

\quad: Se calculan todas las correlaciones cruzadas Cn en los submúltiplos del retardo del tono Tn. Se retiene Cn_max como la máxima correlación cruzada entre todos los Cn. Si n > 1 y Cn > 0,8, salida de Tn como la salida T del período del tono de la unidad 401 de seguimiento del tono. De lo contrario, salida T1 = T_Temp.. Aquí, el valor de T_Temp. dependerá de los cálculos hechos en el Caso 1 anterior.

\vskip1.000000\baselineskip

Es de hacer notar que el anterior ejemplo de módulo 401 de seguimiento del tono se da únicamente con fines ilustrativos. Se podría poner en práctica cualquier otro método o dispositivo de seguimiento del tono en el módulo 401 (o en el 303 y en el 502) para asegurar un mejor seguimiento del tono en el descodificador.

Por lo tanto, la salida del módulo de seguimiento del tono es el período T a ser usado en el filtro de tono 402 el cual, en esta realización preferida, es descrito por el filtro de la Ecuación (1). De nuevo, un valor de \alpha = 0 implica ausencia de filtrado (la salida del filtro de tono 402 es igual a su entrada), y un valor de \alpha = 1 corresponde a la máxima cantidad de potenciación del tono.

Una vez que se ha determinado la señal potenciada SE (Figura 4), se combina con la señal de entrada s, de tal modo que, como en la Figura 3, solamente se somete a la potenciación del tono la banda inferior. En la Figura 4, se usa una solución modificada comparada con la de la Figura 3. Puesto que el posprocesador del tono de la Figura 4 reemplaza a la unidad 703 de muestreo en sentido ascendente de la Figura 7, los filtros de sub-banda 301 y 305 de la Figura 3 se combinan con el filtro de interpolación 705 de la Figura 7,para minimizar el número de operaciones de filtrado, y el retardo del filtrado. Más concretamente, los filtros 404 y 407 de la Figura 4 actúan ambos como filtros de paso de banda (para separar las bandas de frecuencia) y como filtros de interpolación (para el muestreo en sentido ascendente desde 12,8 a 16 kHz). Estos filtros 404 y 407 podrían ser además diseñados de tal modo que el filtro de paso d banda 407 tenga limitaciones relajadas en su banda de tope de baja frecuencia (es decir, que no tiene que atenuar por completo la señal a bajas frecuencias). Esto se podría conseguir usando limitaciones de diseño similares a las representadas en la Figura 9. La Figura 9a es un ejemplo de respuesta de frecuencia para el filtro de paso bajo 404. Es de hacer notar que la ganancia de corriente continua de este filtro es de 5 (en vez de 1), ya que este filtro actúa también como filtro de interpolación, con una relación de interpolación de 5/4, lo que implica que la ganancia del filtro debe ser de 5 a 0 Hz. Además, la Figura 9 representa la respuesta de frecuencia del filtro de paso de banda 407, haciendo este filtro 407 complementario, en la banda baja, del filtro de paso de banda 404. En este ejemplo, el filtro 407 es un filtro de paso de banda, no un filtro de paso alto como el filtro 301, ya que debe actuar tanto como filtro de paso alto (tal como el filtro 301), que como filtro e paso bajo (tal como el filtro de interpolación 705). Con referencia de nuevo a la Figura 9, vemos que los filtros de paso bajo y de paso de banda 404 y 407 son complementarios cuando se consideran en paralelo, como en la Figura 4. Su respuesta de frecuencia combinada (cuando se usan en paralelo) se ha representado en la Figura 9c.

Para completar lo expuesto, se dan a continuación las tablas de coeficientes de filtros basados en esta realización ilustrativa de los filtros 404 y 407. Por supuesto, estas tablas de coeficientes de filtro se dan únicamente a modo de ejemplo. Ha de quedar entendido que estos filtros pueden ser sustituidos sin modificar el alcance, ni el espíritu, ni la naturaleza del presente invento.

\global\parskip1.000000\baselineskip

TABLA 1 Coeficientes de paso bajo del filtro 404

2

TABLA 2 Coeficientes de paso de banda del filtro 407

3

La salida del filtro de tono 402 de la Figura 4 se denomina SE. Para que sea recombinada con la señal de la rama Superior, se muestrea primero en sentido ascendente mediante el procesador 403, el filtro de paso bajo 404 y el procesador 405, y se añade a través de una sumadora 409 a la señal 410 de la rama Superior muestreada en sentido ascendente. La operación de muestreo en sentido ascendente en la rama Superior se efectúa con el procesador 406, el filtro de paso de banda 407 y el procesador 408.

Forma de realización alternativa del potenciador de tono propuesto

En la Figura 5 se ha representado una forma de realización alternativa de un potenciador de tono de dos bandas de acuerdo con una realización ilustrativa del presente invento. Es de hacer notar que la rama Superior de la Figura 5 no procesa la señal de entrada en absoluto. Esto significa que, en este caso particular, los filtros de la rama Superior de la Figura 2 (filtros adaptativos 201a y 201b) tienen características de entrada-salida triviales (la salida es igual a la entrada). En la rama inferior, la señal de entrada (señal a ser potenciada) es procesada primero a través de un filtro de paso bajo opcional 501, y luego a través de un filtro lineal denominado filtro inter armónicos 503, definido por la siguiente ecuación:

4

es de hacer notar el signo negativo delante del segundo término del lado de la derecha de la ecuación, comparado con el de la Ecuación (1). Es también de hacer notar que el factor de potenciación no ha sido incluido en la Ecuación (2), sino que se ha introducido por medio de una ganancia adaptativa por el procesador 504 dela Figura 5. El filtro 503 inter armónicos, descrito por la Ecuación (2), tiene una respuesta de frecuencia tal que elimina por completo los armónicos de una señal periódica que tenga un período de T muestras, y de tal modo que una sinusoide a una frecuencia que esté exactamente entre dos armónicos pasa a través del filtro sin cambio de amplitud pero con una inversión de fase de exactamente 180 grados (lo mismo que una inversión de signo). Por ejemplo, en la figura se ha representado la respuesta de frecuencia del filtro descrito por la Ecuación (2) cuando se elige el período (arbitrariamente) para T = 10 muestras. Una señal periódica con un período T = 10 muestras presentaría armónicos a las frecuencias normalizadas de 0,2, 0,4, 0,6, etc., y en la Figura 16 se ha representado que el filtro de la Ecuación (2), con T = 10 muestras, eliminaría por completo esos armónicos. Por otra parte, las frecuencias en el punto medio exacto entre los armónicos aparecerían en la salida del filtro con la misma amplitud, pero con un cambio de fase de 1800. Esa es la razón por la que el filtro descrito por la Ecuación (2) y usado como filtro 503 se denomina filtro inter armónicos.

El valor T del tono para uso en el filtro 503 inter armónicos se obtiene por adaptación mediante el módulo 502 de seguimiento del tono. El módulo 502 de seguimiento del tono opera sobre la señal de palabra descodificada y los parámetros descodificados, en forma similar a como lo hacía por los métodos anteriormente descritos representados en las Figuras 3 y 4.

Entonces, la salida 507 del filtro 503 inter armónicos es una señal formada esencialmente por la parte inter armónicos de la señal descodificada de entrada 112 con un cambio de fase de 1800 en el punto medio entre los armónicos de la señal. Entonces, se multiplica la salida 507 del filtro 503 inter armónicos por una ganancia \alpha (procesador 504) y a continuación se somete a un filtrado de paso bajo (filtro 505) para obtener la modificación de la banda de baja frecuencia que se aplica a la señal de palabra descodificada de entrada 112 de la Figura 5, para obtener la señal descodificada posprocesada (señal potenciada) 509.El coeficiente \alpha en el procesador 504 controla la cantidad de tono o la potenciación inter armónicos. Cuanto más por encima esté \alpha de 1, tanto más alta será la potenciación. Cuando \alpha sea igual a 0, no se obtiene potenciación alguna, es decir, que la salida de la sumadora 506 es exactamente igual a la señal de entrada (de palabra descodificada en la Figura 5). Se puede calcular el valor de \alpha usando varias soluciones. Por ejemplo, se puede usar la correlación de tono normalizada, que es bien conocida por quienes poseen los conocimientos corrientes de la técnica, para controlar el coeficiente \alpha: cuanto más alta sea la correlación de tono normalizada (cuanto más próxima esté a 1), tanto más alto será el valor de \alpha.

La señal de palabra descodificada posprocesada final 509 se obtiene añadiendo por medio de una sumadora 506 la salida del filtro de paso bajo 505 a la señal de entrada (señal de palabra descodificada 112 de la Figura 5). Dependiendo de la frecuencia de corte del filtro de paso bajo 505, el impacto de ese posprocesado quedará limitado a las bajas frecuencias de la señal de entrada 112, hasta una frecuencia dada. Las frecuencias más altas no serán afectadas efectivamente por el posprocesado.

Alternativa de una banda usando un filtro de paso alto de adaptación

Una última alternativa para poner en práctica el posprocesado sub-banda para potenciar la señal de síntesis a bajas frecuencias, es la de usar un filtro de paso alto adaptativo, cuya frecuencia de corte se varíe de acuerdo con el valor del tono de la señal de entrada. Concretamente, y sin hacer referencia a dibujo alguno, la potenciación de baja frecuencia usando esta realización ilustrativa se efectuaría, en cada cuadro de la señal de entrada, de acuerdo con los siguientes pasos:

1.: Determinar el valor del tono de la señal de entrada (período de la señal) usando la señal de entrada y posiblemente los parámetros descodificados (salida del descodificador del habla 105) si se posprocesa una señal de palabra descodificada; esta es una operación similar a la operación de seguimiento del tono de los módulos 303, 401 y 502.

2.: Calcular los coeficientes del filtro de paso alto de tal modo que la frecuencia de corte esté por debajo de, pero próxima a, la frecuencia fundamental de la señal de entrada; como alternativa, interpolar entre las frecuencias de corte conocidas de filtros de paso alto almacenadas (la interpolación puede hacerse en el dominio de derivaciones del filtro, o bien en el dominio de polo-cero), o bien en algún otro dominio transformado, tal como el dominio de las LSF (Frecuencias Espectrales de Línea) de ISF (Frecuencias Espectrales de Inmitancia).

3.: Filtrar el cuadro de señales de entrada con el filtro de paso alto calculado, para obtener la señal posprocesada para ese cuadro.

Es de señalar que la presente realización ilustrativa del presente invento es equivalente a usar solamente una rama de procesado en la Figura 2, y a definir el filtro adaptativo de esa rama como un filtro de paso alto de tono controlado. El posprocesado que se consigue con esta solución afectará únicamente al rango de frecuencias por debajo del primer armónico, y no a la energía inter armónicos por encima del primer armónico.

Aunque se ha descrito el presente invento en la descripción hecha en lo que antecede con referencia a realizaciones ilustrativas del mismo, estas realizaciones pueden ser modificadas a voluntad, dentro del alcance de las reivindicaciones que se acompañan, sin desviarse de la naturaleza del presente invento. Por ejemplo, aunque las realizaciones ilustrativas se han descrito en relación con una señal de palabra descodificada, quienes posean los conocimientos corrientes de la técnica apreciarán que los conceptos del presente invento pueden ser aplicados a otros tipos de señales descodificadas, y en particular, aunque no exclusivamente, a otros tipos de señales de sonido descodificadas.

Claims

1. Un método para el posprocesado de una señal de sonido descodificada (112) con objeto de potenciar una calidad percibida de dicha señal de sonido descodificada (112), que comprende:

: dividir la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia: y

: aplicar el posprocesado a por lo menos una se las señales de la sub-banda de frecuencia;

caracterizado porque para potenciar el tono, se aplica el posprocesado a solamente una sub-banda inferior de las señales de sub-banda de frecuencia.

2. Un método de posprocesado según la reivindicación 1, que comprende además sumar las señales de sub-banda de frecuencia, después del posprocesado de dicha al menos una señal de sub-banda, para producir una señal de sonido descodificada posprocesada de salida.

3. Un método de posprocesado según la reivindicación 1, en el que la aplicación del posprocesado a por lo menos una de las señales de sub-banda de frecuencia comprende pasar por un filtro adaptativo dicha al menos una señal de sub-banda de frecuencia.

4. Un método de posprocesado según la reivindicación 1, en el que la división de la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia comprende filtrar la sub-banda de la señal de sonido descodificada (112) para producir la pluralidad de señales de sub-banda de frecuencia.

5. Un método de posprocesado según la reivindicación 1, en el que, para dicha al menos una de las señales de sub-banda de frecuencia:

: la aplicación del posprocesado comprende pasar por un filtro adaptativo la señal de sonido descodificada (112), y

: la división de la señal de sonido descodificada (112) comprende filtrar la sub-banda de la señal de sonido descodificada pasada por el filtro adaptativo.

6. Un método de posprocesado según la reivindicación 1, en el que:

: la división de la señal de sonido descodificada en una pluralidad de señales de sub-banda de frecuencia comprende:

-: un filtrado de paso alto de la señal de sonido descodificada (112) para producir una señal de banda alta de frecuencia (310); y

-: un primer filtrado de paso bajo de la señal de sonido descodificada (112) para producir una señal de banda baja de frecuencia (311); y

: la aplicación del posprocesado a por lo menos una de las señales de sub-banda de frecuencia comprende:

-: aplicar el posprocesado a la señal de sonido descodificada (112) antes del primer filtrado de paso bajo de la señal de sonido descodificada (112) para producir la señal de banda baja de frecuencia (311).

7. Un método de posprocesado según la reivindicación 6, en el que la aplicación del posprocesado a la señal de sonido descodificada (112) comprende potenciar el tono de dicha señal de sonido descodificada (112) para reducir un ruido inter armónicos en la señal de sonido descodificada (112).

8. Un método de posprocesado según la reivindicación 7, en el que la aplicación del posprocesado a la señal de sonido descodificada (112) comprende además un segundo filtrado de paso bajo de la señal de sonido descodificada (112) antes de potenciar el tono de dicha señal de sonido descodificada (112).

9. Un método de posprocesado según la reivindicación 6, que comprende además sumar las señales de banda alta (310) y de banda baja (311) de frecuencia para producir una señal de sonido descodificada posprocesada de salida.

10. Un método de posprocesado según la reivindicación 1, en el que:

: la división de la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia comprende:

-: filtrado de paso de banda de la señal de sonido descodificada (112) para producir una señal de banda superior de frecuencia (410); y

-: filtrado de paso bajo de la señal de sonido descodificada (112) para producir una señal de banda inferior de frecuencia; y

: la aplicación del posprocesado a por lo menos una de las señales de sub-banda de frecuencia, comprende:

: aplicar el posprocesado a la señal de sonido descodificada (112) antes del filtrado de paso bajo de la señal de sonido descodificada (112) para producir la señal de banda inferior de frecuencia.

11. Un método de posprocesado según la reivindicación 10, en el que la aplicación del posprocesado a la señal de banda inferior de frecuencia comprende potenciar el tono de la señal de sonido descodificada (112) antes del filtrado de paso bajo de la señal de sonido descodificada (112).

12. Un método de posprocesado según la reivindicación 10, que comprende además sumar las señales de banda superior y de banda inferior de frecuencia para producir una señal de sonido descodificada posprocesada de salida.

13. Un método de posprocesado según la reivindicación 1, en el que:

: la división de la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia, comprende:

-: filtrado de paso bajo de la señal de sonido descodificada (112) para producir una señal de banda baja de frecuencia; y

-: aplicar el posprocesado a la señal de banda baja de frecuencia.

14. Un método de posprocesado según la reivindicación 13, en el que la aplicación del posprocesado a la señal de banda baja de frecuencia comprende procesar la señal de sonido descodificada (112) a través de un filtro inter armónicos (5503) para la atenuación inter armónicos de la señal de sonido descodificada (112).

15. Un método de posprocesado según la reivindicación 14, en el que la aplicación del posprocesado a la señal de banda baja de frecuencia comprende multiplicar la señal de sonido descodificada filtrada inter armónicos (507) mediante una ganancia (\alpha) de potenciación del tono adaptativa.

16. Un método de posprocesado según la reivindicación 14, que comprende además el filtrado de paso bajo de la señal de sonido descodificada (112) antes de procesar la señal de sonido descodificada (112) a través del filtro inter armónicos (503).

17. Un método de posprocesado según la reivindicación 13, que comprende además sumar la señal de sonido descodificada (112) y la señal de banda baja de frecuencia para producir una señal de sonido descodificada posprocesada de salida (509).

18. Un método de posprocesado según la reivindicación 13, en el que la aplicación del posprocesado a la señal de banda baja de frecuencia comprende procesar la señal de sonido descodificada (112) a través de un filtro inter armónicos (503) que tiene la siguiente función de transferencia:

5

para la atenuación inter armónicos de la señal de sonido descodificada, en donde x[n] es la señal de sonido descodificada, y[n] es la señal de sonido descodificada filtrada inter armónicos en una sub-banda dada, y T es un retardo del tono de la señal de sonido descodificada.

19. Un método de posprocesado según la reivindicación 18, que comprende además sumar la señal de sonido descodificada no procesada (112) y la señal de sub-banda baja de frecuencia filtrada inter armónicos (508) para producir una señal de sonido descodificada posprocesada de salida (509).

20. Un método de posprocesado según la reivindicación 1, en el que la aplicación del posprocesado a por lo menos una de las señales de sub-banda de frecuencia comprende potenciar el tono de la señal de sonido descodificada (112) usando la siguiente ecuación:

6

donde x[n] es la señal de sonido descodificada, y[n] es la señal de sonido descodificada de tono potenciado en una sub-banda descodificada, T es un retardo del tono de la señal de sonido descodificada, y \alpha es un coeficiente que varía entre 0 1 1, para controlar la cantidad de atenuación inter armónicos de la señal de sonido descodificada.

21. Un método de posprocesado según la reivindicación 20, que comprende recibir el retardo T del tono a través de una corriente de bits.

22. Un método de posprocesado según la reivindicación 20, que comprende descodificar el retardo T del tono a partir de una corriente de bits codificada recibida.

23. Un método de posprocesado según la reivindicación 20, que comprende calcular el retardo T del tono en respuesta a la señal de sonido descodificada (112) para un seguimiento mejorado del tono.

24. Un método de posprocesado según la reivindicación 1, en el que, durante la codificación, se muestrea en sentido descendente la señal de sonido desde una frecuencia de muestreo superior hasta una frecuencia de muestreo inferior, y en que la división de la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia comprende muestrear en sentido ascendente la señal de sonido descodificada desde la frecuencia de muestreo inferior a la frecuencia de muestreo superior.

25. Un método de posprocesado según la reivindicación 24, en el que la división de la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia comprende el filtrado de sub-banda de la señal de sonido descodificada (112), y en el que el muestreo en sentido ascendente de la señal de sonido descodificada (112) desde la frecuencia de muestreo inferior a la frecuencia de muestreo superior se combina en el filtrado sub-banda.

26. Un método de posprocesado según la reivindicación 24, que comprende:

: filtrar en paso de banda la señal de sonido descodificada (112) para producir una señal de banda de frecuencia superior, siendo combinada dicho filtrado de paso de banda de la señal de sonido descodificada (112) con el muestreo en sentido ascendente de la señal de sonido descodificada (112), desde la frecuencia de muestreo inferior a la frecuencia de muestreo superior; y

: posprocesar la señal de sonido descodificada (112) y filtrar en paso bajo la señal de sonido descodificada (112) posprocesada, para producir una señal de banda de frecuencia inferior, SINDO combinado dicho filtrado de paso bajo de la señal de sonido descodificada posprocesada con el muestreo en sentido ascendente de la señal de sonido descodificada posprocesada desde la frecuencia de muestreo inferior a la frecuencia de muestreo superior.

27. Un método de posprocesado según la reivindicación 26, que comprende además sumar la señal de banda de frecuencia superior a la señal de banda de frecuencia inferior para formar una señal de sonido descodificada posprocesada y muestreada en sentido ascendente de salida.

28. Un método de posprocesado según la reivindicación 26, en el que el posprocesado de la señal de sonido descodificada (112) comprende potenciar el tono de la señal de sonido descodificada (112) para reducir un ruido inter armónicos en la señal de sonido descodificada (112).

29. Un método de posprocesado según la reivindicación 28, en el que la potenciación del tono de la señal de sonido descodificada (112) comprende procesar la señal de sonido descodificada (112) por medio dela siguiente ecuación:

7

donde s[n] es la señal de sonido descodificada, y[n] es la señal de sonido descodificada potenciada en tono en una sub-banda dada, T es un retardo del tono de la señal de sonido descodificada, y \alpha es un coeficiente que varía entre 0 y 1 para controlar una cantidad de atenuación inter armónicos de la señal de sonido descodificada.

30. Un método de posprocesado según la reivindicación 1, en el que:

: la división de la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia comprende dividir la señal de sonido descodificada (112) en una señal de banda de frecuencia superior y una señal de banda de frecuencia inferior; y

: la aplicación del posprocesado a por lo menos una de las señales de sub-banda de frecuencia comprende el posprocesado de la señal de banda de frecuencia inferior.

\newpage

31. Un método de posprocesado según la reivindicación 1, en el que la aplicación del posprocesado a dicha al menos una de las señales de sub-banda de frecuencia comprende:

: determinar un valor del tono de la señal de sonido descodificada;

: calcular, en relación con el valor determinado del tono, un filtro de paso alto con una frecuencia de corte por debajo de una frecuencia fundamental de la señal de sonido descodificada; y

: procesar la señal de sonido descodificada a través del filtro de paso alto calculado.

32. Un dispositivo para posprocesado (108) de una señal de sonido descodificada (112) con objeto de potenciar una calidad percibida de dicha señal de sonido descodificada (112), que comprende:

: medios para dividir (202a a 202N; 301, 305; 407, 404; 505) la señal de sonido descodificada (112) en una pluralidad de señales de sub-banda de frecuencia; y

: medios para posprocesar (201 a 201 N; 307; 401, 402; 503, 504, 502) al menos una de las señales de sub-banda de frecuencia;

: medios para potenciar el tono de una señal de sub-banda; y

caracterizado porque los medios para posprocesar están adaptados para suministrar solamente una sub-banda inferior de las señales de sub-banda de frecuencia a los medios de potenciación del tono.

33. Un dispositivo para posprocesar (108) según la reivindicación 32, que comprende además medios de sumadora (203; 306; 409; 506) para sumar las señales de sub-banda de frecuencia, después de posprocesar dichas al menos una señal de sub-banda de frecuencia para producir una señal de sonido descodificada posprocesada de salida (113).

34. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que los medios para posprocesar comprenden medios de filtro adaptativo (201 a 201 N; 307) a los que se suministra la señal de sonido descodificada (112).

35. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que los medios de división comprenden medios de filtro de sub-banda (202a a 202N; 301, 305; 407, 404; 505) a los que se suministra la señal de sonido descodificada (112).

36. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que, para dicha al menos una señal de sub-banda de frecuencia:

: los medios para posprocesar comprenden un filtro adaptativo (201 a; 307), a los que se suministra la señal de sonido descodificada (112) para producir una señal de sonido descodificada sometida a filtrado adaptativo (204 a; SLE); y

: los medios de división comprenden un filtro de sub-banda (202a) al que se suministra la señal de sonido descodificada sometida a filtrado adaptativo (204 A; SLE).

37. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que:

los medios de división comprenden:

-: un filtro de paso alto (301) al que se suministra la señal de sonido descodificada (112) para producir una señal de banda de frecuencia alta (310); y

-: un primer filtro de paso bajo (305) al que se suministra la señal de sonido descodificada (112) para producir una señal de banda de banda baja (311); y

\vskip1.000000\baselineskip

los medios para posprocesado comprenden:

-: un posprocesador (307) para el posprocesado de la señal de sonido descodificada (112) antes del filtrado de paso bajo de la señal de sonido descodificada (112) a través del primer filtro de paso bajo (305).

38. Un dispositivo para posprocesar (108) según la reivindicación 37, en el que el posprocesador (307) comprende un potenciador del tono (304) al que se suministra la señal de sonido descodificada (112) para producir una señal de sonido descodificada de tono potenciad (SLE).

39. Un dispositivo para posprocesar (108) según la reivindicación 38, en el que el posprocesador (307) comprende además un segundo filtro de paso bajo (302) al que se suministra la señal de sonido descodificada (112) para producir una señal de sonido descodificada sometida a filtrado de paso bajo (SL) que se suministra al potenciador del tono (304).

40. Un dispositivo para posprocesar (108) según la reivindicación 37, que comprende además una sumadora (306) para sumar las señales de banda de frecuencia alta (310) y de banda de banda baja (311) para producir una señal de sonido descodificada posprocesada de salida (113).

41. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que:

los medios de división comprenden:

-: un filtro de paso de banda (407) al que se suministra la señal de sonido descodificada para producir una señal de banda de frecuencia superior (410); y

-: un filtro de paso bajo (404) al que se suministra la señal de sonido descodificada para producir una señal de banda de frecuencia inferior; y

los medios para posprocesar comprenden:

-: un posprocesador (402; 401) para el posprocesado de la señal de sonido descodificada, antes del filtrado de paso bajo de la señal de sonido descodificada a través del filtro de paso bajo (404),para producir la señal de banda de frecuencia inferior.

42. Un dispositivo para posprocesar (108) según la reivindicación 41, en el que el posprocesador comprende un filtro de tono (402) al que se suministra la señal de sonido descodificada (s) para producir una señal de sonido descodificada potenciada en tono (SE) suministrada al filtro de paso bajo (404).

43. Un dispositivo para posprocesar (108) según la reivindicación 41, que comprende además una sumadora (409) para sumar las señales de banda de frecuencia superior y de banda de frecuencia inferior para producir una señal de sonido descodificada posprocesada de salida.

44. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que:

los medios de división comprenden:

-: un filtro de paso bajo (505) al que se suministra la señal de sonido descodificada (112) para producir una señal de banda de banda baja (508); y

los medios para posprocesar comprenden:

-: un posprocesador (503; 504; 502) para el posprocesado de la señal de sonido descodificada (112) para producir una señal de sonido descodificada posprocesada suministrada al filtro de paso bajo (505).

45. Un dispositivo para posprocesar (108) según la reivindicación 44, en el que el posprocesador (503; 504; 502) comprende un filtro inter armónicos (503) al que se suministra la señal de sonido descodificada (112) para producir una señal de sonido descodificada atenuada, inter armónicos, (507).

46. Un dispositivo para posprocesar (108) según la reivindicación 45, en el que el posprocesador (503; 504; 502) comprende un multiplicador (504) para multiplicar la señal de sonido descodificada (507) atenuada, inter armónicos, por una ganancia de potenciación del tono adaptativa (\alpha).

47. Un dispositivo para posprocesar (108) según la reivindicación 45, que comprende además un filtro de paso bajo (501) al que se suministra la señal de sonido descodificada (112) para producir una señal de sonido descodificada sometida a filtrado de paso bajo (SLP) suministrada al filtro inter armónicos (503).

48. Un dispositivo para posprocesar (108) según la reivindicación 44, que comprende además una sumadora (506) para sumar la señal de sonido descodificada (112) y la señal de banda de banda baja (508) para producir una señal de sonido descodificada posprocesada de salida (509).

49. Un dispositivo para posprocesado (108) según la reivindicación 44, en el que el posprocesador (503; 504; 502) comprende un filtro inter armónicos (503) que tiene la siguiente función de transferencia:

\vskip1.000000\baselineskip

8

para atenuar los inter armónicos de la señal de sonido descodificada, donde x[n] es la señal de sonido descodificada, y[n] es la señal de sonido descodificada filtrada de inter armónicos en una sub-banda dada, y T es un retardo del tono de la señal de sonido descodificada.

50. Un dispositivo de posprocesado (108) según la reivindicación 49, que comprende además una sumadora (506) para sumar la señal de sonido descodificada (112) no procesada y la señal de banda de banda baja sometida a filtrado de inter armónicos (508) para producir una señal de sonido descodificada posprocesada de salida (509).

51. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que los medios para posprocesar (307) comprenden un potenciador del tono (304) de la señal de sonido descodificada (112), usando la siguiente ecua-
ción:

9

donde x[n] es la señal de sonido descodificada, y[n] es la señal de sonido descodificada potenciada en tono en una sub-banda dada, T es un retardo del tono de la señal de sonido descodificada, y \alpha es un coeficiente que varía entre 0 y 1 para controlar la cantidad de atenuación de inter armónicos de la señal de sonido descodificada (112).

52. Un dispositivo para posprocesar (108) según la reivindicación 51, que comprende medios para recibir el retardo T del tono a través de una corriente de bits.

53. Un dispositivo para posprocesar (108) según la reivindicación 51, que comprende medios para descodificar el retardo T del tono, a partir de una corriente de bits codificada recibida.

54. Un dispositivo para posprocesar (108) según la reivindicación 51, que comprende medios para calcular el retardo T del tono en respuesta a la señal de sonido descodificada para un seguimiento mejorado del tono.

55. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que, durante la codificación, la señal de sonido es muestreada en sentido descendente desde una frecuencia de muestreo superior a una frecuencia de muestreo inferior, y en el que los medios de dividir comprenden medios para muestreo en sentido ascendente (403, 404, 405; 406, 407, 408) la señal de sonido descodificada desde la frecuencia de muestreo inferior a la frecuencia de muestreo superior.

56. Un dispositivo para posprocesar (108) según la reivindicación 55, en el que los medios de dividir comprenden medios de filtro de sub-banda(407), a los que se suministra la señal de sonido descodificada, y en el que los medios de muestreo en sentido ascendente (406) están combinados con los medios de filtro de sub-banda (407).

57. Un dispositivo para posprocesar (108) según la reivindicación 55, en el que:

-: los medios para posprocesar comprenden:

: medios para posprocesar (402; 401) de la señal de sonido descodificada; y

-: los medios de dividir comprenden:

: un filtro de paso de banda (407) al que se suministra la señal de sonido descodificada para producir una señal de banda de frecuencia superior, estando dicho filtro de paso de banda (407) combinado con los medios de muestreo en sentido ascendente (406, 407, 408); y un filtro de paso bajo (404) al que se suministra la señal de sonido descodificada posprocesada para producir una señal de banda de frecuencia inferior, estando dicho filtro de paso de banda (404) combinado con los medios de muestreo en sentido ascendente (403, 404, 405).

\vskip1.000000\baselineskip

58. Un dispositivo para posprocesar (108) según la reivindicación 57, que comprende además una sumadora (409) para sumar la señal de banda de frecuencia superior (410) con la señal de banda de frecuencia inferior para formar una señal de sonido descodificada posprocesada de salida y muestreada en sentido ascendente.

59. Un dispositivo para posprocesar (108) según la reivindicación 57, en el que los medios para posprocesar de la señal de sonido descodificada comprenden medios para potenciación del tono (402) de la señal de sonido descodificada, para reducir el ruido inter armónicos en la señal de sonido descodificada.

60. Un dispositivo para posprocesar (108) según la reivindicación 59, en el que los medios para potenciación del tono (402) comprenden medios para procesar la señal de sonido descodificada por medio de la siguiente ecuación:

10

donde x[n] es la señal de sonido descodificada, y[n] es la señal de sonido descodificada potenciada en tono en una sub-banda dada, T es un retardo del tono de la señal de sonido descodificada, y \alpha es un coeficiente que varía entre 0 y 1,para controlar la cantidad de atenuación inter armónicos de la señal de sonido descodificada.

61. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que:

: los medios de dividir comprenden medios para dividir la señal de sonido descodificada en una señal de banda de frecuencia superior (711) y una señal de banda inferior de frecuencia (713); y

: los medios para posprocesar (703) comprenden medios para posprocesar la señal de banda de frecuencia inferior.

62. Un dispositivo para posprocesar (108) según la reivindicación 32, en el que los medios par posprocesar comprenden:

: medios (303; 401; 502) para determinar un valor del tono de la señal de sonido descodificada;

: medios para calcular, con relación al valor determinado del tono, un filtro de paso alto con una frecuencia de corte por debajo de una frecuencia fundamental de la señal de sonido descodificada; y

: medios para procesar la señal de sonido descodificada (112) a través del filtro de paso alto calculado.

63. Un descodificador de la señal de sonido (105) que comprende:

: una entrada para recibir una señal de sonido codificada (110);

: un descodificador de parámetros (108) al que se suministra la señal de sonido codificada (110) para descodificar los parámetros de codificación de la señal de sonido;

: un descodificador de la señal de sonido (107) al que se suministran los parámetros de codificación de la señal de sonido descodificada para producir una señal de sonido descodificada (112); y

: un dispositivo para posprocesar (108) según cualquiera de las reivindicaciones 32 a 62,para posprocesar la señal de sonido descodificada (112) con objeto de potenciar una calidad percibida de dicha señal de sonido descodificada (112).