ES3010657T3

ES3010657T3 - Audio decoding with selective post filter

Info

Publication number: ES3010657T3
Application number: ES24182508T
Authority: ES
Inventors: Barbara Resch; Kristofer Kjoerling; Lars Villemoes
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2010-07-02
Filing date: 2011-06-23
Publication date: 2025-04-04
Anticipated expiration: 2031-06-23
Also published as: PL3079152T3; US20220157327A1; CA3239015C; CA3207181A1; SG10201604866VA; US9858940B2; CA2976485C; KR20210040184A; US10811024B2; CN105355209A; EP2757560B1; KR102238082B1; MY201385A; CA3160488A1; CA2976490A1; EP4488996B1; HUE038985T2; DK3079152T3; KR102030335B1; CA3093517A1

Abstract

En un aspecto, la invención proporciona un método de codificación de audio que se caracteriza por decidir si el dispositivo que decodificará el flujo de bits resultante debe aplicar posfiltrado, incluyendo la atenuación del ruido interarmónico. Por lo tanto, la decisión sobre el uso del posfiltro, codificado en el flujo de bits, se toma independientemente de la decisión sobre el modo de codificación más adecuado. En otro aspecto, se proporciona un método de decodificación de audio con una etapa de decodificación seguida de una etapa de posfiltrado, incluyendo la atenuación del ruido interarmónico, y que se caracteriza por una etapa de desactivación del posfiltro según la información de posfiltrado codificada en la señal del flujo de bits. Este método es ideal para señales de audio de origen mixto gracias a su capacidad para desactivar el posfiltro basándose únicamente en la información de posfiltrado y, por lo tanto, independientemente de factores como el modo de codificación actual. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Descodificación de audio con posfiltro selectivo

Referencia cruzada a la solicitud relacionada

Esta solicitud es una solicitud divisional europea de la solicitud de patente europea EP 21201950.9 (referencia: D10008EP08), para la que el formulario 1001 de la OEP se presentó el 11 de octubre de 2021.

Campo técnico

La presente invención se refiere, en general, a la codificación de audio digital y, más precisamente, a técnicas de descodificación para señales de audio que contienen componentes de distintos caracteres.

Antecedentes

Una extendida clase de métodos de codificación para señales de audio que contienen habla o canto incluye la predicción lineal excitada por código (CELP) aplicada en alternación en el tiempo con distintos métodos de codificación, que incluyen métodos de codificación del dominio de la frecuencia, especialmente adaptados para la música, o métodos de naturaleza general, para tener en cuenta variaciones en el carácter entre sucesivos periodos de tiempo de la señal de audio. Por ejemplo, un descodificador simplificado de Codificación Unificada de Habla y Audio (USAC; véase la norma ISO / IEC 23003-3) del Grupo de Expertos en Imágenes en Movimiento (MPEG) es operable en al menos tres modalidades de descodificación, la Codificación Avanzada de Audio (AAC; véase la norma ISO / IEC 13818-7), la CELP algebraica (ACELP) y la excitación codificada por transformación (TCX), según se muestra en la parte superior de la figura 2 adjunta.

Las diversas realizaciones de la CELP están adaptadas a las propiedades de los órganos humanos del habla y, posiblemente, al sentido humano del oído. Según se usa en esta solicitud, la CELP se referirá a todas las posibles realizaciones y variantes, incluyendo, pero sin limitarse a, la ACELP, la CELP de banda ancha y estrecha, la SB-CELP (CELP de subbanda), la CELP de baja y alta velocidad, la RCELP (CELP relajada), la LD-CELP (CELP de bajo retardo), la CS-CELP (CELP de estructura conjugada), la CS-ACELP (ACELP de estructura conjugada), la PSI-CELP (CELP de innovación síncrona en tono) y la v Se LP (predicción lineal excitada por suma vectorial). Los principios de la CELP son expuestos por R. Schroeder y S. Atal en los Anales de la Conferencia Internacional del IEEE sobre Acústica, Habla y Procesamiento de Señales (ICASSP), vol. 10, págs. 937 a 940, 1985, y algunas de sus aplicaciones están descritas en las referencias 25 a 29 citadas en la publicación de Chen y Gersho en las Transacciones del IEEE sobre Habla y Procesamiento de Audio, vol. 3, n.° 1, de 1995. Según lo adicionalmente detallado en el artículo anterior, un descodificador de CELP (o, análogamente, un sintetizador de habla de CELP) puede incluir un predictor de tono, que restaura el componente periódico de una señal de habla codificada, y un libro de códigos de impulsos, desde el cual se añade una secuencia de innovación. El predictor de tono puede incluir, a su vez, un predictor de retardo largo para restaurar el tono y un predictor de retardo corto para restaurar las regiones formantes por medio de la modelación de la envolvente espectral. En este contexto, el tono se concibe, en general, como la frecuencia fundamental del componente sonoro tonal producido por las cuerdas vocales, y adicionalmente realzado por las partes resonantes del conducto vocal. Esta frecuencia, junto con sus armónicos, dominará el habla o el canto. En términos generales, los métodos de CELP son los más adecuados para el procesamiento del canto solista o unipersonal, para el cual la frecuencia del tono está bien definida y es relativamente fácil de determinar.

Para mejorar la calidad percibida del habla codificada por CELP, es práctica común combinarla con el posfiltrado (o realce tonal, en otras palabras). La Patente Estadounidense n.° 4.969.192 y la sección II del artículo de Chen y Gersho revelan propiedades deseables de tales posfiltros, esto es, su capacidad de suprimir los componentes de ruido situados entre los armónicos del tono vocal detectado (parte a largo plazo, véase la sección IV). Se cree que una parte importante de este ruido emana del modelado de la envolvente espectral. La parte a largo plazo de un posfiltro sencillo puede ser diseñada para que tenga la siguiente función de transferencia:

donde T es un periodo tonal estimado en términos del número de muestras y a es la ganancia del posfiltro, según se muestra en las figuras 1 y 2. De manera similar a un filtro peine, un filtro de ese tipo atenúa las frecuencias 1/(2T), 3/(2T), 5/(2T), ..., que están situadas a mitad de camino entre los armónicos de la frecuencia tonal y las frecuencias adyacentes. La atenuación depende del valor de la ganancia a. Los posfiltros levemente más sofisticados aplican esta atenuación solamente a las frecuencias bajas - de aquí, el término habitualmente usado de posfiltro bajo - donde el ruido es más perceptible. Esto puede ser expresado aplicando en cascada la función de transferencia He descrita anteriormente y un filtro Hlp de paso bajo. Así, el valor descodificado posprocesado de Se proporcionado por el posfiltro vendrá dado, en el dominio de la transformación, por

en donde

y S es la señal descodificada que es suministrada como entrada al posfiltro. La Figura 3 muestra una realización de un posfiltro con estas características, que es adicionalmente expuesto en la sección 6.1.3 de la Especificación Técnica ETSI TS 126 290, versión 6.3.0, edición 6. Como sugiere esta figura, la información tonal está codificada como un parámetro en la señal del flujo de bits y es extraída por un módulo de rastreo tonal, conectado comunicativamente con el filtro de predicción a largo plazo que lleva a cabo las operaciones expresadas por P<lt>.

La parte a largo plazo descrita en el párrafo anterior puede ser usada sola. Alternativamente, se dispone en serie con un filtro modelador del ruido que preserva los componentes en los intervalos de frecuencia correspondientes a las regiones formantes y que atenúa el ruido en otras regiones espectrales (parte a corto plazo; véase la sección III), es decir, en los ‘valles espectrales’ de la envolvente de región formante. Como otra posible variación, este grupo de filtros está adicionalmente suplementado por un filtro de tipo de paso alto, para reducir un deterioro percibido, debido a la inclinación espectral de la parte a corto plazo.

El documento M. Neuendorf (ed.): WD7 de USAC, 92ésima Reunión del MPEG, Dresde, n.° N11299, y la WO 99/38144 revelan sistemas de procesamiento de audio con la aplicación selectiva del posfiltrado.

Las señales de audio que contienen una mezcla de componentes de distintos orígenes - por ejemplo, tonal, no tonal, vocal, instrumental, no musical - no siempre son reproducidas por las tecnologías disponibles de codificación digital de manera satisfactoria. Más precisamente, ha sido observado que las tecnologías disponibles son deficientes en la manipulación de tal material de audio no homogéneo, favoreciendo, en general, a uno de los componentes en perjuicio del otro. En particular, la música que contiene canto acompañado por uno o más instrumentos o partes corales, que ha sido codificada por métodos de la naturaleza descrita anteriormente, será a menudo descodificada con distorsiones perceptibles que arruinan parte de la experiencia auditiva.

Resumen de la invención

A fin de mitigar al menos algunos de los inconvenientes esbozados en la sección anterior, un objetivo de la presente invención es proporcionar métodos y dispositivos adaptados para la codificación y descodificación de audio, de señales que contienen una mezcla de componentes de diferentes orígenes. Como objetivos particulares, la invención busca proporcionar tales métodos y dispositivos que son adecuados desde el punto de vista de la eficacia de codificación o la fidelidad de reproducción (percibida) o ambas.

La invención logra al menos uno de estos objetivos proporcionando un sistema descodificador, un método de descodificación y un producto de programa informático para llevar a cabo el método, como se define en las reivindicaciones independientes. Las reivindicaciones dependientes definen realizaciones de la invención.

Los inventores han percibido que algunas distorsiones percibidas en las señales de audio descodificadas de origen no homogéneo provienen de una conmutación inadecuada entre varias modalidades de codificación, de las cuales al menos una incluye el posfiltrado en el descodificador y al menos una no lo hace. Más precisamente, los posfiltros disponibles eliminan no solamente el ruido interarmónico (y, donde corresponda, el ruido en los valles espectrales), sino también los componentes de señales que representan acompañamiento instrumental o vocal, y otro material de naturaleza ‘deseable’. El hecho de que la diferencia apenas perceptible en los valles espectrales puede ser tan grande como de 10 dB (según lo observado por Ghitza y Goldstein, Trans. del IEEE sobre Acústica, Habla y Procesamiento de Señales, vol. ASSP-4, págs. 697 a 708, de 1986) puede haber sido tomado como justificación por muchos diseñadores para filtrar de manera importante estas bandas de frecuencia. La degradación de la calidad por la propia atenuación interarmónica (y de valle espectral) puede, sin embargo, ser menos importante que la de las ocasiones de conmutación. Cuando el posfiltro está activado, el fondo de una voz cantante suena repentinamente atenuado y, cuando el filtro está desactivado, el fondo se hace instantáneamente más sonoro. Si la conmutación tiene lugar frecuentemente, debido a la naturaleza de la señal de audio o a la configuración del dispositivo de codificación, habrá una distorsión de conmutación. Como ejemplo, un descodificador de USAC puede ser operable tanto en una modalidad de ACELP combinada con el posfiltrado como en una modalidad de TCX sin posfiltrado. La modalidad de ACELP se usa en episodios donde está presente un componente vocal dominante. De tal modo, la conmutación a la modalidad de ACELP puede ser activada por el inicio del canto, tal como al principio de una nueva frase musical, al comienzo de un nuevo verso, o simplemente después de un episodio donde se considera que el acompañamiento sofoca la voz cantante, en el sentido de que el componente vocal ya no es prominente. Los experimentos han confirmado que una solución alternativa, o más bien una elusión del problema, por la cual se usa la codificación TCX en toda su extensión (y la modalidad ACELP está inhabilitada), no remedia el problema, ya que aparecen distorsiones como de reverberación.

Se hace notar que los métodos y aparatos dados a conocer en esta sección pueden ser aplicados, después de modificaciones adecuadas dentro de las capacidades del experto, que incluyen la experimentación rutinaria, a la codificación de señales con varios componentes, posiblemente correspondientes a distintos canales, tales como canales estéreo. A lo largo de la presente solicitud, el realce tonal y el posfiltrado son usados como sinónimos. Se hace notar además que la AAC está expuesta como un ejemplo representativo de métodos de codificación del dominio de la frecuencia. En efecto, la aplicación de la invención a un descodificador o codificador operable en una modalidad de codificación del dominio de la frecuencia, distinto a la AAC, solamente requerirá pequeñas modificaciones, si acaso, dentro de las capacidades del experto. De manera similar, TCX se menciona como un ejemplo de codificación por transformación de predicción lineal ponderada y de codificación por transformación, en general.

Las características de dos o más realizaciones descritas anteriormente en la presente memoria pueden ser combinadas, a menos que sean claramente complementarias, en realizaciones adicionales. El hecho de que dos características sean mencionadas en distintas reivindicaciones no excluye que puedan ser combinadas con ventaja. Análogamente, también pueden ser proporcionadas realizaciones adicionales por la omisión de ciertas características que no sean necesarias o no sean esenciales para el propósito deseado.

Breve descripción de los dibujos

Se describirán ahora realizaciones de la presente invención con referencia a los dibujos adjuntos, en los cuales:

la figura 1 es un diagrama de bloques que muestra un descodificador convencional con posfiltro;

la figura 2 es un diagrama de bloques esquemático de un descodificador convencional operable en modalidad de AAC, ACELP y TCX, y que incluye un posfiltro permanentemente conectado aguas abajo del módulo de ACELP;

la figura 3 es un diagrama de bloques que ilustra la estructura de un posfiltro;

las figuras 4 y 5 son diagramas de bloques de dos descodificadores según la invención;

las figuras 6 y 7 son diagramas de bloques que ilustran diferencias entre un descodificador convencional (figura 6) y un descodificador (figura 7) según la invención;

la figura 8 es un diagrama de bloques de un codificador compatible con un descodificador según la invención;

las figuras 9 y 10 son diagramas de bloques que ilustran diferencias entre un descodificador convencional (figura 9) y un descodificador (figura 10) según la invención; y

la figura 11 es un diagrama de bloques de un posfiltro autónomo que puede ser activado y desactivado selectivamente.

Descripción detallada de realizaciones

La figura 4 es un dibujo esquemático de un sistema descodificador 400, según una realización de la invención, que tiene como su entrada una señal de flujo de bits y como su salida una señal de audio. Como en los descodificadores convencionales mostrados en la figura 1, un posfiltro 440 está dispuesto aguas abajo de un módulo de descodificación 410, pero puede ser incorporado a, o apartado de, el trayecto de descodificación, operando un conmutador 442. El posfiltro está habilitado en la posición de conmutación mostrada en la figura. Sería inhabilitado si el conmutador se fijara en la posición opuesta, por lo cual la señal del módulo de descodificación 410, en cambio, sería conducida por la línea 444 de elusión. Es una contribución inventiva que el conmutador 442 sea controlable mediante la información de posfiltrado contenida en la señal del flujo de bits, de modo que el posfiltrado pueda ser aplicado y eliminado, independientemente del estado actual del módulo de descodificación 410. Debido a que un posfiltro 440 funciona con cierto retardo - por ejemplo, el posfiltro mostrado en la figura 3 introducirá un retardo equivalente al menos al periodo tonal T - un módulo 443 de retardo de compensación está dispuesto en la línea 444 de elusión para mantener los módulos en una condición sincronizada en la conmutación. El módulo 443 de retardo retarda la señal en el mismo periodo que lo haría el posfiltro 440, pero no procesa de otro modo la señal. Para minimizar el tiempo de traspaso, el módulo 443 de retardo de compensación recibe la misma señal que el posfiltro 440 en todo momento. En una realización alternativa, donde el posfiltro 440 es reemplazado por un posfiltro de retardo cero (por ejemplo, un filtro causal, tal como un filtro con dos tomas, independiente de futuros valores de señal), el módulo 443 de retardo de compensación puede ser omitido.

La figura 5 ilustra un desarrollo adicional de acuerdo con las explicaciones de la invención del sistema descodificador 500 de triple modo de la figura 2. Un módulo de descodificación 511 de ACELP está dispuesto en paralelo con un módulo de descodificación 512 de TCX y un módulo de descodificación 513 de AAC. En serie con el módulo de descodificación 511 de ACELP está dispuesto un posfiltro 540 para atenuar el ruido, en particular, el ruido situado entre armónicos de una frecuencia tonal, directa o indirectamente obtenible de la señal del flujo de bits para el cual está adaptado el sistema descodificador 500. La señal del flujo de bits también codifica información de posfiltrado que gobierna las posiciones del conmutador superior 541 operable para conmutar el posfiltro 540 fuera del trayecto de procesamiento y reemplazarlo por un retardo 543 de compensación, como en la figura 4. Un conmutador inferior 542 se usa para conmutar entre distintas modalidades de descodificación. Con esta estructura, la posición del conmutador superior 541 es irrelevante cuando se usa uno de los módulos 512, 513 de TCX o AAC; por tanto, la información de posfiltrado no necesariamente indica esta posición, excepto en la modalidad de ACELP. Cualquiera que sea la modalidad de descodificación que se está usando actualmente, la señal es suministrada desde el punto de conexión más abajo del conmutador inferior 542 hasta un módulo 550 de copia de banda espectral (SBR), que emite una señal de audio. El experto se dará cuenta de que el dibujo es de naturaleza conceptual, como queda notablemente claro a partir de los conmutadores, que se muestran esquemáticamente como entidades físicas distintas con medios móviles de contacto. En una posible implementación realista del sistema descodificador, los conmutadores, así como los otros módulos, estarán realizados por instrucciones legibles por ordenador.

Las figuras 6 y 7 también son diagramas de bloques de dos sistemas descodificadores de triple modalidad, operables en una modalidad de descodificación ACELP, TCX o del dominio de la frecuencia. Con referencia a la última figura, que muestra una realización de la invención, una señal del flujo de bits es suministrada a un punto 701 de entrada, que está a su vez permanentemente conectado, mediante los ramales respectivos, con los tres módulos descodificadores 711, 712, 713. El punto 701 de entrada también tiene un ramal conector 702 (no presente en el sistema descodificador convencional de la figura 6) con un módulo 740 de realce tonal, que actúa como un posfiltro del tipo general descrito anteriormente. Como es práctica común en la técnica, un primer módulo 703 de ventanas de transición está dispuesto más abajo de los módulos 711,712 de ACELP y TCX, para llevar a cabo las transiciones entre los módulos descodificadores. Un segundo módulo 704 de transición está dispuesto más abajo del módulo de descodificación 713 del dominio de la frecuencia y del primer módulo 703 de ventanas de transición, para llevar a cabo la transición entre las dos supermodalidades. Además, un módulo 750 de SBR está dispuesto inmediatamente por encima del punto 705 de salida. Es claro que la señal de flujo de bits es suministrada directamente (o después del demultiplexado, según corresponda) a los tres módulos descodificadores 711, 712, 713 y al módulo 740 de realce tonal. La información contenida en el flujo de bits controla qué módulo de descodificación ha de estar activo. Por parte de la invención, sin embargo, el módulo 740 de realce tonal realiza una autoactivación análoga que, en respuesta a la información de posfiltrado en el flujo de bits, puede actuar como un posfiltro o, simplemente, como un dispositivo de traspasamiento. Esto, por ejemplo, puede ser realizado mediante la provisión de una sección de control (no mostrada) en el módulo 740 de realce tonal, por medio del cual la acción de posfiltrado puede ser activada o desactivada. El módulo 740 de realce tonal está siempre en su modalidad de traspasamiento cuando el sistema descodificador funciona en el dominio de la frecuencia o la modalidad de descodificación TCX, en donde, en rigor, no es necesaria ninguna información de posfiltrado. Se entiende que los módulos que no forman parte de la contribución de la invención, y cuya presencia es obvia para el experto, por ejemplo, un demultiplexador, han sido omitidos de la figura 7 y de otros dibujos similares, para aumentar la claridad.

Como variación, el sistema descodificador de la figura 7 puede estar equipado con un módulo de control (no mostrado) para decidir si ha de aplicarse o no el posfiltrado, usando un enfoque de análisis por síntesis. Tal módulo de control está comunicativamente conectado con el módulo 740 de realce tonal y con el módulo 711 de ACELP, desde el cual extrae una señal descodificada intermedia s_DEc(n) que representa una etapa intermedia en el proceso de descodificación, preferiblemente, una correspondiente a la excitación de la señal. El módulo de detección tiene la información necesaria para simular la acción del módulo 740 de realce tonal, según lo definido por las funciones de transferencia Plt(z) y Hlp(z) (véase la sección Antecedentes y la figura 3) o, equivalentemente, sus respuestas de impulso de filtro<plt>(<z>) y hLp(n). Como se desprende de la exposición en la sección Antecedentes, el componente a restar en el posfiltrado puede ser estimado por una señal de diferencia aproximada sAD(n) que es proporcional a [(<s>_<dec>* plt) * hLp](n), donde * indica una convolución discreta. Esto es una aproximación de la verdadera diferencia entre la señal de audio original y la señal descodificada posfiltrada, a saber,

SoRiG(n) - SE(n) = SoRiG(n) - (SDEc(n) - o [Sdec * Plt * hLp](n)),

donde a es la ganancia del posfiltro. Estudiando la energía total, la energía de banda baja, la tonalidad, el espectro efectivo de magnitudes o los espectros de magnitudes pasadas de la señal, según lo revelado en la sección Resumen y las reivindicaciones, la sección de control puede hallar una base para la decisión de activar o desactivar el módulo 740 de realce tonal.

La figura 8 muestra un sistema codificador 800 compatible con un descodificador según una realización de la invención. El sistema codificador 800 está adaptado para procesar señales de audio digitales, que son obtenidas, en general, capturando una onda sonora mediante un micrófono, y transduciendo la onda hacia una señal eléctrica analógica. La señal eléctrica es luego muestreada en una señal digital susceptible de ser suministrada, en un formato adecuado, al sistema codificador 800. El sistema consiste, en general, en un módulo de codificación 810, un módulo 820 de decisión y un multiplexador 830. En virtud de los conmutadores 814, 815 (representados simbólicamente), el módulo de codificación 810 es operable en una modalidad CELP, TCX o bien AAC, activando selectivamente los módulos 811, 812, 813. El módulo 820 de decisión aplica uno o más criterios predefinidos para decidir si una señal de flujo de bits producida por el sistema codificador 800 para codificar una señal de audio. Con este fin, el módulo 820 de decisión puede examinar la señal de audio directamente o puede recibir datos desde el módulo de codificación 810 mediante una línea 816 de conexión. Una señal indicativa de la decisión adoptada por el módulo 820 de decisión es suministrada, junto con la señal de audio codificada proveniente del módulo de codificación 810, a un multiplexador 830, que concatena las señales en un flujo de bits que constituye la salida del sistema codificador 800.

Preferiblemente, el módulo 820 de decisión basa su decisión sobre una señal de diferencia aproximada calculada a partir de una señal descodificada intermedia sí_dec, que puede ser restada del módulo de codificación 810. La señal descodificada intermedia representa una etapa intermedia en el proceso de descodificación, según lo expuesto en los párrafos precedentes, pero puede ser extraída de una etapa correspondiente del proceso de codificación. Sin embargo, en el sistema codificador 800 está disponible la señal de audio original<sorig>, de modo que, ventajosamente, la señal de diferencia aproximada se forma como:

SoRiG(n) - (S<í>_<dec>(<h>) -a[(<s>¡_<dec>*Plt) *hLp](n)).

La aproximación reside en el hecho de que se usa la señal descodificada intermedia en lugar de la señal descodificada final. Esto permite una valoración de la naturaleza del componente que un posfiltro eliminaría en la descodificación y, aplicando uno de los criterios expuestos en la sección Resumen, el módulo 820 de decisión podrá adoptar una decisión en cuanto a inhabilitar o no el posfiltrado.

Como una variación de esto, el módulo 820 de decisión puede usar la señal original en lugar de una señal descodificada intermedia, de modo que la señal de diferencia aproximada será [(<sí>_<dec>*<plt>) * hLP](n). Es probable que esto sea una aproximación menos fiel, pero, por otra parte, hace optativa la presencia de una línea 816 de conexión entre el módulo 820 de decisión y el módulo de codificación 810.

En otras variaciones de ese tipo de esta realización, en donde el módulo 820 de decisión estudia directamente la señal de audio, pueden aplicarse uno o más de los siguientes criterios:

• ¿Contiene la señal de audio tanto un componente con frecuencia fundamental dominante como un componente situado por debajo de la frecuencia fundamental? (La frecuencia fundamental puede ser suministrada como un subproducto del módulo de codificación 810).

• ¿Contiene la señal de audio tanto un componente con frecuencia fundamental dominante como un componente situado entre los armónicos de la frecuencia fundamental?

• ¿Contiene la señal de audio energía de señal significativa por debajo de la frecuencia fundamental?

• ¿Es (probable que sea) preferible la descodificación posfiltrada a la descodificación no filtrada con respecto a si la tasa de velocidad-distorsión es óptima?

En todas las variaciones descritas de la estructura codificadora mostrada en la figura 8 - es decir, independientemente de la base del criterio de detección - la sección 820 de decisión puede ser habilitada para decidir sobre un avance gradual o una eliminación gradual del posfiltrado, a fin de lograr transiciones suaves. El avance y la eliminación graduales pueden ser controlados ajustando la ganancia de posfiltro.

La figura 9 muestra un descodificador convencional operable en una modalidad de descodificación de frecuencia y en una modalidad de descodificación de CELP, según la señal de flujo de bits suministrada al descodificador. El posfiltrado se aplica siempre que se selecciona la modalidad de descodificación de CELP. Una mejora de este descodificador se ilustra en la figura 10, que muestra un descodificador 1000 de acuerdo con una realización de la invención. Este descodificador es operable no solamente en una modalidad de descodificación basada en el dominio de la frecuencia, en la cual está activo el módulo de descodificación 1013 del dominio de la frecuencia, sino en una modalidad de descodificación de CELP filtrada, en la cual están activos el módulo de descodificación 1011 de CELP y el posfiltro 1040, sino también en una modalidad de CELP no filtrada, en la cual el módulo 1011 de CELP suministra su señal a un módulo 1043 de retardo de compensación, mediante una línea de elusión 1044. Un conmutador 1042 controla qué modalidad de descodificación se usa actualmente, en respuesta a la información de posfiltrado contenida en la señal del flujo de bits proporcionada al descodificador 1000. En este descodificador y en el de la figura 9, la última etapa de procesamiento es efectuada por un módulo 1050 de SBR, desde el cual es emitida la señal de audio final.

La figura 11 muestra un posfiltro 1100 adecuado para ser dispuesto más abajo de un descodificador 1199. El filtro 1100 incluye un módulo 1140 de posfiltrado, que es habilitado o inhabilitado por un módulo de control (no mostrado), notablemente, un controlador de ganancia binario o no binario, en respuesta a una señal de posfiltrado recibida desde un módulo 1120 de decisión dentro del posfiltro 1100. El módulo de decisión realiza una o más pruebas sobre la señal obtenida desde el descodificador, para llegar a una decisión en cuanto a si el módulo 1140 de posfiltrado ha de estar activo o inactivo. La decisión puede ser tomada según la funcionalidad del módulo 820 de decisión en la figura 8, que usa la señal original y/o una señal descodificada intermedia para predecir la acción del posfiltro. La decisión del módulo 1120 de decisión también puede basarse en información similar a la que los módulos de decisión usan en las realizaciones en las que se forma una señal descodificada intermedia. Como ejemplo, el módulo 1120 de decisión puede estimar una frecuencia de tono (a menos que esta sea inmediatamente extraíble de la señal del flujo de bits) y calcular el contenido de energía en la señal por debajo de la frecuencia de tono y entre sus armónicos. Si este contenido de energía es significativo, probablemente representa un componente de señal relevante, en lugar de ruido, lo que motiva una decisión para inhabilitar el módulo 1140 de posfiltrado.

Se ha llevado a cabo una prueba de escucha de 6 personas, durante la cual muestras musicales codificadas y descodificadas según la invención fueron comparadas con muestras de referencia que contenían la misma música codificada, aplicando el posfiltrado de la manera convencional, pero manteniendo sin cambios todos los demás parámetros. Los resultados confirman una mejora percibida de la calidad.

Realizaciones adicionales de la presente invención resultarán evidentes para una persona experta en la técnica, después de leer la descripción anterior. Incluso aunque la presente descripción y los dibujos revelan realizaciones y ejemplos, la invención no está restringida a estos ejemplos específicos. Pueden hacerse numerosas modificaciones y variaciones sin apartarse del alcance de la presente invención, que está definido por las reivindicaciones adjuntas.

Los sistemas y métodos revelados anteriormente en la presente memoria pueden ser implementados como software, firmware, hardware o una combinación de los mismos. Ciertos componentes, o todos los componentes, pueden ser implementados como software ejecutado por un procesador de señales digitales o un microprocesador, o ser implementados como hardware, o como un circuito integrado específico de la aplicación. Tal software puede ser distribuido en medios legibles por ordenador, que pueden comprender medios informáticos de almacenamiento (o medios no transitorios) y medios de comunicación (o medios transitorios). Como es bien sabido para una persona experta en la técnica, los medios informáticos de almacenamiento incluyen medios tanto volátiles como no volátiles, extraíbles como no extraíbles, implementados en cualquier método o tecnología para el almacenamiento de información, tal como instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos. Los medios informáticos de almacenamiento incluyen, pero no se limitan a, las memorias RAM, ROM, EE-PROM, la memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, casetes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que pueda ser usado para almacenar la información deseada y que pueda ser objeto de acceso por parte de un ordenador. Además, es bien sabido para el experto que los medios de comunicación realizan habitualmente instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos en una señal de datos modulados, tal como una onda portadora u otro mecanismo de transporte, e incluyen cualquier medio de suministro de información.

Claims

REIVINDICACIONES

1. Un método de codificación de una señal de flujo de bits como una señal temporal de audio, que incluye las etapas de:

descodificar una señal de flujo de bits como una señal temporal de audio preliminar de acuerdo con una modalidad de codificación seleccionada de una pluralidad de modalidades de codificación, en el que la pluralidad de modalidades de codificación incluye al menos una primera modalidad de codificación que incluye una etapa de posfiltrado y, al menos, una segunda modalidad de codificación que no incluye la etapa de posfiltrado,

en el que la etapa de posfiltrado aplica un filtro de realce tonal a la señal temporal de audio preliminar, con lo que se obtiene una señal temporal de audio, en donde el posfiltrado se aplica solo a las bajas frecuencias, y

en el que la etapa de posfiltrado está omitida selectivamente en respuesta a la información de posfiltrado codificada en la señal del flujo de bits, la información de posfiltrado es indicativa de una decisión del lado del codificador sobre si omitir o no la etapa de posfiltrado,

por lo que la etapa de posfiltrado está omitida selectivamente en la primera modalidad de codificación.

2. El método de la reivindicación 1, en el que las bajas frecuencias están por debajo de una frecuencia límite predeterminada.

3. El método de la reivindicación 1, en el que la etapa de descodificación incluye aplicar descodificación de predicción lineal excitada por código, CELP.

4. El método de la reivindicación 1, en el que la señal del flujo de bits está segmentada en tramas temporales y la etapa de posfiltrado está omitida durante una trama temporal completa o una secuencia de tramas temporales completas.

5. Un producto de programa informático que incluye instrucciones de almacenamiento de portador de datos que, cuando son ejecutadas por un procesador de señal digital hacen que el procesador de señal digital lleve a cabo el método de una cualquiera de las reivindicaciones 1 - 4.

6. Un sistema de descodificación configurado para llevar a cabo el método de una cualquiera de las reivindicaciones 1 - 4.