ES3032614T3

ES3032614T3 - Backward-compatible integration of high frequency reconstruction techniques for audio signals

Info

Publication number: ES3032614T3
Application number: ES23210523T
Authority: ES
Inventors: Kristofer Kjoerling; Lars Villemoes; Heiko Purnhagen; Per Ekstrand
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2018-01-26
Filing date: 2019-01-28
Publication date: 2025-07-22
Anticipated expiration: 2039-01-28
Also published as: EP4550314A3; PL4303870T3; FI4099325T3; EP4120261A1; FI4120261T3; EP4303871C0; DK3872809T3; EP3518233A1; EP4550317B1; EP4303870C0; HUE054531T2; EP4099325B1; HUE071631T2; HUE071338T2; EP4550316A3; PL4303869T3; EP4099325A1; HUE065166T2; EP4303869B1; ES3029582T3

Abstract

Se describe un método para decodificar un flujo de bits de audio codificado. El método incluye recibir el flujo de bits de audio codificado y decodificar los datos de audio para generar una señal de audio de banda baja decodificada. Además, incluye la extracción de metadatos de reconstrucción de alta frecuencia y el filtrado de la señal de audio de banda baja decodificada con un banco de filtros de análisis para generar una señal de audio de banda baja filtrada. El método también incluye la extracción de un indicador que indica si se debe realizar una traslación espectral o una transposición armónica en los datos de audio y la regeneración de una porción de banda alta de la señal de audio utilizando la señal de audio de banda baja filtrada y los metadatos de reconstrucción de alta frecuencia de acuerdo con el indicador. (Traducción automática con Google Translate, sin valor legal)

Description

EDESCRIPCIÓN

Integración compatible retroactivamente de técnicas de reconstrucción de alta frecuencia para señales de audio

Referencia cruzada a la solicitud relacionada

Esta solicitud es una solicitud europea divisional de la solicitud de patente Europea EP 22189216.9 (referencia: D17806EP04), para la que el formulario 1001 de la OEP fue presentado el 8 de agosto de 2022.

Campo técnico

Las realizaciones pertenecen a un método y a una unidad de procesamiento de audio para realizar reconstrucción de alta frecuencia de una señal de audio.

Antecedentes de la invención

Una corriente de bits de audio típico incluye tanto datos de audio (por ejemplo, datos de audio codificados) indicativos de uno o más canales de contenido de audio, como metadatos indicativos de al menos una característica de los datos de audio o del contenido de audio. Un formato bien conocido para generar una corriente de bits de audio codificado es el formato de Codificación de Audio Avanzada (AAC) MPEG-4, descrito en la norma MPEG ISO/IEC 14496-3: 2009. En la norma MPEG-4, AAC indica “codificación de audio avanzada” y HE-AAC indica “codificación de audio avanzada de alta eficiencia”.

La norma MPEG-4 AAC define varios perfiles de audio, que determinan qué objetos y herramientas de codificación están presentes en un codificador o decodificador compatible. Tres de estos perfiles de audio son (1) el perfil de AAC, (2) el perfil de HE-AAC y (3) el perfil de HE-Aa C v2. El perfil de a Ac incluye el tipo de objeto de AAC de baja complejidad (o “AAC-LC”). El objeto de AAC-LC es el homólogo del perfil de baja complejidad MPEG-2 AAC, con algunos ajustes, y no incluye ni el tipo de objeto de replicación de banda espectral (“SBR”) ni el tipo de objeto estéreo paramétrico (“PS”). El perfil de HE-AAC es un superconjunto del perfil de AAC y además incluye el tipo de objeto de SBR. El perfil de HE-AAC v2 es un superconjunto del perfil de HE-AAC y además incluye el tipo de objeto PS.

El tipo de objeto de SBR contiene la herramienta de replicación de banda espectral, que es una importante herramienta de codificación de reconstrucción de alta frecuencia (“HFR”) que mejora significativamente la eficiencia de compresión de los códec de audio de percepción. La SBR reconstruye los componentes de alta frecuencia de una señal de audio en el lado del receptor (por ejemplo, en el decodificador). Por lo tanto, el codificador solo necesita codificar y transmitir componentes de baja frecuencia, lo que permite una calidad de audio mucho mayor a tasas de datos bajas. La SBR se basa en la replicación de las secuencias de armónicos, previamente truncadas para reducir la tasa de datos, a partir de la señal limitada de ancho de banda disponible y los datos de control obtenidos desde el codificador. La relación entre los componentes tonales y similares al ruido se mantiene mediante el filtrado inverso adaptativo, así como la adición opcional de ruido y sinusoidales. En la norma MPEG-4 AAC, la herramienta de SBR realiza el parcheado espectral (también llamado traslación lineal o traslación espectral), en el que se copian (o se “parchean”) varias subbandas consecutivas del Filtro de Espejo en Cuadratura (QMF) desde una porción de banda baja transmitida de una señal de audio a una porción de banda alta de la señal de audio, que se genera en el decodificador.

El parcheado espectral o la traslación lineal pueden no ser ideales para ciertos tipos de audio, tales como el contenido musical con frecuencias de cruce relativamente bajas. Por lo tanto, se necesitan técnicas para mejorar la replicación de la banda espectral.

El documento WO2016/149015A1 se refiere a una unidad de procesamiento de audio que incluye una memoria intermedia, un desformateador de carga útil de corriente de bits y un subsistema de decodificación. La memoria intermedia almacena al menos un bloque de una corriente de bits de audio codificado. El bloque incluye un elemento de relleno que comienza con un identificador seguido de datos de relleno. Los datos de relleno incluyen al menos un indicador que identifica si se ha de realizar el procesamiento de replicación de banda espectral mejorada (eSBR) en el contenido de audio del bloque. También se proporciona un método correspondiente para decodificar una corriente de bits de audio codificado.

Breve descripción de realizaciones de la invención

La presente descripción proporciona un método según se detalla en la reivindicación 1. También se proporciona un medio legible por ordenador no transitorio según la reivindicación 7 y una unidad de procesamiento de audio según la reivindicación 8. Las características ventajosas se proporcionan en las reivindicaciones dependientes.

Breve descripción de los dibujos

La figura 1 es un diagrama de bloques de una realización de un sistema que puede configurarse para llevar a cabo una realización del método de la invención.

La figura 2 es un diagrama de bloques de un codificador que es una realización de la unidad de procesamiento de audio de la invención.

La figura 3 es un diagrama de bloques de un sistema que incluye un decodificador que es una realización de la unidad de procesamiento de audio de la invención y, opcionalmente, también un post-procesador acoplado a la misma.

La figura 4 es un diagrama de bloques de un decodificador que es una realización de la unidad de procesamiento de audio de la invención.

La figura 5 es un diagrama de bloques de un decodificador que es otra realización de la unidad de procesamiento de audio de la invención.

La figura 6 es un diagrama de bloques de otra realización de la unidad de procesamiento de audio de la invención.

La figura 7 es un diagrama de bloques de una corriente de bits MPEG-4 AAC, que incluye los segmentos en los que se divide.

Notación y Nomenclatura

A lo largo de esta descripción, incluidas las reivindicaciones, la expresión realizar una operación “sobre” una señal o datos (por ejemplo, filtrar, escalar, transformar o aplicar ganancia a la señal o a los datos) se usa en un sentido amplio para indicar la realización de la operación directamente sobre la señal o datos, o sobre una versión procesada de la señal o datos (por ejemplo, sobre una versión de la señal que ha sido sometida a un filtrado preliminar o procesamiento previo antes de la realización de la operación sobre los mismos).

A lo largo de esta descripción, incluidas las reivindicaciones, la expresión “unidad de procesamiento de audio” o “procesador de audio” se usa en un sentido amplio, para indicar un sistema, dispositivo o aparato, configurado para procesar datos de audio. Ejemplos de unidades de procesamiento de audio incluyen, entre otros, codificadores, transcodificadores, decodificadores, códec, sistemas de procesamiento previo, sistemas de post procesamiento y sistemas de procesamiento de corriente de bits (a veces denominados herramientas de procesamiento de corriente de bits). Prácticamente todos los productos electrónicos de consumo, tales como teléfonos móviles, televisores, ordenadores portátiles y tabletas, contienen una unidad de procesamiento de audio o un procesador de audio.

A lo largo de esta descripción, incluidas las reivindicaciones, el término “acopla” o “acoplado” se usa en un sentido amplio para significar una conexión, o bien directa, o bien indirecta. Por lo tanto, si un primer dispositivo se acopla a un segundo dispositivo, esa conexión puede ser a través de una conexión directa, o a través de una conexión indirecta mediante otros dispositivos y conexiones. Además, los componentes que están integrados en o con otros componentes también están acoplados entre sí.

Descripción detallada de realizaciones de la invención

La norma MPEG-4 AAC contempla que una corriente de bits MPEG-4 AAC codificada incluye metadatos indicativos de cada tipo de procesamiento de reconstrucción de alta frecuencia (“HFR”) que se ha de aplicar (si se aplica alguno) mediante un decodificador para decodificar el contenido de audio de la corriente de bits, y/o que controla tal procesamiento de HFR, y/o es indicativo de al menos una característica o parámetro de al menos una herramienta de HFR que se ha de emplear para decodificar el contenido de audio de la corriente de bits. En la presente memoria, se usa la expresión “metadatos de SBR” para indicar metadatos de este tipo que se describen o mencionan en la norma MPEG-4 AAC para su uso con la replicación de banda espectral (“SBR”). Como es apreciado por un experto en la técnica, SBR es una forma de HFR.

La SBR se usa preferiblemente como un sistema de tasa dual, con el códec subyacente operando a la mitad de la tasa de muestreo original, mientras que la SBR opera a la tasa de muestreo original. El codificador de SBR funciona en paralelo con el códec central subyacente, aunque a una tasa de muestreo más alta. Aunque la SBR es principalmente un proceso posterior en el decodificador, se extraen parámetros importantes en el codificador con el fin de garantizar la reconstrucción de alta frecuencia más precisa en el decodificador. El codificador estima la envolvente espectral del intervalo de SBR para un intervalo/resolución de tiempo y frecuencia adecuados para las características de los segmentos de la señal de entrada actual. La envolvente espectral se estima mediante un análisis de QMF complejo y un cálculo de energía posterior. Las resoluciones de tiempo y frecuencia de las envolventes espectrales se pueden elegir con un alto nivel de libertad, con el fin de garantizar la resolución de frecuencia de tiempo más adecuada para el segmento de entrada dado. La estimación de la envolvente debe tener en cuenta que un transitorio en el original, principalmente situado en la región de alta frecuencia (por ejemplo, una zona alta), estará presente en menor medida en la banda alta generada por la SBR antes del ajuste de la envolvente, ya que la banda alta en el decodificador se basa en la banda baja donde el transitorio es mucho menos pronunciado en comparación con la banda alta. Este aspecto impone diferentes requisitos para la resolución de tiempo frecuencia de los datos de la envolvente espectral, en comparación con la estimación de la envolvente espectral ordinaria como se usa en otros algoritmos de codificación de audio.

Aparte de la envolvente espectral, se extraen varios parámetros adicionales que representan las características espectrales de la señal de entrada para diferentes regiones de tiempo y frecuencia. Dado que el codificador naturalmente tiene acceso a la señal original, así como a información sobre cómo la unidad de SBR en el decodificador creará la banda alta, dado el conjunto específico de parámetros de control, es posible que el sistema maneje situaciones donde la banda baja constituye una serie de armónicos fuertes y la banda alta, que se ha de recrear, constituye principalmente componentes de señal aleatorios, así como situaciones en donde están presentes componentes tonales fuertes en la banda alta original sin homólogos en la banda baja, sobre la que se basa la región de banda alta. Además, el codificador de SBR trabaja en estrecha relación con el códec central subyacente para evaluar qué intervalo de frecuencia debería ser cubierto por la SBR en un momento dado. Los datos de SBR se codifican eficazmente antes de la transmisión explotando la codificación por entropía, así como las dependencias de canal de los datos de control, en el caso de señales estéreo.

Típicamente, los algoritmos de extracción de parámetros de control deben ajustarse cuidadosamente al códec subyacente a una tasa de bits determinada y a una tasa de muestreo determinada. Esto se debe al hecho de que una tasa de bits más baja, generalmente implica un intervalo de SBR más grande en comparación con una tasa de bits alta, y diferentes tasas de muestreo corresponden a diferentes resoluciones de tiempo de las tramas de SBR.

Un decodificador de SBR típicamente incluye varias partes diferentes. Comprende un módulo de decodificación de corriente de bits, un módulo de reconstrucción de alta frecuencia (HFR), un módulo de componentes de alta frecuencia adicional y un módulo de ajuste de envolvente. El sistema se basa en un banco de filtros QMF de valor complejo (para SBR de alta calidad) o un banco de filtros de QMF de valor real (para SBR de baja potencia). Las realizaciones de la invención son aplicables tanto a la SBR de alta calidad como a la SBR de baja potencia. En el módulo de extracción de corriente de bits, los datos de control se leen de la corriente de bits y se decodifican. La cuadrícula de tiempo frecuencia se obtiene para la trama actual, antes de leer los datos de la envolvente de la corriente de bits. El decodificador central subyacente decodifica la señal de audio de la trama actual (aunque a la tasa de muestreo más baja) para producir muestras de audio en el dominio tiempo. La trama resultante de datos de audio se usa para la reconstrucción de alta frecuencia por el módulo de HFR. La señal de banda baja decodificada se analiza luego usando un banco de filtros de QMF. La reconstrucción de alta frecuencia y el ajuste de envolvente se realizan posteriormente sobre las muestras de subbanda del banco de filtros de QMF. Las altas frecuencias se reconstruyen a partir de la banda baja de forma flexible, basándose en los parámetros de control dados. Además, la banda alta reconstruida se filtra de forma adaptativa sobre una base de canal de subbanda según los datos de control para asegurar las características espectrales apropiadas de la región de tiempo/frecuencia dada.

El nivel superior de una corriente de bits MPEG-4 AAC es una secuencia de bloques de datos (elementos “raw_data_block”), cada uno de los cuales es un segmento de datos (denominado “bloque” en la presente memoria) que contiene datos de audio (típicamente durante un período de tiempo de 1024 o 960 muestras) e información relacionada y/u otros datos. En la presente memoria, se usa el término “bloque” para indicar un segmento de una corriente de bits MPEG-4 AAC que comprende datos de audio (y los metadatos correspondientes y, opcionalmente, también otros datos relacionados) que determina o es indicativo de un elemento “raw_data_block” (pero no más de uno).

Cada bloque de una corriente de bits MPEG-4 AAC puede incluir varios elementos sintácticos (cada uno de los cuales también se materializa en la corriente de bits como un segmento de datos). En la norma MPEG-4 AAC se definen siete tipos de tales elementos sintácticos. Cada elemento sintáctico se identifica por un valor diferente del elemento de datos “id_syn_ele”. Ejemplos de elementos sintácticos incluyen un “single_channel_element()”, un “channel_pair_element()” y un” fill_element()”.Un elemento de un solo canal es un contenedor que incluye datos de audio de un solo canal de audio (una señal de audio monofónica). Un elemento de par de canales incluye datos de audio de dos canales de audio (es decir, una señal de audio estéreo).

Un elemento de relleno es un contenedor de información que incluye un identificador (por ejemplo, el valor del elemento “id_syn_ele” indicado anteriormente) seguido de datos, que se denominan “datos de relleno”. Los elementos de relleno se han usado históricamente para ajustar la tasa de bits instantánea de las corrientes de bits que se transmitirán a través de un canal de tasa constante. Agregando la cantidad apropiada de datos de relleno a cada bloque, se puede lograr una tasa de datos constante.

Según realizaciones de la invención, los datos de relleno pueden incluir una o más cargas útiles de extensión que amplían el tipo de datos (por ejemplo, metadatos) que pueden transmitirse en una corriente de bits. Un decodificador que recibe corrientes de bits con datos de relleno que contienen un nuevo tipo de datos puede ser usado opcionalmente por un dispositivo que recibe la corriente de bits (por ejemplo, un decodificador) para ampliar la funcionalidad del dispositivo. Por tanto, como puede apreciar un experto en la técnica, los elementos de relleno son un tipo especial de estructura de datos y son diferentes de las estructuras de datos que se usan típicamente para transmitir datos de audio (por ejemplo, cargas útiles de audio que contienen datos de canal).

El identificador usado para identificar un elemento de relleno consiste en un número entero sin signo de tres bits transmitido primero el bit más significativo (“uimsbf”) que tiene un valor de 0x6. En un bloque, pueden ocurrir varios casos del mismo tipo de elemento sintáctico (por ejemplo, varios elementos de relleno).

Otra norma para codificar corrientes de bits de audio es la norma de Codificación de Audio y Voz Unificada (USAC) MPEG (ISO/IEC 23003-3: 2012). La norma USAC MPEG describe la codificación y decodificación de contenido de audio usando procesamiento de replicación de banda espectral (incluido el procesamiento de SBR como se describe en la norma MPEG-4 AAC, y también incluye otras formas mejoradas de procesamiento de replicación de banda espectral). Este procesamiento aplica herramientas de replicación de banda espectral (a veces denominadas en la presente memoria como “herramientas de SBR mejoradas” o “herramientas de eSBR”) de una versión extendida y mejorada del conjunto de herramientas de SBR descritas en la norma MPEG-4 AAC. Por lo tanto, la eSBR (como se define en la norma USAC) es una mejora de SBR (como se define en la norma MPEG-4 AAC).

En la presente memoria, se usa la expresión “procesamiento de SBR mejorado” (o “procesamiento eSBR”) para indicar el procesamiento de replicación de banda espectral usando al menos una herramienta de eSBR (por ejemplo, al menos una herramienta de eSBR que se describe o menciona en la norma USAC MPEG) que no se describe ni se menciona en la norma MPEG-4 AAC. Ejemplos de tales herramientas de eSBR son la transposición armónica y el procesamiento previo adicional de parcheado de QMF o “pre-aplanamiento”.

Un transpondedor armónico de orden entero T hace corresponder una sinusoide con frecuencia m a una sinusoide con frecuencia Tm, mientras preserva la duración de la señal. Típicamente, se usan tres órdenes, T = 2, 3, 4 en secuencia para producir cada parte del intervalo de frecuencia de salida deseado usando el orden de transposición más pequeño posible. Si se requiere una salida por encima del intervalo de transposición de cuarto orden, puede generarse mediante desplazamientos de frecuencia. Cuando es posible, se crean dominios de tiempo de banda base muestreados casi críticamente para que el procesamiento minimice la complejidad computacional.

El transpondedor armónico puede estar basado en QMF o DFT. Cuando se usa el transpondedor armónico basado en QMF, la extensión del ancho de banda de la señal de dominio de tiempo del codificador central se lleva a cabo completamente en el dominio de QMF, usando una estructura de codificador de voz de fase modificada, realizando decimación seguida de estiramiento de tiempo para cada subbanda de QMF. La transposición usando varios factores de transposiciones (por ejemplo, T = 2, 3, 4) se lleva a cabo en una etapa común de transformación de análisis/síntesis de QMF. Dado que el transpondedor armónico basado en QMF no presenta sobremuestreo de dominio de frecuencia adaptativo de señal, el indicador correspondiente en la corriente de bits (sbrOversamplingFlag[ch]) puede ignorarse.

Cuando se usa el transpondedor armónico basado en DFT, los transpondedores de factor 3 y 4 (transpondedores de 3er y 4° orden) se integran preferiblemente en el transpondedor de factor 2 (transpondedor de 2° orden) por medio de interpolación para reducir la complejidad. Para cada trama (correspondiente a las muestras del codificador central coreCoderFrameLength), el tamaño de transformación nominal de “tamaño completo” del transpondedor se determina en primer lugar mediante el indicador de sobremuestreo en el dominio de frecuencia adaptativa de la señal (sbrOversamplingFlag[ch]) en la corriente de bits.

Cuando sbrPatchingMode==1, que indica que se ha de usar la transposición lineal para generar la banda alta, se puede introducir una etapa adicional para evitar discontinuidades en la forma de la envolvente espectral de la señal de alta frecuencia que se introduce en el ajustador de envolvente posterior. Esto mejora el funcionamiento de la siguiente etapa de ajuste de la envolvente, lo que da como resultado una señal de banda alta que se percibe como más estable. El funcionamiento del procesamiento previo adicional es beneficioso para los tipos de señal en los que la envolvente espectral aproximada de la señal de banda baja que se usa para la reconstrucción de alta frecuencia muestra grandes variaciones de nivel. Sin embargo, el valor del elemento de corriente de bits puede determinarse en el codificador aplicando cualquier tipo de clasificación dependiente de la señal. El procesamiento previo adicional se activa preferiblemente a través de un elemento de corriente de bits de un bit, bs_sbr_preprocessing. Cuando bs_sbr_preprocessing se establece en uno, se habilita el procesamiento adicional. Cuando bs_sbr_preprocessing se establece en cero, el procesamiento previo adicional está deshabilitado. El procesamiento adicional preferible utiliza una curva preGain que es usada por el generador de alta frecuencia para escalar la banda baja, Xlow, para cada parche. Por ejemplo, la curva preGain se puede calcular de acuerdo con:

preG ain(k) =io(meanNrg-ioWEnvsioPe{k))/20)0 <k < k0

donde k<0>es la primera subbanda de QMF en la tabla de bandas de frecuencia maestra y lowEnvSlope se calcula usando una función que calcula los coeficientes de un polinomio de mejor ajuste (en un sentido de mínimos cuadrados), tal como polyfit(). Por ejemplo,

p o ly ft í (3,k 0, x jo w b a n d , lowEnv, lowEnvSlope);

puede emplearse (usando un polinomio de tercer grado) y donde

<Pk(0,0)

lowEnv{k) = 10loglo , 0 <k < k0

numTimeSlots ■ RATE+ 6

donde x_lowband (k) = [0 ... k<0>-1], numTimeSlot es el número de intervalos de tiempo de la envolvente de SBR que existen dentro de una trama, RATE es una constante que indica el número de muestras de subbanda de QMF por intervalo de tiempo (por ejemplo, 2), es un coeficiente de filtro de predicción lineal (potencialmente obtenido a partir del método de covarianza) y donde

Una corriente de bits generada según la norma USAC MPEG (a veces denominada en la presente memoria como una “corriente de bits USAC”) incluye contenido de audio codificado y típicamente incluye metadatos indicativos de cada tipo de procesamiento de replicación de banda espectral que se ha de aplicar mediante un decodificador para decodificar el contenido de audio de la corriente de bits USAC y/o metadatos que controlan tal procesamiento de replicación de banda espectral y/o es indicativo de al menos una característica o parámetro de al menos una herramienta de SBR y/o herramienta de eSBR que se ha de emplear para decodificar el contenido de audio de la corriente de bits USAC.

En la presente memoria, se usa la expresión “metadatos de SBR mejorada” (o “metadatos de eSBR”) para indicar los metadatos indicativos de cada tipo de procesamiento de replicación de banda espectral que ha de ser aplicado mediante un decodificador para decodificar el contenido de audio de una corriente de bits de audio codificada (por ejemplo, una corriente de bits USAC) y/o que controla tal procesamiento de replicación de banda espectral, y/o es indicativo de al menos una característica o parámetro de al menos una herramienta de SBR y/o herramienta de eSBR que se ha de emplear para decodificar tal contenido de audio, pero que no se describe o menciona en la norma MPEG-4 AAC. Un ejemplo de metadatos de eSBR son los metadatos (indicativos de, o para controlar, el procesamiento de replicación de banda espectral) que se describen o mencionan en la norma USAC MPEG pero no en la norma MPEG-4 AAC. Por lo tanto, los metadatos de eSBR indican en la presente memoria metadatos que no son metadatos de SBR, y los metadatos de SBR indican en la presente memoria metadatos que no son metadatos de eSBR.

Una corriente de bits USAC puede incluir tanto metadatos de SBR como metadatos de eSBR. Más específicamente, una corriente de bits USAC puede incluir metadatos de eSBR que controlan el rendimiento del procesamiento de eSBR por un decodificador, y metadatos de SBR que controlan el rendimiento del procesamiento de SBR por el decodificador. Según las realizaciones típicas de la presente invención, los metadatos de eSBR (por ejemplo, datos de configuración específicos de eSBR) se incluyen (según la presente invención) en una corriente de bits MPEG-4 AAC (por ejemplo, en el contenedor de sbr_extension() al final de una carga útil de SBR).

El rendimiento del procesamiento de eSBR, durante la decodificación de una corriente de bits codificada usando un conjunto de herramientas de eSBR (que comprende al menos una herramienta de eSBR), mediante un decodificador regenera la banda de alta frecuencia de la señal de audio, basándose en la replicación de secuencias de armónicos que se truncaron durante la codificación. Tal procesamiento de eSBR ajusta típicamente la envolvente espectral de la banda de alta frecuencia generada y aplica filtrado inverso, y añade componentes de ruido y sinusoidales para recrear las características espectrales de la señal de audio original.

Según las realizaciones típicas de la invención, se incluyen metadatos de eSBR (por ejemplo, se incluye una pequeña cantidad de bits de control que son metadatos de eSBR) en uno o más de los segmentos de metadatos de una corriente de bits de audio codificada (por ejemplo, una corriente de bits MPEG-4 AAC) que también incluye datos de audio codificados en otros segmentos (segmentos de datos de audio). Típicamente, al menos uno de esos segmentos de metadatos de cada bloque de la corriente de bits es (o incluye) un elemento de relleno (incluido un identificador que indica el inicio del elemento de relleno), y los metadatos de eSBR se incluyen en el elemento de relleno después del identificador.

La figura 1 es un diagrama de bloques de una cadena de procesamiento de audio ejemplar (un sistema de procesamiento de datos de audio), donde uno o más de los elementos del sistema pueden configurarse de acuerdo con una realización de la presente invención. El sistema incluye los siguientes elementos, acoplados juntos como se muestra: codificador 1, subsistema 2 de entrega, decodificador 3 y unidad 4 de post procesamiento. En variaciones del sistema mostrado, se omiten uno o más de los elementos, o se incluyen unidades de procesamiento de datos de audio adicionales.

En algunas implementaciones, el codificador 1 (que opcionalmente incluye una unidad de procesamiento previo) está configurado para aceptar muestras PCM (dominio de tiempo) que comprenden contenido de audio como entrada, y para emitir una corriente de bits de audio codificada (que tiene un formato que cumple con la norma MPEG-4 AAC) que es indicativo del contenido de audio. Los datos de la corriente de bits que son indicativos del contenido de audio se denominan a veces en la presente memoria “datos de audio” o “datos de audio codificados”. Si el codificador está configurado según una realización típica de la presente invención, la salida de corriente de bits de audio del codificador incluye metadatos de eSBR (y típicamente también otros metadatos) así como datos de audio.

Una o más corrientes de bits de audio codificadas emitidas desde el codificador 1 pueden confirmarse en el subsistema 2 de entrega de audio codificado. El subsistema 2 está configurado para almacenar y/o entregar cada salida de corriente de bits codificado procedente del codificador 1. Una salida de corriente de bits de audio codificada del codificador 1 puede ser almacenada por el subsistema 2 (por ejemplo, en forma de un disco DVD o Blu ray), o transmitida por el subsistema 2 (que puede implementar un enlace de transmisión o red), o pueden ser tanto almacenadas como transmitidas por el subsistema 2.

El decodificador 3 está configurado para decodificar una corriente de bits de audio MPEG-4 AAC codificada (generada por el codificador 1) que recibe a través del subsistema 2. En algunas realizaciones, el decodificador 3 está configurado para extraer metadatos de eSBR de cada bloque de la corriente de bits y decodificar la corriente de bits (incluso realizando el procesamiento de eSBR usando los metadatos de eSBR extraídos) para generar datos de audio decodificados (por ejemplo, corrientes de muestras de audio de PCM decodificadas). En algunas realizaciones, el decodificador 3 está configurado para extraer metadatos de SBR de la corriente de bits (pero para ignorar los metadatos de eSBR incluidos en la corriente de bits) y para decodificar la corriente de bits (incluso realizando el procesamiento de SBR usando los metadatos de SBR extraídos) para generar datos de audio decodificados (por ejemplo, corrientes de muestras de audio PCM decodificadas). Típicamente, el decodificador 3 incluye una memoria intermedia que almacena (por ejemplo, de manera no transitoria) segmentos de la corriente de bits de audio codificada recibidas desde el subsistema 2.

La unidad 4 de post-procesamiento de la figura 1 está configurada para aceptar una corriente de datos de audio decodificados procedentes del decodificador 3 (por ejemplo, muestras de audio de PCM decodificadas) y para realizar el post-procesamiento en el mismo. La unidad de post-procesamiento también puede configurarse para reproducir el contenido de audio post-procesado (o el audio decodificado recibido desde el decodificador 3) para su reproducción por uno o más altavoces.

La figura 2 es un diagrama de bloques de un codificador 100 que es una realización de la unidad de procesamiento de audio de la invención. Cualquiera de los componentes o elementos del codificador 100 puede implementarse como uno o más procesos y/o uno o más circuitos (por ejemplo, ASIC, FPGA u otros circuitos integrados), en hardware, software o una combinación de hardware y software. El codificador 100 incluye el codificador 105, la etapa 107 de rellenado/formateado, la etapa 106 de generación de metadatos y la memoria intermedia 109, conectadas como se muestra. Típicamente también, el codificador 100 incluye otros elementos de procesamiento (no mostrados). El codificador 100 está configurado para convertir una corriente de bits de audio de entrada en una corriente de bits de salida codificada MPEG-4 AAC.

El generador 106 de metadatos está acoplado y configurado para generar (y/o atravesar la etapa 107) metadatos (incluyendo metadatos de eSBR y metadatos de SBR) que se han de incluir en la etapa 107 en la corriente de bits codificada que se ha de emitir desde el codificador 100.

El codificador 105 está acoplado y configurado para codificar (por ejemplo, realizando compresión sobre el mismo) los datos de audio de entrada y para confirmar el audio codificado resultante en la etapa 107 para su inclusión en la corriente de bits codificada que se emitirá desde la etapa 107.

La etapa 107 está configurada para multiplexar el audio codificado procedente del codificador 105 y los metadatos (incluidos los metadatos de eSBR y los metadatos de SBR) del generador 106 para generar la corriente de bits codificada que se emitirá desde la etapa 107, preferiblemente para que la corriente de bits codificada tenga el formato especificado por una de las realizaciones de la presente invención.

La memoria intermedia 109 está configurada para almacenar (por ejemplo, de manera no transitoria) al menos un bloque de la salida de la corriente de bits de audio codificada de la etapa 107, y una secuencia de los bloques de la corriente de bits de audio codificada se confirma a partir de la memoria intermedia 109 como salida desde el codificador 100 a un sistema de entrega.

La figura 3 es un diagrama de bloques de un sistema que incluye un decodificador 200 que es una realización de la unidad de procesamiento de audio de la invención y, opcionalmente, también un post-procesador 300 acoplado a la misma. Cualquiera de los componentes o elementos del decodificador 200 y del post-procesador 300 puede implementarse como uno o más procesos y/o uno o más circuitos (por ejemplo, ASIC, FPGA u otros circuitos integrados), en hardware, software o una combinación de hardware y software. El decodificador 200 comprende la memoria intermedia 201, desformateador (analizador) 205 de carga útil de corriente de bits, subsistema 202 de decodificación de audio (a veces denominado etapa de decodificación “central” o subsistema de decodificación “central”), etapa 203 de procesamiento de eSBR y etapa 204 de generación de bits de control, conectados como se muestra. Típicamente también, el decodificador 200 incluye otros elementos de procesamiento (no mostrados).

La memoria (intermedia) 201 almacena (por ejemplo, de manera no transitoria) al menos un bloque de una corriente de bits de audio MPEG-4 AAC codificada recibido por el decodificador 200. En el funcionamiento del decodificador 200, se confirma una secuencia de los bloques de la corriente de bits procedentes de la memoria intermedia 201 al desformateador 205.

En variaciones de la realización de la figura 3 (o la realización de la figura 4 que se ha de describir), una APU que no es un decodificador (por ejemplo, APU 500 de la figura 6) incluye una memoria intermedia (por ejemplo, una memoria intermedia idéntica a la memoria intermedia 201) que almacena (por ejemplo, de manera no transitoria) al menos un bloque de una corriente de bits de audio codificada (por ejemplo, una corriente de bits de audio MPEG-4 AAC) del mismo tipo recibido por la memoria intermedia 201 de la figura 3 o la figura 4 (es decir, una corriente de bits de audio codificada que incluye metadatos de eSBR).

Con referencia nuevamente a la figura 3, el desformateador 205 está acoplado y configurado para desmultiplexar cada bloque de la corriente de bits para extraer metadatos de SBR (incluyendo datos de envolvente cuantificados) y metadatos de eSBR (y típicamente también otros metadatos) de los mismos, para confirmar al menos los metadatos de eSBR y los metadatos de SBR a la etapa 203 de procesamiento de eSBR, y típicamente también para confirmar otros metadatos extraídos al subsistema 202 de decodificación (y opcionalmente también al generador 204 de bits de control). El desformateador 205 también está acoplado y configurado para extraer datos de audio de cada bloque de la corriente de bits y para confirmar los datos de audio extraídos al subsistema 202 de decodificación (etapa de decodificación).

El sistema de la figura 3 opcionalmente también incluye el post-procesador 300. El post-procesador 300 incluye una memoria intermedia 301 (memoria intermedia) y otros elementos de procesamiento (no mostrados) que incluyen al menos un elemento de procesamiento acoplado a la memoria intermedia 301. La memoria intermedia 301 almacena (por ejemplo, de manera no transitoria) al menos un bloque (o trama) de los datos de audio decodificados recibidos por el post-procesador 300 procedentes del decodificador 200. Los elementos de procesamiento del post-procesador 300 están acoplados y configurados para recibir y procesar de manera adaptativa una secuencia de los bloques (o tramas) de la salida de audio decodificada de la memoria intermedia 301, usando la salida de metadatos del subsistema 202 de decodificación (y/o desformateador 205) y/o bits de control emitidos desde la etapa 204 del decodificador 200.

El subsistema 202 de decodificación de audio del decodificador 200 está configurado para decodificar los datos de audio extraídos por el analizador 205 (tal decodificación puede denominarse operación de decodificación “central”) para generar datos de audio decodificados y para confirmar los datos de audio decodificados en la etapa 203 de procesamiento de eSBR. La decodificación se realiza en el dominio de frecuencia y típicamente incluye cuantificación inversa seguida de procesamiento espectral. Típicamente, una etapa final de procesamiento en el subsistema 202 aplica una transformación de dominio de frecuencia a dominio de tiempo a los datos de audio de dominio de frecuencia decodificados, de modo que la salida del subsistema son datos de audio decodificados de dominio de tiempo. La etapa 203 está configurada para aplicar herramientas de SBR y herramientas de eSBR indicadas por los metadatos de eSBR y de eSBR (extraídos por el analizador 205) a los datos de audio decodificados (es decir, para realizar el procesamiento de SBR y de eSBR en la salida del subsistema 202 de decodificación usando los metadatos de SBR y de eSBR) para generar los datos de audio completamente decodificados que se envían (por ejemplo, al post-procesador 300) desde el decodificador 200. Típicamente, el decodificador 200 incluye una memoria (accesible por el subsistema 202 y la etapa 203) que almacena los datos de audio desformateados y la salida de metadatos del desformateador 205, y la etapa 203 está configurada para acceder a los datos de audio y metadatos (incluidos los metadatos de SBR y los metadatos de eSBR) como necesario durante el procesamiento de SBR y de eSBR. Se puede considerar que el procesamiento de SBR y el procesamiento de eSBR en la etapa 203 son post-procesamiento en la salida del subsistema 202 de decodificación central. Opcionalmente, el decodificador 200 también incluye un subsistema de mezcla ascendente final (que puede aplicar herramientas estéreo paramétricas (“PS”) definidas en la norma MPEG-4 AAC, usando metadatos PS extraídos por el desformateador 205 y/o bits de control generados en el subsistema 204) que es acoplado y configurado para realizar una mezcla ascendente en la salida de la etapa 203 para generar audio de mezcla ascendente totalmente decodificado que se emite desde el decodificador 200. Alternativamente, el post-procesador 300 está configurado para realizar una mezcla ascendente en la salida del decodificador 200 (por ejemplo, usando metadatos PS extraídos por el desformateador 205 y/o bits de control generados en el subsistema 204).

En respuesta a los metadatos extraídos por el desformateador 205, el generador 204 de bits de control puede generar datos de control, y los datos de control pueden usarse dentro del decodificador 200 (por ejemplo, en un subsistema de mezcla ascendente final) y/o confirmarse como salida del decodificador 200 (por ejemplo, para el post-procesador 300 para su uso en post-procesamiento). En respuesta a los metadatos extraídos de la corriente de bits de entrada (y opcionalmente también en respuesta a los datos de control), la etapa 204 puede generar (y confirmar al post-procesador 300) bits de control que indican que la salida de datos de audio decodificados de la etapa 203 de procesamiento de eSBR debe someterse a un tipo específico de post procesamiento. En algunas implementaciones, el decodificador 200 está configurado para confirmar metadatos extraídos por el desformateador 205 de la corriente de bits de entrada al post-procesador 300, y el post procesador 300 está configurado para realizar post-procesamiento en la salida de datos de audio decodificados desde el decodificador 200 usando los metadatos.

La figura 4 es un diagrama de bloques de una unidad de procesamiento de audio (“APU”) (210) que es otra realización de la unidad de procesamiento de audio inventiva. La APU 210 es un decodificador heredado que no está configurado para realizar procesamiento de eSBR. Cualquiera de los componentes o elementos de la APU 210 puede implementarse como uno o más procesos y/o uno o más circuitos (por ejemplo, ASIC, FPGA u otros circuitos integrados), en hardware, software o una combinación de hardware y software. La APU 210 comprende memoria intermedia 201, desformateador 215 de carga útil de corriente de bits (analizador), subsistema 202 de decodificación de audio (a veces denominado etapa de decodificación “central” o subsistema de decodificación “central”) y etapa 213 de procesamiento de SBR, conectada como se muestra. Típicamente también, la APU 210 incluye otros elementos de procesamiento (no mostrados). La APU 210 puede representar, por ejemplo, un codificador, decodificador o transcodificador de audio.

Los elementos 201 y 202 de la APU 210 son idénticos a los elementos numerados idénticamente del decodificador 200 (de la figura 3) y la descripción anterior de ellos no se repetirá. En el funcionamiento de la APU 210, una secuencia de bloques de una corriente de bits de audio codificada (una corriente de bits MPEG-4 AAC) recibida por la APU 210 se confirma desde la memoria intermedia 201 al desformateador 215.

El desformateador 215 se acopla y se configura para desmultiplexar cada bloque de la corriente de bits para extraer metadatos de SBR (incluidos los datos de envolvente cuantificados) y típicamente también otros metadatos de los mismos, pero para ignorar los metadatos de eSBR que pueden incluirse en la corriente de bits según cualquier realización de la presente invención. El desformateador 215 está configurado para confirmar al menos los metadatos SBR en la etapa 213 de procesamiento de SBR. El desformateador 215 también está acoplado y configurado para extraer datos de audio de cada bloque de la corriente de bits y para confirmar los datos de audio extraídos en el subsistema 202 de decodificación (etapa de decodificación).

El subsistema 202 de decodificación de audio del decodificador 200 está configurado para decodificar los datos de audio extraídos por el desformateador 215 (tal decodificación puede denominarse como una operación de decodificación “central”) para generar datos de audio decodificados y para confirmar los datos de audio decodificados en la etapa 213 de procesamiento de SBR. La decodificación se realiza en el dominio de frecuencia. Típicamente, una etapa final de procesamiento en el subsistema 202 aplica una transformación de dominio de frecuencia a dominio de tiempo a los datos de audio de dominio de frecuencia decodificados, de modo que la salida del subsistema son datos de audio decodificados de dominio de tiempo. La etapa 213 está configurada para aplicar herramientas de SBR (pero no herramientas de eSBR) indicadas por los metadatos de SBR (extraídos por el desformateador 215) a los datos de audio decodificados (es decir, para realizar el procesamiento de SBR en la salida del subsistema 202 de decodificación usando los metadatos de SBR) para generar los datos de audio totalmente decodificados que se envían (por ejemplo, al post-procesador 300) desde la APU 210. Típicamente, la APU 210 incluye una memoria (accesible por el subsistema 202 y la etapa 213) que almacena los datos de audio desformateados y la salida de metadatos del desformateador 215, y la etapa 213 está configurada para acceder a los datos de audio y metadatos (incluidos los metadatos de SBR) según sea necesario durante el procesamiento de SBR. Se puede considerar que el procesamiento de SBR en la etapa 213 es un post-procesamiento en la salida del subsistema 202 de decodificación central. Opcionalmente, la APU 210 también incluye un subsistema de mezcla ascendente final (que puede aplicar herramientas estéreo paramétricas (“PS”) definidas en la norma MPEG-4 AAC, usando metadatos PS extraídos por el desformateador 215) que está acoplado y configurado para realizar mezcla ascendente en la salida de la etapa 213 para generar audio de mezcla ascendente y totalmente decodificado que se emite desde la APU 210. Alternativamente, se configura un post-procesador para realizar una mezcla ascendente en la salida de la APU 210 (por ejemplo, usando metadatos PS extraídos por el desformateador 215 y/o bits de control generados en la APU 210).

Varias implementaciones del codificador 100, del decodificador 200 y de la APU 210 están configuradas para realizar diferentes realizaciones del método de la invención.

Según algunas realizaciones, se incluyen metadatos de eSBR (por ejemplo, se incluye una pequeña cantidad de bits de control que son metadatos de eSBR) en una corriente de bits de audio codificada (por ejemplo, una corriente de bits MPEG-4 AAC), de modo que los decodificadores heredados (que no están configurados para analizar los metadatos de eSBR, o para usar cualquier herramienta de eSBR a la que pertenezcan los metadatos de eSBR) puede ignorar los metadatos de eSBR pero, sin embargo, decodificar la corriente de bits en la medida de lo posible sin usar los metadatos de eSBR o cualquier herramienta de eSBR a la que pertenezcan los metadatos de eSBR, típicamente sin ninguna penalización significativa en la calidad del audio decodificado. Sin embargo, los decodificadores de eSBR configurados para analizar la corriente de bits para identificar los metadatos de eSBR y para usar al menos una herramienta de eSBR en respuesta a los metadatos de eSBR, disfrutarán de los beneficios de usar al menos una de tales herramientas de eSBR. Por lo tanto, las realizaciones de la invención proporcionan un medio para transmitir eficazmente datos o metadatos de control de replicación de banda espectral mejorada (eSBR) de una manera compatible con versiones anteriores.

Típicamente, los metadatos de eSBR en la corriente de bits son indicativos de (por ejemplo, son indicativos de al menos una característica o parámetro de) una o más de las siguientes herramientas de eSBR (que se describen en la norma USAC MPEG, y que pueden o no haber sido aplicados por un codificador durante la generación de la corriente de bits):

• Transposición armónica; y

• Procesamiento previo adicional de parcheado de QMF (aplanamiento previo).

Por ejemplo, los metadatos de eSBR incluidos en la corriente de bits pueden ser indicativos de los valores de los parámetros (descritos en la norma USAC MPEG y en la presente descripción): sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchInBins[ch], sbrPitchInBins[ch] y bs_sbr_preprocessing.

En el presente documento, la notación X[ch], donde X es algún parámetro, denota que el parámetro pertenece al canal (“ch”) del contenido de audio de una corriente de bits codificada que se va a decodificar. Para simplificar, a veces omitimos la expresión [ch] y asumimos que el parámetro relevante pertenece a un canal de contenido de audio.

En la presente memoria, la notación X[ch][env], donde X es algún parámetro, indica que el parámetro pertenece a la envolvente de SBR (“env”) del canal (“ch”) del contenido de audio de una corriente de bits codificada que se ha de decodificar. Para simplificar, a veces se omiten las expresiones [env] y [ch], y se asume que el parámetro relevante pertenece a una envolvente de SBR de un canal de contenido de audio.

Durante la decodificación de una corriente de bits codificada, el rendimiento de la transposición armónica durante una etapa de procesamiento de eSBR de la decodificación (para cada canal, “ch”, del contenido de audio indicado por la corriente de bits) se controla mediante los siguientes parámetros de metadatos de eSBR: sbrPatchingMode[ch]: sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch]; y sbrPitchInBins[ch].

El valor “sbrPatchingMode[ch]” indica el tipo de transpondedor usado en eSBR: sbrPatchingMode[ch] = 1 indica el parcheado de transposición lineal como se describe en la sección 4.6.18 de la norma MPEG-4 AAC (como se usa, bien con SBR de alta calidad, o bien con SBR de baja potencia); sbrPatchingMode[ch] = 0 indica el parcheado armónico de SBR como se describe en la sección 7.5.3 o 7.5.4 de la norma USAC MPEG.

El valor “sbrOversamplingFlag[ch]” indica el uso de sobremuestreo de dominio de frecuencia adaptativo de señal en eSBR en combinación con el parcheado armónico de SBR basado en DFT como se describe en la sección 7.5.3 de la norma USAC MPEG. Este indicador controla el tamaño de las DFT que se utilizan en el transpondedor: 1 indica sobremuestreo de dominio de frecuencia adaptativo de señal habilitado como se describe en la sección 7.5.3.1 de la norma USAC MPEG; 0 indica que el sobremuestreo del dominio de frecuencia adaptativo de la señal está desactivado, como se describe en la sección 7.5.3.1 de la norma USAC MPEG.

El valor “sbrPitchlnBinsFlag[ch]” controla la interpretación del parámetro sbrPitchInBins[ch]: 1 indica que el valor en sbrPitchlnBins[ch] es válido y mayor que cero; 0 indica que el valor de sbrPitchlnBins[ch] es establecido a cero.

El valor “sbrPitchInBins[ch]” controla la adición de términos de productos cruzados en el transpondedor armónico de SBR. El valor sbrPitchinBins[ch] es un valor entero en el intervalo [0,127] y representa la distancia medida en intervalos de frecuencia para una DFT de 1536 líneas que actúa sobre la frecuencia de muestreo del codificador central.

En el caso de que una corriente de bits MPEG-4 AAC sea indicativo de un par de canales de SBR cuyos canales no están acoplados (en lugar de un solo canal de SBR), la corriente de bits es indicativa de dos casos de la sintaxis anterior (para transposición armónica o no armónica), uno para cada canal del sbr_channel_pair_element().

La transposición armónica de la herramienta de eSBR mejora típicamente la calidad de las señales musicales decodificadas a frecuencias de cruce relativamente bajas. La transposición no armónica (es decir, el parcheado espectral heredado) mejora típicamente las señales de voz. Por lo tanto, un punto de partida en la decisión sobre qué tipo de transposición es preferible para codificar contenido de audio específico es seleccionar el método de transposición dependiendo de la detección de voz/música con transposición armónica empleada en el contenido musical y el parcheado espectral en el contenido de velocidad.

El rendimiento del aplanamiento previo durante el procesamiento de eSBR se controla mediante el valor de un parámetro de metadatos de eSBR de un bit conocido como “bs_sbr_preprocessing”, en el sentido de que el aplanamiento previo se realiza o no dependiendo del valor de este bit único. Cuando se usa el algoritmo de parcheado de QMF de SBR, como se describe en la Sección 4.6.18.6.3 de la norma MPEG-4 AAC, se puede realizar la etapa de aplanamiento previo (cuando lo indique el parámetro “bs_sbr_preprocessing”) en un esfuerzo para evitar discontinuidades en la forma de la envolvente espectral de una señal de alta frecuencia que se introduce en un ajustador de envolvente posterior (el ajustador de envolvente realiza otra etapa del procesamiento de eSBR). El aplanamiento previo típicamente mejora el funcionamiento de la etapa de ajuste de envolvente posterior, dando como resultado una señal de banda alta que se percibe como más estable.

Se espera que el requisito general de tasa de bits para incluir en los metadatos de eSBR de una corriente de bits MPEG-4 AAC indicativos de las herramientas de eSBR mencionadas anteriormente (transposición armónica y aplanamiento previo) sea del orden de unos pocos cientos de bits por segundo porque solo los datos de control diferencial necesarios para realizar el procesamiento de eSBR se transmiten de acuerdo con algunas realizaciones de la invención. Los decodificadores heredados pueden ignorar esta información porque se incluye de una manera compatible con versiones anteriores (como se explicará más adelante). Por lo tanto, el efecto perjudicial sobre la tasa de bits asociado con la inclusión de metadatos de eSBR es insignificante, por varias razones, incluidas las siguientes:

• la penalización de la tasa de bits (debido a que se incluyen los metadatos de eSBR) es una fracción muy pequeña de la tasa de bits total porque solo se transmiten los datos de control diferencial necesarios para realizar el procesamiento de eSBR (y no una transmisión simultánea de los datos de control de SBR); y

• el ajuste de la información de control relacionada con SBR no depende típicamente de los detalles de la transposición. Los ejemplos de cuándo los datos de control dependen del funcionamiento del transpondedor se analizan posteriormente en esta solicitud.

Por tanto, las realizaciones de la invención proporcionan un medio para transmitir eficientemente datos o metadatos de control de replicación de banda espectral mejorada (eSBR) de una manera compatible con versiones anteriores. Esta transmisión eficiente de los datos de control de eSBR reduce los requisitos de memoria en los decodificadores, codificadores y transcodificadores que emplean aspectos de la invención, mientras que no tiene un efecto adverso tangible sobre la tasa de bits. Además, la complejidad y los requisitos de procesamiento asociados con la realización de eSBR según las realizaciones de la invención también se reducen porque los datos de SBR deben procesarse solo una vez y no difundirse simultáneamente, lo que sería el caso si la eSBR se tratara como un tipo de objeto completamente separado en MPEG-4 AAC en lugar de integrarse en el códec MPEG-4 AAC de forma compatible con versiones anteriores.

A continuación, con referencia a la figura 7, se describen elementos de un bloque (“raw_data_block”) de una corriente de bits MPEG-4 AAC donde en la que se incluyen metadatos de eSBR según algunas realizaciones de la presente invención. La figura 7 es un diagrama de un bloque (un “raw_data_block”) de la corriente de bits MPEG-4 AAC, que muestra algunos de sus segmentos.

Un bloque de una corriente de bits MPEG-4 AAC puede incluir al menos un “single_channel_element()” (por ejemplo, el elemento de un solo canal que se muestra en la figura 7), y/o al menos un “channel_pair_element()” (no se muestra específicamente en la figura 7 aunque puede estar presente), incluidos los datos de audio de un programa de audio. El bloque también puede incluir una serie de “fill_elements” (por ejemplo, elemento 1 de relleno y/o elemento 2 de relleno de la figura 7) que incluyen datos (por ejemplo, metadatos) relacionados con el programa. Cada “single_channel_element()” incluye un identificador (por ejemplo, “ID1” de la figura 7) que indica el inicio de un elemento de canal único, y puede incluir datos de audio indicativos de un canal diferente de un programa de audio multicanal. Cada “cannel_pair_element incluye un identificador (no mostrado en la figura 7) que indica el inicio de un elemento de par de canales, y puede incluir datos de audio indicativos de dos canales del programa.

Un fill_element (denominado en la presente memoria elemento de relleno) de una corriente de bits MPEG-4 AAC incluye un identificador (“ID2” de la figura 7) que indica el inicio de un elemento de relleno y datos de relleno después del identificador. El identificador ID2 consiste en un número entero sin signo de tres bits transmitido primero el bit más significativo (“uimsbf”) que tiene un valor de 0x6. Los datos de relleno pueden incluir un elemento extension_payload() (a veces denominado en la presente memoria como una carga útil de extensión) cuya sintaxis se muestra en la Tabla 4.57 de la norma MPEG-4 AAC. Existen varios tipos de cargas útiles de extensión y se identifican mediante el parámetro “extension_type”, que es un número entero sin signo de cuatro bits transmitido primero el bit más significativo (“uimsbf”).

Los datos de relleno (por ejemplo, una carga útil de extensión de los mismos) pueden incluir un encabezado o identificador (por ejemplo, “header1 ” de la figura 7) que indica un segmento de datos de relleno que es indicativo de un objeto de SBR (es decir, el encabezado inicializa un tipo “de objeto de SBR”, denominado sbr_extension_data() en la norma MPEG-4 AAC). Por ejemplo, una carga útil de extensión de replicación de banda espectral (SBR) se identifica con el valor de ‘1101’ o ‘1110’ para el campo extension_type en el encabezado, identificando el identificador ‘1101’ una carga útil de extensión con datos de SBR e identificando ‘1110’ una carga útil de extensión con datos de SBR con una Verificación de Redundancia Cíclica (CRC) para verificar la exactitud de los datos de SBR.

Cuando el encabezado (por ejemplo, el campo extension_type) inicializa un tipo de objeto de SBR, los metadatos de SBR (a veces denominados en la presente memoria “datos de replicación de banda espectral” y denominados sbr_data() en la norma MPEG-4 AAC) siguen al encabezado, y al menos un elemento de extensión de replicación de banda espectral (por ejemplo, el “elemento de extensión de SBR” del elemento 1 de relleno de la figura 7) puede seguir los metadatos de SBR. Tal elemento de extensión de replicación de banda espectral (un segmento de la corriente de bits) se denomina como un contenedor “sbr_extension()” en la norma MPEG-4 AAC. Un elemento de extensión de replicación de banda espectral incluye opcionalmente un encabezado (por ejemplo, “encabezado de extensión de SBR” del elemento 1 de relleno de la figura 7).

La norma MPEG-4 AAC contempla que un elemento de extensión de replicación de banda espectral puede incluir datos PS (estéreo paramétrico) para datos de audio de un programa. La norma MPEG-4 AAC contempla que cuando el encabezado de un elemento de relleno (por ejemplo, de una carga útil de extensión del mismo) inicializa un tipo de objeto de SBR (como lo hace “header1” de la figura 7) y un elemento de extensión de replicación de banda espectral del elemento de relleno incluye datos PS, el elemento de relleno (por ejemplo, la carga útil de extensión del mismo) incluye datos de replicación de banda espectral y un parámetro “bs_extension_id” cuyo valor (es decir, bs_extension_id = 2) indica que los datos PS están incluidos en un elemento de extensión de replicación de banda espectral del elemento de relleno.

Según algunas realizaciones de la presente invención, los metadatos de eSBR (por ejemplo, un indicador indicativo de si el procesamiento de replicación de banda espectral mejorada (eSBR) se ha de realizar en el contenido de audio del bloque) se incluyen en un elemento de extensión de replicación de banda espectral de un elemento de relleno. Por ejemplo, tal indicador es indicado en el elemento 1 de relleno de la figura 7, donde el indicador aparece después del encabezado (el “encabezado de extensión de SBR” del elemento 1 de relleno) del “elemento de extensión de SBR” del elemento 1 de relleno. Opcionalmente, tal indicador y metadatos de eSBR adicionales se incluyen en un elemento de extensión de replicación de banda espectral después del encabezado del elemento de extensión de replicación de banda espectral (por ejemplo, en el elemento de extensión de SBR del elemento 1 de relleno en la figura 7, después del encabezado de extensión de SBR). Según algunas realizaciones de la presente invención, un elemento de relleno que incluye metadatos de eSBR también incluye un parámetro “bs_extension_id” cuyo valor (por ejemplo, bs_extension_id = 3) indica que los metadatos de eSBR están incluidos en el elemento de relleno y que el procesamiento de eSBR debe ser realizado en el contenido de audio del bloque relevante.

Según algunas realizaciones de la invención, los metadatos de eSBR se incluyen en un elemento de relleno (por ejemplo, el elemento 2 de relleno de la figura 7) de una corriente de bits MPEG-4 AAC que no sea un elemento de extensión de replicación de banda espectral (elemento de extensión de SBR) del elemento de relleno. Esto se debe a que los elementos de relleno que contienen un extension_payload() con datos de SBR o datos de SBR con una CRC no contienen ninguna otra carga útil de extensión de ningún otro tipo de extensión. Por lo tanto, en las realizaciones en las que los metadatos eSBR almacenan su propia carga útil de extensión, se usa un elemento de relleno independiente para almacenar los metadatos de eSBR. Tal elemento de relleno incluye un identificador (por ejemplo, “ID2” de la figura 7) que indica el inicio de un elemento de relleno y datos de relleno después del identificador. Los datos de relleno pueden incluir un elemento extension_payload() (a veces denominado en la presente memoria como una carga útil de extensión) cuya sintaxis se muestra en la tabla 4.57 de la norma MPEG-4 AAC. Los datos de relleno (por ejemplo, una carga útil de extensión de los mismos) incluyen un encabezado (por ejemplo, “header2” del elemento 2 de relleno de la figura 7) que es indicativo de un objeto de eSBR (es decir, el encabezado inicializa un tipo de objeto de replicación de banda espectral mejorada (eSBR)), y los datos de relleno (por ejemplo, una carga útil de extensión de los mismos) incluyen metadatos de eSBR después del encabezado. Por ejemplo, el elemento 2 de relleno de la figura 7 incluye dicho encabezado (“header2”) y también incluye, después del encabezado, metadatos de eSBR (es decir, el “flag” en el elemento 2 de relleno, que indica si la replicación de banda espectral mejorada (eSBR) se debe realizar en el contenido de audio del bloque). Opcionalmente, también se incluyen metadatos de eSBR adicionales en los datos de relleno del elemento 2 de relleno de la figura 7, después del header2. En las realizaciones que se describen en el presente párrafo, el encabezado (por ejemplo, header2 de la figura 7) tiene un valor de identificación que no es uno de los valores convencionales especificados en la tabla 4.57 de la norma MPEG-4 AAC, y en su lugar es indicativo de una carga útil de extensión de eSBR (de modo que el campo extension_type del encabezado indique que los datos de relleno incluyen metadatos de eSBR).

En una primera clase de realizaciones, la invención es una unidad de procesamiento de audio (por ejemplo, un decodificador), que comprende:

una memoria (por ejemplo, la memoria intermedia 201 de la figura 3 o 4) configurada para almacenar al menos un bloque de una corriente de bits de audio codificada (por ejemplo, al menos un bloque de una corriente de bits MPEG-4 AAC);

un desformateador de carga útil de corriente de bits (por ejemplo, el elemento 205 de la figura 3 o el elemento 215 de la figura 4) acoplado a la memoria y configurado para desmultiplexar al menos una porción de dicho bloque de la corriente de bits; y

un subsistema de decodificación (por ejemplo, elementos 202 y 203 de la figura 3, o elementos 202 y 213 de la figura 4), acoplado y configurado para decodificar al menos una porción del contenido de audio de dicho bloque de la corriente de bits, en donde el bloque incluye:

un elemento de relleno, que incluye un identificador que indica un inicio del elemento de relleno (por ejemplo, el identificador “id_syn_ele” que tiene el valor 0x6, de la Tabla 4.85 de la norma MPEG-4 AAC), y datos de relleno después del identificador, donde los datos de relleno incluyen:

al menos un indicador que identifica si el procesamiento de replicación de banda espectral mejorada (eSBR) ha de realizarse en el contenido de audio del bloque (por ejemplo, usando datos de replicación de banda espectral y metadatos de eSBR incluidos en el bloque).

El indicador son los metadatos de eSBR y un ejemplo del indicador es el indicador sbrPatchingMode. Otro ejemplo del indicador es el indicador harmonicSBR. Ambos indicadores indican si se ha de realizar una forma de base de replicación de banda espectral o una forma mejorada de replicación espectral en los datos de audio del bloque. La forma de base de la replicación espectral es el parcheado espectral, y la forma mejorada de replicación de la banda espectral es la transposición armónica.

En algunas realizaciones, los datos de relleno también incluyen metadatos de eSBR adicionales (es decir, metadatos de eSBR distintos del indicador).

La memoria puede ser una memoria intermedia (por ejemplo, una implementación de la memoria intermedia 201 de la figura 4) que almacena (por ejemplo, de manera no transitoria) al menos dicho bloque de la corriente de bits de audio codificada.

Se estima que la complejidad del rendimiento del procesamiento de eSBR (usando la transposición armónica de eSBR y el aplanamiento previo) por un decodificador de eSBR durante la decodificación de una corriente de bits MPEG-4 AAC que incluye metadatos de eSBR (indicativos de estas herramientas de eSBR) sería la siguiente (para decodificación típica con los parámetros indicados):

• Transposición armónica (16 kbps, 14400/28800 Hz)

° Basada en DFT: 3,68 WMOPS (millón de operaciones ponderadas por segundo);

° Basada en QMF: 0,98 WMOPS;

• Procesamiento previo de parcheado de QMF (aplanamiento previo): 0,1 WMOPS.

Se sabe que la transposición basada en DFT funciona típicamente mejor que la transposición basada en QMF para transitorios.

Según algunas realizaciones de la presente invención, un elemento de relleno (de una corriente de bits de audio codificada) que incluye metadatos de eSBR también incluye un parámetro (por ejemplo, un parámetro “bs_extension_id”) cuyo valor (por ejemplo, bs_extension_id = 3) indica que los metadatos de eSBR están incluidos en el elemento de relleno y que el procesamiento de eSBR ha de realizarse en el contenido de audio del bloque relevante, y/o un parámetro (por ejemplo, el mismo parámetro “bs_extension_id”) cuyo valor (por ejemplo, bs_extension_id = 2) indica que un contenedor sbr_extension() del elemento de relleno incluye datos PS. Por ejemplo, como se indica en la Tabla 1 a continuación, tal parámetro que tiene el valor bs_extension_id = 2 puede indicar que un contenedor sbr_extension() del elemento de relleno incluye datos PS, y tal parámetro que tiene el valor bs_extension_id = 3 puede indicar que un contenedor sbr_extension() del elemento de relleno incluye metadatos de eSBR:

Tabla 1

Según algunas realizaciones de la invención, la sintaxis de cada elemento de extensión de replicación de banda espectral que incluye metadatos de eSBR y/o datos PS es como se indica en la Tabla 2 a continuación (en la que “sbr_extension()” indica un contenedor que es el elemento de extensión de replicación de banda espectral, “bs_extension_id” es como se describe en la Tabla 1 anterior, “ps_data” indica datos PS y “esbr_data” indica metadatos de eSBR):

Tabla 2

En una realización ejemplar, esbr_data() al que se hace referencia en la Tabla 2 anterior es indicativo de los valores de los siguientes parámetros de metadatos:

1. El parámetro de metadatos de un bit, “bs_sbr_preprocessing”; y

2. Para cada canal (“ch”) de contenido de audio de la corriente de bits codificada que se ha de decodificar, cada uno de los parámetros descritos anteriormente: “sbrPatchingMode[ch]”; “sbrOversamplingFlag[ch]”; “sbrPitchlnBinsFlag[ch]”; y “sbrPitchlnBins[ch]”.

Por ejemplo, en algunas realizaciones, esbr_data() puede tener la sintaxis indicada en la Tabla 3, para indicar estos parámetros de metadatos:

Tabla 3

La sintaxis anterior permite una implementación eficiente de una forma mejorada de replicación de banda espectral, tal como la transposición armónica, como una extensión de un decodificador heredado. Específicamente, los datos de eSBR de la Tabla 3 incluyen solo aquellos parámetros necesarios para realizar la forma mejorada de replicación de banda espectral que, o bien no están ya soportados en la corriente de bits, o bien se pueden inferir directamente a partir de los parámetros ya soportados en la corriente de bits. Todos los demás parámetros y datos de procesamiento necesarios para realizar la forma mejorada de replicación de banda espectral se extraen a partir de parámetros preexistentes en ubicaciones ya definidas en la corriente de bits.

Por ejemplo, un decodificador que cumple con MPEG-4 HE-AAC o HE-AAC v2 puede extenderse para incluir una forma mejorada de replicación de banda espectral, como la transposición armónica. Esta forma mejorada de replicación de banda espectral se suma a la forma de base de replicación de banda espectral ya soportada por el decodificador. En el contexto de un decodificador que cumple con MPEG-4 HE-AAC o HE-AAC v2, esta forma de base de replicación de banda espectral es la herramienta de SBR de parcheado espectral QMF como se define en la sección 4.6.18 de la norma MPEG-4 AAC.

Cuando se realiza la forma mejorada de replicación de banda espectral, un decodificador HE-AAC extendido puede reutilizar muchos de los parámetros de la corriente de bits ya incluidos en la carga útil de extensión de SBR de la corriente de bits. Los parámetros específicos que pueden reutilizarse incluyen, por ejemplo, los diversos parámetros que determinan la tabla de bandas de frecuencia maestra. Estos parámetros incluyen bs_start_freq (parámetro que determina el inicio de la tabla de frecuencia maestra), bs_stop_freq (parámetro que determina la parada de la tabla de frecuencia maestra), bs_freq_scale (parámetro que determina el número de bandas de frecuencia por octava) y bs_alter_scale (parámetro que altera la escala de las bandas de frecuencia). Los parámetros que pueden reutilizarse también incluyen parámetros que determinan la tabla de bandas de ruido (bs_noise_bands) y los parámetros de la tabla de bandas limitadoras (bs_limiter_bands). Por consiguiente, en varias realizaciones, al menos algunos de los parámetros equivalentes especificados en la norma USAC se omiten de la corriente de bits, reduciendo así la sobrecarga de control en la corriente de bits. Típicamente, cuando un parámetro especificado en la norma AAC tiene un parámetro equivalente especificado en la norma USAC, el parámetro equivalente especificado en la norma USAC tiene el mismo nombre que el parámetro especificado en la norma AAC, por ejemplo, el factor de escala de la envolvente EOrigMapped. Sin embargo, el parámetro equivalente especificado en la norma USAC tiene típicamente un valor diferente, que se “ajusta” para el procesamiento de SBR mejorado definido en la norma USAC en lugar del procesamiento de SBR definido en la norma AAC.

Para mejorar la calidad subjetiva para el contenido de audio con una estructura de frecuencia armónica y características tonales fuertes, en particular a tasas de bits bajas, se recomienda la activación de SBR mejorada. Los valores del elemento de corriente de bits correspondiente (es decir, esbr_data()), que controla estas herramientas, se pueden determinar en el codificador aplicando un mecanismo de clasificación dependiente de la señal. Generalmente, el uso del método de parcheado armónico (sbrPatchingMode == 1) es preferible para codificar señales musicales a tasas de bits muy bajas, donde el códec central puede estar considerablemente limitado en el ancho de banda de audio. Esto es especialmente cierto si estas señales incluyen una estructura armónica pronunciada. Por el contrario, se prefiere el uso del método de parcheado de SBR regular para señales de voz y mixtas, ya que proporciona una mejor conservación de la estructura temporal en la voz.

Para mejorar el rendimiento del transpondedor armónico, se puede activar una etapa de procesamiento previo (bs_sbr_preprocessing == 1) que se esfuerza por evitar la introducción de discontinuidades espectrales de la señal que entran en el ajustador de envolvente posterior. El funcionamiento de la herramienta es beneficioso para los tipos de señal en los que la envolvente espectral aproximada de la señal de banda baja que se usa para la reconstrucción de alta frecuencia muestra grandes variaciones de nivel.

Para mejorar la respuesta transitoria del parcheado armónico de SBR, se puede aplicar un sobremuestreo de dominio de frecuencia adaptativo de señal (sbrOversamplingFlag == 1). Dado que el sobremuestreo de dominio de frecuencia adaptativo de la señal aumenta la complejidad computacional del transpondedor, pero solo aporta beneficios para las tramas que contienen transitorios, el uso de esta herramienta está controlado por el elemento de corriente de bits, que es transmitido una vez por trama y por canal de SBR independiente.

Un decodificador que opera en el modo de SBR mejorado propuesto necesita típicamente que sea capaz de cambiar entre el parcheado de SBR heredado y mejorado. Por lo tanto, se puede introducir un retardo que puede ser tan largo como la duración de una trama de audio central, dependiendo de la configuración del decodificador. Típicamente, el retardo tanto para el parcheado de SBR heredado como para el mejorado será similar.

Además de los numerosos parámetros, un decodificador de HE-AAC extendido también puede reutilizar otros elementos de datos cuando se realiza una forma mejorada de replicación de banda espectral según realizaciones de la invención. Por ejemplo, los datos de la envolvente y los datos del ruido de fondo también pueden extraerse a partir de los datos bs_data_env (factores de escala de la envolvente) y bs_noise_env (factores de escala del ruido de fondo) y usarse durante la forma mejorada de replicación de banda espectral.

En esencia, estas realizaciones se aprovechan de los parámetros de configuración y los datos de envolvente ya soportados por un decodificador HE-AAC o HE-AAC v2 heredado en la carga útil de extensión de SBR para permitir una forma mejorada de replicación de banda espectral que requiere la menor cantidad posible de datos transmitidos adicionales. Los metadatos se sintonizaron originalmente para una forma de base de HFR (por ejemplo, la operación de traslación espectral de SBR), pero según las realizaciones, se usan para una forma mejorada de HFR (por ejemplo, la transposición armónica de eSBR). Como se ha analizado anteriormente, los metadatos generalmente representan parámetros operativos (por ejemplo, factores de escala de envolvente, factores de escala de ruido de fondo, parámetros de cuadrícula de tiempo/frecuencia, información de adición de sinusoide, cruce variable sobre frecuencia/banda, modo de filtrado inverso, resolución de envolvente, modo de suavizado, modo de interpolación de frecuencia) ajustados y destinados a ser usados con la forma de base de HFR (por ejemplo, traslación espectral lineal). Sin embargo, estos metadatos, combinados con parámetros de metadatos adicionales específicos de la forma mejorada de HFR (por ejemplo, transposición armónica), pueden ser usados para procesar de manera eficiente y efectiva los datos de audio usando la forma mejorada de HFR.

Por consiguiente, los decodificadores extendidos que soportan una forma mejorada de replicación de banda espectral pueden crearse de una manera muy eficiente basándose en elementos de corriente de bits ya definidos (por ejemplo, aquellos en la carga útil de extensión de SBR) y añadiendo solo los parámetros necesarios para soportar la forma mejorada de replicación de banda espectral (en una carga útil de extensión de elemento de relleno). Esta función de reducción de datos combinada con la ubicación de los parámetros recién añadidos en un campo de datos reservado, tal como un contenedor de extensión, reduce sustancialmente las barreras para crear un decodificador que soporte una forma mejorada de replicación de banda espectral al garantizar que la corriente de bits sea compatible retroactivamente con el decodificador heredado que no soporta la forma mejorada de replicación de banda espectral. Se apreciará que el campo de datos reservado es un campo de datos compatible retroactivamente, es decir, es un campo de datos que ya es soportado por decodificadores anteriores, tales como los decodificadores HE-AAC o HE-AAC v2 heredados. De manera similar, el contenedor de extensión es compatible retroactivamente, es decir, es un contenedor de extensión que ya es soportado por decodificadores anteriores, tales como los decodificadores HE-AAC o HE-AAC v2 heredados.

En la Tabla 3, el número de la columna de la derecha indica el número de bits del parámetro correspondiente en la columna de la izquierda.

En algunas realizaciones, el tipo de objeto de SBR definido en MPEG-4 AAC se actualiza para contener la herramienta de SBR y aspectos de la herramienta de SBR mejorada (eSBR) como se indica en el elemento de extensión de SBR (bs_extension_id == EXTENSION_ID_ESBR). Si un decodificador detecta este elemento de extensión SBR, el decodificador emplea los aspectos señalizados de la herramienta de SBR mejorada.

En algunas realizaciones, la invención es un método que incluye una etapa de codificación de datos de audio para generar una corriente de bits codificada (por ejemplo, una corriente de bits MPEG-4 AAC), incluyendo los metadatos de eSBR en al menos un segmento de al menos un bloque de la corriente de bits codificada y datos de audio en al menos otro segmento del bloque. En realizaciones típicas, el método incluye una etapa de multiplexar los datos de audio con los metadatos de eSBR en cada bloque de la corriente de bits codificada. En la decodificación típica de la corriente de bits codificada en un decodificador de eSBR, el decodificador extrae los metadatos de eSBR de la corriente de bits (incluido el análisis sintáctico y la demultiplexación de los metadatos de eSBR y los datos de audio) y usa los metadatos de eSBR para procesar los datos de audio para generar un flujo de datos de audio decodificados.

Otro aspecto de la invención es un decodificador de eSBR configurado para realizar el procesamiento de eSBR (por ejemplo, usando al menos una de las herramientas de eSBR conocidas como transposición armónica o aplanamiento previo) durante la decodificación de una corriente de bits de audio codificada (por ejemplo, una corriente de bits MPEG-4 AAC) que no incluye metadatos de eSBR. Se describirá un ejemplo de tal decodificador con referencia a la figura 5.

El decodificador de eSBR (400) de la figura 5 incluye la memoria intermedia 201 (que es idéntica a la memoria 201 de las figuras 3 y 4), el desformateador 215 de carga útil de corriente de bits (que es idéntico al desformateador 215 de la figura 4), el subsistema 202 de decodificación de audio (a veces denominada etapa de decodificación “central” o subsistema de decodificación “central”, y que es idéntico al subsistema 202 de decodificación de la figura 3), el subsistema 401 de generación de datos de control de eSBR y la etapa 203 de procesamiento de eSBR (que es idéntica a la etapa 203 de la figura 3), conectados como se muestra. También típicamente, el decodificador 400 incluye otros elementos de procesamiento (no mostrados).

En el funcionamiento del decodificador 400, una secuencia de bloques de una corriente de bits de audio codificada (una corriente de bits MPEG-4 AAC) recibida por el decodificador 400 se confirma desde la memoria intermedia 201 al desformateador 215.

El desformateador 215 está acoplado y configurado para demultiplexar cada bloque de la corriente de bits para extraer metadatos de SBR (incluidos datos de envolvente cuantificados) y típicamente también otros metadatos de la misma. El desformateador 215 está configurado para confirmar al menos los metadatos de SBR en la etapa 203 de procesamiento de eSBR. El desformateador 215 también está acoplado y configurado para extraer datos de audio de cada bloque de la corriente de bits y para confirmar los datos de audio extraídos al subsistema 202 de decodificación (etapa de decodificación).

El subsistema 202 de decodificación de audio del decodificador 400 está configurado para decodificar los datos de audio extraídos por el desformateador 215 (tal decodificación puede denominarse operación de decodificación “central”) para generar datos de audio decodificados y para confirmar los datos de audio decodificados en la etapa 203 de procesamiento de eSBR. La decodificación se realiza en el dominio de frecuencia. Típicamente, una etapa final de procesamiento en el subsistema 202 aplica una transformación de dominio de frecuencia a dominio de tiempo a los datos de audio de dominio de frecuencia decodificados, de modo que la salida del subsistema son datos de audio decodificados de dominio de tiempo. La etapa 203 está configurada para aplicar herramientas de SBR (y herramientas de eSBR) indicadas por los metadatos de SBR (extraídos por el desformateador 215) y por los metadatos de eSBR generados en el subsistema 401, a los datos de audio decodificados (es decir, para realizar el procesamiento de SBR y de eSBR en la salida del subsistema 202 de decodificación usando los metadatos de SBR y de eSBR) para generar los datos de audio completamente decodificados que se emiten desde el decodificador 400. Típicamente, el decodificador 400 incluye una memoria (accesible por el subsistema 202 y la etapa 203) que almacena la salida de datos y metadatos de audio desformateados procedentes del desformateador 215 (y opcionalmente también del subsistema 401), y la etapa 203 está configurada para acceder a los datos de audio y metadatos según sea necesario durante el procesamiento de SBR y de eSBR. Se puede considerar que el procesamiento de SBR en la etapa 203 es un post-procesamiento en la salida del subsistema 202 de decodificación central. Opcionalmente, el decodificador 400 también incluye un subsistema de mezcla ascendente final (que puede aplicar herramientas estéreo paramétricas (“PS”) definidas en la norma MPEG-4 AAC, usando metadatos PS extraídos por el desformateador 215) que está acoplado y configurado para realizar mezcla ascendente en la salida de la etapa 203 para generar audio de mezcla ascendente y totalmente decodificado que se emite desde la APU 210.

El estéreo paramétrico es una herramienta de codificación que representa una señal estéreo usando una mezcla descendente lineal de los canales izquierdo, y derecho de la señal estéreo y conjuntos de parámetros espaciales que describen la imagen estéreo. El estéreo paramétrico típicamente emplea tres tipos de parámetros espaciales: (1) diferencias de intensidad entre canales (IID) que describen las diferencias de intensidad entre los canales; (2) diferencias de fase entre canales (IPD) que describen las diferencias de fase entre los canales; y (3) coherencia entre canales (ICC) que describe la coherencia (o similitud) entre los canales. La coherencia puede medirse como el máximo de la correlación cruzada en función del tiempo o de la fase. Estos tres parámetros generalmente permiten una reconstrucción de alta calidad de la imagen estéreo. Sin embargo, los parámetros de IPD solo especifican las diferencias de fase relativas entre los canales de la señal de entrada estéreo y no indican la distribución de estas diferencias de fase en los canales izquierdo y derecho. Por lo tanto, se puede usar adicionalmente un cuarto tipo de parámetro que describe un desplazamiento de fase general o una diferencia de fase general (OPD). En el proceso de reconstrucción estéreo, los segmentos de ventana consecutivos tanto de la señal de mezcla descendente recibida, s[n], como una versión descorrelacionada de la mezcla descendente recibida, d[n], se procesan junto con los parámetros espaciales para generar las señales reconstruidas izquierda (lk(n)) y derecha (rk(n)) según:

lk(n)=Hii(k,n)Sk(n)+H2i(k,n)dk(n)

rk(n)=Hi2(k,n)Sk(n)+H2<2>(k,n)dk(n)

donde H11, H12, H21 y H22 están definidos por los parámetros estéreo. Las señales lk(n) y rk(n) se transforman finalmente de nuevo al dominio de tiempo mediante una transformación de frecuencia a tiempo.

El subsistema 401 de generación de datos de control de la figura 5 está acoplado y configurado para detectar al menos una propiedad de la corriente de bits de audio codificada que se ha de decodificar, y para generar datos de control de eSBR (que pueden ser o incluir metadatos de eSBR de cualquiera de los tipos incluidos en corrientes de bits de audio codificadas según otras realizaciones de la invención) en respuesta a al menos un resultado de la etapa de detección. Los datos de control de eSBR se confirman en la etapa 203 para activar la aplicación de herramientas de eSBR individuales o combinaciones de herramientas de eSBR al detectar una propiedad específica (o combinación de propiedades) de la corriente de bits y/o para controlar la aplicación de tales herramientas de eSBR. Por ejemplo, para controlar el rendimiento del procesamiento de eSBR mediante la transposición armónica, algunas realizaciones del subsistema 401 de generación de datos de control incluirían: un detector de música (por ejemplo, una versión simplificada de un detector de música convencional) para configurar el parámetro sbrPatchingMode[ch] (y confirmar el parámetro establecido en la etapa 203) en respuesta a la detección de que la corriente de bits es o no indicativa de música; un detector de transitorios para establecer el parámetro sbrOversamplingFlag[ch] (y confirmar el parámetro establecido en la etapa 203) en respuesta a la detección de la presencia o ausencia de transitorios en el contenido de audio indicado por la corriente de bits; y/o un detector de tono para establecer los parámetros sbrPitchInBinsFlag[ch] y sbrPitchlnBins[ch] (y confirmar los parámetros establecidos en la etapa 203) en respuesta a la detección del tono del contenido de audio indicado por la corriente de bits. Otros aspectos de la invención son los métodos de decodificación de corriente de bits de audio realizados por cualquier realización del decodificador de la invención descrito en este párrafo y en el párrafo anterior.

Los aspectos de la invención incluyen un método de codificación o decodificación del tipo para el que está configurada (por ejemplo, programada) para realizar cualquier realización de la APU, sistema o dispositivo de la invención. Otros aspectos de la invención incluyen un sistema o dispositivo configurado (por ejemplo, programado) para realizar cualquier realización del método de la invención, y un medio legible por ordenador (por ejemplo, un disco) que almacena código (por ejemplo, de manera no transitoria) para implementar cualquier realización del método de la invención o etapas del mismo. Por ejemplo, el sistema de la invención puede ser o incluir un procesador de propósito general programable, procesador de señal digital o microprocesador, programado con software o firmware y/o configurado de otra manera para realizar cualquiera de una variedad de operaciones sobre datos, incluida una realización del método de la invención o etapas del mismo. Tal procesador de propósito general puede ser o incluir un sistema informático que incluye un dispositivo de entrada, una memoria y circuitos de procesamiento programado (y/o configurado de otra manera) para realizar una realización del método de la invención (o etapas del mismo) en respuesta a los datos confirmados en el mismo.

Las realizaciones de la presente invención pueden implementarse en hardware, firmware o software, o una combinación de ambos (por ejemplo, como una agrupación lógica programable). A menos que se especifique lo contrario, los algoritmos o procesos incluidos como parte de la invención no están intrínsecamente relacionados con ningún ordenador u otro aparato en particular. En particular, se pueden usar varias máquinas de uso general con programas escritos según las enseñanzas de la presente memoria, o puede ser más conveniente construir aparatos más especializados (por ejemplo, circuitos integrados) para realizar las etapas requeridas del método. Por tanto, la invención puede implementarse en uno o más programas informáticos que se ejecutan en uno o más sistemas informáticos programables (por ejemplo, una implementación de cualquiera de los elementos de la figura 1, o el codificador 100 de la figura 2 (o un elemento del mismo), o decodificador 200 de la figura 3 (o un elemento del mismo), o decodificador 210 de la figura 4 (o un elemento del mismo), o decodificador 400 de la figura 5 (o un elemento del mismo)) cada uno de los cuales comprende al menos un procesador, al menos un sistema de almacenamiento de datos (que incluye memoria y/o elementos de almacenamiento volátiles y no volátiles), al menos un dispositivo o puerto de entrada y al menos un dispositivo o puerto de salida. El código de programa se aplica a los datos de entrada para realizar las funciones descritas en la presente memoria y generar información de salida. La información de salida se aplica a uno o más dispositivos de salida, de manera conocida.

Cada uno de dichos programas puede implementarse en cualquier lenguaje informático deseado (incluyendo máquina, ensamblaje o lenguajes de programación de procedimiento, lógico u orientado a objetos de alto nivel) para comunicarse con un sistema informático. En cualquier caso, el lenguaje puede ser un lenguaje compilado o interpretado.

Por ejemplo, cuando se implementan mediante secuencias de instrucciones de software informático, varias funciones y etapas de realizaciones de la invención pueden implementarse mediante secuencias de instrucciones de software multiproceso que se ejecutan en hardware de procesamiento de señales digitales adecuado, en cuyo caso los diversos dispositivos, etapas y funciones de las realizaciones pueden corresponder a porciones de las instrucciones del software.

Cada uno de dichos programas informáticos se almacena o se descarga preferiblemente en un medio o dispositivo de almacenamiento (por ejemplo, memoria o medio de estado sólido, o medio magnético u óptico) legible por un ordenador programable de propósito general o especial, para configurar y operar el ordenador cuando el medio o dispositivo de almacenamiento es leído por el sistema informático para realizar los procedimientos descritos en la presente memoria. El sistema de la invención también puede implementarse como un medio de almacenamiento legible por ordenador, configurado con (es decir, almacenando) un programa informático, donde el medio de almacenamiento así configurado hace que un sistema informático opere de una manera específica y predefinida para realizar las funciones descritas en la presente memoria.

Se han descrito varias realizaciones de la invención. No obstante, se entenderá que se pueden realizar varias modificaciones. Son posibles numerosas modificaciones y variaciones de la presente invención a la luz de las enseñanzas anteriores. Por ejemplo, para facilitar implementaciones eficientes, los desplazamientos de fase pueden usarse en combinación con los bancos de filtros de síntesis y análisis de QMF complejos. El banco de filtros de análisis es responsable de filtrar la señal de banda baja en el dominio de tiempo generada por el decodificador central en una pluralidad de subbandas (por ejemplo, subbandas de QMF). El banco de filtros de síntesis es responsable de combinar la banda alta regenerada producida por la técnica de HFR seleccionada (como lo indica el parámetro sbrPatchingMode recibido) con la banda baja decodificada para producir una señal de audio de salida de banda ancha. Sin embargo, una implementación de banco de filtros dada que opera en un cierto modo de frecuencia de muestreo, por ejemplo, operación normal de tasa dual o modo de SBR con muestreo descendente, no debería tener sin embargo, desplazamientos de fase que dependan de la corriente de bits. Los bancos de QMF usados en SBR son una extensión exponencial compleja de la teoría de los bancos de filtros modulados por coseno. Se puede demostrar que las restricciones de cancelación de alias resultan obsoletas cuando se extiende el banco de filtros con modulación de coseno con modulación exponencial compleja. Por lo tanto, para los bancos QMF de SBR, tanto los filtros de análisis, hk(n) como los filtros de síntesis, fk(n), pueden definirse por:

h k W = fk (n ) = P o W e x p ^ j i (k ^ ( n - ^ } , 0 < n < N ; 0 < k < M(1)

donde p<0>(n) es un filtro prototipo simétrico o asimétrico de valor real (típicamente, un filtro prototipo de paso bajo), M indica el número de canales y N es el orden del filtro prototipo. El número de canales usados en el banco de filtros de análisis puede ser diferente al número de canales usados en el banco de filtros de síntesis. Por ejemplo, el banco de filtros de análisis puede tener 32 canales y el banco de filtros de síntesis puede tener 64 canales. Cuando se opera el banco de filtros de síntesis en modo de muestreo descendente, el banco de filtros de síntesis puede tener solo 32 canales. Dado que las muestras de subbanda procedentes del banco de filtros son de valor complejo, puede añadirse al banco de filtros de análisis una etapa de desplazamiento de fase aditivo posiblemente dependiente del canal. Estos desplazamientos de fase adicionales deben compensarse antes del banco de filtros de síntesis. Aunque los términos de desplazamiento de fase en principio pueden ser de valores arbitrarios sin destruir el funcionamiento de la cadena de análisis/síntesis de QMF, también pueden estar limitados a ciertos valores para la verificación de conformidad. La señal de SBR se verá afectada por la elección de los factores de fase, mientras que la señal de paso bajo que proviene del decodificador central no lo hará. La calidad de audio de la señal de salida no se ve afectada.

Los coeficientes del filtro prototipo, p<0>(n), pueden definirse con una longitud, L, de 640, como se muestra en la Tabla 4 a continuación.

Tabla 4

El filtro prototipo, po(n), también puede inferirse a partir de la Tabla 4 mediante una o más operaciones matemáticas tales como redondeo, submuestreo, interpolación y decimación.

Aunque el ajuste de la información de control relacionada con SBR no depende típicamente de los detalles de la transposición (como se analizó anteriormente), en algunas realizaciones, ciertos elementos de los datos de control pueden ser simultaneados en el contenedor de extensión de eSBR (bs_extension_id==EXTENSION_ID_ESBR) para mejorar la calidad de la señal regenerada. Algunos de los elementos transmitidos simultáneamente pueden incluir los datos del ruido de fondo (por ejemplo, factores de escala del ruido de fondo y un parámetro que indica la dirección, o bien en la dirección de frecuencia, o bien en la del tiempo, de codificación delta para cada ruido de fondo), los datos de filtrado inverso (por ejemplo, un parámetro que indica el modo de filtrado inverso seleccionado de entre uno de sin filtrado inverso, de un nivel bajo de filtrado inverso, de un nivel intermedio de filtrado inverso y de un nivel alto de filtrado inverso) y los datos de armónicos faltantes (por ejemplo, un parámetro que indica si debe añadirse una sinusoide a una banda de frecuencia específica de la banda alta regenerada). Todos estos elementos se basan en una emulación sintetizada del transpondedor del decodificador realizada en el codificador y, por lo tanto, si ajustados apropiadamente para el transpondedor seleccionado, pueden aumentar la calidad de la señal regenerada.

Específicamente, en algunas realizaciones, los armónicos faltantes y los datos de control de filtrado inverso se transmiten en el contenedor de extensión de eSBR (junto con los otros parámetros de corriente de bits de la Tabla 3) y se ajustan para el transpondedor de armónicos de eSBR. La tasa de bits adicional necesaria para transmitir estas dos clases de metadatos para el transpondedor armónico de eSBR es relativamente baja. Por lo tanto, el envío de datos de control de filtrado inverso y/o armónicos faltantes ajustados en el contenedor de extensión de eSBR aumentará la calidad de audio producido por el transpondedor mientras que afectará solo mínimamente a la tasa de bits. Para garantizar la compatibilidad retroactiva con decodificadores heredados, los parámetros ajustados para la operación de traslación espectral de SBR también pueden ser enviados en la corriente de bits como parte de los datos de control de SBR usando señalización implícita o explícita.

Debe entenderse que dentro del alcance de las reivindicaciones adjuntas, la invención se puede poner en práctica de varias formas. Cualesquiera números de referencia contenidos en las siguientes reivindicaciones son solo para fines ilustrativos y no deben usarse para interpretar o limitar las reivindicaciones de ninguna manera.

Claims

REIVINDICACIONES 1 Un método para realizar la reconstrucción de alta frecuencia de una señal de audio, comprendiendo el método: recibir una corriente de bits de audio codificada, incluyendo la corriente de bits de audio codificada datos de audio que representan una porción de banda baja de la señal de audio y metadatos de reconstrucción de alta frecuencia; decodificar los datos de audio para generar una señal de audio de banda baja decodificada; extraer de la corriente de bits de audio codificada los metadatos de reconstrucción de alta frecuencia, incluyendo, los metadatos de reconstrucción de alta frecuencia, parámetros operativos para un proceso de reconstrucción de alta frecuencia, incluyendo los parámetros operativos un parámetro de modo de parcheado ubicado en un contenedor de extensión compatible retroactivamente de la corriente de bits de audio codificada, en donde un primer valor del parámetro de modo de parcheado indica traslación espectral y un segundo valor del parámetro de modo de parcheado indica transposición armónica por expansión de frecuencia de codificador de voz de fase; filtrar la señal de audio de banda baja decodificada para generar una señal de audio de banda baja filtrada; y regenerar una porción de banda alta de la señal de audio usando la señal de audio de banda baja filtrada y los metadatos de reconstrucción de alta frecuencia, en donde la regeneración incluye la traslación espectral si el parámetro de modo de parcheado es el primer valor y la regeneración incluye la transposición armónica mediante la expansión de frecuencia del codificador de voz de fase si el parámetro de modo de parcheado es el segundo valor; en donde la corriente de bits de audio codificada incluye además un elemento de relleno con un identificador que indica un inicio del elemento de relleno y datos de relleno después del identificador, en donde el identificador es un número entero sin signo de tres bits transmitido primero el bit más significativo y que tiene un valor de 0x6, en donde los datos de relleno incluyen el contenedor de extensión compatible retroactivamente, en donde los datos de relleno incluyen una carga útil de extensión, la carga útil de extensión incluye datos de extensión de replicación de banda espectral, y la carga útil de extensión se identifica con un número entero de cuatro bits sin signo transmitido primero el bit más significativo y que tiene un valor de ‘1101’ o ‘1110’. 2.- El método de la reivindicación 1, en donde el filtrado se realiza mediante un banco de filtros de análisis que incluye filtros de análisis, hk(n), que son versiones moduladas de un filtro prototipo, pü(n), según:

en donde p<0>(n) es un filtro prototipo simétrico o asimétrico de valor real, M es un número de canales en el banco de filtros de análisis y N es un orden del filtro prototipo. 3.- El método de la reivindicación 2, en donde el filtro prototipo, p<0>(n), se infiere de los coeficientes de la tabla: