ES2374309T3

ES2374309T3 - Decodificación de audio.

Info

Publication number: ES2374309T3
Application number: ES09005485T
Authority: ES
Inventors: Erik G. P. Schuijers; Gerard H. Hotho; Heiko Purnhagen; Wolfgang A. Schildbach; Holger Hoerich; Hans M. Kjoerling; Karl J. Roeden
Original assignee: Dolby International AB; Koninklijke Philips Electronics NV; Dolby Sweden AB
Current assignee: Koninklijke Philips NV; Dolby International AB; Dolby Sweden AB
Priority date: 2005-07-14
Filing date: 2006-07-07
Publication date: 2012-02-15
Anticipated expiration: 2026-07-07
Also published as: BRPI0613469A2; RU2418385C2; EP2088580B1; EP1902443B1; EP2088580A2; JP5269039B2; JP5097702B2; MX2008000504A; KR20100134084A; WO2007007263A2; ATE433182T1; US7966191B2; PL2088580T3; RU2461078C2; EP1902443A2; DE602006007139D1; WO2007007263A3; RU2010137467A; ES2327158T3; EP2088580A3

Abstract

Aparato para generar un número de canales de salida de audio; comprendiendo el aparato: medios para recibir (401) un flujo de datos que comprende un número de canales de entrada de audio, siendo el número uno o mayor que uno, y datos paramétricos de audio que describen propiedades espaciales; comprendiendo además el flujo de datos datos de estructura de árbol de decodificador para una estructura de decodificador de matriz, representando la estructura de decodificador de matriz una estructura decodificadora jerárquica, comprendiendo los datos de estructura de árbol de decodificador al menos un valor de datos indicativo de las características de división de canal para un canal de audio en una capa jerárquica de la estructura de decodificador jerárquica, en el que los coeficientes de matriz de la estructura de decodificador de matriz pueden generarse a partir de los datos de estructura de árbol de decodificador, en el que la estructura de decodificador de matriz comprende una primera multiplicación matricial usando una primera matriz (M1) que mapea el número de canales de entrada de audio en un cierto número de canales, unidades intermedias de decorrelación (D1, ..., D5) para procesar el cierto número de canales, y una segunda multiplicación matricial usando una segunda matriz (M2) que mapea un cierto número de canales procesados en el número de canales de salida de audio; medios para generar (405) la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica en respuesta a los datos de estructura de árbol de decodificador; y medios para generar (403) el número de canales de salida de audio a partir del flujo de datos utilizando la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica.

Description

Decodificación de audio.

La invención se refiere a la codificación y/o decodificación de audio que utilizan estructuras de codificación jerárquicas y/o estructuras de decodificador jerárquicas.

En el campo del procesamiento de audio, se conoce bien convertir un número de canales de audio en otro número más grande de canales de audio. Una conversión de este tipo puede realizarse por diferentes razones. Por ejemplo, una señal de audio puede convertirse en otro formato para proporcionar una experiencia mejorada de usuario. Por ejemplo, las grabaciones tradicionales de estéreo sólo comprenden dos canales mientras que los sistemas avanzados de audio de módem normalmente utilizan cinco o seis canales, como los populares sistemas de sonido envolvente 5.1. En consecuencia, los dos canales de estéreo pueden convertirse en cinco o seis canales con el fin de aprovechar completamente el sistema avanzado de audio.

Otra razón para una conversión de un canal es la eficiencia de la codificación. Se ha encontrado que por ejemplo, las señales de audio de estéreo pueden codificarse como señales de audio de canal único combinadas con un flujo de bits de parámetro que describen las propiedades espaciales de la señal de audio. El decodificador puede reproducir las señales de audio de estéreo con un grado muy satisfactorio de exactitud. De este modo, pueden obtenerse ahorros sustanciales de la tasa de transmisión de bits.

Existen varios parámetros que pueden utilizarse para describir las propiedades espaciales de las señales de audio. Un parámetro de este tipo es la correlación cruzada entre canales, tal como la correlación cruzada entre el canal izquierdo y el canal derecho para las señales de estéreo. Otro parámetro es la proporción de potencia de los canales. En los denominados codificadores (paramétricos) de audio espacial, estos y otros parámetros se extraen de la señal original de audio para producir una señal de audio que tiene un número reducido de canales, por ejemplo, sólo un canal único, más un conjunto de parámetros que describen las propiedades espaciales de la señal original de audio. En los denominados decodificadores (paramétricos) de audio espacial, se reconstruye la señal original de audio.

La codificación de audio espacial es una técnica recientemente introducida para codificar de manera eficaz el material de audio de múltiples canales. En la codificación de audio espacial, una señal de audio de M canales se describe como una señal de audio de N canales más un conjunto de parámetros espaciales correspondientes, en la que N es normalmente más pequeño que M. Por lo tanto, en el codificador de audio espacial se mezcla de forma descendente la señal de M canales en una señal de N canales y los parámetros espaciales se extraen. En el decodificador, la señal de N canales y los parámetros espaciales se emplean para reconstruir (de manera perceptible) la señal de M canales.

Preferiblemente, tal codificación de audio espacial emplea una estructura jerárquica en cascada o basada en árbol (tree) que comprende unidades convencionales en el codificador y los decodificadores. En el codificador, estas unidades convencionales pueden ser mezcladores descendentes que combinan canales en un número más bajo de canales, tales como los mezcladores descendentes de 2-a-1, 3-a-1, 3-a-2, etc., mientras en las correspondientes unidades convencionales del decodificador pueden estar los canales divisores mezcladores ascendentes en un número más alto de canales tales como los mezcladores ascendentes de 1-a-2, 2-a-3.

No obstante, un problema con un enfoque de este tipo es que la estructura del decodificador debe coincidir con la estructura del codificador. Aunque esto puede conseguirse mediante el uso de una estructura normalizada de codificador y decodificador, un enfoque de este tipo carece de flexibilidad y tenderá a originar un rendimiento por debajo del óptimo.

El documento de la convención AES 6447, presentado en la 118ª Convención, 28-31 de mayo de 2005, “The Reference Model Architecture for MPEG Spatial Audio Coding”, J. Herre, et al. da a conocer principios de la codificación de audio espacial, en la que se transmiten una señal de mezcla descendente y parámetros espaciales a una etapa de síntesis espacial. La etapa de síntesis espacial comprende una matriz de mezclado previo, uno o más circuitos de decorrelación y una matriz de mezclado posterior, donde la matriz de mezclado previo recibe señales de entrada de dominio QMF, y la matriz de mezclado posterior genera señales de salida de dominio QMF.

Es un objeto proporcionar un sistema mejorado que permita el incremento en la flexibilidad, la reducción en la complejidad y/o la mejora del rendimiento.

Este objeto se logra mediante un aparato según la reivindicación 1 o un método según la reivindicación 10.

Por consiguiente, la invención busca preferiblemente mitigar, aliviar o eliminar una o más de las desventajas mencionadas anteriormente, solas o en combinación.

La invención puede permitir una generación flexible de canales de audio y puede permitir en particular una funcionalidad del decodificador para adaptarse a una estructura de codificador utilizada para la generación del flujo de datos. La invención puede permitir, por ejemplo, a un codificador seleccionar un enfoque adecuado de codificación para una señal de múltiples canales a la vez que permite que el aparato se adapte de manera automática a la misma. La invención puede permitir un flujo de datos que tiene una calidad mejorada de la proporción de tasa de transmisión de bits. En particular, la invención puede permitir la adaptación automática y/o un alto grado de flexibilidad a la vez que proporciona la calidad mejorada de audio que puede conseguirse a partir de las estructuras de codificación/decodificación jerárquicas. Un ejemplo puede permitir además una comunicación eficaz de la información de la estructura de decodificador jerárquica. De manera específica, la invención puede permitir una baja sobrecarga para los datos de estructura de árbol de decodificador. La invención puede proporcionar un aparato que se adapte de manera automática al flujo recibido de bits y que pueda utilizarse con cualquier estructura de codificación jerárquica adecuada.

Cada canal de audio puede soportar una señal individual de audio. El flujo de datos puede ser un único flujo de bits o por ejemplo, puede ser una combinación de una pluralidad de un subflujos de bits distribuidos, por ejemplo, a través de diferentes canales de distribución. El flujo de datos puede tener una duración limitada tal como una duración fija que corresponda a un archivo de datos de un tamaño dado. La característica de división de canal puede ser una característica indicativa de en cuántos canales se divide un canal de audio dado en una capa jerárquica. Por ejemplo, la característica de división de canal puede reflejar si un canal dado de audio no se divide o si se divide en dos canales de audio.

Los datos de estructura de árbol de decodificador pueden comprender datos para la estructura de decodificador jerárquica de una pluralidad de canales de audio. De manera específica, los datos de estructura de árbol de decodificador pueden comprender un conjunto de datos para cada uno del número de canales de entrada de audio. Por ejemplo, los datos de estructura de árbol de decodificador pueden comprender datos para una estructura de árbol de decodificador para cada señal de entrada.

Según un ejemplo, los datos de estructura de árbol de decodificador comprenden una pluralidad de valores de datos, siendo cada valor de datos indicativo de una característica de división de canal para un canal en una capa jerárquica de la estructura de decodificador jerárquica.

Esto puede proporcionar una comunicación eficaz de los datos que permite que el aparato se adapte a la codificación utilizada para el flujo de datos. Los datos de estructura de árbol de decodificador pueden comprender, de manera específica, un valor de datos para cada función de división de canal en la estructura de decodificador jerárquica. Los datos de estructura de árbol de decodificador también pueden comprender un valor de datos para cada canal de salida que indica que no se producirán divisiones adicionales de canal para una señal de capa jerárquica dada.

Según una característica opcional de la invención, un valor predeterminado de datos es indicativo de la falta de división de canal para el canal en la capa jerárquica.

Esto puede proporcionar una comunicación eficaz de los datos que permite que el aparato se adapte, de forma efectiva y fiable, a la codificación utilizada para el flujo de datos.

Según una característica opcional de la invención, un valor predeterminado de datos es indicativo de una división de uno-a-dos canales para el canal en la capa jerárquica.

Esto puede proporcionar una comunicación eficaz de los datos que permite que el aparato se adapte, de forma efectiva y fiable, a la codificación utilizada para el flujo de datos. En particular, esto puede permitir una transferencia muy eficaz de la información para muchos sistemas jerárquicos que utilizan funciones de división de canal convencionales de baja complejidad.

Según una característica opcional de la invención, la pluralidad de valores de datos son valores de datos binarios.

Esto puede proporcionar una comunicación eficaz de los datos que permite que el aparato se adapte, de forma efectiva y fiable, a la codificación utilizada para el flujo de datos. En particular, esto puede permitir una transferencia muy eficaz de la información para sistemas que utilizan principalmente una funcionalidad de división de canal específica, tal como la funcionalidad de división de uno-a-dos canales.

Según una característica opcional de la invención, un valor de datos binarios predeterminado es indicativo de una división de uno-a-dos canales y otro valor de datos binarios predeterminado es indicativo de una falta de división de canal.

Esto puede proporcionar una comunicación eficaz de los datos que permite que el aparato se adapte, de forma efectiva y fiable, a la codificación utilizada para el flujo de datos. En particular, esto puede permitir una transferencia muy eficaz de la información para muchos sistemas basados en torno a una funcionalidad de división de uno-a-dos canales de baja complejidad. Una decodificación eficaz puede conseguirse a través de una estructura de decodificador jerárquica de baja complejidad que puede generarse en respuesta a datos de baja complejidad. La característica puede permitir una baja sobrecarga para la comunicación de datos de estructura de árbol de decodificador y puede ser particularmente adecuada para los flujos de datos codificados a través de una simple función de codificación.

Según una característica opcional de la invención, el flujo de datos comprende además una indicación del número de canales de entrada.

Esto puede facilitar la decodificación y la generación de la estructura de decodificación y/o una codificación más eficaz de la información de la estructura de decodificador jerárquica en los datos de estructura de árbol de decodificador. En particular, los medios para generar la estructura de decodificador jerárquica pueden hacer esto en respuesta a la indicación del número de canales de entrada. Por ejemplo, en muchas situaciones prácticas, el número de canales de entrada puede derivarse a partir del flujo de datos, no obstante, en algunos casos especiales los datos de audio y los datos de los parámetros pueden separarse. En estos casos, puede ser beneficioso si se conoce el número de canales de entrada ya que los datos del flujo de datos pueden haberse manipulado (por ejemplo, de mezclado descendente a partir de estéreo a mono).

Según una característica opcional de la invención, el flujo de datos comprende además una indicación del número de canales de salida.

Esto puede facilitar la decodificación y la generación de la estructura de decodificación y/o puede permitir una codificación más eficaz de la información de la estructura de decodificador jerárquica en los datos de estructura de árbol de decodificador. En particular, los medios para generar la estructura de decodificador jerárquica pueden hacerlo de este modo en respuesta a la indicación del número de canales de salida. Asimismo, la indicación puede utilizarse como una comprobación de errores de los datos de estructura de árbol de decodificador.

Según un ejemplo, el flujo de datos comprende una indicación de un número de funciones de división de uno-a-dos canales en la estructura de decodificador jerárquica.

Esto puede facilitar la decodificación y la generación de la estructura de decodificación y/o puede permitir una codificación más eficaz de información de la estructura de decodificador jerárquica en los datos de estructura de árbol de decodificador. En particular, los medios para generar la estructura de decodificador jerárquica pueden hacer esto en respuesta a la indicación del número de funciones de división de uno-a-dos canales en la estructura de decodificador jerárquica.

Según un ejemplo, el flujo de datos comprende además una indicación del número de funciones de división de de dos-atres canales en la estructura de decodificador jerárquica.

Esto puede facilitar la decodificación y la generación de la estructura de decodificación y/o puede permitir una codificación más eficaz de información de la estructura de decodificador jerárquica en los datos de estructura de árbol de decodificador. En particular, los medios para generar la estructura de decodificador jerárquica pueden hacer esto en respuesta a la indicación del número de funciones de división de dos-a-tres canales en la estructura de decodificador jerárquica.

Según una característica opcional de la invención, los datos de estructura de árbol de decodificador comprenden unos datos para una pluralidad de estructuras de árbol de decodificador ordenadas en respuesta a la presencia de una de una funcionalidad de división de dos-a-tres canales.

Esto puede facilitar la decodificación y la generación de la estructura de decodificación y/o puede permitir una codificación más eficaz de información de la estructura de decodificador jerárquica en los datos de estructura de árbol de decodificador. En particular, la característica puede permitir un rendimiento ventajoso en sistemas en los que las divisiones de dos-a-tres canales sólo pueden producirse en la capa raíz. Por ejemplo, los medios para generar la estructura de decodificador jerárquica pueden en primer lugar generar la funcionalidad de división de dos-a-tres canales para los dos canales de entrada seguida por la generación de la estructura restante utilizando sólo la funcionalidad de división de uno-a-dos canales. La estructura restante puede generarse, de manera específica, en respuesta a los datos binarios de la estructura de árbol de decodificador, por lo tanto, se reduce la tasa de transmisión requerida de bits. El flujo de datos además puede contener información del ordenamiento de la pluralidad de estructuras de árbol de decodificador.

Según una característica opcional de la invención, los datos de estructura de árbol de decodificador para al menos un canal de entrada comprenden una indicación de una función de división de dos-a-tres canales que está presente en la capa raíz seguida por datos binarios, en los que cada valor de los datos binarios es indicativo de que o bien no existe funcionalidad de división o bien existe una funcionalidad de división de uno-a-dos canales para las capas dependientes de la funcionalidad de división de dos-a-tres canales.

Esto puede facilitar la decodificación y la generación de la estructura de decodificación y/o puede permitir una codificación más eficaz de información de la estructura de decodificador jerárquica en los datos de estructura de árbol de decodificador. En particular, la característica puede permitir un rendimiento ventajoso en sistemas en los que las divisiones de dos-a-tres canales sólo pueden producirse en la capa raíz. Por ejemplo, los medios para generar la estructura de decodificador jerárquica pueden en primer lugar generar la funcionalidad de división de dos-a-tres canales para un canal de entrada, seguida por la generación de la estructura restante, utilizando sólo la funcionalidad de división de uno-a-dos canales. La estructura restante puede generarse, de manera específica, en respuesta a los datos binarios de la estructura de árbol de decodificador, reduciendo así la tasa de transmisión requerida de bits.

Según una característica opcional de la invención, el flujo de datos comprende una indicación de la posición del altavoz para al menos uno de los canales de salida.

Esto puede permitir una decodificación facilitada y puede permitir un rendimiento y/o adaptación mejorados del aparato, proporcionando así un incremento en la flexibilidad.

Según un ejemplo, los medios para generar la estructura de decodificador jerárquica se disponen para determinar parámetros de multiplicación para las funciones de división de canal de las capas jerárquicas en respuesta a los datos de estructura de árbol de decodificador.

Esto puede permitir un rendimiento mejorado y/o una adaptación/flexibilidad mejorada. En particular, la característica puede permitir no sólo la estructura de decodificador jerárquica sino también la operación de las funciones de división de canal para adaptar el flujo recibido de datos. Los parámetros de multiplicación pueden ser parámetros de multiplicación matricial.

Según una característica opcional de la invención, la estructura de árbol de decodificador comprende al menos una funcionalidad de división de canal en al menos una capa jerárquica, comprendiendo la al menos una funcionalidad de división de un canal: medios de decorrelación para generar una señal decorrelacionada directamente a partir de un canal de entrada de audio del flujo de datos; al menos una unidad de división de canal para generar una pluralidad de canales de salida de capa jerárquica de un canal de audio a partir de una capa jerárquica más alta y la señal decorrelacionada; y medios para determinar al menos una característica del filtro de decorrelación o la unidad de división de canal en respuesta a los datos de estructura de árbol de decodificador.

Esto puede permitir un rendimiento mejorado y/o la adaptación/flexibilidad mejorada. En particular, la característica puede permitir una estructura de decodificador jerárquica que tiene un rendimiento mejorado de decodificación y que pueda generar canales de salida que tienen un aumento en la calidad del audio. En particular, una estructura de decodificador jerárquica en la que no se generan señales de decorrelación por los filtros de decorrelación en cascada puede conseguirse y adaptarse, dinámica y automáticamente, al flujo recibido de datos.

El filtro de decorrelación recibe el canal de entrada de audio del flujo de datos sin modificaciones, y de manera específica, sin ningún filtrado anterior de la señal (tal como mediante otro filtro de decorrelación). La ganancia del filtro de decorrelación puede determinarse, de manera específica, en respuesta a los datos de estructura de árbol de decodificador.

Según una característica opcional de la invención, los medios de decorrelación comprenden medios de compensación de nivel para realizar una compensación del nivel de audio en el canal de entrada de audio para generar una señal de audio compensada en nivel; y un filtro de decorrelación para filtrar la señal de audio compensada en nivel para generar la señal decorrelacionada.

Esto puede permitir una calidad mejorada y/o una implementación facilitada.

Según la invención, los medios de compensación de nivel comprenden una multiplicación matricial por una matriz previa. Esto puede permitir una implementación eficaz.

Según una característica opcional de la invención, los coeficientes de la matriz previa tienen al menos un valor unidad para una estructura de decodificador jerárquica que comprende sólo una funcionalidad de división de uno-a-dos canales.

Esto puede reducir la complejidad y permitir una implementación eficaz. La estructura de decodificador jerárquica puede comprender otra funcionalidad diferente de la funcionalidad de división de uno-a-dos canales aunque según esta característica no comprenderá ninguna otra funcionalidad de división de canal.

Según una característica opcional de la invención, el aparato comprende además medios para determinar la matriz previa para la al menos una funcionalidad de división de un canal en la al menos una capa jerárquica en respuesta a parámetros de una funcionalidad de división de canal en una capa jerárquica más alta.

Esto puede permitir una implementación eficaz y/o un rendimiento mejorado. La funcionalidad de división de canal en una capa jerárquica más alta puede incluir una funcionalidad de división de dos-a-tres canales, por ejemplo, colocada en la capa raíz de una estructura de árbol de decodificador.

Según una característica opcional de la invención, el aparato comprende medios para determinar una matriz de división de canal para la al menos una funcionalidad de división de canal en respuesta a parámetros de la al menos una funcionalidad de división de canal en la al menos una capa jerárquica.

Esto puede permitir una implementación eficaz y/o rendimiento mejorado. Esto puede ser particularmente ventajoso para las estructuras jerárquicas de árbol de decodificador que comprenden sólo la funcionalidad de división de uno-ados canales.

Según una característica opcional de la invención, el aparato comprende además medios para determinar la matriz previa para la al menos una funcionalidad de división de canal en la al menos una capa jerárquica en respuesta a parámetros de un mezclador ascendente de dos-a-tres de una capa jerárquica más alta.

Esto puede permitir una implementación eficaz y/o un rendimiento mejorado. Esto puede ser particularmente ventajoso para las estructuras jerárquicas de árbol de decodificador que comprenden una funcionalidad de división de dos-a-tres canales en la capa raíz de una estructura de árbol de decodificador.

Según una característica opcional de la invención, los medios para determinar la matriz previa se disponen para determinar la matriz previa para la al menos una funcionalidad de división de canal en respuesta para determinar una primera sub-matriz previa que corresponde a una primera entrada del mezclador ascendente de dos-a-tres y una segunda sub-matriz previa que corresponde a una segunda entrada del mezclador ascendente de dos-a-tres.

Esto puede permitir una implementación eficaz y/o rendimiento mejorado. Esto puede ser particularmente ventajoso para las estructuras jerárquicas de árbol de decodificador que comprenden una funcionalidad de división de dos-a-tres canales en la capa raíz de la estructura de árbol de decodificador.

Según otro aspecto de la invención, se proporciona un método de generación de un número de canales de salida de audio; comprendiendo el método: recibir un flujo de datos que comprende un número de canales de entrada de audio y datos paramétricos de audio; comprendiendo además el flujo de datos datos de estructura de árbol de decodificador para una estructura de decodificador de matriz, que representa una estructura de decodificador jerárquica, comprendiendo los datos de estructura de árbol de decodificador al menos un valor de datos indicativo de características de división de canal para un canal de audio en una capa jerárquica de la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica; generar la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica en respuesta a los datos de estructura de árbol de decodificador; y generar el número de canales de salida de audio a partir del flujo de datos usando la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica.

Según otro aspecto de la invención, se proporciona un receptor para generar un número de canales de salida de audio; comprendiendo el receptor: medios para recibir un flujo de datos que comprende un número de canales de entrada de audio y datos paramétricos de audio; comprendiendo además el flujo de datos datos de estructura de árbol de decodificador para una estructura de decodificador de matriz que representa una estructura de decodificador jerárquica, comprendiendo los datos de estructura de árbol de decodificador al menos un valor de datos indicativo de características de división de canal para un canal de audio en una capa jerárquica de la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica; medios para generar la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica en respuesta a los datos de estructura de árbol de decodificador; y medios para generar el número de canales de salida de audio a partir del flujo de datos usando la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica.

Según otro aspecto de la invención, se proporciona un método de recepción de un flujo de datos; comprendiendo el método: recibir un flujo de datos que comprende un número de canales de entrada de audio y datos paramétricos de audio; comprendiendo además el flujo de datos datos de estructura de árbol de decodificador para una estructura de decodificador de matriz que representa una estructura de decodificador jerárquica, comprendiendo los datos de estructura de árbol de decodificador al menos un valor de datos indicativo de características de división de canal para un canal de audio en una capa jerárquica de la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica; generar la estructura de decodificador de matriz que representa la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica en respuesta a los datos de estructura de árbol de decodificador; y generar el número de canales de salida de audio a partir del flujo de datos usando la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica.

Según otro aspecto de la invención, se proporciona un producto de programa informático, para ejecutar cualquiera de los métodos descritos anteriormente.

Según otro aspecto de la invención, se proporciona un dispositivo de reproducción de audio que comprende un aparato tal como se describió anteriormente.

Estos y otros aspectos, características y ventajas de la invención serán evidentes y se aclararán con referencia a la(s) realización(es) descrita(s) a continuación en el presente documento.

Las realizaciones de la invención se describirán, sólo a modo de ejemplo, con referencia a los dibujos, en los que:

la figura 1 ilustra un sistema de transmisión para la comunicación de una señal de audio según algunas realizaciones de la invención;

la figura 2 ilustra un ejemplo de una estructura de codificador jerárquica

la figura 3 ilustra un ejemplo de un codificador

la figura 4 ilustra un ejemplo de un decodificador

la figura 5 ilustra un ejemplo de algunas estructuras de decodificador jerárquicas la figura 6 ilustra un ejemplo de estructuras de decodificador jerárquicas que tienen mezcladores ascendentes de dos-atres en la raíz;

la figura 7 ilustra un ejemplo de una estructura de decodificador jerárquica que comprende una pluralidad de estructuras de árbol de decodificador;

la figura 8 ilustra un ejemplo de un mezclador ascendente de uno-a-dos;

la figura 9 ilustra un ejemplo de algunas estructuras de decodificador jerárquicas

la figura 10 ilustra un ejemplo de algunas estructuras de decodificador jerárquicas

la figura 11 ilustra un diagrama de flujo a modo de ejemplo para un método de decodificación según algunas realizaciones de la invención;

la figura 12 ilustra un ejemplo de una estructura de decodificador de matriz según algunas realizaciones de la invención;

la figura 13 ilustra un ejemplo de una estructura de decodificador jerárquica;

la figura 14 ilustra un ejemplo de una estructura de decodificador jerárquica y

la figura 15 ilustra un método de transmisión y recepción de una señal de audio.

La siguiente descripción se centra en las realizaciones de la invención que pueden aplicarse a la codificación y la decodificación de una señal de audio de múltiples canales que utiliza un número de mezcladores descendentes y mezcladores ascendentes de canal de baja complejidad. Sin embargo, se apreciará que la invención no se limita a esta aplicación. El experto en la técnica entenderá que se dispone un mezclador descendente para combinar un número de canales de audio en un número inferior de datos paramétricos y de canales de audio adicionales, y que se dispone un mezclador ascendente para generar un número de canales de audio a partir de un número más bajo de datos paramétricos y de canales de audio. Por lo tanto, el mezclador ascendente proporciona una funcionalidad de división de canal.

La figura 1 ilustra un sistema 100 de transmisión para la comunicación de una señal de audio según algunas realizaciones de la invención. El sistema 100 de transmisión comprende un transmisor 101 que se acopla a un receptor 103 a través de una red 105, que puede ser, de manera específica, Internet.

En el ejemplo específico, el transmisor 101 es un dispositivo de grabación de señal y el receptor es un dispositivo de reproducción de señal 103 aunque se apreciará que en otras realizaciones el transmisor y el receptor pueden utilizarse en otras aplicaciones y para otros propósitos. Por ejemplo, el transmisor 101 y/o el receptor 103 pueden ser parte de una funcionalidad de transcodificación y pueden proporcionar, por ejemplo, la interconexión con otras fuentes o destinos de señal.

En el ejemplo específico en el que se soporta una función de grabación de señal, el transmisor 101 comprende un digitalizador 107 que recibe una señal analógica que se convierte en una señal PCM digital mediante muestreo y conversión de analógica a digital.

El transmisor 101 se acopla al codificador 109 de la figura 1, que codifica la señal PCM según un algoritmo de codificación. El codificador 100 se acopla a un transmisor 111 de red que recibe la señal codificada y se interconecta a Internet 105. El transmisor de red puede transmitir la señal codificada al receptor 103 a través de Internet 105.

El receptor 103 comprende un receptor 113 de red que se interconecta a Internet 105 y que se dispone para recibir la señal codificada del transmisor 101.

El receptor 111 de red se acopla a un decodificador 115. El decodificador 115 recibe la señal codificada y la decodifica según un algoritmo de decodificación.

En el ejemplo específico en el que se soporta una función de reproducción de señal, el receptor 103 comprende además un reproductor 117 de señal que recibe la señal decodificada de audio del decodificador 115 y la presenta al usuario. De manera específica, el reproductor de señal 113 puede comprender un convertidor de digital a analógico, amplificadores y altavoces según se requiera para dar salida a la señal decodificada de audio.

En el ejemplo de la figura 1, el codificador 109 y el decodificador 115 utilizan una estructura en cascada o basada en árbol que consiste en pequeños bloques de construcción. Por lo tanto, el codificador 109 utiliza una estructura de codificación jerárquica en la que los canales de audio se procesan de forma progresiva en diferentes capas de la estructura jerárquica. Una estructura de este tipo puede conducir a una codificación particularmente ventajosa con una alta calidad de audio, aunque relativamente una complejidad baja y una implementación sencilla del codificador 109.

La figura 2 ilustra un ejemplo de una estructura de codificador jerárquica.

En el ejemplo, el codificador 109 codifica una señal de entrada de sonido envolvente de 5.1 canales que consisten en un canal frontal izquierdo (lf), un canal envolvente izquierdo (ls), un canal frontal derecho (rf), un canal central envolvente derecho (c0) y un subaltavoz para graves (“subwoofer”) o canal de mejora de bajas frecuencias (lfe). En primer lugar, los canales se dividen y se transforman en el dominio de frecuencia en los bloques 201 de segmentación. Las señales resultantes del dominio de frecuencia se alimentan en pares a los mezcladores 203 descendentes de dos-a-uno (TTO), que realizan el mezclado descendente de dos señales de entrada hacia un canal único de salida y extraen los parámetros correspondientes. Por lo tanto, los tres mezcladores 203 descendentes TTO mezclan de forma descendente los seis canales de entrada en tres parámetros y canales de audio.

Según se ilustra en la figura 2, las salidas de los mezcladores 203 descendentes TTO se utilizan como entrada para otros mezcladores 205, 207 descendentes TTO. De manera específica, dos de los mezcladores 203 descendentes TTO se acoplan a un cuarto mezclador 205 descendente TTO, que combina los correspondientes canales en un canal único. El tercero de los mezcladores 203 descendentes TTO se acopla junto con el cuarto mezclador 205 descendente TTO a un quinto mezclador 207 descendente TTO que combina los dos canales restantes en un canal único (M). Esta señal se transforma finalmente de vuelta al dominio de tiempo, dando como resultado un flujo m de bits de audio codificados de múltiples canales.

Los mezcladores 203 descendentes TTO pueden considerarse como que comprenden la primera capa de la estructura de codificación, con una segunda capa que comprende el cuarto mezclador 205 descendente TTO y comprendiendo la tercera capa el quinto mezclador 207 descendente TTO. Por lo tanto, tiene lugar una combinación de un número de canales de audio en un número más bajo de canales de audio en cada capa de la estructura de codificador jerárquica.

La estructura de codificación jerárquica del codificador 109 puede originar una codificación muy eficaz y de alta calidad de baja complejidad. Además, la estructura de codificación jerárquica puede variarse dependiendo de la naturaleza de la señal que se codifica. Por ejemplo, si se codifica una señal de estéreo simple, esto puede conseguirse a través de una estructura de codificación jerárquica que sólo comprende un mezclador descendente TTO único y una capa única.

Con el fin de que el decodificador 115 maneje las señales codificadas utilizando diferentes estructuras de codificación jerárquicas, éste debe poder adaptarse a la estructura de codificación jerárquica utilizada para la señal específica. De manera específica, el decodificador 115 comprende la funcionalidad para la configuración por sí mismo de manera que tiene una estructura de decodificador jerárquica que coincide con la estructura de codificación jerárquica del codificador

109. No obstante, con el fin de hacer esto, debe dotarse al decodificador 115 de información de la estructura de codificación jerárquica utilizada para la codificación del flujo recibido de bits.

La figura 3 ilustra un ejemplo del codificador 109.

El codificador 109 comprende un procesador 301 de recepción que recibe un número de canales de entrada de audio. Para el ejemplo específico de la figura 2, el codificador 109 recibe seis canales de entrada. El procesador 301 de recepción se acopla a un procesador 303 de codificación que tiene una estructura de codificación jerárquica. Como ejemplo, la estructura de codificación jerárquica del procesador 303 de codificación puede corresponder a la que se ilustra en la figura 2.

El procesador 303 de codificación se acopla además a un procesador 305 de estructura de codificación que se dispone para determinar la estructura de codificación jerárquica utilizada por el procesador 303 de codificación. El procesador 303 de codificación puede alimentar, de manera específica, los datos de estructura al procesador 305 de estructura de codificación. Como respuesta, el procesador 305 de estructura de codificación genera los datos de estructura de árbol de decodificador que son indicativos de la estructura de decodificador jerárquica que debe utilizar el decodificador para decodificar la señal codificada que generada el procesador 303 de codificación.

Se apreciará que los datos de estructura de árbol de decodificador pueden determinarse directamente como datos que describen la estructura de codificación jerárquica o por ejemplo, pueden ser los datos que describen directamente la estructura de decodificador jerárquica que debe utilizarse (por ejemplo, pueden describir la estructura complementaria a la del procesador 303 de codificación).

Los datos de estructura de árbol de decodificador comprenden, de manera específica, al menos un valor de datos indicativo de una característica de división de canal para un canal de audio en las capas jerárquicas de la estructura de decodificador jerárquica. Por lo tanto, los datos de estructura de árbol de decodificador pueden comprender al menos una indicación de dónde tiene que dividirse un canal de audio en el decodificador. Esta indicación puede ser, por ejemplo, una indicación de una capa en la que la estructura de codificación comprende un mezclador descendente o puede ser, de manera equivalente, una indicación de una capa de una estructura de árbol de decodificador que debe comprender un mezclador ascendente.

El procesador 303 de codificación y el procesador 305 de estructura de codificación se acoplan al generador 307 de flujo de datos, que crea un flujo de bits que comprende el audio codificado del procesador de estructura 303 de codificación y los datos de estructura de árbol de decodificador que provienen del procesador 305 de estructura de codificación. A continuación, el flujo de datos se alimenta al transmisor 111 de red para su comunicación con el receptor 103.

La figura 4 ilustra un ejemplo del decodificador 115.

El decodificador 115 comprende un receptor 401 que recibe el flujo de datos transmitido desde el receptor 113 de red. El decodificador 115 comprende además un procesador 403 de decodificación y un procesador 405 de estructura de decodificador acoplado al receptor 401.

El receptor 401 extrae los datos de estructura de árbol de decodificador y los alimenta al procesador 405 de estructura 5 de decodificador mientras que los datos de codificación de audio que comprenden un número de canales de audio y los datos paramétricos de audio se alimentan al procesador 403 de decodificación.

El procesador 405 de estructura de decodificador se dispone para determinar la estructura de decodificador jerárquica en respuesta a los datos recibidos de estructura de árbol de decodificador. De manera específica, el procesador 405 de estructura de decodificador puede extraer los valores de datos que especifican las divisiones de datos y puede generar

10 la información de la estructura de decodificador jerárquica que complementa la estructura de codificación jerárquica del procesador 303 de codificación. Esta información se alimenta al procesador 403 de decodificación haciendo que se configure para una estructura de decodificador jerárquica específica.

Posteriormente, el procesador 405 de estructura de decodificador continúa generando los canales de salida que corresponden a las entradas originales al codificador 109 utilizando la estructura de decodificador jerárquica.

15 Por tanto, el sistema puede permitir una codificación, decodificación y distribución eficaz y de alta calidad de las señales de audio y de manera específica, de las señales de audio de múltiples canales. Se permite un sistema muy flexible, en el que los decodificadores pueden adaptarse, de manera automática, a los codificadores y los mismos decodificadores pueden utilizarse de este modo con un número de codificadores diferentes.

Los datos de estructura de árbol de decodificador se comunican de manera efectiva utilizando valores de datos que son

20 indicativos de las características de división de canal para los canales de audio en diferentes capas jerárquicas de la estructura de decodificador jerárquica. Por tanto, los datos de estructura de árbol de decodificador se optimizan para estructuras flexibles y de alto rendimiento de codificación y decodificación jerárquica.

Por ejemplo, una señal de 5.1 canales (es decir, una señal de seis canales) puede codificarse como una señal de estéreo más un conjunto de parámetros espaciales. Tal codificación puede conseguirse a través de muchas estructuras 25 de codificación jerárquicas diferentes que utilizan mezcladores descendentes TTO o de dos-a-tres (TTT) simples y por tanto, muchas estructuras de decodificador jerárquicas diferentes son posibles utilizando mezcladores ascendentes de uno-a-dos (OTT) o de dos-a-tres (TTT). Por tanto, con el fin de decodificar el correspondiente flujo de bits espacial, el decodificador debe tener conocimiento de la estructura de codificación jerárquica que se ha empleado en el codificador. Un enfoque directo es entonces señalar el árbol en el flujo de bits por medio de un índice en una tabla de consulta. Un

30 ejemplo de una tabla de consulta adecuada puede ser:

Palabra de código Árbol: Árbol

0…000: Mono a variante A de 5.1

0…001: Mono a variante B de 5.1

0…010: Estéreo a variante A de 5.1

…
…

1…111: …

Sin embargo, la utilización de esta tabla de consulta tiene la desventaja que todas las estructuras de codificación jerárquicas que posiblemente pueden utilizarse deben especificarse de manera explícita en la tabla de consulta. Sin embargo, esto requiere que todos los decodificadores/codificadores reciban tablas actualizadas de consulta con el fin de introducir una nueva estructura de codificación jerárquica al sistema. Esto en gran medida es indeseable y da como

35 resultado una operación compleja y un sistema inflexible.

Por el contrario, el uso de los datos de estructura de árbol de decodificador en los que los valores de datos indican las divisiones de canal en las diferentes capas de la estructura de decodificador jerárquica permite una comunicación general simple de los datos de estructura de árbol de decodificador que pueden describir cualquier estructura de decodificador jerárquica. Por tanto, pueden utilizarse con facilidad nuevas estructuras de codificación sin requerir

40 ninguna notificación anterior de los decodificadores correspondientes.

Por tanto, a diferencia del enfoque basado en la consulta, el sistema de la figura 1 puede manejar un número arbitrario de canales de entrada y salida, a la vez que mantiene una total flexibilidad. Esto se consigue mediante la especificación de una descripción del árbol de codificador/decodificador en el flujo de bits. A partir de esta descripción, el decodificador puede derivar en dónde y cómo aplicar los subsiguientes parámetros codificados en el flujo de bits.

Los datos de estructuras de árbol de decodificador pueden comprender, de manera específica, una pluralidad de valores de datos, en los que cada valor de datos es indicativo de una característica de división de canal para un canal en una capa jerárquica de la estructura de decodificador jerárquica. De manera específica, los datos de estructura de árbol de decodificador pueden comprender un valor de datos para cada mezclador ascendente que será incluido en la estructura de decodificador jerárquica. Además, un valor de datos puede ser incluido para cada canal, que no será dividido. Por lo tanto, si un valor de datos de los datos de estructura de árbol de decodificador tuviera un valor que corresponde a un valor predeterminado específico de datos, esto puede indicar que el canal correspondiente no será dividido aunque de hecho es un canal de salida del decodificador 115.

En algunas realizaciones, el sistema sólo puede incorporar codificadores que utilizan, de manera exclusiva, mezcladores descendentes TTO y el decodificador puede implementarse en consecuencia utilizando sólo mezcladores ascendentes OTT. En esta realización, un valor de datos puede ser incluido para cada canal del decodificador. Además, el valor de datos puede tomar uno de dos posibles valores indicando un valor que el canal no se divide e indicando el otro valor que el canal se divide en dos canales por un mezclador ascendente OTT. Además, el orden de los valores de datos en los datos de estructura de árbol de decodificador puede indicar qué canales se dividirán y por lo tanto, la ubicación de los mezcladores ascendentes OTT en la estructura de decodificador jerárquica. Por lo tanto, pueden conseguirse los datos de estructura de árbol de decodificador que comprenden valores binarios simples, que describen completamente la estructura de decodificador jerárquica requerida.

Como ejemplo específico, se describirá la derivación de la descripción de la secuencia de bits de la estructura de decodificador jerárquica del decodificador de la figura 5.

En el ejemplo, se supone que los codificadores sólo pueden utilizar mezcladores descendentes TTO y por lo tanto, el árbol de decodificador puede describirse mediante una secuencia binaria. En el ejemplo de la figura 5, un canal único de entrada de audio se expande a una señal de salida de cinco canales que utiliza mezcladores ascendentes OTT. En el ejemplo, pueden discernirse cuatro capas de profundidad, la primera, indicada con 0, se encuentra en la capa de la señal de entrada, la última, indicada con 3, se encuentra en la capa de las señales de salida. Se apreciará que en esta descripción, las capas se caracterizan por los canales de audio con los mezcladores ascendentes que forman los límites de capa, las capas pueden igualmente considerarse como que comprenden o están formadas por los mezcladores ascendentes.

En el ejemplo, la estructura de decodificador jerárquica de la figura 5 puede describirse mediante la secuencia de bits “111001000” derivada de las siguientes etapas.

1 - La señal de entrada en la capa 0, t0, se divide (mezclador ascendente OTT), como resultado, todas las señales en la capa 0 se tienen en cuenta, continúese con la capa 1.

1 - La primera señal en la capa 1 (que proviene de la parte superior del mezclador ascendente OTT A) se divide (mezclador ascendente OTT B).

1 - La segunda señal en la capa 1 (que proviene de la parte inferior del mezclador ascendente OTT A) se divide (mezclador ascendente OTT C), todas las señales en la capa 1 se describen, y continúese con la capa 2.

0 - La primera señal en la capa 2 (parte superior del mezclador ascendente OTT B) no se divide más.

0 - La segunda señal en la capa 2 (parte inferior del mezclador ascendente OTT B) no se divide más.

1 - La tercera señal en la capa 2 (parte superior del mezclador ascendente OTT C) se divide de nuevo.

0 - La cuarta señal en la capa 2 (parte inferior del mezclador ascendente OTT D) no se divide más, todas las señales en la capa 2 se describen, continúese con la capa 3.

0 - La primera señal en la capa 3 (parte superior del mezclador ascendente OTT D) no se divide más.

0 - La segunda señal en la capa 3 (parte inferior del mezclador ascendente OTT D) no se divide más, todas las señales se han descrito.

En algunas realizaciones, la codificación puede limitarse sólo a la utilización de los mezcladores descendentes TTO y TTT y por tanto, la decodificación puede limitarse sólo a la utilización de los mezcladores ascendentes OTT y TTT. Aunque los mezcladores ascendentes TTT pueden utilizarse en muchas configuraciones diferentes, es particularmente ventajosa su utilización en un modo en el que la predicción (forma de onda) se utilizase para estimar con exactitud las tres señales de salida que provienen de las dos señales de entrada. Debido a esta naturaleza predictiva de los mezcladores ascendentes TTT, la posición lógica para estos mezcladores ascendentes se encuentra en la raíz del árbol. Esto es una consecuencia de que los mezcladores ascendentes OTT destruyen la forma de onda original, con lo que hacen inadecuada la predicción. Por lo tanto, en algunas realizaciones, los únicos mezcladores ascendentes que se utilizan en la estructura de decodificador son los mezcladores ascendentes OTT o los mezcladores ascendentes TTT en la capa raíz.

Por tanto, para tales sistemas, pueden discernirse tres diferentes situaciones que juntas permiten una descripción universal del árbol:

1) árboles que tienen un mezclador ascendente TTT como raíz.

2) árboles que consisten sólo en mezcladores ascendentes OTT.

3) “árboles vacíos”, es decir, un mapeo directo de el(los) canal(es) de entrada a el (los) de salida.

La figura 6 ilustra las estructuras de decodificador jerárquicas de ejemplo que tienen mezcladores ascendentes TTT en la raíz, y la figura 7 ilustra una estructura de decodificador jerárquica de ejemplo que comprende una pluralidad de estructuras de árbol de decodificador. La estructura de decodificador jerárquica de la figura 7 comprende estructuras de árbol de decodificador según todos los tres ejemplos presentados anteriormente.

En algunas realizaciones, los datos de estructura de árbol de decodificador se ordenan con el fin de saber si el canal de entrada comprende un mezclador ascendente TTT o no. Los datos de estructura de árbol de decodificador pueden comprender una indicación de que un mezclador ascendente TTT está presente en la capa raíz seguido por datos binarios indicativos de si los canales de las capas inferiores se dividen por el mezclador ascendente OTT o no se dividen más. Esto puede mejorar el rendimiento en cuanto a la tasa de transmisión de bits y bajos costes de señalización.

Por ejemplo, los datos de estructura de árbol de decodificador pueden indicar cuántos mezcladores ascendentes TTT están incluidos en la estructura de decodificador jerárquica. Puesto que cada estructura de árbol sólo puede incluir un mezclador ascendente TTT que esté dispuesto en el nivel de raíz, el resto del árbol puede describirse mediante una secuencia binaria según se describió anteriormente (es decir, puesto que el árbol es un árbol mezclador ascendente OTT sólo para las capas inferiores, puede aplicarse el mismo enfoque según se describió para la estructura de decodificador jerárquica sólo de mezclador ascendente OTT).

Asimismo, las estructuras restantes de árbol son, o bien árboles sólo de mezclador ascendente OTT o bien árboles vacíos que también pueden describirse mediante secuencias binarias. Por tanto, todos los árboles pueden describirse mediante valores de datos binarios y la interpretación de la secuencia binaria puede depender de la categoría a la que pertenece el árbol. Esta información puede proporcionarse mediante la ubicación del árbol en los datos de estructura de árbol de decodificador. Por ejemplo, todos los árboles que comprenden un mezclador ascendente TTT pueden ubicarse en primer lugar en los datos de estructura de árbol de decodificador, seguido por los árboles sólo de mezclador ascendente OTT, seguido por los árboles vacíos. Si el número de mezcladores ascendentes TTT y mezcladores ascendentes OTT en la estructura de decodificador jerárquica se incluye en los datos de estructura de árbol de decodificador, el decodificador puede configurarse sin requerir ningún dato adicional. Por tanto, se consigue una comunicación altamente eficaz de la información de la estructura requerida del decodificador. La sobrecarga de la comunicación de los datos de estructura de árbol de decodificador puede mantenerse muy baja, proporcionando no obstante un sistema flexible en gran medida, que puede describir una amplia variedad de estructuras de decodificador jerárquicas.

Como ejemplo específico, las estructuras de decodificador jerárquicas del decodificador de la figura 7 pueden derivarse a partir de los datos de estructura de árbol de decodificador a través de los siguientes procesos:

-: el número de señales de entrada se deriva del mezclado descendente (posiblemente codificado).

-: El número de mezcladores ascendentes OTT y el número de mezcladores ascendentes TTT de la totalidad del árbol se señalizan en los datos de estructura de árbol de decodificador y pueden extraerse de los mismos. El número de señales de salida puede derivarse como: #señales de salida = #señales de entrada +#mezcladores ascendentes TTT + #mezcladores ascendentes OTT.

-: Los canales de entrada pueden mapearse nuevamente en los datos de estructura de árbol de decodificador de manera que después de un nuevo mapeo los árboles según la situación 1) se encuentran en primer lugar, seguidos por los árboles según la situación 2) y luego, 3). Para el ejemplo de la figura 7 esto daría como resultado el orden 3, 0, 1, 2, 4, es decir, la señal 0 es la señal 3 después del nuevo mapeo, la señal 1 es la señal 0 después del nuevo mapeo, etcétera.

-: Para cada mezclador ascendente TTT, tres descripciones de árbol sólo de OTT se dan utilizando el método descrito anteriormente, un árbol sólo de OTT por canal de salida TTT.

-: Para todas las señales restantes de entrada se dan descripciones sólo de OTT.

En algunas realizaciones, se incluye una indicación de la posición del altavoz para los canales de salida en los datos de estructura de árbol de decodificador. Por ejemplo, puede utilizarse una tabla de consulta de las ubicaciones

predeterminadas de altavoz, tal como por ejemplo:

Cadena de bits: Posición de altavoz (virtual)

0…000: Izquierda (Frontal)

0…001: Derecha (Frontal)

0…010: Centro

0…011: LFE

0…100: Envolvente izquierdo

0…101: Envolvente derecho

0…110: Envolvente central

…
…

De forma alterna, las ubicaciones de altavoz pueden representarse utilizando un enfoque jerárquico. Por ejemplo, unos primeros pocos bits especifican el eje-x, por ejemplo, L, R, C, después, otros pocos bits especifican el eje-y, por ejemplo, frontal, lateral y envolvente, y otros pocos bits especifican el eje-z (elevación).

Como ejemplo específico, lo siguiente proporciona una sintaxis de ejemplo de flujo de bits para un flujo de bits seguido por los principios descritos anteriormente. En el ejemplo, el número de señales de entrada y de salida se codifica, de manera explícita, en el flujo de bits. Tal información puede utilizarse para validar parte del flujo de bits.

Sintaxis

En este ejemplo, cada árbol OttTree se maneja en la OttTreeDescription() que se ilustra más adelante. Sintaxis En la sintaxis anterior, el formato de letras en negrita se utiliza para indicar los elementos leídos del flujo de bits.

Se apreciará que el concepto de las capas jerárquicas no es necesario en una descripción de este tipo. Por ejemplo, 5 también puede aplicarse una descripción basada en un principio de “con la condición de que existan extremos abiertos, existirán más bits por llegar”. Con el fin de decodificar los datos, este concepto puede volverse útil.

Aparte de los bits únicos que indican si un mezclador ascendente OTT está presente o no, se incluyen los siguientes datos para el mezclador ascendente OTT:

-: la diferencia de nivel de canal por defecto.

10 -Si el mezclador ascendente OTT es un mezclador ascendente OTT LFE (mejora de bajas frecuencias), es decir, si los parámetros están limitados sólo por banda y no contienen ningún tipo de datos de correlación/coherencia.

Además, los datos pueden especificar las propiedades específicas de los mezcladores ascendentes, tal como en el ejemplo del mezclador ascendente TTT, qué modo va a utilizarse (predicción basada en la forma de onda, descripción basada en la energía, etc.).

Tal como conocerá un experto en la técnica, un mezclador ascendente OTT utiliza una señal decorrelacionada para dividir un canal único en dos canales. Además, la señal decorrelacionada se deriva de la señal única de canal de entrada. La figura 8 ilustra un ejemplo de un mezclador ascendente OTT según este enfoque. Por tanto, el decodificador a modo de ejemplo de la figura 5 puede representarse por el diagrama de la figura 9, en el que los bloques de decorrelacionador que generan las señales decorrelacionadas se muestran de manera explícita.

Sin embargo, como puede observarse, este enfoque conduce a la colocación en cascada de los bloques de decorrelacionador, de manera que la señal decorrelacionada para el mezclador ascendente OTT de capa más baja se genera a partir de una señal de entrada que se ha creado a partir de otra señal decorrelacionada. Por tanto, más que generarse a partir de la señal de entrada original en el nivel de raíz, las señales decorrelacionadas de las capas más bajas se habrán procesado a través de varios bloques de decorrelación. Puesto que cada bloque de decorrelación comprende un filtro de decorrelación, este enfoque puede resultar en una “borrosidad” de la señal decorrelacionada (por ejemplo, los transitorios pueden distorsionarse de manera significativa). Esto da como resultado la degradación de la calidad del audio para la señal de salida.

Por tanto, con el fin de mejorar la calidad del audio, los decorrelacionadores aplicados en el mezclador ascendente del decodificador pueden moverse en algunas realizaciones, de manera que se evite la colocación en cascada de las señales decorrelacionadas. La figura 10 ilustra un ejemplo de una estructura de decodificador que corresponde a la de la figura 9, aunque con los decorrelacionadores acoplados directamente al canal de entrada. Por lo tanto, en lugar de tomar la salida del mezclador ascendente OTT antecesor como la entrada al decorrelacionador, los mezcladores ascendentes de decorrelacionador toman directamente la señal t0 de entrada original, previamente procesada por los mezcladores GB, GC y GD ascendentes de ganancia. Estas ganancias garantizan que la potencia a la entrada del decorrelacionador sea idéntica a la potencia que se hubiera conseguido en la entrada del decorrelacionador en la estructura de la figura 9. La estructura conseguida de este modo no contiene una cascada de decorrelacionadores, con lo que se origina una calidad mejorada del audio.

A continuación, se describirá un ejemplo de cómo determinar los parámetros de multiplicación matricial para los mezcladores ascendentes de las capas jerárquicas en respuesta a los datos de estructura de árbol de decodificador. De manera particular, la descripción se centrará en las realizaciones en las que los filtros de decorrelación para la

generación de las señales decorrelacionadas de los mezcladores ascendentes se conectan directamente a los canales de entrada de audio de la estructura de decodificación. Por tanto, la descripción se centrará en las realizaciones de los codificadores tal como se ilustra en la figura 10.

La figura 11 ilustra un diagrama de flujo a modo de ejemplo para un método de decodificación según algunas realizaciones de la invención.

En la etapa 1101, los parámetros cuantificados y codificados se decodifican a partir del flujo recibido de bis. Tal como apreciará el experto en la técnica, esto puede originar un número de vectores de parámetros convencionales de codificación de audio paramétrico, tal como:

Cada vector representa los parámetros a lo largo del eje de frecuencia.

A la etapa 1101 la sigue la etapa 1103, en la que las matrices para los mezcladores ascendentes individuales se determinan a partir de los datos paramétricos decodificados.

Las matrices generalizadas OTT y TTT (independientes de la frecuencia) pueden darse, de manera respectiva, como:

Las señales xi, di e yi representan las señales de entrada, las señales decorrelacionadas derivadas de las señales xi y las señales de salida, de manera respectiva. Las entradas Hif y Mif matriciales son funciones de los parámetros

derivados en la etapa 1103.

Entonces, el método se divide en dos trayectorias paralelas, en las que una trayectoria tiene como objetivo la deducción de los valores de matriz previa del árbol (etapa 1105) y una trayectoria tiene como objetivo la deducción de los valores de matriz de mezclado de árbol (etapa 1107).

Las matrices previas corresponden a las multiplicaciones matriciales aplicadas a la señal de entrada antes de la decorrelación y la aplicación matricial. De manera específica, las matrices previas corresponden a los mezcladores ascendentes de ganancia aplicados en la señal de entrada antes de los filtros de decorrelación.

En mayor detalle, una implementación de decodificador directa conducirá en general hacia una cascada de filtros de decorrelación, como por ejemplo, como, por ejemplo, se aplica en la figura 9. Tal como se explicó anteriormente, es preferible evitar esta cascada. Con el fin de hacer esto, todos los filtros de decorrelación se mueven al mismo nivel jerárquico, según se muestra en la figura 10. Con el fin de garantizar que las señales decorrelacionadas tienen el nivel adecuado de energía, es decir, idéntico al nivel de la señal decorrelacionada en el caso directo de la figura 9, las matrices previas se aplican antes de la decorrelación.

Como ejemplo, el GB de ganancia en la figura 10 se deriva tal como sigue. En primer lugar, es importante observar que un mezclador ascendente de 1-a-2 divide la potencia de la señal de entrada hacia las salidas superior e inferior del mezclador ascendente de 1-a-2. Esta propiedad se refleja en los parámetros de diferencia de intensidad entre canales (IID) o diferencia de nivel entre canales (ICLD). Por tanto, el GB de ganancia se calcula como la proporción de energía de la salida superior dividida por la suma de las salidas superior e inferior del mezclador ascendente A de 1-a-2. Se apreciará que puesto que los parámetros IID o ICLD pueden ser variables con el tiempo y la frecuencia, la ganancia también puede variar tanto frente al tiempo como frente a la frecuencia.

Las matrices de mezcla son las matrices aplicadas a la señal de entrada por los mezcladores ascendentes con el fin de generar los canales adicionales.

Las ecuaciones finales de matriz previa y de mezcla son el resultado de una cascada de los mezcladores ascendentes OTT y TTT. Puesto que la estructura del decodificador ha sido enmendada para evitar la cascada de los decorrelacionadores, esto debe tenerse en cuenta cuando se determinen las ecuaciones finales.

En las realizaciones, en las que sólo se utilizan configuraciones predeterminadas, la relación entre las entradas Hij y Mij matriciales y las ecuaciones finales matriciales es constante y puede aplicarse una modificación convencional.

Sin embargo, para el enfoque más flexible y dinámico descrito anteriormente, la determinación de los valores de matriz previa y mezcla puede determinarse a través de enfoques más complejos tal como se describirá más adelante.

A la etapa 1105 la sigue la etapa 1109, en la que las matrices previas derivadas en la etapa 1005 se mapean al plan de frecuencias real que se aplica para transformar la señal de dominio de tiempo al dominio de frecuencia (en la etapa 1113).

A la etapa 1109 la sigue la etapa 1111, en la que puede interpolarse la interpolación de los parámetros matriciales de frecuencia. De manera específica, puede aplicarse interpolación en función de si la actualización temporal de los parámetros corresponde o no a la actualización de la transformación de tiempo a frecuencia de la etapa 1113.

En la etapa 1113, las señales de entrada se convierten al dominio de frecuencia con el fin de aplicar las matrices previas mapeadas y opcionalmente interpoladas.

La etapa 1115 sigue a la etapa 1111 y la etapa 1113 y comprende la aplicación de las matrices previas a las señales de entrada del dominio de frecuencia. La aplicación real de la matriz es un conjunto de multiplicaciones matriciales.

A la etapa 1115 la sigue la etapa 1117 en la que parte de las señales que se originan a partir de la aplicación matricial de la etapa 1115 se alimenta al filtro de decorrelación para generar las señales decorrelacionadas.

El mismo enfoque se aplica para derivar las ecuaciones de matriz de mezclado.

De manera específica, a la etapa 1107 la sigue la etapa 1119, en la que las ecuaciones determinadas en la etapa 1107 se mapean al plan de frecuencias de la transformación de tiempo a frecuencia de la etapa 1113.

A la etapa 1119 la sigue la etapa 1121, en la que los valores de matriz de mezcla se interpolan, de manera opcional, dependiendo de nuevo de la actualización temporal de los parámetros y la transformación.

Los valores generados en las etapas 1115, 1117 y 1121 forman, por tanto, los parámetros requeridos para la multiplicación matricial de mezcla ascendente y esta se realiza en la etapa 1123.

5 A la etapa 1123 la sigue la etapa 1125, en la que la salida resultante se transforma de vuelta al dominio de tiempo.

Las etapas que corresponden a las etapas 1115, 1117 y 1123 en la figura 11 pueden ilustrarse adicionalmente mediante la figura 12. La figura 12 ilustra un ejemplo de una estructura de decodificador matricial según algunas realizaciones de la invención.

La figura 12 ilustra cómo pueden utilizarse los canales de mezcla descendente de entrada para reconstruir la salida de

10 múltiples canales. Tal como se explicó anteriormente, el proceso puede describirse por dos multiplicaciones matriciales con unidades intermedias de decorrelación.

Por tanto, el procesamiento de los canales 10 de entrada que forman los canales de salida puede describirse según:

en las que

15 M1n,k es una matriz bidimensional que mapea un cierto número de canales de entrada en un cierto número de canales que van hacia los decorrelacionadores, y se define por cada ranura de tiempo n, y cada subbanda k; y M2n,k es una matriz bidimensional que mapea un cierto número de canales previamente procesados en un cierto número

de canales de salida, y se define para cada ranura de tiempo n, y cada subbanda híbrida k. A continuación, se describirá un ejemplo de cómo pueden generarse las ecuaciones de matriz previa y mezclado de las 20 etapas 1105 y 1107 a partir de los datos de estructura de árbol de decodificador.

En primer lugar, se considerarán las estructuras de árbol de decodificador, que sólo tienen mezcladores ascendentes OTT, con referencia al árbol de ejemplo de la figura 13. Para este tipo de árboles es beneficioso definir un número de variables auxiliares:

describe los índices del mezclador ascendente OTT que se encuentran para cada mezclador ascendente OTT (es decir,

25 en el ejemplo la señal que está haciéndose entrar en el 4º mezclador ascendente OTT ha pasado través del 0º y el 1º mezclador ascendente OTT, según proporciona la 5ª columna en la matriz Tree1. De forma similar, la señal que está haciéndose entrar en el 2º mezclador ascendente OTT ha pasado a través del 0-ésimo bloque OTT, según proporciona la tercera columna en la matriz Tree1, etc.).

describe si se persigue la trayectoria superior o inferior para cada mezclador ascendente OTT. Un signo positivo indica la trayectoria superior y un signo negativo indica la trayectoria inferior.

La matriz corresponde a la matriz Tree1, y por tanto, cuando una cierta columna y fila en la matriz Tree1 señala a un cierto mezclador ascendente OTT, la misma columna y fila en la matriz Tree1sign indica si la parte inferior o superior de

5 este mezclador ascendente específico OTT se utiliza para alcanzar el mezclador ascendente OTT dado en la primera fila de la columna específica (es decir, en el ejemplo, la señal que está haciéndose entrar en el cuarto mezclador ascendente OTT ha pasado a través de la trayectoria superior del 0-ésimo mezclador ascendente OTT (según se indica mediante la 3ª fila, la 5ª columna en la matriz Tree1sign), y la trayectoria inferior del 1º mezclador ascendente OTT (tal como se indica mediante la 2ª fila, 5ª columna en la matriz Tree1sign).

10 Tree1depth = [1 2 2 3 3 ]

describe la profundidad (depth) del árbol para cada mezclador ascendente OTT (es decir, en el ejemplo el mezclador 0 ascendente se encuentra en la capa 1, los mezcladores ascendentes 1 y 2 se encuentran en la capa 2 y los mezcladores ascendentes 3 y 4 se encuentran en la capa 3); y

Treeelements = [5]

15 indica el número de elementos en el árbol (es decir, en el ejemplo el árbol comprende cinco mezcladores ascendentes).

Entonces, se define una matriz temporal K1 que describe la matriz previa sólo para las señales decorrelacionadas según:

es el valor de ganancia para el mezclador ascendente OTT indicado por Tree1(i,p) dependiendo de si se utiliza la salida 20 superior o la inferior del bloque OTT, y en donde

Los valores IID son los valores de diferencia de intensidad entre canales obtenidos a partir del flujo de bits. La matriz final de mezcla previa M1 se construye entonces como: Recordando que el objetivo de la matriz de mezcla previa es poder mover los decorrelacionadores incluidos en el

mezclador ascendente OTT en la figura 13, antes que los bloques OTT. Por tanto, la matriz de mezcla previa necesita 25 suministrar una señal de entrada “seca” para todos los decorrelacionadores en el mezclador ascendente OTT, en donde

las señales de entrada tienen el nivel que pudieron haber tenido en el punto específico en el árbol en el que el decorrelacionador se dispuso antes de moverlo delante del árbol.

También, recordando que la matriz previa sólo aplica una ganancia previa para las señales que se dirigen hacia los

5 decorrelacionadores y el mezclado de las señales de decorrelacionador y la señal “seca” de mezclado descendente se realiza en la matriz M2 de mezcla, que se explicará a continuación, el primer elemento de la matriz de mezcla previa proporciona una salida que se acopla directamente a la matriz M2 (véase la figura 12, en la que la línea m/c ilustra esto).

Dado que actualmente está observándose un árbol sólo de mezclador ascendente OTT, es obvio que también el segundo elemento del vector M1 de mezclado previo será uno, debido a que la señal que se dirige hacia el

10 decorrelacionador en el mezclador ascendente OTT cero es exactamente la señal de salida de mezclado descendente, y que para este mezclador ascendente OTT no existe diferencia en mover el decorrelacionador delante de todo el árbol debido a que ya se encuentra en primer lugar en el árbol.

Además, dado que el vector de entrada a los decorrelacionadores viene dado por vn,k = M1n,k xn,k y observando la figura 13 y la figura 12, y el modo en el que fueron derivados los elementos en la matriz M1n,k, es obvio que la primera fila de

15 M1 corresponde a la señal m en la figura 12, las filas posteriores corresponden a la señal de entrada de decorrelacionador del bloque 0,..., 4 OTT. Por tanto, el vector Wn,k será tal como sigue:

donde en indica la salida del decorrelacionador del n-ésimo bloque OTT en la figura 13.

Ahora, observando la matriz M2 de mezcla, los elementos de esta matriz pueden deducirse de forma similar. Sin embargo, para esta matriz el objetivo es ajustar en ganancia la señal seca y mezclarla con las salidas de 20 decorrelacionador relevantes. Recordando que cada mezclador ascendente OTT en el árbol puede describirse mediante lo siguiente:

donde Y1 es la salida superior del bloque OTT, e Y2 es la entrada inferior y X es la señal de entrada seca y Q es la señal de decorrelacionador.

Puesto que los canales de salida están formados por la multiplicación matricial yn,k = M2n,k wn,k y el vector wn,k se forma como una combinación de la señal de mezcla descendente y la salida de los decorrelacionadores según se indica en la

30 figura 12, cada fila de la matriz M2 corresponde a un canal de salida, y cada elemento en la fila específica, indica cuánto de la señal de mezcla descendente y de los diferentes decorrelacionadores deberían mezclarse para formar el canal específico de salida.

Como ejemplo, puede observarse la primera fila de la matriz M2 de mezcla.

El primer elemento de la primera fila en M2 corresponde a la contribución de la señal “m”, y es la contribución a la salida dada por las salidas superiores del mezclador 0, 1 y 3 ascendente OTT. Dada la matriz anterior H, esto corresponde a H110, H111 y H113, debido a que la cantidad de la señal seca de la salida superior del bloque OTT es dada por el elemento H11 del mezclador ascendente OTT.

5 El segundo elemento corresponde a la contribución del decorrelacionador D1, que según lo anterior se dispone en el mezclador 0 ascendente OTT. Por tanto, la contribución de éste es H110, H113 y H120. Esto es evidente, debido a que el elemento H120 proporciona al decorrelacionador la salida del mezclador 0 ascendente OTT, y que la señal se pasa de forma subsiguiente a través de los mezcladores 1 y 3 ascendentes OTT, como parte de la señal seca, y por tanto la ganancia se ajusta según los elementos H110 y H113.

10 De forma similar, el tercer elemento corresponde a la contribución del decorrelacionador D2, que según lo anterior se dispone en el mezclador 1 ascendente OTT. Por tanto, la contribución de éste es H120 y H113.

El quinto elemento corresponde a la contribución del decorrelacionador D3, que según la notación anterior se dispone en el mezclador 3 ascendente OTT. Por tanto, la contribución de éste es H123.

El cuarto y el sexto elementos de la primera fila es de cero debido a que ninguna contribución del decorrelacionador D4 15 o D6 es parte del canal de salida que corresponde a la primera fila en la matriz.

El ejemplo anterior superficial, hace evidente que los elementos matriciales pueden deducirse como productos de los elementos de matriz de mezclador H ascendente OTT.

Con el fin de derivar la matriz M2 de mezcla para un árbol general, puede derivarse un enfoque similar al de la matriz M1. En primer lugar, se derivan las siguientes variables auxiliares:

20 La matriz Tree, mantiene una columna para cada canal de salida, describiendo los índices de los mezcladores ascendentes OTT que debe pasar que la señal para alcanzar cada canal de salida.

La matriz Treesign mantiene un indicador para cada mezclador ascendente en el árbol para señalar si debe utilizarse la trayectoria (1) superior o (-1) inferior para alcanzar el canal de salida actual.

El vector Treedepth mantiene el número de mezcladores ascendentes que deben pasarse para conseguir un canal 25 específico de salida.

El vector Treeelement mantiene el número de mezcladores ascendentes en cada sub-árbol del árbol completo

Siempre que la notación definida anteriormente sea suficiente para describir todos los árboles que pueden señalizarse, puede definirse la matriz M2. La matriz para un sub-árbol k, que crea los N canales de salida a partir de 1 canal de entrada, se define según:

donde

10 en donde los elementos H se definen mediante los parámetros que corresponden al mezclador ascendente OTT con índice Tree(p,j).

A continuación, se supone un árbol más general que implica mezcladores ascendentes TTT en el nivel de raíz, tal como por ejemplo, la estructura de decodificador de la figura 14. Los mezcladores ascendentes que contienen las dos variables M1i y M2i indican los árboles OTT y por tanto, no contienen necesariamente mezcladores ascendentes OTT

15 únicos. Además, al principio se supone que los mezcladores ascendentes TTT no emplean una señal decorrelacionada, es decir, la matriz TTT puede describirse como una matriz 3x2:

Según estas suposiciones y con el fin de derivar las matrices previa y de mezclado finales para el primer mezclador ascendente TTT, se derivan para cada árbol OTT dos conjuntos de matrices de mezclado previo, una que describe la combinación matricial previa para la primera señal de salida del mezclador ascendente TTT y otra que describe la

20 combinación matricial previa para la segunda señal de salida del mezclador ascendente TTT. Después de la aplicación de ambos bloques de combinación matricial previa y de decorrelación, pueden sumarse las señales.

Por tanto, las señales de salida pueden derivarse como lo siguiente:

Finalmente, en el caso de que el mezclador ascendente TTT pueda emplear la decorrelación, la contribución de la señal decorrelacionada puede agregarse en forma de un proceso posterior. Una vez que se ha derivado la señal

decorrelacionada del mezclador ascendente TTT, la contribución a cada señal de salida es simplemente la contribución 5 dada por el vector [M13, M23, M33] expandido por las IDD de cada mezcladores ascendentes OTT siguiente.

El método se inicia en la etapa 1501, en la que un transmisor recibe un número de canales de entrada de audio.

A la etapa 1501 la sigue la etapa 1503, en la que el transmisor codifica de forma paramétrica el número de canales de entrada de audio para generar el flujo de datos que comprende el número de canales de audio y datos paramétricos de 10 audio.

A la etapa 1503 la sigue la etapa 1505, en la que se determina la estructura de decodificador jerárquica que corresponde a los medios de codificación jerárquica.

A la etapa 1505 la sigue la etapa 1507, en la que el transmisor incluye los datos de estructura de árbol de decodificador, que comprenden al menos un valor de datos indicativo de una característica de división de canal para un canal de 15 audio, en una capa jerárquica de la estructura de decodificador jerárquica en el flujo de datos.

A la etapa 1507 la sigue la etapa 1509, en la que el transmisor envía el flujo de datos al receptor.

A la etapa 1509 la sigue la etapa 1511, en la que el receptor recibe el flujo de datos.

A la etapa 1511 la sigue la etapa 1513, en la que la estructura de decodificador jerárquica que utilizará el receptor se determina en respuesta a los datos de estructura de árbol de decodificador.

A la etapa 1513 la sigue la etapa 1515, en la que el receptor genera el número de canales de salida de audio a partir del flujo de datos, utilizando la estructura de decodificador jerárquica.

Se apreciará que, por motivos de claridad, la descripción anterior ha descrito las realizaciones de la invención con referencia a las diferentes unidades y procesadores funcionales. Sin embargo, será evidente que cualquier distribución adecuada de funcionalidad entre las diferentes unidades o procesadores funcionales puede utilizarse sin apartarse de la invención. Por ejemplo, la funcionalidad ilustrada, que se realizará a través de procesadores o controladores separados, puede efectuarse por el mismo procesador o controladores. Por lo tanto, las referencias a las unidades específicas funcionales sólo han de contemplarse como referencias a los medios adecuados que proporcionan la funcionalidad descrita más que indicativas de una estructura u organización física o lógica estricta.

La invención puede implementarse en cualquier forma adecuada que incluye hardware, software, firmware o cualquier combinación de éstos. De manera opcional, la invención puede implementarse, por lo menos parcialmente, como un software informático que se ejecuta en uno o más procesadores de datos y/o procesadores de señal digital. Los elementos y componentes de una realización de la invención pueden implementarse física, funcional y lógicamente, en cualquier forma adecuada. La funcionalidad puede, de hecho, implementarse en una unidad única, en una pluralidad de unidades o como parte de otras unidades funcionales. Como tal, la invención puede implementarse en una unidad única

o puede estar distribuida física y funcionalmente entre diferentes unidades y procesadores.

Aunque la presente invención se ha descrito en conexión con algunas realizaciones, no se pretende que esté limitada a la forma específica señalada en la presente. Más bien, el alcance de la presente invención sólo está limitado por las reivindicaciones que la acompañan. Además, aunque puede parecer que una característica se describe en conexión con realizaciones particulares, un experto en la técnica reconocerá que pueden combinarse varias características de las realizaciones descritas según la invención. En las reivindicaciones, el término comprendiendo/que comprende no excluye la presencia de otros elementos o etapas.

Además, aunque se enumeran de forma individual, pueden implementarse una pluralidad de medios, elementos o etapas de método, por ejemplo, por medio de una unidad o procesador único. Además, aunque pueden incluirse características individuales en reivindicaciones diferentes, éstas pueden combinarse posiblemente de manera ventajosa, y la inclusión en reivindicaciones diferentes no implica que una combinación de características no sea factible ni/o ventajosa. También, la inclusión de una característica en una categoría de reivindicaciones no implica una limitación a esta categoría, sino que más bien indica que la característica es aplicable por igual a otras categorías de reivindicación, según proceda. Además, el orden de las características en las reivindicaciones no implica ningún orden específico en el que las características deben efectuarse y, en particular, el orden de las etapas individuales en una reivindicación de método no implica que las etapas deban realizarse en este orden. Más bien, las etapas pueden realizarse en cualquier orden adecuado. Además, las referencias en singular no excluyen una pluralidad. Por lo tanto, las referencias a “un”, “una”, “primero”, “segundo”, etc., no impiden una pluralidad. Los signos de referencia en las reivindicaciones se proporcionan simplemente como ejemplo aclarativo que no debe interpretarse como limitativo en modo alguno del alcance de las reivindicaciones.

Según un ejemplo, un aparato para generar un número de canales de salida de audio comprende un flujo de datos que comprende un número de canales de entrada de audio, siendo el número uno o mayor que uno, y datos paramétricos de audio que describen propiedades espaciales; comprendiendo además el flujo de datos datos de estructura de árbol de decodificador para una estructura de decodificador de matriz, comprendiendo los datos de estructura de árbol de decodificador al menos un valor de datos a partir del que pueden generarse los coeficientes de la multiplicación matricial de la estructura de decodificador de matriz, comprendiendo la estructura de decodificador de matriz multiplicaciones matriciales (M1, M2) y unidades intermedias de decorrelación (D1, … D5); la estructura de decodificador de matriz en respuesta a los datos de estructura de árbol de decodificador; y el número de canales de salida de audio a partir del flujo de datos usando la estructura de decodificador de matriz.

Además, los datos de estructura de árbol de decodificador pueden comprender una pluralidad de valores de datos, cada valor de datos indicativo de una característica de división de canal para un canal en una capa jerárquica de la estructura de decodificador jerárquica.

Además, un valor de datos predeterminado puede ser indicativo de la falta de división de canal para el canal en la capa jerárquica.

Además, un valor de datos predeterminado puede ser indicativo de una división de uno-a-dos canales para el canal en la capa jerárquica.

Además, la pluralidad de valores de datos pueden ser valores de datos binarios.

Además, un valor de datos binarios predeterminado puede ser indicativo de una división de uno-a-dos canales y otro valor de datos binarios predeterminado es indicativo de la falta de división de canal.

Además, el flujo de datos puede comprender además una indicación del número de canales de entrada.

Además, el flujo de datos puede comprender además una indicación del número de canales de salida.

Además, el flujo de datos puede comprender además una indicación de un número de funciones de división de uno-ados canales en la estructura de decodificador jerárquica.

Además, el flujo de datos puede comprender además una indicación de un número de funciones de división de dos-atres canales en la estructura de decodificador jerárquica.

Además, los datos de estructura de árbol de decodificador pueden comprender datos para una pluralidad de estructuras de árbol de decodificador ordenadas en respuesta a la presencia de una funcionalidad de división de dos-a-tres canales.

Además, los datos de estructura de árbol de decodificador para al menos un canal de entrada pueden comprender una indicación de una función de división de dos-a-tres canales que está presente en la capa raíz seguida por datos binarios en los que cada valor de los datos binarios es indicativo de que o bien no existe funcionalidad de división o bien existe una funcionalidad de división de uno-a-dos canales para las capas dependientes de la funcionalidad de división de dosa-tres canales.

Además, el flujo de datos puede comprender además una indicación de una posición del altavoz para al menos uno de los canales de salida.

Además, los medios para generar la estructura de decodificador de matriz pueden disponerse para determinar, como los coeficientes de multiplicación de la estructura de decodificador de matriz, parámetros de multiplicación para funciones de división de canal de las capas jerárquicas en respuesta a los datos de estructura de árbol de decodificador.

Además, la estructura de decodificador de matriz puede comprender al menos una funcionalidad de división de canal en al menos una capa jerárquica, la al menos una funcionalidad de división de canal comprende las unidades intermedias de decorrelación para generar una señal decorrelacionada a partir de una salida obtenida mediante el procesamiento del canal de entrada de audio del flujo de datos mediante una matriz previa (M1) usada en una primera multiplicación matricial; y en el que una matriz usada en una segunda multiplicación matricial comprende una matriz de mezcla (M2) que comprende al menos una unidad de división de canal para generar una pluralidad de canales de salida de capa jerárquica de un canal de audio a partir de una capa jerárquica más alta y la señal decorrelacionada.

Además, la primera matriz (M1) de multiplicación puede comprender medios de compensación de nivel para realizar una compensación de nivel de audio en el canal de entrada de audio para generar una señal de audio compensada en nivel; y en el que las unidades de decorrelación (D1,…D5) están adaptadas para filtrar la señal de audio compensada en nivel para generar la señal decorrelacionada.

Además, los medios de compensación de nivel comprenden una multiplicación matricial mediante una matriz previa.

Además, la primera matriz de multiplicación es una matriz previa (M1) y los coeficientes de la matriz previa (M1) tienen al menos un valor unidad para la estructura de decodificador de matriz, la estructura de decodificador de matriz puede comprender sólo una funcionalidad de división de uno-a-dos canales.

Además, la primera matriz de multiplicación es una matriz previa (M1) y el aparato puede comprender además medios para determinar la mezcla previa (M1) para la al menos una funcionalidad de división de canal en al menos una capa jerárquica en respuesta a parámetros de una funcionalidad de división de canal en una capa jerárquica más alta.

Además, una matriz de división de canal (árbol) puede comprender para al menos una funcionalidad de división de canal en respuesta a parámetros de la al menos una funcionalidad de división de canal en al menos una capa jerárquica.

Además, la primera matriz de multiplicación es una matriz previa (M1) y el aparato puede comprender además medios para determinar la mezcla previa (M1) para al menos una funcionalidad de división de canal en al menos una capa jerárquica en respuesta a parámetros de una funcionalidad de división de dos-a-tres canales de una capa jerárquica más alta.

Además, la matriz previa (M1) puede disponerse para determinar la matriz previa para la al menos una funcionalidad de división de canal en respuesta a una determinación de una primera sub-matriz previa que corresponde a una primera entrada del mezclador ascendente de dos-a-tres y una segunda sub-matriz previa que corresponde a una segunda entrada del mezclador ascendente de dos-a-tres.

Claims

REIVINDICACIONES

1. Aparato para generar un número de canales de salida de audio; comprendiendo el aparato:

medios para recibir (401) un flujo de datos que comprende un número de canales de entrada de audio, siendo el número uno o mayor que uno, y datos paramétricos de audio que describen propiedades espaciales; comprendiendo además el flujo de datos datos de estructura de árbol de decodificador para una estructura de decodificador de matriz, representando la estructura de decodificador de matriz una estructura decodificadora jerárquica, comprendiendo los datos de estructura de árbol de decodificador al menos un valor de datos indicativo de las características de división de canal para un canal de audio en una capa jerárquica de la estructura de decodificador jerárquica,

en el que los coeficientes de matriz de la estructura de decodificador de matriz pueden generarse a partir de los datos de estructura de árbol de decodificador,

en el que la estructura de decodificador de matriz comprende una primera multiplicación matricial usando una primera matriz (M1) que mapea el número de canales de entrada de audio en un cierto número de canales, unidades intermedias de decorrelación (D1, …, D5) para procesar el cierto número de canales, y una segunda multiplicación matricial usando una segunda matriz (M2) que mapea un cierto número de canales procesados en el número de canales de salida de audio;

medios para generar (405) la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica en respuesta a los datos de estructura de árbol de decodificador; y

medios para generar (403) el número de canales de salida de audio a partir del flujo de datos utilizando la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica.
2.

Aparato según la reivindicación 1, en el que los medios para generar (405) la estructura de decodificador de matriz se disponen para determinar, como los coeficientes de multiplicación de la estructura de decodificador de matriz, parámetros de multiplicación para funciones de división de canal de las capas jerárquicas de la estructura de decodificador de matriz en respuesta a los datos de estructura de árbol de decodificador.
3.

Aparato según la reivindicación 1, en el que la estructura de decodificador de matriz comprende al menos una funcionalidad de división de canal en al menos una capa jerárquica de la estructura de decodificador de matriz, la al menos una funcionalidad de división de canal comprende las unidades intermedias de decorrelación para generar una señal decorrelacionada a partir de una salida obtenida mediante el procesamiento del canal de entrada de audio del flujo de datos por la primera matriz (M1) usada en la primera multiplicación matricial; y

en el que la segunda matriz comprende una matriz de mezcla (M2) que comprende al menos una unidad de división de canal para generar una pluralidad de canales de salida de capa jerárquica a partir de un canal de audio de una capa jerárquica más alta y la señal decorrelacionada .
4.

Aparato según la reivindicación 1, en el que la primera matriz (M1) comprende medios de compensación de nivel para realizar una compensación de nivel de audio en el canal de entrada de audio para generar una señal de audio compensada en nivel; y en el que las unidades de decorrelación (D1,…D5) están adaptadas para filtrar la señal de audio compensada en nivel para generar la señal decorrelacionada.
5.

Aparato según la reivindicación 1, en el que la primera matriz es una matriz previa (M1) y los coeficientes de la matriz previa (M1) tienen al menos un valor unidad para la estructura de decodificador jerárquica que comprende sólo una funcionalidad de división de canal de uno-a-dos.
6.

Aparato según la reivindicación 1, en el que la primera matriz es una matriz previa (M1) y en el que el aparato comprende además medios para determinar la matriz previa (M1) para la al menos una funcionalidad de división de canal en la al menos una capa jerárquica en respuesta a parámetros de una funcionalidad de división de canal en una capa jerárquica más alta.
7.

Aparato según la reivindicación 1, que comprende además medios para determinar una matriz de división de canal (árbol) para la al menos una funcionalidad de división de canal en respuesta a parámetros de la al menos una funcionalidad de división de canal en la al menos una capa jerárquica.
8.

Aparato según la reivindicación 1, en el que la primera matriz es una matriz previa (M1) y en el que el aparato comprende además medios para determinar la matriz previa (M1) para al menos una funcionalidad de división de canal en al menos una capa jerárquica en respuesta a parámetros de una funcionalidad de división de canal de dos-a-tres de una capa jerárquica más alta.
9.

Aparato según la reivindicación 8, en el que los medios para determinar la matriz previa (M1) se disponen para determinar la matriz previa para la al menos una funcionalidad de división de canal en respuesta a una determinación de una primera sub-matriz previa que corresponde a una primera entrada del mezclador ascendente de dos-a-tres y una segunda sub-matriz previa que corresponde a una segunda entrada de un mezclador ascendente de dos-a-tres.
10.

Método de generación de un número de canales de salida de audio; comprendiendo el método:

recibir un flujo (1511) de datos que comprende un número de canales de entrada de audio, siendo el número uno o mayor que uno, y datos paramétricos de audio que describen propiedades espaciales; comprendiendo además el flujo de datos los datos de estructura de árbol de decodificador para una estructura de decodificador de matriz, representando la estructura de decodificador de matriz una estructura de decodificador jerárquica, comprendiendo los datos de estructura de árbol de decodificador al menos un valor de datos indicativo de características de división de canal para un canal de audio en una capa jerárquica de la estructura de decodificador jerárquica;

en el que los coeficientes de matriz de la estructura de decodificador de matriz pueden generarse a partir de los datos de estructura de árbol de decodificador, en el que la estructura de decodificador de matriz comprende una primera multiplicación matricial usando una primera matriz (M1) que mapea el número de canales de entrada de audio para un cierto número de canales, unidades intermedias de decorrelación (D1,…D5) para procesar el cierto número de canales, y una segunda multiplicación matricial usando una segunda matriz (M2) que mapea un cierto número de canales procesados en el número de canales de salida de audio,

generar la estructura de decodificador de matriz que representa la estructura (1513) de decodificador jerárquica en respuesta a los datos de estructura de árbol de decodificador; y

generar el número de canales (1515) de salida de audio a partir del flujo de datos utilizando la estructura de decodificador de matriz que representa la estructura de decodificador jerárquica.
11. Receptor (103) para generar un número de canales de salida de audio; comprendiendo el receptor

(103) un aparato según la reivindicación 1.
12.

Método de recepción de un flujo de datos, comprendiendo el método un método según la reivindicación 10.
13.

Producto de programa informático adaptado para ejecutar el método según la reivindicación 10.
14.

Dispositivo de reproducción de audio que comprende un aparato según la reivindicación 1.