ES2653975T3

ES2653975T3 - Decodificador de audio multicanal, codificador de audio multicanal, procedimientos, programa informático y representación de audio codificada mediante el uso de una decorrelación de señales de audio renderizadas

Info

Publication number: ES2653975T3
Application number: ES14739483.7T
Authority: ES
Inventors: Sascha Disch; Harald Fuchs; Oliver Hellmuth; Jürgen HERRE; Adrian Murtaza; Jouni PAULUS; Falko Ridderbusch; Leon Terentiv
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2013-07-22
Filing date: 2014-07-17
Publication date: 2018-02-09
Anticipated expiration: 2034-07-17
Also published as: KR101829822B1; JP6777700B2; TW201521469A; MX2016000902A; US20160247507A1; CA2919080A1; BR112016001250B1; PT3022949T; JP6449877B2; RU2665917C2; CA2919080C; MX361115B; RU2016105755A; JP2016528811A; CN105612766A; PL3022949T3; SG11201600466PA; AU2014295207A1; JP2019032541A; KR20160039634A

Abstract

Un decodificador de audio multicanal (100; 700; 1550; 3000) para proporcionar al menos dos señales de audio de salida (112,114; 712,714; 1552a - 1552n; 3012) en base a una representación codificada (110; 710; 1516a, 1516b,1518), parqueen el que el decodificador de audio multicanal se configura para renderizar (130; 1580) una pluralidad de señales de audio decodificadas (122; 1562a - 1562n, ), que se obtienen en base a la representación codificada, a una escena objetivo de multicanales en dependencia de uno o más parámetros de renderización que definen una matriz de renderización, para obtener una pluralidad de señales de audio renderizadas (134, 136; 1582a-1582n, ), y en el que el decodificador de audio multicanal se configura para derivar (140; 1590) una o varias señales de audio decorrelacionadas (142,144; 1592a-1592n) de las señales de audio renderizadas, y en el que el decodificador de audio multicanal se configura para combinar (150;1598) las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, para obtener las señales de audio de salida, en el que el decodificador de audio multicanal se configura para obtener las señales de audio decodificadas, que se renderizan para obtener la pluralidad de señales de audio renderizadas, utilizando una reconstrucción paramétrica (120; 1560); en el que las señales de audio decodificadas son señales de objeto reconstruidas, y en el que el decodificador de audio multicanal se configura para derivar las señales de objeto reconstruidas de una o más señales de mezcla descendente (1516a, 1516b) utilizando una información lateral (1518).

Description

DESCRIPCIÓN

Decodificador de audio multicanal, codificador de audio multicanal, procedimientos, programa informático y representación de audio codificada mediante el uso de una decorrelación de señales de audio renderizadas 5

CAMPO TÉCNICO

[0001] Las realizaciones según la invención se refieren a un decodificador de audio multicanal para proporcionar al menos dos señales de audio de salida en base a una representación codificada.

10

[0002] Otras realizaciones según la invención se refieren a un codificador de audio multicanal para proporcionar una representación codificada en base a al menos a dos señales de audio de entrada.

[0003] Otras realizaciones según la invención están relacionadas con un procedimiento para proporcionar al 15 menos dos señales de audio de salida en base a una representación codificada.

[0004] Otras realizaciones según la invención se refieren a un procedimiento para proporcionar una representación codificada en base a al menos dos señales de audio de entrada.

20 [0005] Otras realizaciones según la invención se refieren a un programa informático para llevar a cabo uno de

dichos procedimientos.

[0006] Otras realizaciones según la invención se refieren a una representación de audio codificada.

25 [0007] En general, realizaciones según la presente invención se refieren a un concepto de decorrelación para

sistemas de codificación de objetos de audio paramétrica de mezcla descendente/mezcla ascendente multicanal.

ANTECEDENTES DE LA INVENCIÓN

30 [0008] En los últimos años la demanda de almacenamiento y transmisión de contenidos de audio ha crecido

constantemente. Además, los requisitos de calidad para el almacenamiento y la transmisión de contenidos de audio también han aumentado constantemente. Por consiguiente, los conceptos para la codificación y decodificación del contenido de audio han aumentado.

35 [0009] Por ejemplo, se ha desarrollado la así llamada “codificación de audio avanzada” (AAC, por sus siglas

en inglés), que se describe, por ejemplo, en la norma internacional ISO/IEC 13818-7:2003. Además, se han creado algunas extensiones espaciales como, por ejemplo, el concepto así llamado “sonido envolvente de MPEG”, que se describe, por ejemplo, en la norma internacional ISO/IEC 23003-1:2007. Además, mejoras adicionales para la codificación y decodificación de información espacial de señales de audio se describen en la norma internacional 40 ISO/IEC 23003-2:2010, que se refiere a la así llamada “codificación de objetos de audio espacial”. Además, un concepto de codificación/decodificación de audio conmutable que proporciona la posibilidad de codificar tanto las señales de audio generales como las señales de voz con buena eficiencia de codificación y manipular las señales de audio multicanal se define en la norma internacional ISO/IEC 23003-3:2012, que describe el concepto así llamado de “codificación de audio y voz unificado”.

45

[0010] Además, otros conceptos convencionales se describen en las referencias, que se mencionan al final de la presente descripción.

[0011] Sin embargo, existe un deseo de proporcionar un concepto aún más avanzado para una codificación y 50 decodificación eficiente de escenas de audio tridimensionales.

RESUMEN DE LA INVENCIÓN

[0012] Una realización según la invención crea un decodificador de audio multicanal según la reivindicación 1 55 para proporcionar al menos dos señales de audio de salida en base a una representación codificada. El

decodificador de audio multicanal se configura para renderizar una pluralidad de señales de audio decodificadas, que se obtienen en base a la representación codificada, en dependencia de uno o varios parámetros de renderización, para obtener una pluralidad de señales de audio renderizadas. El decodificador de audio multicanal se configura para derivar una o varias señales de audio decorrelacionadas de las señales de audio renderizadas. 60 Además, el decodificador de audio multicanal se configura para combinar las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, para obtener las señales de audio

de salida.

[0013] Esta realización según la invención se basa en el hallazgo de que la calidad de audio se puede mejorar en un decodificador de audio multicanal mediante la derivación en una o varias señales de audio

5 decorrelacionadas de las señales de audio renderizadas, que se obtienen en base a una pluralidad de señales de audio decodificadas, y mediante la combinación de las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, para obtener las señales de audio de salida. Se ha encontrado que es más eficaz para ajustar las características de correlación, o las características de covarianza, de las señales de audio de salida por adición de señales decorrelacionadas después de la renderización cuando se 10 comparan con la adición de señales decorrelacionadas antes de la renderización o durante la renderización. Se ha encontrado que este concepto es más eficaz en casos generales, en los que hay más señales de audio decodificadas, que se introducen en la renderización, que señales de audio renderizadas, porque se requerirán más decorrelacionadores si la decorrelación se llevaba a cabo antes de la renderización o durante la renderización. Además, se ha encontrado que se proporcionan los artefactos a menudo cuando se añaden señales 15 decorrelacionadas a las señales de audio decodificadas antes de la renderización, porque la renderización típicamente produce una combinación de señales de audio decodificadas. Conforme a ello, el concepto según la presente realización de la invención realiza estrategias convencionales, en las que se añaden señales decorrelacionadas antes de la renderización. Por ejemplo, es posible estimar directamente las características de correlación deseadas o características de covarianza de las señales renderizadas, y adaptar la provisión de señales 20 de audio decorrelacionadas a las señales realmente renderizadas, que resulta en una mejor solución entre eficacia y calidad de audio, y a veces incluso resulta en una mayor eficacia y una mejor calidad al mismo tiempo. El decodificador de audio multicanal se configura para obtener las señales de audio decodificadas, que se renderizan para obtener la pluralidad de señales de audio renderizadas, mediante el uso de una reconstrucción paramétrica. Se ha encontrado que el concepto según la presente invención produce ventajas en combinación con una 25 reconstrucción paramétrica de señales de audio, en el que la reconstrucción paramétrica se basa, por ejemplo, en una información lateral que describe señales objeto y/o una relación entre señales objeto (en la que las señales objeto pueden constituir las señales de audio decodificadas). Por ejemplo, hay una cantidad comparativamente grande de señales objeto (señales de audio decodificadas) en tal concepto, y se ha encontrado que la aplicación de la decorrelación en base a las señales de audio renderizadas es particularmente eficiente y evita artefactos en tal 30 escenario. Las señales de audio decodificadas son señales objeto reconstruidas (por ejemplo, señales objeto reconstruidas paramétricamente) y el decodificador de audio multicanal se configura para derivar las señales objeto reconstruidas de una o varias señales de mezcla descendente mediante el uso de una información lateral. Conforme a ello, la combinación de las señales de audio renderizadas con una o varias señales de audio decorrelacionadas, que se basa en las señales de audio renderizadas, permite una reconstrucción eficiente de características de 35 correlación o características de covarianza en las señales de audio de salida, incluso si hay una cantidad comparativamente grande de señales objeto reconstruidas (que puede ser mayor que una cantidad de señales de audio renderizadas o señales de audio de salida).

[0014] En una realización preferida, el decodificador de audio multicanal se puede configurar para derivar 40 coeficientes de no mezclado de la información lateral y para aplicar los coeficientes de no mezclado para derivar las

señales objeto reconstruidas (paramétricamente) de una o varias señales de mezcla descendente mediante el uso de los coeficientes de no mezclado. Conforme a ello, las señales de entrada para la renderización se pueden derivar de una información lateral, que puede ser, por ejemplo, una información lateral relacionada con el objeto (como, por ejemplo, una información de correlación inter-objeto o una información de diferencia de nivel del objeto, en la que se 45 puede obtener el mismo resultado mediante el uso de energías absolutas).

[0015] En una realización preferida, el decodificador de audio multicanal se puede configurar para combinar las señales de audio renderizadas con una o varias señales de audio decorrelacionadas, para lograr al menos parcialmente características de correlación deseadas o características de covarianza de las señales de audio de

50 salida. Se ha encontrado que la combinación de las señales de audio renderizadas con una o varias señales de audio decorrelacionadas, que se derivan de las señales de audio renderizadas, permite un ajuste (o reconstrucción) de características de correlación deseadas o características de covarianza. Además, se ha encontrado que es importante que la impresión del auditorio tenga características de correlación o características de covarianza apropiadas en la señal de audio de salida, y esto se puede lograr de mejor modo modificando las señales de audio 55 renderizadas mediante el uso de las señales de audio decorrelacionadas. Por ejemplo, cualquier degradación que es causada en etapas de procesamiento previas, también se puede considerar cuando se combinan las señales de audio renderizadas y las señales de audio decorrelacionadas en base a las señales de audio renderizadas.

[0016] En una realización preferida, el decodificador de audio multicanal se puede configurar para combinar 60 las señales de audio renderizadas con una o varias señales de audio decorrelacionadas, para compensar al menos

parcialmente una pérdida de energía durante una reconstrucción paramétrica de las señales de audio decodificadas,

que se renderizan para obtener la pluralidad de señales de audio renderizadas. Se ha encontrado que la aplicación post-renderización de las señales de audio decorrelacionadas permite corregir imperfecciones de las señales que son causadas por un procesamiento antes de la renderización, por ejemplo, por la reconstrucción paramétrica de las señales de audio decodificadas. En consecuencia, no es necesario reconstruir características de correlación o 5 características de covarianza de las señales de audio decodificadas, que se introducen en la renderización, con alta precisión. Esto simplifica la reconstrucción de las señales de audio decodificadas y, por ende, produce una alta eficacia.

[0017] En una realización preferida, el decodificador de audio multicanal se configura para determinar

10 características de correlación deseadas de características de covarianza de las señales de audio de salida. Además,

el decodificador de audio multicanal se configura para ajustar una combinación de las señales de audio renderizadas con una o varias señales de audio decorrelacionadas, para obtener las señales de audio de salida, de tal forma que las características de correlación o características de covarianza de las señales de audio de salida obtenidas se aproximen o igualen las características de correlación deseadas o características de covarianza deseadas. Al

15 computar (o determinar) las características de correlación deseadas o características de covarianza de las señales de audio de salida (que se deberían alcanzar después de la combinación de las señales de audio renderizadas con las señales de audio decorrelacionadas), es posible para ajustar las características de correlación o características de covarianza en una etapa tardía del procesamiento que, a su vez, permite una reconstrucción relativamente precisa. Conforme a ello, una impresión auditiva espacial de las señales de audio de salida se adapta bien a una

20 impresión auditiva deseada.

[0018] En una realización preferida, el decodificador de audio multicanal se puede configurar para determinar las características de correlación deseadas o características de covarianza deseadas en dependencia de una información de renderización que describe una renderización de la pluralidad de señales de audio decodificadas,

25 que se obtienen en base a la representación codificada, para obtener la pluralidad de señales de audio renderizadas. Considerando el proceso de renderización en la determinación de las características de correlación deseadas o las características de covarianza deseadas, es posible lograr una información precisa para ajustar la combinación de las señales de audio renderizadas con una o varias señales de audio decorrelacionadas, que produce la posibilidad de tener señales de audio de salida que coincidan con una impresión auditiva deseada.

30

[0019] En una realización preferida, el decodificador de audio multicanal se puede configurar para determinar las características de correlación deseadas o características de covarianza deseadas en dependencia de una información de correlación objeto o una información de covarianza objeto que describen características de una pluralidad de objetos de audio y/o una relación entre una pluralidad de objetos de audio. Conforme a ello, es posible

35 restaurar las características de correlación o características de covarianza, que se adaptan a los objetos de audio, en una etapa de procesamiento tardío, a saber, después de la renderización. Conforme a ello, la complejidad para decodificar los objetos de audio es reducida. Además, considerando las características de correlación o las características de covarianza de los objetos de audio después de la renderización, se puede evitar un impacto perjudicial de la renderización y las características de correlación o las características de covarianza se pueden

40 reconstruir con buena precisión.

[0020] En una realización preferida, el decodificador de audio multicanal se configura para determinar la información de correlación objeto o la información de covarianza objeto en base a una información lateral incluida en la representación codificada. Conforme a ello, el concepto se puede adaptar bien a una estrategia de codificación del

45 objeto de audio espacial que usa información lateral.

[0021] En una realización preferida, el decodificador de audio multicanal se configura para determinar características de correlación reales o características de covarianza de las señales de audio renderizadas y para ajustar la combinación de las señales de audio renderizadas con una o varias señales de audio decorrelacionadas,

50 para obtener las señales de audio de salida en dependencia de las características de correlación reales o características de covarianza de las señales de audio renderizadas. Conforme a ello, se puede lograr que se puedan considerar las imperfecciones en etapas de procesamiento tempranas como, por ejemplo, una pérdida de energía cuando se reconstruyen objetos de audio, o imperfecciones causadas por la renderización. Así, la combinación de las señales de audio renderizadas con una o varias señales de audio decorrelacionadas se puede ajustar de una

55 manera muy precisa a las necesidades, de modo tal que la combinación de las señales de audio renderizadas reales con las señales de audio decorrelacionadas resulte en las características deseadas.

[0022] En una realización preferida, el decodificador de audio multicanal se puede configurar para combinar las señales de audio renderizadas con una o varias señales de audio decorrelacionadas, en el que las señales de

60 audio renderizadas se pesan mediante el uso de una primera matriz de mezclado P y en el que una o varias señales de audio decorrelacionadas se pesan mediante el uso de una segunda matriz de mezclado M. Esto permite una

derivación simple de las señales de audio de salida, en la que se lleva a cabo una operación de combinación lineal, que es descrita por la matriz de mezclado P que se aplica a las señales de audio renderizadas y una matriz de mezclado M que se aplica a una o varias señales de audio decorrelacionadas.

5 [0023] En una realización preferida, el decodificador de audio multicanal se configura para ajustar al menos

una de la matriz de mezclado P y la matriz de mezclado M de tal modo que las características de correlación o características de covarianza de las señales de audio de salida obtenidas se aproximen o se igualen con las características de correlación deseadas o características de covarianza deseadas. Así, hay una vía para ajustar una o varias de las matrices de mezcla que es típicamente posible con un esfuerzo moderado y buenos resultados.

10

[0024] En una realización preferida, el decodificador de audio multicanal se configura para computar conjuntamente la matriz de mezclado P y la matriz de mezclado M. Conforme a ello, es posible para obtener las matrices de mezcla de tal modo que las características de correlación o características de covarianza de las señales de audio de salida obtenidas se establecen para que se aproximen o igualen las características de correlación

15 deseadas o características de covarianza deseadas. Además, cuando se computan conjuntamente la matriz de mezclado P y la matriz de mezclado M, típicamente están disponibles algunos grados de libertad, de tal modo que sea posible hacer coincidir bien la matriz de mezclado P y la matriz de mezclado M con los requisitos.

[0025] En una realización preferida, el decodificador de audio multicanal se configura para obtener una matriz 20 de mezclado combinada F, que comprende la matriz de mezclado P y la matriz de mezclado M, de tal modo que una

matriz de covarianza de las señales de audio de salida obtenidas sea igual a una matriz de covarianza deseada.

[0026] En una realización preferida, la matriz de mezclado combinada se puede computar según las ecuaciones descritas más abajo.

25

[0027] En una realización preferida, el decodificador de audio multicanal se puede configurar para determinar la matriz de mezclado combinada F mediante el uso de matrices, que se determinan mediante el uso de una descomposición de valores singulares de una primera matriz de covarianza, que describe la señal de audio renderizada y la señal de audio decorrelacionada, y de una segunda matriz de covarianza, que describe

30 características de covarianza deseadas de las señales de audio de salida. El uso de tal descomposición del valor singular constituye una solución numéricamente eficaz para determinar la matriz de mezclado combinada.

[0028] En una realización preferida, el decodificador de audio multicanal se configura para configurar la matriz de mezclado P para que sea una matriz de identidad, o un múltiplo de ella, y para computar la matriz de

35 mezclado M. Esto evita una mezcla de diferentes señales de audio renderizadas, que ayuda a preservar una impresión espacial deseada. Además, la cantidad de grados de libertad se reduce.

[0029] En una realización preferida, el decodificador de audio multicanal se puede configurar para determinar la matriz de mezclado M de tal modo que una diferencia entre una matriz de covarianza deseada y una matriz de

40 covarianza de las señales de audio renderizadas se aproxime o iguale una covarianza de una o varias señales decorrelacionadas, después del mezclado con la matriz de mezclado M. Así, se da un concepto computacionalmente simple para obtener la matriz de mezclado M.

[0030] En una realización preferida, el decodificador de audio multicanal se puede configurar para determinar 45 la matriz de mezclado M mediante el uso de matrices que se determinan mediante el uso de una descomposición del

valor singular de la diferencia entre la matriz de covarianza deseada y la matriz de covarianza de las señales de audio renderizadas y de la matriz de covarianza de una o varias señales decorrelacionadas. Esta es una estrategia muy eficaz desde un punto de vista computacional para determinar la matriz de mezclado M.

50 [0031] En una realización preferida, el decodificador de audio multicanal se configura para determinar las

matrices de mezcla P, M bajo la restricción de que una señal de audio renderizada dada sólo se mezcla con una versión decorrelacionada de la señal de audio renderizada dada propiamente dicha. Este concepto se limita a una pequeña modificación (por ejemplo, en presencia de decorrelacionadores imperfectos) o evita una modificación de características de correlación cruzadas o características de covarianza cruzadas (por ejemplo, en el caso de 55 decorrelacionadores ideales) y, por ello, puede ser deseable en algunos casos para evitar un cambio de una posición del objeto percibido. Sin embargo, en presencia de decorrelacionadores no ideales, los valores de autocorrelación (o los valores de autocovarianza) se modifican explícitamente, y los cambios en los términos cruzados se ignoran.

60 [0032] En una realización preferida, el decodificador de audio multicanal se configura para combinar las

señales de audio renderizadas con una o varias señales de audio decorrelacionadas de tal modo que sólo los

valores de autocorrelación o los valores de autocovarianza de señales de audio renderizadas se modifican mientras que las características de correlación cruzadas o características de covarianza cruzadas se dejan sin modificar o se modifican con un valor pequeño (por ejemplo, en presencia de decorrelacionadores imperfectos). De nuevo, se puede evitar una degradación de una posición percibida de objetos de audio. Además, la complejidad computacional 5 se puede reducir. Sin embargo, por ejemplo, los valores de covarianza cruzada se modifican como consecuencia de la modificación de las energías (los valores de autocorrelación), pero los valores de correlación cruzada permanecen sin modificación (representan una versión normalizada de los valores de covarianza cruzada).

[0033] En una realización preferida, el decodificador de audio multicanal se configura para configurar que la

10 matriz de mezclado P sea una matriz de identidad, o un múltiplo de ella, y para computar la matriz de mezclado M bajo la restricción de que M es una matriz diagonal. Así, se puede evitar una modificación de características de correlación cruzadas o características de covarianza cruzadas o se pueden restringir a un valor pequeño (por ejemplo, en presencia de decorrelacionadores imperfectos).

15 [0034] En una realización preferida, el decodificador de audio multicanal se configura para combinar las

señales de audio renderizadas con una o varias señales de audio decorrelacionadas, para obtener la señal de audio de salida, en el que una matriz diagonal M se aplica a una o varias señales de audio decorrelacionadas W. En este caso, el decodificador de audio multicanal se configura para computar elementos diagonales de la matriz de mezclado M de tal modo que elementos diagonales de una matriz de covarianza de las señales de audio de salida

20 sean iguales a las energías deseadas. Conforme a ello, se puede compensar una pérdida de energía que se puede obtener por medio de la operación de renderización y/o por reconstrucción de objetos de audio en base a una o varias señales de mezcla descendente y una información lateral espacial. Así, se puede lograr una intensidad apropiada de las señales de audio de salida.

25 [0035] En una realización preferida, el decodificador de audio multicanal se puede configurar para computar

los elementos de la matriz de mezclado M en dependencia de elementos diagonales de una matriz de covarianza deseada, elementos diagonales de una matriz de covarianza de las señales de audio renderizadas, y elementos diagonales de una matriz de covarianza de una o varias señales decorrelacionadas. Los elementos no diagonales de la matriz de mezclado M se pueden fijar en cero, y la matriz de covarianza deseada se puede computar en base a la

30 matriz de renderización usada para la operación de renderización y una matriz de covarianza objeto. Por otra parte, se puede usar un valor umbral para limitar una cantidad de decorrelación añadida a las señales. Este concepto proporciona una determinación eficaz desde el punto de vista computacional de los elementos de la matriz de mezclado M.

35 [0036] En una realización preferida, el decodificador de audio multicanal se puede configurar para considerar

características de correlación o características de covarianza de las señales de audio decorrelacionadas cuando se determina cómo combinar las señales de audio renderizadas, o su versión en escala, con una o varias señales de audio decorrelacionadas. Conforme a ello, se pueden considerar imperfecciones de la decorrelación.

40 [0037] En una realización preferida, el decodificador de audio multicanal se puede configurar para mezclar

señales de audio renderizadas y señales de audio decorrelacionadas, de tal modo que se proporciona una señal de audio de salida dada en base a dos o más señales de audio renderizadas y al menos una señal de audio decorrelacionada. Mediante el uso de este concepto, las características de correlación cruzadas se pueden ajustar eficazmente sin necesidad de introducir grandes cantidades de señales decorrelacionadas (que pueden degradar

45 una impresión espacial auditiva).

[0038] En una realización preferida, el decodificador de audio multicanal se puede configurar para conmutar entre diferentes modos, en los que se aplican diferentes restricciones para determinar cómo combinar las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, para

50 obtener las señales de audio de salida. Conforme a ello, se pueden ajustar características de complejidad y procesamiento a las señales que se procesan.

[0039] En una realización preferida, el decodificador de audio multicanal se puede configurar para conmutar entre un primer modo, en el que se permite una mezcla entre diferentes señales de audio renderizadas cuando se

55 combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, un segundo modo en donde no se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que se permite que una señal decorrelacionada dada se combine, con igual o diferente escala, con una pluralidad de señales de audio renderizadas, o una de sus versiones

60 en escala, a fin de ajustar características de correlación cruzadas o características de covarianza cruzadas de las señales de audio de salida, y un tercer modo en el que no se permite una mezcla entre diferentes señales de audio

renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que no se permite que una señal decorrelacionada dada se combine con señales de audio renderizadas distintas de una señal de audio renderizada de la que se deriva la señal decorrelacionada dada. Así, las características tanto de complejidad como de procesamiento se pueden ajustar al 5 tipo de señal de audio que se está renderizando actualmente. La modificación solamente de las características de autocorrelación o características de autocovarianza y que no modifican explícitamente las características de correlación cruzadas o características de covarianza cruzadas pueden ser de ayuda, por ejemplo, si una impresión espacial de las señales de audio se degrada por tal modificación, aunque, sin embargo, no es deseable ajustar las intensidades de las señales de audio de salida. Por otro lado, hay casos en los que es deseable ajustar 10 características de correlación cruzadas o características de covarianza cruzadas de las señales de audio de salida. El decodificador de audio multicanal mencionado aquí permite tal ajuste, en el que en el primero modo, es posible combinar señales de audio renderizadas, de tal modo que una cantidad (o intensidad) de componentes de señales decorrelacionadas, que se requiere para ajustar las características de correlación cruzadas o características de covarianza cruzadas, es comparativamente pequeña. Así, los componentes de señales “localizables” se usan en el 15 primer modo para ajustar las características de correlación cruzadas o características de covarianza cruzadas. Por el contrario, en el segundo modo, se usan señales decorrelacionadas para ajustar características de correlación cruzadas o características de covarianza cruzadas que naturalmente producen una impresión auditiva diferente. Conforme a ello, al proporcionar tres modos diferentes, el decodificador de audio se puede adaptar bien al contenido de audio que se está manipulando.

20

[0040] En una realización preferida, el decodificador de audio multicanal se configura para evaluar un elemento de la corriente de bits de la representación codificada que indica cuál de los tres modos para combinar las señales de audio renderizadas, o una de sus versiones en escala, se debe usar con una o varias señales de audio decorrelacionadas, y para seleccionar el modo en dependencia de dicho elemento de corriente de bits. Conforme a

25 ello, un codificador de audio puede señalar un modo apropiado en dependencia de su conocimiento de los contenidos de audio. Así, una calidad máxima de las señales de audio de salida se puede lograr bajo cualquier circunstancia.

[0041] Una realización según la invención crea un codificador de audio multicanal para proporcionar una 30 representación codificada en base a al menos dos señales de audio de entrada. El codificador de audio multicanal

se configura para proporcionar una o varias señales de mezcla descendente en base a al menos dos señales de audio de entrada. Además, el codificador de audio multicanal se configura para proporcionar uno o varios parámetros que describen una relación entre al menos dos señales de audio de entrada. Además, el codificador de audio multicanal se configura para proporcionar un parámetro del procedimiento de decorrelación que describe qué 35 modo de decorrelación de una pluralidad de modos de decorrelación se deberá usar del lado de un codificador de audio. Conforme a ello, el codificador de audio multicanal puede controlar el decodificador de audio para usar un modo de decorrelación apropiado que se adapta bien al tipo de señal de audio que se codifica actualmente. Así, el codificador de audio multicanal descrito en esta invención se adapta bien para la cooperación con el decodificador de audio multicanal tratado con anterioridad. El codificador de audio multicanal se configura para proporcionar 40 selectivamente el parámetro del procedimiento de decorrelación, para señalar uno de los tres modos siguientes para la operación de un decodificador de audio: un primer modo, en el que se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, un segundo modo en el que no se permite una mezcla entre diferentes de las señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una 45 de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que se permite que una señal de audio decorrelacionada dada se combine, con igual o diferente escala, con una pluralidad de señales de audio renderizadas, o una de sus versiones en escala, a fin de ajustar características de correlación cruzadas o características de covarianza cruzadas de las señales de audio de salida, y un tercer modo en el que no se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, 50 o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que no se permite que una señal de audio decorrelacionada dada se combine con señales de audio renderizadas distintas de una señal de audio renderizada de la que se deriva la señal de audio decorrelacionada dada. Así, el codificador de audio multicanal puede conmutar un decodificador de audio multicanal a través de los tres modos tratados con anterioridad en dependencia del contenido de audio, en el que el modo en el que el decodificador de audio multicanal se opera 55 se puede adaptar bien por medio del codificador de audio multicanal al tipo del contenido de audio actualmente codificado. Sin embargo, en algunas realizaciones, se pueden usar (o pueden estar disponibles) sólo uno o dos de los tres modos anteriormente mencionados para la operación del decodificador de audio.

[0042] En una realización preferida, el codificador de audio multicanal se configura para seleccionar el 60 parámetro del procedimiento de decorrelación en dependencia de si las señales de audio de entrada comprenden

una correlación comparativamente alta o una correlación comparativamente menor. Así, se puede hacer una

adaptación de la decorrelación, que se usa en el decodificador, en base a una característica importante de las señales de audio que se pueden codificar actualmente.

[0043] En una realización preferida, el codificador de audio multicanal se configura para seleccionar el 5 parámetro del procedimiento de decorrelación para designar el primer modo o el segundo modo si una correlación o

covarianza entre las señales de audio de entrada es comparativamente alta, y para seleccionar el parámetro del procedimiento de decorrelación para designar el tercer modo si una correlación o covarianza entre las señales de audio de entrada es comparativamente menor. Conforme a ello, en el caso de una correlación o covarianza comparativamente pequeña entre las señales de audio de entrada, se elige un modo de decodificación en el que no 10 hay corrección de características de covarianza cruzadas o características de correlación cruzadas. Se ha encontrado que ésta es una elección eficaz para señales que tienen una correlación comparativamente baja (o covarianza), dado que tales señales son sustancialmente independientes, que elimina la necesidad de una adaptación de correlaciones cruzadas o covarianzas cruzadas. Más bien, un ajuste de correlaciones cruzadas o covarianzas cruzadas para señales de audio de entrada sustancialmente independientes (que tienen una correlación 15 o covarianza comparativamente pequeña) degradaría típicamente una calidad de audio y, al mismo tiempo, aumentaría una complejidad de decodificación. Así, este concepto permite una adaptación razonable del decodificador de audio multicanal a la entrada de señales en un codificador de audio multicanal.

[0044] Una realización según la invención crea un procedimiento según la reivindicación 43 para proporcionar 20 al menos dos señales de audio de salida en base a una representación codificada. El procedimiento comprende la

renderización de una pluralidad de señales de audio decodificadas, que se obtienen en base a la representación codificada, en dependencia de uno o varios parámetros de renderización, para obtener una pluralidad de señales de audio renderizadas. El procedimiento comprende también la derivación de una o varias señales de audio decorrelacionadas de las señales de audio renderizadas y que combina las señales de audio renderizadas, o una de 25 sus versiones en escala, con una o varias señales de audio decorrelacionadas, para obtener las señales de audio de salida. Este procedimiento se basa en las mismas consideraciones que el decodificador de audio multicanal anteriormente descrito. Además, el procedimiento se puede suplementar por medio de cualquiera de las características y funcionalidades tratadas con anterioridad con respecto al decodificador de audio multicanal.

30 [0045] Otra realización según la invención crea un procedimiento según la reivindicación 44 para

proporcionar una representación codificada en base a al menos dos señales de audio de entrada. El procedimiento comprende proporcionar una o varias señales de mezcla descendente en base a al menos dos señales de audio de entrada, proporcionar uno o varios parámetros que describen una relación entre al menos dos señales de audio de entrada, y proporcionar un parámetro del procedimiento de decorrelación que describe qué modo de decorrelación 35 de una pluralidad de modos de decorrelación se deberá usar del lado de un decodificador de audio. Este procedimiento se basa en las mismas consideraciones que el codificador de audio multicanal anteriormente descrito. Además, el procedimiento se puede suplementar con cualquiera de las características y funcionalidades descritas en esta invención con respecto al codificador de audio multicanal.

40 [0046] Otra realización según la invención crea un programa informático para llevar a cabo uno o varios de

los procedimientos descritos con anterioridad.

[0047] Otra realización según la invención crea una representación codificada de audio según la reivindicación 46, que comprende una representación codificada de una señal de mezcla descendente, una

45 representación codificada de uno o varios parámetros que describen una relación entre al menos dos señales de audio de entrada, y un parámetro del procedimiento de decorrelación codificada que describe qué modo de decorrelación de una pluralidad de modos de decorrelación se deberá usar del lado de un decodificador de audio. Esta representación de audio codificada permite señalar un modo de decorrelación apropiado y en consecuencia ayuda a implementar las ventajas descritas con respecto al codificador de audio multicanal y el decodificador de 50 audio multicanal.

BREVE DESCRIPCIÓN DE LAS FIGURAS

[0048] Las realizaciones según la presente invención se describirán subsiguientemente haciendo referencia a 55 las figuras adjuntas, en las que:

La FIG. 1 muestra un diagrama de bloques esquemático de un decodificador de audio multicanal, según una realización de la presente invención.

60 La FIG. 2 muestra un diagrama de bloques esquemático de un codificador de audio multicanal, según una realización de la presente invención.

La FIG. 3 muestra un diagrama de flujo de un procedimiento para proporcionar al menos dos señales de audio de salida en base a una representación codificada, según una realización de la invención.

5 La FIG. 4 muestra un diagrama de flujo de un procedimiento para proporcionar una representación codificada en base a al menos dos señales de audio de entrada, según una realización de la presente invención.

La FIG. 5 muestra una representación esquemática de una representación de audio codificada, según una realización de la presente invención.

10

La FIG. 6 muestra un diagrama de bloques esquemático de un decorrelacionador multicanal, según una realización de la presente invención.

La FIG. 7 muestra un diagrama de bloques esquemático de un decodificador de audio multicanal, según una 15 realización de la presente invención.

La FIG. 8 muestra un diagrama de bloques esquemático de un codificador de audio multicanal, según una realización de la presente invención.

20 La FIG. 9 muestra un diagrama de flujo de un procedimiento para proporcionar una pluralidad de señales decorrelacionadas en base a una pluralidad de señales de entrada del decorrelacionador, según una realización de la presente invención.

La FIG. 10 muestra un diagrama de flujo de un procedimiento para proporcionar al menos dos señales de audio de 25 salida en base a una representación codificada, según una realización de la presente invención.

La FIG. 11 muestra un diagrama de flujo de un procedimiento para proporcionar una representación codificada en base a al menos dos señales de audio de entrada, según una realización de la presente invención.

30 La FIG. 12 muestra una representación esquemática de una representación codificada, según una realización de la presente invención.

La FIG. 13 muestra una representación esquemática que proporciona una visión de conjunto de un concepto de mezcla descendente/mezcla ascendente paramétrico basado en MMSE.

35

La FIG. 14 muestra una representación geométrica de un principio de ortogonalidad en un espacio tridimensional.

La FIG. 15 muestra un diagrama de bloques esquemático de un sistema de reconstrucción paramétrico con decorrelación aplicada a la salida renderizada, según una realización de la presente invención.

40

La FIG. 16 muestra un diagrama de bloques esquemático de una unidad de decorrelación.

La FIG. 17 muestra un diagrama de bloques esquemático de una unidad de decorrelación de complejidad reducida, según una realización de la presente invención.

45

La FIG. 18 muestra una representación en forma de tabla de posiciones de altavoces, según una realización de la presente invención.

Las FIGS. 19A a 19G muestran representaciones en forma de tabla de coeficientes de premezclado para N = 22 y K 50 entre 5 y 11.

Las FIGS. 20A a 20D muestran representaciones en forma de tabla de coeficientes de premezclado para N = 10 y K entre 2 y 5.

55 Las FIGS. 21A a 21C muestran representaciones en forma de tabla de coeficientes de premezclado para N = 8 y K entre 2 y 4.

Las FIGURAS 21D a 21F muestran representaciones en forma de tabla de coeficientes de premezclado para N = 7 y K entre 2 y 4.

Las FIGS. 22A y 22B muestran representaciones en forma de tabla de coeficientes de premezclado para N = 5 y K =

2 o K = 3.

La FIG. 23 muestra una representación en forma de tabla de coeficientes de premezclado para N = 2 y K =1.

5 La FIG. 24 muestra una representación en forma de tabla de grupos de señales de canales.

La FIG. 25 muestra una representación sintáctica de parámetros adicionales, que pueden estar incluidos en la sintaxis de SAOCSpecifigConfig() o, de forma equivalente, SAOC3DSpecificConfig().

10 La FIG. 26 muestra una representación en forma de tabla de diferentes valores para la variable de flujo de bits bsDecorrelationMethod.

La FIG. 27 muestra una representación en forma de tabla de un número de decorrelacionadores para diferentes niveles de decorrelación y configuraciones de salida, indicados por la variable de flujo de bits bsDecorrelationLevel; 15

La FIG. 28 muestra, en la forma de un diagrama de bloques esquemático, una visión de conjunto de un codificador de audio 3D.

La FIG. 29 muestra, en la forma de un diagrama de bloques esquemático, una visión de conjunto de un 20 decodificador de audio 3D.

La FIG. 30 muestra un diagrama de bloques esquemático de una estructura de un convertidor de formato;

La FIG. 31 muestra un diagrama de bloques esquemático de un procesador de mezcla descendente, según una 25 realización de la presente invención;

La FIG. 32 muestra una tabla que representa modos de decodificación para un número diferente de objetos de mezcla descendente de SAOC; y

30 La FIG. 33 muestra una representación de sintaxis de un elemento de flujo de bits “SAOC3DSpecificConfig”. DESCRIPCIÓN DETALLADA DE LAS REALIZACIONES

1. Decodificador de Audio Multi-Canal según la FIG. 1

35

[0049] La Figura 1 muestra un diagrama de bloques esquemático de un decodificador de audio multicanal 100, según una realización de la presente invención.

[0050] El decodificador de audio multicanal 100 está configurado para recibir una representación codificada 40 110 y para proporcionar, en base a ésta, al menos dos señales de audio de salida 112, 114.

[0051] El decodificador de audio multicanal 100 comprende preferentemente un decodificador 120 que está configurado para proporcionar señales de audio decodificadas 122 en base a la representación codificada 110. Además, el decodificador de audio multicanal 100 comprende un renderizador 130, que está configurado para

45 renderizar una pluralidad de señales de audio decodificadas 122, que se obtienen en base a la representación codificada 110 (por ejemplo, por el decodificador 120) en dependencia de uno o más parámetros de renderización 132, para obtener una pluralidad de señales de audio renderizadas 134, 136. Además, el decodificador de audio multicanal 100 comprende un decorrelacionador 140, que está configurado para derivar una o más señales de audio decorrelacionadas 142, 144 de las señales de audio renderizadas 134, 136. Además, el decodificador de audio

50 multicanal 100 comprende un combinador 150, que está configurado para combinar las señales de audio

renderizadas 134, 136, o una versión en escala de éstas, con una o más señales de audio decorrelacionadas 142, 144 para obtener las señales de audio de salida 112, 114.

[0052] Sin embargo, debería señalarse que puede ser posible una estructura de hardware diferente del 55 decodificador de audio multicanal 100, siempre que estén dadas las funcionalidades descritas más arriba.

[0053] Con respecto a la funcionalidad del decodificador de audio multicanal 100, debería señalarse que las señales de audio decorrelacionadas 142, 144 se derivan de las señales de audio renderizadas 134, 136, y que las señales de audio decorrelacionadas 142, 144 son combinadas con las señales de audio renderizadas 134, 136 para

60 obtener las señales de audio de salida 112, 114. Derivando las señales de audio decorrelacionadas 142, 144 de las

señales de audio renderizadas 134, 136, se puede lograr un procesamiento particularmente eficiente, ya que el

número de señales de audio renderizadas 134, 136 es típicamente independiente del número de señales de audio decodificadas 122 que son introducidas en el renderizador 130. Así, el esfuerzo de decorrelación es típicamente independiente del número de señales de audio decodificadas 122, que mejora la eficacia de implementación. Además, aplicando la decorrelación después de la representación evita la introducción de artefactos, que podría ser 5 causada por el renderizador cuando combina múltiples señales decorrelacionadas en el caso de que la decorrelación sea aplicada antes de la renderización. Además, las características de las señales de audio renderizadas pueden ser consideradas en la decorrelación realizada por el decorrelacionador 140, que típicamente resulta en señales de audio de salida de buena calidad.

10 [0054] Además, debería señalarse que el decodificador de audio multicanal 100 puede ser suplementado por

cualquiera de las características y funcionalidades descritas en la esta invención. En particular, debería señalarse que las mejoras individuales como se describen en esta invención pueden ser introducidas en el decodificador de audio multicanal 100 para de este modo mejorar incluso la eficacia del procesamiento y/o la calidad de las señales de audio de salida.

15

2. Codificador de Audio Multicanal según la FIG. 2

[0055] La Figura 2 muestra un diagrama de bloques esquemático de un codificador de audio multicanal 200, según una realización de la presente invención. El codificador de audio multicanal 200 está configurado para recibir

20 dos o más señales de audio de entrada 210, 212, y para proporcionar, en base a éstas, una representación codificada 214. El codificador de audio multicanal comprende un proveedor de señales de mezcla descendente 220, que está configurado para proporcionar una o más señales de mezcla descendente 222 en base a al menos dos señales de audio de entrada 210, 212. Además, el codificador de audio multicanal 200 comprende un proveedor de parámetros 230, que está configurado para proporcionar uno o más parámetros 232 que describen una relación (por

25 ejemplo, una correlación cruzada, una covarianza cruzada, una diferencia de nivel o similar) entre al menos dos señales de audio de entrada 210, 212.

[0056] Además, el codificador de audio multicanal 200 comprende también un proveedor de parámetros del procedimiento de decorrelación 240, que está configurado para proporcionar un parámetro del procedimiento de

30 decorrelación 242 que describe qué modo de decorrelación de una pluralidad de modos de decorrelación debería usarse en el lado de un decodificador de audio. Una o más señales de mezcla descendente 222, uno o más parámetros 232 y el parámetro del procedimiento de decorrelación 242 están incluidos, por ejemplo, en una forma codificada, en la representación codificada 214.

35 [0057] Sin embargo, debería señalarse que la estructura de hardware del codificador de audio multicanal 200

puede ser diferente, siempre que se cumplan las funcionalidades como se ha descrito más arriba. En otras palabras, la distribución de las funcionalidades del codificador de audio multicanal 200 a bloques individuales (por ejemplo, al proveedor de señales de mezcla descendente 220, al proveedor de parámetros 230 y al proveedor de parámetros del procedimiento de decorrelación 240) debería ser considerada sólo como un ejemplo.

40

[0058] Con respecto a la funcionalidad del codificador de audio multicanal 200, debería señalarse que una o más señales de mezcla descendente 222 y uno o más parámetros 232 se proporcionan de una manera convencional, por ejemplo, como en un codificador de audio multicanal SAOC o en un codificador de audio multicanal USAC. Sin embargo, el parámetro del procedimiento de decorrelación 242, que también es proporcionado

45 por el codificador de audio multicanal 200 y está incluido en la representación codificada 214, se puede usar para adaptar un modo de decorrelación a las señales de audio de entrada 210, 212 o a una calidad de reproducción deseada. Por consiguiente, el modo de decorrelación puede ser adaptado a diferentes tipos de contenido de audio. Por ejemplo, se pueden elegir diferentes modos de decorrelación para tipos de contenidos de audio en los que las señales de audio de entrada 210, 212 están fuertemente correlacionadas y para tipos de contenido de audio en los

50 que las señales de audio de entrada 210, 212 son independientes. Además, diferentes modos de decorrelación pueden ser señalizados, por ejemplo, por el parámetro de modo de decorrelación 242 para tipos de contenidos de audio en los que es particularmente importante una percepción espacial y para tipos de contenido de audio en los que es menos importante una impresión espacial o incluso es de importancia subordinada (por ejemplo, cuando se compara con una reproducción de canales individuales). Por consiguiente, un decodificador de audio multicanal, que

55 recibe la representación codificada 214, puede ser controlado por el codificador de audio multicanal 200, y puede ser ajustado a un modo de decodificación que trae consigo el mejor compromiso posible entre la complejidad de decodificación y la calidad de reproducción.

[0059] Además, debería señalarse que el codificador de audio multicanal 200 puede ser suplementado por

60 cualquiera de las características y funcionalidades descritas en esta invención. Debería señalarse que las posibles

características adicionales y mejoras descritas en esta invención pueden ser agregadas al codificador de audio

multicanal 200 de forma individual o en combinación, para mejorar (o aumentar) de este modo el codificador de audio multicanal 200.

3. Procedimiento para proporcionar al menos dos señales de audio de salida según la FIG. 3

5

[0060] La Figura 3 muestra un diagrama de flujo de un procedimiento 300 para proporcionar al menos dos

señales de audio de salida en base a una representación codificada. El procedimiento comprende la renderización 310 de una pluralidad de señales de audio decodificadas, que se obtienen en base a una representación codificada 312, en dependencia de uno o más parámetros de renderización, para obtener una pluralidad de señales de audio 10 renderizadas. El procedimiento 300 comprende también la derivación 320 de una o más señales de audio decorrelacionadas de las señales de audio renderizadas. El procedimiento 300 comprende también la combinación 330 de las señales de audio renderizadas, o una versión en escala de éstas, con una o más señales de audio decorrelacionadas, para obtener las señales de audio de salida 332.

15 [0061] Debería señalarse que el procedimiento 300 se basa en las mismas consideraciones que el

decodificador de audio multicanal 100 según la Figura 1. Además, debería señalarse que el procedimiento 300 puede ser suplementado por cualquiera de las características y funcionalidades descritas en esta invención (ya sea individualmente o en combinación). Por ejemplo, el procedimiento 300 puede ser suplementado por cualquiera de las características y funcionalidades descritas con respecto a los decodificadores de audio multicanal descritos en 20 esta invención.

4. Procedimiento para proporcionar una representación codificada según la FIG. 4

[0062] La Figura 4 muestra un diagrama de flujo de un procedimiento 400 para proporcionar una

25 representación codificada en base a al menos dos señales de audio de entrada. El procedimiento 400 comprende proporcionar 410 una o señales de mezcla descendente en base a al menos dos señales de audio de entrada 412. El procedimiento 400 comprende además proporcionar 420 uno o más parámetros que describen una relación entre al menos dos señales de audio de entrada 412 y proporcionar 430 un parámetro del procedimiento de decorrelación que describe qué modo de decorrelación de una pluralidad de modos de decorrelación debería usarse en el lado de 30 un decodificador de audio. Por consiguiente, se proporciona una representación codificada 432, que incluye preferentemente una representación codificada de una o más señales de mezcla descendente, uno o más parámetros que describen una relación entre al menos dos señales de audio de entrada, y el parámetro del procedimiento de decorrelación.

35 [0063] Debería señalarse que el procedimiento 400 se basa en las mismas consideraciones que las indicadas

para el codificador de audio multicanal 200 según la Figura 2, de tal modo que las explicaciones dadas más arriba también se aplican.

[0064] Además, debería señalarse que el orden de las etapas 410, 420, 430 puede variarse en forma flexible, 40 y que las etapas 410, 420, 430 también pueden ser realizadas en paralelo tanto como sea posible en un entorno de

ejecución para el procedimiento 400. Además, debería señalarse que el procedimiento 400 puede ser suplementado por cualquiera de las características y funcionalidades descritas en esta invención, ya sea individualmente o en combinación. Por ejemplo, el procedimiento 400 puede ser suplementado por cualquiera de las características y funcionalidades descritas en esta invención con respecto a los codificadores multicanal de audio. Sin embargo, 45 también es posible introducir características y funcionalidades que corresponden a las características y funcionalidades de los decodificadores de audio multicanal descritas en esta invención, que reciben la representación codificada 432.

5. Representación de audio codificada según la FIG. 5

50

[0065] La Figura 5 muestra una representación esquemática de una representación de audio codificada 500 según una realización de la presente invención.

[0066] La representación de audio codificada 500 comprende una representación codificada 510 de una 55 señal de mezcla descendente, una representación codificada 520 de uno o más parámetros que describen una

relación entre al menos dos señales de audio. Además, la representación de audio codificada 500 comprende también un parámetro del procedimiento de decorrelación codificado 530 que describe qué modo de decorrelación de una pluralidad de modos de decorrelación debería usarse en el lado de un decodificador de audio. Por consiguiente, la representación de audio codificada permite señalizar un modo de decorrelación de un codificador de 60 audio a un decodificador de audio. Por consiguiente, es posible obtener un modo de decorrelación que está bien adaptado a las características del contenido de audio (que se describe, por ejemplo, por la representación codificada

510 de una o más señales de mezcla descendente y por la representación codificada 520 de uno o más parámetros que describen una relación entre al menos dos señales de audio (por ejemplo, al menos dos señales de audio que han sido mezcladas de manera descendente en la representación codificada 510 de una o más señales de mezcla descendente)). Así, la representación de audio codificada 500 permite una renderización de un contenido de audio 5 representado por la representación de audio codificada 500 con una impresión espacial auditiva particularmente buena y/o una compensación particularmente buena entre la impresión espacial auditiva y la complejidad de decodificación.

[0067] Además, debería señalarse que la representación codificada 500 puede ser suplementada por

10 cualquiera de las características y funcionalidades descritas con respecto a los codificadores de audio multicanal y los decodificadores de audio multicanal, ya sea individualmente o en combinación.

6. Decorrelacionador Multicanal según la FIG. 6

15 [0068] La Figura 6 muestra un diagrama de bloques esquemático de un decorrelacionador multicanal 600,

según una realización de la presente invención.

[0069] El decorrelacionador multicanal 600 está configurado para recibir un primer conjunto de señales de entrada del decorrelacionador N 610a a 610n y proporcionar, en base a éstas, un segundo conjunto de señales de

20 salida del decorrelacionador N' 612a a 612n'. En otras palabras, el decorrelacionador multicanal 600 está configurado para proporcionar una pluralidad de señales decorrelacionadas (al menos aproximadamente) 612a a 612n' en base a las señales de entrada del decorrelacionador 610a a 610n.

[0070] El decorrelacionador multicanal 600 comprende un premezclador 620, que está configurado para 25 premezclar el primer conjunto de señales de entrada del decorrelacionador N 610a a 610n en un segundo conjunto

de señales de entrada del decorrelacionador K 622a a 622k, en el que K es menor que N (siendo K y N números enteros). El decorrelacionador multicanal 600 comprende también una decorrelación (o núcleo de decorrelacionador) 630, que está configurada para proporcionar un primer conjunto de señales de salida del decorrelacionador K' 632a a 632k' en base al segundo conjunto de señales de entrada del decorrelacionador K 622a a 622k. Además, el 30 decorrelacionador multicanal comprende un post-mezclador 640, que está configurado para mezclar hacia arriba el primer conjunto de señales de salida del decorrelacionador K' 632a a 632k' en un segundo conjunto de señales de salida del decorrelacionador N' 612a a 612n', en el que N' es mayor que K' (siendo N' y K' números enteros).

[0071] Sin embargo, debería señalarse que la estructura dada del decorrelacionador multicanal 600 debería 35 ser considerada como un ejemplo solamente, y que no es necesario subdividir el decorrelacionador multicanal 600

en bloques funcionales (por ejemplo, en el premezclador 620, la decorrelación o el núcleo del decorrelacionador 630 y el post-mezclador 640) siempre que se proporciona la funcionalidad descrita en esta invención.

[0072] Con respecto a la funcionalidad del decorrelacionador multicanal 600, debería señalarse además que 40 el concepto de realizar un premezclado, para derivar el segundo conjunto de señales de entrada del

decorrelacionador K del primer conjunto de señales de entrada del decorrelacionador N, y de realizar la decorrelación en base al segundo conjunto de señales de entrada del decorrelacionador K (premezcladas o “mezcladas de manera descendente”) trae consigo una reducción de una complejidad cuando se compara con un concepto en el cual se aplica la decorrelación real, por ejemplo, directamente a señales de entrada del 45 decorrelacionador N. Además, el segundo conjunto de señales de salida del decorrelacionador N' (mezclado hacia arriba) se obtiene en base al primer conjunto de señales de salida del decorrelacionador (original), que son el resultado de la decorrelación real, en base a un post-mezclado, que puede ser realizado por el mezclador hacia arriba 640. Así, el decorrelacionador multicanal 600 recibe efectivamente (cuando se ve desde fuera) señales de entrada del decorrelacionador N y proporciona, en base a éstas, señales de salida del decorrelacionador N', 50 mientras que el núcleo del decorrelacionador real 630 sólo opera en un número de señales más pequeño (a saber señales de entrada del decorrelacionador mezcladas de manera descendente K 622a a 622k del segundo conjunto de señales de entrada del decorrelacionador K). Así, la complejidad del decorrelacionador multicanal 600 puede ser sustancialmente reducida, cuando se compara con los decorrelacionadores convencionales, realizando un mezclado descendente o “premezclado” (que puede ser preferentemente un premezclado lineal sin una funcionalidad de 55 decorrelación) en un lado de entrada de la decorrelación (o núcleo del decorrelacionador) 630 y realizando el mezclado hacia arriba o “post-mezclado” (por ejemplo, un mezclado hacia arriba lineal sin una funcionalidad de decorrelación adicional) en base a las señales de salida (originales) 632a a 632k' de la decorrelación (núcleo del decorrelacionador) 630.

60 [0073] Además, debería señalarse que el decorrelacionador multicanal 600 puede ser suplementado por

cualquiera de las características y funcionalidades descritas en esta invención con respecto a la decorrelación

multicanal y también con respecto a los decodificadores de audio multicanal. Debería señalarse que las características descritas en esta invención se pueden agregar al decorrelacionador multicanal 600 ya sea individualmente o en combinación, para mejorar o aumentar de este modo el decorrelacionador multicanal 600.

5 [0074] Debería señalarse que un decorrelacionador multicanal sin reducción de complejidad puede derivarse

del decorrelacionador multicanal descrito más arriba para K=N (y posiblemente K'=N' o incluso K=N=K'=N').

7. Decodificador de audio multicanal según la FIG. 7

10 [0075] La Figura 7 muestra un diagrama de bloques esquemático de un decodificador de audio multicanal

700, según una realización de la invención.

[0076] El decodificador de audio multicanal 700 está configurado para recibir una representación codificada 710 y para proporcionar, en base a ésta, al menos dos señales de salida 712, 714. El decodificador de audio

15 multicanal 700 comprende un decorrelacionador multicanal 720, que puede ser sustancialmente idéntico al decorrelacionador multicanal 600 según la Figura 6. Además, el decodificador de audio multicanal 700 puede comprender cualquiera de las características y funcionalidades de un decodificador de audio multicanal que son conocidas por el experto en la técnica o que se describen en esta invención con respecto a otros decodificadores de audio multicanal.

20

[0077] Además, debería señalarse que el decodificador de audio multicanal 700 comprende una eficiencia particularmente alta cuando se compara con decodificadores convencionales de audio multicanal, ya que el decodificador de audio multicanal 700 usa el decorrelacionador multicanal de alta eficacia 720.

25 8. Codificador de audio multicanal según la FIG. 8

[0078] La Figura 8 muestra un diagrama de bloques esquemático de un codificador de audio multicanal 800 según una realización de la presente invención. El codificador de audio multicanal 800 está configurado para recibir al menos dos señales de audio de entrada 810, 812 y para proporcionar, en base a éstas, una representación

30 codificada 814 de un contenido de audio representado por las señales de audio de entrada 810, 812.

[0079] El codificador de audio multicanal 800 comprende un proveedor de señales de mezcla descendente 820, que está configurado para proporcionar una o más señales de mezcla descendente 822 en base a al menos dos señales de audio de entrada 810, 812. El codificador de audio multicanal 800 comprende también un proveedor

35 de parámetros 830 que está configurado para proporcionar uno o más parámetros 832 (por ejemplo, parámetros de correlación cruzada o parámetros de covarianza cruzada, o parámetros de correlación entre objetos y/o parámetros de diferencia de nivel de objetos) en base a las señales de audio de entrada 810,812. Además, el codificador de audio multicanal 800 comprende un parámetro de complejidad de decorrelación 840 que está configurado para proporcionar un parámetro de complejidad de decorrelación 842 que describe una complejidad de una decorrelación 40 que se va a utilizar en el lado de un decodificador de audio (que recibe la representación codificada 814). Una o más señales de mezcla descendente 822, uno o más parámetros 832 y el parámetro de complejidad de decorrelación 842 están incluidos en la representación codificada 814, preferentemente en una forma codificada.

[0080] Sin embargo, debería señalarse que la estructura interna del codificador de audio multicanal 800 (por 45 ejemplo, la presencia del proveedor de señales de mezcla descendente 820, del proveedor de parámetros 830 y del

proveedor de parámetros de complejidad de decorrelación 840) debería ser considerado como un ejemplo solamente. Diferentes estructuras son posibles, siempre que se logre la funcionalidad descrita en esta invención.

[0081] Con respecto a la funcionalidad del codificador de audio multicanal 800, debería señalarse que el 50 codificador multicanal proporciona una representación codificada 814, en la que una o más señales de mezcla

descendente 822 y uno o más parámetros 832 pueden ser similares a, o iguales a, señales de mezcla descendente y parámetros proporcionados por codificadores de audio convencionales (como, por ejemplo, codificadores de audio SAOC convencionales o codificadores de audio USAC). Sin embargo, el codificador de audio multicanal 800 también está configurado para proporcionar el parámetro de complejidad de decorrelación 842, que permite determinar una 55 complejidad de decorrelación que se aplica al lado de un decodificador de audio. Por consiguiente, la complejidad de decorrelación puede ser adaptada a un contenido de audio que es codificado actualmente. Por ejemplo, es posible señalizar una complejidad de decorrelación deseada, que corresponde a una calidad de audio alcanzable, en dependencia de un conocimiento del lado del codificador con respecto a las características de las señales de audio de entrada. Por ejemplo, si se encuentra que las características espaciales son importantes para una señal de audio, 60 se puede señalizar una mayor complejidad de decorrelación, mediante el uso del parámetro de complejidad de decorrelación 842, cuando se compara con un caso en el cual las características espaciales no son tan importantes.

Alternativamente, el uso de una alta complejidad de decorrelación puede ser señalizado mediante el uso del parámetro de complejidad de decorrelación 842, si se encuentra que un pasaje del contenido de audio o todo el contenido de audio es tal que se requiere una alta complejidad de decorrelación en un lado de un decodificador de audio por otras razones.

5

[0082] Para resumir, el codificador de audio multicanal 800 proporciona la posibilidad de controlar un decodificador de audio multicanal, para usar una complejidad de decorrelación que está adaptada a las características de señales o las características de reproducción deseadas que pueden ser ajustadas por el codificador de audio multicanal 800.

10

[0083] Además, debería señalarse que el codificador de audio multicanal 800 puede ser suplementado por cualquiera de las características y funcionalidades descritas en esta invención con respecto a un codificador de audio multicanal, ya sea individualmente o en combinación. Por ejemplo, algunas o todas las características descritas en esta invención con respecto a codificadores de audio multicanal pueden ser agregadas al codificador de

15 audio multicanal 800. Además, el codificador de audio multicanal 800 puede ser adaptado para cooperación con los decodificadores de audio multicanal descritos en esta invención.

9. Procedimiento para proporcionar una pluralidad de señales decorrelacionadas en base a una pluralidad de señales de entrada del decorrelacionador, según la FIG. 9

20

[0084] La Figura 9 muestra un diagrama de flujo de un procedimiento 900 para proporcionar una pluralidad de señales decorrelacionadas en base a una pluralidad de señales de entrada del decorrelacionador.

[0085] El procedimiento 900 comprende el premezclado 910 de un primer conjunto de señales de entrada del 25 decorrelacionador N en un segundo conjunto de señales de entrada del decorrelacionador K, en el que K es menor

que N. El procedimiento 900 también comprende proporcionar 920 un primer conjunto de señales de salida del decorrelacionador K' en base al segundo conjunto de señales de entrada del decorrelacionador K. Por ejemplo, el primer conjunto de señales de salida del decorrelacionador K' puede ser proporcionado en base al segundo conjunto de señales de entrada del decorrelacionador K mediante el uso de una decorrelación, lo que se puede realizar, por 30 ejemplo, mediante el uso de un núcleo de decorrelacionador o mediante el uso de un algoritmo de decorrelación. El procedimiento 900 comprende además el post-mezclado 930 del primer conjunto de señales de salida del decorrelacionador K' en un segundo conjunto a señales de salida del decorrelacionador N', en el que N' es mayor que K' (siendo N' y K' número enteros). Por consiguiente, el segundo conjunto de señales de salida del decorrelacionador N', que son la salida del procedimiento 900, puede ser proporcionado en base al primer conjunto 35 de señales de entrada del decorrelacionador N, que son la entrada al procedimiento 900.

[0086] Debería señalarse que el procedimiento 900 se basa en las mismas consideraciones que las indicadas para el decorrelacionador multicanal descrito más arriba. Además, debería señalarse que el procedimiento 900 puede ser suplementado por cualquiera de las características y funcionalidades descritas en esta invención con

40 respecto al decorrelacionador multicanal (y también con respecto al codificador de audio multicanal, si es aplicable), ya sea individualmente o en combinación.

10. Procedimiento para proporcionar al menos dos señales de audio de salida en base a una representación codificada, según la FIG. 10

45

[0087] La Figura 10 muestra un diagrama de flujo de un procedimiento 1000 para proporcionar al menos dos señales de audio de salida en base a una representación codificada.

[0088] El procedimiento 1000 comprende proporcionar 1010 al menos dos señales de audio de salida 1014, 50 1016 en base a una representación codificada 1012. El procedimiento 1000 comprende proporcionar 1020 una

pluralidad de señales decorrelacionadas en base a una pluralidad de señales de entrada del decorrelacionador según el procedimiento 900 según la Figura 9.

[0089] Debería señalarse que el procedimiento 1000 se basa en las mismas consideraciones que las 55 indicadas para el decodificador de audio multicanal 700 según la Figura 7.

[0090] Además, debería señalarse que el procedimiento 1000 puede ser suplementado por cualquiera de las características y funcionalidades descritas en esta invención con respecto a los decodificadores multicanal, ya sea individualmente o en combinación.

60

11. Procedimiento para proporcionar una representación codificada en base a al menos dos señales de

audio de entrada, según la FIG. 11

[0091] La Figura 11 muestra un diagrama de flujo de un procedimiento 1100 para proporcionar una representación codificada en base a al menos dos señales de audio de entrada.

5

[0092] El procedimiento 1100 comprende proporcionar 1110 una o señales de mezcla descendente en base a al menos dos señales de audio de entrada 1112, 1114. El procedimiento 1100 también comprende proporcionar 1120 uno o más parámetros que describen una relación entre al menos dos señales de audio de entrada 1112, 1114. Además, el procedimiento 1100 comprende proporcionar 1130 un parámetro de complejidad de decorrelación

10 que describe una complejidad de una decorrelación que se va a utilizar en el lado de un decodificador de audio. Por consiguiente, se proporciona una representación codificada 1132 en base a al menos dos señales de audio de entrada 1112, 1114, en las que la representación codificada comprende típicamente una o más señales de mezcla descendente, uno o más parámetros que describen una relación entre al menos dos señales de audio de entrada y el parámetro de complejidad de decorrelación en una forma codificada.

15

[0093] Debería señalarse que las etapas 1110, 1120, 1130 pueden ser realizadas en paralelo o en un orden diferente en algunas realizaciones según la invención. Además, debería señalarse que el procedimiento 1100 se basa en las mismas consideraciones que las indicadas para el codificador de audio multicanal 800 según la Figura 8, y que el procedimiento 1100 puede ser suplementado por cualquiera de las características y funcionalidades

20 descritas en esta invención con respecto al codificador de audio multicanal, o bien en combinación o individualmente. Además, debería señalarse que el procedimiento 1100 puede ser adaptado para adaptar el decodificador de audio multicanal y el procedimiento para proporcionar al menos dos señales de audio de salida descritas en esta invención.

25 12. Representación de audio codificada según la FIG. 12

[0094] La Figura 12 muestra una representación esquemática de una representación de audio codificada, según una realización de la presente invención. La representación de audio codificada 1200 comprende una representación codificada 1210 de una señal de mezcla descendente, una representación codificada 1220 de uno o

30 más parámetros que describen una relación entre al menos dos señales de audio de entrada, y un parámetro de complejidad de decorrelación codificado 1230 que describe un complejidad de una decorrelación que se va a utilizar en el lado de un decodificador de audio. Por consiguiente, la representación de audio codificada 1200 permite ajustar la complejidad de decorrelación usada por un decodificador de audio multicanal, que trae consigo una eficacia de decodificación mejorada, y una posible calidad de audio mejorada, o una compensación mejorada entre

35 la eficacia de codificación y la calidad de audio. Además, debería señalarse que la representación de audio codificada 1200 puede ser proporcionada por el codificador de audio multicanal como se ha descrito en esta invención, y puede ser usada por el decodificador de audio multicanal como se ha descrito en esta invención. Por consiguiente, la representación de audio codificada 1200 puede ser suplementada por cualquiera de las características descritas con respecto a los codificadores de audio multicanal y con respecto a los decodificadores

40 de audio multicanal.

13. Notación y consideraciones subyacentes

[0095] Recientemente se han propuesto técnicas paramétricas para la transmisión/almacenamiento eficiente

45 de índice de bits de escenas de audio que contienen múltiples objetos de audio en el campo de la codificación de

audio (véanse, por ejemplo, las referencias [BCC], [JSC], [SAOC], [SAOC1], [SAOC2]) y separación de fuentes informada (véanse, por ejemplo, las referencias [ISS1], [ISS2], [ISS3], [ISS4], [iSs5], [IsS6]). Estas técnicas tienen como objetivo reconstruir una escena de audio de salida deseada o un objeto de fuente de audio en base a información lateral adicional que describe la escena de audio transmitida/almacenada y/u objetos de fuente en la

50 escena de audio. Esta reconstrucción se produce en el decodificador mediante el uso de un esquema de separación de fuentes informadas paramétrica. Además, también se hace referencia al concepto así llamado “sonido envolvente de MPEG”, que se describe, por ejemplo, en la norma internacional ISO/IEC 23003-1:2007. Además, también se hace referencia a la así llamada “codificación de objetos de audio espacial” que se describe en la norma internacional ISO/IEC 23003-2:2010. Además, se hace referencia al concepto así llamado de “codificación de audio

55 y voz unificada”, que se describe en la norma internacional ISO/IEC 23003-3:2012. Los conceptos de estas normas se pueden usar en realizaciones según la invención, por ejemplo, en los codificadores de audio multicanal mencionados en esta invención y los decodificadores de audio multicanal mencionados en esta invención, en los que se pueden requerir algunas adaptaciones.

60 [0096] A continuación se describirá alguna información de antecedentes. En particular, se proporcionará una

vista general de esquemas de separación paramétrica, mediante el uso del ejemplo de la tecnología de codificación

de objetos de audio espacial de (SAOC) de MPEG (véase, por ejemplo, la referencia [SAOC]). Se consideran las propiedades matemáticas de este procedimiento.

13.1. Notación y Definiciones

5

[0097]: La siguiente notación matemática se aplica al documento actual:

NObjetos: número de señales de objetos de audio

NN DmxCh 10 V UpmixCh N Muestras: número de canales de mezcla descendente (procesados) número de canales de mezcla ascendente (salida) número de muestras de datos procesados

D: N X N matriz de mezclado descendente, tamaño DmxCh Objetos

X E: señal de objeto de audio de entrada, tamaño ^Objetos X NMuestras N x N E _ XXH matriz de covarianza del objeto, tamaño Objetos Objetos definida como X

15 Y: N x N señal de audio de mezcla descendente, tamaño DmxCh Muestras definida como Y = D X

E G: matriz de covarianza de las señales de mezcla descendente, tamaño N DmxCh x N DmxCh d fi id Ey - YYH definida como Y matriz de estimación de fuente paramétrica, tamaño N<ObJetos X NDmxCh que se aproxima a

20: EX Dh (DEx Dh )-1

X: señal de objeto paramétricamente reconstruida, tamaño NObJetos XNMuestras que se aproxima a X y definida como X = G Y

R: matriz de renderización (especificada en el lado del decodificador), tamaño NUpmixCh X NObjetos

25 Z: señal de escena de salida renderizada ideal, tamaño ^UpmiixCh'N'Muestms definida como Z = R X

Z C: salida paramétrica renderizada, tamaño ^Upmi:xCh<'NMuestras definida como Z = r X matriz de covarianza de salida ideal, tamaño N UmCh x N Up-xCh definida como C = REX Rh

£ O co: salidas del decorrelacionador, tamaño N,JpmixClhX NMuestras

S: S - íZ1 2N X N señal combinada M, tamaño UpmixCh Muestras

E s: 2N X 2N matriz de covarianza de señal combinada, tamaño UpmixCh UpmixCh definida como Ey - SSH

Z 35 ( )H: salida final, tamaño NUpmixChXNMuestras operador autoadjunto (hermítico) que representa el traspuesto conjugado complejo de(). También se puede usar la notación .

F (■) decorr \ ): función del decorrelacionador

e es una constante aditiva o una constante de limitación (por ejemplo, usada en una

operación “máxima” o una operación “máx”) para evitar la división por cero H = matdiag (M ) es una matriz que contiene los elementos de la diagonal principal de la matriz Men la diagonal principal y valores cero en las posiciones fuera de la diagonal.

[0098] Sin perder la generalidad, para mejorar la legibilidad de las ecuaciones, para todas las variables

introducidas los índices que denotan dependencia de tiempo y frecuencia se omiten en este documento.

13.2. Sistemas de Separación Paramétrica

10

[0099] Los sistemas de separación paramétrica generales tienen como objetivo calcular un número de

fuentes de audio de una mezcla de señales (mezcla descendente) mediante el uso de información de parámetros auxiliar (como, por ejemplo, valores de correlación de intercanales, valores de diferencia de nivel de intercanales, valores de correlación interobjetos y/o información de diferencia de nivel de objetos). Una solución típica de esta 15 tarea se basa en la aplicación de los algoritmos de cálculo del mínimo error cuadrático medio (MMSE). La tecnología SAOC es un ejemplo de tales sistemas de codificación/decodificación de audio paramétricos.

[0100] La Figura 13 muestra el principio general de la arquitectura codificador/decodificador de SAOC. En

otras palabras, la Figura 13 muestra, en la forma de un diagrama de bloques esquemático, una vista general del 20 concepto de mezcla descendente/mezcla ascendente paramétrica basada en MMSE.

[0101] Un codificador 1310 recibe una pluralidad de señales de objetos 1312a, 1312b a 1312n. Además, el

codificador 1310 también recibe parámetros de mezclado D, 1314, que pueden ser, por ejemplo, parámetros de mezcla descendente. El codificador 1310 proporciona, en base a estos, una o más señales de mezcla descendente 25 1316a, 1316b, y así sucesivamente. Además, el codificador proporciona una información lateral 1318. Una o más señales de mezcla descendente y la información lateral pueden ser proporcionadas, por ejemplo, en una forma codificada.

[0102] El codificador 1310 comprende un mezclador 1320, que está configurado típicamente para recibir las

30 señales de objetos 1312a a 1312n y para combinar (por ejemplo mezclar de manera descendente) las señales de objetos 1312a a 1312n en una o más señales de mezcla descendente 1316a, 1316b en dependencia de los parámetros de mezclado 1314. Además, el codificador comprende un estimador de información lateral 1330, que está configurado para derivar la información lateral 1318 de las señales de objetos 1312a a 1312n. Por ejemplo, el estimador de información lateral 1330 puede ser configurado para derivar la información lateral 1318 de tal modo 35 que la información lateral describe una relación entre señales de objetos, por ejemplo, una correlación cruzada entre las señales de objetos (que puede ser denominada “correlación interobjetos” IOC) y/o una información que describe diferencias de nivel entre las señales de objetos (que pueden ser denominadas “información de diferencia de nivel de objetos” OLD).

40 [0103] Una o más señales de mezcla descendente 1316a, 1316b y la información lateral 1318 pueden ser

almacenadas y/o transmitidas a un decodificador 1350, que es indicado con el número de referencia 1340.

[0104] El decodificador 1350 recibe una o más señales de objeto 1316a, 1316b y la información lateral 1318 (por ejemplo, en una forma codificada) y proporciona, en base a éstas, una pluralidad de señales de audio de salida

45 1352a a 1352n. El decodificador 1350 también puede recibir una información de interacción del usuario 1354, que puede comprender uno o más parámetros de representación R (que pueden definir una matriz de representación). El decodificador 1350 comprende un separador de objetos paramétrico 1360, un procesador de información lateral 1370 y un representador 1380. El procesador de información lateral 1370 recibe la información lateral 1318 y proporciona, en base a ésta, una información de control 1372 para el separador de objetos paramétrico 1360. El 50 separador de objetos paramétrico 1360 proporciona una pluralidad de señales de objetos 1362a a 1362n en base a las señales de mezcla descendente 1360a, 1360b y la información de control 1372, que se deriva de la información lateral 1318 por el procesador de información lateral 1370. Por ejemplo, el separador de objetos puede realizar una decodificación de las señales de mezcla descendente codificadas y una separación de objetos. El representador 1380 representa las señales de objetos reconstruidas 1362a a 1362n, para obtener de este modo las señales de 55 audio de salida 1352a a 1352n.

[0105] A continuación, se comentará la funcionalidad del concepto de mezcla descendente/mezcla ascendente de parámetros basado en MMSE.

60 [0106] El procesamiento general de mezcla descendente/mezcla ascendente paramétrica es llevado a cabo

de una manera selectiva de tiempo/frecuencia y puede ser descrito como una secuencia de las siguientes etapas:

• El “codificador” 1310 está provisto de “objetos de audio” de entrada X y “parámetros de mezclado” D. El “mezclador” 1320 mezcla descendente los “objetos de audio” X en un número de “señales de mezcla descendente” Y mediante el uso de “parámetros de mezclado” D (por ejemplo, ganancias de mezcla descendente). El “estimador

5 de información lateral” extrae la información lateral 1318 que describe características de los “objetos de audio” de entrada X (por ejemplo, propiedades de covarianza).

• Las “señales de mezcla descendente” Y y la información lateral son transmitidas o almacenadas. Estas señales de audio de mezcla descendente pueden ser comprimidas adicionalmente mediante el uso de codificadores de audio (tales como MPEG-1/2 Capas II o III, MPEG-2/4 Codificación avanzada de audio (AAC), MPEG Codificación

10 unificada de voz y audio (USAC), etc.). La información lateral también puede ser representada y codificada eficientemente (por ejemplo, como relaciones codificadas sin pérdida de las potencias de objetos y los coeficientes de correlación de objetos).

• El “decodificador” 1350 restaura los “objetos de audio” originales de las “señales de mezcla descendente” decodificadas mediante el uso de la información lateral transmitida 1318. El “procesador de información lateral” 1370

15 estima los coeficientes de no mezclado 1372 que se van a aplicar en las “señales de mezcla descendente” dentro del “separador de objetos paramétrico” 1360 para obtener la reconstrucción de objetos paramétrica de X. Los “objetos de audio” reconstruidos 1362a a 1362n son renderizados a una escena objetivo (multicanal), representada por los canales de salida z , aplicando “parámetros de renderización” R, 1354.

20 [0107] Además, debería señalarse que las funcionalidades descritas con respecto al codificador 1310 y al

decodificador 1350 se pueden usar en los otros codificadores de audio y decodificadores de audio descritos también en esta invención.

13.3. Principio de ortogonalidad de la estimación del mínimo error cuadrático medio

25

[0108] El principio de ortogonalidad es una propiedad principal de los estimadores del MMSE. Considerar dos espacios de Hilbert Wy V , con V generado por un conjunto de vectores y, y un vector * e W . Si se desea hallar un estimado *e V que se aproximará a * como una combinación lineal de los vectores V , mientras minimiza el error cuadrático medio, entonces el vector de error será ortogonal en el espacio generado por los vectores y:

30

(* - *)*H = 0 (* - *)yH = 0

[0109] Como consecuencia, el error de estimación y el estimado propiamente dicho son ortogonales.

35

[0110] Geométricamente se podría visualizar esto por los ejemplos mostrados en la Figura 14.

[0111] La Figura 14 muestra una representación geométrica del principio de ortogonalidad en el espacio 40 tridimensional. Como se puede ver, un espacio vectorial es generado por los vectores yi, y2. Un vector x es igual a

una suma de un vector * y un vector de diferencia (o vector de error) e. Como se puede ver, el vector de error e es ortogonal con respecto al espacio vectorial (o plano) V generado por los vectores yi y y2.

[0112] Por consiguiente, el vector * puede ser considerado como una mejor aproximación de x dentro del 45 espacio vectorial V.

13.4. Error de Reconstrucción Paramétrica

imagen1

XError

[0113] Definiendo una matriz que comprende señales N: X y denotando el error de estimación con E'°', se

50 pueden formular las siguientes identidades. La señal original puede ser representada como una suma de la

reconstrucción paramétrica x y el error de reconstrucción

como:

X

E

imagen2

55 [0114]

Debido al principio de ortogonalidad, la matriz de covarianza de las señales originales

E x = XXH

puede ser formulada como una suma de la matriz de covarianza de las señales reconstruidas x X H y la matriz de

X XH

covarianza de los errores de estimación Error Error como:

imagen3

5

[0115] Cuando los objetos de entrada X no están en el espacio generado por los canales de mezcla descendente (por ejemplo, el número de canales de mezcla descendente es menor que el número de señales de entrada) y los objetos de entrada no pueden ser representados como combinaciones lineales de los canales de

X XH

mezcla descendente, los algoritmos basados en el MMSE introducen la inexactitud de reconstrucción Error Error.

10

13.5. Correlación interobjetos

[0116] En el sistema auditivo, la covarianza cruzada (coherencia/correlación) está estrechamente relacionada con la percepción de envolvente, de estar rodeado por el sonido, y con el ancho percibido de una fuente de sonido.

15 Por ejemplo en los sistemas basados en SAOC los parámetros de correlación interobjetos (IOC) se usan para la caracterización de esta propiedad:

imagen4

20 [0117] Consideremos un ejemplo de reproducción de una fuente de sonido mediante el uso de dos señales

de audio. Si el valor de IOC es cercano a uno, el sonido es percibido como una fuente puntual bien localizada. Si el valor de IOC es cercano a cero, el ancho percibido de la fuente de sonido aumenta y para casos extremos incluso puede ser percibido como dos fuentes distintas [Blauert, Capítulo 3].

25 13.6. Compensación de la inexactitud de reconstrucción

[0118] En el caso de una reconstrucción paramétrica imperfecta, la señal de salida puede presentar una energía menor en comparación con los objetos originales. El error en los elementos diagonales de la matriz de covarianza puede dar como resultado diferencias de nivel audibles y error en los elementos fuera de la diagonal en

30 una imagen de sonido espacial distorsionada (comparada con la salida de referencia ideal). El procedimiento propuesto tiene el propósito de resolver este problema.

[0119] En el sonido envolvente de MPEG (MPS), por ejemplo, este tema es tratado sólo para algunos escenarios de procesamiento basados en canales específicos, a saber, para configuraciones de salida de estática

35 limitada y de mezcla descendente mono/estéreo (por ejemplo, mono, estéreo, 5.1, 7.1, etc). En tecnologías orientadas a objetos, como SAOC, que también usa la mezcla descendente mono/estéreo este problema es tratado aplicando el renderizado post-procesamiento de MPS para la configuración de salida 5.1 solamente.

[0120] Las soluciones existentes están limitadas a configuraciones de salida estándar y a un número fijo de 40 canales de entrada/salida. A saber, son entendidos como una aplicación consecuente de varios bloques

implementando sólo procedimientos de decorrelación de canales “mono a estéreo” (o “estéreo a tres”).

[0121] Por lo tanto, se desea una solución general (por ejemplo, procedimiento de corrección de propiedades de correlación y nivel de energía) para la compensación de la inexactitud de la reconstrucción paramétrica, que

45 puede ser aplicada para un número flexible de canales de mezcla descendente/salida y ajustes de configuraciones de salida arbitrarios.

13.7. Conclusiones

50 [0122] Para concluir, se ha proporcionado una vista general de la notación. Además, se ha descrito un

sistema de separación paramétrica en el cual se basan las realizaciones según la invención. Además, se ha indicado que el principio de ortogonalidad se aplica a una estimación del mínimo error cuadrático medio. Además, se ha proporcionado una ecuación para la computación de una matriz de covarianza EX que se aplica en la presencia de un error de reconstrucción XError. Además, se ha proporcionado la relación entre los así llamados valores de 5 correlación interobjetos y los elementos de una matriz de covarianza EX, que puede ser aplicada, por ejemplo, en realizaciones según la invención para derivar características de covarianza deseadas (o características de correlación) de los valores de correlación interobjetos (que pueden ser incluidos en la información lateral paramétrica), y posiblemente forman las diferencias de nivel de los objetos. Además, se ha indicado que las características de las señales de objetos reconstruidas pueden diferir de las características deseadas debido a una 10 reconstrucción imperfecta. Además, se ha indicado que las soluciones existentes para tratar con el problema están limitadas a algunas configuraciones de salida específicas y se basan en una combinación específica de bloques estándar, que hace que las soluciones convencionales sean inflexibles.

14. Realización según la FIG. 15

15

14.1. Vista general del concepto

[0123] Las realizaciones según la invención extienden los procedimientos de reconstrucción paramétrica de MMSE usados en los esquemas de separación de audio paramétricos con una solución de decorrelación para un

20 número arbitrario de canales de mezcla descendente/mezcla ascendente. Las realizaciones según la invención, como, por ejemplo, el aparato de la invención y el procedimiento de la invención, pueden compensar la pérdida de energía durante una reconstrucción paramétrica y restaurar las propiedades de correlación de los objetos estimados.

[0124] La Figura 15 proporciona una vista general del concepto paramétrico de mezcla descendente/mezcla 25 ascendente con un camino de decorrelación integrado. En otras palabras, la Figura 15 muestra, en la forma de un

diagrama de bloques esquemático, un sistema de reconstrucción paramétrica con decorrelación aplicada en la salida renderizada.

[0125] El sistema según la Figura 15 comprende un codificador 1510, que es sustancialmente idéntico al 30 codificador 1310 según la Figura 13. El codificador 1510 recibe una pluralidad de señales de objetos 1512a a 1512n,

y proporciona en base a éstas, una o más señales de mezcla descendente 1516a, 1516b, así como una información lateral 1518. Las señales de mezcla descendente 1516a, 1515b pueden ser sustancialmente idénticas a las señales de mezcla descendente 1316a, 1316b y pueden ser designadas con Y. La información lateral 1518 puede ser sustancialmente idéntica a la información lateral 1318. Sin embargo, la información lateral puede comprender, por 35 ejemplo, un parámetro de modo de decorrelación o un parámetro de procedimiento de decorrelación, o un parámetro de complejidad de decorrelación. Además, el codificador 1510 puede recibir parámetros de mezclado 1514.

[0126] El sistema de reconstrucción paramétrica también comprende una transmisión y/o un almacenamiento de una o más señales de mezcla descendente 1516a, 1516b y de la información lateral 1518, en el que la

40 transmisión y/o el almacenamiento es designado con 1540, y en el que una o más señales de mezcla descendente 1516a, 1516b y la información lateral 1518 (que puede incluir la información lateral paramétrica) pueden ser codificadas.

[0127] Además, el sistema de reconstrucción paramétrica según la Figura 15 comprende un decodificador 45 1550, que está configurado para recibir una o más señales de mezcla descendente 1516a, 1516b (posiblemente

codificadas) transmitidas o almacenadas y la información lateral 1518 (posiblemente codificada) transmitida o almacenada y proporcionar, en base a éstas, señales de audio de salida 1552a a 1552n. El decodificador 1550 (que puede ser considerado como un decodificador de audio multicanal) comprende un separador de objetos paramétrico 1560 y un procesador de información lateral 1570. Además, el decodificador 1550 comprende un renderizador 1580, 50 un decorrelacionador 1590 y un mezclador 1598.

[0128] El separador de objetos paramétrico 1560 está configurado para recibir una o más señales de mezcla descendente 1516a, 1516b y una información de control 1572, que es proporcionada por el procesador de información lateral 1570 en base a la información lateral 1518, y para proporcionar, en base a ésta, señales de

55 objetos 1562a a 1562n, que también están designadas con x , y que pueden ser consideradas como señales de audio decodificadas. La información de control 1572 puede comprender, por ejemplo, coeficientes de desmezclado que se van a aplicar a las señales de mezcla descendente (por ejemplo, las señales de mezcla descendente decodificadas derivadas de las señales de mezcla descendente codificadas 1516a, 1516b) dentro del separador de objetos paramétrico para obtener señales de objetos reconstruidas (por ejemplo, las señales de audio decodificadas 60 1562a a 1562n). El renderizador 1580 renderiza las señales de audio decodificadas 1562a a 1562n (que pueden ser señales de objetos reconstruidas, y que pueden corresponder, por ejemplo, a las señales de objetos de entrada

1512a a 1512n), para obtener de este modo una pluralidad de señales de audio renderizadas 1582a a 1582n. Por ejemplo, el renderizador 1580 puede considerar renderizar los parámetros R, que pueden ser proporcionados, por ejemplo, por la interacción del usuario y que pueden definir, por ejemplo, una matriz de renderizado. Sin embargo, alternativamente, los parámetros de renderizado pueden ser tomados de la representación codificada (que puede 5 incluir las señales de mezcla descendente codificadas 1516a, 1516b y la información lateral codificada 1518).

[0129] El decorrelacionador 1590 está configurado para recibir las señales de audio renderizadas 1582a a

1582n y para proporcionar, en base a éstas, señales de audio decorrelacionadas 1592a a 1592n, que también son designadas con W. El mezclador 1598 recibe las señales de audio renderizadas 1582a a 1582n y las señales de 10 audio decorrelacionadas 1592a a 1592n, y combina las señales de audio renderizadas 1582a a 1582n y las señales de audio decorrelacionadas 1592a a 1592n, para obtener de este modo las señales de audio de salida 1552a a 1552n. El mezclador 1598 también puede usar información de control 1574 que es derivada por el procesador de información lateral 1570 de la información lateral codificada 1518, como se describirá más abajo.

15 14.2. Función del Decorrelacionador

[0130] A continuación se describirán algunos detalles con respecto al decorrelacionador 1590. Sin embargo,

debería señalarse que se pueden usar diferentes conceptos de decorrelacionador, algunos de los cuales se describirán más abajo.

w = F, (z)

20 [0131] En una realización, la función del decorrelacionador aecorr\ / proporciona una señal de salida

w que es ortogonal a la señal de entrada z (E{wz } 0). La señal de salida w tiene propiedades envolventes

espectrales y temporales iguales (a la señal de entrada z) (o al menos propiedades similares). Además, la señal w es percibida de forma similar y tiene la misma calidad subjetiva (o similar) que la señal de entrada z (ver, por ejemplo, [SAOC2]).

25

[0132]

En el caso de múltiples señales de entrada, es beneficioso si la función de decorrelación produce

W = F (Z )

múltiples salidas que son mutuamente ortogonales (es decir, 1 decorr\ u , de tal modo que

wzH = o

1 J

para

todos 1 y J , y

wwH = o

1 J

para 1 * J).

30 [0133] La especificación exacta para la implementación de la función de decorrelacionador está fuera del

alcance de esta descripción. Por ejemplo, el banco de varios decorrelacionadores basados en filtros de respuesta al impulso infinita (IIR) especificados en el estándar de sonido envolvente de MPEG puede ser utilizado para propósitos de decorrelación [MPS].

35 [0134] Los decorrelacionadores genéricos descritos en esta descripción se supone que son ideales. Esto

implica que (además de los requisitos perceptuales) la salida de cada decorrelacionador es ortogonal en su entrada

E = ZZH

y en la salida de todos los otros decorrelacionadores. Por lo tanto, para la entrada dada Z con covarianza Z y salida W = F‘e.orr(Z ) valen las siguientes propiedades de matrices de covarianza:

40

[0135] De estas relaciones, se desprende que:

(Z + W)(Z + W)" = E ■ + ZWH + W ZH +EW = E- + EW

45

[0136] La salida del decorrelacionador W puede ser usada para compensar la inexactitud de predicción en un estimador de MMSE (recordando que el error de predicción es ortogonal con respecto a las señales predichas) mediante el uso de las señales predichas como las entradas.

50 [0137] Se debería señalar además que los errores de predicción no son en el caso general ortogonales entre

sí. Así, un objetivo del concepto de la invención (por ejemplo, el procedimiento) es crear una mezcla de la señal “seca” (es decir, la entrada del decorrelacionador) (por ejemplo, señales de audio renderizadas 1582a a 1582n) y

imagen5

una señal “húmeda” (es decir, salida del decorrelacionador) (por ejemplo, señales de audio decorrelacionadas 1592a a 1592n), de tal modo que la matriz de covarianza de la mezcla resultante (por ejemplo, señales de audio de salida 1552a a 1552n) se vuelve similar a la matriz de covarianza de la salida deseada.

5 [0138] Además, debería señalarse que se puede usar una reducción de complejidad para la unidad de

decorrelación, que será descrita en detalle más abajo, y que puede traer consigo algunas imperfecciones de la señal decorrelacionada, que pueden ser, sin embargo, aceptables.

14.3. Corrección de la covarianza de salida mediante el uso de señales decorrelacionadas

10

[0139] A continuación, se describirá un concepto para ajustar las características de covarianza de las señales

de audio de salida 1552a a 1552n para obtener una impresión auditiva razonablemente buena.

[0140] El procedimiento propuesto para la corrección del error de la covarianza de salida compone la señal 15 de salidaz (por ejemplo, las señales de audio de salida 1552a a 1552n) como una suma ponderada de la señal

paramétricamente reconstruida z (por ejemplo, las señales de audio renderizadas 1582a a 1582n) y su parte decorrelacionada W. Esta suma puede ser representada del siguiente modo:

Z = PZ + MW.

20

[0141] Sin embargo, cabe señalar que esta ecuación puede ser considerada una formulación más general. Se puede aplicar opcionalmente un cambio a la fórmula anterior que es válido (o que se puede hacer) para todos los “procedimientos simplificados” descritos en esta invención.

25 [0142]

Las matrices de mezclado P aplicadas a la señal directa z y M aplicadas a la señal decorrelacionada

N NUpmixCh

Nr,

W tienen la siguiente estructura (con upmixch, en la que UpmixCh designa un número de señales de audio

renderizadas, que puede ser igual a un número de señales de audio de salida):

imagen6

30

[0143] Aplicando la notación para la matriz combinadaF = [P M ]y la señal LWJ da:

Z = FS.

35 [0144] Alternativamente, sin embargo, la ecuación

imagen7

se puede aplicar tal como se describirá con más detalle a continuación.

40

E

[0145] Mediante el uso de esta representación, la matriz de covarianza z de la señal de salida z es definida

como:

imagen8

[0146]

La covarianza objetivo C de la escena de salida renderizada creada idealmente es definida como:

C = REX R

H

E-

[0147] La matriz de mezclado F es computada de tal modo que la matriz de covarianza - de la salida final

se aproxima, o es igual, a la covarianza objetivo C como:

E¿ * C

10

[0148] La matriz de mezclado F es computada, por ejemplo, como una función de cantidades conocidas

F = F (E - •E x •R ) como:

F = (WTUh ) H (V>/QTVh )

15

en la que las matricesU, T y V,Q pueden ser determinadas, por ejemplo, mediante el uso de la descomposición de

E

valor singular (SVD) de las matrices de covarianza - y C dando:

H E, = VQVH

C = UTU H , - ^ .

20 [0149] La matriz prototipo H puede ser elegida según los factores de ponderación deseados para los

caminos de señales directas y decorrelacionadas.

[0150]

Por ejemplo, una matriz prototipo posible H puede ser determinada como:

25

imagen9

af¡ + = 1

en la que. • •

[0151]

30 general.

[0152]

continuación

A continuación, se proporcionarán algunas derivaciones matemáticas para la estructura F de la matriz En otras palabras, la derivación de la matriz de mezclado F para una solución general se describirá a

[0153] Las matrices de covarianza “ y C pueden ser expresadas mediante el uso de, por ejemplo, la

descomposición del valor singular (SVD) como:

imagen10

siendo T y Q matrices diagonales con los valores singulares de C y “ respectivamente, y siendo U y v matrices unitarias que contienen los vectores singulares correspondientes.

[0154] Cabe señalar que la aplicación de la triangulación de Schur o la descomposición de Eigenvalue (en 5 lugar de SVD) lleva a resultados similares (o incluso resultados idénticos, si las matrices diagonales Q y T están

restringidas a valores positivos).

[0155] Aplicando esta descomposición al requisitoE * » C , da (al menos aproximadamente):

10

15

C = FESF

■H

H

H^H

UTU =FVQV F

imagen11

)

[0156]

Para cuidar la dimensionalidad de las matrices de covarianza, se necesita la regularización en algunos

N x 2N

casos. Por ejemplo, se puede aplicar una matriz prototipo H de tamaño UPmixCh UpmixCh, con la propiedad de

hH = i

que

UpmixCh :

20

(uVtu" )HHh (uVtu" ) = F (V Vq v" X v Vqv" )F

(uVtu" )H=F(V Vq V" ).

[0157] Se deduce que la matriz de mezclado F puede ser determinada como:

25

[0158] La matriz prototipo H es elegida según los factores de ponderación deseados para los caminos de

señales directas y decorrelacionadas. Por ejemplo, una matriz prototipo posible H puede ser determinada como:

imagen12

H =

a\.\: 0 ♦ * * 0 ^1,1 0

0 * *: a2.2 * * * ♦ • • • 0 • • 0 * • ^2,2 * *

• o: • O * * » t • aN,N - o • O

0

imagen13

en la que

imagen14

[0159] Dependiendo de la condición de la matriz de covarianza “ de las señales combinadas, la última

ecuación puede necesitar incluir una cierta regularización, pero por lo demás debería ser numéricamente estable.

5

10

15

20

[0160] Para concluir, se ha descrito un concepto para derivar las señales de audio de salida (representadas

por la matriz Z , o de forma equivalente, por el vector i?) en base a las señales de audio renderizadas (representadas por la matriz z , o de forma equivalente, el vector i) y las señales de audio decorrelacionadas (representadas por la matriz W, o de forma equivalente, el vector w). Como se puede ver, dos matrices de mezclado P y M de estructura de matriz general son determinadas comúnmente. Por ejemplo, una matriz combinada F, como

E

se ha definido más arriba, puede ser determinada, de tal modo que una matriz de covarianza z de las señales de audio de salida 1552a a 1562n se aproxima, o es igual, a una covarianza deseada (también denominada covarianza objetivo) C. La matriz de covarianza matriz deseada C puede ser derivada, por ejemplo, en base al conocimiento de la matriz de renderizado R (que puede ser proporcionada por la interacción del usuario, por ejemplo) y en base al

E .

conocimiento de la matriz de covarianza del objeto A , que puede ser derivada, por ejemplo, en base a la

información lateral codificada 1518. Por ejemplo, la matriz de covarianza del objeto x puede ser derivada mediante el uso de los valores de correlación interobjetos IOC, que se han descrito más arriba, y que pueden ser incluidos en la información lateral codificada 1518. Así, la matriz de covarianza objetivo C puede ser proporcionada, por ejemplo, por el procesador de información lateral 1570 como la información 1574, o como parte de la información

1574.

[0161] Sin embargo, alternativamente, el procesador de información lateral 1570 también puede proporcionar

directamente la matriz de mezclado F como la información 1574 al mezclador 1598.

[0162] Además, se ha descrito una regla de computación para la matriz de mezclado F que usa una 25 descomposición de valor singular. Sin embargo, debería señalarse que existen algunos grados de libertad, ya que se

pueden elegir las entradas ai,i y bi,i de la matriz prototipo H. Preferentemente, las entradas de la matriz prototipo H son elegidas para estar entre 0 y 1. Si se eligen valores ai,i más cercanos a uno, habrá un mezclado significativo de señales de audio de salida renderizadas, mientras que el impacto de las señales de audio decorrelacionadas es comparativamente pequeño, lo que puede ser conveniente en algunas situaciones. Sin embargo, en algunas otras 30 situaciones puede ser más conveniente tener un impacto comparativamente grande de las señales de audio decorrelacionadas, mientras que hay sólo un débil mezclado entre las señales de audio renderizadas. En este caso, los valores bi,i son elegidos típicamente mayores que ai,i. Así, el decodificador 1550 puede ser adaptado a los requisitos eligiendo apropiadamente las entradas de la matriz prototipo H.

35 14.4. Procedimientos simplificados para la corrección de la covarianza de salida

[0163] En esta sección se describen dos estructuras alternativas para la matriz de mezclado F mencionada más arriba junto con algoritmos ilustrativos para determinar sus valores. Las dos alternativas están diseñadas para diferente contenido de entrada (por ejemplo, contenido de audio):

40

- Procedimiento de ajuste de covarianza para contenido altamente correlacionado (por ejemplo, entrada basada en canales con alta correlación entre diferentes pares de canales).

- Procedimiento de compensación de energía para señales de entrada independientes (por ejemplo, entrada basada en objetos, que se suponen usualmente independientes).

45

14.4.1. Procedimiento de ajuste de covarianza (A)

[0164] Teniendo en cuenta que la señal z (por ejemplo, las señales de audio renderizadas 1582a a 1582n) son ya óptimas en el sentido de MMSE, usualmente no es aconsejable modificar las reconstrucciones paramétricas

50 z (por ejemplo, las señales de audio de salida 1552a a 1552n) para mejorar las propiedades de covarianza de la salida Z debido a que esto puede afectar a la calidad de separación.

[0165] Si sólo se manipula la mezcla de las señales decorrelacionadas W, la matriz de mezclado P puede ser reducida a una matriz de identidad (o un múltiplo de ésta). Así, este procedimiento simplificado puede ser

55 descrito ajustando:

r O O !_________: ”*1.1 mia * * * m\ ,N

0 1 ... 0: 3 1! m2.2 m2,2 ■' * m2,N

• t • * • « » » » 4 * * 0 0 ...: » • • * * * _ mN, 1 mN,2 « n » « * « * * * mN,N _

[0166]

La salida final del sistema puede ser representada como:

Z = Z + MW .

10

[0167] En consecuencia la covarianza de salida final del sistema puede ser representada como:

E, =E-+MEJM"

[0168] La diferencia A* entre la matriz de covarianza de salida ideal (o deseada) C y la matriz de covarianza de la reconstrucción paramétrica renderizada (por ejemplo, de las señales de audio renderizadas) está dada por:

15

E = C -E¿

[0169]

Por lo tanto, la matriz de mezclado M es determinada de tal modo que:

« ME?Mff.

20

25

[0170] La matriz de mezclado M es computada de tal modo que la matriz de covarianza de las señales

decorrelacionadas mixtas M W es igual a, o se aproxima a, la diferencia de covarianza entre la covarianza deseada y la covarianza de las señales secas (por ejemplo, de las señales de audio renderizadas). En consecuencia la covarianza de la salida final será aproximada a la covarianza objetivo E * » C :

imagen15

en la que las matricesU, T y v, Q pueden ser determinadas, por ejemplo, mediante el uso de la descomposición

A E

de valor singular (SVD) de las matrices de covarianza ^ y W dando:

imagen16

[0171] Esta estrategia asegura una buena reconstrucción de la correlación cruzada maximizando el uso de la

5

salida seca (por ejemplo, de las señales de audio renderizadas 1582a a 1582n) y utiliza la libertad de mezclado de las señales decorrelacionadas solamente. En otras palabras, no hay mezclado entre diferentes señales de audio renderizadas permitidas cuando se combinan las señales de audio renderizadas (o una versión en escala de éstas) con una o más señales de audio decorrelacionadas. Sin embargo, se permite que una señal decorrelacionada dada 5 sea combinada, con una escala igual o diferente, con una pluralidad de señales de audio renderizadas, o una versión en escala de éstas, para ajustar las características de correlación cruzada o las características de covarianza cruzada de las señales de audio de salida. La combinación es definida, por ejemplo, por la matriz M como se define en esta invención.

10 [0172] A continuación se proporcionarán algunas derivaciones matemáticas para la estructura F de la matriz

restringida.

[0173] En otras palabras, se explicará la derivación de la matriz de mezclado M para el procedimiento

simplificado “A”.

15

4.. E.

[0174] Las matrices de covarianza E y w pueden ser expresadas mediante el uso de, por ejemplo, la

descomposición de valor singular (SVD) como:

imagen17

20

A E

^ y w respectivamente, y siendo U y v

siendo T y Q matrices diagonales con los valores singulares de “ y matrices unitarias que contienen los vectores singulares correspondientes.

[0175] Cabe señalar que la aplicación de la triangulación de Schur o la descomposición de Eigenvalue (en

25 lugar de SVD) lleva a resultados similares (o incluso resultados idénticos si las matrices diagonales Q y T están restringidas a valores positivos).

[0176]

Aplicando esta descomposición al requisito

, da (al menos aproximadamente)

30

imagen18

UTU = MVQV

imagen19

H

(Ua/Tu" xuVTu" ) = m(vVqv" xv^QV" )m" , (Ua/tu" )(UVtUh ) = (MVVQVH )(Wq VhMH), (uVTU^xWTlXy =(MvVQV"XMvVQV'Y ,

(Ua/ÍU" ) = M(V Vq v").

[0177] Al señalar que ambos lados de la ecuación representan un cuadrado de una matriz, dejamos el

cuadrado, y resolvemos la matriz completa M.

E

C

[0178] Se deduce que la matriz de mezclado M puede ser determinada como:

imagen20

5 [0179] Este procedimiento puede ser derivado del procedimiento general determinando la matriz prototipo H

del siguiente modo:

imagen21

E

10 [0180] Dependiendo de la condición de la matriz de covarianza W de las señales húmedas, la última

14.4.2. Procedimiento de compensación de energía (B)

15 [0181] Algunas veces (dependiendo del escenario de aplicación) no se desea permitir el mezclado de las

reconstrucciones paramétricas (por ejemplo, de las señales de audio renderizadas) o de las señales decorrelacionadas, sino mezclar individualmente cada señal reconstruida paramétricamente (por ejemplo, señal de audio renderizada) con su propia señal decorrelacionada.

20 [0182] Para lograr este requisito, debería introducirse una restricción adicional al procedimiento simplificado

“A”. Ahora, se requiere que la matriz de mezclado m de las señales húmedas (señales decorrelacionadas) tenga una forma diagonal:

imagen22

0

*

»

[0183] El objetivo principal de esta estrategia es usar señales decorrelacionadas para compensar la pérdida

de energía en la reconstrucción paramétrica (por ejemplo, señal de audio renderizada), mientras se ignora la modificación fuera de la diagonal de la matriz de covarianza de la señal de salida, es decir, no hay una manipulación

directa de las correlaciones cruzadas. Por lo tanto, no se introduce una pérdida cruzada entre los objetos/canales de salida (por ejemplo, entre las señales de audio renderizadas) en la aplicación de las señales decorrelacionadas.

[0184] Como resultado, sólo se puede alcanzar la diagonal principal de la matriz de covarianza objetivo (o la

5 matriz de covarianza deseada) y las fuera de las diagonales se encuentran a merced de la exactitud de la reconstrucción paramétrica y las señales decorrelacionadas agregadas. Este procedimiento es muy adecuado para las aplicaciones basadas sólo en el objeto, en el cual las señales pueden ser consideradas como decorrelacionadas.

[0185] La salida final del procedimiento (por ejemplo, las señales de audio de salida) está dada por

10 z = z + m w con una matriz diagonal M computada de tal modo que las entradas de la matriz de covarianza

correspondientes a las energías de las señales reconstruidas

Ez (i> 0

son iguales a las energías deseadas:

imagen23

15 [0186] C puede ser determinada como se explica en lo anterior para el caso general.

[0187] Por ejemplo, la matriz de mezclado m puede ser derivada directamente dividiendo las energías

deseadas de las señales de compensación (diferencias entre las energías deseadas (que pueden ser descritas por los elementos diagonales de la matriz de covarianza cruzada C) y las energías de las reconstrucciones paramétricas 20 (que pueden ser determinadas por el decodificador de audio)) con las energías de las señales decorrelacionadas (que pueden ser determinadas por el decodificador de audio):

imagen24

25 en donde 1es un umbral no negativo usado para limitar la cantidad de componentes decorrelacionados agregados a las señales de salida (por ejemplo,1 = 4 ).

[0188] Debería señalarse que las energías pueden ser reconstruidas paramétricamente (por ejemplo, mediante el uso de OLDs, IOCs y coeficientes de renderización) o pueden ser computadas realmente por el

30 decodificador (que es típicamente más costoso computacionalmente).

[0189] Este procedimiento puede ser derivado del procedimiento general determinando la matriz prototipo h del siguiente modo:

imagen25

[0190] Este procedimiento maximiza el uso de las salidas renderizadas secas explícitamente. El procedimiento es equivalente a la simplificación “A” cuando las matrices de covarianza no tienen entradas fuera de

5 las diagonales.

[0191] Este procedimiento tiene una complejidad computacional reducida.

[0192] Sin embargo, debería señalarse que el procedimiento de compensación de energía, no

necesariamente implica que los términos de correlación cruzada no están modificados. Esto se cumple sólo si 10 usamos decorrelacionadores ideales y ninguna reducción de la complejidad para la unidad de decorrelación. La idea del procedimiento es recuperar la energía e ignorar las modificaciones en los términos cruzados (los cambios en los términos cruzados no modificarán sustancialmente las propiedades de correlación y no afectarán a la impresión espacial general).

15 14.5. Requisitos para la matriz de mezclado F

[0193] A continuación se explicará que la matriz de mezclado F, una derivación de la cual ha sido descrita en

las secciones 14.3 y 14.4, cumple con los requisitos para evitar degradaciones.

20 [0194] Para evitar degradaciones en la salida, cualquier procedimiento para compensar los errores de la

reconstrucción paramétrica debería producir un resultado con la siguiente propiedad: si la matriz de renderización es igual a la matriz de mezclado descendente, entonces los canales de salida deberían ser iguales (o al menos aproximados) a los canales de mezcla descendente. El modelo propuesto cumple con esta propiedad. Si la matriz de renderizado es igual a la matriz de mezclado descendente R = d , la reconstrucción paramétrica está dada por:

25

imagen26

C = RE^R"

imagen27

[0195] Por lo tanto la ecuación a resolver para obtener la matriz de mezclado F es:

imagen28

anterior para F , se puede obtener:

5

imagen29

[0196] Esto significa que las señales decorrelacionadas tendrán un peso cero en la suma, y la salida final estará dada por las señales secas, que son idénticas a las señales de mezcla descendente:

10

~ A A

Z = PZ + MW = Z « Y .

[0197] Como resultado, se cumple el requisito dado para que la salida del sistema sea igual a la señal de mezcla descendente en este escenario de renderización.

15

14.6. Estimación de la matriz de covarianza de señales Es

[0198] Para obtener la matriz de mezclado f se requiere, o al menos es deseable, el conocimiento de la

E

matriz de covarianza ^ de las señales combinadas S.

20 [0199] En principio, es posible estimar la matriz de covarianza “ directamente de las señales disponibles (a

saber, de la reconstrucción paramétrica z y la salida del decorrelacionador W). Aunque esta propuesta puede llevar a resultados más exactos, puede no ser práctica debido a la complejidad computacional asociada. Los

E

procedimientos propuestos usan aproximaciones paramétricas de la matriz de covarianza ^

[0200]

25

La estructura general de la matriz de covarianza

E

puede ser representada como:

imagen30

en la que la matriz ZW es de covarianza cruzada entre las señales directas z y decorrelacionadas W.

5 [0201] Suponiendo que los decorrelacionadores sean ideales (es decir, que conservan la energía, siendo las

salidas ortogonales con respecto a las entradas, y siendo todas las salidas mutuamente ortogonales), la matriz de

E

covarianza ^ puede ser expresada mediante el uso de la forma simplificada como:

imagen31

10

E

[0202] La matriz de covarianza Z de la señal paramétricamente reconstruida z puede ser determinada

paramétricamente como:

E - =

RE-R^ =RGDEJD"G"R

X A

Z

15

E

[0203] La matriz de covarianza W de la señal decorrelacionada W se supone que cumple la propiedad de

E

ortogonalidad mutua y que contiene sólo los elementos diagonales de Z del siguiente modo:

imagen32

[0204] Si no se cumple la suposición de ortogonalidad mutua y/o conservación de la energía (por ejemplo, en

el caso en que el número de decorrelacionadores disponible sea más pequeño que el número de señales que se va

E

a decorrelacionar), entonces la matriz de covarianza W puede ser estimada como:

25

imagen33

14.7 Mejora opcional: corrección de covarianza de salida mediante el uso de señales decorrelacionadas y unidad de ajuste de energía

5 [0205] A continuación, se describirá un concepto particularmente ventajoso que se puede combinar con los

otros conceptos descritos en esta invención.

[0206] El procedimiento propuesto para la corrección del error de covarianza de salida compone la señal de salida como una suma ponderada de una señal paramétricamente reconstruida z y su parte decorrelacionada z .

10 Esta suma se puede representar de la siguiente manera

<*« A

Z = PZ + MW . (11)

[0207]

15

y señal

20

La aplicación de la notación para la matriz combinada

imagen34

imagen35

da como resultado:

imagen36

25

[0208] Sin embargo, se debería señalar que esta ecuación puede ser considerada una formulación más

general. Se puede aplicar opcionalmente un cambio a la fórmula anterior que es válida para todos los “procedimientos simplificados” descritos en esta invención.

30 [0209] A continuación, se describirá una funcionalidad que se puede llevar a cabo, por ejemplo, con una

unidad de ajuste de energía.

[0210] A fin de evitar la introducción de artefactos en la salida final, en casos extremos, se pueden imponer

diferentes restricciones a la matriz de mezclado f (o una matriz de mezclado F). Las restricciones mencionadas se 35 pueden representar por valores umbral absolutos o valores umbral relativos con respecto a la energía y/o propiedades de correlación de las señales blanco y/o paramétricamente reconstruidas (por ejemplo, señales de audio renderizadas).

[0211] El procedimiento descrito en esta sección propone conseguir esto por adición de una etapa de ajuste 40 de energía en el bloque de mezcla de salida final. La finalidad de tal etapa de procesamiento consiste en asegurar

que, después de la etapa de mezcla con la matriz f (o una matriz de mezclado F “modificada” derivada de ello), los niveles de energía de las señales decorrelacionadas (húmedas) (por ejemplo, AwetMW) y/o los niveles de energía de

las señales paramétricamente reconstruidas (secas) (por ejemplo, AdryP^) y/o los niveles de energía de las señales

de salida finales (por ejemplo, AdryP^ + AwetMW) no superaban ciertos valores umbral.

45

[0212] Esta funcionalidad extra se puede lograr modificando la definición de la matriz de mezclado combinada F para ser

imagen37

en donde las dos matrices de ajuste de energía cuadradas (o diagonales)

Adry - A„

y

(que también se mencionan

como “matrices de corrección de energía”) se aplican a los pesos de mezcla (por ejemplo, P y M) de las señales paramétricamente reconstruidas (secas) y las señales decorrelacionadas (húmedas), respectivamente. Como resultado, la salida final será de

5

z = #s

~ AdryPZ + AwetMW"

(14)

10 [0213]

Las matrices de corrección de energía seca y húmeda

Adry A„

y

se computan de modo tal que la

contribución de las señales seca y/o húmeda (por ejemplo, y en los niveles de señales de salida final (por ejemplo,

%), debido a la etapa de mezcla con matriz f , no superan cierto valor umbral relativo con respecto a las señales

paramétricamente reconstruidas (por ejemplo,-^) y/o señales decorrelacionadas (por ejemplo, W) y/o señales blanco. En otras palabras, hay, en general, múltiples posibilidades para computar las matrices de corrección.

15 [0214]

Las matrices de corrección de energía seca y húmeda

A dry A„

y

se pueden computar, por ejemplo,

en función de las propiedades de energía y/o correlación y/o covarianza de las señales secas (por ejemplo, %) y/o señales húmedas (por ejemplo, W) y/o señales de salida finales deseadas y/o una estimación de la matriz de covarianza de las señales de salida secas y/o húmedas y/o finales después de la etapa de mezcla. Se debería señalar que las posibilidades anteriormente mencionadas describen algunos ejemplos de cómo obtener las matrices 20 de corrección.

[0215] Una posible solución se da por las siguientes expresiones:

imagen38

25

y

imagen39

30 donde

dry

y wet son dos valores umbral que pueden ser constantes o variantes de tiempo en frecuencia en

función de las propiedades de señal (por ejemplo, energía, correlación y/o covarianza), e es una constante de

10 - 9 E

regularización no negativa pequeña (opcional), por ejemplo,

representa la información de covarianza

C

y/o energía de las señales paramétricamente reconstruidas (secas), y ~"estim representa la estimación de la matriz de covarianza de las señales secas o húmedas después de la etapa de mezcla con matriz f , o la estimación de la 5 matriz de covarianza de las señales de salida después de la etapa de mezcla con matriz F , que se puede obtener si no se aplica ninguna etapa de ajuste de energía cuando se propone por la presente invención (o, dicho de otro modo, que se puede obtener si no se utilizó la unidad de ajuste de energía).

[0216] En las ecuaciones anteriores, la operación “máx(.)”en el denominador, que proporciona el valor

10 máximo de los argumentos, Cestim(i,i) y e, se puede reemplazar, por ejemplo, por una adición de e u otro mecanismo para evitar una división por cero.

[0217]

Por ejemplo,

C

se puede dar por:

C = ME MH

estim W - la estimación de la matriz de covarianza de las señales húmedas después de la etapa de

15 mezcla con matriz M.

,H

Cestim = PE¿ PH

mezcla con matriz P .

C_ = PE, PH + ME uMh

"'estim ' ±J^W

20 etapa de mezcla con matriz F

la estimación de la matriz de covarianza de las señales secas después de la etapa de la estimación de la matriz de covarianza de las señales de salida después de la

[0218] A continuación, se describirán algunas simplificaciones. En otras palabras, se describirán

procedimientos simplificados para la corrección de covarianza de salida.

25 [0219] Teniendo en cuenta que las señales z ya son óptimas en el sentido MMSE, usualmente no es

aconsejable modificar las reconstrucciones paramétricas (señales secas) z a fin de mejorar las propiedades de covarianza de la salida z porque esto puede afectar a la calidad de separación.

[0220] Si sólo se manipula la mezcla de las señales (húmedas) decorrelacionadas W, la matriz de mezclado

30 P se puede reducir a una matriz de identidad. En este caso, la matriz de ajuste de energía correspondiente a las señales paramétricamente reconstruidas (secas) también se puede reducir a una matriz de identidad. Así, este procedimiento simplificado se puede describir estableciendo:

imagen40

35

[0221]

La salida final del sistema puede estar representada como:

Z — Z 4- AwetMW

40 15. Reducción de la complejidad para la unidad de decorrelación

[0222] A continuación se describirá cómo la complejidad de los decorrelacionadores usados en las

realizaciones según la presente invención puede ser reducida.

5 [0223] Debería señalarse que la implementación de la función del decorrelacionador es frecuentemente

computacionalmente compleja. En algunas aplicaciones (por ejemplo, soluciones de decodificador portables) el número de decorrelacionadores puede necesitar introducirse debido a las fuentes computacionales restringidas. Esta sección proporciona una descripción de medios para la reducción de la complejidad de la unidad de decorrelacionador controlando el número de decorrelacionadores (o decorrelacione) aplicados. La interfaz de la 10 unidad de decorrelación se ilustra en las Figuras 16 y 17.

[0224] La Figura 16 muestra un diagrama de bloques esquemático de una unidad de decorrelación simple (convencional). La unidad de decorrelación 1600 según la Figura 6 está configurada para recibir señales de entrada del decorrelacionador N 1610a a 1610n, como, por ejemplo, señales de audio renderizadas z . Además, la unidad

15 de decorrelación 1600 proporciona señales de salida del decorrelacionador N 1612a a 1612n. La unidad de decorrelación 1600 puede comprender, por ejemplo, decorrelacionadores individuales N (o funciones de decorrelación) 1620a a 1620n. Por ejemplo, cada uno de los decorrelacionadores individuales 1620a a 1620n puede proporcionar una de las señales de salida del decorrelacionador 1612a a 1612n en base a una asociada de las señales de entrada del decorrelacionador 1610a a 1610n. Por consiguiente, los decorrelacionadores individuales N, 20 o funciones de decorrelación, 1620a a 1620n pueden ser requeridos para proporcionar las señales decorrelacionadas N 1612a a 1612n en base a las señales de entrada del decorrelacionador N 1610a a 1610n.

[0225] Sin embargo, la Figura 17 muestra un diagrama de bloques esquemático de una unidad de decorrelación de complejidad reducida 1700. La unidad de decorrelación de complejidad reducida 1700 está

25 configurada para recibir señales de entrada del decorrelacionador 1710a a 1710n y para proporcionar, en base a estas señales de salida del decorrelacionador N 1712a a 1712n. Por ejemplo, las señales de entrada del decorrelacionador 1710a a 1710n pueden ser señales de audio renderizadas z , y las señales de salida del decorrelacionador 1712a a 1712n pueden ser señales de audio decorrelacionadas W.

30 [0226] El decorrelacionador 1700 comprende un premezclador (o de forma equivalente, una funcionalidad de

premezclado) 1720 que está configurada para recibir el primer conjunto de señales de entrada del decorrelacionador N 1710a a 1710n y para proporcionar, en base a éstas, un segundo conjunto de señales de entrada del decorrelacionador K 1722a a 1722k. Por ejemplo, el premezclador 1720 puede realizar un así llamado “premezclado” o “mezclado descendente” para derivar el segundo conjunto de señales de entrada del 35 decorrelacionador K 1722a a 1722k en base al primer conjunto de señales de entrada del decorrelacionador N 1710a a 1710n. Por ejemplo, las señales K del segundo conjunto de señales de entrada del decorrelacionador K

Z

1722a a 1722k pueden ser representadas mediante el uso de una matriz mix . La unidad de decorrelación (o, de forma equivalente, el decorrelacionador multicanal) 1700 también comprende un núcleo decorrelacionado 1730, que está configurado para recibir las señales K del segundo conjunto de señales de entrada del decorrelacionador K 40 1722a a 1722k, y para proporcionar, en base a éstas, las señales de salida del decorrelacionador K que constituyen un primer conjunto de señales de salida del decorrelacionador 1732a a 1732k. Por ejemplo, el núcleo del decorrelacionador 1730 puede comprender decorrelacionadores individuales K (o funciones de decorrelación), en donde cada uno de los decorrelacionadores individuales (o funciones de decorrelación) proporciona una de las señales de salida del decorrelacionador del primer conjunto de señales de salida del decorrelacionador K 1732a a 45 1732k en base a una señal de entrada del decorrelacionador correspondiente del segundo conjunto de señales de entrada del decorrelacionador K 1722a a 1722k. Alternativamente, un decorrelacionador dado, o función de decorrelación, puede ser aplicada K veces, de tal modo que cada una de las señales de salida del decorrelacionador del primer conjunto de señales de salida del decorrelacionador K 1732a a 1732k se basa en una sola de las señales de entrada del decorrelacionador del segundo conjunto de señales de entrada del decorrelacionador K 1722a a 50 1722k.

[0227] La unidad de decorrelación 1700 también comprende un post-mezclador 1740, que está configurado para recibir las señales de salida del decorrelacionador K 1732a a 1732k del primer conjunto de señales de salida del decorrelacionador y para proporcionar, en base a éstas, las N señales 1712a a 1712n del segundo conjunto de

55 señales de salida del decorrelacionador (que constituyen las señales de salida del decorrelacionador “externas”).

[0228] Debería señalarse que el premezclador 1720 puede realizar preferentemente una operación de mezclado lineal, que puede ser descrita por una matriz de premezclado Mpre. Además, el post-mezclador 1740 realiza preferentemente una operación de mezclado lineal (o mezclado ascendente), que puede ser representada

60 por una matriz de post-mezclado Mpost, para derivar las señales de salida del decorrelacionador N 1712a a 1712n del

segundo conjunto de señales de salida del decorrelacionador del primer conjunto de señales de salida del decorrelacionador K 1732a a 1732k (es decir, de las señales de salida del núcleo del decorrelacionador 1730).

[0229] La idea principal del procedimiento y del aparato propuesto es reducir el número de señales de

5 entrada a los decorrelacionadores (o al núcleo del decorrelacionador) de N a K por:

• Premezclado de las señales (por ejemplo, las señales de audio renderizadas) para bajar el número de canales con:

Z . = M Z

¡mx pre

• Aplicar la decorrelación mediante el uso de los decorrelacionadores K disponibles (por ejemplo, del núcleo del 10 decorrelacionador) con:

Zdee = Decorr(Z . )

mix V mix '

Mezclar de forma ascendente las señales decorrelacionadas de nuevo a los canales N con:

W = M Zdec

’' í"-postí-‘mx

15

M

[0230] La matriz de premezclado pre puede ser construida en base a la información de mezcla

(M MH )

descendente/renderización/correlación/etc., de tal modo que el producto de la matriz pre pre se vuelve bien acondicionada (con respecto a la operación de inversión). La matriz de post-mezclado puede ser computada como:

20

imagen41

Z dec

[0231] Incluso cuando la matriz de covarianza de las señales decorrelacionadas intermedias s (o mix ) es

diagonal (suponiendo decorrelacionadores ideales), la matriz de covarianza de las señales decorrelacionadas finales W probablemente no sea más diagonal cuando usa este tipo de procesamiento. Por lo tanto, la matriz de covarianza 25 puede ser estimada mediante el uso de las matrices de mezclado como:

imagen42

[0232] El número de decorrelacionadores (o decorrelaciones) usados, K, no se especifica y depende de la 30 complejidad computacional deseada y de los decorrelacionadores disponibles. Su valor puede variar de

N (complejidad computacional más alta) hacia abajo hasta 1 (complejidad computacional más baja).

[0233] El número de señales de entrada a la unidad de decorrelacionador, N, es arbitrario y el procedimiento propuesto soporta cualquier número de señales de entrada, independientemente de la configuración de

35 representación del sistema.

[0234] Por ejemplo, en aplicaciones mediante el uso de un contenido de audio 3D, con alto número de canales de salida, dependiendo de la configuración de salida una expresión posible para la matriz de premezclado

Mpre

pre se describe más abajo.

40

[0235] A continuación, se describirá cómo el premezclado, que es realizado por el premezclador 1720 (y, por consiguiente, el post-mezclado, que es realizado por el post-mezclador 1740) es ajustado si la unidad de decorrelación 1700 se usa en un decodificador de audio multicanal, en el que las señales de entrada del decorrelacionador 1710a a 1710n del primer conjunto de señales de entrada del decorrelacionador están asociadas

45 con diferentes posiciones espaciales de una escena de audio.

[0236] Para este propósito, la Figura 18 muestra una representación en forma de tabla de posiciones de altavoz, que se usan para diferentes formatos de salida.

[0237] En la tabla 1800 de la Figura 18, una primera columna 1810 describe un número de índice de altavoz.

5 Una segunda columna 1820 describe una marca de altavoz. Una tercera columna 1830 describe una posición

azimutal del altavoz respectivo y una cuarta columna 1832 describe una tolerancia azimutal de la posición del altavoz. Una quinta columna 1840 describe una elevación de una posición del altavoz respectivo y una sexta columna 1842 describe una tolerancia de elevación correspondiente. Una séptima columna 1850 indica qué altavoces se usan para el formato de salida O-2.0. Una octava columna 1860 muestra qué altavoces se usan para el 10 formato de salida O-5.1. Una novena columna 1864 muestra qué altavoces se usan para el formato de salida O-7.1. Una décima columna 1870 muestra qué altavoces se usan para el formato de salida O-8.1, una undécima columna 1880 muestra qué altavoces se usan para el formato de salida O-10.1, y una duodécima columna 1890 muestra qué altavoces se usan para el formato de salida O-22.2. Como se puede observar, dos altavoces se usan para el formato de salida O-2.0, seis altavoces se usan para el formato de salida O-5.1, ocho altavoces se usan para el 15 formato de salida O-7.1, nueve altavoces se usan para el formato de salida O-8.1, 11 altavoces se usan para el formato de salida O-10.1, y 24 altavoces se usan para el formato de salida O-22.2.

[0238] Sin embargo, debería señalarse que se usa un altavoz de efecto de baja frecuencia para formatos de salida O-5.1, O-7.1, O-8.1 y O-10.1, y que se usan dos altavoces de efecto de baja frecuencia (LFE1, LFE2) para

20 el formato de salida O-22.2. Además, debería señalarse que, en una realización preferida, una señal de audio renderizada (por ejemplo, una de las señales de audio renderizadas 1582a a 1582n) está asociada con cada uno de los altavoces, excepto por uno o más altavoces de efecto de baja frecuencia. Por consiguiente, dos señales de audio renderizadas están asociadas con los dos altavoces usados según el formato O-2.0, cinco señales de audio renderizadas están asociadas con los cinco altavoces que no son de efecto de baja frecuencia si se usa el formato 25 O-5.1, siete señales de audio renderizadas están asociadas con siete altavoces que no son de efecto de baja frecuencia si se usa el formato O-7.1, ocho señales de audio renderizadas están asociadas con los ocho altavoces que no son de baja frecuencia si se usa el formato O-8.1, diez señales de audio renderizadas están asociadas con los diez altavoces que no son de baja frecuencia si se usa el formato O-10.1, y 22 señales de audio renderizadas están asociadas con los 22 altavoces que no son de efecto de baja frecuencia si se usa el formato O-22.2.

30

[0239] Sin embargo, frecuentemente es conveniente usar un número más pequeño de decorrelacionadores (de núcleo de decorrelacionador) (individuales), como se ha mencionado más arriba. A continuación se describirá cómo se puede reducir el número de decorrelacionadores de forma flexible cuando el formato de salida O-22.2 es utilizado por un decodificador de audio multicanal, de tal modo que hay 22 señales de audio renderizadas 1582a a

35 1582n (que pueden ser representadas por una matriz ¿ , o por un vector 3] .

[0240] Las Figuras 19a a 19g representan diferentes opciones para el premezclado de las señales de audio renderizadas 1582a a 1582n bajo la suposición de que hay N = 22 señales de audio renderizadas. Por ejemplo, la Figura 19a muestra una representación en forma de tabla de entradas de una matriz de premezclado Mpre. Las filas,

40 indicadas con 1 a 11 en la Figura 19a, representan las filas de la matriz de premezclado Mpre, y las columnas, indicadas con 1 a 22 están asociadas con columnas de la matriz de premezclado Mpre. Además, debería señalarse que cada fila de la matriz de premezclado Mpre está asociada con una de las señales de entrada del decorrelacionador K 1722a a 1722k del segundo conjunto de señales de entrada del decorrelacionador (es decir, con las señales de entrada del núcleo de decorrelacionador). Además, cada columna de la matriz de premezclado 45 Mpre está asociada con una de las señales de entrada del decorrelacionador N 1710a a 1710n del primer conjunto de señales de entrada del decorrelacionador, y en consecuencia con una de las señales de audio renderizadas 1582a a 1582n (ya que las señales de entrada del decorrelacionador 1710a a 1710n del primer conjunto de señales de entrada del decorrelacionador son típicamente idénticas a las señales de audio renderizadas 1582 a 1582n en una realización). Por consiguiente, cada columna de la matriz de premezclado Mpre está asociada con un altavoz 50 específico y, en consecuencia, como los altavoces están asociados con posiciones espaciales, con una posición espacial específica. Una fila 1910 indica a qué altavoz (y, en consecuencia, a qué posición espacial) están asociadas las columnas de la matriz de premezclado Mpre (en donde las marcas de los altavoces están definidas en la columna 1820 de la tabla 1800).

55 [0241] A continuación, se describe con más detalles la funcionalidad definida por el premezclado Mpre de la

Figura 19a. Como se puede observar, las señales de audio renderizadas asociadas con los altavoces (o, de forma equivalente, las posiciones de los altavoces) “CH_M_000” y “CH_L_000” están combinadas, para obtener una primera señal de entrada de decorrelacionador del segundo conjunto de señales de entrada del decorrelacionador (es decir, una primera señal de entrada de decorrelacionador mezclada de manera descendente), que está indicada 60 por los valores “1” en la primera y la segunda columnas de la primera fila de la matriz de premezclado Mpre.

Similarmente, las señales de audio renderizadas asociadas con altavoces (o, de forma equivalente, posiciones de altavoces) “CH_U_000” y “CH_T_000” están combinadas para obtener una segunda señal de entrada de decorrelacionador mezclada de manera descendente (es decir, una segunda señal de entrada de decorrelacionador del segundo conjunto de señales de entrada del decorrelacionador). Además, se puede observar que la matriz de 5 premezclado Mpre de la Figura 19a define once combinaciones de dos señales de audio renderizadas cada una, de tal modo que once señales de entrada del decorrelacionador mezcladas de manera descendente son derivadas de 22 señales de audio renderizadas. También se puede observar que cuatro señales centrales son combinadas para obtener dos señales de entrada del decorrelacionador mezcladas de manera descendente (comparar las columnas 1 a 4 y las filas 1 y 2 de la matriz de premezclado). Además, se puede observar que las otras señales de entrada del 10 decorrelacionador mezcladas de manera descendente son obtenidas cada una combinando dos señales de audio asociadas con el mismo lado de la escena de audio. Por ejemplo, una tercera señal de entrada de decorrelacionador mezclada de manera descendente, representada por la tercera fila de la matriz de premezclado, es obtenida combinando señales de audio renderizadas asociadas con una posición azimutal de +135° (“CH_M_L135”; “CH_U_L135”). Además, se puede observar que una cuarta señal de entrada de decorrelacionador (representada 15 por una cuarta fila de la matriz de premezcla) es obtenida combinando señales de audio renderizadas asociadas con una posición azimutal de -135° (“CH_M_R135”; “CH_U_R135”). Por consiguiente, cada una de las señales de entrada del decorrelacionador mezcladas de manera descendente es obtenida combinando dos señales de audio renderizadas asociadas con la misma posición azimutal (o similar) (o, de forma equivalente, la posición horizontal), en la que hay típicamente una combinación de señales asociadas con diferente elevación (o, de forma equivalente, 20 la posición vertical).

[0242] Haciendo referencia ahora a la Figura 19b, que muestra coeficientes de premezclado (entradas de la

matriz de premezclado Mpre) para N = 22 y K = 10. La estructura de la tabla de la Figura 19b es idéntica a la estructura de la tabla de la Figura 19a. Sin embargo, como se puede observar, la matriz de premezclado Mpre según

25 la Figura 19b difiere de la matriz de premezclado Mpre de la Figura 19a en cuanto a que la primera fila describe la combinación de cuatro señales de audio renderizadas que tienen IDs de canales (o posiciones) “CH_M_000”, “CH_L_000”, “CH_U_000” y “CH_T_000”. En otras palabras, cuatro señales de audio renderizadas asociadas con posiciones verticalmente adyacentes están combinadas en el premezclado para reducir el número de decorrelacionadores requeridos (diez decorrelacionadores en lugar de once decorrelacionadores para la matriz 30 según la Figura 19a).

[0243] Haciendo referencia ahora a la Figura 19c, que muestra coeficientes de premezclado (entradas de la matriz de premezclado Mpre) para N = 22 y K = 9, se puede observar que la matriz de premezclado Mpre según la Figura 19c sólo comprende nueve filas. Además, se puede observar de la segunda fila de la matriz de premezclado

35 Mpre de la Figura 19c que las señales de audio renderizadas asociadas con las IDs de los canales (o las posiciones) “CH_M_L135”, “CH_U_L135”, “CH_M_R135” y “CH_U_R135” están combinadas (en un premezclador configurado según la matriz de premezclado de la Figura 19c) para obtener una segunda señal de entrada de decorrelacionador mezclada de manera descendente (señal de entrada de decorrelacionador del segundo conjunto de señales de entrada del decorrelacionador). Como se puede observar, las señales de audio renderizadas que han sido 40 combinadas en señales de entrada del decorrelacionador separadas mezcladas de manera descendente por las matrices de premezclado según las Figuras 19a y 19b son mezcladas de manera descendente en una señal de entrada de decorrelacionador mezclada de manera descendente común según la Figura 19c. Además, debería señalarse que las señales de audio renderizadas que tienen las ID de canales “CH_M_L135” y “CH_U_L135” están asociadas con posiciones horizontales idénticas (o posiciones azimutales) en el mismo lado de la escena de audio y 45 posiciones verticales espacialmente adyacentes (o elevaciones), y que las señales de audio renderizadas que tienen las ID de canales “CH_M_R135” y “CH_U_R135” están asociadas con posiciones horizontales idénticas (o posiciones azimutales) en un segundo lado de la escena de audio y posiciones verticales espacialmente adyacentes (o elevaciones). Además, se puede decir que las señales de audio renderizadas que tienen las ID de canales “CH_M_L135”, “CH_U_L135”, “CH_M_R135” y “CH_U_R135” están asociadas con un par horizontal (o incluso un 50 cuádruple horizontal) de posiciones espaciales que comprenden una posición del lado izquierdo y una posición del lado derecho. En otras palabras, se puede observar en la segunda fila de la matriz de premezclado Mpre de la Figura 19c que dos de las cuatro señales de audio renderizadas, que están combinadas para ser decorrelacionadas mediante el uso de un solo decorrelacionador dado, están asociadas con posiciones espaciales en un lado izquierdo de una escena de audio, y que dos de las cuatro señales de audio renderizadas que están combinadas para ser 55 decorrelacionadas mediante el uso del mismo decorrelacionador dado, están asociadas con posiciones espaciales en un lado derecho de la escena de audio. Además, se puede observar que las señales de audio renderizadas del lado izquierdo (de dichas cuatro señales de audio renderizadas) están asociadas con posiciones espaciales que son simétricas, con respecto a un plano central de la escena de audio, con las posiciones espaciales asociadas con las señales de audio renderizadas del lado derecho (de dichas cuatro señales de audio renderizadas), de tal modo que 60 un cuádruple “simétrico” de señales de audio renderizadas es combinado por el premezclado para ser decorrelacionado mediante el uso de un sólo decorrelacionador (individual).

[0244] Haciendo referencia a las Figuras 19d, 19e, 19f y 19g, se puede observar que más y más señales de audio renderizadas son combinadas con un número decreciente de decorrelacionadores (individuales) (es decir, con K decreciente). Como se puede observar en las Figuras 19a a 19g, típicamente las señales de audio renderizadas

5 que son mezcladas de manera descendente en dos señales de entrada del decorrelacionador separadas mezcladas de manera descendente son combinadas cuando disminuye el número de decorrelacionados por 1. Además, se puede observar que típicamente son combinadas las señales de audio renderizadas, que están asociadas con un “cuádruple simétrico” de posiciones espaciales, en el que, para un número comparativamente alto de decorrelacionadores, sólo señales de audio renderizadas asociadas con posiciones horizontales iguales o al menos 10 similares (o posiciones azimutales) son combinadas, mientras que para un número comparativamente más bajo de decorrelacionadores, las señales de audio renderizadas asociadas con posiciones espaciales en lados opuestos de la escena de audio también son combinadas.

[0245] Haciendo referencia ahora a las Figuras 20a a 20d, 21a a 21c, 22a a 22b y 23, debería señalarse que 15 también se pueden aplicar conceptos similares para un número diferente de señales de audio renderizadas.

[0246] Por ejemplo, las Figuras 20a a 20d describen entradas de la matriz de premezclado Mpre para N = 10 y para K entre 2 y 5.

20 [0247] Similarmente, las Figuras 21a a 21c describen entradas de la matriz de premezclado Mpre para N = 8 y

K entre 2 y 4.

[0248] Similarmente, las Figuras 21d a 21f describen entradas de la matriz de premezclado Mpre para N = 7 y K entre 2 y 4.

25

[0249] Las Figuras 22a y 22b muestran entradas de la matriz de premezclado para N = 5 y K = 2 y K = 3.

[0250] Finalmente, la Figura 23 muestra entradas de la matriz de premezclado para N =2 y K = 1.

30 [0251] Para resumir, las matrices de premezclado según las Figuras 19a a 19g a la Figura 23 se pueden

usar, por ejemplo, de una manera conmutable, en un decorrelacionador multicanal que es parte de un decodificador de audio multicanal. La conmutación entre las matrices de premezclado se puede realizar, por ejemplo, en dependencia de una configuración de salida deseada (que determina típicamente un número N de señales de audio renderizadas) y también en dependencia de una complejidad deseada de la decorrelación (que determina el 35 parámetro K, y que puede ser ajustada, por ejemplo, en dependencia de una información de complejidad incluida en una representación codificada de un contenido de audio).

[0252] Haciendo referencia ahora a la Figura 24, se describirá ahora con más detalles la reducción de la complejidad para el formato de salida 22.2. Como ya se ha indicado más arriba, una solución posible para construir

40 la matriz de premezclado y la matriz de post-mezclado es usar la información espacial del diseño de reproducción para seleccionar los canales que se van a mezclar entre sí y computar los coeficientes de mezclado. En base a su posición, los altavoces geométricamente relacionados (y, por ejemplo, las señales de audio renderizadas asociadas con estos) están agrupados juntos, tomando pares verticales y horizontales, como se describe en la tabla de la Figura 24. En otras palabras, la Figura 24 muestra, en forma de una tabla, un agrupamiento de posiciones de 45 altavoces, que puede estar asociado con señales de audio renderizadas. Por ejemplo, una primera fila 2410 describe un primer grupo de posiciones de altavoces, que están en un centro de una escena de audio. Una segunda fila 2412 representa un segundo grupo de posiciones de altavoces, que están relacionados espacialmente. Las posiciones de altavoces “CH_M_L135” y “CH_U_L135” están asociadas con posiciones azimutales idénticas (o posiciones horizontal equivalentes) y posiciones de elevación adyacentes (o de forma equivalente, posiciones 50 verticalmente adyacentes). Similarmente, las posiciones “CH_M_R135” y “CH_U_R135” comprenden azimuts idénticos (o, de forma equivalente, posición horizontal idéntica) y elevación idéntica (o, de forma equivalente, posición verticalmente adyacente). Además, las posiciones “CH_M_L135”, “CH_U_L135”, “CH_M_R135” y “CH_U_R135” forman un cuádruple de posiciones, en el que las posiciones “CH_M_L135” y “CH_U_L135” son simétricas con respecto a las posiciones “CH_M_R135” y “CH_U_R135” con respecto a un plano central de la 55 escena de audio. Además, las posiciones “CH_M_180” y “CH_U_180” comprenden también una posición azimutal idéntica (o, de forma equivalente, una posición horizontal idéntica) y una elevación similar (o, de forma equivalente, una posición vertical adyacente).

[0253] Una tercera fila 2414 representa un tercer grupo de posiciones. Debería señalarse que las posiciones 60 “CH_M_L030” y “CH_L_L045” son posiciones espacialmente adyacentes y comprenden un azimut similar (o, de

forma equivalente, una posición horizontal similar) y una elevación similar (o, de forma equivalente, una posición

vertical similar). Lo mismo vale para posiciones “CH_M_R030” y “CH_L_R045”. Además, las posiciones del tercer grupo de posiciones forman un cuádruple de posiciones, en el que las posiciones “CH_M_L030” y “CH_L_L045” son espacialmente adyacentes y simétricas con respecto a un plano central de la escena de audio, a posiciones “CH_M_R030” y “CH_L_R045”.

5

[0254] Una cuarta fila 2416 representa cuatro posiciones adicionales, que tienen características similares

cuando se comparan con las primeras cuatro posiciones de la segunda fila, y que forman un cuádruple simétrico de posiciones.

10 [0255] Una quinta fila 2418 representa otro cuádruple de posiciones simétricas “CH_M_L060”, “CH_U_L045”,

“CH_M_R060” y “CH_U_R045”.

[0256] Además, debería señalarse que las señales de audio renderizadas asociadas con las posiciones de

los diferentes grupos de posiciones pueden ser combinadas más y más con un número decreciente de 15 decorrelacionadores. Por ejemplo, en presencia de once decorrelacionadores individuales en un decorrelacionador multicanal, las señales de audio renderizadas asociadas con posiciones en la primera y la segunda columna pueden ser combinadas para cada grupo. Además, las señales de audio renderizadas asociadas con las posiciones representadas en una tercera y una cuarta columna pueden ser combinadas para cada grupo. Además, las señales de audio renderizadas asociadas con las posiciones mostradas en la quinta y la sexta columnas pueden ser 20 combinadas para el segundo grupo. Por consiguiente, se pueden obtener once señales de mezcla descendente de entrada del decorrelacionador (que son introducidas en los decorrelacionadores individuales). Sin embargo, si se desea tener menos decorrelacionadores individuales, las señales de audio renderizadas asociadas con las posiciones mostradas en las columnas 1 a 4 pueden ser combinadas para uno o más de los grupos. También, las señales de audio renderizadas asociadas con todas las posiciones del segundo grupo pueden ser combinadas, si se 25 desea reducir adicionalmente un número de decorrelacionadores individuales.

[0257] Para resumir, las señales alimentadas al diseño de salida (por ejemplo, a los altavoces) tienen dependencias horizontales y verticales, que deberían ser conservadas durante el proceso de decorrelación. Por lo tanto, los coeficientes de mezclado son computados de tal modo que los canales que corresponden a diferentes

30 grupos de altavoces no están mezclados entre sí.

[0258] Dependiendo del número de decorrelacionadores disponibles, o el nivel deseado de decorrelación, en cada grupo primero se mezclan juntos los pares verticales (entre la capa media y la capa superior o entre la capa media y la capa inferior). Segundo, los pares horizontales (entre izquierdo y derecho) o los pares verticales

35 remanentes se mezclan entre sí. Por ejemplo, en el grupo tres, primero se mezclan entre sí los canales en el par vertical izquierdo (“CH_M_L030” y “cH_L_L045”), y en el par vertical derecho (“CH_M_R030” y “CH_L_R045”), reduciendo de esta manera el número de decorrelacionadores requerido para este grupo de cuatro a dos. Si se desea reducir aún más el número de decorrelacionadores, el par horizontal obtenido es mezclado descendente a un sólo canal, y el número de decorrelacionadores requeridos para este grupo se reduce de cuatro a uno.

40

[0259] En base a las reglas de mezclado presentadas, las tablas mencionadas más arriba (por ejemplo, mostradas en las Figuras 19a a 19g a 23) se derivan para diferentes niveles de decorrelación deseada (o para diferentes niveles de complejidad de decorrelación deseada).

45 16. Compatibilidad con un renderizador externo secundario/convertidor de formato

50

[0260] En el caso en el que el decodificador SAOC (o, de forma más general, el decodificador de audio

multicanal) se utilice junto con un renderizador secundario/convertidor de formato externos, se pueden usar los siguientes cambios al concepto (procedimiento o aparato) propuesto:

R=IN

- la matriz de renderización interna R(por ejemplo, del renderizador) es fijada con la identidad °ljecs (cuando se usa un renderizador externo) o inicializada con los coeficientes de mezclado derivados de una configuración intermedia de representación (cuando se usa un convertidor de formato externo).

- el número de decorrelacionadores es reducido mediante el uso del procedimiento descrito en la sección 15 con la

M

55 matriz de premezclado pre computada en base a la información de retroalimentación recibida del

M = D t D ^

renderizador/convertidor de formato (por ejemplo, ppe com’ert en el que c°Met es la matriz de mezcla

descendente usada dentro del convertidor de formato). Los canales que serán mezclados entre sí fuera del

decodificador SAOC, son premezclados entre sí y alimentados en el mismo decorrelacionador dentro del decodificador SAOC.

[0261] Mediante el uso de un convertidor de formato externo, el renderizador interno SAOC pre-renderizará a 5 una configuración intermedia (por ejemplo, la configuración con el mayor número de altavoces).

[0262] Para concluir, en algunas realizaciones se usa una información acerca de cuáles de las señales de audio de salida son mezcladas entre sí en un renderizador o convertidor de formato externo para determinar la matriz de premezclado Mpre, de tal modo que la matriz de premezclado define una combinación de tales señales de

10 entrada del decorrelacionador (del primer conjunto de señales de entrada del decorrelacionador) que son combinadas realmente en el renderizador externo. Así, la información recibida del renderizador/convertidor de formato externo (que recibe las señales de audio de salida del decodificador multicanal) se usa para seleccionar o ajustar la matriz de premezclado (por ejemplo, cuando la matriz de renderización interna del decodificador de audio multicanal es fijada en la identidad, o inicializada con los coeficientes de mezclado derivados de una configuración 15 de representación intermedia), y el renderizador/convertidor de formato externo es conectado para recibir las señales de audio de salida como se ha mencionado más arriba con respecto al decodificador de audio multicanal.

17. Flujo de Bits

20 [0263] A continuación se describirá qué información de señalización adicional puede ser usada en un flujo de

bits (o, de forma equivalente, en una representación codificada del contenido de audio). En realizaciones según la invención, el procedimiento de decorrelación puede ser señalizado en el flujo de bits para asegurar un nivel de calidad deseado. De esta manera, el usuario (o un codificador de audio) tiene más flexibilidad para seleccionar el procedimiento basado en el contenido. Para este propósito, la sintaxis de flujo de bits SAOC de MPEG puede ser 25 extendida, por ejemplo, con dos bits para especificar el procedimiento de decorrelación usado y/o dos bits para especificar la configuración (o complejidad).

[0264] La Figura 25 muestra una representación de sintaxis de elementos de flujo de bits “bsDecorrelationMethod” y “bsDecorrelationLevel”, que puede ser agregada, por ejemplo, a una porción de flujo de

30 bits “SAOCSpecifigConfig()” o “SAOC3DSpecificConfig()”. Como se puede observar en la Figura 25, se pueden usar dos bits para el elemento de flujo de bits “bsDecorrelationMethod”, y dos bits se pueden usar para el elemento de flujo de bits “bsDecorrelationLevel”.

[0265] La Figura 26 muestra, en forma de una tabla, una asociación entre valores del flujo de bits variable 35 “bsDecorrelationMethod” y los diferentes procedimientos de decorrelación. Por ejemplo, tres diferentes

procedimientos de decorrelación pueden ser señalizados por diferentes valores de dicho flujo de bits variable. Por ejemplo, una corrección de la covarianza de salida mediante el uso de señales decorrelacionadas, como se describe, por ejemplo, en la sección 14.3, puede ser señalizada como una de las opciones. Como otra opción, se puede señalizar un procedimiento de ajuste de covarianza, por ejemplo, como se describe en la sección 14.4.1. 40 Como otra opción, se puede señalizar un procedimiento de compensación de energía, por ejemplo, como se describe en la sección 14.4.2. Por consiguiente, tres diferentes procedimientos para la reconstrucción de características de señales de las señales de audio de salida en base a las señales de audio renderizadas y las señales de audio decorrelacionadas pueden ser seleccionados en dependencia de un flujo de bits variable.

45 [0266] El modo de compensación de energía usa el procedimiento descrito en la sección 14.4.2, el modo de

ajuste de covarianza limitada usa el procedimiento descrito en la sección 14.4.1, y el modo de ajuste de covarianza general usa el procedimiento descrito en la sección 14.3.

[0267] Haciendo referencia ahora a la Figura 27, que muestra en la forma de una representación en forma de 50 tabla, cómo diferentes niveles de decorrelación pueden ser señalizados por el flujo de bits variable

“bsDecorrelationLevel”, se describirá ahora un procedimiento para seleccionar la complejidad de decorrelación. En otras palabras, dicha variable puede ser evaluada por un decodificador de audio multicanal que comprende el decorrelacionador multicanal descrito más arriba para decidir qué complejidad de decorrelación se usa. Por ejemplo, dicho parámetro de flujo de bits puede señalizar diferentes “niveles” de decorrelación que pueden ser designados 55 con los valores: 0, 1, 2 y 3.

[0268] Un ejemplo de configuraciones de decorrelación (que pueden ser designados, por ejemplo, como “niveles” de decorrelación) se da en la tabla de la Figura 27. La Figura 27 muestra una representación en forma de tabla de un número de decorrelacionadores para diferentes “niveles” (por ejemplo, niveles de decorrelación) y

60 configuraciones de salida. En otras palabras, la Figura 27 muestra el número K de señales de entrada del decorrelacionador (del segundo conjunto de señales de entrada del decorrelacionador), que es usado por el

decorrelacionador multicanal. Como se puede ver en la tabla de la Figura 27, un número de decorrelacionadores (individuales) usado en el decorrelacionador multicanal es conmutado entre 11, 9, 7 y 5 para una configuración de salida 22.2, en dependencia de la cual un “nivel de decorrelación” es señalizado por el parámetro de flujo de bits “bsDecorrelationLevel”. Para una configuración de salida 10.1, se realiza una selección entre 10, 5, 3 y 2 5 decorrelacionadores individuales, para una configuración 8.1, se realiza una selección entre 8, 4, 3 ó 2 decorrelacionadores individuales, y para una configuración de salida 7.1, se realiza una selección entre 7, 4, 3 y 2 decorrelacionadores en dependencia del “nivel de decorrelación” señalizado por dicho parámetro de flujo de bits. En la configuración de salida 5.1, hay sólo tres opciones válidas para los números de decorrelacionadores individuales, a saber 5, 3 ó 2. Para la configuración de salida 2.1, hay sólo una elección entre dos decorrelacionadores 10 individuales (nivel de decorrelación 0) y un decorrelacionador individual (nivel de decorrelación 1).

[0269] Para resumir, el procedimiento de decorrelación puede ser determinado en el lado del decodificador basado en la potencia computacional y un número de decorrelacionadores disponible. Además, se puede realizar la selección del número de decorrelacionadores en el lado del codificador y se puede señalizar mediante el uso de un

15 parámetro de flujo de bits.

[0270] Por consiguiente, tanto el procedimiento de cómo se aplican las señales de audio decorrelacionadas para obtener las señales de audio de salida, y la complejidad para la provisión de las señales decorrelacionadas pueden ser controlados desde el lado de un codificador de audio mediante el uso de los parámetros de flujo de bits

20 mostrados en la Figura 25 y definidos con mayores detalles en las Figuras 26 y 27.

18. Campos de aplicación para el procesamiento de la invención

[0271] Debería señalarse que uno de los propósitos de los procedimientos introducidos es restaurar pistas de 25 audio, que son de mayor importancia para la percepción humana de una escena de audio. Las realizaciones según

la invención mejoran una exactitud de reconstrucción de nivel de energía y propiedades de correlación y por lo tanto aumentan la calidad de audio perceptual de la señal de salida final. Las realizaciones según la invención pueden ser aplicadas para un número de canales de mezcla descendente/mezcla ascendente arbitrarios. Además, los procedimientos y aparatos descritos en esta invención pueden ser combinados con algoritmos de separación de 30 fuentes paramétricas existentes. Las realizaciones según la invención permiten controlar la complejidad computacional del sistema fijando restricciones al número de funciones de decorrelacionador aplicadas. Las realizaciones según la invención pueden llevar a una simplificación de los algoritmos de construcción paramétrica basados en objetos como SAOC eliminando un paso de transcodificación de MPS.

35 19. Entorno de codificación/decodificación

[0272] A continuación se describirá un entorno de codificación/decodificación de audio en el cual se pueden aplicar conceptos según la presente invención.

40 [0273] Un sistema códec de audio 3D, en el cual se pueden usar los conceptos según la presente invención,

se basa en un códec USAC de MPEG-D para la codificación de señales de canales y objetos para aumentar la eficacia para la codificación de una gran cantidad de objetos. Se ha adaptado la tecnología MPEG-SAOC. Tres tipos de renderizadores realizan las tareas de renderizar objetos a canales, renderizar canales a auriculares o renderizar canales a diferentes configuraciones de altavoces. Cuando las señales de objetos son transmitidas explícitamente o 45 son codificadas paramétricamente mediante el uso de SAOC, la información de metadatos de objetos correspondiente es comprimida y multiplexada en la corriente de audio 3D.

[0274] Las Figuras 28, 29 y 30 muestran los diferentes bloques algorítmicos del sistema de audio 3D.

50 [0275] La Figura 28 muestra un diagrama de bloques esquemático de un codificador de audio de este tipo, y

la Figura 29 muestra un diagrama de bloques esquemático de un decodificador de audio de este tipo. En otras palabras, las Figuras 28 y 29 muestran los diferentes bloques de algoritmos del sistema de audio 3D.

[0276] Haciendo referencia ahora a la Figura 28, que muestra un diagrama de bloques esquemático de un

55 codificador de audio 3D 2900, se explicarán algunos detalles. El codificador 2900 comprende un pre- renderizador/mezclador opcional 2910, que recibe una o más señales de canales 2912 y una o más señales de objetos 2914 y proporciona, en base a éstas, una o más señales de canales 2916 así como una o más señales de objetos 2918, 2920. El codificador de audio comprende también un codificador USAC 2930 y opcionalmente un codificador SAOC 2940. El codificador SAOC 2940 está configurado para proporcionar uno o más canales de 60 transporte SAOC 2942 y una información lateral SAOC 2944 en base a uno o más objetos 2920 proporcionados al codificador SAOC. Además, el codificador USAC 2930 está configurado para recibir las señales de canales 2916

que comprenden canales y objetos pre-renderizados del pre-renderizador/mezclador 2910, para recibir una o más señales de objetos 2918 del pre-renderizador/mezclador 2910, y para recibir una o más señales de transporte SAOC 2942 e información lateral SAOC 2944, y proporciona, en base a éstas, una representación codificada 2932. Además, el codificador de audio 2900 también comprende un codificador de metadatos de objetos 2950 que está 5 configurado para recibir metadatos de objetos 2952 (que pueden ser evaluados por el pre-renderizador/mezclador 2910) y para codificar los metadatos de objetos para obtener metadatos de objetos codificados 2954. Los metadatos codificados también son recibidos por el codificador USAC 2930 y usados para proporcionar la representación codificada 2932.

10 [0277] Algunos detalles con respecto a los componentes individuales del codificador de audio 2900 serán

descritos más abajo.

[0278] Haciendo referencia ahora a la Figura 29, se describirá un decodificador de audio 3000. El decodificador de audio 3000 está configurado para recibir una representación codificada 3010 y para proporcionar,

15 en base a ésta, una señal de altavoz multicanal 3012, señales de auriculares 3014 y/o señales de altavoces 3016 en un formato alternativo (por ejemplo, en un formato 5.1). El decodificador de audio 3000 comprende un decodificador USAC 3020, que proporciona una o más señales de canales 3022, una o más señales de objetos pre-renderizadas 3024, una o más señales de objetos 3026, una o más señales de transporte SAOC 3028, una información lateral SAOC 3030 y una información de metadatos de objetos comprimida 3032 en base a la representación codificada 20 3010. El decodificador de audio 3000 comprende también un renderizador de objetos 3040, que está configurado para proporcionar una o más señales de objetos renderizadas 3042 en base a una o más señales de objetos 3026 y una información de metadatos de objetos 3044, en donde la información de metadatos de objetos 3044 es proporcionada por un decodificador de metadatos de objetos 3050 en base a la información de metadatos de objetos comprimida 3032. El decodificador de audio 3000 comprende también, opcionalmente, un decodificador SAOC 3060, 25 que está configurado para recibir el canal de transporte SAOC 3028 y la información lateral SAOC 3030, y para proporcionar, en base a éstas, una o más señales de objetos renderizadas 3062. El decodificador de audio 3000 comprende también un mezclador 3070, que está configurado para recibir las señales de canales 3022, las señales de objetos pre-renderizadas 3024, las señales de objetos renderizadas 3042 y las señales de objetos renderizadas 3062, y para proporcionar, en base a éstas, una pluralidad de señales de canales mezcladas 3072, que pueden 30 constituir, por ejemplo, las señales de altavoces multicanal 3012. El decodificador de audio 3000 puede comprender también, por ejemplo, un renderizador binaural 3080, que está configurado para recibir las señales de canales mezcladas 3072 y para proporcionar, en base a éstas, las señales de auriculares 3014. Además, el decodificador de audio 3000 puede comprender una conversión de formato 3090, que está configurada para recibir las señales de canales mezcladas 3072 y una información de diseño de reproducción 3092 y para proporcionar, en base a éstas, 35 una señal de altavoz 3016 para una configuración de altavoz alternativa.

[0279] A continuación, se describirán algunos detalles con respecto a los componentes del codificador de audio 2900 y del decodificador de audio 3000.

40 19.1. Pre-renderizador/mezclador

[0280] El pre-renderizador/mezclador 2910 puede ser usado opcionalmente para convertir una escena de canal más entrada de objeto en una escena de canal antes de la codificación. Funcionalmente, puede ser, por ejemplo, idéntica al renderizador/mezclador de objetos descrito más abajo.

45

[0281] La pre-renderización de objetos puede asegurar, por ejemplo, una entropía de señales determinística en la entrada del codificador que es básicamente independiente del número de señales de objetos simultáneamente activos.

50 [0282] Con la pre-renderización de objetos, no se requiere una transmisión de metadatos de objetos.

[0283] Señales de objetos discretas son renderizadas al diseño del canal para el cual el codificador está configurado para usar, los pesos de los objetos para cada canal son obtenidos de los metadatos de objetos asociados (OAM) 1952.

55

19.2. Códec núcleo de USAC

[0284] El códec núcleo 2930, 3020 para señales de canales de altavoces, señales de objetos discretas, señales de objetos de mezcla descendente y señales pre-renderizadas se basa en la tecnología MPEG-D USAC.

60 Gestiona la decodificación de la multitud de señales creando información de mapeo de canales y objetos basada en la información geométrica y semántica del canal de entrada y de la asignación de objetos. Esta información de

mapeo describe cómo los canales de entrada y objetos son mapeados a los elementos de canales USAC (CPEs, SCEs, LFEs) y la información correspondiente es transmitida al decodificador.

[0285] Todas las cargas útiles adicionales como los datos SAOC o los metadatos de objetos han sido 5 pasados a través de los elementos de extensión y han sido considerados en el control de velocidad de los

codificadores. La decodificación de objetos es posible de diferentes maneras, dependiendo de los requisitos de velocidad/distorsión y los requisitos de interactividad para el renderizador. Las siguientes variantes de codificación de objetos son posibles:

10 - Objetos pre-renderizados: señales de objetos son pre-renderizadas y mezcladas con las señales de canales 22.2 antes de la codificación. La subsiguiente cadena de codificación ve 22.2 señales de canales.

- Formas de onda de objetos discretos: objetos son aplicados como formas de onda monofónicas al codificador. El codificador usa elementos de canales únicos SCEs para transmitir los objetos además de las señales de canales. Los objetos decodificados son renderizados y mezclados en el lado del receptor. La información de metadatos de

15 objetos comprimida es transmitida también al receptor/renderizador.

- Formas de onda de objetos paramétricos: las propiedades de objetos y su relación entre sí son descritas por medio de parámetros SAOC. La mezcla descendente de las señales de objetos es codificada con USAC. La información paramétrica es transmitida conjuntamente. El número de canales de mezcla descendente es elegido dependiendo del número de objetos y la velocidad de datos general. La información de metadatos de objetos comprimida es

20 transmitida al renderizador SAOC.

19.3. SAOC

[0286] El codificador SAOC 2940 y el decodificador SAOC 3060 para señales de objetos se basan en la 25 tecnología SAOC de MPEG. El sistema es capaz de recrear, modificar y renderizar un número de objetos de audio

en base a un número más pequeño de canales transmitidos y datos paramétricos adicionales (diferencias de niveles de objetos OLD, correlaciones interobjetos IOC, ganancias de mezcla descendente DMG). Los datos paramétricos adicionales presentan una velocidad de datos significativamente menor que la requerida para transmitir todos los objetos individualmente, haciendo que la decodificación sea muy eficaz. El codificador SAOC toma como entrada las 30 señales de objetos/canales como formas de onda monofónicas y da salida a la información paramétrica (que está empaquetada en los flujos de bits de audio 3D 2932, 3010) y los canales de transporte SAOC (que son codificados mediante el uso de elementos de canales únicos y transmitidos). El decodificador SAOC 3000 reconstruye las señales de objetos/canales de los canales de transporte SAOC decodificados 3028 y la información paramétrica 3030, y genera la escena de audio de salida en base al diseño de reproducción, la información de metadatos de 35 objetos descomprimida y opcionalmente la información de interacción del usuario.

19.4. Códec de metadatos de objetos

[0287] Para cada objeto, los metadatos asociados que especifican la posición geométrica y el volumen del 40 objeto en espacio 3D son eficazmente codificados por cuantificación de las propiedades de los objetos en tiempo y

espacio. Los metadatos de objetos comprimidos cOAM 2954, 3032 son transmitidos al receptor como información lateral.

19.5. Renderizador/mezclador de objetos

45

[0288] El renderizador de objetos utiliza los metadatos de objetos descomprimidos OAM 3044 para generar formas de ondas de objetos según el formato de reproducción dado. Cada objeto es renderizado a determinados canales de salida según sus metadatos. La salida de este bloque resulta de la suma de los resultados parciales.

50 [0289] Si se decodifican tanto el contenido basado en los canales como también los objetos

discretos/paramétricos, las formas de onda basadas en canales y las formas de onda de objetos renderizados son mezcladas antes de la salida de las formas de ondas resultantes (o antes de alimentarlas a un módulo postprocesador como el renderizador binaural o el módulo del renderizador de altavoces).

55 19.6. Renderizador binaural

[0290] El módulo renderizador binaural 3080 produce una mezcla descendente binaural del material de audio

multicanal, de tal modo que cada canal de entrada es representado por una fuente de sonido virtual. El procesamiento es conducido en forma de marcos en el dominio QMF. La binauralización se basa en respuestas de 60 impulsos de ambientes binaurales medidos.

19.7. Renderizador de altavoces/conversión de formato

[0291] El renderizador de altavoz 3090 convierte entre la configuración de canal transmitida y el formato de reproducción deseado. Por eso es denominado “convertidor de formato” en lo sucesivo. El convertidor de formato

5 realiza conversiones a números más bajos de canales de salida, es decir, crea mezclas descendentes. El sistema genera automáticamente matrices de mezclado descendente optimizadas para la combinación dada de formatos de entrada y salida y aplica estas matrices en un proceso de mezcla descendente. El convertidor de formato permite configuraciones de altavoces estándar así como también configuraciones al azar con posiciones de altavoces no estándar.

10

[0292] La Figura 30 muestra un diagrama de bloques esquemático de un convertidor de formato. En otras palabras, la Figura 30 muestra la estructura del convertidor de formato.

[0293] Como se puede ver, el convertidor de formato 3100 recibe las señales de salida del mezclador 3110, 15 por ejemplo, las señales de canales mezcladas 3072, y proporciona señales de altavoces 3112, por ejemplo, las

señales de altavoces 3016. El convertidor de formato comprende un proceso de mezcla descendente 3120 en el dominio QMF y un configurador de mezcla descendente 3130, en el que el configurador de mezcla descendente proporciona información de configuración para el proceso de mezcla descendente 3020 en base a una información de diseño de salida del mezclador 3032 y una información de diseño de reproducción 3034.

20

19.8. Observaciones generales

[0294] Además, debería señalarse que los conceptos descritos en esta invención, por ejemplo, el decodificador de audio 100, el codificador de audio 200, el decorrelacionador multicanal 600, el decodificador de

25 audio multicanal 700, el codificador de audio 800 o el decodificador de audio 1550 se pueden usar dentro del codificador de audio 2900 y/o dentro del decodificador de audio 3000. Por ejemplo, los codificadores/decodificadores de audio mencionados más arriba se pueden usar como parte del codificador SAOC 2940 y/o como parte del decodificador SAOC 3060. Sin embargo, los conceptos mencionados más arriba también pueden ser usados en otras posiciones del decodificador de audio 3D 3000 y/o del codificador de audio 2900.

30

[0295] Naturalmente, los procedimientos mencionados más arriba también pueden ser usados en conceptos para la codificación o decodificación de información de audio según las Figuras 28 y 29.

20. Realizaciones adicionales

35

20.1 Introducción

[0296] A continuación se describirán otras realizaciones según la presente invención.

40 [0297] La Figura 31 muestra un diagrama de bloques esquemático de un procesador de mezcla descendente,

según una realización de la presente invención.

[0298] El procesador de mezcla descendente 3100 comprende un desmezclador 3110, un renderizador 3120,

un combinador 3130 y un decorrelacionador multicanal 3140. El renderizador proporciona señales de audio 45 renderizadas Ydry al combinador 3130 y al decorrelacionador multicanal 3140. El decorrelacionador multicanal comprende un premezclador 3150, que recibe las señales de audio renderizadas (que pueden ser consideradas como un primer conjunto de señales de entrada del decorrelacionador) y proporciona, en base a éstas, un segundo conjunto de señales de entrada del decorrelacionador premezcladas a un núcleo de decorrelacionador 3160. El núcleo de decorrelacionador proporciona un primer conjunto de señales de salida del decorrelacionador en base al 50 segundo conjunto de señales de entrada del decorrelacionador para el uso por un post-mezclador 3170. El postmezclador post-mezcla (o mezcla ascendente) las señales de salida del decorrelacionador proporcionadas por el núcleo del decorrelacionador 3160, para obtener un segundo conjunto de señales de salida del decorrelacionador post-mezclado, que se proporciona al combinador 3130.

55 [0299] El renderizador 3130 puede aplicar, por ejemplo, una matriz R para la renderización, el premezclador

puede aplicar, por ejemplo, una matriz Mpre para el premezclado, el post-mezclador puede aplicar, por ejemplo, una matriz Mpost para el post-mezclado, y el combinador puede aplicar, por ejemplo, una matriz P para la combinación.

[0300] Debería señalarse que el procesador de mezcla descendente 3100, o componentes individuales o

60 funcionalidades del mismo, se pueden usar en los decodificadores de audio descritos en esta invención. Además, debería señalarse que el procesador de mezcla descendente puede ser suplementado por cualquiera de las

características y funcionalidades descritas en esta invención.

20.2 Procesamiento en 3D SAOC

5 [0301] Se aplica el banco de filtro híbrido descrito en ISO/IEC 23003-1:2007. La descuantificación de los

parámetros DMG, OlD, IOC sigue las mismas reglas que las definidas en 7.1.2 de ISO/IEC 23003-2:2010.

20.2.1 Señales y parámetros

10 [0302] Las señales de audio son definidas para cada intervalo de tiempo n y cada sub-banda híbrida k . Los

parámetros 3D SAOC correspondientes son definidos para cada parámetro de intervalo de tiempo l y procesamiento por m. El mapeo subsiguiente entre el híbrido y el dominio del parámetro es especificado por la Tabla A.31 de ISO/IEC 23003-1:2007. Por lo tanto, todos los cálculos se realizan con respecto a determinados índices de tiempo/banda y las dimensionalidades correspondientes están implícitas para cada variable introducida.

15

[0303] Los datos disponibles en el decodificador 3D SAOC consisten en la señal de mezcla descendente

multicanal X, la matriz de covarianza e , la matriz de renderización R y la matriz de mezcla descendente d .

20.2.1.1 Parámetros de objetos

20

c- •

[0304] La matriz de covarianza e de tamaño N x N con elementos y representa una aproximación de la matriz de covarianza de señales original E » S S * y es obtenida de los parámetros OLD y IOC como:

e. . - A¡OLD~OLD~ 10C.

‘tj v J J •>./

25

[0305] Aquí, los parámetros de objetos descuantificados se obtienen como:

20.2.1.3 Matriz de mezcla descendente

30 [0306] La matriz de mezclado descendente d aplicada a las señales de audio de entrada S determina la

señal de mezcla descendente como X = DS . La matriz de mezcla descendente d de tamaño N »™x x N es obtenida como:

T) = T) T)

^dmx^premix

35

45

imagen43

0

10

005 dm;,3

, de otro modo

[0307] La matriz D »™x y la matriz premx tienen diferentes tamaños

dependiendo del modo de procesamiento. La matriz D »™x es obtenida de los parámetros DMG como:

, si ningún dato de DMG para (ij) está presente en el flujo de bits

[0308] Aquí, los parámetros de mezcla descendente descuantificados son obtenidos como:

imagen44

50 20.2.1.3.1 Modo directo

D„.

[0309] En el caso de modo directo, no se usa un premezclado. La matriz premK tiene el tamaño N x N y está

dada por:Dpremix 1. La matriz D dmx tiene el tamaño N :

20.2.1.3.

y es obtenida de los parámetros DMG según

5 20.2.1.3.2 Modo de premezclado

[0310] En el caso del modo de premezclado la matriz Dpremixtiene el tamaño (Nch + Npremix^xN y está dada

por:

10

imagen45

N i X N j

en el que la matriz de premezclado A de tamaño premix obj es recibida como una entrada al decodificador 3D SAOC, del renderizador de objetos.

15 [0311] La matriz D tiene el tamaño Ndmx X (Nch + Npremix ^ y es obtenida de los parámetros DMG según

20.2.1.3.

20.2.1.4 Matriz de renderización

20 [0312] La matriz de renderización R aplicada a las señales de audio de entrada S determina la salida

renderizada objetivo como Y = R S . La matriz de renderización R de tamaño N x N está dada por:

R = (X„ RobJ).

25 en el que R .* de tamaño N out x N ■■ representa la matriz de renderización asociada con los canales de entrada y

R j N X N j

obj de tamaño out obj representa la matriz de renderización asociada con los objetos de entrada.

20.2.1.4 La matriz de covarianza de salida objetivo

c .

30 [0313] La matriz de covarianza C de tamaño N x N con elementos y representa una aproximación de la

matriz de covarianza de señal de salida objetivo c » y y * y es obtenida de la matriz de covarianza E y la matriz de renderización R:

C = RER*

35

20.2.2 Decodificación

[0314] Se describe el procedimiento para obtener una señal de salida mediante el uso de parámetros 3D

SAOC e información de renderización. El decodificador 3D SAOC manda, por ejemplo, y consiste en el procesador 40 de parámetros 3D SAOC y el procesador de mezcla descendente 3D SAOC.

20.2.2.1 Procesador de mezcla descendente

[0315] La señal de salida del procesador de mezcla descendente (representada en el dominio QMF híbrido)

45 es alimentada en el banco de filtro de síntesis correspondiente como se describe en ISO/IEC 23003-1:2007 dando la salida final del decodificador 3D SAOC. Una estructura detallada del procesador de mezcla descendente se ilustra en la Figura 31.

[0316] La señal de salida 'Y es computada a partir de la señal de mezcla descendente multicanal Xy la señal

multicanal decorrelacionada X» como:

5

imagen46

en el que U representa la matriz de desmezclado paramétrica y se define en 20.2.2.1.1 y 20.2.2.1.2.

[0317] La señal multicanal decorrelacionada X» es computada según 20.2.3.

10

imagen47

[0318]

La matriz de mezclado

P= (P P )

\ dry wet)

se describe en 20.2.3. Las matrices

M

pre

para diferente

configuración de salida se dan en las Figuras 19 a 23 y las matrices postson obtenidas mediante el uso de la 15 siguiente ecuación:

imagen48

[0319] El modo de decodificación es controlado por el elemento de flujo de bits bsNumSaocDmxObjetos, 20 como se muestra en la Figura 32.

20.2.2.1.1 Modo de decodificación combinado

[0320] En el caso del modo de decodificación combinado la matriz de desmezclado paramétrica U está dada 25 por:

imagen49

[0321] La matriz J de tamaño N x * N «m x está dada por J » a -1 con a = d e d * .

30

20.2.2.1.2 Modo de decodificación independiente

[0322] En el caso del modo de decodificación independiente la matriz de desmezclado U está dada por:

35

imagen50

o '

U0„,

en el que:

U ch = E ch D ch J ch

Uobj = EobjDobjJ

y

obj

E

[0323] La matriz de covarianza basada en canales ch de tamaño N ch * N ch y la matriz de covarianza

40 basada en objetos E°bj de tamaño N°bj *N°bjson obtenidas de la matriz de covarianza E seleccionando sólo los bloques diagonales correspondientes:

imagen51

en el que la matriz

Ech,obj (Eobj,ch )

representa la matriz de covarianza cruzada entre los canales de entrada y

los objetos de entrada y no se requiere que sean calculados

D

[0324] La matriz de mezclado descendente basada en canales ch de tamaño

N "Bm x X N c

y la matriz de

D„

Ndmx X N

mezclado descendente basada en objetos obj de tamaño obj obj son obtenidas de la matriz de mezclado descendente D seleccionando sólo los bloques diagonales correspondientes:

10

imagen52

15 [0326] La matriz

A = DobjEobjDobj

JcB ~ (DcBEcBDcB ) Jobj » (DobjEobjDobj )

[0325] La matriz cB ' cB cB cB/ de tamaño N "x X N "x es derivada por consiguiente a 20.2.2.1.4

para A = D .*E .*D c„

Ndmx X Ndmx

de tamaño obj obj es derivada por consiguiente a 20.2.2.1.4

para

20.2.2.1.4 Cálculo de la matriz J

20 [0327] La matriz J » A -1 es calculada mediante el uso de la siguiente ecuación:

inv\ j *

J = VA,nvV’

[0328] Aquí el vector singular V de la matriz A es obtenido mediante el uso de la siguiente ecuación

25 característica:

imagen53

[0329]

La inversa regularizada A de la matriz de valor singular diagonal A es computada como:

imagen54

= <

5

T l T

[0330] La regularización relativa escalar reg es determinada mediante el uso del umbral absoluto res y el

valor máximo de A como:

imagen55

20.2.3. Decorrelación

5

[0331] Las señales decorrelacionadas Xd son creadas a partir del decorrelacionador descrito en 6.6.2 de

ISO/IEC 23003-1:2007, con bsDecorrConfig == 0 y un índice de decorrelacionador, A, según las tablas en las

10 Figuras 19 a 24. Por lo tanto, la

decorrFunc(

denota el proceso de decorrelación:

imagen56

20.2.4. Matriz de mezclado p - Primera opción

15

[0332]

El cálculo de la matriz de mezclado

P ( P'dry Pwet )

es controlado por el elemento de flujo de bits

N x2N P P

bsDecorrelationMethod. La matriz p tiene el tamaño out out y las dry y wet tienen ambas el tamaño

Nout x Nout

20 20.2.4.1 Modo de compensación de energía

[0333] El modo de compensación de energía usa señales decorrelacionadas para compensar la pérdida de

PP

energía en la reconstrucción paramétrica. Las matrices de mezclado dry y wet están dadas por:

25

imagen57

l = 4

en el que Dec es una constante usada para limitar la cantidad de componente decorrelacionado agregado a las

señales de salida.

20.2.4.2 Modo de ajuste de covarianza limitada

[0334] El modo de ajuste de covarianza limitada garantiza que la matriz de covarianza de las señales

P Y

wet dryse aproxime a la diferencia de la matriz de covarianza A*:

decorrelacionadas mezcladas

p Ewet p*

5 wet Y wet

ecuaciones:

P

E. Las matrices de mezclado dry

y

wet

son definidas mediante el uso de las siguientes

imagen58

imagen59

en las que la inversa regularizada Q de la matriz de valor singular diagonal Q es computada como:

15

imagen60

T L

[0335] La regularización relativa escalar reg

valor máximo de Q como:

T

es determinada mediante el uso del umbral absoluto reg y

20

imagen61

[0336] La matriz ae es descompuesta mediante el uso de la descomposición de valor singular como:

imagen62

25 [0337] La matriz de covarianza de las señales decorrelacionadas

de la descomposición de valor singular:

E w

también se expresa mediante el uso

imagen63

30 20.2.4.3. Modo de ajuste de covarianza general

[0338]

salida finales

El modo de ajuste de covarianza general garantiza que la matriz de covarianza de las señales de

. E - = Y Y* E- » C

y ( Y ) se aproxime a la matriz de covarianza objetivo: Y . La matriz de mezclado

P es definida mediante el uso de la siguiente ecuación:

imagen64

5 en la que la inversa regularizada Q 2"’ de la matriz de valor singular diagonal Q es computada como

imagen65

T l T

[0339] La regularización relativa escalar reg es determinada mediante el uso del umbral absoluto res y el

10 valor máximo de Q 2"’ como:

imagen66

[0340] La matriz de covarianza objetivo C es descompuesta mediante el uso de la descomposición de valor 15 singular como:

C = V1Q1V1*

-pcom

[0341] La matriz de covarianza de las señales combinadas Y es expresada también mediante el uso de 20 la descomposición de valor singular:

EYom=v2q2v2*

[0342] La matriz H representa una matriz de factor de ponderación prototipo de tamaño (N x 2 N ■■>) y 25 está dada por la siguiente ecuación:

f

H =

imagen67

\¡2

0

0
0: Xl2 0 * • * Z-'------- o

Kii: 0 0 Xñ "■ 0

» • * + • «: 0 • É * • » * * * 0

0 •••: X¡2 0 0 •••

20.2.4.4 Matrices de covarianza introducidas

[0343] La matriz A* representa la diferencia entre la matriz de covarianza de salida objetivo C y la matriz de

Edy

5 covarianza * de las señales paramétricamente reconstruidas y está dada por:

imagen68

E dry

[0344] La matriz Y representa la matriz de covarianza de las señales paramétricamente estimadas

»Y Y*

10 Y dry rtj! y es definida mediante el uso de la siguiente ecuación:

imagen69

E wet

[0345] La matriz Y representa la matriz de covarianza de las señales decorrelacionadas

Ewet »Y Y*

15 Y wet wet y es definida mediante el uso de la siguiente ecuación:

imagen70

[0346] Considerando la señal Y com que consiste en la combinación de las señales paramétricas estimadas y

20 decorrelacionadas:

la matriz de covarianza de Y com 25

imagen71

es definida por la siguiente ecuación:

imagen72

-pi wet

[0347] La matriz Ey

decorrelacionadas después de 30 siguiente ecuación:

representa, por ejemplo, la matriz de covarianza estimada de las señales

p

haber aplicado la matriz de mezclado wet, y se define mediante el uso de la

imagen73

20.2.5. Matriz de mezcla P - Segunda opción

5 [0348]

El cálculo de la matriz de mezclado

P = [v A P

1 |_ dry ^weAwet

se controla por el elemento de corriente

N x 2N P P

de bits bsDecorrelationMethod. La matriz P tiene el tamaño out out y las matrices dry y wet tienen el

N X N A N X N

tamaño out out. La matriz de limitación wet de tamaño out out es dada por:

imagen74

.........................................................Edry e wet Ewet l = 4

donde se dan las matrices de covarianza Y , Y y Y , por ejemplo, en la sección 20.2.4.4 y i°ec es

una constante usada para limitar la cantidad de componente decorrelacionado adaptado a las señales de salida

15

20.2.5.1 Modo de compensación de energía

[0349]

El modo de compensación de energía usa señales decorrelacionadas para compensar la pérdida de

P P

energía en la reconstrucción paramétrica. Las matrices de mezcla dry y wet son dadas por:

20

imagen75

20.2.5.2 Conceptos y detalles adicionales

[0350] Con respecto a otros conceptos y detalles adicionales, también se hace referencia a las secciones

25 20.2.4.2 a 20.2.4.4.

20.3 Observaciones con respecto a la observación

[0351] Se debería señalar que se usan diferentes notaciones dentro de la presente solicitud. Sin embargo, queda claro a partir del contexto qué notación se aplica a una ecuación específica.

[0352] Por ejemplo, la matriz de mezclado se designa con ^ o F en algunas partes de la descripción, 5 mientras que la matriz de mezclado se designa con P en otras partes de la descripción.

[0353] Además, un componente de la matriz de mezclado que se va a aplicar a una señal seca (o señales secas) se designa con P en algunas partes de la descripción y con Pdry en otras partes de la descripción. De modo similar, un componente de la matriz de mezclado que se va a aplicar a una señal húmeda (o señales húmedas) se

10 designa con M en algunas partes de la descripción y con Pwet en otras partes de la descripción. Además, la matriz de covarianza Ew de las señales húmedas (antes de la etapa de mezclado con la matriz M) es igual a la matriz de

E wet

covarianza Y de las señales decorrelacionadas.

21. Alternativas de implementación

15

[0354] Aunque se han descrito algunos aspectos en el contexto de un aparato, está claro que estos aspectos también representan una descripción del procedimiento correspondiente, en el que un bloque o dispositivo corresponde a una etapa del procedimiento o una característica de una etapa del procedimiento. Análogamente, los aspectos descritos en el contexto de una etapa del procedimiento también representan una descripción de un bloque

20 correspondiente o elemento o característica de un aparato correspondiente. Algunas o todas las etapas del procedimiento pueden ser ejecutadas por (o mediante el uso de) un aparato de hardware, como por ejemplo, una microprocesadora, un ordenador programable o un circuito electrónico. En algunas realizaciones, una o más de las etapas del procedimiento más importantes pueden ser ejecutadas por un aparato de este tipo.

25 [0355] La señal de audio codificada de la invención puede ser almacenada en un medio de almacenamiento

digital o puede ser transmitida en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión alámbrico tal como Internet.

[0356] Dependiendo de ciertos requisitos de implementación, realizaciones de la invención pueden ser 30 implementadas en hardware o en software. La implementación puede ser realizada mediante el uso de un medio de

almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blu-Ray, un CD, una memoria ROM, PROM, EPROM, EEPROM o una memoria FLASH, que tienen señales de control que se pueden leer electrónicamente almacenadas en éstas, que cooperan (o son capaces de cooperar) con un sistema informático programable de tal modo que se realiza el procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible 35 por ordenador.

[0357] Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control que se pueden leer electrónicamente, que son capaces de cooperar con un sistema informático programable, de tal modo que se realiza uno de los procedimientos descritos en esta invención.

40

[0358] En general, las realizaciones de la presente invención pueden ser implementadas como un producto de un programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los procedimientos cuando el producto del programa informático se ejecuta en un ordenador. El código de programa puede ser almacenado, por ejemplo, en un soporte legible por máquina.

45

[0359] Otras realizaciones comprenden el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención, almacenado en un soporte legible por máquina.

[0360] En otras palabras, una realización del procedimiento de la invención es, por lo tanto, un programa 50 informático que tiene un código de programa para llevar a cabo uno de los procedimientos descritos en esta

invención, cuando el programa informático se ejecuta en un ordenador.

[0361] Una realización adicional de los procedimientos de la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital o un medio legible por ordenador) que comprende, grabado en el mismo, el

55 programa informático para llevar a cabo uno de los procedimientos descritos en esta invención. El soporte de datos, el medio de almacenamiento digital o el medio grabado son típicamente tangibles y/o no transitorios.

[0362] Otra realización del procedimiento de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representa el programa informático para llevar a cabo uno de los procedimientos descritos en esta

invención. El flujo de datos o la secuencia de señales pueden ser configurados, por ejemplo, para ser transferidos a través de una conexión de comunicación de datos, por ejemplo, vía Internet.

[0363] Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un 5 dispositivo de lógica programable, configurado o adaptado para realizar uno de los procedimientos descritos en esta

invención.

[0364] Otra realización comprende un ordenador que tiene instalado el programa informático para llevar a cabo uno de los procedimientos descritos en esta invención.

10

[0365] Otra realización según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, de forma electrónica u óptica) un programa informático para llevar a cabo uno de los procedimientos descritos en esta invención a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para

15 transferir el programa informático al receptor.

[0366] En algunas realizaciones, se puede usar un dispositivo de lógica programable (por ejemplo, una matriz de puertas programable de campo) para llevar a cabo algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de puertas programable de campo puede cooperar

20 con un microprocesador para llevar a cabo uno de los procedimientos descritos en esta invención. En general, los procedimientos son realizados preferentemente por cualquier aparato de hardware.

[0367] Las realizaciones anteriormente descritas son simplemente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las configuraciones y los detalles descritos en esta

25 invención serán evidentes para otros expertos en la técnica. Se pretende, por lo tanto, estar limitado solamente por el alcance de las reivindicaciones de patente adjuntas y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones de esta invención.

REFERENCIAS

30

[0368]

[BCC] C. Faller y F. Baumgarte, “Binaural Cue Codification - Part II: Schemes and applications,” IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[Blauert] J. Blauert, “Spatial Hearing - The Psychophysics of Human Sound Localization”, Revised Edition, The MIT 35 Press, Londres, 1997.

[JSC] C. Faller, “Parametric Joint-Codification of Audio Sources”, 120th AES Convention, París, 2006.

[1551] M. Parvaix y L. Girin: “Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding”, IEEE ICASSP, 2010.

[1552] M. Parvaix, L. Girin, J.-M. Brossier: “A watermarking-based method for informed source separation of audio 40 signals with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010.

[1553] A. Liutkus y J. Pinel y R. Badeau y L. Girin y G. Richard: “Informed source separation through spectrogram codification and data embedding”, Signal Processing Journal, 2011.

[1554] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: “Informed source separation: source codification meets source separation”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

45 [ISS5] S. Zhang y L. Girin: “An Informed Source Separation System for Speech Signals”, INTERSPEECH, 2011. [ISS6] L. Girin y J. Pinel: “Informed Audio Source Separation from Compressed Linear Stereo Mixtures”, AES 42nd International Conference: Semantic Audio, 2011.

[MPS] ISO/IEC, “Information technology - MPEG audio technologies - Part 1: MPEG Surround,” ISO/IEC JTC1/SC29/WG11 (MPEG) international Standard 23003-1:2006.

50 [OCD] J. Vilkamo, T. Backstrom, y A. Kuntz. “Optimized covariance domain framework for time-frequency processing of spatial audio”, Journal of the Audio Engineering Society, 2013. en prensa.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Codification of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, Abril 2007.

[SAOC2] J. Engdegárd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, 55 E. Schuijers y W. Oomen: "Spatial Audio Object Codification (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Codification", 124th AES Convention, Amsterdam 2008.

[SAOC] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Codification (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

Patente Internacional No. WO/2006/026452, "MULTICHANNEL DECORRELATION IN SPATIAL AUDIO 60 CODIFICATION" publicada el 9 de marzo de 2006.

Claims

REIVINDICACIONES

1. Un decodificador de audio multicanal (100; 700; 1550; 3000) para proporcionar al menos dos señales

de audio de salida (112,114; 712,714; 1552a - 1552n; 3012) en base a una representación codificada (110; 710; 5 1516a, 1516b,1518), parqueen el que el decodificador de audio multicanal se configura para renderizar (130; 1580)

una pluralidad de señales de audio decodificadas (122; 1562a - 1562n, X), que se obtienen en base a la representación codificada, a una escena objetivo de multicanales en dependencia de uno o más parámetros de renderización que definen una matriz de renderización, para obtener una pluralidad de señales de audio

renderizadas (134, 136; 1582a-1582n, %), y en el que el decodificador de audio multicanal se configura para derivar 10 (140; 1590) una o varias señales de audio decorrelacionadas (142,144; 1592a-1592n) de las señales de audio renderizadas, y en el que el decodificador de audio multicanal se configura para combinar (150;1598) las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, para obtener las señales de audio de salida, en el que el decodificador de audio multicanal se configura para obtener las señales de audio decodificadas, que se renderizan para obtener la pluralidad de señales de audio renderizadas, 15 utilizando una reconstrucción paramétrica (120; 1560); en el que las señales de audio decodificadas son señales de objeto reconstruidas, y en el que el decodificador de audio multicanal se configura para derivar las señales de objeto reconstruidas de una o más señales de mezcla descendente (1516a, 1516b) utilizando una información lateral (1518).

20 2. El decodificador de audio multicanal según la reivindicación 1, en el que el decodificador de audio

multicanal se configura para derivar coeficientes de no mezclado desde la información lateral y aplicar los coeficientes de no mezclado para derivar las señales objeto reconstruidas de una o varias señales de mezcla descendente mediante el uso de los coeficientes de no mezclado.

25 3. El decodificador de audio multicanal según una de las reivindicaciones 1 a 2, parqueen el que el

decodificador de audio multicanal se configura para combinar las señales de audio renderizadas con una o varias señales de audio decorrelacionadas, para lograr al menos parcialmente características de correlación deseadas o características de covarianza de las señales de audio de salida.

30 4. El decodificador de audio multicanal según una de las reivindicaciones 1 a 3, en el que el

decodificador de audio multicanal se configura para combinar las señales de audio renderizadas con una o varias señales de audio decorrelacionadas, para compensar al menos parcialmente una pérdida de energía durante una reconstrucción paramétrica (120; 1560) de las señales de audio decodificadas (122; 1562a a 1562n), que se renderizan para obtener la pluralidad de señales de audio renderizadas.

35
5. El decodificador de audio multicanal según una de las reivindicaciones 1 a 4, en el que el decodificador de audio multicanal se configura para determinar características de correlación deseadas o características de covarianza deseadas de las señales de audio de salida, y en el que el decodificador de audio multicanal se configura para ajustar una combinación (150; 1598) de las señales de audio renderizadas con una o

40 varias señales de audio decorrelacionadas, para obtener las señales de audio de salida, de tal modo que las características de correlación o características de covarianza de las señales de audio de salida obtenidas se aproximen o igualen las características de correlación deseadas o características de covarianza deseadas (C).
6. El decodificador de audio multicanal según la reivindicación 5, en el que el decodificador de audio 45 multicanal se configura para determinar las características de correlación deseadas o características de covarianza

deseadas (C) en dependencia de una información de renderización (R) que describe una renderización (130; 1560)

de la pluralidad de señales de audio decodificadas (X), que se obtienen en base a la representación codificada, para obtener la pluralidad de señales de audio renderizadas (Z).

50 7. El decodificador de audio multicanal según la reivindicación 5 o la reivindicación 6, en el que el

decodificador de audio multicanal se configura para determinar las características de correlación deseadas o características de covarianza deseadas (C) en dependencia de una información de correlación objeto o una información de covarianza objeto (EX) que describen características de una pluralidad de objetos de audio y/o una relación entre una pluralidad de objetos de audio.
8. El decodificador de audio multicanal según la reivindicación 7, en el que el decodificador de audio

multicanal se configura para determinar la información de correlación objeto o la información de covarianza objeto (Ex) en base a una información lateral (1518) incluida en la representación codificada.
9. El decodificador de audio multicanal según una de las reivindicaciones 5 a 8, en el que el

decodificador de audio multicanal se configura para determinar características de correlación reales o características de covarianza (ES) de las señales de audio renderizadas y una o varias señales de audio decorrelacionadas, y para 5 ajustar la combinación (150;1598) de las señales de audio renderizadas con una o varias señales de audio decorrelacionadas, para obtener las señales de audio de salida, en dependencia de las características de correlación reales o características de covarianza (ES) de las señales de audio renderizadas y una o varias señales de audio decorrelacionadas.

10 10. El decodificador de audio multicanal según una de las reivindicaciones 1 a 9, en el que el

decodificador de audio multicanal se configura para combinar las señales de audio renderizadas % con una o varias señales de audio decorrelacionadas W, para obtener las señales de audio de salida % según

Z = PZ + MW

15

en el que P es una matriz de mezclado que se aplica a las señales de audio renderizadas % y en el que M es una matriz de mezclado que se aplica a una o varias señales de audio decorrelacionadas W.

20
11. El decodificador de audio multicanal según la reivindicación 10, en el que el decodificador de audio

multicanal se configura para ajustar al menos una de la matriz de mezclado P y la matriz de mezclado M de tal modo

F~

que las características de correlación o características de covarianza ( z) de las señales de audio de salida

obtenidas % se aproximen o igualen las características de correlación deseadas o características de covarianza deseadas (C).

25 12. El decodificador de audio multicanal según la reivindicación 10 o la reivindicación 11, en el que el

decodificador de audio multicanal se configura para computar conjuntamente la matriz de mezclado P y la matriz de mezclado M.
13. El decodificador de audio multicanal según una de las reivindicaciones 10 a 12, en el que el

30 decodificador de audio multicanal se configura para obtener una matriz de mezclado combinada F, con

imagen1

35

de tal modo que una matriz de covarianza E2 de las señales de audio de salida obtenidas % se aproxime o iguale una matriz de covarianza deseada C.
14. El decodificador de audio multicanal según la reivindicación 13, en el que el decodificador de audio

multicanal se configura para determinar la matriz de mezclado combinada F de tal modo que la matriz de covarianza

40

imagen2

sea igual a la matriz de covarianza deseada

45

imagen3

en la que ES es una matriz de covarianza de una señal S que combina las señales de audio renderizadas % y una o varias señales de audio decorrelacionadas W, que se define como

y en la que EX es una matriz de covarianza objeto.

S =

Z

W
15. El decodificador de audio multicanal según una de las reivindicaciones 1 a 9, en el que el

decodificador de audio multicanal se configura para combinar las señales de audio renderizadas Z con una o varias señales de audio decorrelacionadas W, para obtener las señales de audio de salida Z según

5

o según

10

o según

Z = Adry PZ + MW

imagen4

Z — A¿ryPZ + AwetMW

15 en la que P es una matriz de mezclado que se aplica a las señales de audio renderizadas Zt y en la que M es una matriz de mezclado que se aplica a una o varias señales de audio decorrelacionadas W, en la que Adry es una primera matriz de corrección o una primera matriz de ajuste, en la que Awet es una segunda matriz de corrección o una segunda matriz de ajuste.

20 16. El decodificador de audio multicanal según la reivindicación 15, en el que el decodificador de audio

multicanal se configura para ajustar al menos una salida de la matriz de mezclado P y la matriz de mezclado M de tal

E™

modo que las características de correlación o características de covarianza ( Z) de las señales de audio de salida

obtenidas Z0 de señales de audio obtenidas por mezcla de^yW mediante el uso de P y M se aproximen o igualen las características de correlación deseadas o características de covarianza deseadas (C).

25
17. El decodificador de audio multicanal según la reivindicación 15 ó 16, en el que el decodificador de

audio multicanal se configura para computar conjuntamente la matriz de mezclado P y la matriz de mezclado M.
18. El decodificador de audio multicanal según cualquiera de las reivindicaciones 15 a 17, en el que el

30 decodificador de audio multicanal se configura para obtener una matriz de mezclado combinada F, con

imagen5

de tal modo que una matriz de covarianza ^2 de las señales de audio de salida obtenidas Z 0 una matriz de

35 covarianza de señales de audio obtenidas por mezclado de ^ y W mediante el uso de P y M se aproxime o iguale una matriz de covarianza deseada C.

40
19. El decodificador de audio multicanal según la reivindicación 18, en el que el decodificador de audio

multicanal se configura para determinar la matriz de mezclado combinada F de tal modo que la matriz de covarianza

E

FE^F

sea igual a la matriz de covarianza deseada

45

imagen6

en el que ES es una matriz de covarianza de una señal S que combina las señales de audio renderizadas Z y una 0 varias señales de audio decorrelacionadas W, que se define como

S =

Z

W

y en la que EX es una matriz de covarianza objeto.
20. El decodificador de audio multicanal según una de las reivindicaciones 15 a 19, en el que el

5 decodificador de audio multicanal se configura para determinar la primera matriz de corrección de tal modo que una contribución de las señales de audio renderizadas en las señales de audio de salida esté limitada, y/o en el que el decodificador de audio multicanal se configura para determinar la segunda matriz de corrección de tal modo que una contribución de las señales de audio decorrelacionadas en las señales de audio de salida esté limitada.

10 21. El decodificador de audio multicanal según cualquiera de las reivindicaciones 15 a 20, en el que el

decodificador de audio multicanal se configura para determinar la primera matriz de corrección en dependencia de propiedades de las señales de audio renderizadas, y/o en dependencia de propiedades de las señales de audio decorrelacionadas, y/o en dependencia de propiedades de señales de audio de salida deseadas, y/o en dependencia de propiedades estimadas de señales de audio renderizadas mixtas, y/o en dependencia de 15 propiedades estimadas de señales de audio decorrelacionadas mixtas, de tal modo que una contribución de las señales de audio renderizadas en las señales de audio de salida esté limitada, y/o en el que el decodificador de audio multicanal se configura para determinar la segunda matriz de corrección en dependencia de las propiedades de las señales de audio renderizadas, y/o en dependencia de propiedades de las señales de audio decorrelacionadas, y/o en dependencia de propiedades de señales de audio de salida deseadas, y/o en 20 dependencia de propiedades estimadas de señales de audio renderizadas mixtas, y/o en dependencia de propiedades estimadas de señales de audio decorrelacionadas mixtas, de tal modo que una contribución de las señales de audio decorrelacionadas en las señales de audio de salida esté limitada.
22. El decodificador de audio multicanal según la reivindicación 21, en el que las propiedades de las 25 señales de audio renderizadas, y/o de las señales de audio decorrelacionadas, y/o de las señales de audio de salida

deseadas, y/o de las señales de audio renderizadas mixtas, y/ o las señales de audio decorrelacionadas mixtas son propiedades de energía, o propiedades de correlación o propiedades de covarianza.
23. El decodificador de audio multicanal según una de las reivindicaciones 1 a 22, en el que el

30 decodificador de audio multicanal se configura para combinar las señales de audio renderizadas ^ con una o varias

señales de audio decorrelacionadas W, para obtener las señales de audio de salida ^ según

Z = Pl + AwetMW,

35 en el que el decodificador de audio multicanal se configura para proporcionar la matriz de corrección Awet de tal modo que Awet sea una matriz diagonal y de tal modo que se reduzcan las entradas Awet (i,i) de la matriz de corrección Awet cuando se comparan con entradas diagonales no reducidas normales de la matriz de corrección

p dvy

Awet si una relación entre una intensidad (JjT tJ) de una señal de audio renderizada y una intensidad

fWStfj -»

(pY w» LJ) de una señal de audio decorrelacionada mixta, donde la matriz de mezclado M, en una señal de audio 40 de salida i-écima sería menor que un valor umbral.
24. El decodificador de audio multicanal según la reivindicación 23, en el que el valor umbral es un valor umbral constante predeterminado o en el que el valor umbral es variante en tiempo y/o variante en frecuencia en dependencia de propiedades de señal, por ejemplo, propiedades de energía, propiedades de correlación y/o

45 propiedades de covarianza.
25. El decodificador de audio multicanal según una de las reivindicaciones 1 a 24, en el que el

decodificador de audio multicanal se configura para combinar las señales de audio renderizadas % con una o varias

señales de audio decorrelacionadas W, para obtener las señales de audio de salida % según 50

imagen7

en el que P=Pdry, en el que M=Pwet, 55

Awet = matdiag

i „ o E*(i, i)

max| 0,0 ——-

E wt(i, i)

1

min

en el que

Fdry -

en el que UY es una matriz de covarianza de las señales de audio renderizadas y f¡W9t

5 en el que es una matriz de covarianza estimada de las señales de audio decorrelacionadas después de

haber aplicado la matriz Pwet.

10
26. El decodificador de audio multicanal según la reivindicación 15, en el que el decodificador de audio

multicanal se configura para determinar la matriz de mezclado combinada F según

F = (uVtU") H (vVq^V" ),

15

donde las matrices U, T, V y Q se determinan mediante el uso de descomposición del valor singular de las matrices de covarianza ES y C para dar

C = U T U H

20

E, = VQV

H

en el que la matriz H se define como

imagen8

25

en el que ai,i y bi,i se seleccionan de tal modo que.

imagen9

y

30 27. El decodificador de audio multicanal según la reivindicación 10 o la reivindicación 11, en el que el

decodificador de audio multicanal se configura para establecer la matriz de mezclado P para que sea una matriz de identidad, o un múltiplo de ella, y para computar la matriz de mezclado M.
28. El decodificador de audio multicanal según la reivindicación 27, en el que el decodificador de audio

35 multicanal se configura para determinar la matriz de mezclado M de tal modo que una diferencia entre la matriz

F _

de covarianza deseada C y una matriz de covarianza 2 , que se define como

imagen10

40 sea igual o se aproxime a una covarianza

imagen11

, en la que la matriz de covarianza deseada C se define como

imagen12

5

en la que R es una matriz de renderización, en la que Ex es una matriz de covarianza objeto, y

en la que Ew es una matriz de covarianza de una o varias señales decorrelacionadas,

en la que

E1

es una matriz de covarianza de las señales de audio renderizadas.

y
29. El decodificador de audio multicanal según la reivindicación 28, en el que el decodificador de audio

multicanal se configura para determinar la matriz de mezclado M según

10

m=( u/tuu ) ( v/QV" )

donde las matrices U, T, V y Q se determinan mediante el uso de descomposición del valor singular de las matrices de covarianza y Ew para dar

15 A * = UTU u

y

Ew = VQV u

20
30. El decodificador de audio multicanal según la reivindicación 10 o la reivindicación 11,

en el que el decodificador de audio multicanal se configura para determinar las matrices de mezcla P, M bajo la restricción de que una señal de audio renderizada dada sólo se mezcla con una versión decorrelacionada de la 25 señal de audio renderizada dada propiamente dicha.
31. El decodificador de audio multicanal según la reivindicación 10 o la reivindicación 11 o la reivindicación 30, en el que el decodificador de audio multicanal se configura para combinar las señales de audio renderizadas con una o varias señales de audio decorrelacionadas de tal modo que sólo los valores de autocorrelación o los valores

30 de autocovarianza de señales de audio renderizadas se modifican mientras que los valores de correlación cruzada o los valores de covarianza cruzada quedan sin cambios.
32. El decodificador de audio multicanal según la reivindicación 10 o la reivindicación 11 o la reivindicación 30 o la reivindicación 31, en el que el decodificador de audio multicanal se configura para configurar la matriz de

35 mezclado P para que sea una matriz de identidad, o un múltiplo de ella, y para computar la matriz de mezclado M bajo la restricción de que M sea una matriz diagonal.
33. El decodificador de audio multicanal según la reivindicación 30, 31 ó 32, en el que el decodificador de audio multicanal se configura para combinar las señales de audio renderizadas % con una o varias señales de audio

40 decorrelacionadas W, para obtener las señales de audio de salida % según

/■w /v

Z = Z + MW

en el que M es una matriz de mezclado diagonal que se aplica a una o varias señales de audio decorrelacionadas 45 W, y en el que el decodificador de audio multicanal se configura para computar elementos diagonales de la matriz de mezclado M de tal modo que los elementos diagonales de una matriz de covarianza de las señales de audio de salida sean iguales a las energías deseadas.
34. El decodificador de audio multicanal según la reivindicación 33, en el que el decodificador de audio

50 multicanal se configura para computar los elementos de la matriz de mezclado M según,

imagen13

en el que la matriz de covarianza deseada C se define como

imagen14

en la que R es una matriz de renderización, en la que Ex es una matriz de covarianza objeto,

en la que Ew es una matriz de covarianza de una o varias señales decorrelacionadas, y 10 en la que lDec es un valor umbral que limita una cantidad de decorrelación añadida a las señales.
35. El decodificador de audio multicanal según cualquiera de las reivindicaciones 1 a 34, en el que el decodificador de audio multicanal se configura para considerar características de correlación o características de covarianza de las señales de audio decorrelacionadas cuando se determina cómo combinar las señales de audio

15 renderizadas, o su versión en escala, con una o varias señales de audio decorrelacionadas.
36. El decodificador de audio multicanal según una de las reivindicaciones 1 a 26 ó 35, en el que el decodificador de audio multicanal se configura para mezclar señales de audio renderizadas y señales de audio decorrelacionadas, de tal modo que una señal de audio de salida dada se proporciona en base a dos o más señales

20 de audio renderizadas y al menos una señal de audio decorrelacionada.
37. El decodificador de audio multicanal según una de las reivindicaciones 1 a 36, en el que el

decodificador de audio multicanal se configura para conmutar entre diferentes modos, en los que se aplican

diferentes restricciones para determinar cómo combinar las señales de audio renderizadas, o una de sus versiones

25 en escala, con una o varias señales de audio decorrelacionadas, para obtener las señales de audio de salida.
38. El decodificador de audio multicanal según una de las reivindicaciones 1 a 37, en el que el

decodificador de audio multicanal se configura para conmutar entre un primer modo, en el que se permite una

mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o

30 una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, un segundo modo en el que no se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que se permite que se combine una señal decorrelacionada dada, con igual o diferente escalada, con una pluralidad de señales de audio renderizadas, o una de sus versiones en escala, a fin de ajustar características de correlación 35 cruzadas o características de covarianza cruzadas de las señales de audio de salida, y un tercer modo en el que no se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que no se permite que una señal decorrelacionada dada se combine con señales de audio renderizadas distintas de una señal de audio renderizada de la que se deriva la señal decorrelacionada dada.

40
39. El decodificador de audio multicanal según la reivindicación 37 o la reivindicación 38, en el que el decodificador de audio multicanal se configura para evaluar un elemento de la corriente de bits de la representación codificada que indica cuál de los tres modos para combinar las señales de audio renderizadas, o una de sus versiones en escala, se debe usar con una o varias señales de audio decorrelacionadas, y para seleccionar el modo

45 en dependencia de dicho elemento de corriente de bits.
40. Un codificador de audio multicanal (200; 1510; 2900) para proporcionar una representación codificada (214; 1516a, 1516b, 1518; 2932) en base a al menos dos entradas de señales de audio (210,212; 1512a-1512n; 2912, 2914), en el que el codificador de audio multicanal se configura para proporcionar (220) una o varias señales

50 de mezcla descendente (222; 1516a,1516b) en base a al menos dos señales de audio de entrada, y en el que el codificador de audio multicanal se configura para proporcionar (230) uno o varios parámetros (232; 1518) que describen una relación entre al menos dos señales de audio de entrada, y en el que el codificador de audio multicanal se configura para proporcionar (240) un parámetro del procedimiento de decorrelación (242; 1518) que

describe qué modo de decorrelación de una pluralidad de modos de decorrelación se deberá usar del lado de un decodificador de audio, en el que el codificador de audio multicanal se configura para proporcionar selectivamente el parámetro del procedimiento de decorrelación, para señalar uno de los tres siguientes modos para la operación de un decodificador de audio: un primer modo, en el que se permite una mezcla entre diferentes señales de audio 5 renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, un segundo modo en el que no se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que se permite que una señal decorrelacionada dada se combine, con igual o diferente escalada, con una pluralidad de señales de audio 10 renderizadas, o una de sus versiones en escala, a fin de ajustar características de correlación cruzadas o características de covarianza cruzadas de las señales de audio de salida, y un tercer modo en el que no se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que no se permite que una señal decorrelacionada dada se combine con señales de audio renderizadas distintas de una señal de 15 audio renderizada de la que se deriva la señal decorrelacionada dada.
41. El codificador de audio multicanal según la reivindicación 40, en el que el codificador de audio multicanal se configura para seleccionar el parámetro del procedimiento de decorrelación en dependencia de si las señales de audio de entrada comprenden una correlación comparativamente alta o una correlación

20 comparativamente menor.
42. El codificador de audio multicanal según la reivindicación 40 ó 41, en el que el codificador de audio multicanal se configura para seleccionar el parámetro del procedimiento de decorrelación para designar el primer modo o el segundo modo si una correlación entre las señales de audio de entrada es comparativamente alta, y en el

25 que el codificador de audio multicanal se configura para seleccionar el parámetro del procedimiento de decorrelación para designar el tercer modo si una correlación entre las señales de audio de entrada es comparativamente menor.
43. Un procedimiento (300) para proporcionar al menos dos señales de audio de salida en base a una representación codificada, comprendiendo el procedimiento: renderizar (310) una pluralidad de señales de audio

30 decodificadas, que se obtienen en base a la representación codificada, a una escena objeto multicanal en dependencia de uno o varios parámetros de renderización, que define una matriz de renderización, para obtener una pluralidad de señales de audio renderizadas, derivar (320) una o varias señales de audio decorrelacionadas de las señales de audio renderizadas, y que combina las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, para obtener las señales de audio de salida, en el que las 35 señales de audio decodificadas, que se renderizan para obtener la pluralidad de señales de audio renderizadas, se obtienen utilizando una reconstrucción paramétrica (120; 1560), en el que las señales de audio decodificadas son señales objeto reconstruidas, y en el que las señales objeto reconstruidas se derivan de una o varias señales de mezcla descendente (1516a, 1516b) utilizando una información lateral (1518).

40 44. Un procedimiento (400) para proporcionar una representación codificada en base a al menos dos

señales de audio de entrada, comprendiendo el procedimiento: proporcionar (410) una o varias señales de mezcla descendente en base al menos a dos señales de audio de entrada, proporcionar (420) uno o varios parámetros que describen una relación entre al menos dos señales de audio de entrada, y proporcionar (430) un parámetro del procedimiento de decorrelación que describe qué modo de decorrelación de una pluralidad de modos de 45 decorrelación se deberá usar del lado de un decodificador de audio, en el que el procedimiento comprende proporcionar selectivamente el parámetro del procedimiento de decorrelación, para señalar uno de los tres siguientes modos para la operación de un decodificador de audio: un primer modo, en el que se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, un segundo modo en el que no se 50 permite una mezcla entre las diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que se permite que una señal de audio decorrelacionada dada se combine, con igual o diferente escalada, con una pluralidad de señales de audio renderizadas, o una de sus versiones en escala, a fin de ajustar características de correlación cruzadas o características de covarianza cruzadas de las señales de audio de salida, y un tercer modo 55 en el que no se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que no se permite que una señal de audio decorrelacionada dada se combine con señales de audio renderizadas distintas de una señal de audio renderizada de la que se deriva la señal de audio decorrelacionada dada.

60 45. Un programa informático para llevar a cabo el procedimiento según la reivindicación 43 o la

reivindicación 44 cuando el programa informático se ejecuta en un ordenador.
46. Una representación de audio codificada (500), que comprende: una representación codificada (510) de

una señal de mezcla descendente; una representación codificada (520) de uno o varios parámetros que describen una relación entre al menos dos señales de audio de entrada, y un parámetro del procedimiento de decorrelación 5 codificada que describe qué modo de decorrelación de una pluralidad de modos de decorrelación se deberá usar del lado de un decodificador de audio, en el que las señales del parámetro del procedimiento decorrelacionado de una salida de los siguientes tres procedimientos para la operación de un decodificador de audio: un primer modo, en que una mezcla entre diferentes señales de audio renderizado se permite cuando se combinan las señales de audio renderizadas, o una versión escalada del mismo, con una o varias señales de audio decorrelacionadas, un segundo 10 modo en el que no se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que se permite que una señal decorrelacionada dada se combine, con igual o diferente escalada, con una pluralidad de señales de audio renderizadas, o una de sus versiones en escala, a fin de ajustar características de correlación cruzadas o características de covarianza cruzadas de las señales de audio de salida, y 15 un tercer modo en el que no se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que no se permite que una señal decorrelacionada dada se combine con señales de audio renderizadas distintas de una señal de audio renderizada de la que se deriva la señal decorrelacionada dada.

20 47. Un decodificador de audio multicanal (100; 700; 1550; 3000) para proporcionar al menos dos señales

de audio de salida (112,114; 712,714; 1552a - 1552n; 3012) con base en una representación codificada (110; 710; 1516a, 1516b, 1518), en el que el decodificador de audio multicanal se configura para renderizar (130; 1580) una

pluralidad de señales de audio decodificadas (122; 1562a - 1562n, ^), que se obtienen en base a la representación codificada, en dependencia de uno o más parámetros de renderización (132), para obtener una pluralidad de

25 señales de audio renderizadas (134, 136; 1582a-1582n, Z), y en el que el decodificador de audio multicanal se

configura para derivar (140; 1590) una o varias señales de audio decorrelacionadas (142,144; 1592a-1592n) de las señales de audio renderizadas, y en el que el decodificador de audio multicanal se configura para combinar (150;1598) las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, para obtener las señales de audio de salida, en el que el decodificador de audio multicanal se 30 configura para conmutarse entre un primer modo, en el que se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, un segundo modo en el que no se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que se permite que una señal

35 decorrelacionada dada se combine, con igual o diferente escalada, con una pluralidad de señales de audio

renderizadas, o una de sus versiones en escala, a fin de ajustar características de correlación cruzadas o características de covarianza cruzadas de las señales de audio de salida, y un tercer modo en el que no se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que no se permite 40 que una señal decorrelacionada dada se combine con señales de audio renderizadas distintas de una señal de audio renderizada de la que se deriva la señal decorrelacionada dada.
48. Un procedimiento (300) para proporcionar al menos dos señales de audio de salida en base a una

representación codificada, comprendiendo el procedimiento: renderizar (310) una pluralidad de señales de audio 45 decodificadas, que se obtienen en base a la representación codificada, en dependencia de uno o varios parámetros de renderización, para obtener una pluralidad de señales de audio renderizadas, derivar (320) una o varias señales de audio decorrelacionadas de las señales de audio renderizadas, y combinar (330) las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, para obtener las señales de audio de salida, en el que el procedimiento comprende conmutar, según un parámetro de 50 procedimiento de recorrelación proporcionado por el codificador entre un primer modo, en el que se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, un segundo modo en el que no se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que 55 se permite que una señal decorrelacionada dada se combine, con igual o diferente escalada, con una pluralidad de señales de audio renderizadas, o una de sus versiones en escala, a fin de ajustar características de correlación cruzadas o características de covarianza cruzadas de las señales de audio de salida, y un tercer modo en el que no se permite una mezcla entre diferentes señales de audio renderizadas cuando se combinan las señales de audio renderizadas, o una de sus versiones en escala, con una o varias señales de audio decorrelacionadas, y en el que

no se permite que una señal decorrelacionada dada se combine con señales de audio renderizadas distintas de una señal de audio renderizada de la que se deriva la señal decorrelacionada dada.
49. Un programa informático para llevar a cabo el procedimiento según la reivindicación 48 cuando el

5 programa informático se ejecuta en un ordenador.