ES2974440T3

ES2974440T3 - Método para decodificar una representación de tramas de datos HOA comprimida de un campo de sonido

Info

Publication number: ES2974440T3
Application number: ES21159478T
Authority: ES
Inventors: Alexander Krueger; Sven Kordon
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2014-06-27
Filing date: 2015-06-22
Publication date: 2024-06-27
Anticipated expiration: 2035-06-22
Also published as: KR20240050436A; JP2017523458A; CN110662158B; JP2021105743A; TW202211207A; JP7267340B2; US20190295562A1; EP4354432A3; KR20220044865A; US20180308500A1; EP4354432A2; EP3860154B1; KR102454747B1; CN117636885A; TW201603001A; TWI899581B; TWI679633B; WO2015197514A1; JP2020060789A; CN117612540A

Abstract

Al comprimir una representación de trama de datos HOA, se aplica un control de ganancia (15, 151) para cada señal de canal antes de codificarla perceptualmente (16). Los valores de ganancia se transfieren de forma diferencial como información adicional. Sin embargo, para iniciar la decodificación de dicha representación de trama de datos HOA comprimida transmitida se requieren valores de ganancia absoluta, que deben codificarse con un número mínimo de bits. Para determinar dicho número entero más bajo (βe) de bits, la representación del marco de datos HOA (C(k)) se representa en el dominio espacial para señales de altavoces virtuales que se encuentran en una esfera unitaria, seguido de la normalización de la representación del marco de datos HOA (C(k))). Entonces el número entero más bajo de bits se establece en βe=[log2[log2KMAX⋅O]+1]. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Método para decodificar una representación de tramas de datos HOA comprimida de un campo de sonido

Campo técnico

La invención se refiere a un método para decodificar una representación de tramas de datos HOA comprimida de un sonido o de un campo de sonido.

Antecedentes

La ambisónica de orden superior denominada HOA ofrece una posibilidad de representar sonido tridimensional. Otras técnicas son la síntesis de campo de ondas (WFS) o enfoques basados en canales como 22.2. A diferencia de los métodos basados en canales, la representación HOA ofrece la ventaja de ser independiente de una configuración de altavoz específica. Sin embargo, esta flexibilidad se produce a expensas de un proceso de decodificación que se requiere para la reproducción de la representación HOA en una configuración de altavoz particular. En comparación con el enfoque WFS, en el que la cantidad de altavoces necesarios es habitualmente muy grande, HOA se puede también renderizar en configuraciones que constan de sólo unos pocos altavoces. Una ventaja adicional de HOA es que la misma representación se puede también emplear sin ninguna modificación para la renderización binaural para auriculares.

HOA se basa en la representación de la densidad espacial de amplitudes de ondas planas armónicas complejas mediante una expansión de Armónicos Esféricos (SH) truncada. Cada coeficiente de expansión es una función de la frecuencia angular, lo que puede representarse de manera equivalente mediante una función en el dominio tiempo. Por consiguiente, sin pérdida de generalidad, se puede asumir que la representación completa de campo de sonido HOA consta en realidad de 0 funciones en el dominio tiempo, donde 0 denota el número de coeficientes de expansión. Estas funciones en el dominio tiempo se denominarán en lo sucesivo, de manera equivalente, secuencias de coeficientes HOA o canales HOA.

La resolución espacial de la representación HOA mejora con un orden máximo N creciente de la expansión. Desafortunadamente, el número de coeficientes O de expansión crece cuadráticamente con el orden N, en particular O = (N 1)2. Por ejemplo, las representaciones típicas de HOA que utilizan el orden N = 4 requieren O = 25 coeficientes HOA (expansión). La velocidad de bits total para la transmisión de la representación h Oa , dada una velocidad de muestreo de un solo canal fS deseada y un número de bits Nb por muestra, se determina mediante O ■ fS ■ Nb. La transmisión de una representación HOA de orden N = 4, con una velocidad de muestreo de fS = 48 kHz empleando Nb = 16 bits por muestra, da como resultado una velocidad de bits de 19, 2 MBits/s, que es muy alta para muchas aplicaciones prácticas, por ejemplo, para transmisión ininterrumpida. De este modo, la compresión de las representaciones de HOA es muy conveniente.

Anteriormente, la compresión de las representaciones HOA de campo de sonido se propuso en los documentos EP 2665208 A1, EP 2743922 A1, EP 2800401 A1, cf. ISO/IEC JTC1/SC29/WG11, N14264, WD1-HOA Text of MPEG-H 3D Audio, enero de 2014. Estos enfoques tienen en común que realizan un análisis de campo de sonido y descomponen la representación HOA dada en un componente direccional y un componente ambiental residual. Por un lado, se asume que la representación comprimida final consta de una serie de señales cuantificadas, resultantes de la codificación perceptual de señales direccionales y basadas en vectores, así como de secuencias de coeficientes relevantes del componente HOA ambiental. Por otro lado, comprende información secundaria adicional relacionada con las señales cuantificadas, información secundaria que se requiere para la reconstrucción de la representación HOA a partir de su versión comprimida.

Antes de pasar al codificador perceptual, se requiere que estas señales intermedias en el dominio tiempo tengan una amplitud máxima dentro del intervalo de valores [-1, 1[, que es un requisito que surge de la implantación de los codificadores perceptuales actualmente disponibles. Con el fin de satisfacer este requisito al comprimir representaciones HOA, se utiliza una unidad de procesamiento de control de ganancia (véase el documento EP 2824661 A1 y el documento ISO/IEC JTC1/SC29/WG11 N14264 mencionado anteriormente) delante de los codificadores perceptuales, que atenúa o amplifica suavemente las señales de entrada. Se asume que la modificación de la señal resultante es invertible y que se aplica en cada trama, asumiéndose que, en particular, el cambio de las amplitudes de la señal entre tramas sucesivas es una potencia de '2'. Para facilitar la inversión de esta modificación de señal en el descompresor HOA, se incluye la información secundaria de normalización correspondiente en la información secundaria total. Esta información secundaria de normalización puede consistir en exponentes en base '2', exponentes que describen el cambio de amplitud relativa entre dos tramas sucesivas. Estos exponentes se codifican usando un código de longitud de ejecución de acuerdo con el documento ISO/IEC JTC1/SC29/WG11 N14264 mencionado anteriormente, ya que los cambios de amplitud menores entre tramas sucesivas son más probables que los mayores.

Sumario de la invención

Es factible utilizar cambios de amplitud codificados diferencialmente para reconstruir las amplitudes de la señal original en la descompresión HOA, por ejemplo, en caso de que un solo archivo se descomprima desde el principio hasta el final sin saltos temporales. Sin embargo, para facilitar el acceso aleatorio, deben estar presentes unidades de acceso independientes en la representación codificada (que normalmente es una corriente de bits) con el fin de permitir el inicio de la descompresión desde una posición deseada (o al menos en las proximidades de ella), independientemente de la información de tramas anteriores. Tal unidad de acceso independiente tiene que contener el cambio de amplitud absoluta total (es decir, un valor de ganancia no diferencial) originado por la unidad de procesamiento de control de ganancia desde la primera trama hasta la trama actual. Suponiendo que los cambios de amplitud entre dos tramas sucesivas son una potencia de '2', es suficiente describir también el cambio de amplitud absoluta total mediante un exponente de base '2'. Para una codificación eficiente de este exponente, es fundamental conocer las ganancias máximas potenciales de las señales antes de la aplicación de la unidad de procesamiento de control de ganancia. Sin embargo, este conocimiento depende en gran medida de la especificación de restricciones en el intervalo de valores de las representaciones HOA que se van a comprimir. Desafortunadamente, el documento de audio MPEG-H 3D ISO/IEC JTC1/SC29/WG11 N14264 proporciona sólo una descripción del formato para la representación HOA de entrada, sin establecer ninguna restricción en los intervalos de valores.

La invención establece una interrelación entre el intervalo de valores de la representación HOA de entrada y las ganancias máximas potenciales de las señales antes de la aplicación de la unidad de procesamiento de control de ganancia dentro del compresor HOA. En base a esa interrelación, se determina la cantidad de bits necesarios - para una especificación dada para el intervalo de valores de una representación HOA de entrada - para una codificación eficiente de los exponentes de base '2' para describir, dentro de una unidad de acceso, los cambios de amplitud absolutos totales (es decir, un valor de ganancia no diferencial) de las señales modificadas originados por la unidad de procesamiento de control de ganancia desde la primera trama hasta la trama actual.

Además, una vez fijada la regla para computar la cantidad de bits requeridos para la codificación del exponente, la invención utiliza un procesamiento para verificar si una representación HOA dada satisface las restricciones de intervalo de valores requeridas de tal manera que pueda comprimirse correctamente.

Breve descripción de los dibujos

Se describen realizaciones ejemplares de la invención con referencia a los dibujos que se acompañan, los cuales muestran:

Figura 1 Compresor HOA;

Figura 2 Descompresor HOA;

Figura 3 Valores K de escala para direcciones virtuales Qj(N), 1 < j < 0, para órdenes HOA N = 1, ..., 29;

Figura 4 Normas euclidianas de matrices de modo inverso Y -1 para direcciones virtuales ÜMiN,d, d = 1, ..., Omin para órdenes HOA Nmin = 1, ..., 9;

Figura 5 Determinación de la magnitud máxima permitida ydB de señales de altavoces virtuales en posiciones Qj(N>, 1 < j < O, donde O = (N 1)2;

Figura 6 Sistema de coordenadas esféricas.

Descripción de realizaciones

A continuación se presenta el principio de compresión y descompresión HOA con el fin de proporcionar un contexto más detallado en el que se produce el problema mencionado anteriormente. La base de esta presentación es el procesamiento descrito en el documento MPEG-H 3D de audio ISO/IEC JTC1/SC29/WG11 N14264, véanse también los documentos EP 2665208 A1, EP 2800401 A1 y EP 2743922 A1. En el documento N14264, el 'componente direccional' se extiende a un 'componente de sonido predominante'. Como componente direccional, se asume que el componente de sonido predominante está representado en parte por señales direccionales, es decir, señales monoaurales con su dirección correspondiente, desde la cual se asume que inciden en el oyente, junto con algunos parámetros de predicción para predecir porciones de la representación HOA original a partir de las señales direccionales. Además, se asume que el componente de sonido predominante está representado por 'señales basadas en vectores', es decir, señales monoaurales con un vector correspondiente que define la distribución direccional de las señales basadas en vectores.

Compresión HOA

La arquitectura general del compresor HOA descrito en el documento EP 2800401 A1 se ilustra en la figura 1. Tiene una parte de codificación HOA espacial representada en la figura 1A y una parte de codificación de fuente y percepción representada en la figura 1B. El codificador espacial HOA proporciona una primera representación HOA comprimida que consta de I señales junto con información secundaria que describe cómo crear una representación HOA de las mismas. En los codificadores de fuentes de información perceptual y secundaria, las I señales se codifican perceptualmente, y la información secundaria se somete a codificación de fuente, antes de que se multiplexen las dos representaciones codificadas.

Codificación espacial HOA

En un primer paso, se introduce una k-ésima trama C(k) actual de la representación HOA original en un paso o una etapa 11 de procesamiento de estimación de dirección y vector, que se asume que proporciona los conjuntos Mdirm y Mvecm de tuplas. El conjunto Mdirm de tuplas consta de tuplas de las cuales el primer elemento indica el índice de una señal direccional y el segundo elemento indica la dirección cuantificada respectiva. El conjunto de tuplas Mvecm consta de tuplas de las cuales el primer elemento indica el índice de una señal basada en vectores y el segundo elemento denota el vector que define la distribución direccional de las señales, es decir, cómo se computa la representación HOA de la señal basada en vectores.

Utilizando ambos conjuntos Mdirm y Mvecm de tuplas, la trama HOA inicial C(k) se descompone en un paso o una etapa 12 de descomposición HOA en la trama XPS(k - 1) de todas las señales de sonido predominantes (es decir, direccionales y basadas en vectores) y la trama CAMB(k - 1) del componente HOA ambiental. Obsérvese el retardo de una trama, que se debe al procesamiento de superposición y adición con el fin de evitar artefactos de bloqueo. Además, se asume que el paso o la etapa 12 de descomposición HOA genera algunos parámetros £(k -1) de predicción que describen cómo predecir porciones de la representación HOA original a partir de las señales direccionales, con el fin de enriquecer el componente HOA de sonido predominante. Además, se asume que se proporciona un vector vA,T(k - 1) de asignación objetivo que contiene información sobre la asignación de señales de sonido predominantes, que se determinaron en el paso o la etapa 12 del procesamiento de descomposición HOA, a los I canales disponibles. Se puede asumir que los canales afectados están ocupados, es decir, no están disponibles para transportar ninguna secuencia de coeficientes del componente HOA ambiental en el intervalo de tiempo respectivo.

En el paso o la etapa 13 de procesamiento de modificación de componente ambiental, la trama CAMB(k - 1) del componente HOA ambiental se modifica de acuerdo con la información proporcionada por el vector de asignación objetivo vA,T(k - 1). En particular, se determina qué secuencias de coeficientes del componente HOA ambiental deben transmitirse en los canales I dados, dependiendo (entre otros aspectos) de la información (contenida en el vector vA,T(k - 1) de asignación objetivo) sobre qué canales están disponibles y no están ocupados por las señales de sonido predominantes. Además, se realiza una aparición y desaparición gradual de secuencias de coeficientes si los índices de las secuencias de coeficientes elegidas varían entre tramas sucesivas.

Además, se asume que las primeras secuencias de coeficientes Omin del componente HOA ambiental CAMB(k - 2) siempre se eligen para codificarse y transmitirse perceptualmente, donde O<min>= (N<min>+ 1)2, siendo típicamente N<min>á N un orden más pequeño que el de la representación original de HOA. Con el fin de descorrelacionar estas secuencias de coeficientes HOA, se pueden transformar en el paso/la etapa 13 en señales direccionales (es decir, funciones de onda plana generales) que inciden desde algunas direcciones predefinidas Qmin, d, d = 1, ..., Omin.

Junto con el componente HOA ambiental modificado CM,A(k - 1) se computa en el paso/la etapa 13 un componente HOA ambiental modificado Cp,M,A(k - 1)predicho temporalmente y se utiliza en los pasos o las etapas 15, 151 de procesamiento de control de ganancia con el fin de permitir una anticipación razonable, estando la información sobre la modificación del componente HOA ambiental directamente relacionada con la asignación de todos los tipos posibles de señales a los canales disponibles en el paso o la etapa 14 de asignación de canales. Se asume que la información final sobre esa asignación está contenida en el vector de asignación final vA(k - 2). Con el fin de computar este vector en el paso/la etapa 13, se explota la información contenida en el vector vA,T(k - 1) de asignación objetivo.

La asignación de canal en el paso/la etapa 14 asigna, con la información proporcionada por el vector de asignación vA(k - 2), las señales apropiadas contenidas en la trama Xps(k - 2) y la contenida en la trama CM,A(k -2) a los I canales disponibles, lo que produce las tramas de señal y¡(k - 2), i = 1, ..., I. Además, las señales apropiadas contenidas en la trama Xps(k - 1) y en la trama Cp,AMB(k - 1) también se asignan a los I canales disponibles, lo que produce las tramas de señal predichas yp, i(k - 1), i = 1, ..., I.

Cada una de las tramas yi(k - 2), i = 1, ..., 1 de señal es finalmente procesada por el control 15, 151 de ganancia dando como resultado exponentes e¡(k - 2) e indicadores Pi(k - 2), i = 1, ..., I de excepción y señales zi(k - 2), i = 1, ..., I, en los que la ganancia de la señal se modifica suavemente tal como para conseguir un intervalo de valores adecuado para los pasos o las etapas 16 de codificador perceptual. Los pasos/las etapas 16 emiten las tramas de señal codificadas correspondientes 2¿(fc — 2 ) i ¡ = ^ |. Las tramas de señal predichas yp,¡(k - 1), i = 1, I permiten una especie de anticipación con el fin de evitar cambios severos de ganancia entre bloques sucesivos. Los datos de información secundaria Mdir(m ), Mvec(m ), ei(k-2), Pi(k-2), Q(k-1) y vA(k-2) están codificados en fuente en el paso o la etapa 17 del codificador de fuente de información secundaria, dando como resultado la trama de información secundaria codificadar(k— 2).En un multiplexor 18, las señales codificadasZ i(k -2 )de la trama (k - 2) y los datos de información secundaria codificadosT (k -2 )para esta trama se combinan, lo que da como resultado la tramaB(k -2) de salida.

En un decodificador HOA espacial, se asume que las modificaciones de ganancia en los pasos/las etapas 15, 151 se revierten utilizando la información secundaria de control de ganancia, que consta de los exponentes e¡(k -2) y de los indicadores de excepción Pi(k - 2), i = 1, ..., I.

Descompresión HOA

La arquitectura general del descompresor HOA descrita en el documento EP 2800401 A1 se ilustra en la figura 2. Consta de las contrapartes de los componentes de compresor HOA, que están dispuestos en orden inverso e incluyen una parte de percepción y decodificación de fuente representada en la figura 2A y una parte de decodificación HOA espacial representada en la figura 2B.

En la parte de decodificación de fuente y perceptual (que representa un decodificador de fuente de información secundaria y perceptual) un paso o una etapa de demultiplexación 21 recibe la tramaB (k)de entrada de la corriente de bits y proporciona la representación codificada perceptualmente z,;(/c),\ = -\t..., | de las señales I y los datosr(k)de información secundaria codificados describiendo cómo crear una representación de HOA de los mismos. Las z¡(fe) señales se decodifican perceptualmente en un paso o una etapa 22 del decodificador perceptual, dando como resultado señales decodificadas z¡(k), i = 1, ..., I. Los datos^ (k )de información secundaria codificados se decodifican en un paso o una etapa 23 de decodificador de fuente de información secundaria, dando como resultado conjuntos de datos MDiR(k+1), MvEC(k+1), exponentes e¡(k), indicadores Pi(k) de excepción, parámetros £(k 1) de predicción y un vector vAMB,AssiGN(k) de asignación. Con respecto a la diferencia entre<va>y vAMB,AssiGN(k), véase el documento N14264 mencionado anteriormente de MPEG.

Decodificación espacial HOA

En la parte de decodificación HOA espacial, cada una de las señales decodificadas perceptualmente Zi(k), i = 1, ..., I, se introduce en un paso o una etapa 24, 241 de procesamiento de control de ganancia inversa junto con su exponente ei(k) de corrección de ganancia y su indicador Pi(k) de excepción de corrección de ganancia asociados. El i-ésima paso/la i-ésima etapa de procesamiento de control de ganancia inversa proporciona una trama y¡(k) de señal corregida de ganancia.

Todas las tramas I de señal corregidas de ganancia yi(k), i = 1, ..., I se alimentan junto con el vector vAMB,AssiGN(k) de asignación y los conjuntos de tuplas MDIR(k+1) y MvEC(k+1) a un paso o una etapa de reasignación de canal 25, cf. la definición descrita anteriormente de los conjuntos de tuplas MDIR(k+1) y MvEC(k+1). El vector<vamb>,<assign>( ^ de asignación consta de I componentes que indican para cada canal de transmisión si contiene una secuencia de coeficientes del componente HOA ambiental y cuál contiene. En el paso/la etapa 25 de reasignación de canal, las tramas y¡(k) de señal corregidas de ganancia se redistribuyen con el fin de reconstruir la trama Xps(k) de todas las señales de sonido predominantes (es decir, todas las señales direccionales y basadas en vectores) y la trama CI,AMB(k) de una representación intermedia del componente HOA ambiental. Además, se proporcionan el conjunto JAMB,ACT(k), de índices de secuencias de coeficientes del componente HOA ambiental activo en la késima trama, y los conjuntos JE(k - 1), JD(k - 1) y Ju(k - 1) de datos de índices de coeficientes del componente HOA ambiental, que deben habilitarse, deshabilitarse y permanecer activos en la (k - 1)-énesima trama.

En un paso o una etapa 26 de síntesis de sonido predominante, la representación HOA del componente Cps(k -1) de sonido predominante se computa a partir de la trama Xps(k) de todas las señales de sonido predominantes usando el conjunto MDIR(k+1) de tuplas, el conjunto £(k 1) de parámetros de predicción, el conjunto MvEC(k+1) de tuplas y los conjuntos JE(k - 1), JD(k - 1) y Ju(k - 1) de datos.

En un paso o una etapa 27 de síntesis de ambiente, la trama de componente HOA ambiental CAMB(k - 1) se crea a partir de la trama CI,AMB(k) de la representación intermedia del componente HOA ambiental, usando el conjunto JAMB,ACT(k) de índices de secuencias de coeficientes del componente HOA ambiental que están activos en la késima trama. El retardo de una trama se introduce debido a la sincronización con el componente HOA de sonido predominante. Finalmente, en un paso o una etapa 28 de composición HOA, la trama CAMB(k - 1) de componente HOA ambiental y la trama Cps(k - 1) de componente HOA de sonido predominante se superponen como para proporcionar la trama HOA decodificada C(k - 1).

Más tarde, el decodificador HOA espacial crea, a partir de las I señales y de la información secundaria, la representación HOA reconstruida.

En caso de que en el lado de codificación el componente HOA ambiental se haya transformado en señales direccionales, esa transformación se invierte en el lado del decodificador en el paso/la etapa 27.

Las ganancias máximas potenciales de las señales antes de las etapas/etapas 15, 151 de procesamiento de control de ganancia dentro del compresor HOA dependen en gran medida del intervalo de valores de la representación HOA de entrada. Por lo tanto, al principio se define un intervalo de valores significativo para la representación HOA de entrada, seguido de una conclusión sobre las ganancias máximas potenciales de las señales antes de ingresar a los pasos/las etapas de procesamiento de control de ganancia.

Normalización de la representación HOA de entrada

Para utilizar el procesamiento inventivo se debe llevar a cabo antes una normalización de la señal de representación HOA de entrada (total). Para la compresión HOA se realiza un procesamiento por tramas, donde la k-ésima trama C(k) de la representación HOA de entrada original se define con respecto al vector c(t) de secuencias de coeficientes HOA continuas en el tiempo especificadas en la ecuación (54) en la sección de conceptos básicos de la ambisónica de orden superior como

donde k denota el índice de la trama, L la longitud de la trama (en muestras), 0 = (N 1)2 el número de secuencias de coeficientes HOA y T<s>indica el período de muestreo.

Como se menciona en el documento EP 2824661 A1, no se consigue una normalización significativa de una representación HOA vista desde una perspectiva práctica imponiendo restricciones en el intervalo de valores de las secuenciascn ( t) de coeficientes HOA individuales, ya que estas funciones en el dominio tiempo no son las señales que realmente reproducen los altavoces después de la renderización. En cambio, es más conveniente considerar la 'representación de dominio espacial equivalente', que se obtiene renderizando la representación HOA en O señales de altavoces virtuales wj(t), 1 < j < O. Se asume que las respectivas posiciones de los altavoces virtuales están expresadas mediante un sistema de coordenadas esféricas, asumiéndose que cada posición se encuentra en la esfera unitaria y tiene un radio de '1'. Por consiguiente, las posiciones pueden expresarse de manera equivalente mediante direcciones Qj(N) = (9j(N), φj(N)) dependientes de orden, 1 < j < O, donde 9j(N) y φj(N) denotan las inclinaciones y acimuts, respectivamente (véase también la figura 6 y su descripción para la definición del sistema de coordenadas esféricas). Estas direcciones deben distribuirse lo más uniformemente posible en la esfera unitaria, véase, por ejemplo, J. Fliege, U. Maier, "A two-stage approach for computing cubature formulae for the sphere", Technical report, Fachbereich Mathematik, Universidad de Dortmund, 1999. Los números de nodo se encuentran en http://www.mathematik.unidortmund.de/lsx/research/projects/fliege/nodes/nodes.html para el cálculo de direcciones específicas. Estas posiciones dependen en general del tipo de definición de "distribución uniforme en la esfera" y, por tanto, no son inequívocas.

La ventaja de definir intervalos de valores para señales de altavoces virtuales sobre definir intervalos de valores para secuencias de coeficientes HOA es que el intervalo de valores para las primeras se puede establecer intuitivamente igualmente al intervalo [-1, 1[ como es el caso para señales de altavoces convencionales que asumen representación PCM. Esto conduce a un error de cuantificación distribuido espacialmente de manera uniforme, de tal modo que, ventajosamente, la cuantificación se aplica en un dominio que es relevante con respecto a la escucha real. Un aspecto importante en este contexto es que se puede elegir que el número de bits por muestra sea tan bajo como suele ser para señales de altavoces convencionales, es decir, 16, lo que aumenta la eficiencia en comparación con la cuantificación directa de secuencias de coeficientes HOA, en la que normalmente se requiere un mayor número de bits (por ejemplo, 24 o incluso 32) por muestra.

Para describir en detalle el proceso de normalización en el dominio espacial, todas las señales de altavoces virtuales se resumen en un vector como

w ( t ) : = [w j CO ...w 0 ( t ) ] T ,(2 )

donde ( ) T denota transposición. Denotando la matriz modal con respecto a las direcciones virtuales Qj(N), 1 < j < O, por Y, que está definida por

V:= [Sx ... í 0] E l 0x0 (3)

[50°(í27w)sy^n™)s“(fl;w)s±{n,m )...S^(í2fm) s^n™)]1con Sj:= (4)

el proceso de renderización se puede formular como una multiplicación de matrices

w(t ) = ( V ) - 1 ■ c(t ) .( 5 )

Utilizando estas definiciones, un requisito razonable para las señales de los altavoces virtuales es:

(6)

lo que significa que se requiere que la magnitud de cada señal de altavoz virtual esté dentro del intervalo [-1, 1[ . Un instante de tiempo t está representado por un índice l de muestra y por un período T<s>de muestra de los valores de muestra de dichas tramas de datos HOA.

Por consiguiente, la potencia total de las señales de los altavoces satisface la condición

La renderización y la normalización de la representación de la trama de datos HOA se lleva a cabo aguas arriba de la entrada C(k) de la figura 1A.

Consecuencias para el intervalo de valores de la señal antes del control de ganancia

Asumiendo que la normalización de la representación HOA de entrada se realiza de acuerdo con la descripción en la sección Normalización de la representación HOA de entrada, el intervalo de valores de las señales yi, i = 1, ..., I, que se introduce en la unidad 15, 151 de procesamiento de control de ganancia en el compresor HOA, se considera a continuación. Estas señales se crean mediante la asignación a los canales I disponibles de una o más de las secuencias de coeficientes HOA, o señales de sonido predominantes xPs,d, d = 1 , ..., D, y/o secuencias de coeficientes particulares del componente HOA ambiental cAMB,n, n = 1, ..., O, a parte de las cuales se aplica una transformación espacial. Por consiguiente, es necesario analizar el posible intervalo de valores de estos diferentes tipos de señales mencionados bajo la asunción de normalización de la ecuación (6). Dado que todo tipo de señales se computan intermediamente a partir de las secuencias de coeficientes HOA originales, se echa una ojeada a sus posibles intervalos de valores.

El caso en el que sólo una o más secuencias de coeficientes HOA estén contenidas en los canales I no se representa en las figuras 1A y 2B, es decir, en tal caso no se requieren la descomposición de HOA, la modificación de los componentes ambientales y los bloques de síntesis correspondientes.

Consecuencias para el intervalo de valores de la representación HOA La representación HOA continua en el tiempo se obtiene a partir de las señales de altavoz virtuales mediante

c(t) = V w ( t ) ,( 8 )

que es la operación inversa a la de la ecuación (5). Por consiguiente, la potencia total de todas las secuencias de coeficientes HOA está limitada de la siguiente manera:

utilizando las ecuaciones (8) y (7).

Bajo la asunción de normalización de N3D de las funciones armónicas esféricas, la norma euclidiana al cuadrado de la matriz modal se puede escribir mediante

IIVII22 = K - 0 ,(10a)

donde

denota la relación entre la norma euclidiana al cuadrado de la matriz modal y el número O de secuencias de coeficientes HOA.

Esta relación depende del orden N de HOA específico y de las direcciones específicas Qj(N) de altavoz virtuales, 1 < j < O, que se puede expresar añadiendo a la relación la lista de parámetros respectiva de la siguiente manera:

K = K(N,í 2 f J, ... X W)) . (1 0 c )

La figura 3 muestra los valores de K para direcciones virtuales Qj(N), 1 < j < O, de acuerdo con el artículo de Fliege et al. anteriormente mencionado para órdenes N = 1, ..., 29 de HOA.

La combinación de todos los argumentos y consideraciones anteriores proporciona un límite superior para la magnitud de las secuencias de coeficientes HOA de la siguiente manera:

donde la primera desigualdad procede directamente de las definiciones de las normas.

Es importante señalar que la condición de la ecuación (6) implica la condición de la ecuación (11), pero que no se sostiene lo contrario, es decir, que la ecuación (11) no implica la ecuación (6).

Un aspecto importante adicional es que, bajo la asunción de posiciones de altavoces virtuales distribuidas casi uniformemente, los vectores de columna de la matriz Y de modos, que representan los vectores de modos con respecto a las posiciones de los altavoces virtuales, son casi ortogonales entre sí y tienen una norma euclidiana de N 1 cada uno. Esta propiedad significa que la transformación espacial conserva casi la norma euclidiana excepto por una constante multiplicativa, es decir, que

lk(¿7’s)||2 * ( w i)||w(zrs) ||2 . (12)

La verdadera norma ||c(lTs)ll2 difiere tanto más de la aproximación en la ecuación (12) cuanto más se viola la asunción de ortogonalidad en los vectores modales.

Consecuencias para el intervalo de valores de las señales de sonido predominantes

Ambos tipos de señales de sonido predominantes (direccionales y basadas en vectores) tienen en común que su contribución a la representación HOA se describe mediante un único vectorv iG con norma euclidiana de N 1, es decir, que

\ \ V i h = N l .(13 )

En el caso de la señal direccional, este vector corresponde al vector de modos con respecto a una determinada dirección Qs,1 de la fuente de señal, es decir, que

t?i = S (f lSil) (14)

Este vector describe mediante una representación HOA un haz direccional en la dirección Qs,1 de la fuente de señal. En el caso de una señal basada en vectores, el vector v1 no está obligado a ser un vector de modo con respecto a ninguna dirección, y, por consiguiente, puede describir una distribución direccional más general de la señal basada en vectores monoaurales.

A continuación se considera el caso general de D señales xd(t), d = 1, ..., D de sonido predominantes, que pueden recogerse en el vector x(t) de acuerdo con

x(t) =[X i(0x2(t) ... xD(t)]r .(16)

Estas señales tienen que determinarse en base a la matriz

V : = [ v ± v 2 ... v D](17)

que está formada por todos los vectores vd, d = 1, D, que representan la distribución direccional de las señales de sonido monoaurales predominantes xd(t), d = 1, ..., D.

Para una extracción significativa de las señales de sonido predominantes x(t), se formulan las siguientes restricciones:

a) Cada señal de sonido predominante se obtiene como una combinación lineal de las secuencias de coeficientes de la representación HOA original, es decir, que

x( t) -A ■ c(t) ,(18)

dondeA EM0><0 denota la matriz de mezcla.

b) La matriz A de mezcla debe elegirse de tal manera que su norma euclidiana no exceda el valor de '1', es decir, que

I

\\A\\2 < 1 '(19)

y de tal manera que la norma euclidiana al cuadrado (o potencia equivalente) del residual entre la representación HOA original y la de las señales de sonido predominantes no sea mayor que la norma euclidiana al cuadrado (o potencia equivalente) de la representación HOA original, es decir, que

Insertando la ecuación (18) en la ecuación (20) se puede ver que la ecuación (20) es equivalente a la restricción

donde I denota la matriz identidad.

A partir de las restricciones en la ecuación (18) y en (19) y de la compatibilidad de la matriz euclidiana y las normas vectoriales, se encuentra un límite superior para las magnitudes de las señales de sonido predominantes mediante

IK /7 s ) ||« < IW i7 ’s) | |2<(>22<)>

< IWI2llcars) ||2 (23)

< y [ K - 0 ,(24;

utilizando las ecuaciones (18), (19) y (11). Por consiguiente, se garantiza que las señales de sonido predominantes permanezcan en el mismo intervalo que las secuencias de coeficientes HOA originales (compárese con la ecuación (11)), es decir, que

. (25)

Ejemplo de elección de matriz de mezcla

Un ejemplo de cómo determinar la matriz de mezcla que satisface la restricción (20) se obtiene computando las señales de sonido predominantes de tal manera que se minimice la norma euclidiana del residuo después de la extracción, es decir, que

La solución al problema de minimización en la ecuación (26) viene dada por

x(t) = V+c( t ) r( 27)

donde ()+ indica la pseudoinversa de Moore-Penrose. Comparando la ecuación (27) con la ecuación (18) se deduce que, en este caso, la matriz de mezcla es igual a la pseudo inversa de Moore-Penrose de la matriz V, es decir, que A = V+. Sin embargo, todavía hay que elegir la matriz V para satisfacer la restricción (19), es decir, que

En el caso de señales únicamente direccionales, donde la matriz V es la matriz de modo con respecto a algunas direcciones de la señal fuente

^s.di d — 1, ... ,D,i . e .V —[s(/2s i)S(í lS2)■ ■ £(42<s>.<d>)1 , ( 29)

la restricción (28) puede satisfacerse eligiendo las direcciones de la señal fuente Qs.d, d = 1, ..., D, de tal modo que la distancia de dos direcciones vecinas cualesquiera no sea demasiado pequeña.

Consecuencias para el intervalo de valores de las secuencias de coeficientes del componente HOA ambiental

El componente HOA ambiental se computa restando de la representación HOA original la representación HOA de las señales de sonido predominantes, es decir, que

<camb>(0 = c ( t )- V x(t ) .( 30)

Si el vector de señales de sonido predominantes x(t) se determina de acuerdo con el criterio (20), se puede concluir que

Rango de valores de secuencias de coeficientes transformadas espacialmente del componente HOA ambiental

Un aspecto adicional en el procesamiento de compresión HOA propuesto en el documento EP 2743922 A1 y en el documento N14264 de MPEG mencionado anteriormente es que las primeras secuencias de coeficientes Omin del componente HOA ambiental siempre se eligen para asignarse a los canales de transporte, donde Omin = (N<min>+ 1)2 siendo N<min>< N típicamente un orden más pequeño que el de la representación HOA original. Con el fin de descorrelacionar estas secuencias de coeficientes HOA, se pueden transformar en señales de altavoces virtuales que inciden desde algunas direcciones predefinidas Nmin, d, d = 1, ..., Omin (en analogía con el concepto descrito en la sección Normalización de la representación HOA de entrada). Definiendo el vector de todas las secuencias de coeficientes del componente HOA ambiental con índice n < Nmin de orden por cAMB,MiN(t) y la matriz de modos con respecto a las direcciones virtuales Qmin, d, d = 1, ..., Omin, por Y min, el vector de todas las señales de altavoces virtuales (definidas por) WMiN(t) se obtiene mediante

W<min>CO = V'<m>I<n>'<camb>,<min>( 0 • ( 35)

Por consiguiente, utilizando la compatibilidad de la matriz euclidiana y las normas vectoriales,

IIWM1N (^s)llco ¿ II<w min>( ^<s>) Ib ( 36)

En el documento N14264 de MPEG antes mencionado, las direcciones virtuales Qmin, d, d = 1, Omin, se eligen de acuerdo con el artículo de Fliege et al.. Las respectivas normas euclidianas de la inversa de las matrices modales Y min se ilustran en la figura 4 para órdenes Nmin = 1, ..., 9. Puede observarse que

II^<m>I<n>L < 1 forJVM[N = 1.......9 . ( 39)

Sin embargo, esto en general no es válido para N<min>> 9, donde los valores de II^ M m lb s o n típicamente mucho mayores que '1'. Sin embargo, al menos para 1 < Nmin < 9 las amplitudes de las señales de los altavoces virtuales están limitadas por

( 40)

Al restringir la representación HOA de entrada para satisfacer la condición (6), que requiere que las amplitudes de las señales de altavoz virtuales creadas a partir de esta representación HOA no superen un valor de '1', se puede garantizar que las amplitudes de las señales antes del control de ganancia no excederán el valorVí< ■ O(véanse ecuaciones (25), (34) y (40)) bajo las siguientes condiciones:

a) El vector de todas las señales x(t) de sonido predominantes se computa de acuerdo con las ecuaciones/restricciones (18), (19) y (20);

b) El orden mínimo N<min>, que determina el número O<min>de primeras secuencias de coeficientes del componente HOA ambiental al que se aplica una transformada espacial, tiene que ser inferior a '9', si se usan como posiciones de altavoces virtuales las definidas en el artículo antes mencionado de Fliege et al.

Se puede concluir adicionalmente que las amplitudes de las señales antes del control de ganancia no excederán el valorJ Kmax 'Opara cualquier orden N hasta un orden máximo Nmax de interés, es decir, que 1< N < Nmax, donde

Nmax = maxlíNíKMAX N ( j V , < \ ...,12™ ) ( 41 a )

En particular, se puede concluir de la figura 3 que, si se asume que se eligen las direcciones Qj(N) de altavoz virtual, 1 < j < O, para la transformación espacial inicial, de acuerdo con la distribución en el artículo de Fliege et al., y si además se asume que el orden máximo de interés va a ser Nmax = 29 (como, por ejemplo, en el documento N14264 de MPEG), entonces las amplitudes de las señales antes del control de ganancia no excederán el valor 1,5 O, ya que < 1-5 en este caso especial. Es decir, que se puede seleccionar = 1.5

Kmax depende del orden Nmax de interés máximo y de las direcciones Qj(N) de los altavoces virtuales, 1 < j < 0, que puede expresarse mediante

Por consiguiente, la ganancia mínima aplicada por el control de ganancia para garantizar que las señales antes de la codificación perceptual se encuentren dentro del intervalo [-1, 1] viene dada por 2eMIN, donde

En caso de que las amplitudes de las señales antes del control de ganancia sean demasiado pequeñas, se propone, en el documento N14264 de MPEG, que es posible amplificarlas suavemente con un factor de hasta 2eMAX, donde eMAx s 0 se transmite como información secundaria dentro la representación codificada de HOA.

De este modo, cada exponente de base '2', que describe el cambio de amplitud absoluta total dentro de una unidad de acceso de una señal modificada causada por la unidad de procesamiento de control de ganancia desde la primera trama hasta la trama actual, puede asumir cualquier valor entero dentro del intervalo [eMIN, eMAX]. En consecuencia, el número (entero más bajo) Pe de bits necesarios para codificarlo viene dado por

Pe =flog2(|eMIN+eMAX+ 1)1 = [log2([log2(ytfMAX • 0)1eMAX1)1<: 42¡>

En caso de que las amplitudes de las señales antes del control de ganancia no sean demasiado pequeñas, la ecuación (42) se puede simplificar:

Pe- ílog2(|eM1N| 1)1 - [log2([log2( V / W O ) l 1)1<¡4 2a)>

Este número Pe de bits se puede calcular en la entrada de los pasos/las etapas 15, 151 de control de ganancia.

El uso de este número Pe de bits para el exponente garantiza que todos los posibles cambios de amplitud absoluta originados por las unidades 15, ..., 151 de procesamiento de control de ganancia del compresor HOA puedan capturarse, permitiendo el inicio de la descompresión en algunos puntos de entrada predefinidos. dentro de la representación comprimida.

Al iniciar la descompresión de la representación HOA comprimida en el descompresor HOA, los valores de ganancia no diferencial que representan los cambios de amplitud absoluta total asignados a la información secundaria para algunas tramas de datos y recibidos desde el demultiplexor 21 fuera de la corrienteBde datos recibida se utilizan en los pasos o las etapas 24, ..., 241 de control de ganancia inverso para aplicar un control de ganancia correcto, de manera inversa al procesamiento que se llevó a cabo en los pasos/las etapas 15, ..., 151 de control de ganancia.

Realización adicional

Al implantar un sistema de compresión/descompresión HOA particular como se describe en las secciones Compresión HOA, Codificación h Oa espacial, Descompresión HOA y Decodificación HOA espacial, la cantidad Pe de bits para la codificación del exponente tiene que establecerse de acuerdo con la ecuación (42) en dependencia de un factor K<max>,<des>de escala, el cual, a su vez, depende de un orden máximo deseado N<max>,<des>o 0v)

de las representaciones HOA a comprimir y de ciertas direcciones<j>¿<de s>.<i>' 'J<ííde s>,<o>de los altavoces virtuales, 1 < N < N<max>.

Por ejemplo, al asumir N<max>,<des>= 29 y elegir las direcciones virtuales de altavoces de acuerdo con el artículo de

Fliege et al., una elección razonable sería V^MAX.DES — En esa situación, se garantiza la compresión correcta para las representaciones HOA de orden N con 1 < N < N<max>que están normalizadas de acuerdo con la sección Normalización de la representación HOA de entrada utilizando las mismas direcciones n ( N) n ( w)

de altavoces virtuales. Sin embargo, esta garantía no se puede dar en el caso de una representación HOA que también (por razones de eficiencia) esté representada de manera equivalente por señales de altavoces virtuales en formato PCM, pero donde las direcciones Q j(N), 1 < j < O, de los altavoces (N)

virtuales se eligen para que sean diferentes a las direccionesí lD<(T>

E<V>

S<)>

, 1’.. . M<des>.<o>de los altavoces virtuales, asumidas en la etapa de diseño de sistema.

Debido a esta elección diferente de posiciones de los altavoces virtuales, aunque las amplitudes de estas señales de los altavoces virtuales se encuentran dentro del intervalo [1, 1[, ya no se puede garantizar que las amplitudes de las señales antes del control de ganancia no superen el valorJ^<max>.<des>' Y, por consiguiente, no se puede garantizar que esta representación HOA tenga la normalización adecuada para la compresión de acuerdo con el procesamiento descrito en el documento N14264 de MPEG.

En esta situación es ventajoso tener un sistema que proporcione, en base al conocimiento de las posiciones de los altavoces virtuales, la amplitud máxima permitida de las señales de los altavoces virtuales con el fin de garantizar que la representación HOA respectiva sea adecuada para la compresión de acuerdo con el procesamiento descrito en el documento N14264 de MPEG.

En la figura 5 se ilustra tal sistema. Toma como entrada las posiciones Qj(N) de los altavoces virtuales, 1 < j < O, donde O = (N 1)2 con N E Mn, y proporciona como salida la amplitud máxima permitida ydB (medida en decibeles) de las señales de altavoces virtuales. En el paso o la etapa 51, la matriz Y de modo con respecto a las posiciones de altavoces virtuales se computa de acuerdo con la ecuación (3). En el paso o la etapa 52 siguiente se computa la norma euclidiana IIYII2 de la matriz modal. En un tercer paso o tercera etapa 53, la amplitud y se computa como el mínimo de '1' y el cociente entre el producto de la raíz cuadrada del número de posiciones de altavoces virtuales y K<max>,<des>y la norma euclidiana de la matriz de modos. es decir, que

El valor en decibelios se obtiene mediante

y dB = 201og10(y ) . ( 44 )

Para explicación: de las derivaciones anteriores se puede ver que si la magnitud de las secuencias de coeficientes HOA no excede un valor V ^ MAX'DES ’ es decir, que si

todas las señales antes de las unidades 15, 151 de procesamiento de control de ganancia no excederán, en consecuencia, este valor, que es el requisito para una adecuada compresión HOA.

A partir de la ecuación (9) se encuentra que la magnitud de las secuencias de coeficientes HOA está limitada por

l k ( ^ s) | | 00 < ||c (Z rs) | |2 < | | ^ | | 2 - | | w a r s) | |2 . ( 46 )

En consecuencia, si y se establece de acuerdo con la ecuación (43) y las señales de altavoces virtuales en formato PCM satisfacen que

||<w>( ÍT ’<s>) | | 0Q <Y f( 47 )

de la ecuación (7) se deduce que

y que se satisface el requisito (45). Es decir, que el valor de magnitud máxima de '1' en la ecuación (6) se reemplaza por el valor de magnitud máxima y en la ecuación (47).

Conceptos básicos de la ambisónica de orden superior

La ambisónica de orden superior (HOA) se basa en la descripción de un campo de sonido dentro de un área compacta de interés, que se asume que está libre de fuentes de sonido. En ese caso, el comportamiento espaciotemporal de la presión p(t, x) de sonido en el tiempo t y en la posición x dentro del área de interés está físicamente determinado en su totalidad por la ecuación de onda homogénea. A continuación se asume un sistema de coordenadas esférico como el que se muestra en la figura 6. En el sistema de coordenadas utilizado, el eje x apunta a la posición delantera, el eje y apunta a la izquierda, y el eje z apunta a la parte superior. Una posición x = (r, θ, φ)T en el espacio está representada por un radio r > 0 (es decir, la distancia al origen de las coordenadas), un ángulo θ E [0, n] de inclinación medido desde el eje polar z, y un ángulo φ E [0, 2n[ de acimut medido en sentido antihorario en el plano x - y desde el eje x. Además, ( ) T denota la transposición.

Entonces, se puede demostrar a partir del libro de texto "Fourier Acoustics" que la transformada de Fourier de la presión de sonido con respecto al tiempo denotada por?71('), es decir, que

P ( íú , x )=T t { p ( t , x) ) =S™oop ( t , x ) e ~ '° ) td t(4 9)

dondeodenota la frecuencia angular e i indica la unidad imaginaria, se puede expandir a la serie de armónicos esféricos de acuerdo con

donde cs denota la velocidad del sonido y k denota el número de onda angular, que está relacionado con la frecuencia angular co por k = co/cs. Además, jn( ) denota las funciones esféricas de Bessel de primer tipo ySn(9 ’ 4>)denota los armónicos esféricos de valor real de orden n y grado m, que se definen en la sección Definición de Armónicos Esféricos de valor real. Los coeficientesA™{k)de expansión sólo dependen del número k de onda angular. Obsérvese que se ha asumido implícitamente que la presión de sonido está limitada espacialmente por una banda. De este modo, la serie se trunca con respecto al índice n de orden en un límite superior N, que se denomina orden de la representación HOA.

Si el campo de sonido está representado por una superposición de un número infinito de ondas planas armónicas de diferentes frecuencias angulares o que llegan desde todas las direcciones posibles especificadas por la tupla (θ, φ) de ángulos, se puede mostrar (véase B. Rafaely, "Plane-wave decomposition of the sound field on a sphere by spherical convolution", J. Acoust. Soc. Am., vol. 4(116), páginas 2149-2157, octubre de 2004) que la respectiva función C(ω, θ, φ) de amplitud compleja de onda plana se puede expresar mediante la siguiente expansión de armónicos esféricos

donde los coeficientes de expansión están relacionados con los coeficientes de expansión por

Asumiendo que los coeficientes individualesC n 'ík—co/cs)sean funciones de la frecuencia angular co, la aplicación de la transformada inversa de Fourier (denotada por"F 1( ))proporciona funciones en el dominio tiempo

para cada orden n y grado m. Estas funciones en el dominio tiempo se denominan aquí secuencias de coeficientes HOA de tiempo continuo, que se pueden recopilar en un único vector c (t) mediante

El índice de posición de una secuenciaC n { t )de coeficientes HOA dentro del vector c(t) viene dado por n(n 1) 1 m. El número global de elementos en el vector c(t) viene dado por O = (N 1)2 El formato final de ambisónica proporciona la versión muestreada de c(t) utilizando una frecuencia fS de muestreo como

donde Ts = 1/fS denota el período de muestreo. Los elementos de c(ITs) se denominan secuencias de coeficientes HOA de tiempo discreto, y se puede demostrar que tienen siempre valores reales. Esta propiedad también se sostiene para las versiones c? 2 (0 de tiempo continuo.

Definición de armónicos esféricos de valor real

Los armónicos esféricos de valor real (asumiendo la normalización SN3D de acuerdo con J. Daniel, "Représentation de champs acustiques, application á la Transmission et á la reproduction de scénes sonores complexes dans un contexte multimédia", tesis doctoral, Université Paris, 6, 2001, capítulo 3.1) vienen dados por

siendo

t

Las funciones Pn,m(x) de Legendre asociadas se definen como

con el polinomio Pn(x) de Legendre, y, a diferencia de E.G. Williams, "Fourier Acoustics", vol. 93 de Applied Mathematical Sciences, Academic Press, 1999, sin el término (-1)m de fase de Condon-Shortley.

El procesamiento inventivo se puede llevar a cabo mediante un único procesador o circuito electrónico, o mediante varios procesadores o circuitos electrónicos que funcionen en paralelo y/o que funcionen en diferentes partes del procesamiento inventivo.

Las instrucciones para hacer funcionar el procesador o los procesadores pueden almacenarse en una o más memorias. El objeto para el cual se busca protección está definido de manera única por el juego de reivindicaciones adjunto.

Claims

REIVINDICACIONES

1. Un método para decodificar una representación de sonido de ambisónica de orden superior (HOA) comprimida de un sonido o campo de sonido, comprendiendo el método:

recibir y demultiplexar una corriente de bits que contiene la representación HOA comprimida para proporcionar una representación codificada perceptualmente de señales I y datos de información secundaria codificados que describen cómo crear una representación HOA de la misma; decodificar, en un decodificador perceptual, la representación codificada perceptualmente de las señales I para determinar, para una trama de datos HOA actual (k), señales decodificadas perceptualmente Zi(k), i = 1, ..., I, y decodificar, en un decodificador de fuente de información secundaria, los datos de información secundaria codificados para determinar, para la trama de datos HOA actual (k), datos de información secundaria decodificados que dan como resultado el exponente e¡(k) de corrección de ganancia asociado, el indicador Pi(k) de excepción de corrección de ganancia, conjuntos MDiR(k+i) y MvEC(k+i) de datos de tupla, los parámetros ^(k 1) de predicción y un vector VAMB,AssiGN(k) de asignación, y valores de ganancia no diferenciales, representados como un exponente en base dos y que representan cambios de amplitud absoluta total, desde una primera trama HOA hasta una trama HOA actual, asignados a la información secundaria de la trama HOA actual para aplicar un control de ganancia correcto para las señales de canal de la trama HOA actual, donde cada uno de los valores de ganancia no diferenciales está representado por un número entero más bajo de bits;

proporcionar tramas yi(k), i = 1, ..., I de señal corregidas de ganancia, realizando un procesamiento de control de ganancia inverso para las señales perceptualmente decodificadas z¡(k), i = 1, ..., I, en base a los valores de ganancia no diferenciales, el exponente e¡(k) de corrección de ganancia asociado y el indicador Pi(k) de excepción de corrección de ganancia,

redistribuir las tramas y¡(k), i = 1, ..., I de señal corregidas de ganancia, durante la reasignación de canales utilizando los conjuntos MDIR(k+1) y MvEC(k+1) de datos de tupla, y el vector vAMB,AssIGN(k) de asignación, con el fin de reconstruir una trama Xps(k) de todas las señales de sonido predominantes y una trama CI,AMB(k) de una representación intermedia de un componente HOA ambiental,

proporcionar un conjunto JAMB,ACT(k de índices de secuencias de coeficientes del componente HOA ambiental activo en la k-ésima trama, y conjuntos JE(k - 1), JD(k - 1) y Ju(k - 1) de datos de los índices de coeficientes del componente ambiental HOA,

computar una representación HOA del componente de sonido predominante Cps(k - 1) a partir de la trama Xps(k) de todas las señales de sonido predominantes utilizando el conjunto MDIR(k+1) de tuplas, el conjunto ^(k 1) de parámetros de predicción, el conjunto MvEC(k+1) de tuplas y los conjuntos JE(k - 1), JD(k - 1) y Ju(k - 1) de datos,

crear una trama CAMB(k - 1) de componente HOA ambiental a partir de la trama CI,AMB(k) de la representación intermedia del componente HOA ambiental, utilizando el conjunto J<amb>,<act>(k de índices de secuencias de coeficientes del componente HOA ambiental que están activos en la k-ésima trama, introduciendo un retardo de una trama debido a la sincronización con el componente de sonido predominante,

superponer la trama CAMB(k - 1) de componente HOA ambiental y la trama Cps(k - 1) del componente HOA de sonido predominante para proporcionar la trama HOA decodificada C(k - 1), y

crear a partir de las señales I y de la información secundaria la representación HOA reconstruida,

donde el número entero más bajo Pe de bits aplicado para representar los valores de ganancia no diferencial se puede determinar mediante

A = N f e C N í P / W • 0 ) 1 1 ) 1

donde<^>"<m>|V|<a>A<x>A<— m a x>is<is>j<W>v s<sA>«<,>m a xk

V(N'í l1<. < > )>J,N es el orden, Nmaxes el orden máximo de interés, Ü1(N), ..., Qo(N) son direcciones de altavoces virtuales, O = (N 1)2 es el número de secuencias de coeficientes HOA, y K es una relación entre la norma euclidiana al cuadrado IITIH2 de una matriz de modos y O, donde Y es una matriz de modos con respecto a dichas direcciones, y donde 7<kmax>= l-5.

2. Producto de programa de ordenador que comprende instrucciones que, cuando se llevan a cabo en un ordenador, realizan el método de la reivindicación 1.

3. Medio de almacenamiento que almacena el producto de programa de ordenador de la reivindicación 2.