ES2974440T3 - Método para decodificar una representación de tramas de datos HOA comprimida de un campo de sonido - Google Patents
Método para decodificar una representación de tramas de datos HOA comprimida de un campo de sonido Download PDFInfo
- Publication number
- ES2974440T3 ES2974440T3 ES21159478T ES21159478T ES2974440T3 ES 2974440 T3 ES2974440 T3 ES 2974440T3 ES 21159478 T ES21159478 T ES 21159478T ES 21159478 T ES21159478 T ES 21159478T ES 2974440 T3 ES2974440 T3 ES 2974440T3
- Authority
- ES
- Spain
- Prior art keywords
- hoa
- frame
- signals
- representation
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 11
- 239000013598 vector Substances 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 29
- 230000007613 environmental effect Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000005236 sound signal Effects 0.000 claims description 21
- 238000012937 correction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims 2
- 238000010606 normalization Methods 0.000 abstract description 15
- 230000006835 compression Effects 0.000 description 12
- 238000007906 compression Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000006837 decompression Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 241001306293 Ophrys insectifera Species 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 230000005428 wave function Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Analysis (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Stereophonic System (AREA)
Abstract
Al comprimir una representación de trama de datos HOA, se aplica un control de ganancia (15, 151) para cada señal de canal antes de codificarla perceptualmente (16). Los valores de ganancia se transfieren de forma diferencial como información adicional. Sin embargo, para iniciar la decodificación de dicha representación de trama de datos HOA comprimida transmitida se requieren valores de ganancia absoluta, que deben codificarse con un número mínimo de bits. Para determinar dicho número entero más bajo (βe) de bits, la representación del marco de datos HOA (C(k)) se representa en el dominio espacial para señales de altavoces virtuales que se encuentran en una esfera unitaria, seguido de la normalización de la representación del marco de datos HOA (C(k))). Entonces el número entero más bajo de bits se establece en βe=[log2[log2KMAX⋅O]+1]. (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCIÓN
Método para decodificar una representación de tramas de datos HOA comprimida de un campo de sonido
Campo técnico
La invención se refiere a un método para decodificar una representación de tramas de datos HOA comprimida de un sonido o de un campo de sonido.
Antecedentes
La ambisónica de orden superior denominada HOA ofrece una posibilidad de representar sonido tridimensional. Otras técnicas son la síntesis de campo de ondas (WFS) o enfoques basados en canales como 22.2. A diferencia de los métodos basados en canales, la representación HOA ofrece la ventaja de ser independiente de una configuración de altavoz específica. Sin embargo, esta flexibilidad se produce a expensas de un proceso de decodificación que se requiere para la reproducción de la representación HOA en una configuración de altavoz particular. En comparación con el enfoque WFS, en el que la cantidad de altavoces necesarios es habitualmente muy grande, HOA se puede también renderizar en configuraciones que constan de sólo unos pocos altavoces. Una ventaja adicional de HOA es que la misma representación se puede también emplear sin ninguna modificación para la renderización binaural para auriculares.
HOA se basa en la representación de la densidad espacial de amplitudes de ondas planas armónicas complejas mediante una expansión de Armónicos Esféricos (SH) truncada. Cada coeficiente de expansión es una función de la frecuencia angular, lo que puede representarse de manera equivalente mediante una función en el dominio tiempo. Por consiguiente, sin pérdida de generalidad, se puede asumir que la representación completa de campo de sonido HOA consta en realidad de 0 funciones en el dominio tiempo, donde 0 denota el número de coeficientes de expansión. Estas funciones en el dominio tiempo se denominarán en lo sucesivo, de manera equivalente, secuencias de coeficientes HOA o canales HOA.
La resolución espacial de la representación HOA mejora con un orden máximo N creciente de la expansión. Desafortunadamente, el número de coeficientes O de expansión crece cuadráticamente con el orden N, en particular O = (N 1)2. Por ejemplo, las representaciones típicas de HOA que utilizan el orden N = 4 requieren O = 25 coeficientes HOA (expansión). La velocidad de bits total para la transmisión de la representación h Oa , dada una velocidad de muestreo de un solo canal fS deseada y un número de bits Nb por muestra, se determina mediante O ■ fS ■ Nb. La transmisión de una representación HOA de orden N = 4, con una velocidad de muestreo de fS = 48 kHz empleando Nb = 16 bits por muestra, da como resultado una velocidad de bits de 19, 2 MBits/s, que es muy alta para muchas aplicaciones prácticas, por ejemplo, para transmisión ininterrumpida. De este modo, la compresión de las representaciones de HOA es muy conveniente.
Anteriormente, la compresión de las representaciones HOA de campo de sonido se propuso en los documentos EP 2665208 A1, EP 2743922 A1, EP 2800401 A1, cf. ISO/IEC JTC1/SC29/WG11, N14264, WD1-HOA Text of MPEG-H 3D Audio, enero de 2014. Estos enfoques tienen en común que realizan un análisis de campo de sonido y descomponen la representación HOA dada en un componente direccional y un componente ambiental residual. Por un lado, se asume que la representación comprimida final consta de una serie de señales cuantificadas, resultantes de la codificación perceptual de señales direccionales y basadas en vectores, así como de secuencias de coeficientes relevantes del componente HOA ambiental. Por otro lado, comprende información secundaria adicional relacionada con las señales cuantificadas, información secundaria que se requiere para la reconstrucción de la representación HOA a partir de su versión comprimida.
Antes de pasar al codificador perceptual, se requiere que estas señales intermedias en el dominio tiempo tengan una amplitud máxima dentro del intervalo de valores [-1, 1[, que es un requisito que surge de la implantación de los codificadores perceptuales actualmente disponibles. Con el fin de satisfacer este requisito al comprimir representaciones HOA, se utiliza una unidad de procesamiento de control de ganancia (véase el documento EP 2824661 A1 y el documento ISO/IEC JTC1/SC29/WG11 N14264 mencionado anteriormente) delante de los codificadores perceptuales, que atenúa o amplifica suavemente las señales de entrada. Se asume que la modificación de la señal resultante es invertible y que se aplica en cada trama, asumiéndose que, en particular, el cambio de las amplitudes de la señal entre tramas sucesivas es una potencia de '2'. Para facilitar la inversión de esta modificación de señal en el descompresor HOA, se incluye la información secundaria de normalización correspondiente en la información secundaria total. Esta información secundaria de normalización puede consistir en exponentes en base '2', exponentes que describen el cambio de amplitud relativa entre dos tramas sucesivas. Estos exponentes se codifican usando un código de longitud de ejecución de acuerdo con el documento ISO/IEC JTC1/SC29/WG11 N14264 mencionado anteriormente, ya que los cambios de amplitud menores entre tramas sucesivas son más probables que los mayores.
Sumario de la invención
Es factible utilizar cambios de amplitud codificados diferencialmente para reconstruir las amplitudes de la señal original en la descompresión HOA, por ejemplo, en caso de que un solo archivo se descomprima desde el principio hasta el final sin saltos temporales. Sin embargo, para facilitar el acceso aleatorio, deben estar presentes unidades de acceso independientes en la representación codificada (que normalmente es una corriente de bits) con el fin de permitir el inicio de la descompresión desde una posición deseada (o al menos en las proximidades de ella), independientemente de la información de tramas anteriores. Tal unidad de acceso independiente tiene que contener el cambio de amplitud absoluta total (es decir, un valor de ganancia no diferencial) originado por la unidad de procesamiento de control de ganancia desde la primera trama hasta la trama actual. Suponiendo que los cambios de amplitud entre dos tramas sucesivas son una potencia de '2', es suficiente describir también el cambio de amplitud absoluta total mediante un exponente de base '2'. Para una codificación eficiente de este exponente, es fundamental conocer las ganancias máximas potenciales de las señales antes de la aplicación de la unidad de procesamiento de control de ganancia. Sin embargo, este conocimiento depende en gran medida de la especificación de restricciones en el intervalo de valores de las representaciones HOA que se van a comprimir. Desafortunadamente, el documento de audio MPEG-H 3D ISO/IEC JTC1/SC29/WG11 N14264 proporciona sólo una descripción del formato para la representación HOA de entrada, sin establecer ninguna restricción en los intervalos de valores.
La invención establece una interrelación entre el intervalo de valores de la representación HOA de entrada y las ganancias máximas potenciales de las señales antes de la aplicación de la unidad de procesamiento de control de ganancia dentro del compresor HOA. En base a esa interrelación, se determina la cantidad de bits necesarios - para una especificación dada para el intervalo de valores de una representación HOA de entrada - para una codificación eficiente de los exponentes de base '2' para describir, dentro de una unidad de acceso, los cambios de amplitud absolutos totales (es decir, un valor de ganancia no diferencial) de las señales modificadas originados por la unidad de procesamiento de control de ganancia desde la primera trama hasta la trama actual.
Además, una vez fijada la regla para computar la cantidad de bits requeridos para la codificación del exponente, la invención utiliza un procesamiento para verificar si una representación HOA dada satisface las restricciones de intervalo de valores requeridas de tal manera que pueda comprimirse correctamente.
Breve descripción de los dibujos
Se describen realizaciones ejemplares de la invención con referencia a los dibujos que se acompañan, los cuales muestran:
Figura 1 Compresor HOA;
Figura 2 Descompresor HOA;
Figura 3 Valores K de escala para direcciones virtuales Qj(N), 1 < j < 0, para órdenes HOA N = 1, ..., 29;
Figura 4 Normas euclidianas de matrices de modo inverso Y -1 para direcciones virtuales ÜMiN,d, d = 1, ..., Omin para órdenes HOA Nmin = 1, ..., 9;
Figura 5 Determinación de la magnitud máxima permitida ydB de señales de altavoces virtuales en posiciones Qj(N>, 1 < j < O, donde O = (N 1)2;
Figura 6 Sistema de coordenadas esféricas.
Descripción de realizaciones
A continuación se presenta el principio de compresión y descompresión HOA con el fin de proporcionar un contexto más detallado en el que se produce el problema mencionado anteriormente. La base de esta presentación es el procesamiento descrito en el documento MPEG-H 3D de audio ISO/IEC JTC1/SC29/WG11 N14264, véanse también los documentos EP 2665208 A1, EP 2800401 A1 y EP 2743922 A1. En el documento N14264, el 'componente direccional' se extiende a un 'componente de sonido predominante'. Como componente direccional, se asume que el componente de sonido predominante está representado en parte por señales direccionales, es decir, señales monoaurales con su dirección correspondiente, desde la cual se asume que inciden en el oyente, junto con algunos parámetros de predicción para predecir porciones de la representación HOA original a partir de las señales direccionales. Además, se asume que el componente de sonido predominante está representado por 'señales basadas en vectores', es decir, señales monoaurales con un vector correspondiente que define la distribución direccional de las señales basadas en vectores.
Compresión HOA
La arquitectura general del compresor HOA descrito en el documento EP 2800401 A1 se ilustra en la figura 1. Tiene una parte de codificación HOA espacial representada en la figura 1A y una parte de codificación de fuente y percepción representada en la figura 1B. El codificador espacial HOA proporciona una primera representación HOA comprimida que consta de I señales junto con información secundaria que describe cómo crear una representación HOA de las mismas. En los codificadores de fuentes de información perceptual y secundaria, las I señales se codifican perceptualmente, y la información secundaria se somete a codificación de fuente, antes de que se multiplexen las dos representaciones codificadas.
Codificación espacial HOA
En un primer paso, se introduce una k-ésima trama C(k) actual de la representación HOA original en un paso o una etapa 11 de procesamiento de estimación de dirección y vector, que se asume que proporciona los conjuntos Mdirm y Mvecm de tuplas. El conjunto Mdirm de tuplas consta de tuplas de las cuales el primer elemento indica el índice de una señal direccional y el segundo elemento indica la dirección cuantificada respectiva. El conjunto de tuplas Mvecm consta de tuplas de las cuales el primer elemento indica el índice de una señal basada en vectores y el segundo elemento denota el vector que define la distribución direccional de las señales, es decir, cómo se computa la representación HOA de la señal basada en vectores.
Utilizando ambos conjuntos Mdirm y Mvecm de tuplas, la trama HOA inicial C(k) se descompone en un paso o una etapa 12 de descomposición HOA en la trama XPS(k - 1) de todas las señales de sonido predominantes (es decir, direccionales y basadas en vectores) y la trama CAMB(k - 1) del componente HOA ambiental. Obsérvese el retardo de una trama, que se debe al procesamiento de superposición y adición con el fin de evitar artefactos de bloqueo. Además, se asume que el paso o la etapa 12 de descomposición HOA genera algunos parámetros £(k -1) de predicción que describen cómo predecir porciones de la representación HOA original a partir de las señales direccionales, con el fin de enriquecer el componente HOA de sonido predominante. Además, se asume que se proporciona un vector vA,T(k - 1) de asignación objetivo que contiene información sobre la asignación de señales de sonido predominantes, que se determinaron en el paso o la etapa 12 del procesamiento de descomposición HOA, a los I canales disponibles. Se puede asumir que los canales afectados están ocupados, es decir, no están disponibles para transportar ninguna secuencia de coeficientes del componente HOA ambiental en el intervalo de tiempo respectivo.
En el paso o la etapa 13 de procesamiento de modificación de componente ambiental, la trama CAMB(k - 1) del componente HOA ambiental se modifica de acuerdo con la información proporcionada por el vector de asignación objetivo vA,T(k - 1). En particular, se determina qué secuencias de coeficientes del componente HOA ambiental deben transmitirse en los canales I dados, dependiendo (entre otros aspectos) de la información (contenida en el vector vA,T(k - 1) de asignación objetivo) sobre qué canales están disponibles y no están ocupados por las señales de sonido predominantes. Además, se realiza una aparición y desaparición gradual de secuencias de coeficientes si los índices de las secuencias de coeficientes elegidas varían entre tramas sucesivas.
Además, se asume que las primeras secuencias de coeficientes Omin del componente HOA ambiental CAMB(k - 2) siempre se eligen para codificarse y transmitirse perceptualmente, donde O<min>= (N<min>+ 1)2, siendo típicamente N<min>á N un orden más pequeño que el de la representación original de HOA. Con el fin de descorrelacionar estas secuencias de coeficientes HOA, se pueden transformar en el paso/la etapa 13 en señales direccionales (es decir, funciones de onda plana generales) que inciden desde algunas direcciones predefinidas Qmin, d, d = 1, ..., Omin.
Junto con el componente HOA ambiental modificado CM,A(k - 1) se computa en el paso/la etapa 13 un componente HOA ambiental modificado Cp,M,A(k - 1)predicho temporalmente y se utiliza en los pasos o las etapas 15, 151 de procesamiento de control de ganancia con el fin de permitir una anticipación razonable, estando la información sobre la modificación del componente HOA ambiental directamente relacionada con la asignación de todos los tipos posibles de señales a los canales disponibles en el paso o la etapa 14 de asignación de canales. Se asume que la información final sobre esa asignación está contenida en el vector de asignación final vA(k - 2). Con el fin de computar este vector en el paso/la etapa 13, se explota la información contenida en el vector vA,T(k - 1) de asignación objetivo.
La asignación de canal en el paso/la etapa 14 asigna, con la información proporcionada por el vector de asignación vA(k - 2), las señales apropiadas contenidas en la trama Xps(k - 2) y la contenida en la trama CM,A(k -2) a los I canales disponibles, lo que produce las tramas de señal y¡(k - 2), i = 1, ..., I. Además, las señales apropiadas contenidas en la trama Xps(k - 1) y en la trama Cp,AMB(k - 1) también se asignan a los I canales disponibles, lo que produce las tramas de señal predichas yp, i(k - 1), i = 1, ..., I.
Cada una de las tramas yi(k - 2), i = 1, ..., 1 de señal es finalmente procesada por el control 15, 151 de ganancia dando como resultado exponentes e¡(k - 2) e indicadores Pi(k - 2), i = 1, ..., I de excepción y señales zi(k - 2), i = 1, ..., I, en los que la ganancia de la señal se modifica suavemente tal como para conseguir un intervalo de valores adecuado para los pasos o las etapas 16 de codificador perceptual. Los pasos/las etapas 16 emiten las tramas de señal codificadas correspondientes 2¿(fc — 2 ) i ¡ = ^ |. Las tramas de señal predichas yp,¡(k - 1), i = 1, I permiten una especie de anticipación con el fin de evitar cambios severos de ganancia entre bloques sucesivos. Los datos de información secundaria Mdir(m ), Mvec(m ), ei(k-2), Pi(k-2), Q(k-1) y vA(k-2) están codificados en fuente en el paso o la etapa 17 del codificador de fuente de información secundaria, dando como resultado la trama de información secundaria codificadar(k— 2).En un multiplexor 18, las señales codificadasZ i(k -2 )de la trama (k - 2) y los datos de información secundaria codificadosT (k -2 )para esta trama se combinan, lo que da como resultado la tramaB(k -2) de salida.
En un decodificador HOA espacial, se asume que las modificaciones de ganancia en los pasos/las etapas 15, 151 se revierten utilizando la información secundaria de control de ganancia, que consta de los exponentes e¡(k -2) y de los indicadores de excepción Pi(k - 2), i = 1, ..., I.
Descompresión HOA
La arquitectura general del descompresor HOA descrita en el documento EP 2800401 A1 se ilustra en la figura 2. Consta de las contrapartes de los componentes de compresor HOA, que están dispuestos en orden inverso e incluyen una parte de percepción y decodificación de fuente representada en la figura 2A y una parte de decodificación HOA espacial representada en la figura 2B.
En la parte de decodificación de fuente y perceptual (que representa un decodificador de fuente de información secundaria y perceptual) un paso o una etapa de demultiplexación 21 recibe la tramaB (k)de entrada de la corriente de bits y proporciona la representación codificada perceptualmente z,;(/c),\ = -\t..., | de las señales I y los datosr(k)de información secundaria codificados describiendo cómo crear una representación de HOA de los mismos. Las z¡(fe) señales se decodifican perceptualmente en un paso o una etapa 22 del decodificador perceptual, dando como resultado señales decodificadas z¡(k), i = 1, ..., I. Los datos^ (k )de información secundaria codificados se decodifican en un paso o una etapa 23 de decodificador de fuente de información secundaria, dando como resultado conjuntos de datos MDiR(k+1), MvEC(k+1), exponentes e¡(k), indicadores Pi(k) de excepción, parámetros £(k 1) de predicción y un vector vAMB,AssiGN(k) de asignación. Con respecto a la diferencia entre<va>y vAMB,AssiGN(k), véase el documento N14264 mencionado anteriormente de MPEG.
Decodificación espacial HOA
En la parte de decodificación HOA espacial, cada una de las señales decodificadas perceptualmente Zi(k), i = 1, ..., I, se introduce en un paso o una etapa 24, 241 de procesamiento de control de ganancia inversa junto con su exponente ei(k) de corrección de ganancia y su indicador Pi(k) de excepción de corrección de ganancia asociados. El i-ésima paso/la i-ésima etapa de procesamiento de control de ganancia inversa proporciona una trama y¡(k) de señal corregida de ganancia.
Todas las tramas I de señal corregidas de ganancia yi(k), i = 1, ..., I se alimentan junto con el vector vAMB,AssiGN(k) de asignación y los conjuntos de tuplas MDIR(k+1) y MvEC(k+1) a un paso o una etapa de reasignación de canal 25, cf. la definición descrita anteriormente de los conjuntos de tuplas MDIR(k+1) y MvEC(k+1). El vector<vamb>,<assign>( ^ de asignación consta de I componentes que indican para cada canal de transmisión si contiene una secuencia de coeficientes del componente HOA ambiental y cuál contiene. En el paso/la etapa 25 de reasignación de canal, las tramas y¡(k) de señal corregidas de ganancia se redistribuyen con el fin de reconstruir la trama Xps(k) de todas las señales de sonido predominantes (es decir, todas las señales direccionales y basadas en vectores) y la trama CI,AMB(k) de una representación intermedia del componente HOA ambiental. Además, se proporcionan el conjunto JAMB,ACT(k), de índices de secuencias de coeficientes del componente HOA ambiental activo en la késima trama, y los conjuntos JE(k - 1), JD(k - 1) y Ju(k - 1) de datos de índices de coeficientes del componente HOA ambiental, que deben habilitarse, deshabilitarse y permanecer activos en la (k - 1)-énesima trama.
En un paso o una etapa 26 de síntesis de sonido predominante, la representación HOA del componente Cps(k -1) de sonido predominante se computa a partir de la trama Xps(k) de todas las señales de sonido predominantes usando el conjunto MDIR(k+1) de tuplas, el conjunto £(k 1) de parámetros de predicción, el conjunto MvEC(k+1) de tuplas y los conjuntos JE(k - 1), JD(k - 1) y Ju(k - 1) de datos.
En un paso o una etapa 27 de síntesis de ambiente, la trama de componente HOA ambiental CAMB(k - 1) se crea a partir de la trama CI,AMB(k) de la representación intermedia del componente HOA ambiental, usando el conjunto JAMB,ACT(k) de índices de secuencias de coeficientes del componente HOA ambiental que están activos en la késima trama. El retardo de una trama se introduce debido a la sincronización con el componente HOA de sonido predominante. Finalmente, en un paso o una etapa 28 de composición HOA, la trama CAMB(k - 1) de componente HOA ambiental y la trama Cps(k - 1) de componente HOA de sonido predominante se superponen como para proporcionar la trama HOA decodificada C(k - 1).
Más tarde, el decodificador HOA espacial crea, a partir de las I señales y de la información secundaria, la representación HOA reconstruida.
En caso de que en el lado de codificación el componente HOA ambiental se haya transformado en señales direccionales, esa transformación se invierte en el lado del decodificador en el paso/la etapa 27.
Las ganancias máximas potenciales de las señales antes de las etapas/etapas 15, 151 de procesamiento de control de ganancia dentro del compresor HOA dependen en gran medida del intervalo de valores de la representación HOA de entrada. Por lo tanto, al principio se define un intervalo de valores significativo para la representación HOA de entrada, seguido de una conclusión sobre las ganancias máximas potenciales de las señales antes de ingresar a los pasos/las etapas de procesamiento de control de ganancia.
Normalización de la representación HOA de entrada
Para utilizar el procesamiento inventivo se debe llevar a cabo antes una normalización de la señal de representación HOA de entrada (total). Para la compresión HOA se realiza un procesamiento por tramas, donde la k-ésima trama C(k) de la representación HOA de entrada original se define con respecto al vector c(t) de secuencias de coeficientes HOA continuas en el tiempo especificadas en la ecuación (54) en la sección de conceptos básicos de la ambisónica de orden superior como
donde k denota el índice de la trama, L la longitud de la trama (en muestras), 0 = (N 1)2 el número de secuencias de coeficientes HOA y T<s>indica el período de muestreo.
Como se menciona en el documento EP 2824661 A1, no se consigue una normalización significativa de una representación HOA vista desde una perspectiva práctica imponiendo restricciones en el intervalo de valores de las secuenciascn ( t) de coeficientes HOA individuales, ya que estas funciones en el dominio tiempo no son las señales que realmente reproducen los altavoces después de la renderización. En cambio, es más conveniente considerar la 'representación de dominio espacial equivalente', que se obtiene renderizando la representación HOA en O señales de altavoces virtuales wj(t), 1 < j < O. Se asume que las respectivas posiciones de los altavoces virtuales están expresadas mediante un sistema de coordenadas esféricas, asumiéndose que cada posición se encuentra en la esfera unitaria y tiene un radio de '1'. Por consiguiente, las posiciones pueden expresarse de manera equivalente mediante direcciones Qj(N) = (9j(N), φj(N)) dependientes de orden, 1 < j < O, donde 9j(N) y φj(N) denotan las inclinaciones y acimuts, respectivamente (véase también la figura 6 y su descripción para la definición del sistema de coordenadas esféricas). Estas direcciones deben distribuirse lo más uniformemente posible en la esfera unitaria, véase, por ejemplo, J. Fliege, U. Maier, "A two-stage approach for computing cubature formulae for the sphere", Technical report, Fachbereich Mathematik, Universidad de Dortmund, 1999. Los números de nodo se encuentran en http://www.mathematik.unidortmund.de/lsx/research/projects/fliege/nodes/nodes.html para el cálculo de direcciones específicas. Estas posiciones dependen en general del tipo de definición de "distribución uniforme en la esfera" y, por tanto, no son inequívocas.
La ventaja de definir intervalos de valores para señales de altavoces virtuales sobre definir intervalos de valores para secuencias de coeficientes HOA es que el intervalo de valores para las primeras se puede establecer intuitivamente igualmente al intervalo [-1, 1[ como es el caso para señales de altavoces convencionales que asumen representación PCM. Esto conduce a un error de cuantificación distribuido espacialmente de manera uniforme, de tal modo que, ventajosamente, la cuantificación se aplica en un dominio que es relevante con respecto a la escucha real. Un aspecto importante en este contexto es que se puede elegir que el número de bits por muestra sea tan bajo como suele ser para señales de altavoces convencionales, es decir, 16, lo que aumenta la eficiencia en comparación con la cuantificación directa de secuencias de coeficientes HOA, en la que normalmente se requiere un mayor número de bits (por ejemplo, 24 o incluso 32) por muestra.
Para describir en detalle el proceso de normalización en el dominio espacial, todas las señales de altavoces virtuales se resumen en un vector como
w ( t ) : = [w j CO ...w 0 ( t ) ] T ,(2 )
donde ( ) T denota transposición. Denotando la matriz modal con respecto a las direcciones virtuales Qj(N), 1 < j < O, por Y, que está definida por
V:= [Sx ... í 0] E l 0x0 (3)
[50°(í27w)sy^n™)s“(fl;w)s±{n,m )...S^(í2fm) s^n™)]1con Sj:= (4)
el proceso de renderización se puede formular como una multiplicación de matrices
w(t ) = ( V ) - 1 ■ c(t ) .( 5 )
Utilizando estas definiciones, un requisito razonable para las señales de los altavoces virtuales es:
(6)
lo que significa que se requiere que la magnitud de cada señal de altavoz virtual esté dentro del intervalo [-1, 1[ . Un instante de tiempo t está representado por un índice l de muestra y por un período T<s>de muestra de los valores de muestra de dichas tramas de datos HOA.
Por consiguiente, la potencia total de las señales de los altavoces satisface la condición
La renderización y la normalización de la representación de la trama de datos HOA se lleva a cabo aguas arriba de la entrada C(k) de la figura 1A.
Consecuencias para el intervalo de valores de la señal antes del control de ganancia
Asumiendo que la normalización de la representación HOA de entrada se realiza de acuerdo con la descripción en la sección Normalización de la representación HOA de entrada, el intervalo de valores de las señales yi, i = 1, ..., I, que se introduce en la unidad 15, 151 de procesamiento de control de ganancia en el compresor HOA, se considera a continuación. Estas señales se crean mediante la asignación a los canales I disponibles de una o más de las secuencias de coeficientes HOA, o señales de sonido predominantes xPs,d, d = 1 , ..., D, y/o secuencias de coeficientes particulares del componente HOA ambiental cAMB,n, n = 1, ..., O, a parte de las cuales se aplica una transformación espacial. Por consiguiente, es necesario analizar el posible intervalo de valores de estos diferentes tipos de señales mencionados bajo la asunción de normalización de la ecuación (6). Dado que todo tipo de señales se computan intermediamente a partir de las secuencias de coeficientes HOA originales, se echa una ojeada a sus posibles intervalos de valores.
El caso en el que sólo una o más secuencias de coeficientes HOA estén contenidas en los canales I no se representa en las figuras 1A y 2B, es decir, en tal caso no se requieren la descomposición de HOA, la modificación de los componentes ambientales y los bloques de síntesis correspondientes.
Consecuencias para el intervalo de valores de la representación HOA La representación HOA continua en el tiempo se obtiene a partir de las señales de altavoz virtuales mediante
c(t) = V w ( t ) ,( 8 )
que es la operación inversa a la de la ecuación (5). Por consiguiente, la potencia total de todas las secuencias de coeficientes HOA está limitada de la siguiente manera:
utilizando las ecuaciones (8) y (7).
Bajo la asunción de normalización de N3D de las funciones armónicas esféricas, la norma euclidiana al cuadrado de la matriz modal se puede escribir mediante
IIVII22 = K - 0 ,(10a)
donde
denota la relación entre la norma euclidiana al cuadrado de la matriz modal y el número O de secuencias de coeficientes HOA.
Esta relación depende del orden N de HOA específico y de las direcciones específicas Qj(N) de altavoz virtuales, 1 < j < O, que se puede expresar añadiendo a la relación la lista de parámetros respectiva de la siguiente manera:
K = K(N,í 2 f J, ... X W)) . (1 0 c )
La figura 3 muestra los valores de K para direcciones virtuales Qj(N), 1 < j < O, de acuerdo con el artículo de Fliege et al. anteriormente mencionado para órdenes N = 1, ..., 29 de HOA.
La combinación de todos los argumentos y consideraciones anteriores proporciona un límite superior para la magnitud de las secuencias de coeficientes HOA de la siguiente manera:
donde la primera desigualdad procede directamente de las definiciones de las normas.
Es importante señalar que la condición de la ecuación (6) implica la condición de la ecuación (11), pero que no se sostiene lo contrario, es decir, que la ecuación (11) no implica la ecuación (6).
Un aspecto importante adicional es que, bajo la asunción de posiciones de altavoces virtuales distribuidas casi uniformemente, los vectores de columna de la matriz Y de modos, que representan los vectores de modos con respecto a las posiciones de los altavoces virtuales, son casi ortogonales entre sí y tienen una norma euclidiana de N 1 cada uno. Esta propiedad significa que la transformación espacial conserva casi la norma euclidiana excepto por una constante multiplicativa, es decir, que
lk(¿7’s)||2 * ( w i)||w(zrs) ||2 . (12)
La verdadera norma ||c(lTs)ll2 difiere tanto más de la aproximación en la ecuación (12) cuanto más se viola la asunción de ortogonalidad en los vectores modales.
Consecuencias para el intervalo de valores de las señales de sonido predominantes
Ambos tipos de señales de sonido predominantes (direccionales y basadas en vectores) tienen en común que su contribución a la representación HOA se describe mediante un único vectorv iG con norma euclidiana de N 1, es decir, que
\ \ V i h = N l .(13 )
En el caso de la señal direccional, este vector corresponde al vector de modos con respecto a una determinada dirección Qs,1 de la fuente de señal, es decir, que
t?i = S (f lSil) (14)
Este vector describe mediante una representación HOA un haz direccional en la dirección Qs,1 de la fuente de señal. En el caso de una señal basada en vectores, el vector v1 no está obligado a ser un vector de modo con respecto a ninguna dirección, y, por consiguiente, puede describir una distribución direccional más general de la señal basada en vectores monoaurales.
A continuación se considera el caso general de D señales xd(t), d = 1, ..., D de sonido predominantes, que pueden recogerse en el vector x(t) de acuerdo con
x(t) =[X i(0x2(t) ... xD(t)]r .(16)
Estas señales tienen que determinarse en base a la matriz
V : = [ v ± v 2 ... v D](17)
que está formada por todos los vectores vd, d = 1, D, que representan la distribución direccional de las señales de sonido monoaurales predominantes xd(t), d = 1, ..., D.
Para una extracción significativa de las señales de sonido predominantes x(t), se formulan las siguientes restricciones:
a) Cada señal de sonido predominante se obtiene como una combinación lineal de las secuencias de coeficientes de la representación HOA original, es decir, que
x( t) -A ■ c(t) ,(18)
dondeA EM0><0 denota la matriz de mezcla.
b) La matriz A de mezcla debe elegirse de tal manera que su norma euclidiana no exceda el valor de '1', es decir, que
I
\\A\\2 < 1 '(19)
y de tal manera que la norma euclidiana al cuadrado (o potencia equivalente) del residual entre la representación HOA original y la de las señales de sonido predominantes no sea mayor que la norma euclidiana al cuadrado (o potencia equivalente) de la representación HOA original, es decir, que
Insertando la ecuación (18) en la ecuación (20) se puede ver que la ecuación (20) es equivalente a la restricción
donde I denota la matriz identidad.
A partir de las restricciones en la ecuación (18) y en (19) y de la compatibilidad de la matriz euclidiana y las normas vectoriales, se encuentra un límite superior para las magnitudes de las señales de sonido predominantes mediante
IK /7 s ) ||« < IW i7 ’s) | |2<(>22<)>
< IWI2llcars) ||2 (23)
< y [ K - 0 ,(24;
utilizando las ecuaciones (18), (19) y (11). Por consiguiente, se garantiza que las señales de sonido predominantes permanezcan en el mismo intervalo que las secuencias de coeficientes HOA originales (compárese con la ecuación (11)), es decir, que
. (25)
Ejemplo de elección de matriz de mezcla
Un ejemplo de cómo determinar la matriz de mezcla que satisface la restricción (20) se obtiene computando las señales de sonido predominantes de tal manera que se minimice la norma euclidiana del residuo después de la extracción, es decir, que
La solución al problema de minimización en la ecuación (26) viene dada por
x(t) = V+c( t ) r( 27)
donde ()+ indica la pseudoinversa de Moore-Penrose. Comparando la ecuación (27) con la ecuación (18) se deduce que, en este caso, la matriz de mezcla es igual a la pseudo inversa de Moore-Penrose de la matriz V, es decir, que A = V+. Sin embargo, todavía hay que elegir la matriz V para satisfacer la restricción (19), es decir, que
En el caso de señales únicamente direccionales, donde la matriz V es la matriz de modo con respecto a algunas direcciones de la señal fuente
^s.di d — 1, ... ,D,i . e .V —[s(/2s i)S(í lS2)■ ■ £(42<s>.<d>)1 , ( 29)
la restricción (28) puede satisfacerse eligiendo las direcciones de la señal fuente Qs.d, d = 1, ..., D, de tal modo que la distancia de dos direcciones vecinas cualesquiera no sea demasiado pequeña.
Consecuencias para el intervalo de valores de las secuencias de coeficientes del componente HOA ambiental
El componente HOA ambiental se computa restando de la representación HOA original la representación HOA de las señales de sonido predominantes, es decir, que
<camb>(0 = c ( t )- V x(t ) .( 30)
Si el vector de señales de sonido predominantes x(t) se determina de acuerdo con el criterio (20), se puede concluir que
Rango de valores de secuencias de coeficientes transformadas espacialmente del componente HOA ambiental
Un aspecto adicional en el procesamiento de compresión HOA propuesto en el documento EP 2743922 A1 y en el documento N14264 de MPEG mencionado anteriormente es que las primeras secuencias de coeficientes Omin del componente HOA ambiental siempre se eligen para asignarse a los canales de transporte, donde Omin = (N<min>+ 1)2 siendo N<min>< N típicamente un orden más pequeño que el de la representación HOA original. Con el fin de descorrelacionar estas secuencias de coeficientes HOA, se pueden transformar en señales de altavoces virtuales que inciden desde algunas direcciones predefinidas Nmin, d, d = 1, ..., Omin (en analogía con el concepto descrito en la sección Normalización de la representación HOA de entrada). Definiendo el vector de todas las secuencias de coeficientes del componente HOA ambiental con índice n < Nmin de orden por cAMB,MiN(t) y la matriz de modos con respecto a las direcciones virtuales Qmin, d, d = 1, ..., Omin, por Y min, el vector de todas las señales de altavoces virtuales (definidas por) WMiN(t) se obtiene mediante
W<min>CO = V'<m>I<n>'<camb>,<min>( 0 • ( 35)
Por consiguiente, utilizando la compatibilidad de la matriz euclidiana y las normas vectoriales,
IIWM1N (^s)llco ¿ II<w min>( ^<s>) Ib ( 36)
En el documento N14264 de MPEG antes mencionado, las direcciones virtuales Qmin, d, d = 1, Omin, se eligen de acuerdo con el artículo de Fliege et al.. Las respectivas normas euclidianas de la inversa de las matrices modales Y min se ilustran en la figura 4 para órdenes Nmin = 1, ..., 9. Puede observarse que
II^<m>I<n>L < 1 forJVM[N = 1.......9 . ( 39)
Sin embargo, esto en general no es válido para N<min>> 9, donde los valores de II^ M m lb s o n típicamente mucho mayores que '1'. Sin embargo, al menos para 1 < Nmin < 9 las amplitudes de las señales de los altavoces virtuales están limitadas por
( 40)
Al restringir la representación HOA de entrada para satisfacer la condición (6), que requiere que las amplitudes de las señales de altavoz virtuales creadas a partir de esta representación HOA no superen un valor de '1', se puede garantizar que las amplitudes de las señales antes del control de ganancia no excederán el valorVí< ■ O(véanse ecuaciones (25), (34) y (40)) bajo las siguientes condiciones:
a) El vector de todas las señales x(t) de sonido predominantes se computa de acuerdo con las ecuaciones/restricciones (18), (19) y (20);
b) El orden mínimo N<min>, que determina el número O<min>de primeras secuencias de coeficientes del componente HOA ambiental al que se aplica una transformada espacial, tiene que ser inferior a '9', si se usan como posiciones de altavoces virtuales las definidas en el artículo antes mencionado de Fliege et al.
Se puede concluir adicionalmente que las amplitudes de las señales antes del control de ganancia no excederán el valorJ Kmax 'Opara cualquier orden N hasta un orden máximo Nmax de interés, es decir, que 1< N < Nmax, donde
Nmax = maxlíNíKMAX N ( j V , < \ ...,12™ ) ( 41 a )
En particular, se puede concluir de la figura 3 que, si se asume que se eligen las direcciones Qj(N) de altavoz virtual, 1 < j < O, para la transformación espacial inicial, de acuerdo con la distribución en el artículo de Fliege et al., y si además se asume que el orden máximo de interés va a ser Nmax = 29 (como, por ejemplo, en el documento N14264 de MPEG), entonces las amplitudes de las señales antes del control de ganancia no excederán el valor 1,5 O, ya que < 1-5 en este caso especial. Es decir, que se puede seleccionar = 1.5
Kmax depende del orden Nmax de interés máximo y de las direcciones Qj(N) de los altavoces virtuales, 1 < j < 0, que puede expresarse mediante
Por consiguiente, la ganancia mínima aplicada por el control de ganancia para garantizar que las señales antes de la codificación perceptual se encuentren dentro del intervalo [-1, 1] viene dada por 2eMIN, donde
En caso de que las amplitudes de las señales antes del control de ganancia sean demasiado pequeñas, se propone, en el documento N14264 de MPEG, que es posible amplificarlas suavemente con un factor de hasta 2eMAX, donde eMAx s 0 se transmite como información secundaria dentro la representación codificada de HOA.
De este modo, cada exponente de base '2', que describe el cambio de amplitud absoluta total dentro de una unidad de acceso de una señal modificada causada por la unidad de procesamiento de control de ganancia desde la primera trama hasta la trama actual, puede asumir cualquier valor entero dentro del intervalo [eMIN, eMAX]. En consecuencia, el número (entero más bajo) Pe de bits necesarios para codificarlo viene dado por
Pe =flog2(|eMIN+eMAX+ 1)1 = [log2([log2(ytfMAX • 0)1eMAX1)1<: 42¡>
En caso de que las amplitudes de las señales antes del control de ganancia no sean demasiado pequeñas, la ecuación (42) se puede simplificar:
Pe- ílog2(|eM1N| 1)1 - [log2([log2( V / W O ) l 1)1<¡4 2a)>
Este número Pe de bits se puede calcular en la entrada de los pasos/las etapas 15, 151 de control de ganancia.
El uso de este número Pe de bits para el exponente garantiza que todos los posibles cambios de amplitud absoluta originados por las unidades 15, ..., 151 de procesamiento de control de ganancia del compresor HOA puedan capturarse, permitiendo el inicio de la descompresión en algunos puntos de entrada predefinidos. dentro de la representación comprimida.
Al iniciar la descompresión de la representación HOA comprimida en el descompresor HOA, los valores de ganancia no diferencial que representan los cambios de amplitud absoluta total asignados a la información secundaria para algunas tramas de datos y recibidos desde el demultiplexor 21 fuera de la corrienteBde datos recibida se utilizan en los pasos o las etapas 24, ..., 241 de control de ganancia inverso para aplicar un control de ganancia correcto, de manera inversa al procesamiento que se llevó a cabo en los pasos/las etapas 15, ..., 151 de control de ganancia.
Realización adicional
Al implantar un sistema de compresión/descompresión HOA particular como se describe en las secciones Compresión HOA, Codificación h Oa espacial, Descompresión HOA y Decodificación HOA espacial, la cantidad Pe de bits para la codificación del exponente tiene que establecerse de acuerdo con la ecuación (42) en dependencia de un factor K<max>,<des>de escala, el cual, a su vez, depende de un orden máximo deseado N<max>,<des>o 0v)
de las representaciones HOA a comprimir y de ciertas direcciones<j>¿<de s>.<i>' 'J<ííde s>,<o>de los altavoces virtuales, 1 < N < N<max>.
Por ejemplo, al asumir N<max>,<des>= 29 y elegir las direcciones virtuales de altavoces de acuerdo con el artículo de
Fliege et al., una elección razonable sería V^MAX.DES — En esa situación, se garantiza la compresión correcta para las representaciones HOA de orden N con 1 < N < N<max>que están normalizadas de acuerdo con la sección Normalización de la representación HOA de entrada utilizando las mismas direcciones n ( N) n ( w)
de altavoces virtuales. Sin embargo, esta garantía no se puede dar en el caso de una representación HOA que también (por razones de eficiencia) esté representada de manera equivalente por señales de altavoces virtuales en formato PCM, pero donde las direcciones Q j(N), 1 < j < O, de los altavoces (N)
virtuales se eligen para que sean diferentes a las direccionesí lD<(T>
E<V>
S<)>
, 1’.. . M<des>.<o>de los altavoces virtuales, asumidas en la etapa de diseño de sistema.
Debido a esta elección diferente de posiciones de los altavoces virtuales, aunque las amplitudes de estas señales de los altavoces virtuales se encuentran dentro del intervalo [1, 1[, ya no se puede garantizar que las amplitudes de las señales antes del control de ganancia no superen el valorJ^<max>.<des>' Y, por consiguiente, no se puede garantizar que esta representación HOA tenga la normalización adecuada para la compresión de acuerdo con el procesamiento descrito en el documento N14264 de MPEG.
En esta situación es ventajoso tener un sistema que proporcione, en base al conocimiento de las posiciones de los altavoces virtuales, la amplitud máxima permitida de las señales de los altavoces virtuales con el fin de garantizar que la representación HOA respectiva sea adecuada para la compresión de acuerdo con el procesamiento descrito en el documento N14264 de MPEG.
En la figura 5 se ilustra tal sistema. Toma como entrada las posiciones Qj(N) de los altavoces virtuales, 1 < j < O, donde O = (N 1)2 con N E Mn, y proporciona como salida la amplitud máxima permitida ydB (medida en decibeles) de las señales de altavoces virtuales. En el paso o la etapa 51, la matriz Y de modo con respecto a las posiciones de altavoces virtuales se computa de acuerdo con la ecuación (3). En el paso o la etapa 52 siguiente se computa la norma euclidiana IIYII2 de la matriz modal. En un tercer paso o tercera etapa 53, la amplitud y se computa como el mínimo de '1' y el cociente entre el producto de la raíz cuadrada del número de posiciones de altavoces virtuales y K<max>,<des>y la norma euclidiana de la matriz de modos. es decir, que
El valor en decibelios se obtiene mediante
y dB = 201og10(y ) . ( 44 )
Para explicación: de las derivaciones anteriores se puede ver que si la magnitud de las secuencias de coeficientes HOA no excede un valor V ^ MAX'DES ’ es decir, que si
todas las señales antes de las unidades 15, 151 de procesamiento de control de ganancia no excederán, en consecuencia, este valor, que es el requisito para una adecuada compresión HOA.
A partir de la ecuación (9) se encuentra que la magnitud de las secuencias de coeficientes HOA está limitada por
l k ( ^ s) | | 00 < ||c (Z rs) | |2 < | | ^ | | 2 - | | w a r s) | |2 . ( 46 )
En consecuencia, si y se establece de acuerdo con la ecuación (43) y las señales de altavoces virtuales en formato PCM satisfacen que
||<w>( ÍT ’<s>) | | 0Q <Y f( 47 )
de la ecuación (7) se deduce que
y que se satisface el requisito (45). Es decir, que el valor de magnitud máxima de '1' en la ecuación (6) se reemplaza por el valor de magnitud máxima y en la ecuación (47).
Conceptos básicos de la ambisónica de orden superior
La ambisónica de orden superior (HOA) se basa en la descripción de un campo de sonido dentro de un área compacta de interés, que se asume que está libre de fuentes de sonido. En ese caso, el comportamiento espaciotemporal de la presión p(t, x) de sonido en el tiempo t y en la posición x dentro del área de interés está físicamente determinado en su totalidad por la ecuación de onda homogénea. A continuación se asume un sistema de coordenadas esférico como el que se muestra en la figura 6. En el sistema de coordenadas utilizado, el eje x apunta a la posición delantera, el eje y apunta a la izquierda, y el eje z apunta a la parte superior. Una posición x = (r, θ, φ)T en el espacio está representada por un radio r > 0 (es decir, la distancia al origen de las coordenadas), un ángulo θ E [0, n] de inclinación medido desde el eje polar z, y un ángulo φ E [0, 2n[ de acimut medido en sentido antihorario en el plano x - y desde el eje x. Además, ( ) T denota la transposición.
Entonces, se puede demostrar a partir del libro de texto "Fourier Acoustics" que la transformada de Fourier de la presión de sonido con respecto al tiempo denotada por?71('), es decir, que
P ( íú , x )=T t { p ( t , x) ) =S™oop ( t , x ) e ~ '° ) td t(4 9)
dondeodenota la frecuencia angular e i indica la unidad imaginaria, se puede expandir a la serie de armónicos esféricos de acuerdo con
donde cs denota la velocidad del sonido y k denota el número de onda angular, que está relacionado con la frecuencia angular co por k = co/cs. Además, jn( ) denota las funciones esféricas de Bessel de primer tipo ySn(9 ’ 4>)denota los armónicos esféricos de valor real de orden n y grado m, que se definen en la sección Definición de Armónicos Esféricos de valor real. Los coeficientesA™{k)de expansión sólo dependen del número k de onda angular. Obsérvese que se ha asumido implícitamente que la presión de sonido está limitada espacialmente por una banda. De este modo, la serie se trunca con respecto al índice n de orden en un límite superior N, que se denomina orden de la representación HOA.
Si el campo de sonido está representado por una superposición de un número infinito de ondas planas armónicas de diferentes frecuencias angulares o que llegan desde todas las direcciones posibles especificadas por la tupla (θ, φ) de ángulos, se puede mostrar (véase B. Rafaely, "Plane-wave decomposition of the sound field on a sphere by spherical convolution", J. Acoust. Soc. Am., vol. 4(116), páginas 2149-2157, octubre de 2004) que la respectiva función C(ω, θ, φ) de amplitud compleja de onda plana se puede expresar mediante la siguiente expansión de armónicos esféricos
donde los coeficientes de expansión están relacionados con los coeficientes de expansión por
Asumiendo que los coeficientes individualesC n 'ík—co/cs)sean funciones de la frecuencia angular co, la aplicación de la transformada inversa de Fourier (denotada por"F 1( ))proporciona funciones en el dominio tiempo
para cada orden n y grado m. Estas funciones en el dominio tiempo se denominan aquí secuencias de coeficientes HOA de tiempo continuo, que se pueden recopilar en un único vector c (t) mediante
El índice de posición de una secuenciaC n { t )de coeficientes HOA dentro del vector c(t) viene dado por n(n 1) 1 m. El número global de elementos en el vector c(t) viene dado por O = (N 1)2 El formato final de ambisónica proporciona la versión muestreada de c(t) utilizando una frecuencia fS de muestreo como
donde Ts = 1/fS denota el período de muestreo. Los elementos de c(ITs) se denominan secuencias de coeficientes HOA de tiempo discreto, y se puede demostrar que tienen siempre valores reales. Esta propiedad también se sostiene para las versiones c? 2 (0 de tiempo continuo.
Definición de armónicos esféricos de valor real
Los armónicos esféricos de valor real (asumiendo la normalización SN3D de acuerdo con J. Daniel, "Représentation de champs acustiques, application á la Transmission et á la reproduction de scénes sonores complexes dans un contexte multimédia", tesis doctoral, Université Paris, 6, 2001, capítulo 3.1) vienen dados por
siendo
t
Las funciones Pn,m(x) de Legendre asociadas se definen como
con el polinomio Pn(x) de Legendre, y, a diferencia de E.G. Williams, "Fourier Acoustics", vol. 93 de Applied Mathematical Sciences, Academic Press, 1999, sin el término (-1)m de fase de Condon-Shortley.
El procesamiento inventivo se puede llevar a cabo mediante un único procesador o circuito electrónico, o mediante varios procesadores o circuitos electrónicos que funcionen en paralelo y/o que funcionen en diferentes partes del procesamiento inventivo.
Las instrucciones para hacer funcionar el procesador o los procesadores pueden almacenarse en una o más memorias. El objeto para el cual se busca protección está definido de manera única por el juego de reivindicaciones adjunto.
Claims (3)
1. Un método para decodificar una representación de sonido de ambisónica de orden superior (HOA) comprimida de un sonido o campo de sonido, comprendiendo el método:
recibir y demultiplexar una corriente de bits que contiene la representación HOA comprimida para proporcionar una representación codificada perceptualmente de señales I y datos de información secundaria codificados que describen cómo crear una representación HOA de la misma; decodificar, en un decodificador perceptual, la representación codificada perceptualmente de las señales I para determinar, para una trama de datos HOA actual (k), señales decodificadas perceptualmente Zi(k), i = 1, ..., I, y decodificar, en un decodificador de fuente de información secundaria, los datos de información secundaria codificados para determinar, para la trama de datos HOA actual (k), datos de información secundaria decodificados que dan como resultado el exponente e¡(k) de corrección de ganancia asociado, el indicador Pi(k) de excepción de corrección de ganancia, conjuntos MDiR(k+i) y MvEC(k+i) de datos de tupla, los parámetros ^(k 1) de predicción y un vector VAMB,AssiGN(k) de asignación, y valores de ganancia no diferenciales, representados como un exponente en base dos y que representan cambios de amplitud absoluta total, desde una primera trama HOA hasta una trama HOA actual, asignados a la información secundaria de la trama HOA actual para aplicar un control de ganancia correcto para las señales de canal de la trama HOA actual, donde cada uno de los valores de ganancia no diferenciales está representado por un número entero más bajo de bits;
proporcionar tramas yi(k), i = 1, ..., I de señal corregidas de ganancia, realizando un procesamiento de control de ganancia inverso para las señales perceptualmente decodificadas z¡(k), i = 1, ..., I, en base a los valores de ganancia no diferenciales, el exponente e¡(k) de corrección de ganancia asociado y el indicador Pi(k) de excepción de corrección de ganancia,
redistribuir las tramas y¡(k), i = 1, ..., I de señal corregidas de ganancia, durante la reasignación de canales utilizando los conjuntos MDIR(k+1) y MvEC(k+1) de datos de tupla, y el vector vAMB,AssIGN(k) de asignación, con el fin de reconstruir una trama Xps(k) de todas las señales de sonido predominantes y una trama CI,AMB(k) de una representación intermedia de un componente HOA ambiental,
proporcionar un conjunto JAMB,ACT(k de índices de secuencias de coeficientes del componente HOA ambiental activo en la k-ésima trama, y conjuntos JE(k - 1), JD(k - 1) y Ju(k - 1) de datos de los índices de coeficientes del componente ambiental HOA,
computar una representación HOA del componente de sonido predominante Cps(k - 1) a partir de la trama Xps(k) de todas las señales de sonido predominantes utilizando el conjunto MDIR(k+1) de tuplas, el conjunto ^(k 1) de parámetros de predicción, el conjunto MvEC(k+1) de tuplas y los conjuntos JE(k - 1), JD(k - 1) y Ju(k - 1) de datos,
crear una trama CAMB(k - 1) de componente HOA ambiental a partir de la trama CI,AMB(k) de la representación intermedia del componente HOA ambiental, utilizando el conjunto J<amb>,<act>(k de índices de secuencias de coeficientes del componente HOA ambiental que están activos en la k-ésima trama, introduciendo un retardo de una trama debido a la sincronización con el componente de sonido predominante,
superponer la trama CAMB(k - 1) de componente HOA ambiental y la trama Cps(k - 1) del componente HOA de sonido predominante para proporcionar la trama HOA decodificada C(k - 1), y
crear a partir de las señales I y de la información secundaria la representación HOA reconstruida,
donde el número entero más bajo Pe de bits aplicado para representar los valores de ganancia no diferencial se puede determinar mediante
A = N f e C N í P / W • 0 ) 1 1 ) 1
donde<^>"<m>|V|<a>A<x>A<— m a x>is<is>j<W>v s<sA>«<,>m a xk
V(N'í l1<. < > )>J,N es el orden, Nmaxes el orden máximo de interés, Ü1(N), ..., Qo(N) son direcciones de altavoces virtuales, O = (N 1)2 es el número de secuencias de coeficientes HOA, y K es una relación entre la norma euclidiana al cuadrado IITIH2 de una matriz de modos y O, donde Y es una matriz de modos con respecto a dichas direcciones, y donde 7<kmax>= l-5.
2. Producto de programa de ordenador que comprende instrucciones que, cuando se llevan a cabo en un ordenador, realizan el método de la reivindicación 1.
3. Medio de almacenamiento que almacena el producto de programa de ordenador de la reivindicación 2.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP14306024 | 2014-06-27 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2974440T3 true ES2974440T3 (es) | 2024-06-27 |
Family
ID=51178840
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES21159478T Active ES2974440T3 (es) | 2014-06-27 | 2015-06-22 | Método para decodificar una representación de tramas de datos HOA comprimida de un campo de sonido |
Country Status (8)
| Country | Link |
|---|---|
| US (4) | US9792924B2 (es) |
| EP (4) | EP3162086B1 (es) |
| JP (6) | JP6641304B2 (es) |
| KR (5) | KR20250085845A (es) |
| CN (7) | CN110459229B (es) |
| ES (1) | ES2974440T3 (es) |
| TW (4) | TWI809394B (es) |
| WO (1) | WO2015197514A1 (es) |
Families Citing this family (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2960903A1 (en) * | 2014-06-27 | 2015-12-30 | Thomson Licensing | Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values |
| US9922657B2 (en) * | 2014-06-27 | 2018-03-20 | Dolby Laboratories Licensing Corporation | Method for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values |
| KR20250051142A (ko) * | 2014-06-27 | 2025-04-16 | 돌비 인터네셔널 에이비 | Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현 |
| DE102016104665A1 (de) * | 2016-03-14 | 2017-09-14 | Ask Industries Gmbh | Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals |
| US10332530B2 (en) | 2017-01-27 | 2019-06-25 | Google Llc | Coding of a soundfield representation |
| US10015618B1 (en) * | 2017-08-01 | 2018-07-03 | Google Llc | Incoherent idempotent ambisonics rendering |
| US10264386B1 (en) * | 2018-02-09 | 2019-04-16 | Google Llc | Directional emphasis in ambisonics |
| GB2572761A (en) * | 2018-04-09 | 2019-10-16 | Nokia Technologies Oy | Quantization of spatial audio parameters |
| KR102692707B1 (ko) | 2018-12-07 | 2024-08-07 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 낮은 차수, 중간 차수 및 높은 차수 컴포넌트 생성기를 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램 |
| EP4189674B1 (en) | 2020-07-30 | 2025-01-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for encoding an audio scene |
| WO2022082665A1 (en) * | 2020-10-22 | 2022-04-28 | Nokia Shanghai Bell Co., Ltd. | Method, apparatus, and computer program |
| CN113314129B (zh) * | 2021-04-30 | 2022-08-05 | 北京大学 | 一种适应环境的声场重放空间解码方法 |
| CN113345448B (zh) * | 2021-05-12 | 2022-08-05 | 北京大学 | 一种基于独立成分分析的hoa信号压缩方法 |
| CN115376530A (zh) | 2021-05-17 | 2022-11-22 | 华为技术有限公司 | 三维音频信号编码方法、装置和编码器 |
| CN115376529B (zh) * | 2021-05-17 | 2024-10-11 | 华为技术有限公司 | 三维音频信号编码方法、装置和编码器 |
| CN115376528B (zh) * | 2021-05-17 | 2026-04-07 | 华为技术有限公司 | 三维音频信号编码方法、装置和编码器 |
| CN115497485B (zh) | 2021-06-18 | 2024-10-18 | 华为技术有限公司 | 三维音频信号编码方法、装置、编码器和系统 |
Family Cites Families (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| SE522453C2 (sv) * | 2000-02-28 | 2004-02-10 | Scania Cv Ab | Sätt och anordning för styrning av ett mekaniskt tillsatsaggregat i ett motorfordon |
| CN1138254C (zh) * | 2001-03-19 | 2004-02-11 | 北京阜国数字技术有限公司 | 一种基于小波变换的音频信号压缩编/解码方法 |
| CA2992051C (en) * | 2004-03-01 | 2019-01-22 | Dolby Laboratories Licensing Corporation | Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters |
| CN1677492A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
| JP4809370B2 (ja) * | 2005-02-23 | 2011-11-09 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル音声符号化における適応ビット割り当て |
| US20080232601A1 (en) * | 2007-03-21 | 2008-09-25 | Ville Pulkki | Method and apparatus for enhancement of audio reconstruction |
| US8788264B2 (en) * | 2007-06-27 | 2014-07-22 | Nec Corporation | Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system |
| US8509454B2 (en) * | 2007-11-01 | 2013-08-13 | Nokia Corporation | Focusing on a portion of an audio scene for an audio signal |
| DE602008005250D1 (de) * | 2008-01-04 | 2011-04-14 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
| WO2009155361A1 (en) * | 2008-06-17 | 2009-12-23 | Earlens Corporation | Optical electro-mechanical hearing devices with combined power and signal architectures |
| EP2352304B1 (en) * | 2008-09-17 | 2015-07-01 | Panasonic Intellectual Property Management Co., Ltd. | Recording medium, reproduction device, and integrated circuit |
| ES2472456T3 (es) * | 2010-03-26 | 2014-07-01 | Thomson Licensing | Método y dispositivo para decodificar una representación de un campo ac�stico de audio para reproducción de audio |
| CA2992917C (en) * | 2010-04-09 | 2020-05-26 | Dolby International Ab | Mdct-based complex prediction stereo coding |
| EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
| EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
| EP2541547A1 (en) * | 2011-06-30 | 2013-01-02 | Thomson Licensing | Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation |
| EP2637427A1 (en) * | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
| EP2645748A1 (en) * | 2012-03-28 | 2013-10-02 | Thomson Licensing | Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal |
| EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
| EP2688066A1 (en) * | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
| KR20240108571A (ko) * | 2012-07-16 | 2024-07-09 | 돌비 인터네셔널 에이비 | 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치 |
| EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
| EP2800401A1 (en) | 2013-04-29 | 2014-11-05 | Thomson Licensing | Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation |
| EP2824661A1 (en) | 2013-07-11 | 2015-01-14 | Thomson Licensing | Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals |
-
2015
- 2015-06-22 KR KR1020257018085A patent/KR20250085845A/ko active Pending
- 2015-06-22 KR KR1020167036547A patent/KR102381202B1/ko active Active
- 2015-06-22 US US15/319,707 patent/US9792924B2/en active Active
- 2015-06-22 CN CN201910861280.8A patent/CN110459229B/zh active Active
- 2015-06-22 EP EP15729523.9A patent/EP3162086B1/en active Active
- 2015-06-22 JP JP2016575019A patent/JP6641304B2/ja active Active
- 2015-06-22 CN CN201910922110.6A patent/CN110662158B/zh active Active
- 2015-06-22 EP EP21159478.3A patent/EP3860154B1/en active Active
- 2015-06-22 CN CN202311556422.2A patent/CN117636885A/zh active Pending
- 2015-06-22 KR KR1020247010754A patent/KR102816984B1/ko active Active
- 2015-06-22 EP EP24158677.5A patent/EP4354432B1/en active Active
- 2015-06-22 ES ES21159478T patent/ES2974440T3/es active Active
- 2015-06-22 CN CN201910861296.9A patent/CN110415712B/zh active Active
- 2015-06-22 WO PCT/EP2015/063914 patent/WO2015197514A1/en not_active Ceased
- 2015-06-22 KR KR1020227010252A patent/KR102454747B1/ko active Active
- 2015-06-22 EP EP26163497.6A patent/EP4730327A2/en active Pending
- 2015-06-22 CN CN202311558626.XA patent/CN117612540A/zh active Pending
- 2015-06-22 CN CN201580035125.0A patent/CN106471822B/zh active Active
- 2015-06-22 CN CN201910861274.2A patent/CN110556120B/zh active Active
- 2015-06-22 KR KR1020227035215A patent/KR102654275B1/ko active Active
- 2015-06-26 TW TW110117878A patent/TWI809394B/zh active
- 2015-06-26 TW TW104120627A patent/TWI679633B/zh active
- 2015-06-26 TW TW112123781A patent/TWI899581B/zh active
- 2015-06-26 TW TW108142368A patent/TWI728563B/zh active
-
2017
- 2017-09-12 US US15/702,418 patent/US10037764B2/en active Active
-
2018
- 2018-06-26 US US16/019,288 patent/US10262670B2/en active Active
-
2019
- 2019-04-08 US US16/377,661 patent/US10580426B2/en active Active
- 2019-12-27 JP JP2019237716A patent/JP6874115B2/ja active Active
-
2021
- 2021-04-21 JP JP2021071874A patent/JP7267340B2/ja active Active
-
2023
- 2023-04-19 JP JP2023068243A patent/JP7512470B2/ja active Active
-
2024
- 2024-06-26 JP JP2024102467A patent/JP7751696B2/ja active Active
-
2025
- 2025-09-26 JP JP2025159676A patent/JP2026009948A/ja active Pending
Also Published As
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2974440T3 (es) | Método para decodificar una representación de tramas de datos HOA comprimida de un campo de sonido | |
| JP7423585B2 (ja) | Hoaデータ・フレーム表現のデータ・フレームの個々のもののチャネル信号に関連付けられた非差分的な利得値を含む符号化されたhoaデータ・フレーム表現 | |
| JP7516610B2 (ja) | 非差分的な利得値を表現するのに必要とされる最低整数ビット数をhoaデータ・フレーム表現の圧縮のために決定する装置 | |
| BR122022022357B1 (pt) | Método e aparelho para determinar para a compressão de uma representação de quadro de dados hoa | |
| BR112016029978B1 (pt) | Método para determinar para a compressão de uma representação de quadro de dados hoa um número inteiro mais baixo de bits requeridos para representar valores de ganho não diferenciais | |
| BR122018012705B1 (pt) | Método e aparelho de decodificar uma representação de som ambissônico de ordem mais alta (hoa) comprimida | |
| HK40051749B (en) | Method for decoding a compressed hoa dataframe representation of a sound field | |
| BR122022022350B1 (pt) | Aparelho para determinar para a compressão de uma representação de quadro de dados hoa | |
| HK40039421A (en) | Method and apparatus for decoding a compressed hoa sound representation of a sound or sound field | |
| HK40013036B (en) | Method for decoding a higher order ambisonics (hoa) representation of a sound or soundfield | |
| HK40014969B (en) | Method for decoding a higher order ambisonics (hoa) representation of a sound or soundfield |