ES2922532T3

ES2922532T3 - Codificador de escena de audio, decodificador de escena de audio y procedimientos relacionados que utilizan el análisis espacial híbrido de codificador / decodificador

Info

Publication number: ES2922532T3
Application number: ES19702889T
Authority: ES
Inventors: Guillaume Fuchs; Stefan Bayer; Markus Multrus; Oliver Thiergart; Alexandre Boutheon; Jürgen Herre; Florin Ghido; Wolfgang Jaegers; Fabian Küch
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2018-02-01
Filing date: 2019-01-31
Publication date: 2022-09-16
Anticipated expiration: 2039-01-31
Also published as: KR20240101713A; AU2019216363A1; WO2019149845A1; BR112020015570A2; JP2021513108A; EP3724876B1; EP4057281A1; JP2023085524A; TW201937482A; JP7261807B2; CN118197326A; US11361778B2; US20220139409A1; US20200357421A1; US11854560B2; CA3089550A1; SG11202007182UA; KR20200116968A; JP7711124B2; CN112074902B

Abstract

Un codificador de escena de audio para codificar una escena de audio, comprendiendo la escena de audio al menos dos componentes de señales, comprende: un codificador de núcleo (160) para codificar de núcleo al menos dos señales de componentes, donde el codificador de núcleo (160) está configurado para generar un primera representación codificada (310) para una primera parte de las al menos dos señales componentes, y para generar una segunda representación codificada (320) para una segunda parte de las al menos dos señales componentes, un analizador espacial (200) para analizar el audio escena para derivar uno o más parámetros espaciales (330) o uno o más conjuntos de parámetros espaciales para la segunda parte; y una interfaz de salida (300) para formar la señal de escena de audio codificada (340), comprendiendo la señal de escena de audio codificada (340) la primera representación codificada (310), la segunda representación codificada (320) y uno o más parámetros espaciales (330) o uno o más conjuntos de parámetros espaciales para la segunda parte. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Codificador de escena de audio, decodificador de escena de audio y procedimientos relacionados que utilizan el aná lisis espacial híbrido de codificador / decodificador

[0001] La presente invención se refiere a la codificación o decodificación de audio y, en particular, a la codifi cación de audio espacial paramétrica híbrida de codificador/decodificador.

[0002] La transmisión de una escena de audio en tres dimensiones requiere el manejo de múltiples canales, lo que generalmente genera una gran cantidad de datos que se van a transmitir. Además, el sonido 3D se puede repre sentar de diferentes maneras: sonido tradicional basado en canales donde cada canal de transmisión se asocia con una posición de altavoz; sonido transmitido a través de objetos de audio, que pueden colocarse en tres dimensiones independientemente de las posiciones de los altavoces; y sonido basado en la escena (o Ambisonics), donde la escena de audio está representada por un conjunto de señales de coeficiente que son las ponderaciones lineales de las funciones básicas de los armónicos esféricos ortogonales espaciales. A diferencia de la representación basada en canales, la representación basada en la escena es independiente de la configuración específica de los altavoces, y puede reproducirse en cualquier configuración de altavoces a expensas de un proceso de renderización adicional en el decodificador.

[0003] Para cada uno de estos formatos, se desarrollaron esquemas de codificación dedicados para almacenar o transmitir eficientemente las señales de audio a bajas tasas de bits. Por ejemplo, MPEG surround es un esquema de codificación paramétrica para sonido envolvente basado en canales, mientras que MPEG Spatial Audio Object Coding (SAOC) es un procedimiento de codificación paramétrica dedicado al audio basado en objetos. También se proporcionó una técnica de codificación paramétrica para el orden alto de Ambisonics en el reciente estándar MPEG-H fase 2.

[0004] En este escenario de transmisión, los parámetros espaciales para la señal completa son siempre parte de la señal codificada y transmitida, es decir, son estimados y codificados en el codificador sobre la base de la escena de sonido 3D completamente disponible y decodificados y utilizados para la reconstrucción de la escena de audio en el decodificador. Las restricciones de velocidad para la transmisión limitan típicamente el tiempo y la resolución de frecuencia de los parámetros transmitidos, que pueden ser más bajos que la resolución de tiempo-frecuencia de los datos de audio transmitidos.

[0005] Otra posibilidad para crear una escena de audio tridimensional es mezclar una representación dimensional inferior, por ejemplo, una representación estéreo de dos canales o una representación Ambisonics de primer orden, con la dimensionalidad deseada utilizando señales y parámetros estimados directamente a partir de la repre sentación dimensional menor. En este caso, la resolución de tiempo-frecuencia puede elegirse tan fina como se desee. Por otro lado, la representación de la escena de audio en una dimensión más baja y posiblemente codificada conduce a una estimación subóptima de las pistas y parámetros espaciales. Especialmente si la escena de audio analizada se codificó y transmitió utilizando herramientas de codificación de audio paramétricas y semiparamétricas, las pistas espaciales de la señal original se alteran más de lo que solo causaría la representación de dimensión menor.

[0006] La codificación de audio de baja velocidad que utiliza herramientas de codificación paramétricas ha mostrado avances recientes. Tales avances en la codificación de señales de audio con tasas de bits muy bajas llevaron al uso extensivo de las llamadas herramientas de codificación paramétrica para garantizar una buena calidad. Aunque se prefiere una codificación con preservación de forma de onda, es decir, una codificación en la que solo se añade ruido de cuantificación a la señal de audio decodificada, por ejemplo, mediante el uso de una codificación basada en la transformación de tiempo-frecuencia y la configuración del ruido de cuantificación mediante el uso un modelo perceptual como MPEG-2 a Ac o MPEG-1 MP3, esto conduce a un ruido de cuantificación audible, particularmente para tasas de bits bajas.

[0007] Para superar estos problemas, se desarrollaron herramientas de codificación paramétrica, donde partes de la señal no se codifican directamente, sino que se regeneran en el decodificador utilizando una descripción para métrica de las señales de audio deseadas, donde la descripción paramétrica necesita menos velocidad de transmisión que la codificación con preservación de la forma de onda. Estos procedimientos no intentan retener la forma de onda de la señal, sino que generan una señal de audio que es perceptualmente igual a la señal original. Los ejemplos de tales herramientas de codificación paramétrica son las extensiones de ancho de banda como la Replicación de Banda Espectral (SBR), donde se generan partes de banda alta de una representación espectral de la señal decodificada copiando la forma de onda codificada en las partes de señal espectral de banda baja y mediante la adaptación según dichos parámetros. Otro procedimiento es el Llenado inteligente de huecos (IGF), donde algunas bandas en la repre sentación espectral se codifican directamente, mientras que las bandas cuantificadas a cero en el codificador son reemplazadas por otras bandas ya decodificadas del espectro que se eligen y ajustan de nuevo según los parámetros transmitidos. Una tercera herramienta de codificación paramétrica utilizada es el relleno de ruido, donde partes de la señal o el espectro se cuantifican a cero y se llenan con ruido aleatorio y se ajustan según los parámetros transmitidos.

[0008] Los recientes estándares de codificación de audio utilizados para la codificación a tasas de bits medias a bajas utilizan una combinación de tales herramientas paramétricas para obtener una alta calidad de percepción para esas tasas de bits. Los ejemplos de tales estándares son xHE-AAC, MPEG4-H y EVS.

[0009] La estimación de parámetros espaciales de DirAC y la mezcla ascendente ciega es un procedimiento adicional. DirAC es una reproducción de sonido espacial motivada por percepción. Se supone que, en un momento dado y en una banda crítica, la resolución espacial del sistema auditivo se limita a decodificar una pista de dirección y otra de coherencia o difusión interaural.

[0010] Sobre la base de estos supuestos, DirAC representa el sonido espacial en una banda de frecuencia mediante la desaparición cruzada de dos flujos: un flujo difuso no direccional y un flujo no difuso direccional. El proce samiento de DirAC se realiza en dos fases: el análisis y la síntesis, como se muestra en las Figuras 5a y 5b.

[0011] En la etapa de análisis de DirAC que se muestra en la Fig. 5a, un micrófono coincidente de primer orden en formato B se considera como entrada, y la difusión y la dirección de llegada del sonido se analizan en el dominio de frecuencia. En la etapa de síntesis de DirAC mostrada en la Fig. 5b, el sonido se divide en dos flujos, el flujo no difuso y el flujo difuso. El flujo no difuso se reproduce como fuentes puntuales utilizando panoramización de amplitud, lo que puede hacerse utilizando panoramización de amplitud de base vectorial (VBAP) [2]. El flujo difuso es responsable de la sensación de envolvente y se produce al transmitir a los altavoces señales mutuamente inconexas.

[0012] La etapa de análisis en la Fig. 5a comprende un filtro de banda 1000, un estimador de energía 1001, un estimador de intensidad 1002, elementos de promedio de tiempo 999a y 999b, un calculador de difusión 1003 y un calculador de dirección 1004. Los parámetros espaciales calculados son un valor de difusión entre 0 y 1 para cada mosaico de tiempo / frecuencia y un parámetro de dirección de llegada para cada mosaico de tiempo / frecuencia generado por el bloque 1004. En la Fig. 5a, el parámetro de dirección comprende un ángulo de acimut y un ángulo de elevación que indica la dirección de llegada de un sonido con respecto a la posición de referencia o escucha y, en particular, con respecto a la posición, donde se encuentra el micrófono, desde donde se recogen las cuatro señales de cuatro componentes de entrada en el filtro de banda 1000. Estas señales de componentes son, en la ilustración de la Fig. 5a, componentes de Ambisonics de primer orden que comprenden un componente omnidireccional W, un com ponente direccional X, otro componente direccional Y y otro componente direccional adicional Z.

[0013] La etapa de síntesis DirAC ilustrada en la Fig. 5b comprende un filtro de banda 1005 para generar una representación de tiempo / frecuencia de las señales de micrófono de formato B, W, X, Y, Z. Las señales correspondientes para los mosaicos de tiempo / frecuencias individuales se introducen en una etapa de micrófono virtual 1006 que genera, para cada canal, una señal de micrófono virtual. Particularmente, para generar la señal de micrófono virtual, por ejemplo, para el canal central, un micrófono virtual se dirige en la dirección del canal central y la señal resultante es la señal de componente correspondiente para el canal central. La señal se procesa a continuación a través de una rama de señal directa 1015 y una rama de señal difusa 1014. Ambas ramas comprenden ajustadores o amplificadores de ganancia correspondientes que se controlan mediante valores de difusión derivados del parámetro de difusión original en los bloques 1007, 1008 y, además, se procesan en los bloques 1009, 1010 para obtener una cierta compensación del micrófono.

[0014] La señal de componente en la rama de señal directa 1015 también se ajusta en ganancia utilizando un parámetro de ganancia derivado del parámetro de dirección que consiste en un ángulo de acimut y un ángulo de elevación. Particularmente, estos ángulos se introducen en una tabla de ganancia de VBAP (panoramización de am plitud de base vectorial) 1011. El resultado se introduce en una etapa de promedio de ganancia de altavoz 1012, para cada canal, y un normalizador adicional 1013 y el parámetro de ganancia resultante se envían a continuación al am plificador o ajustador de ganancia en la rama de señal directa 1015. La señal difusa generada en la salida de un descorrelacionador 1016 y la señal directa o el flujo no difuso se combinan en un combinador 1017 y, a continuación, las otras subbandas se añaden en otro combinador 1018 que puede ser, por ejemplo, un banco de filtro de síntesis. Por lo tanto, se genera una señal de altavoz para un cierto altavoz, y se realiza el mismo procedimiento para los otros canales para los otros altavoces 1019 en una determinada configuración de altavoz.

[0015] La versión de alta calidad de la síntesis de DirAC se ilustra en la Fig. 5b, donde el sintetizador recibe todas las señales en formato B, a partir de las cuales se calcula una señal de micrófono virtual para cada dirección de altavoz. El patrón direccional utilizado es típicamente un dipolo. Las señales de micrófono virtual se modifican a con tinuación de forma no lineal, según los metadatos que se analizaron con respecto a las ramas 1016 y 1015. La versión de DirAC de baja tasa de bits no se muestra en la Fig. 5b. Sin embargo, en esta versión de baja tasa de bits, solo se transmite un único canal de audio. La diferencia en el procesamiento es que todas las señales de micrófono virtual serán reemplazadas por este único canal de audio recibido. Las señales de micrófono virtual se dividen en dos flujos, los flujos difuso y no difuso, que se procesan por separado. El sonido no difuso se reproduce como fuentes puntuales mediante el uso de panoramización de amplitud de base vectorial (VBAP). En la panoramización, se aplica una señal de sonido monofónica a un subconjunto de altavoces después de la multiplicación con factores de ganancia específicos del altavoz. Los factores de ganancia se calculan utilizando la información de la configuración de altavoces y la dirección de panoramización especificada. En la versión de tasa de bits baja, la señal de entrada se panoramiza simplemente en las direcciones implicadas por los metadatos. En la versión de alta calidad, cada señal de micrófono virtual se multiplica con el factor de ganancia correspondiente, que produce el mismo efecto con panoramización; sin embargo, es menos propenso a cualquier artefacto no lineal.

[0016] El objetivo de la síntesis del sonido difuso es crear una percepción del sonido que rodea al oyente. En la versión de tasa de bits baja, el flujo difuso se reproduce descorrelacionando la señal de entrada y reproduciéndola desde cada altavoz. En la versión de alta calidad, las señales de micrófono virtual de los flujos difusos ya son incoherentes en cierto grado, y deben ser descorrelacionados solo levemente.

[0017] Los parámetros de DirAC, también llamados metadatos espaciales, consisten en tuplas de difusión y dirección, que en coordenadas esféricas están representadas por dos ángulos, el azimut y la elevación. Si tanto la etapa de análisis como la de síntesis se ejecutan en el lado del decodificador, la resolución tiempo-frecuencia de los parámetros de DirAC se puede elegir para que sea la misma que el banco de filtros utilizado para el análisis y la síntesis de DirAC, es decir, un conjunto de parámetros específico para cada intervalo de tiempo y bandeja de frecuen cia de la representación del banco de filtros de la señal de audio.

[0018] El problema de realizar el análisis en un sistema de codificación de audio espacial solo en el lado del decodificador es que, para tasas de bits medias a bajas, se utilizan herramientas paramétricas como las descritas en la sección anterior. Dada la naturaleza de no conservación de forma de onda de esas herramientas, el análisis espacial para las porciones espectrales donde se usa principalmente la codificación paramétrica puede llevar a valores muy diferentes para los parámetros espaciales en comparación con lo que hubiera producido un análisis de la señal original. Las Figuras 2a y 2b muestran un escenario de desestimación en el que se realizó un análisis de DirAC en una señal no codificada (a) y una señal codificada y transmitida en formato B con una tasa de bits baja (b) con un codificador que utiliza en parte codificación con conservación de forma de onda y en parte codificación paramétrica. Especial mente, con respecto a la difusión, se pueden observar grandes diferencias.

[0019] Recientemente, se describió en [3] [4] un procedimiento de codificación de audio espacial que utiliza el análisis de DirAC en el codificador y la transmisión de los parámetros espaciales codificados en el decodificador. La Figura 3 ilustra una descripción general del sistema de un codificador y un decodificador que combina el procesamiento de sonido espacial DirAC con un codificador de audio. Una señal de entrada, como una señal de entrada multicanal, una señal Ambisonics de primer orden (FOA) o una señal Ambisonics de alto orden (HOA) o una señal codificada por objeto que comprende una o más señales de transporte que comprenden una mezcla descendente de objetos y sus correspondientes metadatos de objeto, tales como metadatos de energía y/o datos de correlación se introducen en un conversor y combinador de formato 900. El conversor y combinador de formato está configurado para convertir cada una de las señales de entrada en una señal de formato B correspondiente, y el conversor y combinador de formato 900 combina además flujos recibidos en diferentes representaciones al añadir los componentes de formato B corres pondientes juntos o mediante otras tecnologías de combinación que consisten en una adición ponderada o una selección de diferente información de los distintos datos de entrada.

[0020] La señal de formato B resultante se introduce en un analizador DirAC 210 para obtener metadatos de DirAC tales como metadatos de dirección de llegada y metadatos de difusión, y las señales obtenidas se codifican utilizando un codificador 220 de metadatos espaciales. Además, la señal de formato B se envía a un formador de haz / selector de señal para mezclar las señales de formato B en un canal de transporte o varios canales de transporte que se codifican a continuación utilizando un codificador central 140 basado en EVS 140.

[0021] La salida del bloque 220 por un lado y el bloque 140 por otro lado representan una escena de audio codificada. La escena de audio codificada se envía a un decodificador, y en el decodificador, un decodificador de metadatos espaciales 700 recibe los metadatos espaciales codificados y un decodificador central basado en EVS 500 recibe los canales de transporte codificados. Los metadatos espaciales decodificados obtenidos por el bloque 700 se envían a una etapa de síntesis de DirAC 800 y los uno o más canales de transporte decodificados en la salida del bloque 500 se someten a un análisis de frecuencia en el bloque 860. La descomposición de tiempo / frecuencia resul tante también se envía al sintetizador DirAC 800 que genera a continuación, por ejemplo, como una escena de audio decodificada, señales de altavoz o Ambisonics de primer orden o componentes de Ambisonics de orden superior o cualquier otra representación de una escena de audio.

[0022] En el procedimiento descrito en [3] y [4], los metadatos de DirAC, es decir, los parámetros espaciales, se estiman y codifican a una tasa de bits baja y se transmiten al decodificador, donde se utilizan para reconstruir la escena de audio 3D junto con una representación dimensional inferior de la señal de audio.

[0023] En esta invención, los metadatos de DirAC, es decir, los parámetros espaciales, se estiman y codifican a una tasa de bits baja y se transmiten al decodificador, donde se utilizan para reconstruir la escena de audio 3D junto con una representación dimensional inferior de la señal de audio.

[0024] Para lograr la tasa de bits baja para los metadatos, la resolución de tiempo-frecuencia es más pequeña que la resolución tiempo-frecuencia del banco de filtros utilizado en el análisis y la síntesis de la escena de audio 3D. Las Figuras 4a y 4b muestran una comparación entre los parámetros espaciales no codificados y no agrupados de un análisis de DirAC (a) y los parámetros codificados y agrupados de la misma señal utilizando el sistema de codificación de audio espacial de DirAC descrito en [3] con metadatos de DirAC codificados y transmitidos. En comparación con las Figuras 2a y 2b, se puede observar que los parámetros utilizados en el decodificador (b) están más cerca de los parámetros estimados a partir de la señal original, pero que la resolución tiempo-frecuencia es más baja que para la estimación del decodificador solamente.

[0025] El documento US 2017/365264 A1 describe un codificador y decodificador de audio multicanal basado en un codificador/decodificador de núcleo multimodo (codificación de predicción lineal y codificación de transforma ción) que están asociados con las respectivas herramientas de codificación multicanal/estéreo (por ejemplo, codifica ción media/lateral para codificación de transformación y estéreo paramétrico para ACELP/TCX). El documento US 2017/164131 A1 describe un procedimiento de codificación y decodificación de una señal Amsiconic de orden superior, en el que se transmite un conjunto reducido de secuencias de coeficientes con un conjunto de señales direccionales de subbanda con direcciones correspondientes. El documento US 2015/356978 A1 describe procedimientos de codi ficación de campo de sonido y codificación de audio multicanal basados en la transformación ortogonal (KLT) de las señales de audio. El documento US 2007/019813 A1 describe un codificador híbrido que mezcla codificación de audio espacial con envolvente matricial que permite un equilibrio dinámico entre la calidad de codificación y la tasa de bits; las bandas de frecuencia transmitidas se dividen en una banda de alta calidad, que se decodifica con codificación de audio espacial, y una banda de baja calidad, que se decodifica con envolvente matricial; los intervalos de frecuencia dependen de la tasa de bits de transmisión disponible y/o las demandas de calidad.

[0026] Un objeto de la presente invención es proporcionar un concepto mejorado para el procesamiento, tal como la codificación o decodificación de una escena de audio.

[0027] Este objeto se logra mediante un codificador de escena de audio de la reivindicación 1, un decodificador de escena de audio de la reivindicación 15, un procedimiento de codificación de una escena de audio de la reivindicación 35, un procedimiento de decodificación de una escena de audio de la reivindicación 36, un programa informático de la reivindicación 37 o una escena de audio codificada de la reivindicación 38.

[0028] La presente invención se basa en el descubrimiento de que se obtiene una mejor calidad de audio y una mayor flexibilidad y, en general, un rendimiento mejorado mediante la aplicación de un esquema de codificación / decodificación híbrido, donde los parámetros espaciales utilizados para generar una escena de audio bidimensional o tridimensional decodificada en el decodificador se estiman en el decodificador sobre la base de una representación de audio dimensional típicamente menor codificada transmitida y decodificada para algunas partes de una representación de tiempo-frecuencia del esquema, y se estiman, cuantifican y codifican para otras partes dentro del codificador y se transmiten al decodificador.

[0029] Dependiendo de la implementación, la división entre las regiones estimadas del lado del codificador y las regiones estimadas del lado del decodificador puede ser divergente para los diferentes parámetros espaciales utilizados en la generación de la escena de audio tridimensional o bidimensional en el decodificador.

[0030] En realizaciones, esta partición en diferentes porciones o preferiblemente regiones de tiempo / frecuen cia puede ser arbitraria. Sin embargo, en una realización preferida, es ventajoso estimar los parámetros en el decodi ficador para partes del espectro que están codificadas principalmente de una manera que preserva la forma de onda, mientras se codifican y transmiten parámetros calculados por el codificador para partes del espectro donde se utiliza ron principalmente herramientas de codificación paramétricas.

[0031] Las realizaciones de la presente invención apuntan a proponer una solución de codificación de tasa de bits baja para transmitir una escena de audio 3D mediante el empleo de un sistema de codificación híbrido donde los parámetros espaciales utilizados para la reconstrucción de la escena de audio 3D se estiman y codifican para algunas partes en el codificador y se transmiten al decodificador, y para las partes restantes se estiman directamente en el decodificador.

[0032] La presente invención describe una reproducción de audio 3D basada en una estrategia híbrida para una estimación de parámetros de un decodificador únicamente para partes de una señal donde las pistas espaciales se retienen bien después de llevar la representación espacial a una dimensión inferior en un codificador de audio y codificar la representación de dimensión inferior y estimar en el codificador, codificar en el codificador, y transmitir las pistas y los parámetros espaciales del codificador al decodificador para partes del espectro donde la dimensionalidad inferior junto con la codificación de la representación dimensional inferior conduciría a una estimación subóptima de los parámetros espaciales. En una realización, un codificador de escena de audio está configurado para codificar una escena de audio, donde la escena de audio comprende al menos dos señales de componente, y el codificador de escena de audio comprende un codificador central configurado para codificar el núcleo de las al menos dos señales de componente, donde el codificador central genera una primera representación codificada para una primera parte de las al menos dos señales de componentes y genera una segunda representación codificada para una segunda parte de las al menos dos señales de componente. El analizador espacial analiza la escena de audio para derivar uno o más parámetros espaciales o uno o más conjuntos de parámetros espaciales para la segunda parte y una interfaz de salida forma a continuación la señal de la escena de audio codificada que comprende la primera representación codi ficada, la segunda representación codificada y el uno o más parámetros espaciales o el uno o más conjuntos de parámetros espaciales para la segunda parte. Normalmente, los parámetros espaciales para la primera parte no se incluyen en la señal de la escena de audio codificada, ya que esos parámetros espaciales se estiman a partir de la primera representación decodificada en un decodificador. Por otro lado, los parámetros espaciales para la segunda parte ya están calculados dentro del codificador de escena de audio sobre la base de la escena de audio original o una escena de audio ya procesada que se ha reducido con respecto a su dimensión y, por lo tanto, con respecto a su tasa de bits.

[0033] Por lo tanto, los parámetros calculados por el codificador pueden llevar una información paramétrica de alta calidad, ya que estos parámetros se calculan en el codificador a partir de datos altamente precisos, no afectados por las distorsiones del codificador central y potencialmente incluso disponibles en una dimensión muy alta, tal como una señal que se deriva de una matriz de micrófono de alta calidad. Debido al hecho de que tal información paramétrica de muy alta calidad se conserva, entonces es posible codificar en forma central la segunda parte con menos precisión o, por lo general, menos resolución. Por lo tanto, mediante la codificación central de la segunda parte de forma bastante básica, se pueden ahorrar bits que, por lo tanto, pueden asignarse a la representación de los metadatos espaciales codificados. Los bits ahorrados por una codificación bastante básica de la segunda parte también se pueden invertir en una codificación de alta resolución de la primera parte de las al menos dos señales de componente. Una codifica ción de alta resolución o alta calidad de las al menos dos señales de componentes es útil, ya que, en el lado del decodificador, no existen datos espaciales paramétricos para la primera parte, sino que se derivan dentro del decodi ficador mediante un análisis espacial. Por lo tanto, al no calcular todos los metadatos espaciales en el codificador, sino codificar en forma central al menos dos señales de componente, cualquier bit que, en el caso de la comparación, sería necesario para los metadatos codificados se puede ahorrar e invertir en la codificación central de mayor calidad de las al menos dos señales de componentes en la primera parte.

[0034] Por lo tanto, de acuerdo con la presente invención, la separación de la escena de audio en la primera parte y en la segunda parte se puede hacer de manera muy flexible, por ejemplo, dependiendo de los requisitos de tasa de bits, los requisitos de calidad de audio, los requisitos de procesamiento, es decir, si hay más recursos de procesamiento disponibles en el codificador o el decodificador, y demás. En una realización preferida, la separación en la primera y la segunda parte se realiza sobre la base de las funcionalidades del codificador central. En particular, para codificadores centrales de alta calidad y baja tasa de bits que aplican operaciones de codificación paramétrica para ciertas bandas, como el procesamiento de replicación de banda espectral o el procesamiento inteligente de lle nado de brechas o el procesamiento de llenado de ruido, la separación con respecto a los parámetros espaciales se realiza de tal manera que las partes de la señal codificadas no paramétricamente forman la primera parte y las partes de la señal codificadas paramétricamente forman la segunda parte. Por lo tanto, para la segunda parte codificada paramétricamente que típicamente es la parte codificada de resolución más baja de la señal de audio, se obtiene una representación más precisa de los parámetros espaciales, mientras que para la primera parte mejor codificada, es decir, de alta resolución, los parámetros de alta calidad no son tan necesarios, ya que los parámetros de calidad bastante alta pueden estimarse en el lado del decodificador usando la representación decodificada de la primera parte.

[0035] En una realización adicional, y para reducir aún más la tasa de bits, los parámetros espaciales para la segunda parte se calculan, dentro del codificador, en una cierta resolución de tiempo / frecuencia que puede ser una resolución de tiempo / frecuencia alta o una resolución de tiempo / frecuencia baja. En caso de una resolución de tiempo / frecuencia alta, los parámetros calculados se agrupan entonces de una cierta manera con el fin de obtener parámetros espaciales de resolución de tiempo / frecuencia baja. Estos parámetros espaciales de resolución de tiempo / frecuencia baja son, sin embargo, parámetros espaciales de alta calidad que solo tienen baja resolución. Sin em bargo, la baja resolución es útil porque los bits se ahorran para la transmisión, ya que se reduce el número de pará metros espaciales para una determinada duración y una determinada banda de frecuencia. Pero esta reducción no suele ser tan problemática, ya que los datos espaciales, sin embargo, no cambian demasiado con el tiempo y con la frecuencia. Por lo tanto, se puede obtener una representación de baja tasa de bits pero de buena calidad de los parámetros espaciales para la segunda parte.

[0036] Dado que los parámetros espaciales para la primera parte se calculan en el lado del decodificador y no tienen que transmitirse más, no es necesario transigir con respecto a la resolución. Por lo tanto, en el lado del decodificador se puede realizar una estimación resolución de alto tiempo y alta frecuencia de los parámetros espaciales, y estos datos paramétricos de alta resolución ayudan a proporcionar, no obstante, una buena representación espacial de la primera parte de la escena de audio. Por lo tanto, la "desventaja" de calcular los parámetros espaciales en el lado del decodificador sobre la base de los al menos dos componentes transmitidos para la primera parte se puede reducir o incluso eliminar al calcular los parámetros espaciales de alta resolución de tiempo y frecuencia y al utilizar estos parámetros en la renderización espacial de la escena de audio. Esto no implica ninguna penalización en una tasa de bits, ya que cualquier procesamiento realizado en el lado del decodificador no tiene ninguna influencia negativa en la tasa de bits transmitida en un escenario de codificador / decodificador.

[0037] Una realización adicional de la presente invención se basa en una situación en la que, para la primera parte, al menos dos componentes se codifican y se transmiten de manera que, basándose en los al menos dos com ponentes, se puede realizar una estimación de datos paramétricos en el lado del decodificador. Sin embargo, en una realización, la segunda parte de la escena de audio puede incluso codificarse con una tasa de bits sustancialmente menor, ya que se prefiere codificar solo un único canal de transporte para la segunda representación. Este canal de transporte o mezcla descendente está representado por una tasa de bits muy baja en comparación con la primera parte, ya que, en la segunda parte, solo se debe codificar un único canal o componente mientras que, en la primera parte, se necesita codificar dos o más componentes para que haya suficientes datos para un análisis espacial del lado del decodificador.

[0038] Por lo tanto, la presente invención proporciona flexibilidad adicional con respecto a la tasa de bits, la calidad de audio y los requisitos de procesamiento disponibles en el lado del codificador o del decodificador.

[0039] Las realizaciones preferidas de la presente invención se describen posteriormente con respecto a los dibujos adjuntos, en los que:

La Fig. 1a es un diagrama de bloques de una realización de un codificador de escena de audio;

La Fig. 1b es un diagrama de bloques de una realización de un decodificador de escena de audio;

La Fig. 2a es un análisis de DirAC a partir de una señal no codificada;

La Fig. 2b es un análisis de DirAC a partir de una señal codificada de dimensión inferior;

La Fig. 3 es una descripción general del sistema de un codificador y un decodificador que combina el procesamiento de sonido espacial DirAC con un codificador de audio;

La Fig. 4a es un análisis de DirAC a partir de una señal no codificada;

La Fig. 4b es un análisis de DirAC a partir de una señal no codificada que utiliza agrupación de parámetros en el dominio tiempo-frecuencia y la cuantización de los parámetros.

La Fig. 5a es una etapa de análisis de DirAC de la técnica anterior;

La Fig. 5b es una etapa de síntesis de DirAC de la técnica anterior;

La Fig. 6a ilustra diferentes marcos de tiempo superpuestos como ejemplo para diferentes partes;

La Fig. 6b ilustra diferentes bandas de frecuencia como ejemplo para diferentes partes;

La Fig. 7a ilustra una realización adicional de un codificador de escena de audio;

La Fig. 7b ilustra una realización de un decodificador de escena de audio;

La Fig. 8a ilustra una realización adicional de un codificador de escena de audio;

La Fig. 8b ilustra una realización adicional de un decodificador de escena de audio;

La Fig. 9a ilustra una realización adicional de un codificador de escena de audio con un codificador central de dominio de frecuencia;

La Fig. 9b ilustra una realización adicional de un codificador de escena de audio con un codificador central de dominio de tiempo;

La Fig. 10a ilustra una realización adicional de un decodificador de escena de audio con un decodificador central de dominio de frecuencia;

La Fig. 10b ilustra una realización adicional de un decodificador central de dominio de tiempo; y

La Fig. 11 ilustra una realización de un renderizador espacial.

[0040] La Fig. 1a ilustra un codificador de escena de audio para codificar una escena de audio 110 que com prende al menos dos señales de componentes. El codificador de escena de audio comprende un codificador central 100 para la codificación central de las al menos dos señales de componentes. Específicamente, el codificador central 100 está configurado para generar una primera representación codificada 310 para una primera parte de las al menos dos señales de componentes y para generar una segunda representación codificada 320 para una segunda parte de las al menos dos señales de componentes. El codificador de escena de audio comprende un analizador espacial para analizar la escena de audio para derivar uno o más parámetros espaciales o uno o más conjuntos de parámetros espaciales para la segunda parte. El codificador de escena de audio comprende una interfaz de salida 300 para formar una señal de escena de audio codificada 340. La señal de escena de audio codificada 340 comprende la primera representación codificada 310 que representa la primera parte de las al menos dos señales de componentes, la se gunda representación de codificador 320 y los parámetros 330 para la segunda parte. El analizador espacial 200 está configurado para aplicar el análisis espacial para la primera parte de las al menos dos señales de componentes utili zando la escena de audio original 110. Alternativamente, el análisis espacial también se puede realizar sobre la base de una representación de dimensión reducida de la escena de audio. Si, por ejemplo, la escena de audio 110 com prende, por ejemplo, una grabación de varios micrófonos dispuestos en una matriz de micrófonos, entonces el análisis espacial 200 puede, por supuesto, realizarse sobre la base de estos datos. Sin embargo, el codificador central 100 se configuraría para reducir la dimensionalidad de la escena de audio a, por ejemplo, una representación Ambisonics de primer orden o una representación Ambisonics de orden superior. En una versión básica, el codificador central 100 reduciría la dimensionalidad al menos a dos componentes que consisten, por ejemplo, en un componente omnidireccional y al menos un componente direccional, tal como X, Y o Z, de una representación en formato B. Sin embargo, otras representaciones, tales como las representaciones de orden superior o las representaciones en formato A, tam bién son útiles. La primera representación del codificador para la primera parte consistiría entonces en que al menos dos componentes diferentes sean decodificables y, típicamente, consistirá en una señal de audio codificada para cada componente.

[0041] La segunda representación del codificador para la segunda parte puede consistir en el mismo número de componentes o, alternativamente, puede tener un número menor, tal como solo un componente omnidireccional único que ha sido codificado por el codificador central en una segunda parte. En el caso de la implementación donde el codificador central 100 reduce la dimensionalidad de la escena de audio original 110, la escena de audio de dimen sionalidad reducida puede enviarse opcionalmente al analizador espacial a través de la línea 120 en lugar de la escena de audio original.

[0042] La Fig. 1b ilustra un decodificador de escena de audio que comprende una interfaz de entrada 400 para recibir una señal de escena de audio codificada 340. Esta señal de escena de audio codificada comprende la primera representación codificada 410, la segunda representación codificada 420 y uno o más parámetros espaciales para la segunda parte de las al menos dos señales de componentes ilustradas en 430. La representación codificada de la segunda parte puede ser, una vez más, un canal de audio único codificado o puede comprender dos o más canales de audio codificados, mientras que la primera representación codificada de la primera parte comprende al menos dos señales de audio codificadas diferentes. Las diferentes señales de audio codificadas en la primera representación codificada o, si está disponible, en la segunda representación codificada pueden ser señales codificadas conjunta mente, como una señal estéreo codificada conjuntamente, o son, alternativamente, e incluso preferiblemente, señales de audio mono codificadas individualmente.

[0043] La representación codificada que comprende la primera representación codificada 410 para la primera parte y la segunda representación codificada 420 para la segunda parte se introduce en un decodificador central para decodificar la primera representación codificada y la segunda representación codificada para obtener una representa ción decodificada de las al menos dos señales de componentes que representan una escena de audio. La representación decodificada comprende una primera representación decodificada para la primera parte indicada en 810 y una segunda representación decodificada para una segunda parte indicada en 820. La primera representación decodifi cada se envía a un analizador espacial 600 para analizar una parte de la representación decodificada correspondiente a la primera parte de las al menos dos señales de componentes para obtener uno o más parámetros espaciales 840 para la primera parte de las al menos dos señales de componentes. El decodificador de escena de audio también comprende un espacio renderizado 800 para renderizar espacialmente la representación decodificada que comprende, en la realización de la Fig. 1b, la primera representación decodificada para la primera parte 810 y la segunda repre sentación decodificada para la segunda parte 820. El renderizador espacial 800 está configurado para usar, con el fin de la renderización de audio, los parámetros 840 derivados del analizador espacial para la primera parte y, para la segunda parte, los parámetros 830 que se derivan de los parámetros codificados a través de un decodificador de parámetros / metadatos 700. En el caso de una representación de los parámetros en la señal codificada en una forma no codificada, el decodificador de parámetros / metadatos 700 no es necesario y el uno o más parámetros espaciales para la segunda parte de las al menos dos señales de componentes se envían directamente desde la interfaz de entrada 400, posterior a un demultiplex o una determinada operación de procesamiento, al renderizador espacial 800 como datos 830.

[0044] La Fig. 6a ilustra una representación esquemática de diferentes marcos de tiempo F1 a F4 que típica mente se superponen. El codificador central 100 de la Fig. 1a puede configurarse para formar tales marcos de tiempo posteriores a partir de las al menos dos señales de componentes. En tal situación, un primer marco de tiempo podría ser la primera parte y el segundo marco de tiempo podría ser la segunda parte. Por lo tanto, de acuerdo con una realización de la invención, la primera parte podría ser el primer marco de tiempo y la segunda parte podría ser otro marco de tiempo, y la conmutación entre la primera y la segunda parte podría realizarse a lo largo del tiempo. Aunque la Fig. 6a ilustra marcos de tiempo superpuestos, los marcos de tiempo no superpuestos también son útiles. A pesar de que la Fig. 6a ilustra marcos de tiempo que tienen longitudes iguales, la conmutación podría realizarse con marcos de tiempo que tienen diferentes longitudes. Por lo tanto, cuando el marco de tiempo F2 es, por ejemplo, más pequeño que el marco de tiempo F1, esto causaría un aumento de la resolución de tiempo para el segundo marco de tiempo F2 con respecto al primer marco de tiempo F1. A continuación, el segundo marco de tiempo F2 con la resolución incrementada correspondería preferiblemente a la primera parte que está codificada con respecto a sus componentes, mientras que la primera parte de tiempo, es decir, los datos de baja resolución corresponderían a la segunda parte que está codificada con una resolución más baja, pero los parámetros espaciales para la segunda parte se calcularían con cualquier resolución necesaria, ya que toda la escena de audio está disponible en el codificador.

[0045] La Fig. 6b ilustra una implementación alternativa donde el espectro de las al menos dos señales de componentes se ilustra con un cierto número de bandas B1, B2,..., B6,... Preferiblemente, las bandas están separadas en bandas con diferentes anchos de banda que aumentan de las frecuencias centrales más bajas a las más altas con el fin de tener una división de bandas del espectro motivada por la percepción. La primera parte de las al menos dos señales de componentes podría, por ejemplo, consistir en las primeras cuatro bandas, por ejemplo, la segunda parte podría consistir en las bandas B5 y bandas B6. Esto coincidiría con una situación en la que el codificador central realiza una replicación de bandas espectrales y donde la frecuencia de cruce entre la parte de baja frecuencia codificada no paramétricamente y la parte de alta frecuencia codificada paramétricamente sería el límite entre la banda B4 y la banda B5.

[0046] Alternativamente, en el caso del llenado inteligente de huecos (IGF) o el llenado de ruido (NF), las ban das se seleccionan arbitrariamente de acuerdo con un análisis de señal y, por lo tanto, la primera parte podría consistir, por ejemplo, en las bandas B1, B2, B4, B6, y la segunda parte podría ser B3, B5 y probablemente otra banda de frecuencia más alta. Por lo tanto, se puede realizar una separación muy flexible de la señal de audio en bandas, independientemente de si las bandas son, como se prefiere e ilustra en la Fig. 6b, bandas de factor de escala típicas que tienen un ancho de banda creciente desde las frecuencias más bajas a las más altas, o si las bandas son bandas del mismo tamaño. Los límites entre la primera parte y la segunda parte no necesariamente tienen que coincidir con las bandas de factor de escala que normalmente son utilizadas por un codificador central, pero se prefiere tener la coincidencia entre un límite entre la primera parte y la segunda parte y un límite entre una banda de factor de escala y una banda de factor de escala adyacente.

[0047] La Fig. 7a ilustra una implementación preferida de un codificador de escena de audio. En particular, la escena de audio se introduce en un separador de señal 140 que es preferiblemente la parte del codificador central 100 de la Fig. 1a. El codificador central 100 de la Fig. 1a comprende un reductor de dimensión 150a y 150b para ambas partes, es decir, la primera parte de la escena de audio y la segunda parte de la escena de audio. En la salida del reductor de dimensión 150a, existen al menos dos señales de componentes que se codifican a continuación en un codificador de audio 160a para la primera parte. El reductor de dimensión 150b para la segunda parte de la escena de audio puede comprender la misma constelación que el reductor de dimensión 150a. Sin embargo, alternativamente, la dimensión reducida obtenida por el reductor de dimensión 150b puede ser un solo canal de transporte que se codifica a continuación por el codificador de audio 160b para obtener la segunda representación codificada 320 de al menos una señal de transporte / componente.

[0048] El codificador de audio 160a para la primera representación codificada puede comprender un codificador de resolución de conservación de onda o no paramétrico o de alto tiempo o alta frecuencia, mientras que el codificador de audio 160b puede ser un codificador paramétrico tal como un codificador SBR, un codificador IGF, un codificador de llenado de ruido, o cualquier resolución de bajo tiempo o frecuencia, u otros. Por lo tanto, el codificador de audio 160b normalmente dará como resultado una representación de salida de menor calidad en comparación con el codificador de audio 160a. Esta "desventaja" se resuelve realizando un análisis espacial a través del analizador de datos espaciales 210 de la escena de audio original o, alternativamente, una escena de audio de dimensión reducida cuando la escena de audio de dimensión reducida aún comprende al menos dos señales de componentes. Los datos espa ciales obtenidos por el analizador de datos espaciales 210 se envían a continuación a un codificador de metadatos 220 que genera datos espaciales de baja resolución codificados. Ambos bloques 210, 220 están incluidos preferiblemente en el bloque del analizador espacial 200 de la Fig. 1a.

[0049] Preferiblemente, el analizador de datos espaciales realiza un análisis de datos espaciales con una alta resolución, tal como una resolución de alta frecuencia o una resolución de alto tiempo y, con el fin de mantener la tasa de bits necesaria para los metadatos codificados en un intervalo razonable, los datos espaciales de alta resolución se agrupan preferiblemente y codifican por entropía por el codificador de metadatos para tener datos espaciales de baja resolución codificados. Cuando, por ejemplo, se realiza un análisis de datos espaciales para, por ejemplo, ocho inter valos de tiempo por marco y diez bandas por intervalo de tiempo, se podrían agrupar los datos espaciales en un único parámetro espacial por marco y, por ejemplo, cinco bandas por parámetro.

[0050] Se prefiere calcular los datos direccionales por un lado y los datos de difusión por otro lado. El codifica dor de metadatos 220 podría entonces configurarse para emitir los datos codificados con diferentes resoluciones de tiempo / frecuencia para los datos direccionales y de difusión. Normalmente, se requieren datos direccionales con una resolución más alta que para los datos de difusión. Una forma preferida para calcular los datos paramétricos con diferentes resoluciones es realizar el análisis espacial con una resolución alta y por lo general una resolución igual para ambos tipos paramétricos y, a continuación, realizar una agrupación en tiempo y/o frecuencia con la información paramétrica diferente para los diferentes tipos de parámetros de diferentes maneras para tener a continuación una salida de datos espaciales codificados de baja resolución 330 que tenga, por ejemplo, una resolución media con tiempo y/o frecuencia para los datos direccionales y una resolución baja para los datos de difusión.

[0051] La Fig. 7b ilustra una implementación del lado del decodificador correspondiente del decodificador de escena de audio.

[0052] El decodificador central 500 de la Fig. 1b comprende, en la realización de la Fig. 7b, una primera ins tancia de decodificador de audio 510a y una segunda instancia de decodificador de audio 510b. Preferiblemente, la primera instancia de decodificador de audio 510a es un codificador no paramétrico o de preservación de forma de onda o de alta resolución (en tiempo y/o frecuencia) que genera, en la salida, una primera parte decodificada de las al menos dos señales de componentes. Estos datos 810 se envían, por un lado, al renderizador espacial 800 de la Fig. 1b y, además, se introducen en un analizador espacial 600. Preferiblemente, el analizador espacial 600 es un analizador espacial de alta resolución que calcula preferiblemente parámetros espaciales de alta resolución para la primera parte. Típicamente, la resolución de los parámetros espaciales para la primera parte es mayor que la resolución que se asocia con los parámetros codificados que se introducen en el decodificador de parámetros / metadatos 700. Sin embargo, los parámetros espaciales decodificados por entropía con resolución de bajo tiempo o frecuencia emitidos por el bloque 700 se introducen en un desagrupador de parámetros para la mejora de la resolución 710. Tal desagrupación de parámetros se puede realizar copiando un parámetro transmitido a ciertos mosaicos de tiempo / frecuencia, donde la desagrupación se realiza en línea con la agrupación correspondiente realizada en el codificador de metadatos del lado del codificador 220 de la Fig. 7a. Naturalmente, junto con la desagrupación, se pueden realizar más opera ciones de procesamiento o suavizado según sea necesario.

[0053] El resultado del bloque 710 es, entonces, una colección de parámetros decodificados, preferiblemente de alta resolución, para la segunda parte que típicamente tienen la misma resolución que los parámetros 840 para la primera parte. Además, la representación codificada de la segunda parte se decodifica por el decodificador de audio 510b para obtener la segunda parte decodificada 820 de típicamente al menos una de una señal que tiene al menos dos componentes.

[0054] La Fig. 8a ilustra una implementación preferida de un codificador que se basa en las funcionalidades discutidas con respecto a la Fig. 3. En particular, los datos de entrada de canales múltiples o los datos de entrada o datos de objeto de Ambisonics de primer orden o Ambisonics de alto orden se introducen en un conversor de formato B que convierte y combina datos de entrada individuales para generar típicamente, por ejemplo, cuatro componentes de formato B, tales como una señal de audio omnidireccional y tres señales de audio direccionales tales como X, Y yZ.

[0055] Alternativamente, la entrada de señal en el conversor de formato o el codificador central podría ser una señal capturada por un micrófono omnidireccional posicionado en la primera parte y otra señal capturada por un micrófono omnidireccional posicionado en la segunda parte, diferente de la primera parte. De nuevo, alternativamente, la escena de audio comprende, como primera señal de componente, una señal capturada por un micrófono direccional dirigido a una primera dirección y, como segundo componente, al menos una señal capturada por otro micrófono direccional dirigido a una segunda dirección diferente de la primera dirección. Estos “micrófonos direccionales” no necesariamente tienen que ser micrófonos reales, sino que también pueden ser micrófonos virtuales.

[0056] La entrada de audio en el bloque 900 o la salida en el bloque 900 o generalmente utilizadas como escena de audio pueden comprender señales de componentes de formato A, señales de componentes de formato B, señales de componentes Ambisonics de primer orden, señales de componentes Ambisonics de orden superior o se ñales de componentes capturadas por una matriz de micrófonos con al menos dos cápsulas de micrófonos o señales de componentes calculadas a partir de un procesamiento de micrófono virtual.

[0057] La interfaz de salida 300 de la Fig. 1a está configurada para no incluir ningún parámetro espacial del mismo tipo de parámetro que el uno o más parámetros espaciales generados por el analizador espacial para la se gunda parte en la señal de escena de audio codificada.

[0058] Por lo tanto, cuando los parámetros 330 para la segunda parte son datos de dirección de llegada y datos de difusión, la primera representación codificada para la primera parte no incluirá datos de dirección de llegada y datos de difusión, pero puede, por supuesto, comprender cualquier otro parámetro que haya sido calculado por el codificador central, tales como factores de escala, coeficientes LPC, etc.

[0059] Además, la separación de bandas realizada por el separador de señal 140, cuando las diferentes partes son diferentes bandas, se puede implementar de tal manera que una banda de inicio para la segunda parte sea más baja que la banda de inicio de la extensión de ancho de banda y, adicionalmente, el llenado de ruido central no nece sariamente tiene que aplicar ninguna banda de cruce fija, sino que puede usarse gradualmente para más partes del espectro central a medida que aumenta la frecuencia.

[0060] Además, el procesamiento paramétrico o en gran parte paramétrico para la segunda subbanda de fre cuencia de un marco de tiempo comprende el cálculo de un parámetro relacionado con la amplitud para la segunda banda de frecuencia y la codificación de cuantización y entropía de este parámetro relacionado con la amplitud en lugar de líneas espectrales individuales en la segunda subbanda de frecuencia. Este parámetro relacionado con la amplitud que forma una representación de baja resolución de la segunda parte viene dado, por ejemplo, por una representación de envolvente espectral que tiene solo, por ejemplo, un factor de escala o valor de energía para cada banda de factor de escala, mientras que la primera parte de alta resolución depende de MDCT o FFT individual o líneas espectrales generales e individuales.

[0061] Por lo tanto, una primera parte de las al menos dos señales de componentes viene dada por una cierta banda de frecuencia para cada señal de componente, y la banda de frecuencia determinada para cada señal de componente se codifica con un número de líneas espectrales para obtener la representación codificada de la primera parte. Sin embargo, con respecto a la segunda parte, una medida relacionada con la amplitud, como la suma de las líneas espectrales individuales para la segunda parte o una suma de líneas espectrales cuadradas que representan una energía en la segunda parte o la suma de líneas espectrales elevada a la potencia de tres que representa una medida de sonoridad para la parte espectral, puede usarse también para la representación codificada paramétrica de la segunda parte.

[0062] De nuevo en referencia a la Fig. 8a, el codificador central 160 que comprende las ramas de codificador central individuales 160a, 160b puede comprender un procedimiento de selección de señal / formación de haz para la segunda parte. Por lo tanto, el codificador central indicado en 160a, 160b en la Fig. 8b genera, por una parte, una primera parte codificada de los cuatro componentes de formato B y una segunda parte codificada de un solo canal de transporte y metadatos espaciales para la segunda parte que se han generado mediante un análisis DirAC 210 que se basa en la segunda parte y un codificador de metadatos espaciales 220 conectado posteriormente.

[0063] Del lado del decodificador, los metadatos espaciales codificados se introducen en el decodificador de metadatos espaciales 700 para generar los parámetros para la segunda parte ilustrada en 830. El decodificador central, que es una realización preferida implementada típicamente como un decodificador central basado en EVS que consiste en los elementos 510a, 510b, genera la representación decodificada que consiste en ambas partes donde, sin embargo, ambas partes aún no están separadas. La representación decodificada se introduce en un bloque de análisis de frecuencia 860 y el analizador de frecuencia 860 genera las señales de componentes para la primera parte y las envía al analizador DirAC 600 para generar los parámetros 840 para la primera parte. Las señales de canal de transporte / componente para las partes primera y segunda se envían desde el analizador de frecuencia 860 al sintetizador DirAC 800. Por lo tanto, el sintetizador DirAC opera, en una realización, como es habitual, ya que el sintetizador DirAC no tiene ningún conocimiento, y en realidad no requiere ningún conocimiento específico, de si los parámetros para la primera parte y la segunda parte se han derivado en el lado del codificador o en el lado del decodificador. En cambio, ambos parámetros "hacen lo mismo" para el sintetizador DirAC 800 y el sintetizador DirAC puede entonces generar, basándose en la representación de frecuencia de la representación decodificada de las al menos dos señales de componentes que representan la escena de audio indicada en 862 y los parámetros para ambas partes, una salida de altavoz, un Ambisonics de primer orden (FOA), un Ambisonics de alto orden (HOA) o una salida binaural.

[0064] La Fig. 9a ilustra otra realización preferida de un codificador de escena de audio, donde el codificador central 100 de la Fig. 1a se implementa como un codificador de dominio de frecuencia. En esta implementación, la señal que se va a codificar por el codificador central se introduce en un banco de filtros de análisis 164, aplicando preferiblemente una conversión o descomposición espectral en el tiempo con marcos de tiempo típicamente super puestos. El codificador central comprende un procesador codificador que preserva la forma de onda 160a y un proce sador codificador paramétrico 160b. La distribución de las partes espectrales en la primera parte y la segunda parte es controlada por un controlador de modo 166. El controlador de modo 166 puede depender de un análisis de señal, un control de tasa de bits o puede aplicar un ajuste fijo. Normalmente, el codificador de escena de audio se puede configurar para operar a diferentes tasas de bits, donde una frecuencia de límite predeterminada entre la primera parte y la segunda parte depende de una tasa de bits seleccionada, y donde una frecuencia de límite predeterminada es menor para una tasa de bits más baja o mayor para una tasa de bits más alta.

[0065] Alternativamente, el controlador de modo puede comprender un procesamiento de máscara de tonalidad conocido por el llenado inteligente de huecos que analiza el espectro de la señal de entrada para determinar las bandas que deben codificarse con una alta resolución espectral, que terminan en la primera parte codificada, y para determinar las bandas que pueden codificarse de una manera paramétrica, que terminarán a continuación en la segunda parte. El controlador de modo 166 está configurado para controlar también el analizador espacial 200 en el lado del codificador y preferiblemente para controlar un separador de bandas 230 del analizador espacial o un separador de parámetros 240 del analizador espacial. Esto asegura que, al final, solo los parámetros espaciales para la segunda parte, pero no para la primera parte, se generen y se envíen a la señal de escena codificada.

[0066] En particular, cuando el analizador espacial 200 recibe directamente la señal de escena de audio antes de introducirse en el banco de filtros de análisis o después de introducirse en el banco de filtros, el analizador espacial 200 calcula un análisis completo sobre la primera y la segunda parte, y el separador de parámetros 240 solo selecciona a continuación para la salida en la señal de escena codificada los parámetros para la segunda parte. Alternativamente, cuando el analizador espacial 200 recibe datos de entrada de un separador de bandas, el separador de bandas 230 ya envía solo la segunda parte y, entonces, ya no se requiere un separador de parámetros 240, porque el analizador espacial 200 solo recibe la segunda parte y, por lo tanto, solo genera los datos espaciales para la segunda parte.

[0067] Por lo tanto, se puede realizar una selección de la segunda parte antes o después del análisis espacial y, preferiblemente, se controla mediante el controlador de modo 166 o también se puede implementar de una manera fija. El analizador espacial 200 se basa en un banco de filtros de análisis del codificador o utiliza su propio banco de filtros separado, que no se ilustra en la Fig. 9a, pero que se ilustra, por ejemplo, en la Fig. 5a para la implementación de la etapa de análisis de DirAC indicada en 1000.

[0068] La Fig. 9b ilustra, en contraste con el codificador de dominio de frecuencia de la Fig. 9a, un codificador de dominio de tiempo. En lugar del banco de filtros de análisis 164, se proporciona un separador de bandas 168 que es controlado por un controlador de modo 166 de la Fig. 9a (no ilustrado en la Fig. 9b) o que es fijo. En el caso de un control, el control se puede realizar sobre la base de una tasa de bits, un análisis de señal o cualquier otro procedi miento útil para este propósito. Los componentes típicamente M que se introducen en el separador de bandas 168 son procesados, por un lado, por un codificador de dominio de tiempo de banda bajo 160a y, por otro lado, por un calculador de parámetro de extensión de ancho de banda de dominio de tiempo 160b. Preferiblemente, el codificador de dominio de tiempo de banda bajo 160a emite la primera representación codificada con los componentes individuales M en forma codificada. Contrariamente a esto, la segunda representación codificada generada por el calculador de parámetro de extensión de ancho de banda de dominio de tiempo 160b solo tiene N componentes / señales de transporte, donde el número N es menor que el número M, y donde N es mayor o igual a 1.

[0069] Dependiendo de si el analizador espacial 200 se basa en el separador de bandas 168 del codificador central, no se requiere un separador de bandas separado 230. Sin embargo, cuando el analizador espacial 200 se basa en el separador de bandas 230, entonces la conexión entre el bloque 168 y el bloque 200 de la Fig. 9b no es necesaria. En caso de que ninguno de los separadores de bandas 168 o 230 esté en la entrada del analizador espacial 200, el analizador espacial realiza un análisis de banda completo y el separador de parámetros 240 separa solo los parámetros espaciales para la segunda parte que se envían a continuación a la interfaz de salida o a la escena de audio codificada.

[0070] Por lo tanto, mientras que la Fig. 9a ilustra un procesador codificador que preserva la forma de onda 160a o un codificador espectral para cuantificar una codificación de entropía, el bloque correspondiente 160a de la Fig. 9b es cualquier codificador de dominio de tiempo, tal como un codificador EVS, un codificador ACELP, un codifi cador AMR o un codificador similar. Mientras que el bloque 160b ilustra un codificador paramétrico de dominio de frecuencia o un codificador paramétrico general, el bloque 160b de la Fig. 9b es un calculador de parámetro de extensión de ancho de banda de dominio de tiempo que puede, básicamente, calcular los mismos parámetros que el bloque 160 o diferentes parámetros según sea el caso.

[0071] La Fig. 10a ilustra un decodificador de dominio de frecuencia que coincide típicamente con el codificador de dominio de frecuencia de la Fig. 9a. El decodificador espectral que recibe la primera parte codificada comprende, como se ilustra en 160a, un decodificador de entropía, un descuantificador y cualquier otro elemento que sea, por ejemplo, conocido a partir de la codificación AAC o cualquier otra codificación del dominio espectral. El decodificador paramétrico 160b que recibe los datos paramétricos, como la energía por banda a medida que opera la segunda representación codificada para la segunda parte, típicamente, como un decodificador SBR, un decodificador IGF, un decodificador de llenado de ruido u otros decodificadores paramétricos. Ambas partes, es decir, los valores espectrales de la primera parte y los valores espectrales de la segunda parte se introducen en un banco de filtros de síntesis 169 para tener la representación decodificada que, típicamente, se envía al renderizador espacial con el propósito de renderizar espacialmente la representación decodificada.

[0072] La primera parte puede enviarse directamente al analizador espacial 600 o la primera parte puede derivarse de la representación decodificada en la salida del banco de filtros de síntesis 169 a través de un separador de bandas 630. Dependiendo de cómo se encuentre la situación, se requiere o no el separador de parámetros 640. En el caso de que el analizador espacial 600 reciba solo la primera parte, el separador de bandas 630 y el separador de parámetros 640 no son necesarios. En el caso de que el analizador espacial 600 reciba la representación decodificada y el separador de bandas no esté allí, se requiere el separador de parámetros 640. En el caso de que la representación decodificada se introduzca en el separador de bandas 630, el analizador espacial no necesita tener el separador de parámetros 640, ya que el analizador espacial 600 solo genera los parámetros espaciales para la primera parte.

[0073] La Fig. 10b ilustra un decodificador de dominio de tiempo que coincide con el codificador de dominio de tiempo de la Fig. 9b. Particularmente, la primera representación codificada 410 se introduce en un decodificador de dominio de tiempo de banda bajo 160a y la primera parte decodificada se introduce en un combinador 167. Los pará metros de extensión de ancho de banda 420 se introducen en un procesador de extensión de ancho de banda de dominio de tiempo que genera la segunda parte. La segunda parte también se introduce en el combinador 167. De pendiendo de la implementación, el combinador puede implementarse para combinar valores espectrales, cuando la primera y la segunda parte son valores espectrales, o puede combinar muestras de dominio de tiempo cuando la primera y la segunda parte ya están disponibles como muestras de dominio de tiempo. La salida del combinador 167 es la representación decodificada que se puede procesar, similar a lo que se ha discutido anteriormente con respecto a la Fig. 10a, mediante el analizador espacial 600 con o sin el separador de bandas 630 o con o sin el separador de parámetros 640, según sea el caso.

[0074] La Fig. 11 ilustra una implementación preferida del renderizador espacial, aunque también se pueden aplicar otras implementaciones de un renderizador espacial que se basan en parámetros de DirAC o en otros pará metros distintos de los parámetros de DirAC, o producen una representación diferente de la señal renderizada que la representación directa de altavoces, como una representación HOA. Normalmente, la entrada de datos 862 en el sintetizador DirAC 800 puede constar de varios componentes tales como el formato B para la primera y la segunda parte, como se indica en la esquina superior izquierda de la Fig. 11. Alternativamente, la segunda parte no está dis ponible en varios componentes, sino que solo tiene un único componente. Entonces, la situación es como se ilustra en la parte inferior a la izquierda de la Fig. 11. Particularmente, en el caso de tener la primera y la segunda parte con todos los componentes, es decir, cuando la señal 862 de la Fig. 8b tiene todos los componentes del formato B, por ejemplo, está disponible un espectro completo de todos los componentes y la descomposición de tiempo-frecuencia permite realizar un procesamiento para cada mosaico de tiempo / frecuencia individual. Este procesamiento se realiza mediante un procesador de micrófono virtual 870a para calcular, para cada altavoz de una configuración de altavoz, un componente de altavoz de la representación decodificada.

[0075] Alternativamente, cuando la segunda parte solo está disponible en un único componente, entonces los mosaicos de tiempo / frecuencia para la primera parte se introducen en el procesador de micrófono virtual 870a, mientras que la parte de tiempo / frecuencia para la segunda parte de número de componentes simple o inferior se introduce en el procesador 870b. El procesador 870b, por ejemplo, solo tiene que realizar una operación de copia, es decir, copiar el único canal de transporte en una señal de salida para cada señal de altavoz. Por lo tanto, el procesamiento del micrófono virtual 870a de la primera alternativa se reemplaza por una simple operación de copia.

[0076] A continuación, la salida de los bloques 870a en la primera realización u 870a para la primera parte y 870b para la segunda parte se introducen en un procesador de ganancia 872 para modificar la señal del componente de salida usando el uno o más parámetros espaciales. Los datos también se introducen en un procesador ponderador / descorrelacionador 874 para generar una señal de componente de salida descorrelacionada utilizando el uno o más parámetros espaciales. La salida del bloque 872 y la salida del bloque 874 se combinan dentro de un combinador 876 que opera para cada componente, de manera que, en la salida del bloque 876, se obtiene una representación de dominio de frecuencia de cada señal de altavoz.

[0077] A continuación, por medio de un banco de filtros de síntesis 878, todas las señales de altavoz de dominio de frecuencia pueden convertirse en una representación de dominio de tiempo y las señales de altavoz de dominio de tiempo generadas pueden convertirse de digitales a analógicas y usarse para controlar los altavoces correspondientes ubicados en las posiciones de altavoz definidas.

[0078] Típicamente, el procesador de ganancia 872 funciona sobre la base de parámetros espaciales y, prefe riblemente, parámetros direccionales, tales como la dirección de los datos de llegada y, opcionalmente, sobre la base de parámetros de difusión. Además, el procesador ponderador / descorrelacionador funciona también sobre la base de parámetros espaciales y, preferiblemente, sobre la base de los parámetros de difusión.

[0079] Así, en una implementación, el procesador de ganancia 872 representa la generación del flujo no difuso en la Fig. 5b ilustrado en 1015, y el procesador ponderador / descorrelacionador representa la generación del flujo difuso como lo indica la rama superior 1014 de la Fig. 5b, por ejemplo. Sin embargo, también se pueden realizar otras implementaciones que se basan en diferentes procedimientos, diferentes parámetros y diferentes formas de generar señales directas y difusas.

[0080] Los ejemplos de beneficios y ventajas de las realizaciones preferidas con respecto al estado de la téc nica son:

- Las realizaciones de la presente invención proporcionan una mejor resolución de tiempo-frecuencia para las partes de la señal elegidas para tener parámetros espaciales estimados en el lado del decodificador sobre un sistema que utiliza parámetros estimados y codificados del lado del codificador para toda la señal.

- Las realizaciones de la presente invención proporcionan mejores valores de parámetros espaciales para partes de la señal reconstruida utilizando el análisis del lado del codificador de los parámetros y la codificación y transmisión de dichos parámetros al decodificador sobre un sistema donde los parámetros espaciales se estiman en el decodificador utilizando la señal de audio decodificada de dimensión inferior.

- Las realizaciones de la presente invención permiten una compensación más flexible entre la resolución de tiempofrecuencia, la velocidad de transmisión y la precisión de los parámetros que un sistema que usa parámetros codifica dos para toda la señal o un sistema que usa parámetros estimados del lado del decodificador para toda la señal. - Las realizaciones de la presente invención proporcionan una mejor precisión de los parámetros para las partes de señal codificadas principalmente usando herramientas de codificación paramétrica al elegir la estimación del lado del codificador y la codificación de algunos o todos los parámetros espaciales para esas partes y una mejor resolución de tiempo-frecuencia para las partes de señal codificadas principalmente que utilizan herramientas de codificación que conservan la forma de la onda y se basan en una estimación del lado del decodificador de los parámetros espaciales para esas partes de señal.

Referencias:

[0081]

[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamaki, “Directional audio coding - perceptionbased reproduction of spatial sound”, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.

[2] Ville Pulkki. “Virtual source positioning using vector base amplitude panning”. J. Audio Eng. Soc., 45(6):456{466, June 1997.

[3] European patent application No. EP17202393.9, “EFFICIENT CODING SCHEMES OF DIRAC METADATA”.

[4 ] European patent application No EP17194816.9 “Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding”.

[0082] Una señal de audio codificada según la invención se puede almacenar en un medio de almacenamiento digital o un medio de almacenamiento no transitorio, o se puede transmitir por un medio de transmisión, tal como un medio de transmisión inalámbrico o un medio de transmisión por cable tal como Internet.

[0083] Aunque algunos aspectos se han descrito en el contexto de un aparato, está claro que estos aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a una etapa del procedimiento o una característica de una etapa del procedimiento. Análogamente, los aspectos des critos en el contexto de una etapa del procedimiento también representan una descripción de un bloque o elemento o característica correspondiente de un aparato correspondiente.

[0084] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación se puede realizar utilizando un medio de almacenamiento digital, por ejemplo, un disquete, DVD, CD, R^{o m}, PROM, E^pR^oM, EEPROM o una memoria FLASH, con señales de control legibles electrónicamente almacenadas allí, que cooperan (o son capaces de cooperar) con un sistema infor mático programable de modo que se realice el procedimiento respectivo.

[0085] Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema informático programable, de modo que se realice uno de los procedimientos descritos en esta invención.

[0086] En general, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo operativo el código de programa para realizar uno de los procedimientos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede, por ejemplo, almacenarse en un soporte legible por máquina.

[0087] Otras realizaciones comprenden el programa informático para realizar uno de los procedimientos des critos en esta invención, almacenado en un soporte legible por máquina o un medio de almacenamiento no transitorio. En otras palabras, una realización del procedimiento de la invención es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los procedimientos descritos en esta invención, cuando el programa informático se ejecuta en un ordenador.

[0088] Una realización adicional de los procedimientos de la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los procedimientos descritos en esta invención.

[0089] Una realización adicional del procedimiento de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representan el programa informático para realizar uno de los procedimientos descritos en esta invención. El flujo de datos o la secuencia de señales pueden configurarse, por ejemplo, para ser transferidos a través de una conexión de comunicación de datos, por ejemplo a través de Internet.

[0090] Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo lógico programable, configurado o adaptado para realizar uno de los procedimientos descritos en esta invención.

[0091] Una realización adicional comprende un ordenador que tiene instalado en sí el programa informático para realizar uno de los procedimientos descritos en esta invención.

[0092] En algunas realizaciones, se puede usar un dispositivo lógico programable (por ejemplo, una matriz de puerta programable de campo) para realizar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de puerta programable de campo puede cooperar con un microprocesador para realizar uno de los procedimientos descritos en esta invención. En general, los procedimientos se realizan preferiblemente por cualquier aparato de hardware.

[0093] Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en esta in vención serán evidentes para otros expertos en la técnica. Es la intención, por lo tanto, limitarse únicamente por el alcance de las reivindicaciones de patente y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en esta invención.

Claims

REIVINDICACIONES

1. Un codificador de escena de audio para codificar una escena de audio (110), donde la escena de audio (110) comprende al menos dos señales de componentes, donde el codificador de escena de audio comprende: un codificador central (160) para codificar centralmente las al menos dos señales de componentes, donde el codi ficador central (160) está configurado para generar una primera representación codificada (310) para una primera parte de las al menos dos señales de componentes, y para generar un segunda representación codificada (320) para una segunda parte de las al menos dos señales de componentes;

donde el codificador central (160) está configurado para formar un marco de tiempo a partir de al menos dos señales de componentes, donde una primera subbanda de frecuencia del marco de tiempo de al menos dos seña les de componente es la primera parte de al menos dos señales de componentes y una segunda subbanda de frecuencia del marco de tiempo es la segunda parte de al menos dos señales de componentes, donde la primera subbanda de frecuencia está separada de la segunda subbanda de frecuencia por una frecuencia límite predeterminada,

donde el codificador central (160) está configurado para generar la primera representación codificada (310) para la primera subbanda de frecuencia que comprende M señales de componente, y para generar la segunda repre sentación codificada (320) para la segunda subbanda de frecuencia que comprende N señales de componente, donde M es mayor que N, y donde N es mayor o igual a 1;

un analizador espacial (200) para analizar la escena de audio (110) que comprende al menos dos señales de componentes para derivar uno o más parámetros espaciales (330) o uno o más conjuntos de parámetros espacia les para la segunda subbanda de frecuencia; y

una interfaz de salida (300) para formar una señal de escena de audio codificada (340), donde la señal de escena de audio codificada (340) comprende la primera representación codificada para la primera subbanda de frecuencia que comprende las M señales de componentes, la segunda representación codificada (320) para la segunda sub banda de frecuencia que comprende las N señales de componentes y el uno o más parámetros espaciales (330) o uno o más conjuntos de parámetros espaciales para la segunda subbanda de frecuencia.

2. El codificador de escena de audio de la reivindicación 1,

donde el codificador central (160) está configurado para generar la primera representación codificada (310) con una primera resolución de frecuencia y para generar la segunda representación codificada (320) con una segunda resolución de frecuencia, siendo la segunda resolución de frecuencia menor que la primera resolución de frecuen cia , o

donde una frecuencia límite entre la primera subbanda de frecuencia del marco de tiempo y la segunda subbanda de frecuencia del marco de tiempo coincide con un borde entre una banda de factor de escala y una banda de factor de escala adyacente o no coincide con un borde entre la banda de factor de escala y la banda de factor de escala adyacente, donde la banda de factor de escala y la banda de factor de escala adyacente son utilizadas por el codificador central (160).

3. El codificador de escena de audio de la reivindicación 1 o 2,

donde la escena de audio (110) comprende, como primera señal de componente, una señal de audio omnidireccional y, como segunda señal de componente, al menos una señal de audio direccional, o

donde la escena de audio (110) comprende, como primera señal de componente, una señal capturada por un micrófono omnidireccional posicionado en una primera posición y, como segunda señal de componente, al menos una señal capturada por un micrófono omnidireccional posicionado en una segunda posición diferente de la primera posición, o

donde la escena de audio (110) comprende, como primera señal de componente, al menos una señal capturada por un micrófono direccional dirigido a una primera dirección y, como segunda señal de componente, al menos una señal capturada por un micrófono direccional dirigido a una segunda dirección, donde la segunda dirección es diferente de la primera dirección.

4. El codificador de escena de audio de una de las reivindicaciones anteriores, donde la escena de audio (110) comprende señales de componentes de formato A, señales de componentes de formato B, señales de compo nentes Ambisonics de primer orden, señales de componentes Ambisonics de orden superior o señales de componen tes capturadas por una matriz de micrófonos con al menos dos cápsulas de micrófono o como se determina por un cálculo de micrófono virtual a partir de una escena de sonido grabada o sintetizada anteriormente.

5. El codificador de escena de audio de una de las reivindicaciones anteriores, donde la interfaz de salida (300) está configurada para no incluir ningún parámetro espacial del mismo tipo de parámetro que el uno o más pará metros espaciales (330) generados por el analizador espacial (200) para la segunda subbanda de frecuencia en la señal de escena de audio codificada (340), de modo que solo la segunda subbanda de frecuencia tiene el tipo de parámetro y cualquier parámetro del tipo de parámetro no se incluye para la primera subbanda de frecuencia en la señal de escena de audio codificada (340).

6. El codificador de escena de audio de una de las reivindicaciones anteriores,

donde el codificador central (160) está configurado para realizar una operación de codificación paramétrica (160b) para la segunda subbanda de frecuencia, y para realizar una operación de codificación con preservación de forma de onda (160a) para la primera subbanda de frecuencia, o

donde una banda de inicio para la segunda subbanda de frecuencia es más baja que una banda de inicio de extensión de ancho de banda, y donde una operación de llenado de ruido central realizada por el codificador central (100) no tiene ninguna banda de cruce fija y se usa gradualmente para más partes de espectros centrales según aumenta la frecuencia.

7. El codificador de escena de audio de una de las reivindicaciones anteriores,

donde el codificador central (160) está configurado para realizar un procesamiento paramétrico (160b) para la segunda subbanda de frecuencia del marco de tiempo, donde el procesamiento paramétrico (160b) comprende calcular un parámetro relacionado con la amplitud para la segunda subbanda de frecuencia y cuantificar y codificar por entropía el parámetro relacionado con la amplitud en lugar de líneas espectrales individuales en la segunda subbanda de frecuencia, y donde el codificador central (160) está configurado para cuantificar y codificar por entropía (160a) líneas espectrales individuales en la primera subbanda del marco de tiempo, o

donde el codificador central (160) está configurado para realizar un procesamiento paramétrico (160b) para una subbanda de alta frecuencia del marco de tiempo correspondiente a la segunda subbanda de frecuencia de las al menos dos señales de componentes, donde el procesamiento paramétrico comprende calcular un parámetro rela cionado con la amplitud para la subbanda de alta frecuencia y cuantificar y codificar por entropía el parámetro relacionado con la amplitud en lugar de una señal de dominio de tiempo en la subbanda de alta frecuencia, y donde el codificador central (160) está configurado para cuantificar y codificar por entropía (160b) la señal de audio de dominio de tiempo en una subbanda de baja frecuencia del marco de tiempo correspondiente a la primera sub banda de frecuencia de las al menos dos señales de componentes, mediante una operación de codificación de dominio de tiempo tal como codificación LPC, codificación LPC/TCX o codificación EVS o codificación AMR Wideband o codificación AMR Wideband+.

8. El codificador de escena de audio de la reivindicación 7,

donde el procesamiento paramétrico (160b) comprende un procesamiento de replicación de banda espectral (SBR), y un procesamiento inteligente de llenado de huecos (IGF), o un procesamiento de llenado de ruido.

9. El codificador de escena de audio de una de las reivindicaciones anteriores, donde el codificador central (160) comprende un reductor de dimensión (150a) para reducir una dimensión de la escena de audio (110) para obtener una escena de audio de menor dimensión, donde el codificador central (160) está configurado para calcular la primera representación codificada (310) para la primera subbanda de frecuencia de las al menos dos señales de componentes de la escena de audio de menor dimensión, y donde el analizador espacial (200) está configurado para derivar los parámetros espaciales (330) de la escena de audio (110) que tiene una dimensión superior a la dimensión de la escena de audio de menor dimensión.

10. El codificador de escena de audio de una de las reivindicaciones anteriores, que está configurado para operar a diferentes tasas de bits, donde una frecuencia de límite predeterminada entre la primera subbanda de fre cuencia y la segunda subbanda de frecuencia depende de una tasa de bits seleccionada, y donde la frecuencia de límite predeterminada es más baja para una tasa de bits más baja, o donde la frecuencia de límite predeterminada es más alta para una tasa de bits mayor.

11. El codificador de escena de audio de una de las reivindicaciones anteriores, donde el analizador espacial (200) está configurado para calcular, para la segunda subbanda, como el uno o más parámetros espaciales (330), al menos uno de un parámetro direccional y un parámetro no direccional, tal como un parámetro de difusión.

12. El codificador de escena de audio de una de las reivindicaciones anteriores, donde el codificador central (160) comprende:

un conversor de tiempo-frecuencia (164) para convertir secuencias de marcos de tiempo que comprenden el marco de tiempo de las al menos dos señales de componentes en secuencias de marcos espectrales para las al menos dos señales de componentes,

un codificador espectral (160a) para cuantificar y codificar por entropía los valores espectrales de un marco de las secuencias de marcos espectrales dentro de una primera subbanda del marco espectral que corresponde a la primera subbanda de frecuencia; y

un codificador paramétrico (160b) para codificar paramétricamente valores espectrales del marco espectral dentro de una segunda subbanda del marco espectral que corresponde a la segunda subbanda de frecuencia, o donde el codificador central (160) comprende un codificador central de dominio de tiempo o de dominio de frecuencia de dominio de tiempo mixto (160) para realizar una operación de codificación de dominio de tiempo o de dominio de tiempo y dominio de frecuencia mixto de una parte de banda baja de un marco de tiempo, correspondiendo la parte de banda baja a la primera subbanda de frecuencia, o

donde el analizador espacial (200) está configurado para subdividir la segunda subbanda de frecuencia en bandas de análisis, donde un ancho de banda de una banda de análisis es mayor o igual a un ancho de banda asociado con dos valores espectrales adyacentes procesados por el codificador espectral dentro de la primera subbanda de frecuencia, o es inferior a un ancho de banda de una parte de banda baja que representa la primera subbanda de frecuencia, y donde el analizador espacial (200) está configurado para calcular al menos uno de un parámetro de dirección y un parámetro de difusión para cada banda de análisis de la segunda subbanda de frecuencia, o

donde el codificador central (160) y el analizador espacial (200) están configurados para usar un banco de filtros común (164) o bancos de filtros diferentes (164, 1000) que tienen características diferentes.

13. El codificador de escena de audio de la reivindicación 12,

donde el analizador espacial (200) está configurado para usar, con el fin de calcular el parámetro de dirección, una banda de análisis que es más pequeña que una banda de análisis utilizada para calcular el parámetro de difusión.

14. El codificador de escena de audio de una de las reivindicaciones anteriores,

donde el codificador central (160) comprende un codificador multicanal para generar una señal multicanal codifi cada para las al menos dos señales de componentes, o

donde el codificador central (160) comprende un codificador multicanal para generar dos o más señales multicanal codificadas, cuando un número de señales de componentes de las al menos dos señales de componentes es tres o más, o

donde la interfaz de salida (300) está configurada para no incluir ningún parámetro espacial (330) para la primera subbanda de frecuencia en la señal de escena de audio codificada (340), o para incluir un número menor de parámetros espaciales para la primera subbanda de frecuencia en la señal de escena de audio codificada (340) en comparación con una serie de parámetros espaciales (330) para la segunda subbanda de frecuencia.

15. Un decodificador de escena de audio, que comprende:

una interfaz de entrada (400) para recibir una señal de escena de audio codificada (340) que comprende una primera representación codificada (410) de una primera parte de al menos dos señales de componentes, una segunda representación codificada (420) de una segunda parte de las al menos dos señales de componentes, y uno o más parámetros espaciales (430) para la segunda parte de las al menos dos señales de componentes; un decodificador central (500) para decodificar la primera representación codificada (410) y la segunda represen tación codificada (420) para obtener una representación decodificada (810, 820) de las al menos dos señales de componentes que representan una escena de audio;

un analizador espacial (600) para analizar una parte (810) de la representación decodificada correspondiente a la primera parte de las al menos dos señales de componentes para derivar uno o más parámetros espaciales (840) para la primera parte de las al menos dos señales de componentes; y

un renderizador espacial (800) para renderizar espacialmente la representación decodificada (810, 820) utilizando el uno o más parámetros espaciales (840) para la primera parte y el uno o más parámetros espaciales (830) para la segunda parte como se incluye en la señal de escena de audio codificada (340).

16. El decodificador de escena de audio de la reivindicación 15, que comprende además:

un decodificador de parámetros espaciales (700) para decodificar el uno o más parámetros espaciales (430) para la segunda parte incluida en la señal de escena de audio codificada (340), y

donde el renderizador espacial (800) está configurado para usar una representación decodificada del uno o más parámetros espaciales (830) para renderizar la segunda parte de la representación decodificada de las al menos dos señales de componentes.

17. El decodificador de escena de audio de la reivindicación 15 o reivindicación 16, en el que el decodificador central (500) está configurado para proporcionar una secuencia de marcos decodificados, donde la primera parte es un primer marco de la secuencia de marcos decodificados y la segunda parte es un segundo marco de la secuencia de marcos decodificados, y donde el decodificador central (500) comprende además un sumador de superposición para sumar por superposición los marcos de tiempo decodificados subsiguientes para obtener la representación de codificada, o

donde el decodificador central (500) comprende un sistema basado en ACELP que funciona sin una operación de suma de superposición.

18. El decodificador de escena de audio de una de las reivindicaciones 15 a 17,

en el cual el decodificador central (500) está configurado para proporcionar una secuencia de marcos de tiempo decodificados,

donde la primera parte es una primera subbanda de un marco de tiempo de la secuencia de marcos de tiempo decodificados, y donde la segunda parte es una segunda subbanda del marco de tiempo de la secuencia de marcos de tiempo decodificados,

donde el analizador espacial (600) está configurado para proporcionar uno o más parámetros espaciales (840) para la primera subbanda,

donde el renderizador espacial (800) está configurado:

para renderizar la primera subbanda utilizando la primera subbanda del marco de tiempo y

el uno o más parámetros espaciales (840) para la primera subbanda, y

para renderizar la segunda subbanda utilizando la segunda subbanda del marco de tiempo y el uno o más parámetros espaciales (830) para la segunda subbanda.

19. El decodificador de escena de audio de la reivindicación 18,

donde el renderizador espacial (800) comprende un combinador para combinar una primera subbanda renderizada y una segunda subbanda renderizada para obtener un marco de tiempo de una señal renderizada.

20. El decodificador de escena de audio de una de las reivindicaciones 15 a 19,

donde el renderizador espacial (800) está configurado para proporcionar una señal renderizada para cada altavoz de una configuración de altavoces o para cada componente de un formato Ambisonics de primer orden o de orden supe rior o para cada componente de un formato binaural.

21. El decodificador de escena de audio de una de las reivindicaciones 15 a 20, donde el renderizador espacial (800) comprende:

un procesador (870b) para generar, para cada componente de salida, una señal de componente de salida a partir de la representación decodificada;

un procesador de ganancia (872) para modificar la señal del componente de salida utilizando el uno o más pará metros espaciales (830, 840); o

un procesador ponderador / descorrelacionador (874) para generar una señal de componente de salida descorre lacionada utilizando el uno o más parámetros espaciales (830, 840), y

un combinador (876) para combinar la señal de componente de salida descorrelacionada y

la señal de componente de salida para obtener una señal de altavoz renderizada, o

donde el renderizador espacial (800) comprende:

un procesador de micrófono virtual (870a) para calcular, para cada altavoz de una configuración de altavoces, una señal de componente de altavoz de la representación decodificada;

un procesador de ganancia (872) para modificar la señal de componente de altavoz utilizando el uno o más parámetros espaciales (830, 840); o

un procesador ponderador / descorrelacionador (874) para generar una señal de componente de altavoz des correlacionada que utiliza el uno o más parámetros espaciales (830, 840), y

un combinador (876) para combinar la señal de componente de altavoz descorrelacionada y la señal de componente de altavoz para obtener una señal de altavoz renderizada.

22. El decodificador de escena de audio de una de las reivindicaciones 15 a 21, donde el renderizador espacial (800) está configurado para funcionar en forma de banda, donde la primera parte es una primera subbanda, donde la primera subbanda está subdividida en una pluralidad de primeras bandas, donde la segunda parte es una segunda subbanda, donde la segunda subbanda está subdividida en una pluralidad de segundas bandas, donde el renderizador espacial (800) está configurado para renderizar una señal de componente de salida para cada primera banda que utiliza un parámetro espacial correspondiente derivado por el analizador, y

donde el renderizador espacial (800) está configurado para renderizar una señal de componente de salida para cada segunda banda usando un parámetro espacial correspondiente incluido en la señal de escena de audio co dificada (340), donde una segunda banda de la pluralidad de segundas bandas es mayor que una primera banda de la pluralidad de primeras bandas, y

donde el renderizador espacial (800) está configurado para combinar (878) las señales de componente de salida para las primeras bandas y las segundas para obtener una señal de salida renderizada, siendo la señal de salida renderizada una señal de altavoz, una señal de formato A, una señal de formato B, una señal Ambisonics de primer orden, una señal Ambisonics de orden superior o una señal binaural.

23. El decodificador de escena de audio de una de las reivindicaciones 15 a 22,

donde el decodificador central (500) está configurado para generar, como la representación decodificada que repre senta la escena de audio, como primera señal de componente, una señal de audio omnidireccional y, como segunda señal de componente, al menos una señal de audio direccional, o donde la representación decodificada que representa la escena de audio comprende señales de componentes de formato B o señales de componentes Ambisonics de primer orden o señales de componentes Ambisonics de orden superior.

24. El decodificador de escena de audio de una de las reivindicaciones 15 a 23,

donde la señal de escena de audio codificada (340) no incluye ningún parámetro espacial para la primera parte de las al menos dos señales de componentes que son del mismo tipo que los parámetros espaciales (430) para la segunda parte incluida en la señal de escena de audio codificada (340).

25. El decodificador de escena de audio de acuerdo con una de las reivindicaciones 15 a 24, donde el decodificador central (500) está configurado para realizar una operación de decodificación paramétrica (510b) para la segunda parte y para realizar una operación de decodificación con preservación de forma de onda (510a) para la primera parte.

26. El decodificador de escena de audio de una de las reivindicaciones 15 a 25,

donde el decodificador central (500) está configurado para realizar un procesamiento paramétrico (510b) que utiliza un parámetro relacionado con la amplitud para ajustar la envolvente de la segunda subbanda posterior a la deco dificación por entropía del parámetro relacionado con la amplitud, y

donde el decodificador central (500) está configurado para decodificar por entropía (510a) líneas espectrales individuales en la primera subbanda.

27. El decodificador de escena de audio de una de las reivindicaciones 15 a 26,

donde el decodificador central (500) comprende, para decodificar (510b) la segunda representación codificada (420), un procesamiento de replicación de banda espectral (SBR), un procesamiento de llenado inteligente de huecos (IGF) o un procesamiento de llenado de ruido.

28. El decodificador de escena de audio según una de las reivindicaciones 15 a 27, donde la primera parte es una primera subbanda de un marco de tiempo y la segunda parte es una segunda subbanda del marco de tiempo, y donde el decodificador central (500) está configurado para usar una frecuencia de límite predeterminada entre la primera subbanda y la segunda subbanda.

29. El decodificador de escena de audio de cualquiera de las reivindicaciones 15 a 28, donde el decodifica dor de escena de audio está configurado para funcionar a diferentes tasas de bits, donde una frecuencia de límite predeterminada entre la primera parte y la segunda parte depende de una tasa de bits seleccionada, y donde la fre cuencia de límite predeterminada es menor para una tasa de bits inferior, o donde la frecuencia de límite predetermi nada es mayor para una tasa de bits superior.

30. El decodificador de escena de audio de una de las reivindicaciones 15 a 29, donde la primera parte es una primera subbanda de una parte de tiempo, y donde la segunda parte es una segunda subbanda de una parte de tiempo, y

donde el analizador espacial (600) está configurado para calcular, para la primera subbanda, como el uno o más parámetros espaciales (840), al menos uno de un parámetro de dirección y un parámetro de difusión.

31. El decodificador de escena de audio de una de las reivindicaciones 15 a 30,

donde la primera parte es una primera subbanda de un marco de tiempo, y donde la segunda parte es una segunda subbanda de un marco de tiempo,

donde el analizador espacial (600) está configurado para subdividir la primera subbanda en bandas de análisis, donde un ancho de banda de una banda de análisis es mayor o igual a un ancho de banda asociado con dos valores espectrales adyacentes generados por el decodificador central (500) para la primera subbanda, y donde el analizador espacial (600) está configurado para calcular al menos uno del parámetro de dirección y el parámetro de difusión para cada banda de análisis.

32. El decodificador de escena de audio de la reivindicación 31,

donde el analizador espacial (600) está configurado para usar, con el fin de calcular el parámetro de dirección, una banda de análisis que es más pequeña que una banda de análisis utilizada para calcular el parámetro de difusión.

33. El decodificador de escena de audio de una de las reivindicaciones 15 a 32,

donde el analizador espacial (600) está configurado para usar, con el fin de calcular el parámetro de dirección, una banda de análisis que tiene un primer ancho de banda, y

donde el renderizador espacial (800) está configurado para usar un parámetro espacial del uno o más parámetros espaciales (840) para la segunda parte de las al menos dos señales de componentes incluidas en la señal de escena de audio codificada (340) para renderizar una banda de renderización de la representación decodificada, donde la banda de renderización tiene un segundo ancho de banda, y

donde el segundo ancho de banda es mayor que el primer ancho de banda.

34. El decodificador de escena de audio de una de las reivindicaciones 15 a 33,

donde la señal de escena de audio codificada (340) comprende una señal multicanal codificada para las al menos dos señales de componentes o donde la señal de escena de audio codificada (340) comprende al menos dos señales multicanal codificadas para una cantidad de señales de componentes superior a 2, y

donde el decodificador central (500) comprende un decodificador multicanal para decodificar centralmente la señal multicanal codificada o las al menos dos señales multicanal codificadas.

35. Un procedimiento de codificación de una escena de audio (110), donde la escena de audio (110) com prende al menos dos señales de componentes, comprendiendo el procedimiento:

codificar centralmente las al menos dos señales de componentes, donde la codificación central comprende generar una primera representación codificada (310) para una primera parte de las al menos dos señales de componentes, y generar una segunda representación codificada (320) para una segunda parte de las al menos dos señales de componentes;

donde la codificación central comprende formar un marco de tiempo a partir de al menos dos señales de compo nentes, donde una primera subbanda de frecuencia del marco de tiempo de al menos dos señales componentes es la primera parte de al menos dos señales de componentes y una segunda subbanda de frecuencia del marco de tiempo es la segunda parte de las al menos dos señales de componentes, donde la primera subbanda de frecuencia está separada de la segunda subbanda de frecuencia por una frecuencia límite predeterminada, donde la codificación central comprende generar la primera representación codificada (310) para la primera sub banda de frecuencia que comprende M señales de componente, y generar la segunda representación codificada (320) para la segunda subbanda de frecuencia que comprende N señales de componente, donde M es mayor que N, y donde N es mayor o igual a 1;

analizar la escena de audio (110) que comprende las al menos dos señales de componentes para derivar uno o más parámetros espaciales (330) o uno o más conjuntos de parámetros espaciales para la segunda subbanda de frecuencia; y

formar la señal de escena de audio codificada, donde la señal de escena de audio codificada (340) comprende la primera representación codificada para la primera subbanda de frecuencia que comprende las M señales de com ponentes, la segunda representación codificada (320) para la segunda subbanda de frecuencia que comprende las N señales de componentes y el uno o

más parámetros espaciales (330) o el uno o más conjuntos de parámetros espaciales para la segunda subbanda de frecuencia.

36. Un procedimiento de decodificación de una escena de audio, que comprende:

recibir una señal de escena de audio codificada (340) que comprende una primera representación codificada (410) de una primera parte de al menos dos señales de componentes, una segunda representación codificada (420) de una segunda parte de las al menos dos señales de componentes, y uno o más parámetros espaciales (430) para la segunda parte de las al menos dos señales de componentes;

decodificar la primera representación codificada (410) y la segunda representación codificada (420) para obtener una representación decodificada de las al menos dos señales de componentes que representan la escena de audio;

analizar una parte de la representación decodificada correspondiente a la primera parte de las al menos dos seña les de componentes para derivar uno o más parámetros espaciales (840) para la primera parte de las al menos dos señales de componentes; y renderizar espacialmente la representación decodificada que utiliza el uno o más parámetros espaciales (840) para la primera parte y el uno o más parámetros espaciales (430) para la segunda parte, tal como se incluye en la señal de escena de audio codificada (340).

37. Programa informático para realizar, cuando se ejecuta en un ordenador o un procesador, el procedi miento de la reivindicación 35 o el procedimiento de la reivindicación 36.

38. Una señal de escena de audio codificada (340) que comprende:

una primera representación codificada para una primera subbanda de frecuencia de un marco de tiempo de al menos dos señales de componentes de una escena de audio (110);

donde la primera representación codificada (310) para la primera subbanda de frecuencia comprende M señales de componentes;

una segunda representación codificada (320) para una segunda subbanda de frecuencia de un marco de tiempo de las al menos dos señales de componentes la segunda representación codificada (320) para la segunda sub banda de frecuencia comprende N señales de componentes,

donde M es mayor que N, donde N es mayor o igual a 1, donde la primera subbanda de frecuencia está separada de la segunda subbanda de frecuencia por una frecuencia límite predeterminada; y

uno o más parámetros espaciales (330) o uno o más conjuntos de parámetros espaciales para la segunda sub banda de frecuencia.