ES3037774T3 - Quantizing spatial audio parameters - Google Patents
Quantizing spatial audio parametersInfo
- Publication number
- ES3037774T3 ES3037774T3 ES21866147T ES21866147T ES3037774T3 ES 3037774 T3 ES3037774 T3 ES 3037774T3 ES 21866147 T ES21866147 T ES 21866147T ES 21866147 T ES21866147 T ES 21866147T ES 3037774 T3 ES3037774 T3 ES 3037774T3
- Authority
- ES
- Spain
- Prior art keywords
- energy
- additional
- ratios
- direct
- total energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Se describe, entre otras cosas, un aparato para codificación de audio espacial configurado para convertir dos o más relaciones de energía asociadas con un mosaico de frecuencia de tiempo de una o más señales de audio en un parámetro de relación de energía adicional que está relacionado con las dos o más relaciones de energía; cuantificar el parámetro de relación de energía adicional utilizando un primer cuantificador; determinar un factor de distribución de relaciones de energía dependiente de una relación de una primera de las dos o más relaciones de energía con la suma de las dos o más relaciones de energía; seleccionar un cuantificador adicional de una pluralidad de cuantificadores adicionales utilizando el parámetro de relación de energía adicional cuantificado; y cuantificar el factor de distribución de relaciones de energía utilizando el cuantificador adicional seleccionado. (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCIÓN
Cuantificación de parámetros de audio espacial
Campo
La presente solicitud se refiere a aparatos y métodos para codificación de parámetros relacionados con el campo de sonido, pero no exclusivamente para parámetros relacionados con la dirección de dominio de tiempo-frecuencia que codifican un codificador y decodificador de audio.
Antecedentes
El procesamiento de audio espacial paramétrico es un campo de procesamiento de señales de audio donde el aspecto espacial del sonido se describe utilizando un conjunto de parámetros. Por ejemplo, en la captura de audio espacial paramétrica a partir de matrices de micrófonos, una elección típica y efectiva es estimar, a partir de las señales de matriz de micrófonos, un conjunto de parámetros tales como direcciones del sonido en bandas de frecuencia, y los coeficientes entre las partes direccionales y no direccionales del sonido capturado en las bandas de frecuencia. Se sabe que estos parámetros describen bien las propiedades espaciales perceptuales del sonido captado en la posición de la matriz de micrófonos. Estos parámetros pueden utilizarse en la síntesis del sonido espacial, por consiguiente, para auriculares de manera binaural, para altavoces o para otros formatos, tales como ambisónico.
Por lo tanto, las direcciones y las relaciones de energía directa con respecto a total en bandas de frecuencia son de este modo una parametrización que es particularmente eficaz para la captación de audio espacial.
También puede utilizarse un conjunto de parámetros que consiste en un parámetro de dirección en bandas de frecuencia y un parámetro de relación de energía en bandas de frecuencia (que indica la direccionalidad del sonido) como metadatos espaciales (que también pueden incluir otros parámetros tales como la coherencia envolvente, coherencia de propagación, número de direcciones, distancia, etc.) para un códec de audio. Por ejemplo, estos parámetros pueden estimarse a partir de señales de audio captadas en matriz de micrófonos y, por ejemplo, se puede generar una señal estéreo o mono a partir de las señales de matriz de micrófonos que se transportan con los metadatos espaciales. La señal estéreo podría codificarse, por ejemplo, con un codificador AAC y la señal mono podría codificarse con un codificador EVS. Un decodificador puede decodificar las señales de audio en señales de PCM, y procesar el sonido en bandas de frecuencia (usando los metadatos espaciales) para obtener la salida espacial, por ejemplo, una salida binaural.
La solución mencionada anteriormente es particularmente adecuada para codificar sonido espacial capturado a partir de matrices de micrófonos (por ejemplo, en teléfonos móviles, cámaras de RV, matrices de micrófono independientes). Sin embargo, puede ser deseable que dicho codificador tenga también otros tipos de entrada que las señales capturadas de matriz de micrófonos, por ejemplo, señales de altavoces, señales de objeto de audio o señales ambisónicas.
El análisis de entradas ambisónicas (FOA) de primer orden para la extracción de metadatos espaciales se ha documentado completamente en la literatura científica relacionada con la codificación de audio direccional (DirAC) y la expansión de onda de plano armónico (Harpex). Esto es dado que existen matrices de micrófono que proporcionan directamente una señal FOA (de forma más precisa: su variante, la señal de formato B) y el análisis de dicha entrada ha sido por lo tanto un punto de estudio en el campo. Además, el análisis de la entrada ambisónica de orden superior (HOA) para la extracción de metadatos espaciales multidireccionales también se ha documentado en la bibliografía científica relacionada con la codificación de audio direccional de orden superior (HO-DirAC).
Una entrada adicional para el codificador también es la entrada de altavoz multicanal, tal como las entradas envolventes de canales 5.1 o 7.1 y objetos de audio.
Sin embargo, con respecto a los componentes de los metadatos espaciales, la compresión y codificación de los parámetros de audio espacial (tal como las relaciones de energía directa con respecto a la energía total) tienen considerable interés para minimizar el número total de bits necesarios para representar los parámetros de audio espacial.
En el documento WO 2019/170955 A1 se propone codificar los parámetros ER (= “ relaciones de energía” ) utilizando un número fijo predefinido de bits o utilizando un número variable de bits en función del valor del parámetro ER. Esta solicitud de patente ejemplifica además el uso de un cuantificador de velocidad de bits variable que asigna palabras de código más cortas para los valores de los parámetros ER que representan valores relativamente altos del parámetro ER (p. ej., valores relativamente altos de la relación de energía directa a total) y asigna palabras de código más largas para aquellos valores de parámetros ER que representan valores relativamente bajos del parámetro ER (p. ej., valores relativamente bajos de la relación de energía directa a total) o que asigna palabras de código más cortas para aquellos valores de parámetros ER que se producen con más frecuencia y asigna durante más tiempo palabras de código más largas para aquellos valores de parámetros de ER que se producen con menos frecuencia utilizando una tabla de cuantificación de ER que mapea una pluralidad de entradas de tabla, cada una de las cuales almacena un par de un valor de parámetro de ER cuantificado y una palabra de código (p. ej., un patrón de bits) asignada al mismo. Se propone de otro modo en el documento Wo 2020/070377 A1 aplicar una cuantificación escalar no uniforme utilizando 3 bits para cada subbanda para codificar relaciones de energía.
Resumen
Según un primer aspecto, existe un aparato para codificación de audio espacial que comprende medios para: convertir dos o más relaciones de energía asociadas con un mosaico de tiempo-frecuencia de una o más señales de audio en un parámetro de relación de energía adicional que está relacionado con las dos o más relaciones de energía; cuantificar el parámetro de relación de energía adicional utilizando un primer cuantificador; determinar un factor de distribución de relaciones de energía que depende de una relación de la primera de las dos o más relaciones de energía a la suma de las dos o más relaciones de energía; seleccionar un cuantificador adicional de una pluralidad de cuantificadores adicionales utilizando el parámetro de relación de energía adicional cuantificado; y cuantificar el factor de distribución de las relaciones de energía utilizando el cuantificador adicional seleccionado.
Las dos o más relaciones de energía pueden ser dos relaciones de energía directas con respecto a la energía total;El parámetro de relación de energía adicional puede ser una relación de energía difusa con respecto a energía total.
La relación de energía difusa con respecto a la energía total puede comprender una menos la suma de las dos relaciones de energía directa con respecto a la energía total.
El parámetro de relación de energía adicional puede ser la suma de las dos relaciones de energía directa a total.
El factor de distribución de las relaciones de energía puede comprender la relación de una primera de las dos relaciones de energía directa con respecto a la energía total a la suma de las dos relaciones de energía directa con respecto a la energía total.
Los medios para seleccionar un cuantificador adicional de una pluralidad de cuantificadores adicionales que utilizan el parámetro de relación de energía adicional cuantificado pueden comprender medios para: comparar el parámetro de relación de energía adicional cuantificado con un valor umbral; y seleccionar el cuantificador adicional de una pluralidad de cuantificadores adicionales basándose en la comparación.
Una primera de las dos relaciones de energía directa con respecto a la energía total puede estar asociada con una primera dirección de una onda de sonido y una segunda de las dos relaciones de energía directa con respecto a la energía total puede estar asociada con una segunda dirección de una onda de sonido, en donde el aparato puede comprender además medios de procedimiento para: determinar que una segunda de las dos relaciones de energía directa con respecto a la energía total es mayor que la primera de las dos relaciones de energía directa con respecto a la energía total; intercambiar la primera de las dos relaciones de energía directa con respecto a la energía total para asociarla con la segunda dirección; e intercambiar la segunda de las dos relaciones de energía directa con respecto a la energía total para asociarla con la primera dirección.
Un primer índice de dirección, una primera coherencia de propagación y una primera distancia asociada con el mosaico tiempo-frecuencia pueden estar asociados cada uno con una primera dirección de la onda de sonido, y un segundo índice de dirección, una segunda coherencia de propagación y una segunda distancia asociada con el mosaico de tiempo-frecuencia pueden asociarse cada uno con la segunda dirección de la onda de sonido, si se determina que la segunda de las dos relaciones de energía directa con respecto a la energía total es mayor que la primera de las dos relaciones de energía directa con respecto a la energía total, el aparato puede comprender además los medios para al menos uno de lo siguiente: intercambiar el primer índice de dirección para que se asocie con la segunda dirección e intercambiar el segundo índice de dirección para que se asocie con la primera dirección; intercambiar la primera distancia para asociarla con la segunda dirección e intercambiar la segunda distancia para asociarla con la primera dirección; e intercambiar la primera coherencia de propagación para que se asocie con la segunda dirección e intercambiar la segunda coherencia de propagación para que se asocie con la primera dirección.
Según un segundo aspecto, existe un método para la codificación de audio espacial, que comprende: convertir dos o más relaciones de energía asociadas con un mosaico de tiempo-frecuencia de una o más señales de audio en un parámetro de relación de energía adicional que está relacionado con las dos o más relaciones de energía; cuantificar el parámetro de relación de energía adicional utilizando un primer cuantificador; determinar un factor de distribución de relaciones de energía que depende de una relación de la primera de las dos o más relaciones de energía a la suma de las dos o más relaciones de energía; seleccionar un cuantificador adicional de una pluralidad de cuantificadores adicionales utilizando el parámetro de relación de energía adicional cuantificado; y cuantificar el factor de distribución de las relaciones de energía utilizando el cuantificador adicional seleccionado.
Las dos o más relaciones de energía pueden ser dos relaciones de energía directas con respecto a la energía total;El factor de distribución de las relaciones de energía puede comprender la relación de una primera de las dos relaciones de energía directa con respecto a la energía total a la suma de las dos relaciones de energía directa con respecto a la energía total.
La selección de un cuantificador adicional de una pluralidad de cuantificadores adicionales que utilizan el parámetro de relación de energía adicional cuantificado puede comprender comparar el parámetro de relación de energía adicional cuantificado con un valor umbral; y seleccionar el cuantificador adicional de una pluralidad de cuantificadores adicionales basándose en la comparación.
Una primera de las dos relaciones de energía directa con respecto a la energía total puede estar asociada a una primera dirección de una onda de sonido y una segunda de las dos relaciones de energía directa con respecto a la energía total puede estar asociada a una segunda dirección de una onda de sonido, en donde el método comprende además las etapas de procesamiento anteriores de: determinar que una segunda de las dos relaciones de energía directa con respecto a la energía total es mayor que la primera de las dos relaciones de energía directa con respecto a la energía total; intercambiar la primera de las dos relaciones de energía directa con respecto a la energía total para asociarla con la segunda dirección; e intercambiar la segunda de las dos relaciones de energía directa con respecto a la energía total para asociarla con la primera dirección.
Un primer índice de dirección, una primera coherencia de propagación y una primera distancia asociada al mosaico tiempo-frecuencia también pueden estar asociados cada uno a una primera dirección de la onda de sonido, y en donde un segundo índice de dirección, una segunda coherencia de propagación y una segunda distancia asociada al mosaico de tiempo-frecuencia también pueden estar asociados a la segunda dirección de la onda de sonido, en donde se determina que la segunda de las dos relaciones de energía directa con respecto a la energía total es mayor que la primera de las dos relaciones de energía directa con respecto a la energía total, el método puede comprender además al menos uno de los siguientes: intercambiar el primer índice de dirección para que se asocie con la segunda dirección e intercambiar el segundo índice de dirección para que se asocie con la primera dirección; intercambiar la primera distancia para asociarla con la segunda dirección e intercambiar la segunda distancia para asociarla con la primera dirección; e intercambiar la primera coherencia de propagación para que se asocie con la segunda dirección e intercambiar la segunda coherencia de propagación para que se asocie con la primera dirección.
Las realizaciones de la presente solicitud tienen como objetivo abordar problemas asociados con el estado de la técnica.
Resumen de las figuras
Para una mejor comprensión de la presente solicitud, ahora se hará referencia a modo de ejemplo a los dibujos adjuntos, en los que:
la figura 1 muestra esquemáticamente un sistema de aparato adecuado para implementar algunas realizaciones;
la figura 2 muestra esquemáticamente un sistema de códec de audio según algunas realizaciones;
la figura 3 muestra un diagrama de flujo de la operación del procesador de análisis como se muestra en la figura 2 según algunas realizaciones; y
la figura 4 muestra esquemáticamente un dispositivo de ejemplo adecuado para implementar el aparato mostrado.
Realizaciones de la solicitud
A continuación se describe con más detalle un aparato adecuado y mecanismos posibles para la provisión de parámetros de metadatos derivados de análisis espacial efectivos. En la siguiente discusión, el sistema multicanal se analiza con respecto a una implementación de micrófono multicanal. Sin embargo, como se ha analizado anteriormente, el formato de entrada puede ser cualquier formato de entrada adecuado, tal como un altavoz multicanal, ambisónico (FOA/HOA), etc. Además, la salida del sistema de ejemplo es una disposición de altavoces multicanal. Sin embargo, se entiende que la salida puede hacerse al usuario mediante medios que no sean altavoces. Además, las señales de altavoces multicanal pueden generalizarse para ser dos o más señales de audio de reproducción. Un sistema de este tipo está siendo estandarizado actualmente por el organismo de estandarización del 3GPP como el Servicio Inmersivo de Voz y Audio (IVAS). El IVAS pretende ser una extensión del códec del Servicio de Voz Mejorado (EVS) de 3GPP existente para facilitar los servicios de voz y audio inmersivos a través de redes móviles (celulares) y de línea fija existentes y futuras. Una aplicación de IVAS puede ser el suministro de servicios de voz y audio inmersivos a través de redes de 3GPP de cuarta generación (4G) y de quinta generación (5G). Además, el códec de IVAS como una extensión a EVS se puede utilizar en aplicaciones de almacenamiento y reenvío en las que el contenido de audio y voz se codifica y almacena en un archivo para su reproducción. Se ha de apreciar que el IVAS se puede utilizar junto con otras tecnologías de codificación de audio y voz que tienen la funcionalidad de codificar las muestras de señales de audio y voz.
Los metadatos pueden consistir en al menos direcciones esféricas (elevación, acimut), al menos una relación de energía de una dirección resultante, una coherencia de propagación y una coherencia envolvente independiente de la dirección, para cada bloque o mosaico de tiempo-frecuencia (TF) considerado, en otras palabras, una subbanda de tiempo/frecuencia. En total, IVAS puede tener un número de tipos diferentes de parámetros de metadatos para cada mosaico de tiempo-frecuencia (TF). Los tipos de parámetros de audio espacial que pueden constituir los metadatos de IVAS se muestran en la Tabla 1 a continuación.
Estos datos pueden codificarse y transmitirse (o almacenarse) por el codificador para poder reconstruir la señal espacial en el decodificador.
Además, en algunos casos, el audio espacial asistido por metadatos (MASA) puede admitir hasta 2 direcciones para cada mosaico de TF, lo que requeriría que los parámetros anteriores se codificaran y transmitieran para cada dirección por mosaico de TF. De este modo, se duplica potencialmente la velocidad de bits requerida según la Tabla 1 a continuación.
Estos datos pueden codificarse y transmitirse (o almacenarse) por el codificador para poder reconstruir la señal espacial en el decodificador.
La velocidad de bits asignada para los metadatos en un códec práctico de comunicaciones de audio inmersivo puede variar considerablemente. Las velocidades de bits operativas generales típicas del códec pueden dejar únicamente entre 2 y 10 kbps para la transmisión/almacenamiento de metadatos espaciales. Sin embargo, algunas implementaciones adicionales pueden permitir hasta 30 kbps o superior para la transmisión/almacenamiento de metadatos espaciales. La codificación de los parámetros de dirección y los componentes de relación de energía se ha examinado anteriormente junto con la codificación de los datos de coherencia. Sin embargo, sea cual sea la velocidad de bits de transmisión/almacenamiento asignada a los metadatos espaciales, siempre será necesario utilizar la menor cantidad de bits posible para representar estos parámetros, especialmente cuando un mosaico de TF puede soportar múltiples direcciones correspondientes a diferentes fuentes de sonido en la escena de audio espacial.
El concepto que se describe a continuación en la memoria es cuantificar la relación de energía directa a total para todas las direcciones en forma de relación de energía difusa con respecto a la energía total para el mosaico de TF y una relación basada en las relaciones de energía directa con respecto a la energía total.
En consecuencia, la invención parte de la consideración de que la velocidad de bits requerida para transmitir los datos de MASA (o los parámetros de audio espacial de metadatos espaciales) puede reducirse cuantificando, en una base de mosaico de TF, la relación de energía directa a total correspondiente a cada dirección utilizando la menor cantidad de bits posible para facilitar la transmisión y almacenamiento de la señal de audio codificada.
En este sentido, la figura 1 representa un aparato de ejemplo y sistema para implementar realizaciones de la solicitud. El sistema 100 se muestra con una parte 121 de “ análisis” y una parte 131 de “ síntesis” . La parte 121 de “ análisis” es la parte desde la recepción de las señales multicanal hasta la codificación de los metadatos y la señal de mezcla descendente; y la parte 131 de “ síntesis” es la parte desde una decodificación de los metadatos codificados y la señal de mezcla descendente a la presentación de la señal regenerada (por ejemplo, en forma de altavoces multicanal).
La entrada al sistema 100 y la parte 121 de análisis son las señales multicanal 102. En los siguientes ejemplos, se describe una entrada de señal de canal de micrófono, aunque puede implementarse cualquier formato de entrada (o multicanal sintético) adecuado en otras realizaciones. Por ejemplo, en algunas realizaciones, el analizador espacial y el análisis espacial pueden implementarse de forma externa al codificador. Por ejemplo, en algunas realizaciones, los metadatos espaciales asociados con las señales de audio pueden proporcionarse a un codificador como un flujo de bits separado. En algunas realizaciones, los metadatos espaciales pueden proporcionarse como un conjunto de valores de índice espacial (dirección). Estos son ejemplos de un formato de entrada de audio basado en metadatos.
Las señales multicanal se pasan a un mezclador de señales de transporte 103 y a un procesador 105 de análisis.
En algunas realizaciones, el generador 103 de señal de transporte está configurado para recibir las señales multicanal y generar una señal de transporte adecuada formada por un número determinado de canales y emitir las señales 104 de transporte. Por ejemplo, el generador 103 de señales de transporte puede configurarse para generar una mezcla de canales de audio 2 de las señales multicanal. El número determinado de canales puede ser cualquier número adecuado de canales. El generador de señales de transporte en algunas realizaciones está configurado para seleccionar o combinar de otro modo, por ejemplo, mediante técnicas de formación de haces las señales de audio de entrada al número determinado de canales y emitir estas como señales de transporte.
En algunas realizaciones, el mezclador de señales de transporte 103 es opcional y las señales multicanal se pasan sin procesar a un codificador 107 de la misma manera que la señal de transporte en este ejemplo.
En algunas realizaciones, el procesador 105 de análisis también está configurado para recibir las señales multicanal y analizar las señales para producir metadatos 106 asociados con las señales multicanal y, por lo tanto, asociarse con las señales 104 de transporte.
El procesador 105 de análisis puede configurarse para generar los metadatos que pueden comprender, para cada intervalo de análisis de tiempo-frecuencia, los parámetros 108 de dirección y los parámetros 110 de relación de energía (que comprenden una relación de energía directa a total por dirección y una relación de energía difusa con respecto a la energía total) y un parámetro 112 de coherencia. La dirección, la relación de energía y los parámetros de coherencia pueden considerarse en algunas realizaciones como parámetros de audio espacial. En otras palabras, los parámetros de audio espacial comprenden parámetros que tienen como objetivo caracterizar el campo de sonido creado/capturado por las señales multicanal (o dos o más señales de audio en general).
En algunas realizaciones, los parámetros generados pueden diferir entre las bandas de frecuencia. Por lo tanto, por ejemplo, en la banda X todos los parámetros se generan y transmiten, mientras que en la banda Y solo se genera y transmite uno de los parámetros, y además en la banda Z no se generan o transmiten parámetros. Un ejemplo práctico de esto es que para algunas bandas de frecuencia, tales como la banda más alta, no se requieren algunos de los parámetros por motivos perceptuales. Las señales 104 de transporte y los metadatos 106 pueden pasarse a un codificador 107.
El codificador 107 puede comprender un núcleo de codificador de audio 109 que está configurado para recibir las señales de transporte (para un ejemplo de mezcla descendente) 104 y generar una codificación adecuada de estas señales de audio. En algunas realizaciones, el codificador 107 puede ser un ordenador (que ejecuta un software adecuado almacenado en la memoria y en al menos un procesador), o alternativamente un dispositivo específico que utiliza, por ejemplo, FPGAs o ASIC. La codificación puede implementarse utilizando cualquier esquema adecuado. El codificador 107 puede comprender además un codificador de metadatos o cuantificador 111 que está configurado para recibir los metadatos y emitir una forma codificada o comprimida de la información. En algunas realizaciones, el codificador 107 puede además intercalar, multiplexar a un flujo de datos individual o incorporar los metadatos dentro de las señales de mezcla descendente codificadas antes de la transmisión o el almacenamiento mostrado en la figura 1 por la línea discontinua. La multiplexación puede implementarse utilizando cualquier esquema adecuado.
En el lado del decodificador, los datos recibidos o recuperados (flujo) pueden ser recibidos por un decodificador/demultiplexor 133. El decodificador/demultiplexor 133 puede demultiplexar los flujos codificados y pasar la corriente codificada de audio a un extractor 135 de transporte que está configurado para decodificar las señales de audio para obtener las señales de transporte. De manera similar, el decodificador/demultiplexor 133 puede comprender un extractor 137 de metadatos que está configurado para recibir los metadatos codificados y generar metadatos. En algunas realizaciones, el decodificador/demultiplexor 133 puede ser un ordenador (que ejecuta un software adecuado almacenado en la memoria y en al menos un procesador), o alternativamente un dispositivo específico que utiliza, por ejemplo, FPGA o ASIC.
Las señales de audio de transporte y metadatos decodificados pueden pasarse a un procesador 139 de síntesis.
La parte 131 de “ síntesis” del sistema 100 muestra además un procesador 139 de síntesis configurado para recibir los datos de transporte y los metadatos, y para volver a crear en cualquier formato adecuado un audio espacial sintetizado en forma de señales multicanal 110 (que pueden estar en formato de altavoces multicanal o, en algunas realizaciones, en cualquier formato de salida adecuado tales como señales binaural o ambisónica, dependiendo del caso de uso) en función de las señales de transporte y los metadatos.
Por lo tanto, en resumen, el sistema (parte de análisis) está configurado para recibir señales de audio multicanal.
A continuación, el sistema (parte de análisis) está configurado para generar una señal de audio de transporte adecuada (por ejemplo, seleccionando o mezclando de manera descendente algunos de los canales de señal de audio) y los parámetros de audio espacial como metadatos.
El sistema se configura después para codificar para su almacenamiento/transmisión la señal de transporte y los metadatos.
Después de esto, el sistema puede almacenar/transmitir la señal de transporte y metadatos codificados.
El sistema puede recuperar/recibir la señal de transporte y metadatos codificados.
A continuación, el sistema se configura para extraer la señal de transporte y los metadatos de la señal de transporte y parámetros de metadatos, por ejemplo, demultiplexar y decodificar la señal de transporte codificada y los parámetros de metadatos.
El sistema (parte de síntesis) está configurado para sintetizar una señal de audio multicanal de salida basándose en señales de audio de transporte extraídas y en metadatos.
Con respecto a la figura 2, se describe con más detalle un procesador 105 de análisis de ejemplo y un codificador/cuantificador 111 de metadatos (como puede verse en la figura 1) según algunas realizaciones más detalladas.
Las figuras 1 y 2 representan el codificador/cuantificador de metadatos 111 y el procesador de análisis 105 acoplados entre sí. Sin embargo, debe apreciarse que algunas realizaciones pueden no acoplar tan estrechamente estas dos entidades de procesamiento respectivas de tal modo que el procesador 105 de análisis pueda existir en un dispositivo diferente del codificador/cuantificador 111 de metadatos. En consecuencia, a un dispositivo que comprende el codificador/cuantificador de metadatos 111 se le pueden presentar las señales de transporte y los flujos de metadatos para su procesamiento y codificación independientemente del proceso de captura y análisis.
El procesador 105 de análisis en algunas realizaciones comprende un transformador 201 de dominio de tiempofrecuencia.
En algunas realizaciones, el transformador 201 de dominio de tiempo-frecuencia está configurado para recibir las señales multicanal 102 y aplicar una transformación de dominio de tiempo a frecuencia adecuada tal como una Transformación de Fourier de Tiempo Corto (STFT) para convertir las señales de dominio del tiempo de entrada en una señal de tiempo-frecuencia adecuada. Estas señales de tiempo-frecuencia pueden pasar a un analizador espacial 203.
Por lo tanto, por ejemplo, las señales 202 de tiempo-frecuencia pueden representarse en la representación del dominio de tiempo-frecuencia por i(b, n), donde b es el índice de intervalo de frecuencia y n es el índice de bloque (trama) de tiempo-frecuencia e i es el índice de canal. En otra expresión, n puede considerarse un índice de tiempo con una tasa de muestreo más baja que la de las señales originales del dominio del tiempo. Estos segmentos de frecuencia pueden agruparse en subbandas que forman uno o más de los segmentos en una subbanda de un índice de banda K = 0,..., K-1. Cada subbanda k tiene un segmento b k,bajo más bajo y un segmento bk,alto más alto, y la subbanda contiene todos los segmentos desde bk,bajo a bk,alto. Las anchuras de las subbandas pueden aproximarse a cualquier distribución adecuada. Por ejemplo, la escala de ancho de banda rectangular equivalente (ERB) o la escala Bark.
Un mosaico (o bloque) de frecuencia de tiempo (TF) es, por lo tanto, una subbanda específica dentro de una subtrama de la trama.
Se puede apreciar que el número de bits requerido para representar los parámetros de audio espacial puede depender, al menos en parte, de la resolución de los mosaicos de tiempo-frecuencia (TF) (es decir, del número de subtramas o mosaicos de TF). Por ejemplo, una trama de audio de 20 ms puede dividirse en 4 subtramas en el dominio del tiempo de 5 ms por pieza y cada subtrama en el dominio del tiempo puede tener hasta 24 subbandas de frecuencia divididas en el dominio de la frecuencia según una escala Bark, una aproximación de la misma o cualquier otra división adecuada. En este ejemplo particular, la trama de audio puede dividirse en 96 subtramas/mosaicos de TF; dicho de otro modo, 4 subtramas en el dominio del tiempo con 24 subbandas de frecuencia. Por lo tanto, la cantidad de bits requerida para representar los parámetros de audio espacial para una trama de audio puede depender de la resolución del mosaico TF. Por ejemplo, si cada mosaico de TF se codificara según la distribución de la T abla 1 anterior, entonces cada mosaico de TF requeriría 64 bits (para una dirección de fuente de sonido por mosaico de TF) y 104 bits (para dos direcciones de fuente de sonido por mosaico de TF, teniendo en cuenta los parámetros que son independientes de la dirección de la fuente de sonido).
En realizaciones, el procesador 105 de análisis puede comprender un analizador espacial 203. El analizador espacial 203 puede configurarse para recibir las señales 202 de tiempo-frecuencia y basándose en estas señales estima los parámetros 108 de dirección. Los parámetros de dirección se pueden determinar basándose en cualquier determinación de “dirección” basada en audio.
Por ejemplo, en algunas realizaciones, el analizador espacial 203 está configurado para estimar la dirección de una fuente de sonido con dos o más entradas de señal.
El analizador espacial 203 puede configurarse por lo tanto para proporcionar al menos un acimut y una elevación para cada banda de frecuencia y bloque de tiempo-frecuencia temporal dentro de una trama de una señal de audio, indicado como acimut<p(k,n), y elevaciónG(k, n).Los parámetros 108 de dirección para la subtrama de tiempo también pueden pasarse al codificador 207 de conjunto de parámetros espaciales.
El analizador espacial 203 también puede configurarse para determinar parámetros 110 de relación de energía. Se puede considerar que la relación de energía es una determinación de la energía de la señal de audio que puede considerarse que llega desde una dirección. La relación entre energía directa y totalr(k,n)puede estimarse, p. ej., utilizando una medida de estabilidad de la estimación direccional, o utilizando cualquier medida de correlación, o cualquier otro método adecuado para obtener un parámetro de relación. Cada relación entre energía directa y total corresponde a una dirección espacial específica y describe qué cantidad de energía proviene de la dirección espacial específica en comparación con la energía total. Este valor también puede representarse para cada panel de tiempofrecuencia por separado. Los parámetros de dirección espacial y la relación entre energía directa y total describen qué parte de la energía total de cada panel de tiempo-frecuencia proviene de la dirección específica. En general, un parámetro de dirección espacial también se puede considerar como la dirección de llegada (DOA).
En algunas realizaciones, el parámetro de relación de energía directa a total se puede estimar basándose en el parámetro de correlación cruzada normalizadocor’(k,n)entre un par de micrófonos en la banda k, estando el valor del parámetro de correlación cruzada entre -1 y 1. El parámetro de relación de energía directa a totalr(k, n)puede determinarse comparando el parámetro de correlación cruzada normalizado a un parámetro de correlación cruzada r<7>_ c o r ' ( k , n ) —cor'D{k,n)
normalizado de campo difuso<COT>^<n>(k, n) como K ><fLJ 1 -co rU k .n )>. La relación entre energía directa y total se explica con más detalle en la publicación PCT WO2017/005978.
La relación de energía puede pasarse al codificador 207 de conjunto de parámetros espaciales.
El analizador espacial 203 puede configurarse además para determinar un número de parámetros de coherencia 112 que pueden incluircoherencia circundante (Y(k, n)ycoherencia extendida (Z(k, n)),ambas analizadas en el dominio de tiempo-frecuencia.
El término fuente de audio puede referirse a las direcciones dominantes de la onda de sonido que se propaga, que pueden abarcar la dirección real de la fuente de sonido.
Por lo tanto, para cada subbanda k habrá una recopilación (o conjunto) de parámetros de audio espacial asociados con la subbanda y la subtrama n. En este caso, cada subbanda k y subtrama n (en otras palabras, un mosaico de TF) puede tener los siguientes parámetros de audio espacial asociados a ella en una base de dirección de la fuente de audio; al menos un acimut y elevación indicados como acimut0(k,n),y elevaciónG(k, n),y unacoherencia de propagación (Z(k, n)y un parámetro de relación de energía directa a totalr(k,n).Obviamente, si hay más de una dirección por mosaico de TF, entonces el mosaico de TF puede tener cada uno de los parámetros enumerados anteriormente asociados a cada dirección de fuente de sonido. De forma adicional, la colección de parámetros de audio espacial también puede comprender unacoherencia envolvente (Y(k, n)).Los parámetros también pueden comprender una relación de energía difusa con respecto a la energía totalrd¡f(k, n).
En realizaciones, la relación de energía difusa con respecto a la energía totalrdif¡(k, n)es la relación de energía de sonido no direccional sobre direcciones envolventes y hay típicamente una relación de energía difusa con respecto a la energía total única (así comocoherencia de envolvente(Y(k, n)) por mosaico de TF. La relación de energía difusa con respecto a la energía total puede considerarse como la relación de energía restante una vez que las relaciones de energía directa con respecto a la energía total (para cada dirección) se han restado de una. De ahora en adelante, los parámetros anteriores pueden denominarse conjunto de parámetros de audio espacial (o conjunto de parámetros de audio espacial) para un mosaico de TF particular.
En realizaciones, el codificador 207 de conjunto de parámetros espaciales puede disponerse para cuantificar los parámetros 110 de relación de energía además de los parámetros 108 de dirección y los parámetros 112 de coherencia. Los parámetros 110 de relación de energía que comprenden los parámetros de relación de energía directa a totalr(k,n)para cada dirección pueden cuantificarse basándose en la relación de energía difusa con respecto a la energía totalrdi¡¡(k, n)y un parámetro adicional. El parámetro adicional puede comprender una relación de los parámetros de relación de energía directa a total a la suma de las relaciones de energía directa con respecto a la energía total en todas las direcciones, el parámetro adicional puede denominarsedr(k, n).
En algunas realizaciones alternativas, la suma de las relaciones de energía directa con respecto a la energía total se puede cuantificar en lugar de la relación de energía difusa con respecto a la energía totalrdi¡¡(k,n), donde la suma de las relaciones de energía directa con respecto a la energía total se puede expresar como:
Para mosaicos de TF que tienen asignadas dos direcciones de fuente de audio, el parámetro de relación de energía directa a total de la primera dirección n(k, n) y el parámetro de relación de energía directa a total de la segunda direcciónr2(k,n) para el mosaico de TF(k,n) se pueden cuantificar en forma de relación de energía difusa con respecto a la energía totalrd¡f¡(k, n)ydr(k, n)para el mosaico de TF.
En realizaciones, el primer parámetro de relación de energía directa a total n(k, n) y el segundo parámetro de relación de energía directa a totalr2(k, n)se pueden cuantificar determinando la relación de energía difusa con respecto a la energía totalrd¡¡¡(k, n)como
rd¡f¡(k,n)= 1 -ri(k,n) -r<2>(k,n)
En algunas realizaciones alternativas, la relación de energía difusa con respecto a la energía totalrdiff(k, n)puede proporcionarse como parte de los metadatos de entrada de MASA, en lugar de calcularse sobre la marcha como se ha señalado anteriormente. En este caso, el codificador 207 de conjunto de parámetros espaciales puede obtener un parámetro de relación de energía adicional (o relación de energía difusa con respecto a la energía total) asociado con dos o más relaciones de energía de un mosaico de tiempo-frecuencia.
La etapa de determinar la relación de energía difusa con respecto a la energía totalrdif¡(k,n) se muestra como la etapa 301 de procesamiento en la Figura 3.
El valor derdiff(k,n) a continuación puede cuantificarse escalarmente para darrdiff(k, n).En realizaciones, esto se puede realizar utilizando un cuantificador escalar no uniforme.
La etapa de cuantificación derdiff(k, n)se muestra como la etapa 305 de procesamiento en la Figura 3.
En algunas realizaciones, el valor del parámetro de relación de energía difusa con respecto a la energía totalrdiff(k, n)se puede utilizar para determinar el tamaño del cuantificador a utilizar posteriormente en el proceso. Por ejemplo, sirdif¡(k, n)está por encima de un valor de selección, entonces se puede seleccionar un primer cuantificador dimensionado; sin embargo, sirdiff(k,n) es menor que el valor de selección, entonces se puede seleccionar un segundo cuantificador dimensionado. En algunas realizaciones, esta etapa puede escribirse como
Sirdn^kn)>Nq
a. Quant_size = Q<1>(número de bits, valor 1)
De lo contrario
b. Quant_size = Q<2>(número de bits, valor 2)
Finalizar si
En otras palabras sirdiff(k, n)> Nq,(dondeNqes el valor de selección) entonces se selecciona el tamaño de cuantificador Q<1>, de cualquier otro modo se selecciona el tamaño de cuantificador Q<2>. Q<1>y Q<2>pueden expresar el tamaño de cuantificador en términos del número de bits.
En realizaciones, se encuentra queNqradica entre los valores de 0 y 1. Por ejemplo, se encontró que un punto de operación paraN qera 0,6.
En un ejemplo particular de una realización, la etapa anterior puede tener los siguientes valores numéricos:
SIrdm(k,rí)> 0,6
a. Quant_size = 2 (número de bits, valor 1)
De lo contrario
b. Quant_size = 3 (número de bits, valor 2)
Finalizar si
En algunas realizaciones, el parámetro de relación de energía difusa con respecto a la energía total cuantificadordiff(k, n) puede utilizarse en la etapa de procesamiento anterior. Esto puede tener la ventaja de que no se requiere señalizar el tamaño de cuantificador (Quant_size) como parte del flujo de bits. En su lugar, el tamaño de cuantificador puede determinarse en el descodificador inspeccionando el valor derdiff(k, n).
La etapa de determinación del tamaño del cuantificador utilizandordrnse muestra como la etapa 303 de procesamiento en la Figura 3.
Las realizaciones pueden después determinar la relación del parámetro de primera relación de energía directa a total a la suma del primer y segundo parámetros de relación de energía directa a total, en otras palabras, un factor de distribución de relaciones de energía.
Este factor de distribución de realizaciones de energía se puede expresar como
La etapa de determinación de la relacióndranterior se representa como la etapa 307 de procesamiento en la Figura 3.
Para el caso de tres parámetros de relación de energía directa a total por mosaico de TF, la relación de energía difusa con respecto a la energía totalrdiff(k, n)puede expresarse como
rdiff (k, n)= 1 - (ri(k,n) r<2>(k,n) r3(k,n))
y el factor de distribución de las relaciones de energía puede darse como
Naturalmente, el esquema anterior se puede extender a un número general de parámetros de relación de energía directa a total por mosaico de TF.
El valor de la relacióndr(k, n)ahora se puede cuantificar utilizando un cuantificador escalar. En realizaciones, uno de un número de cuantificadores puede seleccionarse para cuantificardr(k, n).Como se ha mencionado anteriormente, el cuantificador utilizado para cuantificar la relacióndrpuede seleccionarse basándose en los resultados de la etapa 303 de procesamiento anterior. En otras palabras, la etapa 303 de procesamiento puede utilizarse para determinar el
tamaño del cuantificador escalar utilizado para cuantificardí[k,ri)para dard r (k ,n )
La etapa de procesamiento de selección del cuantificador para cuantificardr(k, n)se muestra como la etapa 309 en la Figura 3.
En algunas realizaciones,dr[k, rí)se puede cuantificar utilizando un cuantificador seleccionado de un número de
cuantificadores escalares uniformes. En el ejemplo anterior,drse puede cuantificard r ( k , r i)utilizando uno de los dos cuantificadores escalares uniformes, tal como se indica mediante Quant_size bits. Tomando el ejemplo particular anterior de una realización, se puede utilizar un cuantificador escalar de 2 bits o de 3 bits para cuantificardr(k, n).
La etapa de procesamiento de cuantificacióndr(k, n)se muestra como la etapa 311 en la Figura 3.
Los índices correspondientes a los dos parámetros cuantificadosdr(k, n)yfdm(k, n)pueden codificarse utilizando un esquema de codificación de velocidad fija o variable.
Alternativamente, los índices correspondientes a los dos parámetros cuantificadosd r (k , r í )yrd¡f^ k, rí)pueden codificarse conjuntamente formando un índice maestro y a continuación utilizar la codificación por entropía (tal como la codificación de Golomb Rice o Huffman) para codificar el índice maestro.
En algunas realizaciones, la cuantificación anterior de los parámetros de relación de energía directa a total puede comprender una etapa de preprocesamiento adicional en la que, para cada mosaico de TF, se comprueba si realmente hay dos relaciones de energía directa con respecto a la energía total n(k, n),r2(k, n)(asociadas con la primera y la segunda dirección). La presencia de una segunda relación de energía directa a total indicaría que el mosaico de TF (k, n) tiene al menos dos direcciones concurrentes.
Si se determina que el mosaico de TF tiene dos direcciones concurrentes, los parámetros de audio espacial asociados con cada una de las dos direcciones pueden intercambiarse si la relación de energía directa a total n(k, n) de la primera dirección es menor que la relación de energía directa a totalr2(k,n) de la segunda dirección. En algunos ejemplos, los parámetros de audio espacial asociados con una dirección de audio particular pueden comprender los parámetros (de la Tabla 1 anterior); índice de dirección, relación de energía directa a total, coherencia de propagación y distancia. En otras palabras, la etapa de preprocesamiento puede tener la siguiente forma.
1. Comprobar que en un mosaico de TF haya dos direcciones concurrentes, es decir, comprobar si hay una segunda relación de energía directa a total,r2(k, n).
2. Si están presentes direcciones concurrentes, a continuación comprobar si n(k,n)< r2(k, n).
3. Si n(k,n)< r2(k, n)entonces intercambiar parámetros de audio espacial asociados con la primera dirección con los parámetros de audio espacial asociados con la segunda dirección. Por lo tanto, esta etapa puede comprender intercambiar al menos uno de los valores de índice de dirección, relación de energía directa a total n(k, n), coherencia de propagación (Z1(k, n) y distancia asociada con la primera dirección del mosaico de TF, con los valores de índice de dirección, relación de energía directa a totalr2(k,n), coherencia de propagaciónfák , n)y distancia asociada con la segunda dirección del mosaico de TF.
El procedimiento anterior ordena eficazmente las direcciones de tal modo que la dirección con la relación de energía directa a total mayor sea siempre la primera dirección, y la dirección con la relación de energía directa a total menor sea siempre la segunda dirección.
La etapa de preprocesamiento anterior puede tener la ventaja de permitir cuantificadores más eficientes, de modo quedrsiempre esté entre 0,5 y 1 (en comparación con tener los valores entre 0 y 1 en caso de que no se realice el mecanismo de intercambio anterior). Por lo tanto, se puede obtener la misma precisión con aproximadamente la mitad del número de palabras de código.
Cualquier procesamiento adicional llevado a cabo por el codificador 207 de conjunto de parámetros espaciales puede utilizar las relaciones de energía directa con respecto a la energía total cuantif¡cadas obtenidas a partir defdmyd r.
El esquema de cuantificación anterior se ha descrito en términos de relaciones de energía para un mosaico de TF. Sin embargo, el experto en la técnica apreciará que lo anterior podría aplicarse igualmente a otros parámetros que cuantifican una señal, tales como las relaciones de magnitud, las relaciones de amplitud y las relaciones de potencia.
El codificador/cuantificador 111 de metadatos puede comprender un codificador de dirección. El codificador de dirección está configurado para recibir los parámetros de dirección (tales como el acimut 0 y la elevación 0) (y en algunas realizaciones una asignación de bits esperada), y generar a partir de esto una salida codificada adecuada. En algunas realizaciones, la codificación se basa en una disposición de esferas que forman una retícula esférica dispuesta en anillos en una esfera de “ superficie” que se define por una tabla de consulta definida por la resolución de cuantificación determinada. En otras palabras, la retícula esférica utiliza la idea de cubrir una esfera con esferas más pequeñas y considerar los centros de las esferas más pequeñas como puntos que definen una retícula de direcciones casi equidistantes. Por lo tanto, las esferas más pequeñas definen conos o ángulos sólidos alrededor del punto central que pueden indexarse según cualquier algoritmo de indexación adecuado. Aunque la cuantificación esférica se describe aquí cualquier cuantificación adecuada, lineal o no lineal.
Similarmente, el codificador/cuantificador 111 de metadatos también puede comprender un codificador de coherencia que está configurado para recibir los valores de coherencia envolvente<y>y los valores de coherencia de propagación Z y determinar una codificación adecuada para comprimir los valores de coherencia de envolvente y de propagación.
La dirección codificada, las proporciones de energía y los valores de coherencia pueden pasarse a un combinador. El combinador puede estar configurado para recibir los parámetros direccionales codificados (o cuantificados/comprimidos), parámetros de relación de energía y parámetros de coherencia y combinar estos para generar una salida adecuada (por ejemplo, un flujo de bits de metadatos que puede combinarse con la señal de transporte o transmitirse o almacenarse por separado desde la señal de transporte).
En algunas realizaciones, el flujo de datos codificado se pasa al decodificador/demultiplexor 133. El decodificador/demultiplexor 133 demultiplexa los conjuntos de parámetros de audio espacial cuantificados codificados para la trama y los pasa al extractor 137 de metadatos y, además, el decodificador/demultiplexor 133 puede extraer, en algunas realizaciones, las señales de audio de transporte al extractor de transporte para su decodificación y extracción.
dr(k,n)
En realizaciones, el extractor 137 de metadatos puede disponerse para extraer los índices de yfditik, n)para cada mosaico de TF.
El índice asociado confdín
(k, n)se puede leer para dar el valor cuantificado correspondiente.
El valor defd¡ff(k, n)se puede utilizar después para determinar el cuantificador particular (o tabla de cuantificación) (a partir de una pluralidad de cuantificadores) que se puede utilizar en el decodificador para descuantificar el valor dedr(k, n).En otras palabras,fd¡fi(k, n)se utiliza para seleccionar la tabla de cuantificación (de una pluralidad de tablas :dr(k, ri)
de cuantificación) en el decodificador. El valor de puede leerse después de la tabla de cuantificación
seleccionada utilizando el índice asociado conu n ' .Los valores de las relaciones de energía directa con respecto a la energía total pueden determinarse después utilizando el proceso inverso al aplicado en el codificador. A partir del ejemplo anterior los valores cuantificados de n(k, n),r2(k, n)pueden obtenerse como:
ñ ik .n ) = d r ( k , n ) ( l - r diff (k,n))
y
r2 (k, n)= (1 -fdm (k, n))- A(k, n)
Los parámetros de audio espacial decodificados pueden después formar la salida de metadatos decodificados del extractor 137 de metadatos y pasarse al procesador 139 de síntesis para formar las señales multicanal 110.
Con respecto a la Figura 4, se muestra un dispositivo electrónico de ejemplo que puede utilizarse como dispositivo de análisis o síntesis. El dispositivo puede ser cualquier dispositivo o aparato electrónico adecuado. Por ejemplo, en algunas realizaciones, el dispositivo 1400 es un dispositivo móvil, un equipo de usuario, un ordenador de tipo tableta, un ordenador, un aparato de reproducción de audio, etc.
En algunas realizaciones, el dispositivo 1400 comprende al menos un procesador o unidad 1407 de procesamiento central. El procesador 1407 puede estar configurado para ejecutar diversos códigos de programa tales como los métodos tales como los descritos en la presente memoria.
En algunas realizaciones, el dispositivo 1400 comprende una memoria 1411. En algunas realizaciones, el al menos un procesador 1407 está acoplado a la memoria 1411. La memoria 1411 puede ser cualquier medio de almacenamiento adecuado. En algunas realizaciones, la memoria 1411 comprende una sección de código de programa para almacenar códigos de programa que pueden implementarse en el procesador 1407. Además, en algunas realizaciones, la memoria 1411 puede comprender además una sección de datos almacenados para almacenar datos, por ejemplo datos que se han procesado o que van a procesarse según las realizaciones como se describe en la presente memoria. El código de programa implementado almacenado dentro de la sección de código de programa y los datos almacenados dentro de la sección de datos almacenados pueden recuperarse por el procesador 1407 siempre que sea necesario a través del acoplamiento de memoria-procesador.
En algunas realizaciones, el dispositivo 1400 comprende una interfaz 1405 de usuario. En algunas realizaciones, la interfaz 1405 de usuario puede estar acoplada al procesador 1407. En algunas realizaciones, el procesador 1407 puede controlar el funcionamiento de la interfaz 1405 de usuario y recibir entradas de la interfaz 1405 de usuario. En algunas realizaciones, la interfaz 1405 de usuario puede permitir que un usuario introduzca comandos al dispositivo 1400, por ejemplo, a través de un teclado. En algunas realizaciones, la interfaz 1405 de usuario puede permitir que el usuario obtenga información a partir del dispositivo 1400. Por ejemplo, la interfaz 1405 de usuario puede comprender un elemento de visualización configurado para visualizar información del dispositivo 1400 al usuario. En algunas realizaciones, la interfaz 1405 de usuario puede comprender una pantalla táctil o una interfaz táctil que puede tanto permitir introducir información al dispositivo 1400 como visualizar adicionalmente información al usuario del dispositivo 1400. En algunas realizaciones, la interfaz 1405 de usuario puede ser la interfaz de usuario para comunicarse con el determinador de posición como se describe en la presente memoria.
En algunas realizaciones, el dispositivo 1400 comprende un puerto 1409 de entrada/salida. En algunas realizaciones, el puerto 1409 de entrada/salida comprende un transceptor. En tales realizaciones, el transceptor puede estar acoplado al procesador 1407 y configurado para permitir una comunicación con otros aparatos o dispositivos electrónicos, por ejemplo, a través de una red de comunicación inalámbrica. En algunas realizaciones, el transceptor o cualquier transceptor o medios de transmisor y/o receptor adecuado puede estar configurado para comunicarse con otros dispositivos o aparatos electrónicos a través de un cable o acoplamiento por cable.
El transceptor puede comunicarse con un aparato adicional mediante cualquier protocolo de comunicaciones conocido adecuado. Por ejemplo, en algunas realizaciones, el transceptor puede utilizar un protocolo de universal mobile telecommunications system (sistema universal de telecomunicaciones móviles - UMTS), un protocolo de wireless local area network (red de área local inalámbrica - WLAN) tal como por ejemplo IEEE 802.X, un protocolo de comunicación de radiofrecuencia de corto alcance adecuado tal como Bluetooth, o infrared data communication pathway (ruta de comunicación de datos por infrarrojos - IRDA).
El puerto 1409 de entrada/salida del transceptor puede estar configurado para recibir las señales y, en algunas realizaciones, determinar los parámetros como se describe en la presente memoria mediante el uso del procesador 1407 que ejecuta un código adecuado. Además, el dispositivo puede generar una salida de señal de mezcla descendente y de parámetros adecuada que va a transmitirse al dispositivo de síntesis.
En algunas realizaciones, el dispositivo 1400 puede emplearse como al menos parte del dispositivo de síntesis. Como tal, el puerto 1409 de entrada/salida puede estar configurado para recibir las señales de mezcla descendente y, en algunas realizaciones, los parámetros determinados en el dispositivo de captación o dispositivo de procesamiento como se describe en la presente memoria, y generar una salida de formato de señal de audio adecuada mediante el uso del procesador 1407 que ejecuta un código adecuado. El puerto 1409 de entrada/salida puede acoplarse a cualquier salida de audio adecuada, por ejemplo, a un sistema de altavoces de múltiples canales y/o auriculares o similar.
En general, las diversas realizaciones de la invención pueden implementarse en hardware o circuitos de propósito especial, software, lógica o cualquier combinación de los mismos. Por ejemplo, algunos aspectos pueden implementarse en hardware, mientras que otros aspectos pueden implementarse en firmware o software que puede ejecutarse por un controlador, microprocesador u otro dispositivo informático, aunque la invención no se limita a los mismos. Aunque diversos aspectos de la invención pueden ilustrarse y describirse como diagramas de bloques, diagramas de flujo, o utilizando alguna otra representación gráfica, se entiende que estos bloques, aparatos, sistemas, técnicas o métodos descritos en la presente memoria pueden estar implementados, como ejemplos no limitativos, en hardware, software, firmware, circuitos o lógica de propósito especial, hardware de propósito general o controlador u otros dispositivos informáticos, o alguna combinación de los mismos.
Las realizaciones de esta invención pueden implementarse mediante software informático ejecutable por un procesador de datos del dispositivo móvil, tal como en la entidad de procesador, o mediante hardware, o mediante una combinación de software y hardware. Además, en este sentido, cabe señalar que cualesquiera bloques del flujo lógico como en las figuras puede representar etapas del programa, o circuitos lógicos interconectados, bloques y funciones, o una combinación de etapas de programa y circuitos lógicos, bloques y funciones. El software puede almacenarse en medios físicos tales como chips de memoria, o bloques de memoria implementados dentro del procesador, medios magnéticos tales como disco duro o disquetes, y medios ópticos tales como, por ejemplo, DVD y sus variantes de datos, CD.
La memoria puede ser de cualquier tipo adecuado para el entorno técnico local y puede implementarse utilizando cualquier tecnología de almacenamiento de datos adecuada, tal como dispositivos de memoria basados en semiconductores, dispositivos y sistemas de memoria magnéticos, dispositivos y sistemas de memoria ópticos, memoria fija y memoria extraíble. Los procesadores de datos pueden ser de cualquier tipo adecuado para el entorno técnico local, y pueden incluir uno o más de ordenadores de propósito general, ordenadores de propósito especial, microprocesadores, digital signal processors (procesadores de señales digitales - DSP), application specific integrated circuits (circuitos integrados específicos de aplicación - ASIC), circuitos de nivel de puerta y procesadores basados en arquitectura de procesador de múltiples núcleos, como ejemplos no limitativos.
Las realizaciones de las invenciones pueden ponerse en práctica en diversos componentes tales como módulos de circuito integrado. El diseño de circuitos integrados es, en gran medida, un proceso altamente automatizado. Hay herramientas de software complejas y potentes disponibles para convertir un diseño de nivel lógico en un diseño de circuito de semiconductores listo para grabarse y formarse en un sustrato semiconductor.
Los programas pueden enrutar conductores y ubicar componentes en un chip semiconductor, utilizando reglas de diseño bien establecidas, así como bibliotecas de módulos de diseño previamente almacenados. Una vez que se ha completado el diseño para un circuito de semiconductor, el diseño resultante, en un formato electrónico normalizado, puede transmitirse a una instalación de fabricación de semiconductores o “fáb.” para su fabricación.
La descripción anterior ha proporcionado, a modo de ejemplo y como ejemplos no limitativos, una descripción completa e informativa de la realización ilustrativa de esta invención. Sin embargo, diversas modificaciones y adaptaciones pueden resultar evidentes para los expertos en las técnicas relevantes a la vista de la descripción anterior, cuando se lee junto con los dibujos adjuntos y las reivindicaciones adjuntas.
Claims (15)
- REIVINDICACIONESi. Un aparato para codificación de audio espacial que comprende medios para:convertir dos o más relaciones de energía asociadas con un mosaico de tiempo-frecuencia de una o más señales de audio en un parámetro de relación de energía adicional que está relacionado con las dos o más relaciones de energía;cuantificar el parámetro de relación de energía adicional utilizando un primer cuantificador; determinar un factor de distribución de relaciones de energía que depende de una relación de la primera de las dos o más relaciones de energía a la suma de las dos o más relaciones de energía; seleccionar un cuantificador adicional de una pluralidad de cuantificadores adicionales utilizando el parámetro de relación de energía adicional cuantificado; ycuantificar el factor de distribución de las relaciones de energía utilizando el cuantificador adicional seleccionado.
- 2. El aparato según la reivindicación 1, en donde las dos o más relaciones de energía son dos relaciones de energía directa con respecto a la energía total.
- 3. El aparato según las reivindicaciones 1 y 2, en donde el parámetro de relación de energía adicional es una relación de energía difusa con respecto a la energía total.
- 4. El aparato según la reivindicación 3, en donde la relación de energía difusa con respecto a la energía total comprende uno menos la suma de las dos relaciones de energía directa con respecto a la energía total.
- 5. El aparato según la reivindicación 2, en donde el parámetro de relación de energía adicional es la suma de las dos relaciones de energía directa con respecto a la energía total.
- 6. El aparato según las reivindicaciones 2 a 5, en donde el factor de distribución de las relaciones de energía comprende la relación de una primera de las dos relaciones de energía directa con respecto a la energía total a la suma de las dos relaciones de energía directa con respecto a la energía total.
- 7. El aparato según las reivindicaciones 2 a 6, en donde los medios para seleccionar un cuantificador adicional de una pluralidad de cuantificadores adicionales utilizando el parámetro de relación de energía adicional cuantificado comprenden medios para:comparar el parámetro de relación de energía adicional cuantificado con un valor umbral; y seleccionar el cuantificador adicional de una pluralidad de cuantificadores adicionales basándose en la comparación.
- 8. El aparato según las reivindicaciones 2 a 7, en donde una primera de las dos relaciones de energía directa con respecto a la energía total está asociada con una primera dirección de una onda de sonido y una segunda de las dos relaciones de energía directa con respecto a la energía total está asociada con una segunda dirección de una onda de sonido, en donde el aparato comprende además medios para:determinar que una segunda de las dos relaciones de energía directa con respecto a la energía total es mayor que la primera de las dos relaciones de energía directa con respecto a la energía total; intercambiar la primera de las dos relaciones de energía directa con respecto a la energía total para asociarla con la segunda dirección; eintercambiar la segunda de las dos relaciones de energía directa con respecto a la energía total para asociarla con la primera dirección.
- 9. El aparato según la reivindicación 8, en donde un primer índice de dirección, una primera coherencia de propagación y una primera distancia asociada al mosaico de tiempo-frecuencia están asociados cada uno a una primera dirección de la onda de sonido, y en donde un segundo índice de dirección, una segunda coherencia de propagación y una segunda distancia asociada al mosaico de tiempo-frecuencia están asociados cada uno a la segunda dirección de la onda de sonido, en donde se determina que la segunda de las dos relaciones de energía directa con respecto a la energía total es mayor que la primera de las dos relaciones de energía directa con respecto a la energía total, el aparato comprende además los medios para al menos uno de los siguientes:intercambiar el primer índice de dirección para que se asocie con la segunda dirección e intercambiar el segundo índice de dirección para que se asocie con la primera dirección;intercambiar la primera distancia para asociarla con la segunda dirección e intercambiar la segunda distancia para asociarla con la primera dirección; eintercambiar la primera coherencia de propagación para que se asocie con la segunda dirección e intercambiar la segunda coherencia de propagación para que se asocie con la primera dirección.
- 10. Un método para la codificación de audio espacial, que comprende:convertir dos o más relaciones de energía asociadas con un mosaico de tiempo-frecuencia de una o más señales de audio en un parámetro de relación de energía adicional que está relacionado con las dos o más relaciones de energía;cuantificar el parámetro de relación de energía adicional utilizando un primer cuantificador; determinar un factor de distribución de relaciones de energía que depende de una relación de la primera de las dos o más relaciones de energía a la suma de las dos o más relaciones de energía; seleccionar un cuantificador adicional de una pluralidad de cuantificadores adicionales utilizando el parámetro de relación de energía adicional cuantificado; ycuantificar el factor de distribución de las relaciones de energía utilizando el cuantificador adicional seleccionado.
- 11. El método según la reivindicación 10, en donde las dos o más relaciones de energía son dos relaciones de energía directa con respecto a la energía total.
- 12. El método según la reivindicación 11, en donde el factor de distribución de las relaciones de energía comprende la relación de una primera de las dos relaciones de energía directa con respecto a la energía total a la suma de las dos relaciones de energía directa con respecto a la energía total.
- 13. El método según las reivindicaciones 11 a 12, en donde la selección de un cuantificador adicional de una pluralidad de cuantificadores adicionales utilizando el parámetro de relación de energía adicional cuantificado comprende:comparar el parámetro de relación de energía adicional cuantificado con un valor umbral; y seleccionar el cuantificador adicional de una pluralidad de cuantificadores adicionales basándose en la comparación.
- 14. El método según las reivindicaciones 11 a 13, en donde una primera de las dos relaciones de energía directa con respecto a la energía total está asociada con una primera dirección de una onda de sonido y una segunda de las dos relaciones de energía directa con respecto a la energía total está asociada con una segunda dirección de una onda de sonido, en donde el método comprende además:determinar que una segunda de las dos relaciones de energía directa con respecto a la energía total es mayor que la primera de las dos relaciones de energía directa con respecto a la energía total; intercambiar la primera de las dos relaciones de energía directa con respecto a la energía total para asociarla con la segunda dirección; eintercambiar la segunda de las dos relaciones de energía directa con respecto a la energía total para asociarla con la primera dirección.
- 15. El método según la reivindicación 14, en donde un primer índice de dirección, una primera coherencia de propagación y una primera distancia asociada al mosaico de tiempo-frecuencia están asociados cada uno a una primera dirección de la onda de sonido, y en donde un segundo índice de dirección, una segunda coherencia de propagación y una segunda distancia asociada al mosaico de tiempo-frecuencia están asociados cada uno a la segunda dirección de la onda de sonido, en donde se determina que la segunda de las dos relaciones de energía directa con respecto a la energía total es mayor que la primera de las dos relaciones de energía directa con respecto a la energía total, el método comprende además al menos uno de los siguientes:intercambiar el primer índice de dirección para que se asocie con la segunda dirección e intercambiar el segundo índice de dirección para que se asocie con la primera dirección;intercambiar la primera distancia para asociarla con la segunda dirección e intercambiar la segunda distancia para asociarla con la primera dirección; eintercambiar la primera coherencia de propagación para que se asocie con la segunda dirección e intercambiar la segunda coherencia de propagación para que se asocie con la primera dirección.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| GB2014392.1A GB2598773A (en) | 2020-09-14 | 2020-09-14 | Quantizing spatial audio parameters |
| PCT/FI2021/050557 WO2022053738A1 (en) | 2020-09-14 | 2021-08-19 | Quantizing spatial audio parameters |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES3037774T3 true ES3037774T3 (en) | 2025-10-07 |
Family
ID=73149732
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES21866147T Active ES3037774T3 (en) | 2020-09-14 | 2021-08-19 | Quantizing spatial audio parameters |
Country Status (8)
| Country | Link |
|---|---|
| US (1) | US20230335143A1 (es) |
| EP (1) | EP4211684B1 (es) |
| KR (1) | KR20230069173A (es) |
| CN (1) | CN116508098A (es) |
| ES (1) | ES3037774T3 (es) |
| GB (1) | GB2598773A (es) |
| PT (1) | PT4211684T (es) |
| WO (1) | WO2022053738A1 (es) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB2627482A (en) * | 2023-02-23 | 2024-08-28 | Nokia Technologies Oy | Diffuse-preserving merging of MASA and ISM metadata |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US1079851A (en) * | 1911-06-28 | 1913-11-25 | Bernhard Fried | Changeable sign. |
| RU2376655C2 (ru) * | 2005-04-19 | 2009-12-20 | Коудинг Текнолоджиз Аб | Зависящее от энергии квантование для эффективного кодирования пространственных параметров звука |
| CN101802907B (zh) * | 2007-09-19 | 2013-11-13 | 爱立信电话股份有限公司 | 多信道音频的联合增强 |
| US8352279B2 (en) * | 2008-09-06 | 2013-01-08 | Huawei Technologies Co., Ltd. | Efficient temporal envelope coding approach by prediction between low band signal and high band signal |
| GB201718341D0 (en) * | 2017-11-06 | 2017-12-20 | Nokia Technologies Oy | Determination of targeted spatial audio parameters and associated spatial audio playback |
| BR112020011026A2 (pt) * | 2017-11-17 | 2020-11-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | aparelho e método para codificar ou decodificar parâmetros de codificação de áudio direcional com o uso de quantização e codificação de entropia |
| EP3762923B1 (en) * | 2018-03-08 | 2024-07-10 | Nokia Technologies Oy | Audio coding |
| GB2572650A (en) * | 2018-04-06 | 2019-10-09 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
| GB2572761A (en) * | 2018-04-09 | 2019-10-16 | Nokia Technologies Oy | Quantization of spatial audio parameters |
| GB2575305A (en) * | 2018-07-05 | 2020-01-08 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
| GB2577698A (en) * | 2018-10-02 | 2020-04-08 | Nokia Technologies Oy | Selection of quantisation schemes for spatial audio parameter encoding |
-
2020
- 2020-09-14 GB GB2014392.1A patent/GB2598773A/en not_active Withdrawn
-
2021
- 2021-08-19 US US18/044,666 patent/US20230335143A1/en active Pending
- 2021-08-19 ES ES21866147T patent/ES3037774T3/es active Active
- 2021-08-19 PT PT218661478T patent/PT4211684T/pt unknown
- 2021-08-19 CN CN202180076948.3A patent/CN116508098A/zh active Pending
- 2021-08-19 KR KR1020237012556A patent/KR20230069173A/ko active Pending
- 2021-08-19 EP EP21866147.8A patent/EP4211684B1/en active Active
- 2021-08-19 WO PCT/FI2021/050557 patent/WO2022053738A1/en not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| GB202014392D0 (en) | 2020-10-28 |
| PT4211684T (pt) | 2025-08-08 |
| EP4211684A1 (en) | 2023-07-19 |
| US20230335143A1 (en) | 2023-10-19 |
| EP4211684B1 (en) | 2025-07-09 |
| CN116508098A (zh) | 2023-07-28 |
| GB2598773A (en) | 2022-03-16 |
| WO2022053738A1 (en) | 2022-03-17 |
| KR20230069173A (ko) | 2023-05-18 |
| EP4211684A4 (en) | 2024-08-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES3051717T3 (en) | Determination of spatial audio parameter encoding and associated decoding | |
| ES2968494T3 (es) | Determinación de codificación de parámetros de audio espacial y decodificación asociada | |
| ES3012258T3 (en) | Determination of the significance of spatial audio parameters and associated encoding | |
| JP7689196B2 (ja) | 空間音声ストリームの結合 | |
| WO2021130404A1 (en) | The merging of spatial audio parameters | |
| US12512104B2 (en) | Quantizing spatial audio parameters | |
| US11475904B2 (en) | Quantization of spatial audio parameters | |
| US20230178085A1 (en) | The reduction of spatial audio parameters | |
| ES3037774T3 (en) | Quantizing spatial audio parameters | |
| US12412585B2 (en) | Transforming spatial audio parameters |