ES2339888T3

ES2339888T3 - Codificacion y decodificacion de audio.

Info

Publication number: ES2339888T3
Application number: ES07705870T
Authority: ES
Inventors: Dirk J. Breebaart; Erik G. P. Schuijers; Arnoldus W. J. Oomen
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-02-21
Filing date: 2007-02-13
Publication date: 2010-05-26
Anticipated expiration: 2027-02-13
Also published as: PL1989920T3; BRPI0707969A2; US20090043591A1; US20200335115A1; US10741187B2; US20180151185A1; US12165656B2; JP5081838B2; DE602007004451D1; US20150213807A1; CN101390443B; KR101358700B1; EP1989920A1; ATE456261T1; TWI508578B; TW200738038A; JP2009527970A; WO2007096808A1; US9865270B2; EP1989920B1

Abstract

Codificador de audio que comprende: - medios (401) para recibir una señal de audio de canal M donde M>2; - medios (403) de mezclado descendente para mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados; - medios (407) de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural; - medios (411) para codificar la segunda señal estéreo para generar datos codificados; y - medios (413) de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.

Description

Codificación y decodificación de audio.

La invención se refiere a codificación y/o decodificación de audio y en particular, aunque no exclusivamente, a codificación y/o decodificación de audio que implica una señal espacial virtual binaural.

La codificación digital de diversas señales de fuente se ha vuelto más importante de manera creciente durante las últimas décadas ya que la representación y comunicación de señales digitales ha sustituido de manera creciente la representación y comunicación analógica. Por ejemplo, la distribución de contenido de medios, tal como vídeo y música, se basa cada vez más en codificación de contenido digital.

Además, en la última década ha habido una tendencia a audio multicanal y específicamente a audio espacial que se extiende más allá de las señales estéreo convencionales. Por ejemplo, las grabaciones estéreo tradicionales sólo comprenden dos canales mientras que los sistemas de audio avanzados modernos usan normalmente cinco o seis canales, tal como en los sistemas de sonido envolvente 5.1 populares. Esto proporciona una experiencia de escucha con mayor implicación en la que el usuario puede estar rodeado por fuentes de sonido.

Se han empleado diversas técnicas y normas para la comunicación de señales multicanal de este tipo. Por ejemplo, pueden transmitirse seis canales discretos que representan un sistema envolvente 5.1 según normas tales como la codificación de audio avanzada (AAC) o las normas Dolby Digital.

Sin embargo, con el fin de proporcionar compatibilidad hacia atrás, se conoce mezclar de manera descendente el número superior de canales para dar un número inferior y específicamente se usa con frecuencia para mezclar de manera descendente una señal de sonido envolvente 5.1 para dar una señal estéreo permitiendo reproducir una señal estéreo mediante decodificadores (estéreo) legados y una señal 5.1 mediante decodificadores de sonido envolvente.

Un ejemplo es el procedimiento de codificación compatible hacia atrás MPEG2. Una señal multicanal se mezcla de manera descendente de modo que se obtiene una señal estéreo. Señales adicionales se codifican en la parte de datos auxiliares permitiendo que un decodificador multicanal MPEG2 genere una representación de la señal multicanal. Un decodificador MPEG1 descartará los datos auxiliares y por tanto sólo decodificará la mezcla descendente estéreo. La desventaja principal del procedimiento de codificación aplicado en MPEG2 es que la tasa de transmisión de datos adicional requerida para las señales adicionales está en el mismo orden de magnitud que la tasa de transmisión de datos requerida para codificar la señal estéreo. Por tanto, la tasa de transmisión de bits adicional para extender estéreo a audio multicanal es significativa.

Otros procedimientos existentes para la transmisión multicanal compatible hacia atrás sin información multicanal adicional pueden caracterizarse normalmente como procedimientos envolventes de matriz. Ejemplos de codificación de sonido envolvente de matriz incluyen procedimientos tales como Dolby Prologic II y Logic-7. El principio común de estos procedimientos es que realizan una multiplicación de matriz de los múltiples canales de la señal de entrada por una matriz no cuadrática adecuada generando de este modo una señal de salida con un número inferior de canales. Específicamente, un codificador de matriz aplica normalmente desplazamientos de fase a los canales envolventes antes de mezclarlos con los canales frontales y centrales.

A partir del documento WO2005/098826 se conoce un codificador de audio que genera una mezcla descendente estéreo y parámetros asociados a partir de una señal de audio multicanal. Un posprocesador, que usa parámetros de función de transferencia, genera una mezcla descendente estéreo procesada que se transmite a un decodificador junto con los parámetros asociados.

A partir del documento US2005/0273322 se conoce un codificador de audio, que genera una señal combinada, que comprende una mezcla descendente binaural y las señales de audio originales. La señal combinada se transmite a un decodificador como flujo de bits de extensión y núcleo sin ningún parámetro.

Otro motivo para una conversión de canales es la eficacia de codificación. Se ha encontrado que por ejemplo las señales de audio de sonido envolvente pueden codificarse como señales de audio de canal estéreo combinadas con un flujo de bits de parámetro que describe las propiedades espaciales de la señal de audio. El decodificador puede reproducir las señales de audio estéreo con un grado de precisión muy satisfactorio. De este modo, pueden obtenerse ahorros sustanciales de tasa de transmisión de bits.

Hay varios parámetros que pueden usarse para describir las propiedades espaciales de señales de audio. Un parámetro de este tipo es la correlación cruzada entre canales, tal como la correlación cruzada entre el canal izquierdo y el canal derecho para señales estéreo. Otro parámetro es la proporción de potencia de los canales. En los denominados codificadores de audio espaciales (paramétricos) éstos y otros parámetros se extraen de la señal de audio original para producir una señal de audio que tiene un número reducido de canales, por ejemplo sólo un único canal, más un conjunto de parámetros que describen las propiedades espaciales de la señal de audio original. En los denominados decodificadores de audio espaciales (paramétricos), vuelven a emplearse las propiedades espaciales tal como se describen por los parámetros espaciales transmitidos.

La codificación de audio espacial de este tipo preferiblemente emplea una estructura jerárquica en cascada o basada en árboles que comprende unidades convencionales en el codificador y el decodificador. En el codificador, estas unidades convencionales pueden ser mezcladores descendentes que combinan canales de modo que se obtiene un número inferior de canales tales como los mezcladores descendentes 2-a-1, 3-a-1, 3-a-2, etc., mientras que en el decodificador las unidades convencionales correspondientes pueden ser mezcladores ascendentes que dividen canales de modo que se obtiene un número superior de canales tales como los mezcladores ascendentes 1-a-2, 2-a-3.

En la actualidad el posicionamiento de fuente de sonido 3D está ganando interés, especialmente en el dominio de los móviles. Los efectos de sonido y la reproducción de música en los juegos de móviles pueden añadir un valor significativo a la experiencia del consumidor cuando se posicionan en 3D, creando de manera eficaz un efecto 3D "out-of-head". Específicamente, se conoce grabar y reproducir señales de audio binaurales que contienen información direccional específica a la que es sensible el oído humano. Las grabaciones binaurales se realizan normalmente usando dos micrófonos montados en una cabeza humana artificial, de modo que el sonido grabado corresponde al sonido captado por el oído humano e incluye cualquier influencia debida a la forma de la cabeza y los oídos. Las grabaciones binaurales difieren de las grabaciones estéreo (esto es, estereofónicas) porque la reproducción de una grabación binaural está prevista en general para un casco con auriculares o auriculares, mientras que una grabación estéreo se realiza en general para la reproducción mediante altavoces. Mientras que una grabación binaural permite una reproducción de toda la información espacial usando sólo dos canales, una grabación estéreo no proporcionaría la misma percepción espacial. Las grabaciones de canal dual regular (estereofónico) o de múltiples canales (por ejemplo 5.1) pueden transformarse en grabaciones binaurales realizando una convolución de cada señal regular con un conjunto de funciones de transferencia perceptiva. Las funciones de transferencia perceptiva de este tipo modelan la influencia de la cabeza humana, y posiblemente otros objetos, en la señal. Un tipo conocido ampliamente de la función de transferencia perceptiva espacial es la denominada función de transferencia relativa a la cabeza (HRTF, Head-Related Transfer Function). Un tipo alternativo de función de transferencia perceptiva espacial, que también tiene en cuenta las reflexiones causadas por las paredes, el techo y el suelo de un recinto, es la respuesta impulsiva binaural de un recinto (BRIR, Binaural Room Impulse Response).

Normalmente, los algoritmos de posicionamiento 3D emplean las HRTF, que describen la transferencia desde una determinada posición de fuente de sonido a los tímpanos por medio de una respuesta al impulso. El posicionamiento de fuente de sonido 3D puede aplicarse a señales multicanal por medio de HRTF permitiendo de este modo que una señal binaural proporcione información de sonido espacial a un usuario que por ejemplo usa un par de auriculares.

Se sabe que la percepción de elevación se facilita de manera predominante mediante surcos y picos específicos en los espectros que llegan a ambos oídos. Por otro lado, el azimut (percibido) de una fuente de sonido se capta en las indicaciones "binaurales", tales como diferencias de nivel y diferencias de tiempo de llegada entre las señales en los tímpanos. La percepción de distancia se facilita en su mayor parte mediante el nivel de señal global y, en caso de entornos reverberantes, mediante la proporción de energía directa y reverberante. En la mayoría de los casos se supone que especialmente en la cola de reverberación tardía, no hay indicaciones de localización de fuente de sonido
fiables.

Las indicaciones perceptivas para la elevación, el azimut y la distancia pueden captarse por medio de (pares de) respuestas de impulso; una respuesta de impulso para describir la transferencia desde una posición de fuente de sonido específica al oído izquierdo; y una para el oído derecho. Por tanto las indicaciones perceptivas para la elevación, el azimut y la distancia se determinan mediante las propiedades correspondientes de (del par de) las respuestas de impulso HRTF. En la mayoría de los casos, se mide un par de HRTF para un gran conjunto de posiciones de fuente de sonido; normalmente con una resolución espacial de aproximadamente 5 grados tanto en elevación como
azimut.

La síntesis 3D binaural convencional comprende el filtrado (la convolución) de una señal de entrada con un par de HRTF para la posición de fuente de sonido deseada. Sin embargo, puesto que las HRTF se miden normalmente en condiciones anecoicas, a menudo falta la percepción de "distancia" o localización "out-of-head". Aunque la convolución de una señal con HRTF anecoicas no es suficiente para la síntesis de sonido 3D, con frecuencia es preferible el uso de HRTF anecoicas desde un punto de vista de la complejidad y flexibilidad. El efecto de un entorno ecoico (requerido para la creación de la percepción de distancia) puede añadirse en una fase posterior, dejando cierta flexibilidad para el usuario final para modificar las propiedades acústicas del recinto. Además, puesto que a menudo se supone que la reverberación tardía es omnidireccional (sin indicaciones direccionales), este procedimiento de procesamiento es a menudo más eficaz que la convolución de cada fuente de sonido con un par de HRTF ecoicas. Además, aparte de los argumentos de complejidad y flexibilidad para la acústica del recinto, el uso de HRTF anecoicas tiene también ventajas para la síntesis de la señal "seca" (indicación direccional).

La investigación reciente en el campo del posicionamiento 3D ha demostrado que la resolución de frecuencia que se representa mediante las respuestas de impulso HRTF anecoicas es en muchos casos mayor de lo necesario. Específicamente, parece que tanto para los espectros de fase como de magnitud, una resolución de frecuencia no lineal tal como se propone por la escala ERB es suficiente para sintetizar fuentes de sonido 3D con una precisión que no es diferente de manera perceptiva del procesamiento con HRTF anecoicas completas. En otras palabras, los espectros de HRTF anecoicas no requieren una resolución espectral mayor que la resolución de frecuencia del sistema auditivo humano.

Un algoritmo de síntesis binaural convencional se resalta en la figura 1. Un conjunto de canales de entrada se filtra mediante un conjunto de HRTF. Cada señal de entrada se divide en dos señales (una componente izquierda "L", y una derecha "R"); cada una de estas señales se filtra posteriormente mediante una HRTF correspondiente a la posición de fuente de sonido deseada. Todas las señales del oído izquierdo se suman posteriormente para generar la señal de salida binaural izquierda, y las señales del oído derecho se suman para generar la señal de salida binaural derecha.

La convolución de HRTF puede realizarse en el dominio de tiempo, aunque a menudo se prefiere realizar el filtrado como producto en el dominio de frecuencia. En ese caso, la sumación también puede realizarse en el dominio de frecuencia.

Se conocen sistemas de decodificador que pueden recibir una señal codificada de sonido envolvente y generar una experiencia de sonido envolvente a partir de una señal binaural. Por ejemplo, se conocen sistemas de auricular que permiten convertir una señal de sonido envolvente en una señal binaural de sonido envolvente para proporcionar una experiencia de sonido envolvente para el usuario de los auriculares.

La figura 2 ilustra un sistema en el que un decodificador de envolvente MPEG recibe una señal estéreo con datos paramétricos espaciales. El flujo de bits de entrada se demultiplexa dando como resultado parámetros espaciales y un flujo de bits de mezcla descendente. El último flujo de bits se decodifica usando un decodificador mono o estéreo convencional. La mezcla descendente decodificada se decodifica mediante un decodificador espacial, que genera una salida multicanal basándose en los parámetros espaciales transmitidos. Finalmente, la salida multicanal se procesa entonces mediante una fase de síntesis binaural (similar a la de la figura 1) dando como resultado una señal de salida binaural que proporciona una experiencia de sonido envolvente para el usuario.

Sin embargo, un enfoque de este tipo tiene una serie de desventajas asociadas.

Por ejemplo, la cascada del decodificador de sonido envolvente y la síntesis binaural incluye el cálculo de una representación de señal multicanal como etapa intermedia, seguida por una convolución de HRTF y un mezclado descendente en la etapa de síntesis binaural. Esto puede dar como resultado una complejidad aumentada y un rendimiento reducido.

Además, el sistema es muy complejo. Por ejemplo los decodificadores espaciales funcionan normalmente en un dominio de subbanda (QMF). La convolución de HRTF por otro lado puede implementarse normalmente de la manera más eficaz en el dominio de FFT. Por tanto, es necesaria una cascada de un banco de filtros de síntesis QMF multicanal, una transformada FFT multicanal y una transformada FFT inversa estéreo, dando como resultado un sistema con demandas elevadas de cálculo.

La calidad de la experiencia de usuario proporcionada puede reducirse. Por ejemplo, los artefactos de codificación creados por el decodificador espacial para crear una reconstrucción multicanal aún serán audibles en la salida binaural (estéreo).

Además, el enfoque requiere decodificadores dedicados y realizar un procesamiento de señal complejo mediante los dispositivos de usuario individuales. Esto puede obstaculizar la aplicación en muchas situaciones. Por ejemplo, los dispositivos legados que sólo pueden decodificar la mezcla descendente estéreo no podrán proporcionar una experiencia de usuario de sonido envolvente.

Por tanto, una codificación/decodificación de audio mejorada sería ventajosa.

Por consiguiente, la invención pretende preferiblemente mitigar, aliviar o eliminar una o más de las desventajas anteriormente mencionadas de manera individual o en cualquier combinación.

Según un primer aspecto de la invención se proporciona un codificador de audio que comprende: medios para recibir una señal de audio de canal M donde M>2; medios de mezclado descendente para mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados; medios de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y los datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural; medios para codificar la segunda señal estéreo para generar datos codificados; y medios de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.

La invención puede permitir una codificación de audio mejorada. En particular, la invención puede permitir una codificación estéreo eficaz de señales multicanal a la vez que permite que decodificadores estéreo legados proporcionen una experiencia espacial mejorada. Además, la invención permite invertir un proceso de síntesis espacial virtual binaural en el decodificador permitiendo de este modo una decodificación multicanal de alta calidad. La invención puede permitir un codificador de baja complejidad y en particular puede permitir una generación de baja complejidad de una señal binaural. La invención puede permitir facilitar la implementación y volver a utilizar la funcionalidad.

La invención puede en particular proporcionar una determinación basada en parámetros de una señal espacial virtual binaural a partir de una señal multicanal.

La señal binaural puede ser específicamente una señal espacial virtual binaural tal como una señal estéreo binaural 3D virtual. La señal de audio de canal M puede ser una señal envolvente tal como una señal envolvente 5.1. ó 7.1. La señal espacial virtual binaural puede emular una posición de fuente de sonido para cada canal de la señal de audio de canal M. Los datos de parámetro espacial pueden comprender datos indicativos de una función de transferencia a partir de una posición de fuente de sonido pretendida al tímpano de un usuario previsto.

La función de transferencia perceptiva binaural puede ser por ejemplo una función de transferencia relativa a la cabeza (HRTF) o una respuesta impulsiva binaural de un recinto (BPIR).

Según una característica opcional de la invención, los medios de generación están dispuestos para generar la segunda señal estéreo calculando valores de datos de subbanda para la segunda señal estéreo en respuesta a los datos paramétricos asociados, los datos de parámetro espacial y los valores de datos de subbanda para la primera señal estéreo.

Esto puede permitir una codificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o una carga de cálculo reducida. Los intervalos de subbanda de frecuencia de la primera señal estéreo, la segunda señal estéreo, los datos paramétricos asociados y los datos de parámetro espacial pueden ser diferentes o algunas o todas las subbandas pueden ser sustancialmente idénticas para algunos o todos ellos.

Según una característica opcional de la invención, los medios de generación están dispuestos para generar valores de subbanda para una primera subbanda de la segunda señal estéreo en respuesta a una multiplicación de valores de subbanda estéreo correspondientes para la primera señal estéreo por una primera matriz de subbanda; comprendiendo además los medios de generación medios de parámetro para determinar valores de datos de la primera matriz de subbanda en respuesta a datos paramétricos asociados y datos de parámetro espacial para la primera subbanda.

Esto puede permitir una codificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o una carga de cálculo reducida. La invención puede en particular proporcionar una determinación basada en parámetros de una señal espacial virtual binaural a partir de una señal multicanal realizando operaciones de matriz en subbandas individuales. Los primeros valores de matriz de subbanda pueden reflejar el efecto combinado de una conexión en cascada de una decodificación multicanal y un filtrado de HRTF/BRIR de los múltiples canales resultantes. Puede realizarse una multiplicación de matriz de subbanda para todas las subbandas de la segunda señal estéreo.

Según una característica opcional de la invención, los medios de generación comprenden además medios para convertir un valor de datos de al menos uno de la primera señal estéreo, los datos paramétricos asociados y los datos de parámetro espacial asociados con una subbandas que tiene un intervalo de frecuencia diferente del primer intervalo de subbanda en un valor de datos correspondiente para la primera subbanda.

Esto puede permitir una codificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o una carga de cálculo reducida. Específicamente, la invención puede permitir que los diferentes procesos y algoritmos se basen en las divisiones de subbanda más adecuadas para el proceso individual.

Según una característica opcional de la invención, los medios de generación están dispuestos para determinar los valores de subbanda estéreo L_{B}, R_{B} para la primera subbanda de la segunda señal estéreo sustancialmente como:

1

donde L_{O}, R_{O} son valores de subbanda correspondientes de la primera señal estéreo y los medios de parámetro están dispuestos para determinar valores de datos de la matriz de multiplicación sustancialmente como:

2

3

donde m_{k,l} son parámetros determinados en respuesta a datos paramétricos asociados para una mezcla descendente mediante los medios de mezclado descendente de los canales L, R y C para dar la primera señal estéreo; y H_{J}(X) se determina en respuesta a los datos de parámetro espacial para el canal X al canal J de salida estéreo de la segunda señal estéreo.

Esto puede permitir una codificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o una carga de cálculo reducida.

Según una característica opcional de la invención, al menos uno de los canales L y R corresponde a una mezcla descendente de al menos dos canales mezclados de manera descendente y los medios de parámetro están dispuestos para determinar H_{J}(X) en respuesta a una combinación ponderada de los datos de parámetro espacial para los al menos dos canales mezclados de manera descendente.

Según una característica opcional de la invención, los medios de parámetro están dispuestos para determinar una ponderación de los datos de parámetro espacial para los al menos dos canales mezclados de manera descendente en respuesta a una medición de energía relativa para los al menos dos canales mezclados de manera descendente.

Según una característica opcional de la invención, los datos de parámetro espacial incluyen al menos un parámetro seleccionado del grupo que consiste en: un nivel promedio por parámetro de subbanda; un parámetro de tiempo de llegada promedio; una fase de al menos un canal estéreo; un parámetro de sincronismo; un parámetro de retardo de grupo; una fase entre canales estéreo; y un parámetro de correlación cruzada de canal.

Estos parámetros pueden proporcionar una codificación particularmente ventajosa y pueden en particular ser específicamente adecuados para el procesamiento de subbanda.

Según una característica opcional de la invención, los medios de salida están dispuestos para incluir datos de posición de fuente de sonido en el flujo de salida.

Esto puede permitir a un decodificador determinar datos de parámetro espacial adecuados y/o puede proporcionar una manera eficaz de indicar los datos de parámetro espacial con una baja sobrecarga. Esto puede proporcionar una manera eficaz de invertir el proceso de síntesis espacial virtual binaural en el decodificador permitiendo de este modo una decodificación multicanal de alta calidad. La característica puede permitir además una experiencia de usuario mejorada y puede permitir o facilitar la implementación de una señal espacial virtual binaural con fuentes de sonido en movimiento. La característica puede permitir de manera alternativa o adicional una adaptación de una síntesis espacial en un decodificador por ejemplo invirtiendo en primer lugar la síntesis realizada en el codificador seguido por una síntesis usando una función de transferencia perceptiva binaural adaptada o individualizada.

Según una característica opcional de la invención, los medios de salida están dispuestos para incluir al menos algunos de los datos de parámetro espacial en el flujo de salida.

Esto puede proporcionar una manera eficaz de invertir el proceso de síntesis espacial virtual binaural en el decodificador permitiendo de este modo una decodificación multicanal de alta calidad. La característica puede permitir además una experiencia de usuario mejorada y puede permitir o facilitar la implementación de una señal espacial virtual binaural con fuentes de sonido en movimiento. Los datos de parámetro espacial pueden incluirse de manera directa o indirecta en el flujo de salida por ejemplo incluyendo información que permite a un decodificador determinar los datos de parámetro espacial. La característica puede permitir de manera alternativa o adicional una adaptación de una síntesis espacial en un decodificador por ejemplo invirtiendo en primer lugar la síntesis realizada en el codificador seguido por una síntesis usando una función de transferencia perceptiva binaural adaptada o
individualizada.

Según una característica opcional de la invención, el codificador comprende además medios para determinar los datos de parámetro espacial en respuesta a posiciones de señal de sonido deseadas.

Esto puede permitir una codificación mejorada y/o facilitar la implementación. Las posiciones de señal de sonido deseadas pueden corresponder a las posiciones de las fuentes de sonido para los canales individuales de la señal de canal M.

Según otro aspecto de la invención se proporciona un decodificador de audio que comprende: medios para recibir datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2, siendo la primera señal estéreo una señal binaural correspondiente a la señal de audio de canal M; y medios de generación para modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y los primeros datos de parámetro espacial para una función de transferencia perceptiva binaural, estando asociados los primeros datos de parámetro espacial con la primera señal estéreo.

La invención puede permitir una decodificación de audio mejorada. En particular, la invención puede permitir una decodificación estéreo de alta calidad y específicamente puede permitir invertir un proceso de síntesis espacial virtual binaural de codificador en el decodificador. La invención puede permitir un decodificador de baja complejidad. La invención puede permitir facilitar la implementación y volver a utilizar la funcionalidad.

La señal binaural puede ser específicamente una señal espacial virtual binaural tal como una señal estéreo binaural 3D virtual. Los datos de parámetro espacial pueden comprender datos indicativos de una función de transferencia a partir de una posición de fuente de sonido prevista al oído de un usuario previsto. La función de transferencia perceptiva binaural puede ser por ejemplo una función de transferencia relativa a la cabeza (HRTF) o una respuesta impulsiva binaural de un recinto (BPIR).

Según una característica opcional de la invención, el decodificador de audio comprende además medios para generar la señal de audio de canal M en respuesta a la señal estéreo mezclada de manera descendente y los datos paramétricos.

La invención puede permitir una decodificación de audio mejorada. En particular, la invención puede permitir una decodificación multicanal de alta calidad y específicamente puede permitir invertir un proceso de síntesis espacial virtual binaural de codificador en el decodificador. La invención puede permitir un decodificador de baja complejidad. La invención puede permitir facilitar la implementación y volver a utilizar la funcionalidad.

La señal de audio de canal M puede ser una señal envolvente tal como una señal envolvente 5.1. ó 7. La señal binaural puede ser una señal espacial virtual que emula una posición de fuente de sonido para cada canal de la señal de audio de canal M.

Según una característica opcional de la invención, los medios de generación están dispuestos para generar la señal estéreo mezclada de manera descendente calculando valores de datos de subbanda para la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos asociados, los datos de parámetro espacial y valores de datos de subbanda para la primera señal estéreo.

Esto puede permitir una decodificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o carga de cálculo reducida. Los intervalos de subbanda de frecuencia de la primera señal estéreo, la señal estéreo mezclada de manera descendente, los datos paramétricos asociados y los datos de parámetro espacial pueden ser diferentes o algunas o todas las subbandas pueden ser sustancialmente idénticas para algunos o todos ellos.

Según una característica opcional de la invención, los medios de generación están dispuestos para generar valores de subbanda para una primera subbanda de la señal estéreo mezclada de manera descendente en respuesta a una multiplicación de valores de subbanda estéreo correspondientes para la primera señal estéreo por una primera matriz de subbanda;

comprendiendo además los medios de generación medios de parámetro para determinar valores de datos de la primera matriz de subbanda en respuesta a datos paramétricos y datos de parámetro espacial para la primera sub-
banda.

Esto puede permitir una decodificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o una carga de cálculo reducida. Los primeros valores de matriz de subbanda pueden reflejar el efecto combinado de una conexión en cascada de una decodificación multicanal y filtrado de HRTF/BRIR de los múltiples canales resultantes. Puede realizarse una multiplicación de matriz de subbanda para todas las subbandas de la señal estéreo mezclada de manera descendente.

Según una característica opcional de la invención, los datos de entrada comprenden al menos algunos datos de parámetro espacial.

Esto puede proporcionar una manera eficaz de invertir un proceso de síntesis espacial virtual binaural realizado en un codificador permitiendo de este modo una decodificación multicanal de alta calidad. La característica puede permitir además una experiencia de usuario mejorada y puede permitir o facilitar la implementación de una señal espacial virtual binaural con fuentes de sonido en movimiento. Los datos de parámetro espacial pueden incluirse de manera directa o indirecta en los datos de entrada por ejemplo puede ser cualquier información que permita al decodificador determinar los datos de parámetro espacial.

Según una característica opcional de la invención, los datos de entrada comprenden datos de posición de fuente de sonido y el decodificador comprende medios para determinar los datos de parámetro espacial en respuesta a los datos de posición de fuente de sonido.

El decodificador puede comprender por ejemplo una memoria de datos que comprenda datos de parámetro espacial de HRTF asociados con diferentes posiciones de fuente de sonido y puede determinar los datos de parámetro espacial que van a usarse recuperando los datos de parámetro para las posiciones indicadas.

Según una característica opcional de la invención, el decodificador de audio comprende además una unidad de decodificador espacial para producir un par de canales de salida binaurales modificando la primera señal estéreo en respuesta a los datos paramétricos asociados y segundos datos de parámetro espacial para una segunda función de transferencia perceptiva binaural, siendo los segundos datos de parámetro espacial diferentes a los primeros datos de parámetro espacial.

La característica puede permitir una síntesis espacial mejorada y en particular puede permitir una señal binaural sintetizada espacial individual o adaptada que es en particular adecuada para el usuario específico. Esto puede conseguirse mientras aún se permite que los decodificadores estéreo legados generen señales binaurales espaciales sin requerir una síntesis espacial en el decodificador. Por tanto, puede conseguirse un sistema de audio mejorado. La segunda función de transferencia perceptiva binaural puede específicamente ser diferente a la función de transferencia perceptiva binaural de los primeros datos espaciales. La segunda función de transferencia perceptiva binaural y los segundos datos espaciales pueden adaptarse específicamente para el usuario individual del decodi-
ficador.

Según una característica opcional de la invención, el decodificador espacial comprende: una unidad de conversión de parámetros para convertir los datos paramétricos en parámetros de síntesis binaural usando los segundos datos de parámetro espacial, y una unidad de síntesis espacial para sintetizar el par de canales binaurales usando los parámetros de síntesis binaural y la primera señal estéreo.

Esto puede permitir un rendimiento mejorado y/o facilitar la implementación y/o una complejidad reducida. Los parámetros binaurales pueden ser parámetros que pueden multiplicarse con muestras de subbanda de la primera señal estéreo y/o la señal estéreo mezclada de manera descendente para generar muestras de subbanda para los canales binaurales. La multiplicación puede ser por ejemplo una multiplicación de matriz.

Según una característica opcional de la invención, los parámetros de síntesis binaural comprenden coeficientes de matriz para una matriz de 2 por 2 que relacionan muestras estéreo de la señal estéreo mezclada de manera descendente con muestras estéreo del par de canales de salida binaurales.

Esto puede permitir un rendimiento mejorado y/o facilitar la implementación y/o una complejidad reducida. Las muestras estéreo pueden ser muestras de subbanda estéreo de por ejemplo subbandas de frecuencia de transformada de Fourier o QMF.

Según una característica opcional de la invención, los parámetros de síntesis binaural comprenden coeficientes de matriz para una matriz de 2 por 2 que relacionan muestras de subbanda estéreo de la primera señal estéreo con muestras estéreo del par de canales de salida binaurales.

Según otro aspecto de la invención se proporciona un procedimiento de codificación de audio, comprendiendo el procedimiento: recibir una señal de audio de canal M donde M>2; mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados; modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural; codificar la segunda señal estéreo para generar datos codificados; y generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.

Según otro aspecto de la invención se proporciona un procedimiento de decodificación de audio, comprendiendo el procedimiento:

- recibir datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2, siendo la primera señal estéreo una señal binaural correspondiente a la señal de audio de canal M; y

- modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y datos de parámetro espacial para una función de transferencia perceptiva binaural, estando asociados los datos de parámetro espacial con la primera señal estéreo.

Según otro aspecto de la invención se proporciona un receptor para recibir una señal de audio que comprende: medios para recibir datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2, siendo la primera señal estéreo una señal binaural correspondiente a la señal de audio de canal M; y medios de generación para modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y datos de parámetro espacial para una función de transferencia perceptiva binaural, estando asociados los datos de parámetro espacial con la primera señal estéreo.

Según otro aspecto de la invención se proporciona un transmisor para transmitir un flujo de datos de salida; comprendiendo el transmisor: medios para recibir una señal de audio de canal M donde M>2; medios de mezclado descendente para mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados; medios de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural; medios para codificar la segunda señal estéreo para generar datos codificados; medios de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados; y medios para transmitir el flujo de datos de salida.

Según otro aspecto de la invención se proporciona un sistema de transmisión para transmitir una señal de audio, comprendiendo el sistema de transmisión: un transmisor que comprende: medios para recibir una señal de audio de canal M donde M>2, medios de mezclado descendente para mezclar de manera descendiente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados, medios de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural, medios para codificar la segunda señal estéreo para generar datos codificados, medios de salida para generar un flujo de datos de salida de audio que comprende los datos codificados y los datos paramétricos asociados, y medios para transmitir el flujo de datos de salida de audio; y un receptor que comprende: medios para recibir el flujo de datos de salida de audio; y medios para modificar la segunda señal estéreo para generar la primera señal estéreo en respuesta a los datos paramétricos y los datos de parámetro espacial.

Según otro aspecto de la invención se proporciona un procedimiento para recibir una señal de audio, comprendiendo el procedimiento: recibir datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2, siendo la primera señal estéreo una señal binaural correspondiente a la señal de audio de canal M; y modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y datos de parámetro espacial para una función de transferencia perceptiva binaural, estando asociados los datos de parámetro espacial con la primera señal estéreo.

Según otro aspecto de la invención se proporciona un procedimiento para transmitir un flujo de datos de salida de audio, comprendiendo el procedimiento: recibir una señal de audio de canal M donde M>2; mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados; modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural; codificar la segunda señal estéreo para generar datos codificados; y generar un flujo de datos de salida de audio que comprende los datos codificados y los datos paramétricos asociados; y transmitir el flujo de datos de salida de audio.

Según otro aspecto de la invención se proporciona un procedimiento para transmitir y recibir una señal de audio, comprendiendo el procedimiento recibir una señal de audio de canal M donde M>2; mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados; modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural; codificar la segunda señal estéreo para generar datos codificados; y generar un flujo de datos de salida de audio que comprende los datos codificados y los datos paramétricos asociados; transmitir el flujo de datos de salida de audio; recibir el flujo de datos de salida de audio; y modificar la segunda señal estéreo para generar la primera señal estéreo en respuesta a los datos paramétricos y los datos de parámetro espacial.

Según otro aspecto de la invención se proporciona un producto de programa informático para ejecutar cualquiera de los procedimientos anteriormente descritos.

Según otro aspecto de la invención se proporciona un dispositivo de grabación de audio que comprende un codificador según el codificador anteriormente descrito.

Según otro aspecto de la invención se proporciona un dispositivo de reproducción de audio que comprende un decodificador según el decodificador anteriormente descrito.

Según otro aspecto de la invención se proporciona un flujo de datos de audio para una señal de audio que comprende una primera señal estéreo; y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2; en el que la primera señal estéreo es una señal binaural correspondiente a la señal de audio de canal M.

Según otro aspecto de la invención se proporciona un medio de almacenamiento que tiene almacenado en el mismo una señal tal como se describió anteriormente.

Estos y otros aspectos, características y ventajas de la invención resultarán evidentes a partir de y se aclararán con referencia a la/las realización/realizaciones descrita/descritas a continuación en el presente documento.

Se describirán realizaciones de la invención, únicamente a modo de ejemplo, con referencia a los dibujos, en los que

la figura 1 es una ilustración de una síntesis binaural según la técnica anterior;

la figura 2 es una ilustración de una cascada de un decodificador multicanal y una síntesis binaural;

la figura 3 ilustra un sistema de transmisión para la comunicación de una señal de audio según algunas realizaciones de la invención;

la figura 4 ilustra un codificador según algunas realizaciones de la invención;

la figura 5 ilustra un codificador de mezcla descendente paramétrico de sonido envolvente;

la figura 6 ilustra un ejemplo de una posición de fuente de sonido relativa a un usuario;

la figura 7 ilustra un decodificador multicanal según algunas realizaciones de la invención;

la figura 8 ilustra un decodificador según algunas realizaciones de la invención;

la figura 9 ilustra un decodificador según algunas realizaciones de la invención;

la figura 10 ilustra un procedimiento de codificación de audio según algunas realizaciones de la invención; y

la figura 11 ilustra un procedimiento de decodificación de audio según algunas realizaciones de la invención.

La figura 3 ilustra un sistema 300 de transmisión para la comunicación de una señal de audio según algunas realizaciones de la invención. El sistema 300 de transmisión comprende un transmisor 301 que se acopla a un receptor 303 a través de una red 305 que específicamente puede ser Internet.

En el ejemplo específico, el transmisor 301 es un dispositivo de grabación de señales y el receptor es un dispositivo 303 reproductor de señales aunque se apreciará que en otras realizaciones puede usarse un transmisor y un receptor en otras aplicaciones y para otros fines. Por ejemplo, el transmisor 301 y/o el receptor 303 pueden formar parte de una funcionalidad de transcodificación y por ejemplo pueden proporcionar una interfaz con otros destinos o fuentes de señal.

En el ejemplo específico en el que se soporta una función de grabación de señal, el transmisor 301 comprende un digitalizador 307 que recibe una señal analógica que se convierte en una señal PCM digital mediante muestreo y conversión analógico-digital. El digitalizador 307 muestrea una pluralidad de señales generando de este modo una señal multicanal.

El transmisor 301 se acopla al codificador 309 de la figura 1 que codifica la señal multicanal según un algoritmo de codificación. El codificador 300 se acopla a un transmisor 311 de red que recibe la señal codificada y establece una interfaz con Internet 305. El transmisor de red puede transmitir la señal codificada al receptor 303 a través de Internet 305.

El receptor 303 comprende un receptor 313 de red que establece una interfaz con Internet 305 y que se dispone para recibir la señal codificada desde el transmisor 301.

El receptor 311 de red se acopla a un decodificador 315. El decodificador 315 recibe la señal codificada y la decodifica según un algoritmo de decodificación.

En el ejemplo específico en el que se soporta una función de reproducción de señal, el receptor 303 comprende además un reproductor 317 de señales que recibe la señal de audio decodificada desde el decodificador 315 y la presenta al usuario. Específicamente, el reproductor 313 de señales puede comprender un convertidor digital-analógico, amplificadores y altavoces tal como se requiere para emitir la señal de audio decodificada.

En el ejemplo específico, el codificador 309 recibe una señal de sonido envolvente de cinco canales y la mezcla de manera descendente para dar una señal estéreo. La señal estéreo se procesa entonces posteriormente para generar una señal binaural que específicamente es una señal espacial virtual binaural en forma de mezcla descendente binaural 3D. Al usar una fase de procesamiento posterior 3D que trabaja sobre la mezcla descendente tras la codificación espacial, el procesamiento 3D puede invertirse en el decodificador 315. Como resultado, un decodificador multicanal para la reproducción en altavoces no mostrará ninguna degradación significativa de la calidad debido a la mezcla descendente estéreo modificada, mientras que al mismo tiempo, incluso decodificadores estéreo convencionales producirán una señal compatible 3D. Por tanto, el codificador 309 puede generar una señal que permita una decodificación multicanal de alta calidad y al mismo tiempo permita una experiencia pseudoespacial a partir de una salida estéreo tradicional tal como por ejemplo a partir de un decodificador tradicional que alimenta un par de auriculares.

La figura 4 ilustra el codificador 309 en más detalle.

El codificador 309 comprende un receptor 401 multicanal que recibe una señal de audio multicanal. Aunque los principios descritos se aplicarán a una señal multicanal que comprende cualquier número de canales superior a dos, el ejemplo específico se centrará en una señal de cinco canales correspondiente a una señal de sonido envolvente convencional (por motivos de claridad y brevedad se ignorará el canal de frecuencia inferior usado a menudo para señales envolventes. Sin embargo, resultará evidente para el experto en la técnica que la señal multicanal puede tener un canal de frecuencia baja adicional. Este canal puede combinarse por ejemplo con el canal central mediante un procesador de mezcla descendente).

El receptor 401 multicanal se acopla a un procesador 403 de mezcla descendente que se dispone para mezclar de manera descendente la señal de audio de cinco canales para dar una primera señal estéreo. Además, el procesador 403 de mezcla descendente genera datos 405 paramétricos asociados con la primera señal estéreo y que contienen indica-
ciones de audio e información que relaciona la primera señal estéreo con los canales originales de la señal multicanal.

El procesador 403 de mezcla descendente puede implementar por ejemplo un codificador multicanal envolvente MPEG. Un ejemplo del mismo se ilustra en la figura 5. En el ejemplo, la señal de entrada multicanal consiste en los canales Lf (frontal izquierdo), Ls (envolvente izquierdo), C (central), Rf (frontal derecho) y Rs (envolvente derecho). Los canales Lf y Ls se alimentan a un primer mezclador 501 descendente TTO (Two To One, dos a uno) que genera una mezcla descendente mono para un canal izquierdo (L) así como parámetros que relacionan los dos canales Lf y Ls de entrada con el canal L de salida. De manera similar, los canales Rf y Rs se alimentan a un segundo mezclador 503 descendente TTO que genera una mezcla descendente mono para un canal derecho (R) así como parámetros que relacionan los dos canales Rf y Rs de entrada con el canal R de salida. Los canales R, L y C se alimentan entonces a un mezclador 505 descendente TTT (Three To Two, tres a dos) que combina estas señales para generar una mezcla descendente estéreo y parámetros espaciales adicionales.

Los parámetros que resultan del mezclador 505 descendente TTT consisten normalmente en un par de coeficientes de predicción para cada banda de parámetros, o un par de diferencias de nivel para describir las proporciones de energía de las tres señales de entrada. Los parámetros de los mezcladores 501, 503 descendentes TTO consisten normalmente en diferencias de nivel y valores de correlación cruzada o coherencia entre las señales de entrada para cada banda de frecuencia.

La primera señal estéreo generada es por tanto una señal estéreo convencional estándar que comprende una serie de canales mezclados de manera descendente. Un decodificador multicanal puede recrear la señal multicanal original mezclando de manera ascendente y aplicando los datos paramétricos asociados. Sin embargo, un decodificador estéreo convencional únicamente proporcionará una señal estéreo perdiendo de este modo información espacial y produciendo una experiencia de usuario reducida.

Sin embargo, en el codificador 309, la señal estéreo mezclada de manera descendente no se codifica y transmite directamente. En su lugar, la primera señal estéreo se alimenta a un procesador 407 espacial al que se alimentan también los datos 405 de parámetro asociados a partir del procesador 403 de mezcla descendente. El procesador 407 espacial se acopla además a un procesador 409 HRTF.

El procesador 409 HRTF genera datos de parámetro de función de transferencia relativa a la cabeza (HRTF) usados por el procesador 407 espacial para generar una señal binaural 3D. Específicamente, una HRTF describe la función de transferencia a partir de una posición de fuente de sonido dada a los tímpanos por medio de una respuesta al impulso. El procesador 409 HRTF genera específicamente datos de parámetro de HRTF correspondientes a un valor de una función HRTF deseada en una subbanda de frecuencia. El procesador 409 HRTF puede por ejemplo calcular una HRTF para una posición de fuente de sonido de uno de los canales de la señal multicanal. Esta función de transferencia puede convertirse en un dominio de subbanda de frecuencia adecuado (tal como un dominio de subbanda QMF o FFT) y puede determinarse el valor de parámetro de HRTF correspondiente en cada subbanda.

Se apreciará que aunque la descripción se centra en una aplicación de funciones de transferencia relativas a la cabeza, el enfoque y los principios descritos se aplican igualmente a otras funciones de transferencia perceptiva binaural (espacial), tales como una función de respuesta impulsiva binaural de un recinto (BRIR). Otro ejemplo de una función de transferencia perceptiva binaural es una regla de barrido (panning) de amplitud simple que describe la cantidad relativa de nivel de señal desde un canal de entrada a cada uno de los canales de salida estéreo binaurales.

En algunas realizaciones, los parámetros de HRTF pueden calcularse de manera dinámica mientras que en otras realizaciones pueden predeterminarse y almacenarse en una memoria de datos adecuada. Por ejemplo, los parámetros de HRTF pueden almacenarse en una base de datos como una función de azimut, elevación, distancia y banda de frecuencia. Los parámetros de HRTF apropiados para una subbanda de frecuencia dada pueden entonces recuperarse simplemente seleccionando los valores para la posición de fuente de sonido espacial deseada.

El procesador 407 espacial modifica la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro de HRTF espacial. A diferencia de la primera señal estéreo, la segunda señal estéreo es una señal espacial virtual binaural y específicamente una señal binaural 3D que cuando se presenta a través de un sistema estéreo convencional (por ejemplo mediante un par de auriculares) puede proporcionar una experiencia espacial mejorada que emula la presencia de más de dos fuentes de sonido en diferentes posiciones de fuente de sonido.

La segunda señal estéreo se alimenta a un procesador 411 de codificación que se acopla al procesador 407 espacial y que codifica la segunda señal para dar un flujo de datos adecuado para su transmisión (por ejemplo aplicando niveles de cuantificación adecuados, etc.). El procesador 411 de codificación se acopla a un procesador 413 de salida que genera un flujo de salida combinando al menos los segundos datos de señal estéreo codificados y los datos 405 de parámetro asociados generados mediante el procesador 403 de mezcla descendente.

Normalmente la síntesis HRTF requiere formas de onda para todas las fuentes de sonido individuales (por ejemplo señales de altavoz en el contexto de una señal de sonido envolvente). Sin embargo, en el codificador 307, los pares de HRTF se parametrizan para subbandas de frecuencia permitiendo de este modo por ejemplo generar una configuración de altavoz virtual 5.1 por medio de un procesamiento posterior de baja complejidad de la mezcla descendente de la señal de entrada multicanal, con la ayuda de los parámetros espaciales que se extrajeron durante el proceso de codificación (y mezclado descendente).

El procesador espacial puede funcionar específicamente en un dominio de subbanda tal como un dominio de subbanda QMF o FFT. En lugar de decodificar la primera señal estéreo mezclada de manera descendente para generar la señal multicanal original seguido por una síntesis HRTF que usa filtrado de HRTF, el procesador 407 espacial genera valores de parámetro para cada subbanda correspondientes al efecto combinado de decodificar la primera señal estéreo mezclada de manera descendente para dar una señal multicanal seguida por una nueva codificación de la señal multicanal como una señal binaural 3D.

Específicamente, los inventores se han dado cuenta de que la señal binaural 3D puede generarse aplicando una multiplicación de matriz de 2x2 a los valores de señal de subbanda de la primera señal. Los valores de señal resultantes de la segunda señal corresponden en gran medida a los valores de señal que se generarían mediante una decodificación multicanal y una síntesis HRTF en cascada. Por tanto, el procesamiento de señal combinado de la codificación multicanal y la síntesis HRTF pueden combinarse de modo que se obtienen cuatro valores de parámetro (los coeficientes de matriz) que pueden aplicarse simplemente a los valores de señal de subbanda de la primera señal para generar los valores de subbanda deseados de la segunda señal. Puesto que los valores de parámetro de matriz reflejan el proceso combinado de decodificación de la señal multicanal y la síntesis HRTF, los valores de parámetro se determinan en respuesta tanto a los datos paramétricos asociados desde el procesador 403 de mezcla descendente como a parámetros de HRTF.

En el codificador 309, las funciones HRTF se parametrizan para las bandas de frecuencia individuales. El fin de la parametrización HRTF es captar las indicaciones más importantes para la localización de fuente de sonido a partir de cada par de HRTF. Estos parámetros pueden incluir:

- un nivel (promedio) por subbanda de frecuencia para la respuesta al impulso del oído izquierdo;

- un nivel (promedio) por subbanda de frecuencia para la respuesta al impulso del oído derecho;

- un tiempo de llegada o diferencia de fase (promedio) entre la respuesta al impulso del oído izquierdo y el oído derecho;

- una fase o tiempo (o retardo de grupo) absoluto (promedio) por subbanda de frecuencia tanto para respuestas al impulso de oído izquierdo como de oído derecho (en este caso, la diferencia de fase o tiempo se vuelve en la mayoría de los casos obsoleta);

- una coherencia o correlación cruzada de canal por subbanda de frecuencia entre respuestas al impulso correspondientes.

Los parámetros de nivel por subbanda de frecuencia pueden facilitar la síntesis de elevación (debido a picos y depresiones específicos en el espectro) y diferencias de nivel para el azimut (determinadas por la proporción de los parámetros de nivel para cada banda).

\newpage

Los valores de fase absoluta o valores de diferencia de fase pueden captar diferencias de tiempo de llegada entre ambos oídos, que también son indicaciones importantes para el azimut de fuente de sonido. El valor de coherencia puede añadirse para simular diferencias de estructura finas entre ambos oídos que no pueden contribuir a diferencias de nivel y/o fase de las que se ha calculado un valor promedio por banda (de parámetro).

A continuación, se describe un ejemplo específico del procesamiento mediante el procesador 407 espacial. En el ejemplo, se describe la posición de una fuente de sonido con respecto al oyente por un ángulo \alpha de azimut y una distancia D, tal como se muestra en la figura 6. Una fuente de sonido colocada a la izquierda del oyente corresponde a ángulos de azimut positivos. La función de transferencia desde la posición de fuente de sonido al oído izquierdo se designa mediante H_{L}; la función de transferencia desde la posición de fuente de sonido al oído derecho mediante
H_{R}.

Las funciones de transferencia H_{L} y H_{R} dependen del ángulo \alpha de azimut, la distancia D y la elevación \varepsilon (no mostrada en la figura 6). En una representación paramétrica, las funciones de transferencia pueden describirse como un conjunto de tres parámetros por subbanda b_{h} de frecuencia HRTF. Este conjunto de parámetros incluye un nivel promedio por banda de frecuencia para la función P_{l}(\alpha,\varepsilon,D,b_{h}) de transferencia izquierda, un nivel promedio por banda de frecuencia para la función P_{r}(\alpha,\varepsilon,D,b_{h}) de transferencia derecha, una diferencia de fase promedio por banda \phi(\alpha,\varepsilon,D,b_{h}) de frecuencia. Una posible extensión de este conjunto es incluir una medición de coherencia de las funciones de transferencia izquierda y derecha por banda \rho(\alpha,\varepsilon,D,b_{h}) de frecuencia de HRTF. Estos parámetros pueden almacenarse en una base de datos como una función de azimut, elevación, distancia y banda de frecuencia, y/o puede calcularse usando alguna función analítica. Por ejemplo, los parámetros P_{l} y P_{r} podrían almacenarse como una función de azimut y elevación, mientras que el efecto de distancia se consigue dividiendo estos valores entre la propia distancia (suponiendo una relación de 1/D entre nivel de señal y distancia). A continuación, la designación P_{l}(Lf) designa el parámetro P_{l} espacial correspondiente a la posición de fuente de sonido del canal Lf.

Debe observarse que el número de subbandas de frecuencia para parametrización (b_{h}) HRTF y el ancho de banda de cada subbanda no es necesariamente igual a la resolución de frecuencia del banco (k) de filtros (QMF) usado por el procesador 407 espacial o la resolución de parámetro espacial del procesador 403 de mezcla descendente y las bandas (b_{p}) de parámetros asociados. Por ejemplo, el banco de filtros híbrido QMF puede tener 71 canales, puede parametrizarse una HRTF en 28 bandas de frecuencia, y podría realizarse una codificación espacial usando 10 bandas de parámetros. En estos casos, puede aplicarse una correlación de parámetros espaciales y de HRTF con un índice híbrido QMF por ejemplo usando una tabla de consulta o una función de interpolación o formación de valores promedio. Los siguientes índices de parámetro se usarán en la descripción:

\vskip1.000000\baselineskip

4

\vskip1.000000\baselineskip

En el ejemplo específico, el procesador 407 espacial divide la primera señal estéreo en subbandas de frecuencia adecuadas mediante filtrado de QMF. Para cada subbanda los valores L_{B}, R_{B} de subbanda se determinan como:

5

donde L_{O}, R_{O} son los valores de subbanda correspondientes de la primera señal estéreo y los valores h_{j,k} de matriz son parámetros que se determinan a partir de parámetros de HRTF y los datos paramétricos asociados de mezcla descendente.

Los coeficientes de matriz tienen como objetivo reproducir las propiedades de la mezcla descendente como si todos los canales individuales se procesaran con HRTF correspondientes a la posición de fuente de sonido deseada e incluyen el efecto combinado de decodificar la señal multicanal y realizar una síntesis HRTF de la misma.

\newpage

Específicamente, y con referencia a la figura 5 y la descripción de la misma, los valores de matriz pueden determinarse como:

\vskip1.000000\baselineskip

6

\vskip1.000000\baselineskip

donde m_{k,l} son parámetros determinados en respuesta a los datos paramétricos generados por el mezclador 505 descendente TTT.

\vskip1.000000\baselineskip

Específicamente las señales L, R y C se generan a partir de la señal L_{0}, R_{0} de mezcla descendente estéreo según:

\vskip1.000000\baselineskip

7

\vskip1.000000\baselineskip

donde m_{k,l} dependen de dos coeficientes c_{1} y c_{2} de predicción, que forman parte de los parámetros espaciales transmitidos:

8

\vskip1.000000\baselineskip

Los valores H_{J}(X) se determinan en respuesta a los datos de parámetro de HRTF para el canal X al canal J de salida estéreo de la segunda señal estéreo así como parámetros de mezcla descendente apropiados.

Específicamente, los parámetros H_{J}(X) se refieren a las señales de mezcla descendente izquierda (L) y derecha (R) generadas mediante los dos mezcladores 501, 503 descendentes TTO y pueden determinarse en respuesta a los datos de parámetro de HRTF para los dos canales mezclados de manera descendente. Específicamente, puede usarse una combinación ponderada de los parámetros de HRTF para los dos canales individuales izquierdos (Lf y Ls) o derechos (Rf y Rs). Los parámetros individuales pueden ponderarse mediante la energía relativa de las señales individuales. Como un ejemplo específico, los siguientes valores pueden determinarse para la señal (L) izquierda:

\vskip1.000000\baselineskip

9

donde los pesos w_{x} vienen dados por:

10

y CLD_{1} es la "Diferencia de Nivel de Canal" entre el frontal izquierdo (Lf) y el envolvente izquierdo (Ls) definida en decibelios (que forma parte del flujo de bits de parámetro espacial):

11

siendo \sigma_{lf}^{2} la potencia en una subbanda de parámetros del canal Lf, y \sigma_{ls}^{2} la potencia en la subbanda correspondiente del canal Ls.

De manera similar, pueden determinarse los siguientes valores para la señal (R) derecha:

12

13

y para la señal (C) central:

14

Por tanto, usando el enfoque descrito, un procesamiento espacial de baja complejidad puede permitir generar una señal espacial virtual binaural basándose en la señal multicanal mezclada de manera descendente.

Tal como se mencionó, una ventaja del enfoque descrito es que las subbandas de frecuencia de los parámetros de mezcla descendente asociados, el procesamiento espacial mediante el procesador 407 espacial y los parámetros de HRTF no tienen que ser los mismos. Por ejemplo, puede realizarse una correlación entre parámetros de una subbanda con las subbandas del procesamiento espacial. Por ejemplo, si una subbanda de procesamiento espacial cubre un intervalo de frecuencia correspondiente a dos subbandas de parámetros de HRTF, el procesador 407 espacial puede simplemente aplicar un procesamiento (individual) en las subbandas de parámetros de HRTF, usando el mismo parámetro espacial para todas las subbandas de parámetros de HRTF que corresponden a ese parámetro espacial.

En algunas realizaciones, el codificador 309 puede disponerse de modo que incluya datos de posición de fuente de sonido lo que permite a un decodificador identificar los datos de posición deseados de una o más de las fuentes de sonido en el flujo de salida. Esto permite al decodificador determinar los parámetros de HRTF aplicados mediante el codificador 309 permitiendo de este modo al mismo invertir la operación del procesador 407 espacial. De manera adicional o alternativa, el codificador puede disponerse para incluir al menos algunos de los datos de parámetro de HRTF en el flujo de salida.

Por tanto, opcionalmente, los parámetros de HRTF y/o los datos de posición de altavoz pueden incluirse en el flujo de salida. Esto puede permitir por ejemplo una actualización dinámica de los datos de posición de altavoz como una función de tiempo (en el caso de transmisión de posición de altavoz) o el uso de datos de HRTF individualizados (en el caso de transmisión de parámetros de HRTF).

En el caso de que se transmitan parámetros de HRTF como parte del flujo de bits, al menos los parámetros P_{l}, P_{r} y \phi pueden transmitirse para cada banda de frecuencia y para cada posición de fuente de sonido. Los parámetros P_{l}, P_{r} de magnitud pueden cuantificarse usando un cuantificador lineal, o pueden cuantificarse en un dominio logarítmico. Los ángulos \phi de fase pueden cuantificarse de manera lineal. Los índices de cuantificador pueden entonces incluirse en el flujo de bits.

Además, los ángulos \phi de fase pueden sumarse para dar cero para frecuencias normalmente superiores a 2,5 kHz, ya que la información de fase (interaural) es de manera preceptiva irrelevante para frecuencias elevadas.

Tras la cuantificación, pueden aplicarse diversos esquemas de compresión sin pérdida a los índices de cuantificador de parámetros de HRTF. Por ejemplo, puede aplicarse codificación de entropía, posiblemente en combinación con codificación diferencial por bandas de frecuencia. Alternativamente, parámetros de HRTF pueden representarse como una diferencia con respecto a un conjunto de parámetros de HRTF común o promedio. Esto es válido especialmente para los parámetros de magnitud. De otro modo, puede alcanzarse una aproximación a los parámetros de fase de manera bastante precisa simplemente codificando la elevación y el azimut. Calculando la diferencia de tiempo de llegada [normalmente la diferencia de tiempo de llegada es prácticamente independiente de la frecuencia; en la mayoría de los casos depende del azimut y la elevación], dada la diferencia de trayectoria a ambos oídos, pueden derivarse los parámetros de fase correspondientes. Además pueden codificarse diferencias de medición de manera diferente a los valores predichos basándose en los valores de azimut y elevación.

También pueden aplicarse esquemas de compresión con pérdida, tal como la descomposición de componentes principales, seguida por la transmisión de los pocos pesos PCA más importantes.

La figura 7 ilustra un ejemplo de un decodificador multicanal según algunas realizaciones de la invención. El decodificador puede ser específicamente el decodificador 315 de la figura 3.

El decodificador 315 comprende un receptor 701 de entrada que recibe el flujo de salida desde el codificador 309. El receptor 701 de entrada demultiplexa el flujo de datos recibido y proporciona los datos relevantes a los elementos funcionales apropiados.

El receptor 701 de entrada se acopla a un procesador 703 de decodificación al que se alimentan los datos codificados de la segunda señal estéreo. El procesador 703 de decodificación decodifica estos datos para generar la señal espacial virtual binaural producida por el procesador 407 espacial.

El procesador 703 de decodificación se acopla a un procesador 705 de inversión que se dispone para invertir la operación realizada por el procesador 407 espacial. Por tanto, el procesador 705 de inversión genera la señal estéreo mezclada de manera descendente producida por el procesador 403 de mezcla descendente.

Específicamente, el procesador 705 de inversión genera la señal estéreo de mezcla descendente aplicando una multiplicación de matriz a los valores de subbanda de la señal espacial virtual binaural recibida. La multiplicación de matriz se realiza mediante una matriz correspondiente a la matriz inversa a la usada por el procesador 407 espacial invirtiendo de este modo esta operación:

15

\vskip1.000000\baselineskip

Esta multiplicación de matriz puede describirse también como:

16

Los coeficientes q_{k,l} de matriz se determinan a partir de los datos paramétricos asociados con la señal de mezcla descendente (y se reciben en el flujo de datos desde el decodificador 309) así como los datos de parámetro de HRTF. Específicamente, el enfoque descrito con referencia al codificador 309 puede usarse también por el decodificador 409 para generar los coeficientes h_{xy} de matriz. Los coeficientes q_{xy} de matriz pueden hallarse entonces mediante una inversión de matriz convencional.

El procesador 705 de inversión se acopla a un procesador 707 de parámetros que determina los datos de parámetro de HRTF que van a usarse. Los parámetros de HRTF pueden incluirse en algunas realizaciones en el flujo de datos recibido y pueden extraerse simplemente del mismo. En otras realizaciones, diferentes parámetros de HRTF pueden almacenarse por ejemplo en una base de datos para diferentes posiciones de fuente de sonido y el procesador 707 de parámetros puede determinar los parámetros de HRTF extrayendo los valores correspondientes a la posición de fuente de señal deseada. En algunas realizaciones, la/las posición/posiciones de fuente de señal deseada/deseadas puede/pueden incluirse en el flujo de datos desde el codificador 309. El procesador 707 de parámetros puede extraer esta información y usarla para determinar los parámetros de HRTF. Por ejemplo, puede recuperar los parámetros de HRTF almacenados para la/las posición/posiciones de fuente de sonido de indicación.

En algunas realizaciones, la señal estéreo generada por el procesador de inversión puede emitirse directamente. Sin embargo, en otras realizaciones, puede alimentarse a un decodificador 709 multicanal que puede generar la señal de canal M a partir de la señal estéreo de mezcla descendente y los datos paramétricos recibidos.

En el ejemplo, la inversión de la síntesis binaural 3D se realiza en el dominio de subbanda, tal como en subbandas de frecuencia de QMF o Fourier. Por tanto, el procesador 703 de decodificación puede comprender un banco de filtros QMF o transformada de Fourier rápida (FFT) para generar las muestras de subbanda alimentadas al procesador 705 de inversión. De manera similar, el procesador 705 de inversión o el decodificador 709 multicanal puede comprender una FFT inversa o banco de filtros QMF para convertir las señales de vuelta en el dominio de tiempo.

La generación de una señal binaural 3D en el lado del codificador permite proporcionar experiencias de escucha espacial a un usuario de un casco con auriculares mediante un codificador estéreo convencional. Por tanto, el enfoque descrito tiene la ventaja de que dispositivos estéreo legados pueden reproducir una señal binaural 3D. Como tal, con el fin de reproducir señales binaurales 3D, no es necesario aplicar ningún procesamiento posterior adicional dando como resultado una solución de baja complejidad.

Sin embargo, en un enfoque de este tipo, se usa normalmente una HRTF generalizada que en algunos casos puede llevar a una generación espacial subóptima en comparación con una generación de la señal binaural 3D en la decodificación usando datos de HRTF dedicados optimizados para el usuario específico.

Específicamente, a veces pueden producirse una percepción limitada de distancia y posibles errores de localización de fuente de sonido del uso de HRTF no individualizadas (tal como respuestas al impulso medidas para una cabeza artificial u otra persona). En principio, las HRTF difieren de una persona a otra debido a diferencias en la geometría anatómica del cuerpo humano. Resultados óptimos en cuanto a una localización correcta de fuente de sonido pueden por tanto conseguirse mejor con datos de HRTF individualizados.

En algunas realizaciones, el decodificador 315 comprende además una funcionalidad para en primer lugar invertir el procesamiento espacial del codificador 309 seguido por una generación de una señal binaural 3D usando datos de HRTF locales y específicamente usando datos de HRTF individuales optimizados para el usuario específico. Por tanto, en esta realización, el decodificador 315 genera un par de canales de salida binaurales modificando la señal estéreo mezclada de manera descendente usando los datos paramétricos asociados y datos de parámetro de HRTF que son diferentes a los datos (de HRTF) usados en el codificador 309. Por tanto, este enfoque proporciona una combinación de síntesis 3D en el lado del codificador, inversión en el lado del decodificador, seguido por otra fase de síntesis 3D en el lado del decodificador.

Una ventaja de un enfoque de este tipo es que los dispositivos estéreo legados tendrán señales binaurales 3D como salida proporcionando una calidad 3D básica, mientras que los decodificadores mejorados tienen la opción de usar HRTF personalizadas que permiten una calidad 3D mejorada. Por tanto, tanto la síntesis 3D compatible legada como la síntesis 3D dedicada de alta calidad se permiten en el mismo sistema de audio.

Un simple ejemplo de un sistema de este tipo se ilustra en la figura 8 que muestra cómo un procesador 801 espacial adicional puede añadirse al decodificador de la figura 7 para proporcionar una señal de salida binaural 3D adaptada. En algunas realizaciones, el procesador 801 espacial puede simplemente proporcionar una síntesis binaural 3D pura simple usando funciones HRTF individuales para cada uno de los canales de audio. Por tanto, el decodificador puede recrear la señal multicanal original y convertirla en una señal binaural 3D usando filtrado de HRTF
adaptado.

En otras realizaciones, puede combinarse la inversión de la síntesis de codificador y la síntesis de decodificador para proporcionar una operación de complejidad inferior. Específicamente, las HRTF individualizadas usadas para la síntesis de decodificador pueden parametrizarse y combinarse con (la inversa de) los parámetros usados por la síntesis 3D de codificador.

Más específicamente, tal como se describió anteriormente, la síntesis de codificador implica muestras de subbanda estéreo de multiplicación de las señales mezcladas de manera descendente por una matriz de 2x2:

17

donde L_{O}, R_{O} son los valores de subbanda correspondientes de la señal estéreo mezclada de manera descendente y los valores h_{j,k} de matriz son parámetros que se determinan a partir de los parámetros de HRTF y los datos paramétricos asociados de mezcla descendente tal como se describió anteriormente.

La inversión realizada mediante el procesador 705 de inversión puede darse entonces por:

18

donde L_{B}, R_{B} son los valores de subbanda correspondientes de la señal estéreo mezclada de manera descendente de decodificador.

Para garantizar un proceso de inversión en el lado del decodificador apropiado, los parámetros de HRTF usados en el codificador para generar la señal binaural 3D, y los parámetros de HRTF usados para invertir el procesamiento binaural 3D son idénticos o lo suficientemente similares. Puesto que un flujo de bits dará en general servicio a varios decodificadores, una personalización de la mezcla descendente binaural 3D es difícil de obtener mediante la síntesis de codificador.

Sin embargo, puesto que el proceso de síntesis binaural 3D puede invertirse el procesador 705 de inversión regenera la señal estéreo mezclada de manera descendente que se usa entonces para generar una señal binaural 3D basándose en HRTF individualizadas.

Específicamente, en analogía con la operación en el codificador 309, la síntesis binaural 3D en el decodificador 315 puede generarse mediante una simple operación de matriz de 2x2 por subbandas en la señal L_{O}, R_{O} de mezcla descendente para generar la señal L_{B'}, R_{B'} binaural 3D:

19

donde los parámetros p_{x,y} se determinan basándose en las HRTF individualizadas de la misma manera en que se generan h_{x,y} mediante el codificador 309 basándose en la HRTF general. Específicamente, en el decodificador 309, los parámetros h_{x,y} se determinan a partir de los datos paramétricos multicanal y las HRTF generales. Puesto que los datos paramétricos multicanal se transmiten al decodificador 315, éste puede usar el mismo enfoque para calcular p_{x,y} basándose en la HRTF individual.

Combinando esto con la operación del procesador 705 de inversión

20

En esta ecuación, las entradas h_{x,y} de matriz se obtienen usando el conjunto de HRTF no individualizado general usado en el codificador, mientras que las entradas p_{x,y} de matriz se obtienen usando un conjunto de HRTF diferente y preferiblemente personalizado. Por tanto la señal L_{B}, R_{B} de entrada binaural 3D generada usando datos de HRTF no individualizados se transforma en una señal L_{B'}, R_{B'} de salida binaural 3D alternativa usando diferentes datos de HRTF personalizados.

\newpage

Además, tal como se ilustra, el enfoque combinado de la inversión de la síntesis de codificador y la síntesis de decodificador puede conseguirse mediante una simple operación de matriz de 2x2. Por tanto la complejidad de cálculo de este proceso combinado es prácticamente la misma que para una simple inversión binaural 3D.

La figura 9 ilustra un ejemplo del decodificador 315 que funciona según los principios anteriormente descritos. Específicamente, las muestras de subbanda estéreo de la mezcla descendente estéreo binaural 3D desde el codificador 309 se alimentan al procesador 705 de inversión que regenera las muestras de mezcla descendente estéreo originales mediante una operación de matriz de 2x2.

21

Las muestras de subbanda resultantes se alimentan a una unidad 901 de síntesis espacial que genera una señal binaural 3D individualizada multiplicando estas muestras por una matriz de 2x2

22

Los coeficientes de matriz se generan mediante una unidad (903) de conversión de parámetros que genera los parámetros basándose en la HRTF individualizada y los datos de extensión multicanal recibidos desde el codificador 309.

Las muestras L_{B'}, R_{B'} de subbanda de síntesis se alimentan a una transformada 905 de dominio de subbanda a tiempo que genera las señales de dominio de tiempo binaurales 3D que pueden proporcionarse a un usuario.

Aunque la figura 9 ilustra las etapas de inversión 3D basándose en HRTF no individualizadas y la síntesis 3D basándose en HRTF individualizadas como operaciones secuenciales mediante diferentes unidades funcionales, se apreciará que en muchas realizaciones estas operaciones se aplican simultáneamente mediante una aplicación de matriz única. Específicamente, se calcula la matriz de 2x2

23

y las muestras de salida se calculan como

24

Se apreciará que el sistema descrito proporciona una serie de ventajas que incluye:

- ninguna o poca degradación de calidad (perceptiva) de la reconstrucción multicanal ya que el procesamiento estéreo espacial puede invertirse en decodificadores multicanal.

- Puede proporcionarse una experiencia estéreo binaural espacial (3D) incluso mediante decodificadores estéreo convencionales.

- Complejidad reducida en comparación con procedimientos de posicionamiento espacial existentes. La complejidad se reduce de varias maneras:

- almacenamiento eficaz de parámetros de HRTF. En vez de almacenar respuestas al impulso de HRTF, sólo se usa un número limitado de parámetros para caracterizar las HRTF.

\global\parskip0.930000\baselineskip

- Procesamiento 3D eficaz. Puesto que las HRTF se caracterizan como parámetros en una resolución de frecuencia limitada, y la aplicación de parámetros de HRTF se realiza en el dominio de parámetros (con un muestreo descendente elevado), la fase de síntesis espacial es más eficaz que los procedimientos de síntesis convencionales basados en una convolución de HRTF completa.

- El procesamiento requerido puede realizarse por ejemplo en el dominio de QMF, dando como resultado una menor carga de memoria y de cálculo que los procedimientos basados en FFT.

- Nuevo uso eficaz de bloques de formación de sonido envolvente existentes (tal como funcionalidades de codificación/decodificación de sonido envolvente MPEG convencionales) que permite una complejidad de implementación mínima.

- Posibilidad de personalización mediante modificación de los datos de HRTF (parametrizados) transmitidos mediante el codificador.

- Las posiciones de fuente de sonido pueden cambiar sobre la marcha mediante información de posición transmitida.

La figura 10 ilustra un procedimiento de codificación de audio según algunas realizaciones de la invención.

El procedimiento se inicia en la etapa 1001 en la que se recibe una señal de audio de canal M (M>2).

A la etapa 1001 le sigue la etapa 1003 en la que la señal de audio de canal M se mezcla de manera descendente para dar una primera señal estéreo y datos paramétricos asociados.

A la etapa 1003 le sigue la etapa 1005 en la que la primera señal estéreo se modifica para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro de función de transferencia relativa a la cabeza (HRTF) espacial. La segunda señal estéreo es una señal espacial virtual binaural.

A la etapa 1005 le sigue la etapa 1007 en la que la segunda señal estéreo se codifica para generar datos codificados.

A la etapa 1007 le sigue la etapa 1009 en la que se genera un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.

El procedimiento se inicia en la etapa 1101 en la que un decodificador recibe datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M, donde M>2. La primera señal estéreo es una señal espacial virtual binaural.

A la etapa 1101 le sigue la etapa 1103 en la que la primera señal estéreo se modifica para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y datos de parámetro de función de transferencia relativa a la cabeza (HRTF) espacial asociados con la primera señal estéreo.

A la etapa 1103 le sigue la etapa 1105 opcional en la que se genera la señal de audio de canal M en respuesta a la señal estéreo mezclada de manera descendente y los datos paramétricos.

Se apreciará que por motivos de claridad la descripción anterior ha descrito realizaciones de la invención con referencia a diferentes procesadores y unidades funcionales. Sin embargo, será evidente que puede usarse cualquier distribución adecuada de funcionalidad entre diferentes procesadores o unidades funcionales sin afectar a la invención. Por ejemplo, la funcionalidad ilustrada para su realización mediante controladores o procesadores separados puede realizarse mediante el mismo procesador o los mismos controladores. Por tanto, las referencias a unidades funcionales específicas sólo deben considerarse como referencias a medios adecuados para proporcionar la funcionalidad descrita en lugar de indicativas de una estructura u organización lógica o física estricta.

La invención puede implementarse en cualquier forma adecuada incluyendo hardware, software, firmware o cualquier combinación de los mismos. La invención puede implementarse opcionalmente al menos en parte como software informático que se ejecute en uno o más procesadores de datos y/o procesadores de señal digital. Los elementos y componentes de una realización de la invención pueden implementarse de manera física, funcional y lógica de cualquier manera adecuada. De hecho, la funcionalidad puede implementarse en una única unidad, en una pluralidad de unidades o como parte de otras unidades funcionales. Como tal, la invención puede implementarse en una única unidad o puede distribuirse de manera física y funcional entre diferentes unidades y procesadores.

Aunque la presente invención se ha descrito en conexión con algunas realizaciones, no se pretende limitarla a la forma específica expuesta en el presente documento. En su lugar, el alcance de la presente invención se limita únicamente mediante las reivindicaciones adjuntas. Además, aunque pueda parecer que una característica se describe en conexión con realizaciones particulares, un experto en la técnica reconocerá que pueden combinarse diversas características de las realizaciones descritas según la invención. En las reivindicaciones, la expresión "que comprende/que comprenden/comprendiendo" no excluye la presencia de otros elementos o etapas.

Además, aunque se enumeran individualmente, una pluralidad de medios, elementos o etapas de procedimiento pueden implementarse por ejemplo mediante una única unidad o procesador. Además, aunque en diferentes reivindicaciones pueden incluirse características individuales, éstas pueden combinarse posiblemente de manera ventajosa, y la inclusión en diferentes reivindicaciones no implica que una combinación de características no sea factible y/o ventajosa. Además, la inclusión de una característica en una categoría de reivindicaciones no implica una limitación a esta categoría sino que en su lugar indica que la característica puede aplicarse igualmente a otras categorías de reivindicaciones según sea apropiado. Además, el orden de características en las reivindicaciones no implica ningún orden específico en el que deban aparecer las características y en particular el orden de las etapas individuales en una reivindicación de procedimiento no implica que las etapas deban realizarse en este orden. En su lugar, las etapas pueden realizarse en cualquier orden adecuado. Además, las referencias singulares no excluyen una pluralidad. Por tanto las referencias a "un", "una", "primera/primeros", "segunda/segundos", etc. no excluyen una pluralidad. Los símbolos de referencia en las reivindicaciones se proporcionan meramente como un ejemplo de aclaración y no deben considerarse como que limitan el alcance de las reivindicaciones de algún modo.

Claims

1. Codificador de audio que comprende:

- medios (401) para recibir una señal de audio de canal M donde M>2;

- medios (403) de mezclado descendente para mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados;

- medios (407) de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural;

- medios (411) para codificar la segunda señal estéreo para generar datos codificados; y

- medios (413) de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.

2. Decodificador de audio que comprende:

- medios (701, 703) para recibir datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2, siendo la primera señal estéreo una señal binaural correspondiente a la señal de audio de canal M;

- medios (705) de generación para modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y primeros datos de parámetro espacial para una función de transferencia perceptiva binaural, asociándose los primeros datos de parámetro espacial con la primera señal
estéreo.

3. Decodificador según la reivindicación 2, que comprende además medios (709) para generar la señal de audio de canal M en respuesta a la señal estéreo mezclada de manera descendente y los datos paramétricos.

4. Decodificador según la reivindicación 2, en el que los medios (705) de generación están dispuestos para generar la señal estéreo mezclada de manera descendente calculando valores de datos de subbanda para la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos asociados, los primeros datos de parámetro espacial y valores de datos de subbanda para la primera señal estéreo.

5. Decodificador según la reivindicación 4, en el que los medios (705) de generación están dispuestos para generar valores de subbanda para una primera subbanda de la señal estéreo mezclada de manera descendente en respuesta a una multiplicación de valores de subbanda estéreo correspondientes para la primera señal estéreo por una primera matriz de subbanda; comprendiendo además los medios (705) de generación medios de parámetro para determinar valores de datos de la primera matriz de subbanda en respuesta a datos paramétricos y datos de parámetro de función de transferencia perceptiva binaural para la primera subbanda.

6. Decodificador según la reivindicación 2 que comprende además:

- una unidad (709, 801) de decodificador espacial para producir un par de canales de salida binaurales modificando la primera señal estéreo en respuesta a los datos paramétricos asociados y segundos datos de parámetro espacial para una segunda función de transferencia perceptiva binaural, siendo los segundos datos de parámetro espacial diferentes de los primeros datos de parámetro espacial.

7. Decodificador según la reivindicación 6, en el que la unidad (709, 801) de decodificador espacial comprende:

- una unidad (903) de conversión de parámetros para convertir los datos paramétricos en parámetros de síntesis binaural usando los segundos datos de parámetro espacial, y

- una unidad (901) de síntesis espacial para sintetizar el par de canales binaurales usando los parámetros de síntesis binaural y la primera señal estéreo.

8. Decodificador según la reivindicación 7, en el que los parámetros de síntesis binaural comprenden coeficientes de matriz para una matriz de 2 por 2 que relacionan muestras estéreo de la señal estéreo mezclada de manera descendente con muestras estéreo del par de canales de salida binaurales.

9. Procedimiento de codificación de audio, comprendiendo el procedimiento:

- recibir (1001) una señal de audio de canal M donde M>2;

- mezclar de manera descendente (1003) la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados;

- modificar (1005) la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural;

- codificar (1007) la segunda señal estéreo para generar datos codificados; y

- generar (1009) un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.

\vskip1.000000\baselineskip

10. Receptor para recibir una señal de audio que comprende:

- medios (701, 703) para recibir datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2, siendo la primera señal estéreo una señal binaural correspondiente a la señal de audio de canal M; y

- medios (705) de generación para modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y datos de parámetro espacial para una función de transferencia perceptiva binaural, estando asociados los datos de parámetro espacial con la primera señal estéreo.

11. Transmisor (1101) para transmitir un flujo de datos de salida; comprendiendo el transmisor:

- medios (401) para recibir una señal de audio de canal M donde M>2;

- medios (411) para codificar la segunda señal estéreo para generar datos codificados;

- medios (413) de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados; y

- medios (311) para transmitir el flujo de datos de salida.

\vskip1.000000\baselineskip

12. Procedimiento para transmitir un flujo de datos de salida de audio, comprendiendo el procedimiento:

- recibir (1001) una señal de audio de canal M donde M>2;

- codificar (1007) la segunda señal estéreo para generar datos codificados; y

- generar (1009) un flujo de datos de salida de audio que comprende los datos codificados y los datos paramétricos asociados; y

- transmitir el flujo de datos de salida de audio.

13. Producto de programa informático para ejecutar el procedimiento según la reivindicación 11.