ES2339888T3 - Codificacion y decodificacion de audio. - Google Patents

Codificacion y decodificacion de audio. Download PDF

Info

Publication number
ES2339888T3
ES2339888T3 ES07705870T ES07705870T ES2339888T3 ES 2339888 T3 ES2339888 T3 ES 2339888T3 ES 07705870 T ES07705870 T ES 07705870T ES 07705870 T ES07705870 T ES 07705870T ES 2339888 T3 ES2339888 T3 ES 2339888T3
Authority
ES
Spain
Prior art keywords
signal
data
stereo
binaural
stereo signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES07705870T
Other languages
English (en)
Inventor
Dirk J. Breebaart
Erik G. P. Schuijers
Arnoldus W. J. Oomen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of ES2339888T3 publication Critical patent/ES2339888T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

Codificador de audio que comprende: - medios (401) para recibir una señal de audio de canal M donde M>2; - medios (403) de mezclado descendente para mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados; - medios (407) de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural; - medios (411) para codificar la segunda señal estéreo para generar datos codificados; y - medios (413) de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.

Description

Codificación y decodificación de audio.
La invención se refiere a codificación y/o decodificación de audio y en particular, aunque no exclusivamente, a codificación y/o decodificación de audio que implica una señal espacial virtual binaural.
La codificación digital de diversas señales de fuente se ha vuelto más importante de manera creciente durante las últimas décadas ya que la representación y comunicación de señales digitales ha sustituido de manera creciente la representación y comunicación analógica. Por ejemplo, la distribución de contenido de medios, tal como vídeo y música, se basa cada vez más en codificación de contenido digital.
Además, en la última década ha habido una tendencia a audio multicanal y específicamente a audio espacial que se extiende más allá de las señales estéreo convencionales. Por ejemplo, las grabaciones estéreo tradicionales sólo comprenden dos canales mientras que los sistemas de audio avanzados modernos usan normalmente cinco o seis canales, tal como en los sistemas de sonido envolvente 5.1 populares. Esto proporciona una experiencia de escucha con mayor implicación en la que el usuario puede estar rodeado por fuentes de sonido.
Se han empleado diversas técnicas y normas para la comunicación de señales multicanal de este tipo. Por ejemplo, pueden transmitirse seis canales discretos que representan un sistema envolvente 5.1 según normas tales como la codificación de audio avanzada (AAC) o las normas Dolby Digital.
Sin embargo, con el fin de proporcionar compatibilidad hacia atrás, se conoce mezclar de manera descendente el número superior de canales para dar un número inferior y específicamente se usa con frecuencia para mezclar de manera descendente una señal de sonido envolvente 5.1 para dar una señal estéreo permitiendo reproducir una señal estéreo mediante decodificadores (estéreo) legados y una señal 5.1 mediante decodificadores de sonido envolvente.
Un ejemplo es el procedimiento de codificación compatible hacia atrás MPEG2. Una señal multicanal se mezcla de manera descendente de modo que se obtiene una señal estéreo. Señales adicionales se codifican en la parte de datos auxiliares permitiendo que un decodificador multicanal MPEG2 genere una representación de la señal multicanal. Un decodificador MPEG1 descartará los datos auxiliares y por tanto sólo decodificará la mezcla descendente estéreo. La desventaja principal del procedimiento de codificación aplicado en MPEG2 es que la tasa de transmisión de datos adicional requerida para las señales adicionales está en el mismo orden de magnitud que la tasa de transmisión de datos requerida para codificar la señal estéreo. Por tanto, la tasa de transmisión de bits adicional para extender estéreo a audio multicanal es significativa.
Otros procedimientos existentes para la transmisión multicanal compatible hacia atrás sin información multicanal adicional pueden caracterizarse normalmente como procedimientos envolventes de matriz. Ejemplos de codificación de sonido envolvente de matriz incluyen procedimientos tales como Dolby Prologic II y Logic-7. El principio común de estos procedimientos es que realizan una multiplicación de matriz de los múltiples canales de la señal de entrada por una matriz no cuadrática adecuada generando de este modo una señal de salida con un número inferior de canales. Específicamente, un codificador de matriz aplica normalmente desplazamientos de fase a los canales envolventes antes de mezclarlos con los canales frontales y centrales.
A partir del documento WO2005/098826 se conoce un codificador de audio que genera una mezcla descendente estéreo y parámetros asociados a partir de una señal de audio multicanal. Un posprocesador, que usa parámetros de función de transferencia, genera una mezcla descendente estéreo procesada que se transmite a un decodificador junto con los parámetros asociados.
A partir del documento US2005/0273322 se conoce un codificador de audio, que genera una señal combinada, que comprende una mezcla descendente binaural y las señales de audio originales. La señal combinada se transmite a un decodificador como flujo de bits de extensión y núcleo sin ningún parámetro.
Otro motivo para una conversión de canales es la eficacia de codificación. Se ha encontrado que por ejemplo las señales de audio de sonido envolvente pueden codificarse como señales de audio de canal estéreo combinadas con un flujo de bits de parámetro que describe las propiedades espaciales de la señal de audio. El decodificador puede reproducir las señales de audio estéreo con un grado de precisión muy satisfactorio. De este modo, pueden obtenerse ahorros sustanciales de tasa de transmisión de bits.
Hay varios parámetros que pueden usarse para describir las propiedades espaciales de señales de audio. Un parámetro de este tipo es la correlación cruzada entre canales, tal como la correlación cruzada entre el canal izquierdo y el canal derecho para señales estéreo. Otro parámetro es la proporción de potencia de los canales. En los denominados codificadores de audio espaciales (paramétricos) éstos y otros parámetros se extraen de la señal de audio original para producir una señal de audio que tiene un número reducido de canales, por ejemplo sólo un único canal, más un conjunto de parámetros que describen las propiedades espaciales de la señal de audio original. En los denominados decodificadores de audio espaciales (paramétricos), vuelven a emplearse las propiedades espaciales tal como se describen por los parámetros espaciales transmitidos.
La codificación de audio espacial de este tipo preferiblemente emplea una estructura jerárquica en cascada o basada en árboles que comprende unidades convencionales en el codificador y el decodificador. En el codificador, estas unidades convencionales pueden ser mezcladores descendentes que combinan canales de modo que se obtiene un número inferior de canales tales como los mezcladores descendentes 2-a-1, 3-a-1, 3-a-2, etc., mientras que en el decodificador las unidades convencionales correspondientes pueden ser mezcladores ascendentes que dividen canales de modo que se obtiene un número superior de canales tales como los mezcladores ascendentes 1-a-2, 2-a-3.
En la actualidad el posicionamiento de fuente de sonido 3D está ganando interés, especialmente en el dominio de los móviles. Los efectos de sonido y la reproducción de música en los juegos de móviles pueden añadir un valor significativo a la experiencia del consumidor cuando se posicionan en 3D, creando de manera eficaz un efecto 3D "out-of-head". Específicamente, se conoce grabar y reproducir señales de audio binaurales que contienen información direccional específica a la que es sensible el oído humano. Las grabaciones binaurales se realizan normalmente usando dos micrófonos montados en una cabeza humana artificial, de modo que el sonido grabado corresponde al sonido captado por el oído humano e incluye cualquier influencia debida a la forma de la cabeza y los oídos. Las grabaciones binaurales difieren de las grabaciones estéreo (esto es, estereofónicas) porque la reproducción de una grabación binaural está prevista en general para un casco con auriculares o auriculares, mientras que una grabación estéreo se realiza en general para la reproducción mediante altavoces. Mientras que una grabación binaural permite una reproducción de toda la información espacial usando sólo dos canales, una grabación estéreo no proporcionaría la misma percepción espacial. Las grabaciones de canal dual regular (estereofónico) o de múltiples canales (por ejemplo 5.1) pueden transformarse en grabaciones binaurales realizando una convolución de cada señal regular con un conjunto de funciones de transferencia perceptiva. Las funciones de transferencia perceptiva de este tipo modelan la influencia de la cabeza humana, y posiblemente otros objetos, en la señal. Un tipo conocido ampliamente de la función de transferencia perceptiva espacial es la denominada función de transferencia relativa a la cabeza (HRTF, Head-Related Transfer Function). Un tipo alternativo de función de transferencia perceptiva espacial, que también tiene en cuenta las reflexiones causadas por las paredes, el techo y el suelo de un recinto, es la respuesta impulsiva binaural de un recinto (BRIR, Binaural Room Impulse Response).
Normalmente, los algoritmos de posicionamiento 3D emplean las HRTF, que describen la transferencia desde una determinada posición de fuente de sonido a los tímpanos por medio de una respuesta al impulso. El posicionamiento de fuente de sonido 3D puede aplicarse a señales multicanal por medio de HRTF permitiendo de este modo que una señal binaural proporcione información de sonido espacial a un usuario que por ejemplo usa un par de auriculares.
Se sabe que la percepción de elevación se facilita de manera predominante mediante surcos y picos específicos en los espectros que llegan a ambos oídos. Por otro lado, el azimut (percibido) de una fuente de sonido se capta en las indicaciones "binaurales", tales como diferencias de nivel y diferencias de tiempo de llegada entre las señales en los tímpanos. La percepción de distancia se facilita en su mayor parte mediante el nivel de señal global y, en caso de entornos reverberantes, mediante la proporción de energía directa y reverberante. En la mayoría de los casos se supone que especialmente en la cola de reverberación tardía, no hay indicaciones de localización de fuente de sonido
fiables.
Las indicaciones perceptivas para la elevación, el azimut y la distancia pueden captarse por medio de (pares de) respuestas de impulso; una respuesta de impulso para describir la transferencia desde una posición de fuente de sonido específica al oído izquierdo; y una para el oído derecho. Por tanto las indicaciones perceptivas para la elevación, el azimut y la distancia se determinan mediante las propiedades correspondientes de (del par de) las respuestas de impulso HRTF. En la mayoría de los casos, se mide un par de HRTF para un gran conjunto de posiciones de fuente de sonido; normalmente con una resolución espacial de aproximadamente 5 grados tanto en elevación como
azimut.
La síntesis 3D binaural convencional comprende el filtrado (la convolución) de una señal de entrada con un par de HRTF para la posición de fuente de sonido deseada. Sin embargo, puesto que las HRTF se miden normalmente en condiciones anecoicas, a menudo falta la percepción de "distancia" o localización "out-of-head". Aunque la convolución de una señal con HRTF anecoicas no es suficiente para la síntesis de sonido 3D, con frecuencia es preferible el uso de HRTF anecoicas desde un punto de vista de la complejidad y flexibilidad. El efecto de un entorno ecoico (requerido para la creación de la percepción de distancia) puede añadirse en una fase posterior, dejando cierta flexibilidad para el usuario final para modificar las propiedades acústicas del recinto. Además, puesto que a menudo se supone que la reverberación tardía es omnidireccional (sin indicaciones direccionales), este procedimiento de procesamiento es a menudo más eficaz que la convolución de cada fuente de sonido con un par de HRTF ecoicas. Además, aparte de los argumentos de complejidad y flexibilidad para la acústica del recinto, el uso de HRTF anecoicas tiene también ventajas para la síntesis de la señal "seca" (indicación direccional).
La investigación reciente en el campo del posicionamiento 3D ha demostrado que la resolución de frecuencia que se representa mediante las respuestas de impulso HRTF anecoicas es en muchos casos mayor de lo necesario. Específicamente, parece que tanto para los espectros de fase como de magnitud, una resolución de frecuencia no lineal tal como se propone por la escala ERB es suficiente para sintetizar fuentes de sonido 3D con una precisión que no es diferente de manera perceptiva del procesamiento con HRTF anecoicas completas. En otras palabras, los espectros de HRTF anecoicas no requieren una resolución espectral mayor que la resolución de frecuencia del sistema auditivo humano.
Un algoritmo de síntesis binaural convencional se resalta en la figura 1. Un conjunto de canales de entrada se filtra mediante un conjunto de HRTF. Cada señal de entrada se divide en dos señales (una componente izquierda "L", y una derecha "R"); cada una de estas señales se filtra posteriormente mediante una HRTF correspondiente a la posición de fuente de sonido deseada. Todas las señales del oído izquierdo se suman posteriormente para generar la señal de salida binaural izquierda, y las señales del oído derecho se suman para generar la señal de salida binaural derecha.
La convolución de HRTF puede realizarse en el dominio de tiempo, aunque a menudo se prefiere realizar el filtrado como producto en el dominio de frecuencia. En ese caso, la sumación también puede realizarse en el dominio de frecuencia.
Se conocen sistemas de decodificador que pueden recibir una señal codificada de sonido envolvente y generar una experiencia de sonido envolvente a partir de una señal binaural. Por ejemplo, se conocen sistemas de auricular que permiten convertir una señal de sonido envolvente en una señal binaural de sonido envolvente para proporcionar una experiencia de sonido envolvente para el usuario de los auriculares.
La figura 2 ilustra un sistema en el que un decodificador de envolvente MPEG recibe una señal estéreo con datos paramétricos espaciales. El flujo de bits de entrada se demultiplexa dando como resultado parámetros espaciales y un flujo de bits de mezcla descendente. El último flujo de bits se decodifica usando un decodificador mono o estéreo convencional. La mezcla descendente decodificada se decodifica mediante un decodificador espacial, que genera una salida multicanal basándose en los parámetros espaciales transmitidos. Finalmente, la salida multicanal se procesa entonces mediante una fase de síntesis binaural (similar a la de la figura 1) dando como resultado una señal de salida binaural que proporciona una experiencia de sonido envolvente para el usuario.
Sin embargo, un enfoque de este tipo tiene una serie de desventajas asociadas.
Por ejemplo, la cascada del decodificador de sonido envolvente y la síntesis binaural incluye el cálculo de una representación de señal multicanal como etapa intermedia, seguida por una convolución de HRTF y un mezclado descendente en la etapa de síntesis binaural. Esto puede dar como resultado una complejidad aumentada y un rendimiento reducido.
Además, el sistema es muy complejo. Por ejemplo los decodificadores espaciales funcionan normalmente en un dominio de subbanda (QMF). La convolución de HRTF por otro lado puede implementarse normalmente de la manera más eficaz en el dominio de FFT. Por tanto, es necesaria una cascada de un banco de filtros de síntesis QMF multicanal, una transformada FFT multicanal y una transformada FFT inversa estéreo, dando como resultado un sistema con demandas elevadas de cálculo.
La calidad de la experiencia de usuario proporcionada puede reducirse. Por ejemplo, los artefactos de codificación creados por el decodificador espacial para crear una reconstrucción multicanal aún serán audibles en la salida binaural (estéreo).
Además, el enfoque requiere decodificadores dedicados y realizar un procesamiento de señal complejo mediante los dispositivos de usuario individuales. Esto puede obstaculizar la aplicación en muchas situaciones. Por ejemplo, los dispositivos legados que sólo pueden decodificar la mezcla descendente estéreo no podrán proporcionar una experiencia de usuario de sonido envolvente.
Por tanto, una codificación/decodificación de audio mejorada sería ventajosa.
Por consiguiente, la invención pretende preferiblemente mitigar, aliviar o eliminar una o más de las desventajas anteriormente mencionadas de manera individual o en cualquier combinación.
Según un primer aspecto de la invención se proporciona un codificador de audio que comprende: medios para recibir una señal de audio de canal M donde M>2; medios de mezclado descendente para mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados; medios de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y los datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural; medios para codificar la segunda señal estéreo para generar datos codificados; y medios de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.
La invención puede permitir una codificación de audio mejorada. En particular, la invención puede permitir una codificación estéreo eficaz de señales multicanal a la vez que permite que decodificadores estéreo legados proporcionen una experiencia espacial mejorada. Además, la invención permite invertir un proceso de síntesis espacial virtual binaural en el decodificador permitiendo de este modo una decodificación multicanal de alta calidad. La invención puede permitir un codificador de baja complejidad y en particular puede permitir una generación de baja complejidad de una señal binaural. La invención puede permitir facilitar la implementación y volver a utilizar la funcionalidad.
La invención puede en particular proporcionar una determinación basada en parámetros de una señal espacial virtual binaural a partir de una señal multicanal.
La señal binaural puede ser específicamente una señal espacial virtual binaural tal como una señal estéreo binaural 3D virtual. La señal de audio de canal M puede ser una señal envolvente tal como una señal envolvente 5.1. ó 7.1. La señal espacial virtual binaural puede emular una posición de fuente de sonido para cada canal de la señal de audio de canal M. Los datos de parámetro espacial pueden comprender datos indicativos de una función de transferencia a partir de una posición de fuente de sonido pretendida al tímpano de un usuario previsto.
La función de transferencia perceptiva binaural puede ser por ejemplo una función de transferencia relativa a la cabeza (HRTF) o una respuesta impulsiva binaural de un recinto (BPIR).
Según una característica opcional de la invención, los medios de generación están dispuestos para generar la segunda señal estéreo calculando valores de datos de subbanda para la segunda señal estéreo en respuesta a los datos paramétricos asociados, los datos de parámetro espacial y los valores de datos de subbanda para la primera señal estéreo.
Esto puede permitir una codificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o una carga de cálculo reducida. Los intervalos de subbanda de frecuencia de la primera señal estéreo, la segunda señal estéreo, los datos paramétricos asociados y los datos de parámetro espacial pueden ser diferentes o algunas o todas las subbandas pueden ser sustancialmente idénticas para algunos o todos ellos.
Según una característica opcional de la invención, los medios de generación están dispuestos para generar valores de subbanda para una primera subbanda de la segunda señal estéreo en respuesta a una multiplicación de valores de subbanda estéreo correspondientes para la primera señal estéreo por una primera matriz de subbanda; comprendiendo además los medios de generación medios de parámetro para determinar valores de datos de la primera matriz de subbanda en respuesta a datos paramétricos asociados y datos de parámetro espacial para la primera subbanda.
Esto puede permitir una codificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o una carga de cálculo reducida. La invención puede en particular proporcionar una determinación basada en parámetros de una señal espacial virtual binaural a partir de una señal multicanal realizando operaciones de matriz en subbandas individuales. Los primeros valores de matriz de subbanda pueden reflejar el efecto combinado de una conexión en cascada de una decodificación multicanal y un filtrado de HRTF/BRIR de los múltiples canales resultantes. Puede realizarse una multiplicación de matriz de subbanda para todas las subbandas de la segunda señal estéreo.
Según una característica opcional de la invención, los medios de generación comprenden además medios para convertir un valor de datos de al menos uno de la primera señal estéreo, los datos paramétricos asociados y los datos de parámetro espacial asociados con una subbandas que tiene un intervalo de frecuencia diferente del primer intervalo de subbanda en un valor de datos correspondiente para la primera subbanda.
Esto puede permitir una codificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o una carga de cálculo reducida. Específicamente, la invención puede permitir que los diferentes procesos y algoritmos se basen en las divisiones de subbanda más adecuadas para el proceso individual.
Según una característica opcional de la invención, los medios de generación están dispuestos para determinar los valores de subbanda estéreo L_{B}, R_{B} para la primera subbanda de la segunda señal estéreo sustancialmente como:
1
donde L_{O}, R_{O} son valores de subbanda correspondientes de la primera señal estéreo y los medios de parámetro están dispuestos para determinar valores de datos de la matriz de multiplicación sustancialmente como:
2
3
donde m_{k,l} son parámetros determinados en respuesta a datos paramétricos asociados para una mezcla descendente mediante los medios de mezclado descendente de los canales L, R y C para dar la primera señal estéreo; y H_{J}(X) se determina en respuesta a los datos de parámetro espacial para el canal X al canal J de salida estéreo de la segunda señal estéreo.
Esto puede permitir una codificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o una carga de cálculo reducida.
Según una característica opcional de la invención, al menos uno de los canales L y R corresponde a una mezcla descendente de al menos dos canales mezclados de manera descendente y los medios de parámetro están dispuestos para determinar H_{J}(X) en respuesta a una combinación ponderada de los datos de parámetro espacial para los al menos dos canales mezclados de manera descendente.
Esto puede permitir una codificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o una carga de cálculo reducida.
Según una característica opcional de la invención, los medios de parámetro están dispuestos para determinar una ponderación de los datos de parámetro espacial para los al menos dos canales mezclados de manera descendente en respuesta a una medición de energía relativa para los al menos dos canales mezclados de manera descendente.
Esto puede permitir una codificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o una carga de cálculo reducida.
Según una característica opcional de la invención, los datos de parámetro espacial incluyen al menos un parámetro seleccionado del grupo que consiste en: un nivel promedio por parámetro de subbanda; un parámetro de tiempo de llegada promedio; una fase de al menos un canal estéreo; un parámetro de sincronismo; un parámetro de retardo de grupo; una fase entre canales estéreo; y un parámetro de correlación cruzada de canal.
Estos parámetros pueden proporcionar una codificación particularmente ventajosa y pueden en particular ser específicamente adecuados para el procesamiento de subbanda.
Según una característica opcional de la invención, los medios de salida están dispuestos para incluir datos de posición de fuente de sonido en el flujo de salida.
Esto puede permitir a un decodificador determinar datos de parámetro espacial adecuados y/o puede proporcionar una manera eficaz de indicar los datos de parámetro espacial con una baja sobrecarga. Esto puede proporcionar una manera eficaz de invertir el proceso de síntesis espacial virtual binaural en el decodificador permitiendo de este modo una decodificación multicanal de alta calidad. La característica puede permitir además una experiencia de usuario mejorada y puede permitir o facilitar la implementación de una señal espacial virtual binaural con fuentes de sonido en movimiento. La característica puede permitir de manera alternativa o adicional una adaptación de una síntesis espacial en un decodificador por ejemplo invirtiendo en primer lugar la síntesis realizada en el codificador seguido por una síntesis usando una función de transferencia perceptiva binaural adaptada o individualizada.
Según una característica opcional de la invención, los medios de salida están dispuestos para incluir al menos algunos de los datos de parámetro espacial en el flujo de salida.
Esto puede proporcionar una manera eficaz de invertir el proceso de síntesis espacial virtual binaural en el decodificador permitiendo de este modo una decodificación multicanal de alta calidad. La característica puede permitir además una experiencia de usuario mejorada y puede permitir o facilitar la implementación de una señal espacial virtual binaural con fuentes de sonido en movimiento. Los datos de parámetro espacial pueden incluirse de manera directa o indirecta en el flujo de salida por ejemplo incluyendo información que permite a un decodificador determinar los datos de parámetro espacial. La característica puede permitir de manera alternativa o adicional una adaptación de una síntesis espacial en un decodificador por ejemplo invirtiendo en primer lugar la síntesis realizada en el codificador seguido por una síntesis usando una función de transferencia perceptiva binaural adaptada o
individualizada.
Según una característica opcional de la invención, el codificador comprende además medios para determinar los datos de parámetro espacial en respuesta a posiciones de señal de sonido deseadas.
Esto puede permitir una codificación mejorada y/o facilitar la implementación. Las posiciones de señal de sonido deseadas pueden corresponder a las posiciones de las fuentes de sonido para los canales individuales de la señal de canal M.
Según otro aspecto de la invención se proporciona un decodificador de audio que comprende: medios para recibir datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2, siendo la primera señal estéreo una señal binaural correspondiente a la señal de audio de canal M; y medios de generación para modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y los primeros datos de parámetro espacial para una función de transferencia perceptiva binaural, estando asociados los primeros datos de parámetro espacial con la primera señal estéreo.
La invención puede permitir una decodificación de audio mejorada. En particular, la invención puede permitir una decodificación estéreo de alta calidad y específicamente puede permitir invertir un proceso de síntesis espacial virtual binaural de codificador en el decodificador. La invención puede permitir un decodificador de baja complejidad. La invención puede permitir facilitar la implementación y volver a utilizar la funcionalidad.
La señal binaural puede ser específicamente una señal espacial virtual binaural tal como una señal estéreo binaural 3D virtual. Los datos de parámetro espacial pueden comprender datos indicativos de una función de transferencia a partir de una posición de fuente de sonido prevista al oído de un usuario previsto. La función de transferencia perceptiva binaural puede ser por ejemplo una función de transferencia relativa a la cabeza (HRTF) o una respuesta impulsiva binaural de un recinto (BPIR).
Según una característica opcional de la invención, el decodificador de audio comprende además medios para generar la señal de audio de canal M en respuesta a la señal estéreo mezclada de manera descendente y los datos paramétricos.
La invención puede permitir una decodificación de audio mejorada. En particular, la invención puede permitir una decodificación multicanal de alta calidad y específicamente puede permitir invertir un proceso de síntesis espacial virtual binaural de codificador en el decodificador. La invención puede permitir un decodificador de baja complejidad. La invención puede permitir facilitar la implementación y volver a utilizar la funcionalidad.
La señal de audio de canal M puede ser una señal envolvente tal como una señal envolvente 5.1. ó 7. La señal binaural puede ser una señal espacial virtual que emula una posición de fuente de sonido para cada canal de la señal de audio de canal M.
Según una característica opcional de la invención, los medios de generación están dispuestos para generar la señal estéreo mezclada de manera descendente calculando valores de datos de subbanda para la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos asociados, los datos de parámetro espacial y valores de datos de subbanda para la primera señal estéreo.
Esto puede permitir una decodificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o carga de cálculo reducida. Los intervalos de subbanda de frecuencia de la primera señal estéreo, la señal estéreo mezclada de manera descendente, los datos paramétricos asociados y los datos de parámetro espacial pueden ser diferentes o algunas o todas las subbandas pueden ser sustancialmente idénticas para algunos o todos ellos.
Según una característica opcional de la invención, los medios de generación están dispuestos para generar valores de subbanda para una primera subbanda de la señal estéreo mezclada de manera descendente en respuesta a una multiplicación de valores de subbanda estéreo correspondientes para la primera señal estéreo por una primera matriz de subbanda;
comprendiendo además los medios de generación medios de parámetro para determinar valores de datos de la primera matriz de subbanda en respuesta a datos paramétricos y datos de parámetro espacial para la primera sub-
banda.
Esto puede permitir una decodificación mejorada y/o facilitar la implementación. Específicamente, la característica puede proporcionar una complejidad reducida y/o una carga de cálculo reducida. Los primeros valores de matriz de subbanda pueden reflejar el efecto combinado de una conexión en cascada de una decodificación multicanal y filtrado de HRTF/BRIR de los múltiples canales resultantes. Puede realizarse una multiplicación de matriz de subbanda para todas las subbandas de la señal estéreo mezclada de manera descendente.
Según una característica opcional de la invención, los datos de entrada comprenden al menos algunos datos de parámetro espacial.
Esto puede proporcionar una manera eficaz de invertir un proceso de síntesis espacial virtual binaural realizado en un codificador permitiendo de este modo una decodificación multicanal de alta calidad. La característica puede permitir además una experiencia de usuario mejorada y puede permitir o facilitar la implementación de una señal espacial virtual binaural con fuentes de sonido en movimiento. Los datos de parámetro espacial pueden incluirse de manera directa o indirecta en los datos de entrada por ejemplo puede ser cualquier información que permita al decodificador determinar los datos de parámetro espacial.
Según una característica opcional de la invención, los datos de entrada comprenden datos de posición de fuente de sonido y el decodificador comprende medios para determinar los datos de parámetro espacial en respuesta a los datos de posición de fuente de sonido.
Esto puede permitir una codificación mejorada y/o facilitar la implementación. Las posiciones de señal de sonido deseadas pueden corresponder a las posiciones de las fuentes de sonido para los canales individuales de la señal de canal M.
El decodificador puede comprender por ejemplo una memoria de datos que comprenda datos de parámetro espacial de HRTF asociados con diferentes posiciones de fuente de sonido y puede determinar los datos de parámetro espacial que van a usarse recuperando los datos de parámetro para las posiciones indicadas.
Según una característica opcional de la invención, el decodificador de audio comprende además una unidad de decodificador espacial para producir un par de canales de salida binaurales modificando la primera señal estéreo en respuesta a los datos paramétricos asociados y segundos datos de parámetro espacial para una segunda función de transferencia perceptiva binaural, siendo los segundos datos de parámetro espacial diferentes a los primeros datos de parámetro espacial.
La característica puede permitir una síntesis espacial mejorada y en particular puede permitir una señal binaural sintetizada espacial individual o adaptada que es en particular adecuada para el usuario específico. Esto puede conseguirse mientras aún se permite que los decodificadores estéreo legados generen señales binaurales espaciales sin requerir una síntesis espacial en el decodificador. Por tanto, puede conseguirse un sistema de audio mejorado. La segunda función de transferencia perceptiva binaural puede específicamente ser diferente a la función de transferencia perceptiva binaural de los primeros datos espaciales. La segunda función de transferencia perceptiva binaural y los segundos datos espaciales pueden adaptarse específicamente para el usuario individual del decodi-
ficador.
Según una característica opcional de la invención, el decodificador espacial comprende: una unidad de conversión de parámetros para convertir los datos paramétricos en parámetros de síntesis binaural usando los segundos datos de parámetro espacial, y una unidad de síntesis espacial para sintetizar el par de canales binaurales usando los parámetros de síntesis binaural y la primera señal estéreo.
Esto puede permitir un rendimiento mejorado y/o facilitar la implementación y/o una complejidad reducida. Los parámetros binaurales pueden ser parámetros que pueden multiplicarse con muestras de subbanda de la primera señal estéreo y/o la señal estéreo mezclada de manera descendente para generar muestras de subbanda para los canales binaurales. La multiplicación puede ser por ejemplo una multiplicación de matriz.
Según una característica opcional de la invención, los parámetros de síntesis binaural comprenden coeficientes de matriz para una matriz de 2 por 2 que relacionan muestras estéreo de la señal estéreo mezclada de manera descendente con muestras estéreo del par de canales de salida binaurales.
Esto puede permitir un rendimiento mejorado y/o facilitar la implementación y/o una complejidad reducida. Las muestras estéreo pueden ser muestras de subbanda estéreo de por ejemplo subbandas de frecuencia de transformada de Fourier o QMF.
Según una característica opcional de la invención, los parámetros de síntesis binaural comprenden coeficientes de matriz para una matriz de 2 por 2 que relacionan muestras de subbanda estéreo de la primera señal estéreo con muestras estéreo del par de canales de salida binaurales.
Esto puede permitir un rendimiento mejorado y/o facilitar la implementación y/o una complejidad reducida. Las muestras estéreo pueden ser muestras de subbanda estéreo de por ejemplo subbandas de frecuencia de transformada de Fourier o QMF.
Según otro aspecto de la invención se proporciona un procedimiento de codificación de audio, comprendiendo el procedimiento: recibir una señal de audio de canal M donde M>2; mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados; modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural; codificar la segunda señal estéreo para generar datos codificados; y generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.
Según otro aspecto de la invención se proporciona un procedimiento de decodificación de audio, comprendiendo el procedimiento:
- recibir datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2, siendo la primera señal estéreo una señal binaural correspondiente a la señal de audio de canal M; y
- modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y datos de parámetro espacial para una función de transferencia perceptiva binaural, estando asociados los datos de parámetro espacial con la primera señal estéreo.
Según otro aspecto de la invención se proporciona un receptor para recibir una señal de audio que comprende: medios para recibir datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2, siendo la primera señal estéreo una señal binaural correspondiente a la señal de audio de canal M; y medios de generación para modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y datos de parámetro espacial para una función de transferencia perceptiva binaural, estando asociados los datos de parámetro espacial con la primera señal estéreo.
Según otro aspecto de la invención se proporciona un transmisor para transmitir un flujo de datos de salida; comprendiendo el transmisor: medios para recibir una señal de audio de canal M donde M>2; medios de mezclado descendente para mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados; medios de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural; medios para codificar la segunda señal estéreo para generar datos codificados; medios de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados; y medios para transmitir el flujo de datos de salida.
Según otro aspecto de la invención se proporciona un sistema de transmisión para transmitir una señal de audio, comprendiendo el sistema de transmisión: un transmisor que comprende: medios para recibir una señal de audio de canal M donde M>2, medios de mezclado descendente para mezclar de manera descendiente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados, medios de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural, medios para codificar la segunda señal estéreo para generar datos codificados, medios de salida para generar un flujo de datos de salida de audio que comprende los datos codificados y los datos paramétricos asociados, y medios para transmitir el flujo de datos de salida de audio; y un receptor que comprende: medios para recibir el flujo de datos de salida de audio; y medios para modificar la segunda señal estéreo para generar la primera señal estéreo en respuesta a los datos paramétricos y los datos de parámetro espacial.
Según otro aspecto de la invención se proporciona un procedimiento para recibir una señal de audio, comprendiendo el procedimiento: recibir datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2, siendo la primera señal estéreo una señal binaural correspondiente a la señal de audio de canal M; y modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y datos de parámetro espacial para una función de transferencia perceptiva binaural, estando asociados los datos de parámetro espacial con la primera señal estéreo.
Según otro aspecto de la invención se proporciona un procedimiento para transmitir un flujo de datos de salida de audio, comprendiendo el procedimiento: recibir una señal de audio de canal M donde M>2; mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados; modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural; codificar la segunda señal estéreo para generar datos codificados; y generar un flujo de datos de salida de audio que comprende los datos codificados y los datos paramétricos asociados; y transmitir el flujo de datos de salida de audio.
Según otro aspecto de la invención se proporciona un procedimiento para transmitir y recibir una señal de audio, comprendiendo el procedimiento recibir una señal de audio de canal M donde M>2; mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados; modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural; codificar la segunda señal estéreo para generar datos codificados; y generar un flujo de datos de salida de audio que comprende los datos codificados y los datos paramétricos asociados; transmitir el flujo de datos de salida de audio; recibir el flujo de datos de salida de audio; y modificar la segunda señal estéreo para generar la primera señal estéreo en respuesta a los datos paramétricos y los datos de parámetro espacial.
Según otro aspecto de la invención se proporciona un producto de programa informático para ejecutar cualquiera de los procedimientos anteriormente descritos.
Según otro aspecto de la invención se proporciona un dispositivo de grabación de audio que comprende un codificador según el codificador anteriormente descrito.
Según otro aspecto de la invención se proporciona un dispositivo de reproducción de audio que comprende un decodificador según el decodificador anteriormente descrito.
Según otro aspecto de la invención se proporciona un flujo de datos de audio para una señal de audio que comprende una primera señal estéreo; y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2; en el que la primera señal estéreo es una señal binaural correspondiente a la señal de audio de canal M.
Según otro aspecto de la invención se proporciona un medio de almacenamiento que tiene almacenado en el mismo una señal tal como se describió anteriormente.
Estos y otros aspectos, características y ventajas de la invención resultarán evidentes a partir de y se aclararán con referencia a la/las realización/realizaciones descrita/descritas a continuación en el presente documento.
Se describirán realizaciones de la invención, únicamente a modo de ejemplo, con referencia a los dibujos, en los que
la figura 1 es una ilustración de una síntesis binaural según la técnica anterior;
la figura 2 es una ilustración de una cascada de un decodificador multicanal y una síntesis binaural;
la figura 3 ilustra un sistema de transmisión para la comunicación de una señal de audio según algunas realizaciones de la invención;
la figura 4 ilustra un codificador según algunas realizaciones de la invención;
la figura 5 ilustra un codificador de mezcla descendente paramétrico de sonido envolvente;
la figura 6 ilustra un ejemplo de una posición de fuente de sonido relativa a un usuario;
la figura 7 ilustra un decodificador multicanal según algunas realizaciones de la invención;
la figura 8 ilustra un decodificador según algunas realizaciones de la invención;
la figura 9 ilustra un decodificador según algunas realizaciones de la invención;
la figura 10 ilustra un procedimiento de codificación de audio según algunas realizaciones de la invención; y
la figura 11 ilustra un procedimiento de decodificación de audio según algunas realizaciones de la invención.
La figura 3 ilustra un sistema 300 de transmisión para la comunicación de una señal de audio según algunas realizaciones de la invención. El sistema 300 de transmisión comprende un transmisor 301 que se acopla a un receptor 303 a través de una red 305 que específicamente puede ser Internet.
En el ejemplo específico, el transmisor 301 es un dispositivo de grabación de señales y el receptor es un dispositivo 303 reproductor de señales aunque se apreciará que en otras realizaciones puede usarse un transmisor y un receptor en otras aplicaciones y para otros fines. Por ejemplo, el transmisor 301 y/o el receptor 303 pueden formar parte de una funcionalidad de transcodificación y por ejemplo pueden proporcionar una interfaz con otros destinos o fuentes de señal.
En el ejemplo específico en el que se soporta una función de grabación de señal, el transmisor 301 comprende un digitalizador 307 que recibe una señal analógica que se convierte en una señal PCM digital mediante muestreo y conversión analógico-digital. El digitalizador 307 muestrea una pluralidad de señales generando de este modo una señal multicanal.
El transmisor 301 se acopla al codificador 309 de la figura 1 que codifica la señal multicanal según un algoritmo de codificación. El codificador 300 se acopla a un transmisor 311 de red que recibe la señal codificada y establece una interfaz con Internet 305. El transmisor de red puede transmitir la señal codificada al receptor 303 a través de Internet 305.
El receptor 303 comprende un receptor 313 de red que establece una interfaz con Internet 305 y que se dispone para recibir la señal codificada desde el transmisor 301.
El receptor 311 de red se acopla a un decodificador 315. El decodificador 315 recibe la señal codificada y la decodifica según un algoritmo de decodificación.
En el ejemplo específico en el que se soporta una función de reproducción de señal, el receptor 303 comprende además un reproductor 317 de señales que recibe la señal de audio decodificada desde el decodificador 315 y la presenta al usuario. Específicamente, el reproductor 313 de señales puede comprender un convertidor digital-analógico, amplificadores y altavoces tal como se requiere para emitir la señal de audio decodificada.
En el ejemplo específico, el codificador 309 recibe una señal de sonido envolvente de cinco canales y la mezcla de manera descendente para dar una señal estéreo. La señal estéreo se procesa entonces posteriormente para generar una señal binaural que específicamente es una señal espacial virtual binaural en forma de mezcla descendente binaural 3D. Al usar una fase de procesamiento posterior 3D que trabaja sobre la mezcla descendente tras la codificación espacial, el procesamiento 3D puede invertirse en el decodificador 315. Como resultado, un decodificador multicanal para la reproducción en altavoces no mostrará ninguna degradación significativa de la calidad debido a la mezcla descendente estéreo modificada, mientras que al mismo tiempo, incluso decodificadores estéreo convencionales producirán una señal compatible 3D. Por tanto, el codificador 309 puede generar una señal que permita una decodificación multicanal de alta calidad y al mismo tiempo permita una experiencia pseudoespacial a partir de una salida estéreo tradicional tal como por ejemplo a partir de un decodificador tradicional que alimenta un par de auriculares.
La figura 4 ilustra el codificador 309 en más detalle.
El codificador 309 comprende un receptor 401 multicanal que recibe una señal de audio multicanal. Aunque los principios descritos se aplicarán a una señal multicanal que comprende cualquier número de canales superior a dos, el ejemplo específico se centrará en una señal de cinco canales correspondiente a una señal de sonido envolvente convencional (por motivos de claridad y brevedad se ignorará el canal de frecuencia inferior usado a menudo para señales envolventes. Sin embargo, resultará evidente para el experto en la técnica que la señal multicanal puede tener un canal de frecuencia baja adicional. Este canal puede combinarse por ejemplo con el canal central mediante un procesador de mezcla descendente).
El receptor 401 multicanal se acopla a un procesador 403 de mezcla descendente que se dispone para mezclar de manera descendente la señal de audio de cinco canales para dar una primera señal estéreo. Además, el procesador 403 de mezcla descendente genera datos 405 paramétricos asociados con la primera señal estéreo y que contienen indica-
ciones de audio e información que relaciona la primera señal estéreo con los canales originales de la señal multicanal.
El procesador 403 de mezcla descendente puede implementar por ejemplo un codificador multicanal envolvente MPEG. Un ejemplo del mismo se ilustra en la figura 5. En el ejemplo, la señal de entrada multicanal consiste en los canales Lf (frontal izquierdo), Ls (envolvente izquierdo), C (central), Rf (frontal derecho) y Rs (envolvente derecho). Los canales Lf y Ls se alimentan a un primer mezclador 501 descendente TTO (Two To One, dos a uno) que genera una mezcla descendente mono para un canal izquierdo (L) así como parámetros que relacionan los dos canales Lf y Ls de entrada con el canal L de salida. De manera similar, los canales Rf y Rs se alimentan a un segundo mezclador 503 descendente TTO que genera una mezcla descendente mono para un canal derecho (R) así como parámetros que relacionan los dos canales Rf y Rs de entrada con el canal R de salida. Los canales R, L y C se alimentan entonces a un mezclador 505 descendente TTT (Three To Two, tres a dos) que combina estas señales para generar una mezcla descendente estéreo y parámetros espaciales adicionales.
Los parámetros que resultan del mezclador 505 descendente TTT consisten normalmente en un par de coeficientes de predicción para cada banda de parámetros, o un par de diferencias de nivel para describir las proporciones de energía de las tres señales de entrada. Los parámetros de los mezcladores 501, 503 descendentes TTO consisten normalmente en diferencias de nivel y valores de correlación cruzada o coherencia entre las señales de entrada para cada banda de frecuencia.
La primera señal estéreo generada es por tanto una señal estéreo convencional estándar que comprende una serie de canales mezclados de manera descendente. Un decodificador multicanal puede recrear la señal multicanal original mezclando de manera ascendente y aplicando los datos paramétricos asociados. Sin embargo, un decodificador estéreo convencional únicamente proporcionará una señal estéreo perdiendo de este modo información espacial y produciendo una experiencia de usuario reducida.
Sin embargo, en el codificador 309, la señal estéreo mezclada de manera descendente no se codifica y transmite directamente. En su lugar, la primera señal estéreo se alimenta a un procesador 407 espacial al que se alimentan también los datos 405 de parámetro asociados a partir del procesador 403 de mezcla descendente. El procesador 407 espacial se acopla además a un procesador 409 HRTF.
El procesador 409 HRTF genera datos de parámetro de función de transferencia relativa a la cabeza (HRTF) usados por el procesador 407 espacial para generar una señal binaural 3D. Específicamente, una HRTF describe la función de transferencia a partir de una posición de fuente de sonido dada a los tímpanos por medio de una respuesta al impulso. El procesador 409 HRTF genera específicamente datos de parámetro de HRTF correspondientes a un valor de una función HRTF deseada en una subbanda de frecuencia. El procesador 409 HRTF puede por ejemplo calcular una HRTF para una posición de fuente de sonido de uno de los canales de la señal multicanal. Esta función de transferencia puede convertirse en un dominio de subbanda de frecuencia adecuado (tal como un dominio de subbanda QMF o FFT) y puede determinarse el valor de parámetro de HRTF correspondiente en cada subbanda.
Se apreciará que aunque la descripción se centra en una aplicación de funciones de transferencia relativas a la cabeza, el enfoque y los principios descritos se aplican igualmente a otras funciones de transferencia perceptiva binaural (espacial), tales como una función de respuesta impulsiva binaural de un recinto (BRIR). Otro ejemplo de una función de transferencia perceptiva binaural es una regla de barrido (panning) de amplitud simple que describe la cantidad relativa de nivel de señal desde un canal de entrada a cada uno de los canales de salida estéreo binaurales.
En algunas realizaciones, los parámetros de HRTF pueden calcularse de manera dinámica mientras que en otras realizaciones pueden predeterminarse y almacenarse en una memoria de datos adecuada. Por ejemplo, los parámetros de HRTF pueden almacenarse en una base de datos como una función de azimut, elevación, distancia y banda de frecuencia. Los parámetros de HRTF apropiados para una subbanda de frecuencia dada pueden entonces recuperarse simplemente seleccionando los valores para la posición de fuente de sonido espacial deseada.
El procesador 407 espacial modifica la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro de HRTF espacial. A diferencia de la primera señal estéreo, la segunda señal estéreo es una señal espacial virtual binaural y específicamente una señal binaural 3D que cuando se presenta a través de un sistema estéreo convencional (por ejemplo mediante un par de auriculares) puede proporcionar una experiencia espacial mejorada que emula la presencia de más de dos fuentes de sonido en diferentes posiciones de fuente de sonido.
La segunda señal estéreo se alimenta a un procesador 411 de codificación que se acopla al procesador 407 espacial y que codifica la segunda señal para dar un flujo de datos adecuado para su transmisión (por ejemplo aplicando niveles de cuantificación adecuados, etc.). El procesador 411 de codificación se acopla a un procesador 413 de salida que genera un flujo de salida combinando al menos los segundos datos de señal estéreo codificados y los datos 405 de parámetro asociados generados mediante el procesador 403 de mezcla descendente.
Normalmente la síntesis HRTF requiere formas de onda para todas las fuentes de sonido individuales (por ejemplo señales de altavoz en el contexto de una señal de sonido envolvente). Sin embargo, en el codificador 307, los pares de HRTF se parametrizan para subbandas de frecuencia permitiendo de este modo por ejemplo generar una configuración de altavoz virtual 5.1 por medio de un procesamiento posterior de baja complejidad de la mezcla descendente de la señal de entrada multicanal, con la ayuda de los parámetros espaciales que se extrajeron durante el proceso de codificación (y mezclado descendente).
El procesador espacial puede funcionar específicamente en un dominio de subbanda tal como un dominio de subbanda QMF o FFT. En lugar de decodificar la primera señal estéreo mezclada de manera descendente para generar la señal multicanal original seguido por una síntesis HRTF que usa filtrado de HRTF, el procesador 407 espacial genera valores de parámetro para cada subbanda correspondientes al efecto combinado de decodificar la primera señal estéreo mezclada de manera descendente para dar una señal multicanal seguida por una nueva codificación de la señal multicanal como una señal binaural 3D.
Específicamente, los inventores se han dado cuenta de que la señal binaural 3D puede generarse aplicando una multiplicación de matriz de 2x2 a los valores de señal de subbanda de la primera señal. Los valores de señal resultantes de la segunda señal corresponden en gran medida a los valores de señal que se generarían mediante una decodificación multicanal y una síntesis HRTF en cascada. Por tanto, el procesamiento de señal combinado de la codificación multicanal y la síntesis HRTF pueden combinarse de modo que se obtienen cuatro valores de parámetro (los coeficientes de matriz) que pueden aplicarse simplemente a los valores de señal de subbanda de la primera señal para generar los valores de subbanda deseados de la segunda señal. Puesto que los valores de parámetro de matriz reflejan el proceso combinado de decodificación de la señal multicanal y la síntesis HRTF, los valores de parámetro se determinan en respuesta tanto a los datos paramétricos asociados desde el procesador 403 de mezcla descendente como a parámetros de HRTF.
En el codificador 309, las funciones HRTF se parametrizan para las bandas de frecuencia individuales. El fin de la parametrización HRTF es captar las indicaciones más importantes para la localización de fuente de sonido a partir de cada par de HRTF. Estos parámetros pueden incluir:
- un nivel (promedio) por subbanda de frecuencia para la respuesta al impulso del oído izquierdo;
- un nivel (promedio) por subbanda de frecuencia para la respuesta al impulso del oído derecho;
- un tiempo de llegada o diferencia de fase (promedio) entre la respuesta al impulso del oído izquierdo y el oído derecho;
- una fase o tiempo (o retardo de grupo) absoluto (promedio) por subbanda de frecuencia tanto para respuestas al impulso de oído izquierdo como de oído derecho (en este caso, la diferencia de fase o tiempo se vuelve en la mayoría de los casos obsoleta);
- una coherencia o correlación cruzada de canal por subbanda de frecuencia entre respuestas al impulso correspondientes.
Los parámetros de nivel por subbanda de frecuencia pueden facilitar la síntesis de elevación (debido a picos y depresiones específicos en el espectro) y diferencias de nivel para el azimut (determinadas por la proporción de los parámetros de nivel para cada banda).
\newpage
Los valores de fase absoluta o valores de diferencia de fase pueden captar diferencias de tiempo de llegada entre ambos oídos, que también son indicaciones importantes para el azimut de fuente de sonido. El valor de coherencia puede añadirse para simular diferencias de estructura finas entre ambos oídos que no pueden contribuir a diferencias de nivel y/o fase de las que se ha calculado un valor promedio por banda (de parámetro).
A continuación, se describe un ejemplo específico del procesamiento mediante el procesador 407 espacial. En el ejemplo, se describe la posición de una fuente de sonido con respecto al oyente por un ángulo \alpha de azimut y una distancia D, tal como se muestra en la figura 6. Una fuente de sonido colocada a la izquierda del oyente corresponde a ángulos de azimut positivos. La función de transferencia desde la posición de fuente de sonido al oído izquierdo se designa mediante H_{L}; la función de transferencia desde la posición de fuente de sonido al oído derecho mediante
H_{R}.
Las funciones de transferencia H_{L} y H_{R} dependen del ángulo \alpha de azimut, la distancia D y la elevación \varepsilon (no mostrada en la figura 6). En una representación paramétrica, las funciones de transferencia pueden describirse como un conjunto de tres parámetros por subbanda b_{h} de frecuencia HRTF. Este conjunto de parámetros incluye un nivel promedio por banda de frecuencia para la función P_{l}(\alpha,\varepsilon,D,b_{h}) de transferencia izquierda, un nivel promedio por banda de frecuencia para la función P_{r}(\alpha,\varepsilon,D,b_{h}) de transferencia derecha, una diferencia de fase promedio por banda \phi(\alpha,\varepsilon,D,b_{h}) de frecuencia. Una posible extensión de este conjunto es incluir una medición de coherencia de las funciones de transferencia izquierda y derecha por banda \rho(\alpha,\varepsilon,D,b_{h}) de frecuencia de HRTF. Estos parámetros pueden almacenarse en una base de datos como una función de azimut, elevación, distancia y banda de frecuencia, y/o puede calcularse usando alguna función analítica. Por ejemplo, los parámetros P_{l} y P_{r} podrían almacenarse como una función de azimut y elevación, mientras que el efecto de distancia se consigue dividiendo estos valores entre la propia distancia (suponiendo una relación de 1/D entre nivel de señal y distancia). A continuación, la designación P_{l}(Lf) designa el parámetro P_{l} espacial correspondiente a la posición de fuente de sonido del canal Lf.
Debe observarse que el número de subbandas de frecuencia para parametrización (b_{h}) HRTF y el ancho de banda de cada subbanda no es necesariamente igual a la resolución de frecuencia del banco (k) de filtros (QMF) usado por el procesador 407 espacial o la resolución de parámetro espacial del procesador 403 de mezcla descendente y las bandas (b_{p}) de parámetros asociados. Por ejemplo, el banco de filtros híbrido QMF puede tener 71 canales, puede parametrizarse una HRTF en 28 bandas de frecuencia, y podría realizarse una codificación espacial usando 10 bandas de parámetros. En estos casos, puede aplicarse una correlación de parámetros espaciales y de HRTF con un índice híbrido QMF por ejemplo usando una tabla de consulta o una función de interpolación o formación de valores promedio. Los siguientes índices de parámetro se usarán en la descripción:
\vskip1.000000\baselineskip
4
\vskip1.000000\baselineskip
En el ejemplo específico, el procesador 407 espacial divide la primera señal estéreo en subbandas de frecuencia adecuadas mediante filtrado de QMF. Para cada subbanda los valores L_{B}, R_{B} de subbanda se determinan como:
5
donde L_{O}, R_{O} son los valores de subbanda correspondientes de la primera señal estéreo y los valores h_{j,k} de matriz son parámetros que se determinan a partir de parámetros de HRTF y los datos paramétricos asociados de mezcla descendente.
Los coeficientes de matriz tienen como objetivo reproducir las propiedades de la mezcla descendente como si todos los canales individuales se procesaran con HRTF correspondientes a la posición de fuente de sonido deseada e incluyen el efecto combinado de decodificar la señal multicanal y realizar una síntesis HRTF de la misma.
\newpage
Específicamente, y con referencia a la figura 5 y la descripción de la misma, los valores de matriz pueden determinarse como:
\vskip1.000000\baselineskip
6
\vskip1.000000\baselineskip
donde m_{k,l} son parámetros determinados en respuesta a los datos paramétricos generados por el mezclador 505 descendente TTT.
\vskip1.000000\baselineskip
Específicamente las señales L, R y C se generan a partir de la señal L_{0}, R_{0} de mezcla descendente estéreo según:
\vskip1.000000\baselineskip
7
\vskip1.000000\baselineskip
donde m_{k,l} dependen de dos coeficientes c_{1} y c_{2} de predicción, que forman parte de los parámetros espaciales transmitidos:
8
\vskip1.000000\baselineskip
Los valores H_{J}(X) se determinan en respuesta a los datos de parámetro de HRTF para el canal X al canal J de salida estéreo de la segunda señal estéreo así como parámetros de mezcla descendente apropiados.
Específicamente, los parámetros H_{J}(X) se refieren a las señales de mezcla descendente izquierda (L) y derecha (R) generadas mediante los dos mezcladores 501, 503 descendentes TTO y pueden determinarse en respuesta a los datos de parámetro de HRTF para los dos canales mezclados de manera descendente. Específicamente, puede usarse una combinación ponderada de los parámetros de HRTF para los dos canales individuales izquierdos (Lf y Ls) o derechos (Rf y Rs). Los parámetros individuales pueden ponderarse mediante la energía relativa de las señales individuales. Como un ejemplo específico, los siguientes valores pueden determinarse para la señal (L) izquierda:
\vskip1.000000\baselineskip
9
donde los pesos w_{x} vienen dados por:
10
y CLD_{1} es la "Diferencia de Nivel de Canal" entre el frontal izquierdo (Lf) y el envolvente izquierdo (Ls) definida en decibelios (que forma parte del flujo de bits de parámetro espacial):
11
siendo \sigma_{lf}^{2} la potencia en una subbanda de parámetros del canal Lf, y \sigma_{ls}^{2} la potencia en la subbanda correspondiente del canal Ls.
De manera similar, pueden determinarse los siguientes valores para la señal (R) derecha:
12
13
y para la señal (C) central:
14
Por tanto, usando el enfoque descrito, un procesamiento espacial de baja complejidad puede permitir generar una señal espacial virtual binaural basándose en la señal multicanal mezclada de manera descendente.
Tal como se mencionó, una ventaja del enfoque descrito es que las subbandas de frecuencia de los parámetros de mezcla descendente asociados, el procesamiento espacial mediante el procesador 407 espacial y los parámetros de HRTF no tienen que ser los mismos. Por ejemplo, puede realizarse una correlación entre parámetros de una subbanda con las subbandas del procesamiento espacial. Por ejemplo, si una subbanda de procesamiento espacial cubre un intervalo de frecuencia correspondiente a dos subbandas de parámetros de HRTF, el procesador 407 espacial puede simplemente aplicar un procesamiento (individual) en las subbandas de parámetros de HRTF, usando el mismo parámetro espacial para todas las subbandas de parámetros de HRTF que corresponden a ese parámetro espacial.
En algunas realizaciones, el codificador 309 puede disponerse de modo que incluya datos de posición de fuente de sonido lo que permite a un decodificador identificar los datos de posición deseados de una o más de las fuentes de sonido en el flujo de salida. Esto permite al decodificador determinar los parámetros de HRTF aplicados mediante el codificador 309 permitiendo de este modo al mismo invertir la operación del procesador 407 espacial. De manera adicional o alternativa, el codificador puede disponerse para incluir al menos algunos de los datos de parámetro de HRTF en el flujo de salida.
Por tanto, opcionalmente, los parámetros de HRTF y/o los datos de posición de altavoz pueden incluirse en el flujo de salida. Esto puede permitir por ejemplo una actualización dinámica de los datos de posición de altavoz como una función de tiempo (en el caso de transmisión de posición de altavoz) o el uso de datos de HRTF individualizados (en el caso de transmisión de parámetros de HRTF).
En el caso de que se transmitan parámetros de HRTF como parte del flujo de bits, al menos los parámetros P_{l}, P_{r} y \phi pueden transmitirse para cada banda de frecuencia y para cada posición de fuente de sonido. Los parámetros P_{l}, P_{r} de magnitud pueden cuantificarse usando un cuantificador lineal, o pueden cuantificarse en un dominio logarítmico. Los ángulos \phi de fase pueden cuantificarse de manera lineal. Los índices de cuantificador pueden entonces incluirse en el flujo de bits.
Además, los ángulos \phi de fase pueden sumarse para dar cero para frecuencias normalmente superiores a 2,5 kHz, ya que la información de fase (interaural) es de manera preceptiva irrelevante para frecuencias elevadas.
Tras la cuantificación, pueden aplicarse diversos esquemas de compresión sin pérdida a los índices de cuantificador de parámetros de HRTF. Por ejemplo, puede aplicarse codificación de entropía, posiblemente en combinación con codificación diferencial por bandas de frecuencia. Alternativamente, parámetros de HRTF pueden representarse como una diferencia con respecto a un conjunto de parámetros de HRTF común o promedio. Esto es válido especialmente para los parámetros de magnitud. De otro modo, puede alcanzarse una aproximación a los parámetros de fase de manera bastante precisa simplemente codificando la elevación y el azimut. Calculando la diferencia de tiempo de llegada [normalmente la diferencia de tiempo de llegada es prácticamente independiente de la frecuencia; en la mayoría de los casos depende del azimut y la elevación], dada la diferencia de trayectoria a ambos oídos, pueden derivarse los parámetros de fase correspondientes. Además pueden codificarse diferencias de medición de manera diferente a los valores predichos basándose en los valores de azimut y elevación.
También pueden aplicarse esquemas de compresión con pérdida, tal como la descomposición de componentes principales, seguida por la transmisión de los pocos pesos PCA más importantes.
La figura 7 ilustra un ejemplo de un decodificador multicanal según algunas realizaciones de la invención. El decodificador puede ser específicamente el decodificador 315 de la figura 3.
El decodificador 315 comprende un receptor 701 de entrada que recibe el flujo de salida desde el codificador 309. El receptor 701 de entrada demultiplexa el flujo de datos recibido y proporciona los datos relevantes a los elementos funcionales apropiados.
El receptor 701 de entrada se acopla a un procesador 703 de decodificación al que se alimentan los datos codificados de la segunda señal estéreo. El procesador 703 de decodificación decodifica estos datos para generar la señal espacial virtual binaural producida por el procesador 407 espacial.
El procesador 703 de decodificación se acopla a un procesador 705 de inversión que se dispone para invertir la operación realizada por el procesador 407 espacial. Por tanto, el procesador 705 de inversión genera la señal estéreo mezclada de manera descendente producida por el procesador 403 de mezcla descendente.
Específicamente, el procesador 705 de inversión genera la señal estéreo de mezcla descendente aplicando una multiplicación de matriz a los valores de subbanda de la señal espacial virtual binaural recibida. La multiplicación de matriz se realiza mediante una matriz correspondiente a la matriz inversa a la usada por el procesador 407 espacial invirtiendo de este modo esta operación:
15
\vskip1.000000\baselineskip
Esta multiplicación de matriz puede describirse también como:
16
Los coeficientes q_{k,l} de matriz se determinan a partir de los datos paramétricos asociados con la señal de mezcla descendente (y se reciben en el flujo de datos desde el decodificador 309) así como los datos de parámetro de HRTF. Específicamente, el enfoque descrito con referencia al codificador 309 puede usarse también por el decodificador 409 para generar los coeficientes h_{xy} de matriz. Los coeficientes q_{xy} de matriz pueden hallarse entonces mediante una inversión de matriz convencional.
El procesador 705 de inversión se acopla a un procesador 707 de parámetros que determina los datos de parámetro de HRTF que van a usarse. Los parámetros de HRTF pueden incluirse en algunas realizaciones en el flujo de datos recibido y pueden extraerse simplemente del mismo. En otras realizaciones, diferentes parámetros de HRTF pueden almacenarse por ejemplo en una base de datos para diferentes posiciones de fuente de sonido y el procesador 707 de parámetros puede determinar los parámetros de HRTF extrayendo los valores correspondientes a la posición de fuente de señal deseada. En algunas realizaciones, la/las posición/posiciones de fuente de señal deseada/deseadas puede/pueden incluirse en el flujo de datos desde el codificador 309. El procesador 707 de parámetros puede extraer esta información y usarla para determinar los parámetros de HRTF. Por ejemplo, puede recuperar los parámetros de HRTF almacenados para la/las posición/posiciones de fuente de sonido de indicación.
En algunas realizaciones, la señal estéreo generada por el procesador de inversión puede emitirse directamente. Sin embargo, en otras realizaciones, puede alimentarse a un decodificador 709 multicanal que puede generar la señal de canal M a partir de la señal estéreo de mezcla descendente y los datos paramétricos recibidos.
En el ejemplo, la inversión de la síntesis binaural 3D se realiza en el dominio de subbanda, tal como en subbandas de frecuencia de QMF o Fourier. Por tanto, el procesador 703 de decodificación puede comprender un banco de filtros QMF o transformada de Fourier rápida (FFT) para generar las muestras de subbanda alimentadas al procesador 705 de inversión. De manera similar, el procesador 705 de inversión o el decodificador 709 multicanal puede comprender una FFT inversa o banco de filtros QMF para convertir las señales de vuelta en el dominio de tiempo.
La generación de una señal binaural 3D en el lado del codificador permite proporcionar experiencias de escucha espacial a un usuario de un casco con auriculares mediante un codificador estéreo convencional. Por tanto, el enfoque descrito tiene la ventaja de que dispositivos estéreo legados pueden reproducir una señal binaural 3D. Como tal, con el fin de reproducir señales binaurales 3D, no es necesario aplicar ningún procesamiento posterior adicional dando como resultado una solución de baja complejidad.
Sin embargo, en un enfoque de este tipo, se usa normalmente una HRTF generalizada que en algunos casos puede llevar a una generación espacial subóptima en comparación con una generación de la señal binaural 3D en la decodificación usando datos de HRTF dedicados optimizados para el usuario específico.
Específicamente, a veces pueden producirse una percepción limitada de distancia y posibles errores de localización de fuente de sonido del uso de HRTF no individualizadas (tal como respuestas al impulso medidas para una cabeza artificial u otra persona). En principio, las HRTF difieren de una persona a otra debido a diferencias en la geometría anatómica del cuerpo humano. Resultados óptimos en cuanto a una localización correcta de fuente de sonido pueden por tanto conseguirse mejor con datos de HRTF individualizados.
En algunas realizaciones, el decodificador 315 comprende además una funcionalidad para en primer lugar invertir el procesamiento espacial del codificador 309 seguido por una generación de una señal binaural 3D usando datos de HRTF locales y específicamente usando datos de HRTF individuales optimizados para el usuario específico. Por tanto, en esta realización, el decodificador 315 genera un par de canales de salida binaurales modificando la señal estéreo mezclada de manera descendente usando los datos paramétricos asociados y datos de parámetro de HRTF que son diferentes a los datos (de HRTF) usados en el codificador 309. Por tanto, este enfoque proporciona una combinación de síntesis 3D en el lado del codificador, inversión en el lado del decodificador, seguido por otra fase de síntesis 3D en el lado del decodificador.
Una ventaja de un enfoque de este tipo es que los dispositivos estéreo legados tendrán señales binaurales 3D como salida proporcionando una calidad 3D básica, mientras que los decodificadores mejorados tienen la opción de usar HRTF personalizadas que permiten una calidad 3D mejorada. Por tanto, tanto la síntesis 3D compatible legada como la síntesis 3D dedicada de alta calidad se permiten en el mismo sistema de audio.
Un simple ejemplo de un sistema de este tipo se ilustra en la figura 8 que muestra cómo un procesador 801 espacial adicional puede añadirse al decodificador de la figura 7 para proporcionar una señal de salida binaural 3D adaptada. En algunas realizaciones, el procesador 801 espacial puede simplemente proporcionar una síntesis binaural 3D pura simple usando funciones HRTF individuales para cada uno de los canales de audio. Por tanto, el decodificador puede recrear la señal multicanal original y convertirla en una señal binaural 3D usando filtrado de HRTF
adaptado.
En otras realizaciones, puede combinarse la inversión de la síntesis de codificador y la síntesis de decodificador para proporcionar una operación de complejidad inferior. Específicamente, las HRTF individualizadas usadas para la síntesis de decodificador pueden parametrizarse y combinarse con (la inversa de) los parámetros usados por la síntesis 3D de codificador.
Más específicamente, tal como se describió anteriormente, la síntesis de codificador implica muestras de subbanda estéreo de multiplicación de las señales mezcladas de manera descendente por una matriz de 2x2:
17
donde L_{O}, R_{O} son los valores de subbanda correspondientes de la señal estéreo mezclada de manera descendente y los valores h_{j,k} de matriz son parámetros que se determinan a partir de los parámetros de HRTF y los datos paramétricos asociados de mezcla descendente tal como se describió anteriormente.
La inversión realizada mediante el procesador 705 de inversión puede darse entonces por:
18
donde L_{B}, R_{B} son los valores de subbanda correspondientes de la señal estéreo mezclada de manera descendente de decodificador.
Para garantizar un proceso de inversión en el lado del decodificador apropiado, los parámetros de HRTF usados en el codificador para generar la señal binaural 3D, y los parámetros de HRTF usados para invertir el procesamiento binaural 3D son idénticos o lo suficientemente similares. Puesto que un flujo de bits dará en general servicio a varios decodificadores, una personalización de la mezcla descendente binaural 3D es difícil de obtener mediante la síntesis de codificador.
Sin embargo, puesto que el proceso de síntesis binaural 3D puede invertirse el procesador 705 de inversión regenera la señal estéreo mezclada de manera descendente que se usa entonces para generar una señal binaural 3D basándose en HRTF individualizadas.
Específicamente, en analogía con la operación en el codificador 309, la síntesis binaural 3D en el decodificador 315 puede generarse mediante una simple operación de matriz de 2x2 por subbandas en la señal L_{O}, R_{O} de mezcla descendente para generar la señal L_{B'}, R_{B'} binaural 3D:
19
donde los parámetros p_{x,y} se determinan basándose en las HRTF individualizadas de la misma manera en que se generan h_{x,y} mediante el codificador 309 basándose en la HRTF general. Específicamente, en el decodificador 309, los parámetros h_{x,y} se determinan a partir de los datos paramétricos multicanal y las HRTF generales. Puesto que los datos paramétricos multicanal se transmiten al decodificador 315, éste puede usar el mismo enfoque para calcular p_{x,y} basándose en la HRTF individual.
Combinando esto con la operación del procesador 705 de inversión
20
En esta ecuación, las entradas h_{x,y} de matriz se obtienen usando el conjunto de HRTF no individualizado general usado en el codificador, mientras que las entradas p_{x,y} de matriz se obtienen usando un conjunto de HRTF diferente y preferiblemente personalizado. Por tanto la señal L_{B}, R_{B} de entrada binaural 3D generada usando datos de HRTF no individualizados se transforma en una señal L_{B'}, R_{B'} de salida binaural 3D alternativa usando diferentes datos de HRTF personalizados.
\newpage
Además, tal como se ilustra, el enfoque combinado de la inversión de la síntesis de codificador y la síntesis de decodificador puede conseguirse mediante una simple operación de matriz de 2x2. Por tanto la complejidad de cálculo de este proceso combinado es prácticamente la misma que para una simple inversión binaural 3D.
La figura 9 ilustra un ejemplo del decodificador 315 que funciona según los principios anteriormente descritos. Específicamente, las muestras de subbanda estéreo de la mezcla descendente estéreo binaural 3D desde el codificador 309 se alimentan al procesador 705 de inversión que regenera las muestras de mezcla descendente estéreo originales mediante una operación de matriz de 2x2.
21
Las muestras de subbanda resultantes se alimentan a una unidad 901 de síntesis espacial que genera una señal binaural 3D individualizada multiplicando estas muestras por una matriz de 2x2
22
Los coeficientes de matriz se generan mediante una unidad (903) de conversión de parámetros que genera los parámetros basándose en la HRTF individualizada y los datos de extensión multicanal recibidos desde el codificador 309.
Las muestras L_{B'}, R_{B'} de subbanda de síntesis se alimentan a una transformada 905 de dominio de subbanda a tiempo que genera las señales de dominio de tiempo binaurales 3D que pueden proporcionarse a un usuario.
Aunque la figura 9 ilustra las etapas de inversión 3D basándose en HRTF no individualizadas y la síntesis 3D basándose en HRTF individualizadas como operaciones secuenciales mediante diferentes unidades funcionales, se apreciará que en muchas realizaciones estas operaciones se aplican simultáneamente mediante una aplicación de matriz única. Específicamente, se calcula la matriz de 2x2
23
y las muestras de salida se calculan como
24
Se apreciará que el sistema descrito proporciona una serie de ventajas que incluye:
- ninguna o poca degradación de calidad (perceptiva) de la reconstrucción multicanal ya que el procesamiento estéreo espacial puede invertirse en decodificadores multicanal.
- Puede proporcionarse una experiencia estéreo binaural espacial (3D) incluso mediante decodificadores estéreo convencionales.
- Complejidad reducida en comparación con procedimientos de posicionamiento espacial existentes. La complejidad se reduce de varias maneras:
- almacenamiento eficaz de parámetros de HRTF. En vez de almacenar respuestas al impulso de HRTF, sólo se usa un número limitado de parámetros para caracterizar las HRTF.
\global\parskip0.930000\baselineskip
- Procesamiento 3D eficaz. Puesto que las HRTF se caracterizan como parámetros en una resolución de frecuencia limitada, y la aplicación de parámetros de HRTF se realiza en el dominio de parámetros (con un muestreo descendente elevado), la fase de síntesis espacial es más eficaz que los procedimientos de síntesis convencionales basados en una convolución de HRTF completa.
- El procesamiento requerido puede realizarse por ejemplo en el dominio de QMF, dando como resultado una menor carga de memoria y de cálculo que los procedimientos basados en FFT.
- Nuevo uso eficaz de bloques de formación de sonido envolvente existentes (tal como funcionalidades de codificación/decodificación de sonido envolvente MPEG convencionales) que permite una complejidad de implementación mínima.
- Posibilidad de personalización mediante modificación de los datos de HRTF (parametrizados) transmitidos mediante el codificador.
- Las posiciones de fuente de sonido pueden cambiar sobre la marcha mediante información de posición transmitida.
La figura 10 ilustra un procedimiento de codificación de audio según algunas realizaciones de la invención.
El procedimiento se inicia en la etapa 1001 en la que se recibe una señal de audio de canal M (M>2).
A la etapa 1001 le sigue la etapa 1003 en la que la señal de audio de canal M se mezcla de manera descendente para dar una primera señal estéreo y datos paramétricos asociados.
A la etapa 1003 le sigue la etapa 1005 en la que la primera señal estéreo se modifica para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro de función de transferencia relativa a la cabeza (HRTF) espacial. La segunda señal estéreo es una señal espacial virtual binaural.
A la etapa 1005 le sigue la etapa 1007 en la que la segunda señal estéreo se codifica para generar datos codificados.
A la etapa 1007 le sigue la etapa 1009 en la que se genera un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.
La figura 11 ilustra un procedimiento de decodificación de audio según algunas realizaciones de la invención.
El procedimiento se inicia en la etapa 1101 en la que un decodificador recibe datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M, donde M>2. La primera señal estéreo es una señal espacial virtual binaural.
A la etapa 1101 le sigue la etapa 1103 en la que la primera señal estéreo se modifica para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y datos de parámetro de función de transferencia relativa a la cabeza (HRTF) espacial asociados con la primera señal estéreo.
A la etapa 1103 le sigue la etapa 1105 opcional en la que se genera la señal de audio de canal M en respuesta a la señal estéreo mezclada de manera descendente y los datos paramétricos.
Se apreciará que por motivos de claridad la descripción anterior ha descrito realizaciones de la invención con referencia a diferentes procesadores y unidades funcionales. Sin embargo, será evidente que puede usarse cualquier distribución adecuada de funcionalidad entre diferentes procesadores o unidades funcionales sin afectar a la invención. Por ejemplo, la funcionalidad ilustrada para su realización mediante controladores o procesadores separados puede realizarse mediante el mismo procesador o los mismos controladores. Por tanto, las referencias a unidades funcionales específicas sólo deben considerarse como referencias a medios adecuados para proporcionar la funcionalidad descrita en lugar de indicativas de una estructura u organización lógica o física estricta.
La invención puede implementarse en cualquier forma adecuada incluyendo hardware, software, firmware o cualquier combinación de los mismos. La invención puede implementarse opcionalmente al menos en parte como software informático que se ejecute en uno o más procesadores de datos y/o procesadores de señal digital. Los elementos y componentes de una realización de la invención pueden implementarse de manera física, funcional y lógica de cualquier manera adecuada. De hecho, la funcionalidad puede implementarse en una única unidad, en una pluralidad de unidades o como parte de otras unidades funcionales. Como tal, la invención puede implementarse en una única unidad o puede distribuirse de manera física y funcional entre diferentes unidades y procesadores.
Aunque la presente invención se ha descrito en conexión con algunas realizaciones, no se pretende limitarla a la forma específica expuesta en el presente documento. En su lugar, el alcance de la presente invención se limita únicamente mediante las reivindicaciones adjuntas. Además, aunque pueda parecer que una característica se describe en conexión con realizaciones particulares, un experto en la técnica reconocerá que pueden combinarse diversas características de las realizaciones descritas según la invención. En las reivindicaciones, la expresión "que comprende/que comprenden/comprendiendo" no excluye la presencia de otros elementos o etapas.
Además, aunque se enumeran individualmente, una pluralidad de medios, elementos o etapas de procedimiento pueden implementarse por ejemplo mediante una única unidad o procesador. Además, aunque en diferentes reivindicaciones pueden incluirse características individuales, éstas pueden combinarse posiblemente de manera ventajosa, y la inclusión en diferentes reivindicaciones no implica que una combinación de características no sea factible y/o ventajosa. Además, la inclusión de una característica en una categoría de reivindicaciones no implica una limitación a esta categoría sino que en su lugar indica que la característica puede aplicarse igualmente a otras categorías de reivindicaciones según sea apropiado. Además, el orden de características en las reivindicaciones no implica ningún orden específico en el que deban aparecer las características y en particular el orden de las etapas individuales en una reivindicación de procedimiento no implica que las etapas deban realizarse en este orden. En su lugar, las etapas pueden realizarse en cualquier orden adecuado. Además, las referencias singulares no excluyen una pluralidad. Por tanto las referencias a "un", "una", "primera/primeros", "segunda/segundos", etc. no excluyen una pluralidad. Los símbolos de referencia en las reivindicaciones se proporcionan meramente como un ejemplo de aclaración y no deben considerarse como que limitan el alcance de las reivindicaciones de algún modo.

Claims (13)

1. Codificador de audio que comprende:
- medios (401) para recibir una señal de audio de canal M donde M>2;
- medios (403) de mezclado descendente para mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados;
- medios (407) de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural;
- medios (411) para codificar la segunda señal estéreo para generar datos codificados; y
- medios (413) de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.
2. Decodificador de audio que comprende:
- medios (701, 703) para recibir datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2, siendo la primera señal estéreo una señal binaural correspondiente a la señal de audio de canal M;
- medios (705) de generación para modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y primeros datos de parámetro espacial para una función de transferencia perceptiva binaural, asociándose los primeros datos de parámetro espacial con la primera señal
estéreo.
3. Decodificador según la reivindicación 2, que comprende además medios (709) para generar la señal de audio de canal M en respuesta a la señal estéreo mezclada de manera descendente y los datos paramétricos.
4. Decodificador según la reivindicación 2, en el que los medios (705) de generación están dispuestos para generar la señal estéreo mezclada de manera descendente calculando valores de datos de subbanda para la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos asociados, los primeros datos de parámetro espacial y valores de datos de subbanda para la primera señal estéreo.
5. Decodificador según la reivindicación 4, en el que los medios (705) de generación están dispuestos para generar valores de subbanda para una primera subbanda de la señal estéreo mezclada de manera descendente en respuesta a una multiplicación de valores de subbanda estéreo correspondientes para la primera señal estéreo por una primera matriz de subbanda; comprendiendo además los medios (705) de generación medios de parámetro para determinar valores de datos de la primera matriz de subbanda en respuesta a datos paramétricos y datos de parámetro de función de transferencia perceptiva binaural para la primera subbanda.
6. Decodificador según la reivindicación 2 que comprende además:
- una unidad (709, 801) de decodificador espacial para producir un par de canales de salida binaurales modificando la primera señal estéreo en respuesta a los datos paramétricos asociados y segundos datos de parámetro espacial para una segunda función de transferencia perceptiva binaural, siendo los segundos datos de parámetro espacial diferentes de los primeros datos de parámetro espacial.
7. Decodificador según la reivindicación 6, en el que la unidad (709, 801) de decodificador espacial comprende:
- una unidad (903) de conversión de parámetros para convertir los datos paramétricos en parámetros de síntesis binaural usando los segundos datos de parámetro espacial, y
- una unidad (901) de síntesis espacial para sintetizar el par de canales binaurales usando los parámetros de síntesis binaural y la primera señal estéreo.
8. Decodificador según la reivindicación 7, en el que los parámetros de síntesis binaural comprenden coeficientes de matriz para una matriz de 2 por 2 que relacionan muestras estéreo de la señal estéreo mezclada de manera descendente con muestras estéreo del par de canales de salida binaurales.
9. Procedimiento de codificación de audio, comprendiendo el procedimiento:
- recibir (1001) una señal de audio de canal M donde M>2;
- mezclar de manera descendente (1003) la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados;
- modificar (1005) la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural;
- codificar (1007) la segunda señal estéreo para generar datos codificados; y
- generar (1009) un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.
\vskip1.000000\baselineskip
10. Receptor para recibir una señal de audio que comprende:
- medios (701, 703) para recibir datos de entrada que comprenden una primera señal estéreo y datos paramétricos asociados con una señal estéreo mezclada de manera descendente de una señal de audio de canal M donde M>2, siendo la primera señal estéreo una señal binaural correspondiente a la señal de audio de canal M; y
- medios (705) de generación para modificar la primera señal estéreo para generar la señal estéreo mezclada de manera descendente en respuesta a los datos paramétricos y datos de parámetro espacial para una función de transferencia perceptiva binaural, estando asociados los datos de parámetro espacial con la primera señal estéreo.
11. Transmisor (1101) para transmitir un flujo de datos de salida; comprendiendo el transmisor:
- medios (401) para recibir una señal de audio de canal M donde M>2;
- medios (403) de mezclado descendente para mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados;
- medios (407) de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural;
- medios (411) para codificar la segunda señal estéreo para generar datos codificados;
- medios (413) de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados; y
- medios (311) para transmitir el flujo de datos de salida.
\vskip1.000000\baselineskip
12. Procedimiento para transmitir un flujo de datos de salida de audio, comprendiendo el procedimiento:
- recibir (1001) una señal de audio de canal M donde M>2;
- mezclar de manera descendente (1003) la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados;
- modificar (1005) la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural;
- codificar (1007) la segunda señal estéreo para generar datos codificados; y
- generar (1009) un flujo de datos de salida de audio que comprende los datos codificados y los datos paramétricos asociados; y
- transmitir el flujo de datos de salida de audio.
13. Producto de programa informático para ejecutar el procedimiento según la reivindicación 11.
ES07705870T 2006-02-21 2007-02-13 Codificacion y decodificacion de audio. Active ES2339888T3 (es)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
EP06110231 2006-02-21
EP06110231 2006-02-21
EP06110803 2006-03-07
EP06110803 2006-03-07
EP06112104 2006-03-31
EP06112104 2006-03-31
EP06119670 2006-08-29
EP06119670 2006-08-29

Publications (1)

Publication Number Publication Date
ES2339888T3 true ES2339888T3 (es) 2010-05-26

Family

ID=38169667

Family Applications (1)

Application Number Title Priority Date Filing Date
ES07705870T Active ES2339888T3 (es) 2006-02-21 2007-02-13 Codificacion y decodificacion de audio.

Country Status (12)

Country Link
US (4) US9009057B2 (es)
EP (1) EP1989920B1 (es)
JP (1) JP5081838B2 (es)
KR (1) KR101358700B1 (es)
CN (1) CN101390443B (es)
AT (1) ATE456261T1 (es)
BR (1) BRPI0707969B1 (es)
DE (1) DE602007004451D1 (es)
ES (1) ES2339888T3 (es)
PL (1) PL1989920T3 (es)
TW (1) TWI508578B (es)
WO (1) WO2007096808A1 (es)

Families Citing this family (106)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9009057B2 (en) 2006-02-21 2015-04-14 Koninklijke Philips N.V. Audio encoding and decoding to generate binaural virtual spatial signals
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
JP5238706B2 (ja) * 2006-09-29 2013-07-17 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号のエンコーディング/デコーディング方法及びその装置
US8571875B2 (en) * 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
GB2467668B (en) * 2007-10-03 2011-12-07 Creative Tech Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
CN101889307B (zh) * 2007-10-04 2013-01-23 创新科技有限公司 相位-幅度3d立体声编码器和解码器
JP5391203B2 (ja) 2007-10-09 2014-01-15 コーニンクレッカ フィリップス エヌ ヴェ バイノーラル音声信号を生成するための方法と装置
CN101578655B (zh) * 2007-10-16 2013-06-05 松下电器产业株式会社 流合成装置、解码装置、方法
US20090103737A1 (en) * 2007-10-22 2009-04-23 Kim Poong Min 3d sound reproduction apparatus using virtual speaker technique in plural channel speaker environment
US9031242B2 (en) * 2007-11-06 2015-05-12 Starkey Laboratories, Inc. Simulated surround sound hearing aid fitting system
JP2009128559A (ja) * 2007-11-22 2009-06-11 Casio Comput Co Ltd 残響効果付加装置
KR100954385B1 (ko) * 2007-12-18 2010-04-26 한국전자통신연구원 개인화된 머리전달함수를 이용한 3차원 오디오 신호 처리장치 및 그 방법과, 그를 이용한 고현장감 멀티미디어 재생시스템
JP2009206691A (ja) 2008-02-27 2009-09-10 Sony Corp 頭部伝達関数畳み込み方法および頭部伝達関数畳み込み装置
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치
US9485589B2 (en) 2008-06-02 2016-11-01 Starkey Laboratories, Inc. Enhanced dynamics processing of streaming audio by source separation and remixing
US8705751B2 (en) 2008-06-02 2014-04-22 Starkey Laboratories, Inc. Compression and mixing for hearing assistance devices
US9185500B2 (en) 2008-06-02 2015-11-10 Starkey Laboratories, Inc. Compression of spaced sources for hearing assistance devices
EP3937167B1 (en) 2008-07-11 2023-05-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and audio decoder
ES2531422T3 (es) * 2008-07-31 2015-03-13 Fraunhofer Ges Forschung Generación de señales para señales binaurales
JP5635502B2 (ja) * 2008-10-01 2014-12-03 ジーブイビービー ホールディングス エス.エイ.アール.エル. 復号装置、復号方法、符号化装置、符号化方法、及び編集装置
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
EP2356825A4 (en) 2008-10-20 2014-08-06 Genaudio Inc AUDIO SPACE AND ENVIRONMENT SIMULATION
JP5524237B2 (ja) 2008-12-19 2014-06-18 ドルビー インターナショナル アーベー 空間キューパラメータを用いてマルチチャンネルオーディオ信号に反響を適用する方法と装置
JP5540581B2 (ja) * 2009-06-23 2014-07-02 ソニー株式会社 音声信号処理装置および音声信号処理方法
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
JP2011065093A (ja) * 2009-09-18 2011-03-31 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法
CA2775828C (en) * 2009-09-29 2016-03-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
EP2489206A1 (fr) * 2009-10-12 2012-08-22 France Telecom Traitement de donnees sonores encodees dans un domaine de sous-bandes
BR112012008793B1 (pt) * 2009-10-15 2021-02-23 France Telecom Processos de codificação e de decodificação paramétrica de um sinalaudiodigital multicanal, codificador e decodificador paramétricos de um sinalaudiodigital multicanal
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
CN102157150B (zh) * 2010-02-12 2012-08-08 华为技术有限公司 立体声解码方法及装置
CN102157152B (zh) * 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
JP5533248B2 (ja) 2010-05-20 2014-06-25 ソニー株式会社 音声信号処理装置および音声信号処理方法
JP2012004668A (ja) 2010-06-14 2012-01-05 Sony Corp 頭部伝達関数生成装置、頭部伝達関数生成方法及び音声信号処理装置
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
TWI489450B (zh) 2010-12-03 2015-06-21 Fraunhofer Ges Forschung 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式
FR2976759B1 (fr) * 2011-06-16 2013-08-09 Jean Luc Haurais Procede de traitement d'un signal audio pour une restitution amelioree.
CN102395070B (zh) * 2011-10-11 2014-05-14 美特科技(苏州)有限公司 双耳录音耳机
WO2013111034A2 (en) * 2012-01-23 2013-08-01 Koninklijke Philips N.V. Audio rendering system and method therefor
US9436929B2 (en) * 2012-01-24 2016-09-06 Verizon Patent And Licensing Inc. Collaborative event playlist systems and methods
WO2013111038A1 (en) * 2012-01-24 2013-08-01 Koninklijke Philips N.V. Generation of a binaural signal
US9510124B2 (en) * 2012-03-14 2016-11-29 Harman International Industries, Incorporated Parametric binaural headphone rendering
JPWO2014007097A1 (ja) 2012-07-02 2016-06-02 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム
US10083700B2 (en) 2012-07-02 2018-09-25 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
KR101685408B1 (ko) 2012-09-12 2016-12-20 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 3차원 오디오를 위한 향상된 가이드 다운믹스 능력을 제공하기 위한 장치 및 방법
CN104981866B (zh) * 2013-01-04 2018-09-28 华为技术有限公司 用于确定立体声信号的方法
CN104904239B (zh) 2013-01-15 2018-06-01 皇家飞利浦有限公司 双耳音频处理
WO2014111829A1 (en) 2013-01-17 2014-07-24 Koninklijke Philips N.V. Binaural audio processing
CN103152500B (zh) * 2013-02-21 2015-06-24 黄文明 多方通话中回音消除方法
WO2014171791A1 (ko) * 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
CN104982042B (zh) * 2013-04-19 2018-06-08 韩国电子通信研究院 多信道音频信号处理装置及方法
US9445197B2 (en) * 2013-05-07 2016-09-13 Bose Corporation Signal processing for a headrest-based audio system
GB2515089A (en) * 2013-06-14 2014-12-17 Nokia Corp Audio Processing
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
TWI671734B (zh) 2013-09-12 2019-09-11 瑞典商杜比國際公司 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
EP3048816B1 (en) 2013-09-17 2020-09-16 Wilus Institute of Standards and Technology Inc. Method and apparatus for processing multimedia signals
CN105900455B (zh) 2013-10-22 2018-04-06 延世大学工业学术合作社 用于处理音频信号的方法和设备
US20160277837A1 (en) * 2013-11-11 2016-09-22 Sharp Kabushiki Kaisha Earphone and earphone system
CA2934856C (en) * 2013-12-23 2020-01-14 Wilus Institute Of Standards And Technology Inc. Method for generating filter for audio signal, and parameterization device for same
CN106105269B (zh) 2014-03-19 2018-06-19 韦勒斯标准与技术协会公司 音频信号处理方法和设备
EP3668125B1 (en) 2014-03-28 2023-04-26 Samsung Electronics Co., Ltd. Method and apparatus for rendering acoustic signal
KR102216801B1 (ko) 2014-04-02 2021-02-17 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
WO2016077320A1 (en) * 2014-11-11 2016-05-19 Google Inc. 3d immersive spatial audio systems and methods
CN107113524B (zh) * 2014-12-04 2020-01-03 高迪音频实验室公司 反映个人特性的双耳音频信号处理方法和设备
KR20160081844A (ko) * 2014-12-31 2016-07-08 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
WO2016108655A1 (ko) 2014-12-31 2016-07-07 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
US9460727B1 (en) * 2015-07-01 2016-10-04 Gopro, Inc. Audio encoder for wind and microphone noise reduction in a microphone array system
US9613628B2 (en) 2015-07-01 2017-04-04 Gopro, Inc. Audio decoder for wind and microphone noise reduction in a microphone array system
CA3298877A1 (en) * 2015-08-25 2026-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
ES2949991T3 (es) * 2015-09-25 2023-10-04 Voiceage Corp Método y sistema para la mezcla en el dominio del tiempo de una señal de sonido estéreo en canales primario y secundario mediante el uso de la detección de un estado de desfase de los canales izquierdo y derecho
US12125492B2 (en) 2015-09-25 2024-10-22 Voiceage Coproration Method and system for decoding left and right channels of a stereo sound signal
CN116259324A (zh) 2015-10-08 2023-06-13 杜比国际公司 用于压缩声音或声场表示的分层编解码
US9734686B2 (en) * 2015-11-06 2017-08-15 Blackberry Limited System and method for enhancing a proximity warning sound
US9749766B2 (en) * 2015-12-27 2017-08-29 Philip Scott Lyren Switching binaural sound
AU2017210021B2 (en) * 2016-01-19 2019-07-11 Sphereo Sound Ltd. Synthesis of signals for immersive audio playback
KR102881405B1 (ko) 2016-01-27 2025-11-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 음향 환경 시뮬레이션
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
WO2017143003A1 (en) * 2016-02-18 2017-08-24 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
KR102358283B1 (ko) 2016-05-06 2022-02-04 디티에스, 인코포레이티드 몰입형 오디오 재생 시스템
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
RU2725178C1 (ru) 2016-11-08 2020-06-30 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для кодирования или декодирования многоканального сигнала с использованием коэффициента передачи побочного сигнала и коэффициента передачи остаточного сигнала
US10979844B2 (en) 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
GB2563635A (en) 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
WO2019004524A1 (ko) * 2017-06-27 2019-01-03 엘지전자 주식회사 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치
CN109688497B (zh) * 2017-10-18 2021-10-01 宏达国际电子股份有限公司 声音播放装置、方法及非暂态存储介质
US10504529B2 (en) 2017-11-09 2019-12-10 Cisco Technology, Inc. Binaural audio encoding/decoding and rendering for a headset
BR112020015835A2 (pt) 2018-04-11 2020-12-15 Dolby International Ab Métodos, aparelho e sistemas para renderização de áudio 6dof e representações de dados e estruturas de fluxo de bits para renderização de áudio 6dof
GB2575305A (en) * 2018-07-05 2020-01-08 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
EP3870991A4 (en) 2018-10-24 2022-08-17 Otto Engineering Inc. DIRECTIONAL AUDIO COMMUNICATION SYSTEM
CN111107481B (zh) * 2018-10-26 2021-06-22 华为技术有限公司 一种音频渲染方法及装置
TWI859173B (zh) 2018-12-28 2024-10-21 日商索尼股份有限公司 資訊處理裝置、資訊處理方法及資訊處理程式
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
WO2020253941A1 (en) 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
JP7286876B2 (ja) * 2019-09-23 2023-06-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 変換パラメータによるオーディオ符号化/復号化
GB2589321A (en) * 2019-11-25 2021-06-02 Nokia Technologies Oy Converting binaural signals to stereo audio signals
CN111031467A (zh) * 2019-12-27 2020-04-17 中航华东光电(上海)有限公司 一种hrir前后方位增强方法
WO2022010454A1 (en) * 2020-07-06 2022-01-13 Hewlett-Packard Development Company, L.P. Binaural down-mixing of audio signals
CN111885414B (zh) * 2020-07-24 2023-03-21 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及可读存储介质
CN116762127A (zh) * 2020-12-15 2023-09-15 诺基亚技术有限公司 量化空间音频参数
US11736886B2 (en) * 2021-08-09 2023-08-22 Harman International Industries, Incorporated Immersive sound reproduction using multiple transducers
US12003949B2 (en) 2022-01-19 2024-06-04 Meta Platforms Technologies, Llc Modifying audio data transmitted to a receiving device to account for acoustic parameters of a user of the receiving device

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69428939T2 (de) * 1993-06-22 2002-04-04 Deutsche Thomson-Brandt Gmbh Verfahren zur Erhaltung einer Mehrkanaldekodiermatrix
US6128597A (en) * 1996-05-03 2000-10-03 Lsi Logic Corporation Audio decoder with a reconfigurable downmixing/windowing pipeline and method therefor
US5946352A (en) * 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
US6122619A (en) * 1998-06-17 2000-09-19 Lsi Logic Corporation Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor
JP4499206B2 (ja) * 1998-10-30 2010-07-07 ソニー株式会社 オーディオ処理装置及びオーディオ再生方法
KR100416757B1 (ko) * 1999-06-10 2004-01-31 삼성전자주식회사 위치 조절이 가능한 가상 음상을 이용한 스피커 재생용 다채널오디오 재생 장치 및 방법
JP2001057699A (ja) * 1999-06-11 2001-02-27 Pioneer Electronic Corp オーディオ装置
US7236838B2 (en) * 2000-08-29 2007-06-26 Matsushita Electric Industrial Co., Ltd. Signal processing apparatus, signal processing method, program and recording medium
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
DE60120233D1 (de) 2001-06-11 2006-07-06 Lear Automotive Eeds Spain Verfahren und system zum unterdrücken von echos und geräuschen in umgebungen unter variablen akustischen und stark rückgekoppelten bedingungen
CN1647156B (zh) * 2002-04-22 2010-05-26 皇家飞利浦电子股份有限公司 参数编码方法、参数编码器、用于提供音频信号的设备、解码方法、解码器、用于提供解码后的多声道音频信号的设备
JP4187719B2 (ja) * 2002-05-03 2008-11-26 ハーマン インターナショナル インダストリーズ インコーポレイテッド マルチチャネル・ダウンミキシング装置
JP3902065B2 (ja) * 2002-05-10 2007-04-04 パイオニア株式会社 サラウンドヘッドホン出力信号生成装置
WO2004028204A2 (en) * 2002-09-23 2004-04-01 Koninklijke Philips Electronics N.V. Generation of a sound signal
JP2004128854A (ja) * 2002-10-02 2004-04-22 Matsushita Electric Ind Co Ltd 音響再生装置
US7644001B2 (en) * 2002-11-28 2010-01-05 Koninklijke Philips Electronics N.V. Differentially coding an audio signal
EP1595247B1 (en) * 2003-02-11 2006-09-13 Koninklijke Philips Electronics N.V. Audio coding
JP4124702B2 (ja) 2003-06-11 2008-07-23 日本放送協会 立体音響信号符号化装置、立体音響信号符号化方法および立体音響信号符号化プログラム
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
TWI233091B (en) * 2003-11-18 2005-05-21 Ali Corp Audio mixing output device and method for dynamic range control
JP4271588B2 (ja) 2004-01-08 2009-06-03 シャープ株式会社 ディジタルデータの符号化方法および符号化装置
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
WO2005081229A1 (ja) * 2004-02-25 2005-09-01 Matsushita Electric Industrial Co., Ltd. オーディオエンコーダ及びオーディオデコーダ
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
PL1735779T3 (pl) * 2004-04-05 2014-01-31 Koninklijke Philips Nv Urządzenie kodujące, dekodujące, sposoby z nimi powiązane oraz powiązany system audio
KR100636145B1 (ko) * 2004-06-04 2006-10-18 삼성전자주식회사 확장된 고해상도 오디오 신호 부호화 및 복호화 장치
US20050273324A1 (en) * 2004-06-08 2005-12-08 Expamedia, Inc. System for providing audio data and providing method thereof
JP2005352396A (ja) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd 音響信号符号化装置および音響信号復号装置
KR100644617B1 (ko) * 2004-06-16 2006-11-10 삼성전자주식회사 7.1 채널 오디오 재생 방법 및 장치
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
JP4898673B2 (ja) * 2004-07-14 2012-03-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 方法、装置、エンコーダ装置、デコーダ装置及びオーディオシステム
WO2006011367A1 (ja) 2004-07-30 2006-02-02 Matsushita Electric Industrial Co., Ltd. オーディオ信号符号化装置および復号化装置
US7451325B2 (en) 2004-08-02 2008-11-11 At&T Intellectual Property I, L.P. Methods, systems and computer program products for detecting tampering of electronic equipment by varying a verification process
GB0419346D0 (en) * 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US20060106620A1 (en) * 2004-10-28 2006-05-18 Thompson Jeffrey K Audio spatial environment down-mixer
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
JP4258471B2 (ja) 2005-01-13 2009-04-30 セイコーエプソン株式会社 時刻誤差情報提供システム、端末装置、端末装置の制御方法、端末装置の制御プログラム、端末装置の制御プログラムを記録したコンピュータ読み取り可能な記録媒体
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
JP5587551B2 (ja) 2005-09-13 2014-09-10 コーニンクレッカ フィリップス エヌ ヴェ オーディオ符号化
WO2007031905A1 (en) 2005-09-13 2007-03-22 Koninklijke Philips Electronics N.V. Method of and device for generating and processing parameters representing hrtfs
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
US9009057B2 (en) 2006-02-21 2015-04-14 Koninklijke Philips N.V. Audio encoding and decoding to generate binaural virtual spatial signals
US7876904B2 (en) * 2006-07-08 2011-01-25 Nokia Corporation Dynamic decoding of binaural audio signals
JP2008056018A (ja) 2006-08-30 2008-03-13 Daikyo Nishikawa Kk フロアコンソール
KR100873072B1 (ko) * 2006-08-31 2008-12-09 삼성모바일디스플레이주식회사 발광제어구동부 및 그를 이용한 유기전계발광표시장치

Also Published As

Publication number Publication date
PL1989920T3 (pl) 2010-07-30
BRPI0707969A2 (pt) 2011-05-17
US20090043591A1 (en) 2009-02-12
US20200335115A1 (en) 2020-10-22
US10741187B2 (en) 2020-08-11
US20180151185A1 (en) 2018-05-31
US12165656B2 (en) 2024-12-10
JP5081838B2 (ja) 2012-11-28
DE602007004451D1 (de) 2010-03-11
US20150213807A1 (en) 2015-07-30
CN101390443B (zh) 2010-12-01
KR101358700B1 (ko) 2014-02-07
EP1989920A1 (en) 2008-11-12
ATE456261T1 (de) 2010-02-15
TWI508578B (zh) 2015-11-11
TW200738038A (en) 2007-10-01
JP2009527970A (ja) 2009-07-30
WO2007096808A1 (en) 2007-08-30
US9865270B2 (en) 2018-01-09
EP1989920B1 (en) 2010-01-20
US9009057B2 (en) 2015-04-14
KR20080107422A (ko) 2008-12-10
BRPI0707969B1 (pt) 2020-01-21
CN101390443A (zh) 2009-03-18

Similar Documents

Publication Publication Date Title
ES2339888T3 (es) Codificacion y decodificacion de audio.
KR101010464B1 (ko) 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성
CN101263742B (zh) 音频编码
CN106105269B (zh) 音频信号处理方法和设备
ES2461601T3 (es) Procedimiento y aparato para generar una señal de audio binaural
TWI443647B (zh) 用以將以物件為主之音訊信號編碼與解碼之方法與裝置
ES2932422T3 (es) Método y aparato para procesar señales multimedia
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
JP2021114799A (ja) オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ
TWI334736B (en) Apparatus and method for generating a level parameter, apparatus and method for generating a multi-channel representation and a storage media stored parameter representation
ES2340796T3 (es) Dispositivo y metodo para generar una señal estereofonica codificada de una pieza de audio o flujo de datos de audio.
US20120039477A1 (en) Audio signal synthesizing
KR20160090869A (ko) 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱
JP2017500782A (ja) 領域の音場データを圧縮および解凍するための方法および装置
RU2427978C2 (ru) Кодирование и декодирование аудио
KR102195976B1 (ko) 오디오 신호 처리 방법 및 장치
MX2008010631A (es) Codificacion y decodificacion de audio
TW201116078A (en) Apparatus and method for generating a level parameter, apparatus and method for generating a multi-channel representation and a storage media stored parameter representation
HK1228151B (en) Method and device for compressing and decompressing sound field data of an area