ES2339888T3 - Codificacion y decodificacion de audio. - Google Patents
Codificacion y decodificacion de audio. Download PDFInfo
- Publication number
- ES2339888T3 ES2339888T3 ES07705870T ES07705870T ES2339888T3 ES 2339888 T3 ES2339888 T3 ES 2339888T3 ES 07705870 T ES07705870 T ES 07705870T ES 07705870 T ES07705870 T ES 07705870T ES 2339888 T3 ES2339888 T3 ES 2339888T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- data
- stereo
- binaural
- stereo signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 67
- 230000004044 response Effects 0.000 claims abstract description 63
- 238000012546 transfer Methods 0.000 claims abstract description 55
- 238000002156 mixing Methods 0.000 claims abstract description 24
- 230000015572 biosynthetic process Effects 0.000 claims description 61
- 238000003786 synthesis reaction Methods 0.000 claims description 61
- 238000000034 method Methods 0.000 claims description 46
- 239000011159 matrix material Substances 0.000 claims description 42
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 55
- 239000000203 mixture Substances 0.000 description 31
- 230000000875 corresponding effect Effects 0.000 description 27
- 238000012545 processing Methods 0.000 description 17
- 230000005540 biological transmission Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000013459 approach Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 210000003128 head Anatomy 0.000 description 11
- 238000001914 filtration Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000008447 perception Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 210000005069 ears Anatomy 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 210000003454 tympanic membrane Anatomy 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 3
- 230000002301 combined effect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 101000969688 Homo sapiens Macrophage-expressed gene 1 protein Proteins 0.000 description 1
- 102100021285 Macrophage-expressed gene 1 protein Human genes 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/005—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo five- or more-channel type, e.g. virtual surround
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
Codificador de audio que comprende: - medios (401) para recibir una señal de audio de canal M donde M>2; - medios (403) de mezclado descendente para mezclar de manera descendente la señal de audio de canal M para dar una primera señal estéreo y datos paramétricos asociados; - medios (407) de generación para modificar la primera señal estéreo para generar una segunda señal estéreo en respuesta a los datos paramétricos asociados y datos de parámetro espacial para una función de transferencia perceptiva binaural, siendo la segunda señal estéreo una señal binaural; - medios (411) para codificar la segunda señal estéreo para generar datos codificados; y - medios (413) de salida para generar un flujo de datos de salida que comprende los datos codificados y los datos paramétricos asociados.
Description
Codificación y decodificación de audio.
La invención se refiere a codificación y/o
decodificación de audio y en particular, aunque no exclusivamente,
a codificación y/o decodificación de audio que implica una señal
espacial virtual binaural.
La codificación digital de diversas señales de
fuente se ha vuelto más importante de manera creciente durante las
últimas décadas ya que la representación y comunicación de señales
digitales ha sustituido de manera creciente la representación y
comunicación analógica. Por ejemplo, la distribución de contenido de
medios, tal como vídeo y música, se basa cada vez más en
codificación de contenido digital.
Además, en la última década ha habido una
tendencia a audio multicanal y específicamente a audio espacial que
se extiende más allá de las señales estéreo convencionales. Por
ejemplo, las grabaciones estéreo tradicionales sólo comprenden dos
canales mientras que los sistemas de audio avanzados modernos usan
normalmente cinco o seis canales, tal como en los sistemas de
sonido envolvente 5.1 populares. Esto proporciona una experiencia
de escucha con mayor implicación en la que el usuario puede estar
rodeado por fuentes de sonido.
Se han empleado diversas técnicas y normas para
la comunicación de señales multicanal de este tipo. Por ejemplo,
pueden transmitirse seis canales discretos que representan un
sistema envolvente 5.1 según normas tales como la codificación de
audio avanzada (AAC) o las normas Dolby Digital.
Sin embargo, con el fin de proporcionar
compatibilidad hacia atrás, se conoce mezclar de manera descendente
el número superior de canales para dar un número inferior y
específicamente se usa con frecuencia para mezclar de manera
descendente una señal de sonido envolvente 5.1 para dar una señal
estéreo permitiendo reproducir una señal estéreo mediante
decodificadores (estéreo) legados y una señal 5.1 mediante
decodificadores de sonido envolvente.
Un ejemplo es el procedimiento de codificación
compatible hacia atrás MPEG2. Una señal multicanal se mezcla de
manera descendente de modo que se obtiene una señal estéreo. Señales
adicionales se codifican en la parte de datos auxiliares
permitiendo que un decodificador multicanal MPEG2 genere una
representación de la señal multicanal. Un decodificador MPEG1
descartará los datos auxiliares y por tanto sólo decodificará la
mezcla descendente estéreo. La desventaja principal del
procedimiento de codificación aplicado en MPEG2 es que la tasa de
transmisión de datos adicional requerida para las señales
adicionales está en el mismo orden de magnitud que la tasa de
transmisión de datos requerida para codificar la señal estéreo. Por
tanto, la tasa de transmisión de bits adicional para extender
estéreo a audio multicanal es significativa.
Otros procedimientos existentes para la
transmisión multicanal compatible hacia atrás sin información
multicanal adicional pueden caracterizarse normalmente como
procedimientos envolventes de matriz. Ejemplos de codificación de
sonido envolvente de matriz incluyen procedimientos tales como Dolby
Prologic II y Logic-7. El principio común de estos
procedimientos es que realizan una multiplicación de matriz de los
múltiples canales de la señal de entrada por una matriz no
cuadrática adecuada generando de este modo una señal de salida con
un número inferior de canales. Específicamente, un codificador de
matriz aplica normalmente desplazamientos de fase a los canales
envolventes antes de mezclarlos con los canales frontales y
centrales.
A partir del documento WO2005/098826 se conoce
un codificador de audio que genera una mezcla descendente estéreo y
parámetros asociados a partir de una señal de audio multicanal. Un
posprocesador, que usa parámetros de función de transferencia,
genera una mezcla descendente estéreo procesada que se transmite a
un decodificador junto con los parámetros asociados.
A partir del documento US2005/0273322 se conoce
un codificador de audio, que genera una señal combinada, que
comprende una mezcla descendente binaural y las señales de audio
originales. La señal combinada se transmite a un decodificador como
flujo de bits de extensión y núcleo sin ningún parámetro.
Otro motivo para una conversión de canales es la
eficacia de codificación. Se ha encontrado que por ejemplo las
señales de audio de sonido envolvente pueden codificarse como
señales de audio de canal estéreo combinadas con un flujo de bits
de parámetro que describe las propiedades espaciales de la señal de
audio. El decodificador puede reproducir las señales de audio
estéreo con un grado de precisión muy satisfactorio. De este modo,
pueden obtenerse ahorros sustanciales de tasa de transmisión de
bits.
Hay varios parámetros que pueden usarse para
describir las propiedades espaciales de señales de audio. Un
parámetro de este tipo es la correlación cruzada entre canales, tal
como la correlación cruzada entre el canal izquierdo y el canal
derecho para señales estéreo. Otro parámetro es la proporción de
potencia de los canales. En los denominados codificadores de audio
espaciales (paramétricos) éstos y otros parámetros se extraen de la
señal de audio original para producir una señal de audio que tiene
un número reducido de canales, por ejemplo sólo un único canal, más
un conjunto de parámetros que describen las propiedades espaciales
de la señal de audio original. En los denominados decodificadores
de audio espaciales (paramétricos), vuelven a emplearse las
propiedades espaciales tal como se describen por los parámetros
espaciales transmitidos.
La codificación de audio espacial de este tipo
preferiblemente emplea una estructura jerárquica en cascada o
basada en árboles que comprende unidades convencionales en el
codificador y el decodificador. En el codificador, estas unidades
convencionales pueden ser mezcladores descendentes que combinan
canales de modo que se obtiene un número inferior de canales tales
como los mezcladores descendentes
2-a-1,
3-a-1,
3-a-2, etc., mientras que en el
decodificador las unidades convencionales correspondientes pueden
ser mezcladores ascendentes que dividen canales de modo que se
obtiene un número superior de canales tales como los mezcladores
ascendentes 1-a-2,
2-a-3.
En la actualidad el posicionamiento de fuente de
sonido 3D está ganando interés, especialmente en el dominio de los
móviles. Los efectos de sonido y la reproducción de música en los
juegos de móviles pueden añadir un valor significativo a la
experiencia del consumidor cuando se posicionan en 3D, creando de
manera eficaz un efecto 3D
"out-of-head".
Específicamente, se conoce grabar y reproducir señales de audio
binaurales que contienen información direccional específica a la
que es sensible el oído humano. Las grabaciones binaurales se
realizan normalmente usando dos micrófonos montados en una cabeza
humana artificial, de modo que el sonido grabado corresponde al
sonido captado por el oído humano e incluye cualquier influencia
debida a la forma de la cabeza y los oídos. Las grabaciones
binaurales difieren de las grabaciones estéreo (esto es,
estereofónicas) porque la reproducción de una grabación binaural
está prevista en general para un casco con auriculares o
auriculares, mientras que una grabación estéreo se realiza en
general para la reproducción mediante altavoces. Mientras que una
grabación binaural permite una reproducción de toda la información
espacial usando sólo dos canales, una grabación estéreo no
proporcionaría la misma percepción espacial. Las grabaciones de
canal dual regular (estereofónico) o de múltiples canales (por
ejemplo 5.1) pueden transformarse en grabaciones binaurales
realizando una convolución de cada señal regular con un conjunto de
funciones de transferencia perceptiva. Las funciones de
transferencia perceptiva de este tipo modelan la influencia de la
cabeza humana, y posiblemente otros objetos, en la señal. Un tipo
conocido ampliamente de la función de transferencia perceptiva
espacial es la denominada función de transferencia relativa a la
cabeza (HRTF, Head-Related Transfer
Function). Un tipo alternativo de función de transferencia
perceptiva espacial, que también tiene en cuenta las reflexiones
causadas por las paredes, el techo y el suelo de un recinto, es la
respuesta impulsiva binaural de un recinto (BRIR, Binaural Room
Impulse Response).
Normalmente, los algoritmos de posicionamiento
3D emplean las HRTF, que describen la transferencia desde una
determinada posición de fuente de sonido a los tímpanos por medio de
una respuesta al impulso. El posicionamiento de fuente de sonido 3D
puede aplicarse a señales multicanal por medio de HRTF permitiendo
de este modo que una señal binaural proporcione información de
sonido espacial a un usuario que por ejemplo usa un par de
auriculares.
Se sabe que la percepción de elevación se
facilita de manera predominante mediante surcos y picos específicos
en los espectros que llegan a ambos oídos. Por otro lado, el azimut
(percibido) de una fuente de sonido se capta en las indicaciones
"binaurales", tales como diferencias de nivel y diferencias de
tiempo de llegada entre las señales en los tímpanos. La percepción
de distancia se facilita en su mayor parte mediante el nivel de
señal global y, en caso de entornos reverberantes, mediante la
proporción de energía directa y reverberante. En la mayoría de los
casos se supone que especialmente en la cola de reverberación
tardía, no hay indicaciones de localización de fuente de
sonido
fiables.
fiables.
Las indicaciones perceptivas para la elevación,
el azimut y la distancia pueden captarse por medio de (pares de)
respuestas de impulso; una respuesta de impulso para describir la
transferencia desde una posición de fuente de sonido específica al
oído izquierdo; y una para el oído derecho. Por tanto las
indicaciones perceptivas para la elevación, el azimut y la
distancia se determinan mediante las propiedades correspondientes de
(del par de) las respuestas de impulso HRTF. En la mayoría de los
casos, se mide un par de HRTF para un gran conjunto de posiciones
de fuente de sonido; normalmente con una resolución espacial de
aproximadamente 5 grados tanto en elevación como
azimut.
azimut.
La síntesis 3D binaural convencional comprende
el filtrado (la convolución) de una señal de entrada con un par de
HRTF para la posición de fuente de sonido deseada. Sin embargo,
puesto que las HRTF se miden normalmente en condiciones anecoicas,
a menudo falta la percepción de "distancia" o localización
"out-of-head". Aunque
la convolución de una señal con HRTF anecoicas no es suficiente para
la síntesis de sonido 3D, con frecuencia es preferible el uso de
HRTF anecoicas desde un punto de vista de la complejidad y
flexibilidad. El efecto de un entorno ecoico (requerido para la
creación de la percepción de distancia) puede añadirse en una fase
posterior, dejando cierta flexibilidad para el usuario final para
modificar las propiedades acústicas del recinto. Además, puesto que
a menudo se supone que la reverberación tardía es omnidireccional
(sin indicaciones direccionales), este procedimiento de
procesamiento es a menudo más eficaz que la convolución de cada
fuente de sonido con un par de HRTF ecoicas. Además, aparte de los
argumentos de complejidad y flexibilidad para la acústica del
recinto, el uso de HRTF anecoicas tiene también ventajas para la
síntesis de la señal "seca" (indicación direccional).
La investigación reciente en el campo del
posicionamiento 3D ha demostrado que la resolución de frecuencia
que se representa mediante las respuestas de impulso HRTF anecoicas
es en muchos casos mayor de lo necesario. Específicamente, parece
que tanto para los espectros de fase como de magnitud, una
resolución de frecuencia no lineal tal como se propone por la
escala ERB es suficiente para sintetizar fuentes de sonido 3D con
una precisión que no es diferente de manera perceptiva del
procesamiento con HRTF anecoicas completas. En otras palabras, los
espectros de HRTF anecoicas no requieren una resolución espectral
mayor que la resolución de frecuencia del sistema auditivo
humano.
Un algoritmo de síntesis binaural convencional
se resalta en la figura 1. Un conjunto de canales de entrada se
filtra mediante un conjunto de HRTF. Cada señal de entrada se divide
en dos señales (una componente izquierda "L", y una derecha
"R"); cada una de estas señales se filtra posteriormente
mediante una HRTF correspondiente a la posición de fuente de sonido
deseada. Todas las señales del oído izquierdo se suman
posteriormente para generar la señal de salida binaural izquierda,
y las señales del oído derecho se suman para generar la señal de
salida binaural derecha.
La convolución de HRTF puede realizarse en el
dominio de tiempo, aunque a menudo se prefiere realizar el filtrado
como producto en el dominio de frecuencia. En ese caso, la sumación
también puede realizarse en el dominio de frecuencia.
Se conocen sistemas de decodificador que pueden
recibir una señal codificada de sonido envolvente y generar una
experiencia de sonido envolvente a partir de una señal binaural. Por
ejemplo, se conocen sistemas de auricular que permiten convertir
una señal de sonido envolvente en una señal binaural de sonido
envolvente para proporcionar una experiencia de sonido envolvente
para el usuario de los auriculares.
La figura 2 ilustra un sistema en el que un
decodificador de envolvente MPEG recibe una señal estéreo con datos
paramétricos espaciales. El flujo de bits de entrada se demultiplexa
dando como resultado parámetros espaciales y un flujo de bits de
mezcla descendente. El último flujo de bits se decodifica usando un
decodificador mono o estéreo convencional. La mezcla descendente
decodificada se decodifica mediante un decodificador espacial, que
genera una salida multicanal basándose en los parámetros espaciales
transmitidos. Finalmente, la salida multicanal se procesa entonces
mediante una fase de síntesis binaural (similar a la de la figura 1)
dando como resultado una señal de salida binaural que proporciona
una experiencia de sonido envolvente para el usuario.
Sin embargo, un enfoque de este tipo tiene una
serie de desventajas asociadas.
Por ejemplo, la cascada del decodificador de
sonido envolvente y la síntesis binaural incluye el cálculo de una
representación de señal multicanal como etapa intermedia, seguida
por una convolución de HRTF y un mezclado descendente en la etapa
de síntesis binaural. Esto puede dar como resultado una complejidad
aumentada y un rendimiento reducido.
Además, el sistema es muy complejo. Por ejemplo
los decodificadores espaciales funcionan normalmente en un dominio
de subbanda (QMF). La convolución de HRTF por otro lado puede
implementarse normalmente de la manera más eficaz en el dominio de
FFT. Por tanto, es necesaria una cascada de un banco de filtros de
síntesis QMF multicanal, una transformada FFT multicanal y una
transformada FFT inversa estéreo, dando como resultado un sistema
con demandas elevadas de cálculo.
La calidad de la experiencia de usuario
proporcionada puede reducirse. Por ejemplo, los artefactos de
codificación creados por el decodificador espacial para crear una
reconstrucción multicanal aún serán audibles en la salida binaural
(estéreo).
Además, el enfoque requiere decodificadores
dedicados y realizar un procesamiento de señal complejo mediante
los dispositivos de usuario individuales. Esto puede obstaculizar la
aplicación en muchas situaciones. Por ejemplo, los dispositivos
legados que sólo pueden decodificar la mezcla descendente estéreo no
podrán proporcionar una experiencia de usuario de sonido
envolvente.
Por tanto, una codificación/decodificación de
audio mejorada sería ventajosa.
Por consiguiente, la invención pretende
preferiblemente mitigar, aliviar o eliminar una o más de las
desventajas anteriormente mencionadas de manera individual o en
cualquier combinación.
Según un primer aspecto de la invención se
proporciona un codificador de audio que comprende: medios para
recibir una señal de audio de canal M donde M>2; medios de
mezclado descendente para mezclar de manera descendente la señal de
audio de canal M para dar una primera señal estéreo y datos
paramétricos asociados; medios de generación para modificar la
primera señal estéreo para generar una segunda señal estéreo en
respuesta a los datos paramétricos asociados y los datos de
parámetro espacial para una función de transferencia perceptiva
binaural, siendo la segunda señal estéreo una señal binaural; medios
para codificar la segunda señal estéreo para generar datos
codificados; y medios de salida para generar un flujo de datos de
salida que comprende los datos codificados y los datos paramétricos
asociados.
La invención puede permitir una codificación de
audio mejorada. En particular, la invención puede permitir una
codificación estéreo eficaz de señales multicanal a la vez que
permite que decodificadores estéreo legados proporcionen una
experiencia espacial mejorada. Además, la invención permite invertir
un proceso de síntesis espacial virtual binaural en el
decodificador permitiendo de este modo una decodificación multicanal
de alta calidad. La invención puede permitir un codificador de baja
complejidad y en particular puede permitir una generación de baja
complejidad de una señal binaural. La invención puede permitir
facilitar la implementación y volver a utilizar la
funcionalidad.
La invención puede en particular proporcionar
una determinación basada en parámetros de una señal espacial
virtual binaural a partir de una señal multicanal.
La señal binaural puede ser específicamente una
señal espacial virtual binaural tal como una señal estéreo binaural
3D virtual. La señal de audio de canal M puede ser una señal
envolvente tal como una señal envolvente 5.1. ó 7.1. La señal
espacial virtual binaural puede emular una posición de fuente de
sonido para cada canal de la señal de audio de canal M. Los datos
de parámetro espacial pueden comprender datos indicativos de una
función de transferencia a partir de una posición de fuente de
sonido pretendida al tímpano de un usuario previsto.
La función de transferencia perceptiva binaural
puede ser por ejemplo una función de transferencia relativa a la
cabeza (HRTF) o una respuesta impulsiva binaural de un recinto
(BPIR).
Según una característica opcional de la
invención, los medios de generación están dispuestos para generar
la segunda señal estéreo calculando valores de datos de subbanda
para la segunda señal estéreo en respuesta a los datos paramétricos
asociados, los datos de parámetro espacial y los valores de datos de
subbanda para la primera señal estéreo.
Esto puede permitir una codificación mejorada
y/o facilitar la implementación. Específicamente, la característica
puede proporcionar una complejidad reducida y/o una carga de cálculo
reducida. Los intervalos de subbanda de frecuencia de la primera
señal estéreo, la segunda señal estéreo, los datos paramétricos
asociados y los datos de parámetro espacial pueden ser diferentes o
algunas o todas las subbandas pueden ser sustancialmente idénticas
para algunos o todos ellos.
Según una característica opcional de la
invención, los medios de generación están dispuestos para generar
valores de subbanda para una primera subbanda de la segunda señal
estéreo en respuesta a una multiplicación de valores de subbanda
estéreo correspondientes para la primera señal estéreo por una
primera matriz de subbanda; comprendiendo además los medios de
generación medios de parámetro para determinar valores de datos de
la primera matriz de subbanda en respuesta a datos paramétricos
asociados y datos de parámetro espacial para la primera
subbanda.
Esto puede permitir una codificación mejorada
y/o facilitar la implementación. Específicamente, la característica
puede proporcionar una complejidad reducida y/o una carga de cálculo
reducida. La invención puede en particular proporcionar una
determinación basada en parámetros de una señal espacial virtual
binaural a partir de una señal multicanal realizando operaciones de
matriz en subbandas individuales. Los primeros valores de matriz de
subbanda pueden reflejar el efecto combinado de una conexión en
cascada de una decodificación multicanal y un filtrado de HRTF/BRIR
de los múltiples canales resultantes. Puede realizarse una
multiplicación de matriz de subbanda para todas las subbandas de la
segunda señal estéreo.
Según una característica opcional de la
invención, los medios de generación comprenden además medios para
convertir un valor de datos de al menos uno de la primera señal
estéreo, los datos paramétricos asociados y los datos de parámetro
espacial asociados con una subbandas que tiene un intervalo de
frecuencia diferente del primer intervalo de subbanda en un valor
de datos correspondiente para la primera subbanda.
Esto puede permitir una codificación mejorada
y/o facilitar la implementación. Específicamente, la característica
puede proporcionar una complejidad reducida y/o una carga de cálculo
reducida. Específicamente, la invención puede permitir que los
diferentes procesos y algoritmos se basen en las divisiones de
subbanda más adecuadas para el proceso individual.
Según una característica opcional de la
invención, los medios de generación están dispuestos para determinar
los valores de subbanda estéreo L_{B}, R_{B} para la primera
subbanda de la segunda señal estéreo sustancialmente como:
donde L_{O}, R_{O} son valores
de subbanda correspondientes de la primera señal estéreo y los
medios de parámetro están dispuestos para determinar valores de
datos de la matriz de multiplicación sustancialmente
como:
donde m_{k,l} son parámetros
determinados en respuesta a datos paramétricos asociados para una
mezcla descendente mediante los medios de mezclado descendente de
los canales L, R y C para dar la primera señal estéreo; y
H_{J}(X) se determina en respuesta a los datos de
parámetro espacial para el canal X al canal J de salida estéreo de
la segunda señal
estéreo.
Esto puede permitir una codificación mejorada
y/o facilitar la implementación. Específicamente, la característica
puede proporcionar una complejidad reducida y/o una carga de cálculo
reducida.
Según una característica opcional de la
invención, al menos uno de los canales L y R corresponde a una
mezcla descendente de al menos dos canales mezclados de manera
descendente y los medios de parámetro están dispuestos para
determinar H_{J}(X) en respuesta a una combinación
ponderada de los datos de parámetro espacial para los al menos dos
canales mezclados de manera descendente.
Esto puede permitir una codificación mejorada
y/o facilitar la implementación. Específicamente, la característica
puede proporcionar una complejidad reducida y/o una carga de cálculo
reducida.
Según una característica opcional de la
invención, los medios de parámetro están dispuestos para determinar
una ponderación de los datos de parámetro espacial para los al menos
dos canales mezclados de manera descendente en respuesta a una
medición de energía relativa para los al menos dos canales mezclados
de manera descendente.
Esto puede permitir una codificación mejorada
y/o facilitar la implementación. Específicamente, la característica
puede proporcionar una complejidad reducida y/o una carga de cálculo
reducida.
Según una característica opcional de la
invención, los datos de parámetro espacial incluyen al menos un
parámetro seleccionado del grupo que consiste en: un nivel promedio
por parámetro de subbanda; un parámetro de tiempo de llegada
promedio; una fase de al menos un canal estéreo; un parámetro de
sincronismo; un parámetro de retardo de grupo; una fase entre
canales estéreo; y un parámetro de correlación cruzada de canal.
Estos parámetros pueden proporcionar una
codificación particularmente ventajosa y pueden en particular ser
específicamente adecuados para el procesamiento de subbanda.
Según una característica opcional de la
invención, los medios de salida están dispuestos para incluir datos
de posición de fuente de sonido en el flujo de salida.
Esto puede permitir a un decodificador
determinar datos de parámetro espacial adecuados y/o puede
proporcionar una manera eficaz de indicar los datos de parámetro
espacial con una baja sobrecarga. Esto puede proporcionar una
manera eficaz de invertir el proceso de síntesis espacial virtual
binaural en el decodificador permitiendo de este modo una
decodificación multicanal de alta calidad. La característica puede
permitir además una experiencia de usuario mejorada y puede
permitir o facilitar la implementación de una señal espacial virtual
binaural con fuentes de sonido en movimiento. La característica
puede permitir de manera alternativa o adicional una adaptación de
una síntesis espacial en un decodificador por ejemplo invirtiendo en
primer lugar la síntesis realizada en el codificador seguido por
una síntesis usando una función de transferencia perceptiva binaural
adaptada o individualizada.
Según una característica opcional de la
invención, los medios de salida están dispuestos para incluir al
menos algunos de los datos de parámetro espacial en el flujo de
salida.
Esto puede proporcionar una manera eficaz de
invertir el proceso de síntesis espacial virtual binaural en el
decodificador permitiendo de este modo una decodificación multicanal
de alta calidad. La característica puede permitir además una
experiencia de usuario mejorada y puede permitir o facilitar la
implementación de una señal espacial virtual binaural con fuentes
de sonido en movimiento. Los datos de parámetro espacial pueden
incluirse de manera directa o indirecta en el flujo de salida por
ejemplo incluyendo información que permite a un decodificador
determinar los datos de parámetro espacial. La característica puede
permitir de manera alternativa o adicional una adaptación de una
síntesis espacial en un decodificador por ejemplo invirtiendo en
primer lugar la síntesis realizada en el codificador seguido por una
síntesis usando una función de transferencia perceptiva binaural
adaptada o
individualizada.
individualizada.
Según una característica opcional de la
invención, el codificador comprende además medios para determinar
los datos de parámetro espacial en respuesta a posiciones de señal
de sonido deseadas.
Esto puede permitir una codificación mejorada
y/o facilitar la implementación. Las posiciones de señal de sonido
deseadas pueden corresponder a las posiciones de las fuentes de
sonido para los canales individuales de la señal de canal M.
Según otro aspecto de la invención se
proporciona un decodificador de audio que comprende: medios para
recibir datos de entrada que comprenden una primera señal estéreo y
datos paramétricos asociados con una señal estéreo mezclada de
manera descendente de una señal de audio de canal M donde M>2,
siendo la primera señal estéreo una señal binaural correspondiente
a la señal de audio de canal M; y medios de generación para
modificar la primera señal estéreo para generar la señal estéreo
mezclada de manera descendente en respuesta a los datos
paramétricos y los primeros datos de parámetro espacial para una
función de transferencia perceptiva binaural, estando asociados los
primeros datos de parámetro espacial con la primera señal
estéreo.
La invención puede permitir una decodificación
de audio mejorada. En particular, la invención puede permitir una
decodificación estéreo de alta calidad y específicamente puede
permitir invertir un proceso de síntesis espacial virtual binaural
de codificador en el decodificador. La invención puede permitir un
decodificador de baja complejidad. La invención puede permitir
facilitar la implementación y volver a utilizar la
funcionalidad.
La señal binaural puede ser específicamente una
señal espacial virtual binaural tal como una señal estéreo binaural
3D virtual. Los datos de parámetro espacial pueden comprender datos
indicativos de una función de transferencia a partir de una
posición de fuente de sonido prevista al oído de un usuario
previsto. La función de transferencia perceptiva binaural puede ser
por ejemplo una función de transferencia relativa a la cabeza
(HRTF) o una respuesta impulsiva binaural de un recinto (BPIR).
Según una característica opcional de la
invención, el decodificador de audio comprende además medios para
generar la señal de audio de canal M en respuesta a la señal estéreo
mezclada de manera descendente y los datos paramétricos.
La invención puede permitir una decodificación
de audio mejorada. En particular, la invención puede permitir una
decodificación multicanal de alta calidad y específicamente puede
permitir invertir un proceso de síntesis espacial virtual binaural
de codificador en el decodificador. La invención puede permitir un
decodificador de baja complejidad. La invención puede permitir
facilitar la implementación y volver a utilizar la
funcionalidad.
La señal de audio de canal M puede ser una señal
envolvente tal como una señal envolvente 5.1. ó 7. La señal
binaural puede ser una señal espacial virtual que emula una posición
de fuente de sonido para cada canal de la señal de audio de canal
M.
Según una característica opcional de la
invención, los medios de generación están dispuestos para generar
la señal estéreo mezclada de manera descendente calculando valores
de datos de subbanda para la señal estéreo mezclada de manera
descendente en respuesta a los datos paramétricos asociados, los
datos de parámetro espacial y valores de datos de subbanda para la
primera señal estéreo.
Esto puede permitir una decodificación mejorada
y/o facilitar la implementación. Específicamente, la característica
puede proporcionar una complejidad reducida y/o carga de cálculo
reducida. Los intervalos de subbanda de frecuencia de la primera
señal estéreo, la señal estéreo mezclada de manera descendente, los
datos paramétricos asociados y los datos de parámetro espacial
pueden ser diferentes o algunas o todas las subbandas pueden ser
sustancialmente idénticas para algunos o todos ellos.
Según una característica opcional de la
invención, los medios de generación están dispuestos para generar
valores de subbanda para una primera subbanda de la señal estéreo
mezclada de manera descendente en respuesta a una multiplicación de
valores de subbanda estéreo correspondientes para la primera señal
estéreo por una primera matriz de subbanda;
comprendiendo además los medios de generación
medios de parámetro para determinar valores de datos de la primera
matriz de subbanda en respuesta a datos paramétricos y datos de
parámetro espacial para la primera sub-
banda.
banda.
Esto puede permitir una decodificación mejorada
y/o facilitar la implementación. Específicamente, la característica
puede proporcionar una complejidad reducida y/o una carga de cálculo
reducida. Los primeros valores de matriz de subbanda pueden
reflejar el efecto combinado de una conexión en cascada de una
decodificación multicanal y filtrado de HRTF/BRIR de los múltiples
canales resultantes. Puede realizarse una multiplicación de matriz
de subbanda para todas las subbandas de la señal estéreo mezclada de
manera descendente.
Según una característica opcional de la
invención, los datos de entrada comprenden al menos algunos datos
de parámetro espacial.
Esto puede proporcionar una manera eficaz de
invertir un proceso de síntesis espacial virtual binaural realizado
en un codificador permitiendo de este modo una decodificación
multicanal de alta calidad. La característica puede permitir además
una experiencia de usuario mejorada y puede permitir o facilitar la
implementación de una señal espacial virtual binaural con fuentes
de sonido en movimiento. Los datos de parámetro espacial pueden
incluirse de manera directa o indirecta en los datos de entrada por
ejemplo puede ser cualquier información que permita al
decodificador determinar los datos de parámetro espacial.
Según una característica opcional de la
invención, los datos de entrada comprenden datos de posición de
fuente de sonido y el decodificador comprende medios para
determinar los datos de parámetro espacial en respuesta a los datos
de posición de fuente de sonido.
Esto puede permitir una codificación mejorada
y/o facilitar la implementación. Las posiciones de señal de sonido
deseadas pueden corresponder a las posiciones de las fuentes de
sonido para los canales individuales de la señal de canal M.
El decodificador puede comprender por ejemplo
una memoria de datos que comprenda datos de parámetro espacial de
HRTF asociados con diferentes posiciones de fuente de sonido y puede
determinar los datos de parámetro espacial que van a usarse
recuperando los datos de parámetro para las posiciones
indicadas.
Según una característica opcional de la
invención, el decodificador de audio comprende además una unidad de
decodificador espacial para producir un par de canales de salida
binaurales modificando la primera señal estéreo en respuesta a los
datos paramétricos asociados y segundos datos de parámetro espacial
para una segunda función de transferencia perceptiva binaural,
siendo los segundos datos de parámetro espacial diferentes a los
primeros datos de parámetro espacial.
La característica puede permitir una síntesis
espacial mejorada y en particular puede permitir una señal binaural
sintetizada espacial individual o adaptada que es en particular
adecuada para el usuario específico. Esto puede conseguirse
mientras aún se permite que los decodificadores estéreo legados
generen señales binaurales espaciales sin requerir una síntesis
espacial en el decodificador. Por tanto, puede conseguirse un
sistema de audio mejorado. La segunda función de transferencia
perceptiva binaural puede específicamente ser diferente a la
función de transferencia perceptiva binaural de los primeros datos
espaciales. La segunda función de transferencia perceptiva binaural
y los segundos datos espaciales pueden adaptarse específicamente
para el usuario individual del decodi-
ficador.
ficador.
Según una característica opcional de la
invención, el decodificador espacial comprende: una unidad de
conversión de parámetros para convertir los datos paramétricos en
parámetros de síntesis binaural usando los segundos datos de
parámetro espacial, y una unidad de síntesis espacial para
sintetizar el par de canales binaurales usando los parámetros de
síntesis binaural y la primera señal estéreo.
Esto puede permitir un rendimiento mejorado y/o
facilitar la implementación y/o una complejidad reducida. Los
parámetros binaurales pueden ser parámetros que pueden multiplicarse
con muestras de subbanda de la primera señal estéreo y/o la señal
estéreo mezclada de manera descendente para generar muestras de
subbanda para los canales binaurales. La multiplicación puede ser
por ejemplo una multiplicación de matriz.
Según una característica opcional de la
invención, los parámetros de síntesis binaural comprenden
coeficientes de matriz para una matriz de 2 por 2 que relacionan
muestras estéreo de la señal estéreo mezclada de manera descendente
con muestras estéreo del par de canales de salida binaurales.
Esto puede permitir un rendimiento mejorado y/o
facilitar la implementación y/o una complejidad reducida. Las
muestras estéreo pueden ser muestras de subbanda estéreo de por
ejemplo subbandas de frecuencia de transformada de Fourier o
QMF.
Según una característica opcional de la
invención, los parámetros de síntesis binaural comprenden
coeficientes de matriz para una matriz de 2 por 2 que relacionan
muestras de subbanda estéreo de la primera señal estéreo con
muestras estéreo del par de canales de salida binaurales.
Esto puede permitir un rendimiento mejorado y/o
facilitar la implementación y/o una complejidad reducida. Las
muestras estéreo pueden ser muestras de subbanda estéreo de por
ejemplo subbandas de frecuencia de transformada de Fourier o
QMF.
Según otro aspecto de la invención se
proporciona un procedimiento de codificación de audio, comprendiendo
el procedimiento: recibir una señal de audio de canal M donde
M>2; mezclar de manera descendente la señal de audio de canal M
para dar una primera señal estéreo y datos paramétricos asociados;
modificar la primera señal estéreo para generar una segunda señal
estéreo en respuesta a los datos paramétricos asociados y datos de
parámetro espacial para una función de transferencia perceptiva
binaural, siendo la segunda señal estéreo una señal binaural;
codificar la segunda señal estéreo para generar datos codificados; y
generar un flujo de datos de salida que comprende los datos
codificados y los datos paramétricos asociados.
Según otro aspecto de la invención se
proporciona un procedimiento de decodificación de audio,
comprendiendo el procedimiento:
- recibir datos de entrada que comprenden una
primera señal estéreo y datos paramétricos asociados con una señal
estéreo mezclada de manera descendente de una señal de audio de
canal M donde M>2, siendo la primera señal estéreo una señal
binaural correspondiente a la señal de audio de canal M; y
- modificar la primera señal estéreo para
generar la señal estéreo mezclada de manera descendente en respuesta
a los datos paramétricos y datos de parámetro espacial para una
función de transferencia perceptiva binaural, estando asociados los
datos de parámetro espacial con la primera señal estéreo.
Según otro aspecto de la invención se
proporciona un receptor para recibir una señal de audio que
comprende: medios para recibir datos de entrada que comprenden una
primera señal estéreo y datos paramétricos asociados con una señal
estéreo mezclada de manera descendente de una señal de audio de
canal M donde M>2, siendo la primera señal estéreo una señal
binaural correspondiente a la señal de audio de canal M; y medios de
generación para modificar la primera señal estéreo para generar la
señal estéreo mezclada de manera descendente en respuesta a los
datos paramétricos y datos de parámetro espacial para una función de
transferencia perceptiva binaural, estando asociados los datos de
parámetro espacial con la primera señal estéreo.
Según otro aspecto de la invención se
proporciona un transmisor para transmitir un flujo de datos de
salida; comprendiendo el transmisor: medios para recibir una señal
de audio de canal M donde M>2; medios de mezclado descendente
para mezclar de manera descendente la señal de audio de canal M para
dar una primera señal estéreo y datos paramétricos asociados;
medios de generación para modificar la primera señal estéreo para
generar una segunda señal estéreo en respuesta a los datos
paramétricos asociados y datos de parámetro espacial para una
función de transferencia perceptiva binaural, siendo la segunda
señal estéreo una señal binaural; medios para codificar la segunda
señal estéreo para generar datos codificados; medios de salida para
generar un flujo de datos de salida que comprende los datos
codificados y los datos paramétricos asociados; y medios para
transmitir el flujo de datos de salida.
Según otro aspecto de la invención se
proporciona un sistema de transmisión para transmitir una señal de
audio, comprendiendo el sistema de transmisión: un transmisor que
comprende: medios para recibir una señal de audio de canal M donde
M>2, medios de mezclado descendente para mezclar de manera
descendiente la señal de audio de canal M para dar una primera
señal estéreo y datos paramétricos asociados, medios de generación
para modificar la primera señal estéreo para generar una segunda
señal estéreo en respuesta a los datos paramétricos asociados y
datos de parámetro espacial para una función de transferencia
perceptiva binaural, siendo la segunda señal estéreo una señal
binaural, medios para codificar la segunda señal estéreo para
generar datos codificados, medios de salida para generar un flujo
de datos de salida de audio que comprende los datos codificados y
los datos paramétricos asociados, y medios para transmitir el flujo
de datos de salida de audio; y un receptor que comprende: medios
para recibir el flujo de datos de salida de audio; y medios para
modificar la segunda señal estéreo para generar la primera señal
estéreo en respuesta a los datos paramétricos y los datos de
parámetro espacial.
Según otro aspecto de la invención se
proporciona un procedimiento para recibir una señal de audio,
comprendiendo el procedimiento: recibir datos de entrada que
comprenden una primera señal estéreo y datos paramétricos asociados
con una señal estéreo mezclada de manera descendente de una señal de
audio de canal M donde M>2, siendo la primera señal estéreo una
señal binaural correspondiente a la señal de audio de canal M; y
modificar la primera señal estéreo para generar la señal estéreo
mezclada de manera descendente en respuesta a los datos
paramétricos y datos de parámetro espacial para una función de
transferencia perceptiva binaural, estando asociados los datos de
parámetro espacial con la primera señal estéreo.
Según otro aspecto de la invención se
proporciona un procedimiento para transmitir un flujo de datos de
salida de audio, comprendiendo el procedimiento: recibir una señal
de audio de canal M donde M>2; mezclar de manera descendente la
señal de audio de canal M para dar una primera señal estéreo y datos
paramétricos asociados; modificar la primera señal estéreo para
generar una segunda señal estéreo en respuesta a los datos
paramétricos asociados y datos de parámetro espacial para una
función de transferencia perceptiva binaural, siendo la segunda
señal estéreo una señal binaural; codificar la segunda señal estéreo
para generar datos codificados; y generar un flujo de datos de
salida de audio que comprende los datos codificados y los datos
paramétricos asociados; y transmitir el flujo de datos de salida de
audio.
Según otro aspecto de la invención se
proporciona un procedimiento para transmitir y recibir una señal de
audio, comprendiendo el procedimiento recibir una señal de audio de
canal M donde M>2; mezclar de manera descendente la señal de
audio de canal M para dar una primera señal estéreo y datos
paramétricos asociados; modificar la primera señal estéreo para
generar una segunda señal estéreo en respuesta a los datos
paramétricos asociados y datos de parámetro espacial para una
función de transferencia perceptiva binaural, siendo la segunda
señal estéreo una señal binaural; codificar la segunda señal estéreo
para generar datos codificados; y generar un flujo de datos de
salida de audio que comprende los datos codificados y los datos
paramétricos asociados; transmitir el flujo de datos de salida de
audio; recibir el flujo de datos de salida de audio; y modificar la
segunda señal estéreo para generar la primera señal estéreo en
respuesta a los datos paramétricos y los datos de parámetro
espacial.
Según otro aspecto de la invención se
proporciona un producto de programa informático para ejecutar
cualquiera de los procedimientos anteriormente descritos.
Según otro aspecto de la invención se
proporciona un dispositivo de grabación de audio que comprende un
codificador según el codificador anteriormente descrito.
Según otro aspecto de la invención se
proporciona un dispositivo de reproducción de audio que comprende un
decodificador según el decodificador anteriormente descrito.
Según otro aspecto de la invención se
proporciona un flujo de datos de audio para una señal de audio que
comprende una primera señal estéreo; y datos paramétricos asociados
con una señal estéreo mezclada de manera descendente de una señal
de audio de canal M donde M>2; en el que la primera señal estéreo
es una señal binaural correspondiente a la señal de audio de canal
M.
Según otro aspecto de la invención se
proporciona un medio de almacenamiento que tiene almacenado en el
mismo una señal tal como se describió anteriormente.
Estos y otros aspectos, características y
ventajas de la invención resultarán evidentes a partir de y se
aclararán con referencia a la/las realización/realizaciones
descrita/descritas a continuación en el presente documento.
Se describirán realizaciones de la invención,
únicamente a modo de ejemplo, con referencia a los dibujos, en los
que
la figura 1 es una ilustración de una síntesis
binaural según la técnica anterior;
la figura 2 es una ilustración de una cascada de
un decodificador multicanal y una síntesis binaural;
la figura 3 ilustra un sistema de transmisión
para la comunicación de una señal de audio según algunas
realizaciones de la invención;
la figura 4 ilustra un codificador según algunas
realizaciones de la invención;
la figura 5 ilustra un codificador de mezcla
descendente paramétrico de sonido envolvente;
la figura 6 ilustra un ejemplo de una posición
de fuente de sonido relativa a un usuario;
la figura 7 ilustra un decodificador multicanal
según algunas realizaciones de la invención;
la figura 8 ilustra un decodificador según
algunas realizaciones de la invención;
la figura 9 ilustra un decodificador según
algunas realizaciones de la invención;
la figura 10 ilustra un procedimiento de
codificación de audio según algunas realizaciones de la invención;
y
la figura 11 ilustra un procedimiento de
decodificación de audio según algunas realizaciones de la
invención.
La figura 3 ilustra un sistema 300 de
transmisión para la comunicación de una señal de audio según algunas
realizaciones de la invención. El sistema 300 de transmisión
comprende un transmisor 301 que se acopla a un receptor 303 a
través de una red 305 que específicamente puede ser Internet.
En el ejemplo específico, el transmisor 301 es
un dispositivo de grabación de señales y el receptor es un
dispositivo 303 reproductor de señales aunque se apreciará que en
otras realizaciones puede usarse un transmisor y un receptor en
otras aplicaciones y para otros fines. Por ejemplo, el transmisor
301 y/o el receptor 303 pueden formar parte de una funcionalidad de
transcodificación y por ejemplo pueden proporcionar una interfaz
con otros destinos o fuentes de señal.
En el ejemplo específico en el que se soporta
una función de grabación de señal, el transmisor 301 comprende un
digitalizador 307 que recibe una señal analógica que se convierte en
una señal PCM digital mediante muestreo y conversión
analógico-digital. El digitalizador 307 muestrea una
pluralidad de señales generando de este modo una señal
multicanal.
El transmisor 301 se acopla al codificador 309
de la figura 1 que codifica la señal multicanal según un algoritmo
de codificación. El codificador 300 se acopla a un transmisor 311 de
red que recibe la señal codificada y establece una interfaz con
Internet 305. El transmisor de red puede transmitir la señal
codificada al receptor 303 a través de Internet 305.
El receptor 303 comprende un receptor 313 de red
que establece una interfaz con Internet 305 y que se dispone para
recibir la señal codificada desde el transmisor 301.
El receptor 311 de red se acopla a un
decodificador 315. El decodificador 315 recibe la señal codificada y
la decodifica según un algoritmo de decodificación.
En el ejemplo específico en el que se soporta
una función de reproducción de señal, el receptor 303 comprende
además un reproductor 317 de señales que recibe la señal de audio
decodificada desde el decodificador 315 y la presenta al usuario.
Específicamente, el reproductor 313 de señales puede comprender un
convertidor digital-analógico, amplificadores y
altavoces tal como se requiere para emitir la señal de audio
decodificada.
En el ejemplo específico, el codificador 309
recibe una señal de sonido envolvente de cinco canales y la mezcla
de manera descendente para dar una señal estéreo. La señal estéreo
se procesa entonces posteriormente para generar una señal binaural
que específicamente es una señal espacial virtual binaural en forma
de mezcla descendente binaural 3D. Al usar una fase de
procesamiento posterior 3D que trabaja sobre la mezcla descendente
tras la codificación espacial, el procesamiento 3D puede invertirse
en el decodificador 315. Como resultado, un decodificador
multicanal para la reproducción en altavoces no mostrará ninguna
degradación significativa de la calidad debido a la mezcla
descendente estéreo modificada, mientras que al mismo tiempo,
incluso decodificadores estéreo convencionales producirán una señal
compatible 3D. Por tanto, el codificador 309 puede generar una señal
que permita una decodificación multicanal de alta calidad y al
mismo tiempo permita una experiencia pseudoespacial a partir de una
salida estéreo tradicional tal como por ejemplo a partir de un
decodificador tradicional que alimenta un par de auriculares.
La figura 4 ilustra el codificador 309 en más
detalle.
El codificador 309 comprende un receptor 401
multicanal que recibe una señal de audio multicanal. Aunque los
principios descritos se aplicarán a una señal multicanal que
comprende cualquier número de canales superior a dos, el ejemplo
específico se centrará en una señal de cinco canales correspondiente
a una señal de sonido envolvente convencional (por motivos de
claridad y brevedad se ignorará el canal de frecuencia inferior
usado a menudo para señales envolventes. Sin embargo, resultará
evidente para el experto en la técnica que la señal multicanal
puede tener un canal de frecuencia baja adicional. Este canal puede
combinarse por ejemplo con el canal central mediante un procesador
de mezcla descendente).
El receptor 401 multicanal se acopla a un
procesador 403 de mezcla descendente que se dispone para mezclar de
manera descendente la señal de audio de cinco canales para dar una
primera señal estéreo. Además, el procesador 403 de mezcla
descendente genera datos 405 paramétricos asociados con la primera
señal estéreo y que contienen indica-
ciones de audio e información que relaciona la primera señal estéreo con los canales originales de la señal multicanal.
ciones de audio e información que relaciona la primera señal estéreo con los canales originales de la señal multicanal.
El procesador 403 de mezcla descendente puede
implementar por ejemplo un codificador multicanal envolvente MPEG.
Un ejemplo del mismo se ilustra en la figura 5. En el ejemplo, la
señal de entrada multicanal consiste en los canales Lf (frontal
izquierdo), Ls (envolvente izquierdo), C (central), Rf (frontal
derecho) y Rs (envolvente derecho). Los canales Lf y Ls se
alimentan a un primer mezclador 501 descendente TTO (Two To
One, dos a uno) que genera una mezcla descendente mono para un
canal izquierdo (L) así como parámetros que relacionan los dos
canales Lf y Ls de entrada con el canal L de salida. De manera
similar, los canales Rf y Rs se alimentan a un segundo mezclador
503 descendente TTO que genera una mezcla descendente mono para un
canal derecho (R) así como parámetros que relacionan los dos
canales Rf y Rs de entrada con el canal R de salida. Los canales R,
L y C se alimentan entonces a un mezclador 505 descendente TTT
(Three To Two, tres a dos) que combina estas señales para
generar una mezcla descendente estéreo y parámetros espaciales
adicionales.
Los parámetros que resultan del mezclador 505
descendente TTT consisten normalmente en un par de coeficientes de
predicción para cada banda de parámetros, o un par de diferencias de
nivel para describir las proporciones de energía de las tres
señales de entrada. Los parámetros de los mezcladores 501, 503
descendentes TTO consisten normalmente en diferencias de nivel y
valores de correlación cruzada o coherencia entre las señales de
entrada para cada banda de frecuencia.
La primera señal estéreo generada es por tanto
una señal estéreo convencional estándar que comprende una serie de
canales mezclados de manera descendente. Un decodificador multicanal
puede recrear la señal multicanal original mezclando de manera
ascendente y aplicando los datos paramétricos asociados. Sin
embargo, un decodificador estéreo convencional únicamente
proporcionará una señal estéreo perdiendo de este modo información
espacial y produciendo una experiencia de usuario reducida.
Sin embargo, en el codificador 309, la señal
estéreo mezclada de manera descendente no se codifica y transmite
directamente. En su lugar, la primera señal estéreo se alimenta a un
procesador 407 espacial al que se alimentan también los datos 405
de parámetro asociados a partir del procesador 403 de mezcla
descendente. El procesador 407 espacial se acopla además a un
procesador 409 HRTF.
El procesador 409 HRTF genera datos de parámetro
de función de transferencia relativa a la cabeza (HRTF) usados por
el procesador 407 espacial para generar una señal binaural 3D.
Específicamente, una HRTF describe la función de transferencia a
partir de una posición de fuente de sonido dada a los tímpanos por
medio de una respuesta al impulso. El procesador 409 HRTF genera
específicamente datos de parámetro de HRTF correspondientes a un
valor de una función HRTF deseada en una subbanda de frecuencia. El
procesador 409 HRTF puede por ejemplo calcular una HRTF para una
posición de fuente de sonido de uno de los canales de la señal
multicanal. Esta función de transferencia puede convertirse en un
dominio de subbanda de frecuencia adecuado (tal como un dominio de
subbanda QMF o FFT) y puede determinarse el valor de parámetro de
HRTF correspondiente en cada subbanda.
Se apreciará que aunque la descripción se centra
en una aplicación de funciones de transferencia relativas a la
cabeza, el enfoque y los principios descritos se aplican igualmente
a otras funciones de transferencia perceptiva binaural (espacial),
tales como una función de respuesta impulsiva binaural de un recinto
(BRIR). Otro ejemplo de una función de transferencia perceptiva
binaural es una regla de barrido (panning) de amplitud
simple que describe la cantidad relativa de nivel de señal desde un
canal de entrada a cada uno de los canales de salida estéreo
binaurales.
En algunas realizaciones, los parámetros de HRTF
pueden calcularse de manera dinámica mientras que en otras
realizaciones pueden predeterminarse y almacenarse en una memoria de
datos adecuada. Por ejemplo, los parámetros de HRTF pueden
almacenarse en una base de datos como una función de azimut,
elevación, distancia y banda de frecuencia. Los parámetros de HRTF
apropiados para una subbanda de frecuencia dada pueden entonces
recuperarse simplemente seleccionando los valores para la posición
de fuente de sonido espacial deseada.
El procesador 407 espacial modifica la primera
señal estéreo para generar una segunda señal estéreo en respuesta a
los datos paramétricos asociados y datos de parámetro de HRTF
espacial. A diferencia de la primera señal estéreo, la segunda
señal estéreo es una señal espacial virtual binaural y
específicamente una señal binaural 3D que cuando se presenta a
través de un sistema estéreo convencional (por ejemplo mediante un
par de auriculares) puede proporcionar una experiencia espacial
mejorada que emula la presencia de más de dos fuentes de sonido en
diferentes posiciones de fuente de sonido.
La segunda señal estéreo se alimenta a un
procesador 411 de codificación que se acopla al procesador 407
espacial y que codifica la segunda señal para dar un flujo de datos
adecuado para su transmisión (por ejemplo aplicando niveles de
cuantificación adecuados, etc.). El procesador 411 de codificación
se acopla a un procesador 413 de salida que genera un flujo de
salida combinando al menos los segundos datos de señal estéreo
codificados y los datos 405 de parámetro asociados generados
mediante el procesador 403 de mezcla descendente.
Normalmente la síntesis HRTF requiere formas de
onda para todas las fuentes de sonido individuales (por ejemplo
señales de altavoz en el contexto de una señal de sonido
envolvente). Sin embargo, en el codificador 307, los pares de HRTF
se parametrizan para subbandas de frecuencia permitiendo de este
modo por ejemplo generar una configuración de altavoz virtual 5.1
por medio de un procesamiento posterior de baja complejidad de la
mezcla descendente de la señal de entrada multicanal, con la ayuda
de los parámetros espaciales que se extrajeron durante el proceso
de codificación (y mezclado descendente).
El procesador espacial puede funcionar
específicamente en un dominio de subbanda tal como un dominio de
subbanda QMF o FFT. En lugar de decodificar la primera señal
estéreo mezclada de manera descendente para generar la señal
multicanal original seguido por una síntesis HRTF que usa filtrado
de HRTF, el procesador 407 espacial genera valores de parámetro
para cada subbanda correspondientes al efecto combinado de
decodificar la primera señal estéreo mezclada de manera descendente
para dar una señal multicanal seguida por una nueva codificación de
la señal multicanal como una señal binaural 3D.
Específicamente, los inventores se han dado
cuenta de que la señal binaural 3D puede generarse aplicando una
multiplicación de matriz de 2x2 a los valores de señal de subbanda
de la primera señal. Los valores de señal resultantes de la segunda
señal corresponden en gran medida a los valores de señal que se
generarían mediante una decodificación multicanal y una síntesis
HRTF en cascada. Por tanto, el procesamiento de señal combinado de
la codificación multicanal y la síntesis HRTF pueden combinarse de
modo que se obtienen cuatro valores de parámetro (los coeficientes
de matriz) que pueden aplicarse simplemente a los valores de señal
de subbanda de la primera señal para generar los valores de
subbanda deseados de la segunda señal. Puesto que los valores de
parámetro de matriz reflejan el proceso combinado de decodificación
de la señal multicanal y la síntesis HRTF, los valores de parámetro
se determinan en respuesta tanto a los datos paramétricos asociados
desde el procesador 403 de mezcla descendente como a parámetros de
HRTF.
En el codificador 309, las funciones HRTF se
parametrizan para las bandas de frecuencia individuales. El fin de
la parametrización HRTF es captar las indicaciones más importantes
para la localización de fuente de sonido a partir de cada par de
HRTF. Estos parámetros pueden incluir:
- un nivel (promedio) por subbanda de frecuencia
para la respuesta al impulso del oído izquierdo;
- un nivel (promedio) por subbanda de frecuencia
para la respuesta al impulso del oído derecho;
- un tiempo de llegada o diferencia de fase
(promedio) entre la respuesta al impulso del oído izquierdo y el
oído derecho;
- una fase o tiempo (o retardo de grupo)
absoluto (promedio) por subbanda de frecuencia tanto para respuestas
al impulso de oído izquierdo como de oído derecho (en este caso, la
diferencia de fase o tiempo se vuelve en la mayoría de los casos
obsoleta);
- una coherencia o correlación cruzada de canal
por subbanda de frecuencia entre respuestas al impulso
correspondientes.
Los parámetros de nivel por
subbanda de frecuencia pueden facilitar la síntesis de elevación
(debido a picos y depresiones específicos en el espectro) y
diferencias de nivel para el azimut (determinadas por la proporción
de los parámetros de nivel para cada
banda).
\newpage
Los valores de fase absoluta o valores de
diferencia de fase pueden captar diferencias de tiempo de llegada
entre ambos oídos, que también son indicaciones importantes para el
azimut de fuente de sonido. El valor de coherencia puede añadirse
para simular diferencias de estructura finas entre ambos oídos que
no pueden contribuir a diferencias de nivel y/o fase de las que se
ha calculado un valor promedio por banda (de parámetro).
A continuación, se describe un ejemplo
específico del procesamiento mediante el procesador 407 espacial. En
el ejemplo, se describe la posición de una fuente de sonido con
respecto al oyente por un ángulo \alpha de azimut y una distancia
D, tal como se muestra en la figura 6. Una fuente de sonido
colocada a la izquierda del oyente corresponde a ángulos de azimut
positivos. La función de transferencia desde la posición de fuente
de sonido al oído izquierdo se designa mediante H_{L}; la
función de transferencia desde la posición de fuente de sonido al
oído derecho mediante
H_{R}.
H_{R}.
Las funciones de transferencia H_{L} y
H_{R} dependen del ángulo \alpha de azimut, la distancia
D y la elevación \varepsilon (no mostrada en la figura 6).
En una representación paramétrica, las funciones de transferencia
pueden describirse como un conjunto de tres parámetros por subbanda
b_{h} de frecuencia HRTF. Este conjunto de parámetros
incluye un nivel promedio por banda de frecuencia para la función
P_{l}(\alpha,\varepsilon,D,b_{h}) de
transferencia izquierda, un nivel promedio por banda de frecuencia
para la función
P_{r}(\alpha,\varepsilon,D,b_{h}) de
transferencia derecha, una diferencia de fase promedio por banda
\phi(\alpha,\varepsilon,D,b_{h}) de
frecuencia. Una posible extensión de este conjunto es incluir una
medición de coherencia de las funciones de transferencia izquierda
y derecha por banda
\rho(\alpha,\varepsilon,D,b_{h}) de
frecuencia de HRTF. Estos parámetros pueden almacenarse en una base
de datos como una función de azimut, elevación, distancia y banda
de frecuencia, y/o puede calcularse usando alguna función analítica.
Por ejemplo, los parámetros P_{l} y P_{r} podrían
almacenarse como una función de azimut y elevación, mientras que el
efecto de distancia se consigue dividiendo estos valores entre la
propia distancia (suponiendo una relación de 1/D entre nivel de
señal y distancia). A continuación, la designación
P_{l}(Lf) designa el parámetro P_{l}
espacial correspondiente a la posición de fuente de sonido del
canal Lf.
Debe observarse que el número de subbandas de
frecuencia para parametrización (b_{h}) HRTF y el ancho de
banda de cada subbanda no es necesariamente igual a la resolución de
frecuencia del banco (k) de filtros (QMF) usado por el
procesador 407 espacial o la resolución de parámetro espacial del
procesador 403 de mezcla descendente y las bandas (b_{p})
de parámetros asociados. Por ejemplo, el banco de filtros híbrido
QMF puede tener 71 canales, puede parametrizarse una HRTF en 28
bandas de frecuencia, y podría realizarse una codificación espacial
usando 10 bandas de parámetros. En estos casos, puede aplicarse una
correlación de parámetros espaciales y de HRTF con un índice
híbrido QMF por ejemplo usando una tabla de consulta o una función
de interpolación o formación de valores promedio. Los siguientes
índices de parámetro se usarán en la descripción:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
En el ejemplo específico, el procesador 407
espacial divide la primera señal estéreo en subbandas de frecuencia
adecuadas mediante filtrado de QMF. Para cada subbanda los valores
L_{B}, R_{B} de subbanda se determinan como:
donde L_{O}, R_{O} son los
valores de subbanda correspondientes de la primera señal estéreo y
los valores h_{j,k} de matriz son parámetros que se determinan a
partir de parámetros de HRTF y los datos paramétricos asociados de
mezcla
descendente.
Los coeficientes de matriz tienen como objetivo
reproducir las propiedades de la mezcla descendente como si todos
los canales individuales se procesaran con HRTF correspondientes a
la posición de fuente de sonido deseada e incluyen el efecto
combinado de decodificar la señal multicanal y realizar una síntesis
HRTF de la misma.
\newpage
Específicamente, y con referencia a la figura 5
y la descripción de la misma, los valores de matriz pueden
determinarse como:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde m_{k,l} son parámetros
determinados en respuesta a los datos paramétricos generados por el
mezclador 505 descendente
TTT.
\vskip1.000000\baselineskip
Específicamente las señales L, R y C se generan
a partir de la señal L_{0}, R_{0} de mezcla descendente estéreo
según:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
donde m_{k,l} dependen de dos
coeficientes c_{1} y c_{2} de predicción, que forman parte de
los parámetros espaciales
transmitidos:
\vskip1.000000\baselineskip
Los valores H_{J}(X) se determinan en
respuesta a los datos de parámetro de HRTF para el canal X al canal
J de salida estéreo de la segunda señal estéreo así como parámetros
de mezcla descendente apropiados.
Específicamente, los parámetros
H_{J}(X) se refieren a las señales de mezcla descendente
izquierda (L) y derecha (R) generadas mediante los dos mezcladores
501, 503 descendentes TTO y pueden determinarse en respuesta a los
datos de parámetro de HRTF para los dos canales mezclados de manera
descendente. Específicamente, puede usarse una combinación
ponderada de los parámetros de HRTF para los dos canales
individuales izquierdos (Lf y Ls) o derechos (Rf y Rs). Los
parámetros individuales pueden ponderarse mediante la energía
relativa de las señales individuales. Como un ejemplo específico,
los siguientes valores pueden determinarse para la señal (L)
izquierda:
\vskip1.000000\baselineskip
donde los pesos w_{x} vienen
dados
por:
y CLD_{1} es la "Diferencia de
Nivel de Canal" entre el frontal izquierdo (Lf) y el envolvente
izquierdo (Ls) definida en decibelios (que forma parte del flujo de
bits de parámetro
espacial):
siendo \sigma_{lf}^{2} la
potencia en una subbanda de parámetros del canal Lf, y
\sigma_{ls}^{2} la potencia en la subbanda correspondiente del
canal
Ls.
De manera similar, pueden determinarse los
siguientes valores para la señal (R) derecha:
y para la señal (C)
central:
Por tanto, usando el enfoque descrito, un
procesamiento espacial de baja complejidad puede permitir generar
una señal espacial virtual binaural basándose en la señal multicanal
mezclada de manera descendente.
Tal como se mencionó, una ventaja del enfoque
descrito es que las subbandas de frecuencia de los parámetros de
mezcla descendente asociados, el procesamiento espacial mediante el
procesador 407 espacial y los parámetros de HRTF no tienen que ser
los mismos. Por ejemplo, puede realizarse una correlación entre
parámetros de una subbanda con las subbandas del procesamiento
espacial. Por ejemplo, si una subbanda de procesamiento espacial
cubre un intervalo de frecuencia correspondiente a dos subbandas de
parámetros de HRTF, el procesador 407 espacial puede simplemente
aplicar un procesamiento (individual) en las subbandas de parámetros
de HRTF, usando el mismo parámetro espacial para todas las
subbandas de parámetros de HRTF que corresponden a ese parámetro
espacial.
En algunas realizaciones, el codificador 309
puede disponerse de modo que incluya datos de posición de fuente de
sonido lo que permite a un decodificador identificar los datos de
posición deseados de una o más de las fuentes de sonido en el flujo
de salida. Esto permite al decodificador determinar los parámetros
de HRTF aplicados mediante el codificador 309 permitiendo de este
modo al mismo invertir la operación del procesador 407 espacial. De
manera adicional o alternativa, el codificador puede disponerse para
incluir al menos algunos de los datos de parámetro de HRTF en el
flujo de salida.
Por tanto, opcionalmente, los parámetros de HRTF
y/o los datos de posición de altavoz pueden incluirse en el flujo
de salida. Esto puede permitir por ejemplo una actualización
dinámica de los datos de posición de altavoz como una función de
tiempo (en el caso de transmisión de posición de altavoz) o el uso
de datos de HRTF individualizados (en el caso de transmisión de
parámetros de HRTF).
En el caso de que se transmitan parámetros de
HRTF como parte del flujo de bits, al menos los parámetros
P_{l}, P_{r} y \phi pueden transmitirse para
cada banda de frecuencia y para cada posición de fuente de sonido.
Los parámetros P_{l}, P_{r} de magnitud pueden
cuantificarse usando un cuantificador lineal, o pueden
cuantificarse en un dominio logarítmico. Los ángulos \phi de fase
pueden cuantificarse de manera lineal. Los índices de cuantificador
pueden entonces incluirse en el flujo de bits.
Además, los ángulos \phi de fase pueden
sumarse para dar cero para frecuencias normalmente superiores a 2,5
kHz, ya que la información de fase (interaural) es de manera
preceptiva irrelevante para frecuencias elevadas.
Tras la cuantificación, pueden aplicarse
diversos esquemas de compresión sin pérdida a los índices de
cuantificador de parámetros de HRTF. Por ejemplo, puede aplicarse
codificación de entropía, posiblemente en combinación con
codificación diferencial por bandas de frecuencia. Alternativamente,
parámetros de HRTF pueden representarse como una diferencia con
respecto a un conjunto de parámetros de HRTF común o promedio. Esto
es válido especialmente para los parámetros de magnitud. De otro
modo, puede alcanzarse una aproximación a los parámetros de fase de
manera bastante precisa simplemente codificando la elevación y el
azimut. Calculando la diferencia de tiempo de llegada [normalmente
la diferencia de tiempo de llegada es prácticamente independiente de
la frecuencia; en la mayoría de los casos depende del azimut y la
elevación], dada la diferencia de trayectoria a ambos oídos, pueden
derivarse los parámetros de fase correspondientes. Además pueden
codificarse diferencias de medición de manera diferente a los
valores predichos basándose en los valores de azimut y
elevación.
También pueden aplicarse esquemas de compresión
con pérdida, tal como la descomposición de componentes principales,
seguida por la transmisión de los pocos pesos PCA más
importantes.
La figura 7 ilustra un ejemplo de un
decodificador multicanal según algunas realizaciones de la
invención. El decodificador puede ser específicamente el
decodificador 315 de la figura 3.
El decodificador 315 comprende un receptor 701
de entrada que recibe el flujo de salida desde el codificador 309.
El receptor 701 de entrada demultiplexa el flujo de datos recibido y
proporciona los datos relevantes a los elementos funcionales
apropiados.
El receptor 701 de entrada se acopla a un
procesador 703 de decodificación al que se alimentan los datos
codificados de la segunda señal estéreo. El procesador 703 de
decodificación decodifica estos datos para generar la señal
espacial virtual binaural producida por el procesador 407
espacial.
El procesador 703 de decodificación se acopla a
un procesador 705 de inversión que se dispone para invertir la
operación realizada por el procesador 407 espacial. Por tanto, el
procesador 705 de inversión genera la señal estéreo mezclada de
manera descendente producida por el procesador 403 de mezcla
descendente.
Específicamente, el procesador 705 de inversión
genera la señal estéreo de mezcla descendente aplicando una
multiplicación de matriz a los valores de subbanda de la señal
espacial virtual binaural recibida. La multiplicación de matriz se
realiza mediante una matriz correspondiente a la matriz inversa a la
usada por el procesador 407 espacial invirtiendo de este modo esta
operación:
\vskip1.000000\baselineskip
Esta multiplicación de matriz puede describirse
también como:
Los coeficientes q_{k,l} de matriz se
determinan a partir de los datos paramétricos asociados con la señal
de mezcla descendente (y se reciben en el flujo de datos desde el
decodificador 309) así como los datos de parámetro de HRTF.
Específicamente, el enfoque descrito con referencia al codificador
309 puede usarse también por el decodificador 409 para generar los
coeficientes h_{xy} de matriz. Los coeficientes q_{xy} de matriz
pueden hallarse entonces mediante una inversión de matriz
convencional.
El procesador 705 de inversión se acopla a un
procesador 707 de parámetros que determina los datos de parámetro
de HRTF que van a usarse. Los parámetros de HRTF pueden incluirse en
algunas realizaciones en el flujo de datos recibido y pueden
extraerse simplemente del mismo. En otras realizaciones, diferentes
parámetros de HRTF pueden almacenarse por ejemplo en una base de
datos para diferentes posiciones de fuente de sonido y el
procesador 707 de parámetros puede determinar los parámetros de HRTF
extrayendo los valores correspondientes a la posición de fuente de
señal deseada. En algunas realizaciones, la/las posición/posiciones
de fuente de señal deseada/deseadas puede/pueden incluirse en el
flujo de datos desde el codificador 309. El procesador 707 de
parámetros puede extraer esta información y usarla para determinar
los parámetros de HRTF. Por ejemplo, puede recuperar los parámetros
de HRTF almacenados para la/las posición/posiciones de fuente de
sonido de indicación.
En algunas realizaciones, la señal estéreo
generada por el procesador de inversión puede emitirse directamente.
Sin embargo, en otras realizaciones, puede alimentarse a un
decodificador 709 multicanal que puede generar la señal de canal M
a partir de la señal estéreo de mezcla descendente y los datos
paramétricos recibidos.
En el ejemplo, la inversión de la síntesis
binaural 3D se realiza en el dominio de subbanda, tal como en
subbandas de frecuencia de QMF o Fourier. Por tanto, el procesador
703 de decodificación puede comprender un banco de filtros QMF o
transformada de Fourier rápida (FFT) para generar las muestras de
subbanda alimentadas al procesador 705 de inversión. De manera
similar, el procesador 705 de inversión o el decodificador 709
multicanal puede comprender una FFT inversa o banco de filtros QMF
para convertir las señales de vuelta en el dominio de tiempo.
La generación de una señal binaural 3D en el
lado del codificador permite proporcionar experiencias de escucha
espacial a un usuario de un casco con auriculares mediante un
codificador estéreo convencional. Por tanto, el enfoque descrito
tiene la ventaja de que dispositivos estéreo legados pueden
reproducir una señal binaural 3D. Como tal, con el fin de
reproducir señales binaurales 3D, no es necesario aplicar ningún
procesamiento posterior adicional dando como resultado una solución
de baja complejidad.
Sin embargo, en un enfoque de este tipo, se usa
normalmente una HRTF generalizada que en algunos casos puede llevar
a una generación espacial subóptima en comparación con una
generación de la señal binaural 3D en la decodificación usando
datos de HRTF dedicados optimizados para el usuario específico.
Específicamente, a veces pueden producirse una
percepción limitada de distancia y posibles errores de localización
de fuente de sonido del uso de HRTF no individualizadas (tal como
respuestas al impulso medidas para una cabeza artificial u otra
persona). En principio, las HRTF difieren de una persona a otra
debido a diferencias en la geometría anatómica del cuerpo humano.
Resultados óptimos en cuanto a una localización correcta de fuente
de sonido pueden por tanto conseguirse mejor con datos de HRTF
individualizados.
En algunas realizaciones, el decodificador 315
comprende además una funcionalidad para en primer lugar invertir el
procesamiento espacial del codificador 309 seguido por una
generación de una señal binaural 3D usando datos de HRTF locales y
específicamente usando datos de HRTF individuales optimizados para
el usuario específico. Por tanto, en esta realización, el
decodificador 315 genera un par de canales de salida binaurales
modificando la señal estéreo mezclada de manera descendente usando
los datos paramétricos asociados y datos de parámetro de HRTF que
son diferentes a los datos (de HRTF) usados en el codificador 309.
Por tanto, este enfoque proporciona una combinación de síntesis 3D
en el lado del codificador, inversión en el lado del decodificador,
seguido por otra fase de síntesis 3D en el lado del
decodificador.
Una ventaja de un enfoque de este tipo es que
los dispositivos estéreo legados tendrán señales binaurales 3D como
salida proporcionando una calidad 3D básica, mientras que los
decodificadores mejorados tienen la opción de usar HRTF
personalizadas que permiten una calidad 3D mejorada. Por tanto,
tanto la síntesis 3D compatible legada como la síntesis 3D dedicada
de alta calidad se permiten en el mismo sistema de audio.
Un simple ejemplo de un sistema de este tipo se
ilustra en la figura 8 que muestra cómo un procesador 801 espacial
adicional puede añadirse al decodificador de la figura 7 para
proporcionar una señal de salida binaural 3D adaptada. En algunas
realizaciones, el procesador 801 espacial puede simplemente
proporcionar una síntesis binaural 3D pura simple usando funciones
HRTF individuales para cada uno de los canales de audio. Por tanto,
el decodificador puede recrear la señal multicanal original y
convertirla en una señal binaural 3D usando filtrado de HRTF
adaptado.
adaptado.
En otras realizaciones, puede combinarse la
inversión de la síntesis de codificador y la síntesis de
decodificador para proporcionar una operación de complejidad
inferior. Específicamente, las HRTF individualizadas usadas para la
síntesis de decodificador pueden parametrizarse y combinarse con (la
inversa de) los parámetros usados por la síntesis 3D de
codificador.
Más específicamente, tal como se describió
anteriormente, la síntesis de codificador implica muestras de
subbanda estéreo de multiplicación de las señales mezcladas de
manera descendente por una matriz de 2x2:
donde L_{O}, R_{O} son los
valores de subbanda correspondientes de la señal estéreo mezclada de
manera descendente y los valores h_{j,k} de matriz son parámetros
que se determinan a partir de los parámetros de HRTF y los datos
paramétricos asociados de mezcla descendente tal como se describió
anteriormente.
La inversión realizada mediante el procesador
705 de inversión puede darse entonces por:
donde L_{B}, R_{B} son los
valores de subbanda correspondientes de la señal estéreo mezclada de
manera descendente de
decodificador.
Para garantizar un proceso de inversión en el
lado del decodificador apropiado, los parámetros de HRTF usados en
el codificador para generar la señal binaural 3D, y los parámetros
de HRTF usados para invertir el procesamiento binaural 3D son
idénticos o lo suficientemente similares. Puesto que un flujo de
bits dará en general servicio a varios decodificadores, una
personalización de la mezcla descendente binaural 3D es difícil de
obtener mediante la síntesis de codificador.
Sin embargo, puesto que el proceso de síntesis
binaural 3D puede invertirse el procesador 705 de inversión
regenera la señal estéreo mezclada de manera descendente que se usa
entonces para generar una señal binaural 3D basándose en HRTF
individualizadas.
Específicamente, en analogía con la operación en
el codificador 309, la síntesis binaural 3D en el decodificador 315
puede generarse mediante una simple operación de matriz de 2x2 por
subbandas en la señal L_{O}, R_{O} de mezcla descendente para
generar la señal L_{B'}, R_{B'} binaural 3D:
donde los parámetros p_{x,y} se
determinan basándose en las HRTF individualizadas de la misma manera
en que se generan h_{x,y} mediante el codificador 309 basándose
en la HRTF general. Específicamente, en el decodificador 309, los
parámetros h_{x,y} se determinan a partir de los datos
paramétricos multicanal y las HRTF generales. Puesto que los datos
paramétricos multicanal se transmiten al decodificador 315, éste
puede usar el mismo enfoque para calcular p_{x,y} basándose en la
HRTF
individual.
Combinando esto con la operación del procesador
705 de inversión
En esta ecuación, las entradas h_{x,y} de
matriz se obtienen usando el conjunto de HRTF no individualizado
general usado en el codificador, mientras que las entradas p_{x,y}
de matriz se obtienen usando un conjunto de HRTF diferente y
preferiblemente personalizado. Por tanto la señal L_{B}, R_{B}
de entrada binaural 3D generada usando datos de HRTF no
individualizados se transforma en una señal L_{B'}, R_{B'} de
salida binaural 3D alternativa usando diferentes datos de HRTF
personalizados.
\newpage
Además, tal como se ilustra, el enfoque
combinado de la inversión de la síntesis de codificador y la
síntesis de decodificador puede conseguirse mediante una simple
operación de matriz de 2x2. Por tanto la complejidad de cálculo de
este proceso combinado es prácticamente la misma que para una simple
inversión binaural 3D.
La figura 9 ilustra un ejemplo del decodificador
315 que funciona según los principios anteriormente descritos.
Específicamente, las muestras de subbanda estéreo de la mezcla
descendente estéreo binaural 3D desde el codificador 309 se
alimentan al procesador 705 de inversión que regenera las muestras
de mezcla descendente estéreo originales mediante una operación de
matriz de 2x2.
Las muestras de subbanda resultantes se
alimentan a una unidad 901 de síntesis espacial que genera una señal
binaural 3D individualizada multiplicando estas muestras por una
matriz de 2x2
Los coeficientes de matriz se generan mediante
una unidad (903) de conversión de parámetros que genera los
parámetros basándose en la HRTF individualizada y los datos de
extensión multicanal recibidos desde el codificador 309.
Las muestras L_{B'}, R_{B'} de subbanda de
síntesis se alimentan a una transformada 905 de dominio de subbanda
a tiempo que genera las señales de dominio de tiempo binaurales 3D
que pueden proporcionarse a un usuario.
Aunque la figura 9 ilustra las etapas de
inversión 3D basándose en HRTF no individualizadas y la síntesis 3D
basándose en HRTF individualizadas como operaciones secuenciales
mediante diferentes unidades funcionales, se apreciará que en
muchas realizaciones estas operaciones se aplican simultáneamente
mediante una aplicación de matriz única. Específicamente, se
calcula la matriz de 2x2
y las muestras de salida se
calculan
como
Se apreciará que el sistema descrito proporciona
una serie de ventajas que incluye:
- ninguna o poca degradación de calidad
(perceptiva) de la reconstrucción multicanal ya que el procesamiento
estéreo espacial puede invertirse en decodificadores
multicanal.
- Puede proporcionarse una experiencia estéreo
binaural espacial (3D) incluso mediante decodificadores estéreo
convencionales.
- Complejidad reducida en comparación con
procedimientos de posicionamiento espacial existentes. La
complejidad se reduce de varias maneras:
- almacenamiento eficaz de parámetros de HRTF.
En vez de almacenar respuestas al impulso de HRTF, sólo se usa un
número limitado de parámetros para caracterizar las HRTF.
\global\parskip0.930000\baselineskip
- Procesamiento 3D eficaz. Puesto que las HRTF
se caracterizan como parámetros en una resolución de frecuencia
limitada, y la aplicación de parámetros de HRTF se realiza en el
dominio de parámetros (con un muestreo descendente elevado), la
fase de síntesis espacial es más eficaz que los procedimientos de
síntesis convencionales basados en una convolución de HRTF
completa.
- El procesamiento requerido puede realizarse
por ejemplo en el dominio de QMF, dando como resultado una menor
carga de memoria y de cálculo que los procedimientos basados en
FFT.
- Nuevo uso eficaz de bloques de formación de
sonido envolvente existentes (tal como funcionalidades de
codificación/decodificación de sonido envolvente MPEG
convencionales) que permite una complejidad de implementación
mínima.
- Posibilidad de personalización mediante
modificación de los datos de HRTF (parametrizados) transmitidos
mediante el codificador.
- Las posiciones de fuente de sonido pueden
cambiar sobre la marcha mediante información de posición
transmitida.
La figura 10 ilustra un procedimiento de
codificación de audio según algunas realizaciones de la
invención.
El procedimiento se inicia en la etapa 1001 en
la que se recibe una señal de audio de canal M (M>2).
A la etapa 1001 le sigue la etapa 1003 en la que
la señal de audio de canal M se mezcla de manera descendente para
dar una primera señal estéreo y datos paramétricos asociados.
A la etapa 1003 le sigue la etapa 1005 en la que
la primera señal estéreo se modifica para generar una segunda señal
estéreo en respuesta a los datos paramétricos asociados y datos de
parámetro de función de transferencia relativa a la cabeza (HRTF)
espacial. La segunda señal estéreo es una señal espacial virtual
binaural.
A la etapa 1005 le sigue la etapa 1007 en la que
la segunda señal estéreo se codifica para generar datos
codificados.
A la etapa 1007 le sigue la etapa 1009 en la que
se genera un flujo de datos de salida que comprende los datos
codificados y los datos paramétricos asociados.
La figura 11 ilustra un procedimiento de
decodificación de audio según algunas realizaciones de la
invención.
El procedimiento se inicia en la etapa 1101 en
la que un decodificador recibe datos de entrada que comprenden una
primera señal estéreo y datos paramétricos asociados con una señal
estéreo mezclada de manera descendente de una señal de audio de
canal M, donde M>2. La primera señal estéreo es una señal
espacial virtual binaural.
A la etapa 1101 le sigue la etapa 1103 en la que
la primera señal estéreo se modifica para generar la señal estéreo
mezclada de manera descendente en respuesta a los datos paramétricos
y datos de parámetro de función de transferencia relativa a la
cabeza (HRTF) espacial asociados con la primera señal estéreo.
A la etapa 1103 le sigue la etapa 1105 opcional
en la que se genera la señal de audio de canal M en respuesta a la
señal estéreo mezclada de manera descendente y los datos
paramétricos.
Se apreciará que por motivos de claridad la
descripción anterior ha descrito realizaciones de la invención con
referencia a diferentes procesadores y unidades funcionales. Sin
embargo, será evidente que puede usarse cualquier distribución
adecuada de funcionalidad entre diferentes procesadores o unidades
funcionales sin afectar a la invención. Por ejemplo, la
funcionalidad ilustrada para su realización mediante controladores
o procesadores separados puede realizarse mediante el mismo
procesador o los mismos controladores. Por tanto, las referencias a
unidades funcionales específicas sólo deben considerarse como
referencias a medios adecuados para proporcionar la funcionalidad
descrita en lugar de indicativas de una estructura u organización
lógica o física estricta.
La invención puede implementarse en cualquier
forma adecuada incluyendo hardware, software, firmware o cualquier
combinación de los mismos. La invención puede implementarse
opcionalmente al menos en parte como software informático que se
ejecute en uno o más procesadores de datos y/o procesadores de señal
digital. Los elementos y componentes de una realización de la
invención pueden implementarse de manera física, funcional y lógica
de cualquier manera adecuada. De hecho, la funcionalidad puede
implementarse en una única unidad, en una pluralidad de unidades o
como parte de otras unidades funcionales. Como tal, la invención
puede implementarse en una única unidad o puede distribuirse de
manera física y funcional entre diferentes unidades y
procesadores.
Aunque la presente invención se ha descrito en
conexión con algunas realizaciones, no se pretende limitarla a la
forma específica expuesta en el presente documento. En su lugar, el
alcance de la presente invención se limita únicamente mediante las
reivindicaciones adjuntas. Además, aunque pueda parecer que una
característica se describe en conexión con realizaciones
particulares, un experto en la técnica reconocerá que pueden
combinarse diversas características de las realizaciones descritas
según la invención. En las reivindicaciones, la expresión "que
comprende/que comprenden/comprendiendo" no excluye la presencia
de otros elementos o etapas.
Además, aunque se enumeran individualmente, una
pluralidad de medios, elementos o etapas de procedimiento pueden
implementarse por ejemplo mediante una única unidad o procesador.
Además, aunque en diferentes reivindicaciones pueden incluirse
características individuales, éstas pueden combinarse posiblemente
de manera ventajosa, y la inclusión en diferentes reivindicaciones
no implica que una combinación de características no sea factible
y/o ventajosa. Además, la inclusión de una característica en una
categoría de reivindicaciones no implica una limitación a esta
categoría sino que en su lugar indica que la característica puede
aplicarse igualmente a otras categorías de reivindicaciones según
sea apropiado. Además, el orden de características en las
reivindicaciones no implica ningún orden específico en el que deban
aparecer las características y en particular el orden de las etapas
individuales en una reivindicación de procedimiento no implica que
las etapas deban realizarse en este orden. En su lugar, las etapas
pueden realizarse en cualquier orden adecuado. Además, las
referencias singulares no excluyen una pluralidad. Por tanto las
referencias a "un", "una", "primera/primeros",
"segunda/segundos", etc. no excluyen una pluralidad. Los
símbolos de referencia en las reivindicaciones se proporcionan
meramente como un ejemplo de aclaración y no deben considerarse
como que limitan el alcance de las reivindicaciones de algún
modo.
Claims (13)
1. Codificador de audio que comprende:
- medios (401) para recibir una señal de audio
de canal M donde M>2;
- medios (403) de mezclado descendente para
mezclar de manera descendente la señal de audio de canal M para dar
una primera señal estéreo y datos paramétricos asociados;
- medios (407) de generación para modificar la
primera señal estéreo para generar una segunda señal estéreo en
respuesta a los datos paramétricos asociados y datos de parámetro
espacial para una función de transferencia perceptiva binaural,
siendo la segunda señal estéreo una señal binaural;
- medios (411) para codificar la segunda señal
estéreo para generar datos codificados; y
- medios (413) de salida para generar un flujo
de datos de salida que comprende los datos codificados y los datos
paramétricos asociados.
2. Decodificador de audio que comprende:
- medios (701, 703) para recibir datos de
entrada que comprenden una primera señal estéreo y datos
paramétricos asociados con una señal estéreo mezclada de manera
descendente de una señal de audio de canal M donde M>2, siendo
la primera señal estéreo una señal binaural correspondiente a la
señal de audio de canal M;
- medios (705) de generación para modificar la
primera señal estéreo para generar la señal estéreo mezclada de
manera descendente en respuesta a los datos paramétricos y primeros
datos de parámetro espacial para una función de transferencia
perceptiva binaural, asociándose los primeros datos de parámetro
espacial con la primera señal
estéreo.
estéreo.
3. Decodificador según la reivindicación 2, que
comprende además medios (709) para generar la señal de audio de
canal M en respuesta a la señal estéreo mezclada de manera
descendente y los datos paramétricos.
4. Decodificador según la reivindicación 2, en
el que los medios (705) de generación están dispuestos para generar
la señal estéreo mezclada de manera descendente calculando valores
de datos de subbanda para la señal estéreo mezclada de manera
descendente en respuesta a los datos paramétricos asociados, los
primeros datos de parámetro espacial y valores de datos de subbanda
para la primera señal estéreo.
5. Decodificador según la reivindicación 4, en
el que los medios (705) de generación están dispuestos para generar
valores de subbanda para una primera subbanda de la señal estéreo
mezclada de manera descendente en respuesta a una multiplicación de
valores de subbanda estéreo correspondientes para la primera señal
estéreo por una primera matriz de subbanda; comprendiendo además
los medios (705) de generación medios de parámetro para determinar
valores de datos de la primera matriz de subbanda en respuesta a
datos paramétricos y datos de parámetro de función de transferencia
perceptiva binaural para la primera subbanda.
6. Decodificador según la reivindicación 2 que
comprende además:
- una unidad (709, 801) de decodificador
espacial para producir un par de canales de salida binaurales
modificando la primera señal estéreo en respuesta a los datos
paramétricos asociados y segundos datos de parámetro espacial para
una segunda función de transferencia perceptiva binaural, siendo los
segundos datos de parámetro espacial diferentes de los primeros
datos de parámetro espacial.
7. Decodificador según la reivindicación 6, en
el que la unidad (709, 801) de decodificador espacial comprende:
- una unidad (903) de conversión de parámetros
para convertir los datos paramétricos en parámetros de síntesis
binaural usando los segundos datos de parámetro espacial, y
- una unidad (901) de síntesis espacial para
sintetizar el par de canales binaurales usando los parámetros de
síntesis binaural y la primera señal estéreo.
8. Decodificador según la reivindicación 7, en
el que los parámetros de síntesis binaural comprenden coeficientes
de matriz para una matriz de 2 por 2 que relacionan muestras estéreo
de la señal estéreo mezclada de manera descendente con muestras
estéreo del par de canales de salida binaurales.
9. Procedimiento de codificación de audio,
comprendiendo el procedimiento:
- recibir (1001) una señal de audio de canal M
donde M>2;
- mezclar de manera descendente (1003) la señal
de audio de canal M para dar una primera señal estéreo y datos
paramétricos asociados;
- modificar (1005) la primera señal estéreo para
generar una segunda señal estéreo en respuesta a los datos
paramétricos asociados y datos de parámetro espacial para una
función de transferencia perceptiva binaural, siendo la segunda
señal estéreo una señal binaural;
- codificar (1007) la segunda señal estéreo para
generar datos codificados; y
- generar (1009) un flujo de datos de salida que
comprende los datos codificados y los datos paramétricos
asociados.
\vskip1.000000\baselineskip
10. Receptor para recibir una señal de audio que
comprende:
- medios (701, 703) para recibir datos de
entrada que comprenden una primera señal estéreo y datos
paramétricos asociados con una señal estéreo mezclada de manera
descendente de una señal de audio de canal M donde M>2, siendo
la primera señal estéreo una señal binaural correspondiente a la
señal de audio de canal M; y
- medios (705) de generación para modificar la
primera señal estéreo para generar la señal estéreo mezclada de
manera descendente en respuesta a los datos paramétricos y datos de
parámetro espacial para una función de transferencia perceptiva
binaural, estando asociados los datos de parámetro espacial con la
primera señal estéreo.
11. Transmisor (1101) para transmitir un flujo
de datos de salida; comprendiendo el transmisor:
- medios (401) para recibir una señal de audio
de canal M donde M>2;
- medios (403) de mezclado descendente para
mezclar de manera descendente la señal de audio de canal M para dar
una primera señal estéreo y datos paramétricos asociados;
- medios (407) de generación para modificar la
primera señal estéreo para generar una segunda señal estéreo en
respuesta a los datos paramétricos asociados y datos de parámetro
espacial para una función de transferencia perceptiva binaural,
siendo la segunda señal estéreo una señal binaural;
- medios (411) para codificar la segunda señal
estéreo para generar datos codificados;
- medios (413) de salida para generar un flujo
de datos de salida que comprende los datos codificados y los datos
paramétricos asociados; y
- medios (311) para transmitir el flujo de datos
de salida.
\vskip1.000000\baselineskip
12. Procedimiento para transmitir un flujo de
datos de salida de audio, comprendiendo el procedimiento:
- recibir (1001) una señal de audio de canal M
donde M>2;
- mezclar de manera descendente (1003) la señal
de audio de canal M para dar una primera señal estéreo y datos
paramétricos asociados;
- modificar (1005) la primera señal estéreo para
generar una segunda señal estéreo en respuesta a los datos
paramétricos asociados y datos de parámetro espacial para una
función de transferencia perceptiva binaural, siendo la segunda
señal estéreo una señal binaural;
- codificar (1007) la segunda señal estéreo para
generar datos codificados; y
- generar (1009) un flujo de datos de salida de
audio que comprende los datos codificados y los datos paramétricos
asociados; y
- transmitir el flujo de datos de salida de
audio.
13. Producto de programa informático para
ejecutar el procedimiento según la reivindicación 11.
Applications Claiming Priority (8)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP06110231 | 2006-02-21 | ||
| EP06110231 | 2006-02-21 | ||
| EP06110803 | 2006-03-07 | ||
| EP06110803 | 2006-03-07 | ||
| EP06112104 | 2006-03-31 | ||
| EP06112104 | 2006-03-31 | ||
| EP06119670 | 2006-08-29 | ||
| EP06119670 | 2006-08-29 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2339888T3 true ES2339888T3 (es) | 2010-05-26 |
Family
ID=38169667
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES07705870T Active ES2339888T3 (es) | 2006-02-21 | 2007-02-13 | Codificacion y decodificacion de audio. |
Country Status (12)
| Country | Link |
|---|---|
| US (4) | US9009057B2 (es) |
| EP (1) | EP1989920B1 (es) |
| JP (1) | JP5081838B2 (es) |
| KR (1) | KR101358700B1 (es) |
| CN (1) | CN101390443B (es) |
| AT (1) | ATE456261T1 (es) |
| BR (1) | BRPI0707969B1 (es) |
| DE (1) | DE602007004451D1 (es) |
| ES (1) | ES2339888T3 (es) |
| PL (1) | PL1989920T3 (es) |
| TW (1) | TWI508578B (es) |
| WO (1) | WO2007096808A1 (es) |
Families Citing this family (106)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9009057B2 (en) | 2006-02-21 | 2015-04-14 | Koninklijke Philips N.V. | Audio encoding and decoding to generate binaural virtual spatial signals |
| US8027479B2 (en) * | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
| JP5238706B2 (ja) * | 2006-09-29 | 2013-07-17 | エルジー エレクトロニクス インコーポレイティド | オブジェクトベースオーディオ信号のエンコーディング/デコーディング方法及びその装置 |
| US8571875B2 (en) * | 2006-10-18 | 2013-10-29 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus encoding and/or decoding multichannel audio signals |
| GB2467668B (en) * | 2007-10-03 | 2011-12-07 | Creative Tech Ltd | Spatial audio analysis and synthesis for binaural reproduction and format conversion |
| CN101889307B (zh) * | 2007-10-04 | 2013-01-23 | 创新科技有限公司 | 相位-幅度3d立体声编码器和解码器 |
| JP5391203B2 (ja) | 2007-10-09 | 2014-01-15 | コーニンクレッカ フィリップス エヌ ヴェ | バイノーラル音声信号を生成するための方法と装置 |
| CN101578655B (zh) * | 2007-10-16 | 2013-06-05 | 松下电器产业株式会社 | 流合成装置、解码装置、方法 |
| US20090103737A1 (en) * | 2007-10-22 | 2009-04-23 | Kim Poong Min | 3d sound reproduction apparatus using virtual speaker technique in plural channel speaker environment |
| US9031242B2 (en) * | 2007-11-06 | 2015-05-12 | Starkey Laboratories, Inc. | Simulated surround sound hearing aid fitting system |
| JP2009128559A (ja) * | 2007-11-22 | 2009-06-11 | Casio Comput Co Ltd | 残響効果付加装置 |
| KR100954385B1 (ko) * | 2007-12-18 | 2010-04-26 | 한국전자통신연구원 | 개인화된 머리전달함수를 이용한 3차원 오디오 신호 처리장치 및 그 방법과, 그를 이용한 고현장감 멀티미디어 재생시스템 |
| JP2009206691A (ja) | 2008-02-27 | 2009-09-10 | Sony Corp | 頭部伝達関数畳み込み方法および頭部伝達関数畳み込み装置 |
| KR20090110242A (ko) * | 2008-04-17 | 2009-10-21 | 삼성전자주식회사 | 오디오 신호를 처리하는 방법 및 장치 |
| US9485589B2 (en) | 2008-06-02 | 2016-11-01 | Starkey Laboratories, Inc. | Enhanced dynamics processing of streaming audio by source separation and remixing |
| US8705751B2 (en) | 2008-06-02 | 2014-04-22 | Starkey Laboratories, Inc. | Compression and mixing for hearing assistance devices |
| US9185500B2 (en) | 2008-06-02 | 2015-11-10 | Starkey Laboratories, Inc. | Compression of spaced sources for hearing assistance devices |
| EP3937167B1 (en) | 2008-07-11 | 2023-05-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and audio decoder |
| ES2531422T3 (es) * | 2008-07-31 | 2015-03-13 | Fraunhofer Ges Forschung | Generación de señales para señales binaurales |
| JP5635502B2 (ja) * | 2008-10-01 | 2014-12-03 | ジーブイビービー ホールディングス エス.エイ.アール.エル. | 復号装置、復号方法、符号化装置、符号化方法、及び編集装置 |
| EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
| EP2356825A4 (en) | 2008-10-20 | 2014-08-06 | Genaudio Inc | AUDIO SPACE AND ENVIRONMENT SIMULATION |
| JP5524237B2 (ja) | 2008-12-19 | 2014-06-18 | ドルビー インターナショナル アーベー | 空間キューパラメータを用いてマルチチャンネルオーディオ信号に反響を適用する方法と装置 |
| JP5540581B2 (ja) * | 2009-06-23 | 2014-07-02 | ソニー株式会社 | 音声信号処理装置および音声信号処理方法 |
| TWI433137B (zh) | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
| JP2011065093A (ja) * | 2009-09-18 | 2011-03-31 | Toshiba Corp | オーディオ信号補正装置及びオーディオ信号補正方法 |
| CA2775828C (en) * | 2009-09-29 | 2016-03-29 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value |
| EP2489206A1 (fr) * | 2009-10-12 | 2012-08-22 | France Telecom | Traitement de donnees sonores encodees dans un domaine de sous-bandes |
| BR112012008793B1 (pt) * | 2009-10-15 | 2021-02-23 | France Telecom | Processos de codificação e de decodificação paramétrica de um sinalaudiodigital multicanal, codificador e decodificador paramétricos de um sinalaudiodigital multicanal |
| EP2323130A1 (en) * | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
| EP2346028A1 (en) | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
| CN102157150B (zh) * | 2010-02-12 | 2012-08-08 | 华为技术有限公司 | 立体声解码方法及装置 |
| CN102157152B (zh) * | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
| JP5533248B2 (ja) | 2010-05-20 | 2014-06-25 | ソニー株式会社 | 音声信号処理装置および音声信号処理方法 |
| JP2012004668A (ja) | 2010-06-14 | 2012-01-05 | Sony Corp | 頭部伝達関数生成装置、頭部伝達関数生成方法及び音声信号処理装置 |
| KR101697550B1 (ko) * | 2010-09-16 | 2017-02-02 | 삼성전자주식회사 | 멀티채널 오디오 대역폭 확장 장치 및 방법 |
| TWI489450B (zh) | 2010-12-03 | 2015-06-21 | Fraunhofer Ges Forschung | 用以產生音訊輸出信號或資料串流之裝置及方法、和相關聯之系統、電腦可讀媒體與電腦程式 |
| FR2976759B1 (fr) * | 2011-06-16 | 2013-08-09 | Jean Luc Haurais | Procede de traitement d'un signal audio pour une restitution amelioree. |
| CN102395070B (zh) * | 2011-10-11 | 2014-05-14 | 美特科技(苏州)有限公司 | 双耳录音耳机 |
| WO2013111034A2 (en) * | 2012-01-23 | 2013-08-01 | Koninklijke Philips N.V. | Audio rendering system and method therefor |
| US9436929B2 (en) * | 2012-01-24 | 2016-09-06 | Verizon Patent And Licensing Inc. | Collaborative event playlist systems and methods |
| WO2013111038A1 (en) * | 2012-01-24 | 2013-08-01 | Koninklijke Philips N.V. | Generation of a binaural signal |
| US9510124B2 (en) * | 2012-03-14 | 2016-11-29 | Harman International Industries, Incorporated | Parametric binaural headphone rendering |
| JPWO2014007097A1 (ja) | 2012-07-02 | 2016-06-02 | ソニー株式会社 | 復号装置および方法、符号化装置および方法、並びにプログラム |
| US10083700B2 (en) | 2012-07-02 | 2018-09-25 | Sony Corporation | Decoding device, decoding method, encoding device, encoding method, and program |
| KR101685408B1 (ko) | 2012-09-12 | 2016-12-20 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 3차원 오디오를 위한 향상된 가이드 다운믹스 능력을 제공하기 위한 장치 및 방법 |
| CN104981866B (zh) * | 2013-01-04 | 2018-09-28 | 华为技术有限公司 | 用于确定立体声信号的方法 |
| CN104904239B (zh) | 2013-01-15 | 2018-06-01 | 皇家飞利浦有限公司 | 双耳音频处理 |
| WO2014111829A1 (en) | 2013-01-17 | 2014-07-24 | Koninklijke Philips N.V. | Binaural audio processing |
| CN103152500B (zh) * | 2013-02-21 | 2015-06-24 | 黄文明 | 多方通话中回音消除方法 |
| WO2014171791A1 (ko) * | 2013-04-19 | 2014-10-23 | 한국전자통신연구원 | 다채널 오디오 신호 처리 장치 및 방법 |
| CN104982042B (zh) * | 2013-04-19 | 2018-06-08 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
| US9445197B2 (en) * | 2013-05-07 | 2016-09-13 | Bose Corporation | Signal processing for a headrest-based audio system |
| GB2515089A (en) * | 2013-06-14 | 2014-12-17 | Nokia Corp | Audio Processing |
| EP2830045A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
| EP2830047A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for low delay object metadata coding |
| EP2830048A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
| US9319819B2 (en) | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
| TWI671734B (zh) | 2013-09-12 | 2019-09-11 | 瑞典商杜比國際公司 | 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統 |
| EP3048816B1 (en) | 2013-09-17 | 2020-09-16 | Wilus Institute of Standards and Technology Inc. | Method and apparatus for processing multimedia signals |
| CN105900455B (zh) | 2013-10-22 | 2018-04-06 | 延世大学工业学术合作社 | 用于处理音频信号的方法和设备 |
| US20160277837A1 (en) * | 2013-11-11 | 2016-09-22 | Sharp Kabushiki Kaisha | Earphone and earphone system |
| CA2934856C (en) * | 2013-12-23 | 2020-01-14 | Wilus Institute Of Standards And Technology Inc. | Method for generating filter for audio signal, and parameterization device for same |
| CN106105269B (zh) | 2014-03-19 | 2018-06-19 | 韦勒斯标准与技术协会公司 | 音频信号处理方法和设备 |
| EP3668125B1 (en) | 2014-03-28 | 2023-04-26 | Samsung Electronics Co., Ltd. | Method and apparatus for rendering acoustic signal |
| KR102216801B1 (ko) | 2014-04-02 | 2021-02-17 | 주식회사 윌러스표준기술연구소 | 오디오 신호 처리 방법 및 장치 |
| WO2016077320A1 (en) * | 2014-11-11 | 2016-05-19 | Google Inc. | 3d immersive spatial audio systems and methods |
| CN107113524B (zh) * | 2014-12-04 | 2020-01-03 | 高迪音频实验室公司 | 反映个人特性的双耳音频信号处理方法和设备 |
| KR20160081844A (ko) * | 2014-12-31 | 2016-07-08 | 한국전자통신연구원 | 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치 |
| WO2016108655A1 (ko) | 2014-12-31 | 2016-07-07 | 한국전자통신연구원 | 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치 |
| US9460727B1 (en) * | 2015-07-01 | 2016-10-04 | Gopro, Inc. | Audio encoder for wind and microphone noise reduction in a microphone array system |
| US9613628B2 (en) | 2015-07-01 | 2017-04-04 | Gopro, Inc. | Audio decoder for wind and microphone noise reduction in a microphone array system |
| CA3298877A1 (en) * | 2015-08-25 | 2026-03-02 | Dolby International Ab | Audio encoding and decoding using presentation transform parameters |
| ES2949991T3 (es) * | 2015-09-25 | 2023-10-04 | Voiceage Corp | Método y sistema para la mezcla en el dominio del tiempo de una señal de sonido estéreo en canales primario y secundario mediante el uso de la detección de un estado de desfase de los canales izquierdo y derecho |
| US12125492B2 (en) | 2015-09-25 | 2024-10-22 | Voiceage Coproration | Method and system for decoding left and right channels of a stereo sound signal |
| CN116259324A (zh) | 2015-10-08 | 2023-06-13 | 杜比国际公司 | 用于压缩声音或声场表示的分层编解码 |
| US9734686B2 (en) * | 2015-11-06 | 2017-08-15 | Blackberry Limited | System and method for enhancing a proximity warning sound |
| US9749766B2 (en) * | 2015-12-27 | 2017-08-29 | Philip Scott Lyren | Switching binaural sound |
| AU2017210021B2 (en) * | 2016-01-19 | 2019-07-11 | Sphereo Sound Ltd. | Synthesis of signals for immersive audio playback |
| KR102881405B1 (ko) | 2016-01-27 | 2025-11-06 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 음향 환경 시뮬레이션 |
| US11234072B2 (en) | 2016-02-18 | 2022-01-25 | Dolby Laboratories Licensing Corporation | Processing of microphone signals for spatial playback |
| WO2017143003A1 (en) * | 2016-02-18 | 2017-08-24 | Dolby Laboratories Licensing Corporation | Processing of microphone signals for spatial playback |
| KR102358283B1 (ko) | 2016-05-06 | 2022-02-04 | 디티에스, 인코포레이티드 | 몰입형 오디오 재생 시스템 |
| US9913061B1 (en) | 2016-08-29 | 2018-03-06 | The Directv Group, Inc. | Methods and systems for rendering binaural audio content |
| RU2725178C1 (ru) | 2016-11-08 | 2020-06-30 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для кодирования или декодирования многоканального сигнала с использованием коэффициента передачи побочного сигнала и коэффициента передачи остаточного сигнала |
| US10979844B2 (en) | 2017-03-08 | 2021-04-13 | Dts, Inc. | Distributed audio virtualization systems |
| US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
| GB2563635A (en) | 2017-06-21 | 2018-12-26 | Nokia Technologies Oy | Recording and rendering audio signals |
| WO2019004524A1 (ko) * | 2017-06-27 | 2019-01-03 | 엘지전자 주식회사 | 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치 |
| CN109688497B (zh) * | 2017-10-18 | 2021-10-01 | 宏达国际电子股份有限公司 | 声音播放装置、方法及非暂态存储介质 |
| US10504529B2 (en) | 2017-11-09 | 2019-12-10 | Cisco Technology, Inc. | Binaural audio encoding/decoding and rendering for a headset |
| BR112020015835A2 (pt) | 2018-04-11 | 2020-12-15 | Dolby International Ab | Métodos, aparelho e sistemas para renderização de áudio 6dof e representações de dados e estruturas de fluxo de bits para renderização de áudio 6dof |
| GB2575305A (en) * | 2018-07-05 | 2020-01-08 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
| EP3870991A4 (en) | 2018-10-24 | 2022-08-17 | Otto Engineering Inc. | DIRECTIONAL AUDIO COMMUNICATION SYSTEM |
| CN111107481B (zh) * | 2018-10-26 | 2021-06-22 | 华为技术有限公司 | 一种音频渲染方法及装置 |
| TWI859173B (zh) | 2018-12-28 | 2024-10-21 | 日商索尼股份有限公司 | 資訊處理裝置、資訊處理方法及資訊處理程式 |
| EP3719799A1 (en) * | 2019-04-04 | 2020-10-07 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation |
| WO2020253941A1 (en) | 2019-06-17 | 2020-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
| JP7286876B2 (ja) * | 2019-09-23 | 2023-06-05 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 変換パラメータによるオーディオ符号化/復号化 |
| GB2589321A (en) * | 2019-11-25 | 2021-06-02 | Nokia Technologies Oy | Converting binaural signals to stereo audio signals |
| CN111031467A (zh) * | 2019-12-27 | 2020-04-17 | 中航华东光电(上海)有限公司 | 一种hrir前后方位增强方法 |
| WO2022010454A1 (en) * | 2020-07-06 | 2022-01-13 | Hewlett-Packard Development Company, L.P. | Binaural down-mixing of audio signals |
| CN111885414B (zh) * | 2020-07-24 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
| CN116762127A (zh) * | 2020-12-15 | 2023-09-15 | 诺基亚技术有限公司 | 量化空间音频参数 |
| US11736886B2 (en) * | 2021-08-09 | 2023-08-22 | Harman International Industries, Incorporated | Immersive sound reproduction using multiple transducers |
| US12003949B2 (en) | 2022-01-19 | 2024-06-04 | Meta Platforms Technologies, Llc | Modifying audio data transmitted to a receiving device to account for acoustic parameters of a user of the receiving device |
Family Cites Families (49)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE69428939T2 (de) * | 1993-06-22 | 2002-04-04 | Deutsche Thomson-Brandt Gmbh | Verfahren zur Erhaltung einer Mehrkanaldekodiermatrix |
| US6128597A (en) * | 1996-05-03 | 2000-10-03 | Lsi Logic Corporation | Audio decoder with a reconfigurable downmixing/windowing pipeline and method therefor |
| US5946352A (en) * | 1997-05-02 | 1999-08-31 | Texas Instruments Incorporated | Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain |
| US6122619A (en) * | 1998-06-17 | 2000-09-19 | Lsi Logic Corporation | Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor |
| JP4499206B2 (ja) * | 1998-10-30 | 2010-07-07 | ソニー株式会社 | オーディオ処理装置及びオーディオ再生方法 |
| KR100416757B1 (ko) * | 1999-06-10 | 2004-01-31 | 삼성전자주식회사 | 위치 조절이 가능한 가상 음상을 이용한 스피커 재생용 다채널오디오 재생 장치 및 방법 |
| JP2001057699A (ja) * | 1999-06-11 | 2001-02-27 | Pioneer Electronic Corp | オーディオ装置 |
| US7236838B2 (en) * | 2000-08-29 | 2007-06-26 | Matsushita Electric Industrial Co., Ltd. | Signal processing apparatus, signal processing method, program and recording medium |
| US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
| US7583805B2 (en) * | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
| DE60120233D1 (de) | 2001-06-11 | 2006-07-06 | Lear Automotive Eeds Spain | Verfahren und system zum unterdrücken von echos und geräuschen in umgebungen unter variablen akustischen und stark rückgekoppelten bedingungen |
| CN1647156B (zh) * | 2002-04-22 | 2010-05-26 | 皇家飞利浦电子股份有限公司 | 参数编码方法、参数编码器、用于提供音频信号的设备、解码方法、解码器、用于提供解码后的多声道音频信号的设备 |
| JP4187719B2 (ja) * | 2002-05-03 | 2008-11-26 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | マルチチャネル・ダウンミキシング装置 |
| JP3902065B2 (ja) * | 2002-05-10 | 2007-04-04 | パイオニア株式会社 | サラウンドヘッドホン出力信号生成装置 |
| WO2004028204A2 (en) * | 2002-09-23 | 2004-04-01 | Koninklijke Philips Electronics N.V. | Generation of a sound signal |
| JP2004128854A (ja) * | 2002-10-02 | 2004-04-22 | Matsushita Electric Ind Co Ltd | 音響再生装置 |
| US7644001B2 (en) * | 2002-11-28 | 2010-01-05 | Koninklijke Philips Electronics N.V. | Differentially coding an audio signal |
| EP1595247B1 (en) * | 2003-02-11 | 2006-09-13 | Koninklijke Philips Electronics N.V. | Audio coding |
| JP4124702B2 (ja) | 2003-06-11 | 2008-07-23 | 日本放送協会 | 立体音響信号符号化装置、立体音響信号符号化方法および立体音響信号符号化プログラム |
| US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
| TWI233091B (en) * | 2003-11-18 | 2005-05-21 | Ali Corp | Audio mixing output device and method for dynamic range control |
| JP4271588B2 (ja) | 2004-01-08 | 2009-06-03 | シャープ株式会社 | ディジタルデータの符号化方法および符号化装置 |
| US7394903B2 (en) | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
| WO2005081229A1 (ja) * | 2004-02-25 | 2005-09-01 | Matsushita Electric Industrial Co., Ltd. | オーディオエンコーダ及びオーディオデコーダ |
| US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
| PL1735779T3 (pl) * | 2004-04-05 | 2014-01-31 | Koninklijke Philips Nv | Urządzenie kodujące, dekodujące, sposoby z nimi powiązane oraz powiązany system audio |
| KR100636145B1 (ko) * | 2004-06-04 | 2006-10-18 | 삼성전자주식회사 | 확장된 고해상도 오디오 신호 부호화 및 복호화 장치 |
| US20050273324A1 (en) * | 2004-06-08 | 2005-12-08 | Expamedia, Inc. | System for providing audio data and providing method thereof |
| JP2005352396A (ja) * | 2004-06-14 | 2005-12-22 | Matsushita Electric Ind Co Ltd | 音響信号符号化装置および音響信号復号装置 |
| KR100644617B1 (ko) * | 2004-06-16 | 2006-11-10 | 삼성전자주식회사 | 7.1 채널 오디오 재생 방법 및 장치 |
| US7391870B2 (en) * | 2004-07-09 | 2008-06-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V | Apparatus and method for generating a multi-channel output signal |
| JP4898673B2 (ja) * | 2004-07-14 | 2012-03-21 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 方法、装置、エンコーダ装置、デコーダ装置及びオーディオシステム |
| WO2006011367A1 (ja) | 2004-07-30 | 2006-02-02 | Matsushita Electric Industrial Co., Ltd. | オーディオ信号符号化装置および復号化装置 |
| US7451325B2 (en) | 2004-08-02 | 2008-11-11 | At&T Intellectual Property I, L.P. | Methods, systems and computer program products for detecting tampering of electronic equipment by varying a verification process |
| GB0419346D0 (en) * | 2004-09-01 | 2004-09-29 | Smyth Stephen M F | Method and apparatus for improved headphone virtualisation |
| US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
| US20060106620A1 (en) * | 2004-10-28 | 2006-05-18 | Thompson Jeffrey K | Audio spatial environment down-mixer |
| SE0402649D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods of creating orthogonal signals |
| SE0402650D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
| KR100682904B1 (ko) * | 2004-12-01 | 2007-02-15 | 삼성전자주식회사 | 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법 |
| JP4258471B2 (ja) | 2005-01-13 | 2009-04-30 | セイコーエプソン株式会社 | 時刻誤差情報提供システム、端末装置、端末装置の制御方法、端末装置の制御プログラム、端末装置の制御プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| US7961890B2 (en) * | 2005-04-15 | 2011-06-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. | Multi-channel hierarchical audio coding with compact side information |
| JP5587551B2 (ja) | 2005-09-13 | 2014-09-10 | コーニンクレッカ フィリップス エヌ ヴェ | オーディオ符号化 |
| WO2007031905A1 (en) | 2005-09-13 | 2007-03-22 | Koninklijke Philips Electronics N.V. | Method of and device for generating and processing parameters representing hrtfs |
| WO2007080211A1 (en) * | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
| US9009057B2 (en) | 2006-02-21 | 2015-04-14 | Koninklijke Philips N.V. | Audio encoding and decoding to generate binaural virtual spatial signals |
| US7876904B2 (en) * | 2006-07-08 | 2011-01-25 | Nokia Corporation | Dynamic decoding of binaural audio signals |
| JP2008056018A (ja) | 2006-08-30 | 2008-03-13 | Daikyo Nishikawa Kk | フロアコンソール |
| KR100873072B1 (ko) * | 2006-08-31 | 2008-12-09 | 삼성모바일디스플레이주식회사 | 발광제어구동부 및 그를 이용한 유기전계발광표시장치 |
-
2007
- 2007-02-13 US US12/279,856 patent/US9009057B2/en active Active
- 2007-02-13 EP EP20070705870 patent/EP1989920B1/en active Active
- 2007-02-13 PL PL07705870T patent/PL1989920T3/pl unknown
- 2007-02-13 WO PCT/IB2007/050473 patent/WO2007096808A1/en not_active Ceased
- 2007-02-13 JP JP2008555915A patent/JP5081838B2/ja active Active
- 2007-02-13 ES ES07705870T patent/ES2339888T3/es active Active
- 2007-02-13 AT AT07705870T patent/ATE456261T1/de not_active IP Right Cessation
- 2007-02-13 BR BRPI0707969A patent/BRPI0707969B1/pt active IP Right Grant
- 2007-02-13 DE DE200760004451 patent/DE602007004451D1/de active Active
- 2007-02-13 KR KR1020087022998A patent/KR101358700B1/ko active Active
- 2007-02-13 CN CN200780006210XA patent/CN101390443B/zh active Active
- 2007-02-16 TW TW096105931A patent/TWI508578B/zh active
-
2015
- 2015-04-06 US US14/679,283 patent/US9865270B2/en active Active
-
2018
- 2018-01-08 US US15/864,574 patent/US10741187B2/en active Active
-
2020
- 2020-07-06 US US16/920,843 patent/US12165656B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| PL1989920T3 (pl) | 2010-07-30 |
| BRPI0707969A2 (pt) | 2011-05-17 |
| US20090043591A1 (en) | 2009-02-12 |
| US20200335115A1 (en) | 2020-10-22 |
| US10741187B2 (en) | 2020-08-11 |
| US20180151185A1 (en) | 2018-05-31 |
| US12165656B2 (en) | 2024-12-10 |
| JP5081838B2 (ja) | 2012-11-28 |
| DE602007004451D1 (de) | 2010-03-11 |
| US20150213807A1 (en) | 2015-07-30 |
| CN101390443B (zh) | 2010-12-01 |
| KR101358700B1 (ko) | 2014-02-07 |
| EP1989920A1 (en) | 2008-11-12 |
| ATE456261T1 (de) | 2010-02-15 |
| TWI508578B (zh) | 2015-11-11 |
| TW200738038A (en) | 2007-10-01 |
| JP2009527970A (ja) | 2009-07-30 |
| WO2007096808A1 (en) | 2007-08-30 |
| US9865270B2 (en) | 2018-01-09 |
| EP1989920B1 (en) | 2010-01-20 |
| US9009057B2 (en) | 2015-04-14 |
| KR20080107422A (ko) | 2008-12-10 |
| BRPI0707969B1 (pt) | 2020-01-21 |
| CN101390443A (zh) | 2009-03-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2339888T3 (es) | Codificacion y decodificacion de audio. | |
| KR101010464B1 (ko) | 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성 | |
| CN101263742B (zh) | 音频编码 | |
| CN106105269B (zh) | 音频信号处理方法和设备 | |
| ES2461601T3 (es) | Procedimiento y aparato para generar una señal de audio binaural | |
| TWI443647B (zh) | 用以將以物件為主之音訊信號編碼與解碼之方法與裝置 | |
| ES2932422T3 (es) | Método y aparato para procesar señales multimedia | |
| JP4944902B2 (ja) | バイノーラルオーディオ信号の復号制御 | |
| JP2021114799A (ja) | オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ | |
| TWI334736B (en) | Apparatus and method for generating a level parameter, apparatus and method for generating a multi-channel representation and a storage media stored parameter representation | |
| ES2340796T3 (es) | Dispositivo y metodo para generar una señal estereofonica codificada de una pieza de audio o flujo de datos de audio. | |
| US20120039477A1 (en) | Audio signal synthesizing | |
| KR20160090869A (ko) | 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱 | |
| JP2017500782A (ja) | 領域の音場データを圧縮および解凍するための方法および装置 | |
| RU2427978C2 (ru) | Кодирование и декодирование аудио | |
| KR102195976B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
| MX2008010631A (es) | Codificacion y decodificacion de audio | |
| TW201116078A (en) | Apparatus and method for generating a level parameter, apparatus and method for generating a multi-channel representation and a storage media stored parameter representation | |
| HK1228151B (en) | Method and device for compressing and decompressing sound field data of an area |