ES2378734T3 - Codificación mejorada y representación de parámetros de codificación de objetos de mezcla descendente multicanal - Google Patents

Codificación mejorada y representación de parámetros de codificación de objetos de mezcla descendente multicanal Download PDF

Info

Publication number
ES2378734T3
ES2378734T3 ES09004406T ES09004406T ES2378734T3 ES 2378734 T3 ES2378734 T3 ES 2378734T3 ES 09004406 T ES09004406 T ES 09004406T ES 09004406 T ES09004406 T ES 09004406T ES 2378734 T3 ES2378734 T3 ES 2378734T3
Authority
ES
Spain
Prior art keywords
audio
channels
parameters
downstream
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES09004406T
Other languages
English (en)
Inventor
Jonas Engdegard
Lars Villemoes
Heiko Purnhagen
Barbara Resch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Dolby Sweden AB
Original Assignee
Dolby International AB
Dolby Sweden AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB, Dolby Sweden AB filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2378734T3 publication Critical patent/ES2378734T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Electron Tubes For Measurement (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Telephone Function (AREA)
  • Sorting Of Articles (AREA)
  • Optical Measuring Cells (AREA)

Abstract

Sintetizador (104) de audio para generar datos de salida usando una señal (95, 97) de objeto de audio codificada, que comprende: un sintetizador (100) de datos de salida para generar los datos de salida que pueden usarse para reproducir una pluralidad de canales de salida de una configuración de salida de audio predefinida que representa la pluralidad de objetos de audio, siendo el sintetizador de datos de salida operativo para usar información de mezcla descendente que indica una distribución de la pluralidad de objetos de audio en al menos dos canales de mezcla descendente, información de potencia, información de correlación que indican una característica de potencia y una característica de correlación de los al menos dos canales (93) de mezcla descendente, y parámetros de objeto de audio para los objetos de audio, en el que el sintetizador (100) de datos de salida es operativo para transcodificar (502) los parámetros de objeto de audio en parámetros espaciales para la configuración de salida de audio predefinida usando además un posicionamiento previsto de los objetos (90) de audio en la configuración de salida de audio.

Description

Codificación mejorada y representación de parámetros de codificación de objetos de mezcla descendente multicanal
CAMPO TÉCNICO
La presente invención se refiere a la decodificación de múltiples objetos a partir de una señal multiobjeto codificada basándose en una mezcla descendente multicanal disponible y datos de control adicionales.
ANTECEDENTES DE LA INVENCIÓN
El desarrollo reciente en audio facilita la recreación de una representación multicanal de una señal de audio basándose en una señal estéreo (o mono) y datos de control correspondientes. Estos métodos de codificación envolvente paramétrica habitualmente comprenden una parametrización. Un decodificador de audio multicanal paramétrico, (por ejemplo, el decodificador de MPEG Surround definido en la norma ISO/IEC 23003-1 [1], [2]), reconstruye M canales basándose en K canales transmitidos, donde M>K, mediante el uso de los datos de control adicionales. Los datos de control consisten en una parametrización de la señal multicanal basada en IID (Inter channel Intensity Difference; diferencia de intensidad entre canales) e ICC (Inter Channel Coherence; coherencia entre canales). Estos parámetros se extraen normalmente en la fase de codificación y describen relaciones de potencia y correlación entre pares de canales usados en el proceso de mezcla ascendente. Usar un esquema de codificación de este tipo permite la codificación a una tasa de transmisión de datos significativamente inferior a la de la transmisión de todos los M canales, haciendo la codificación muy eficaz mientras al mismo tiempo garantiza una compatibilidad tanto con dispositivos de K canales como con dispositivos de M canales.
Un sistema de codificación muy relacionado es el codificador de objetos de audio correspondiente [3], [4] en el que varios objetos de audio se mezclan de manera descendente en el codificador y más tarde se mezclan de manera ascendente de manera guiada mediante los datos de control. El proceso de mezcla ascendente también puede considerarse como una separación de los objetos que se mezclan en la mezcla descendente. La señal de mezcla ascendente resultante puede reproducirse en uno o más canales de reproducción. De manera más precisa, [3,4] presenta un método para sintetizar canales de audio a partir de una mezcla descendente (denominada señal suma), información estadística acerca de los objetos fuente y datos que describen el formato de salida deseado. En casos de que se usen varias señales de mezcla descendente, estas señales de mezcla descendente consisten en diferentes subconjuntos de los objetos, y la mezcla ascendente se realiza para cada canal de mezcla descendente de manera individual.
En el nuevo método introducimos un método en el que la mezcla ascendente se realiza conjuntamente para todos los canales de mezcla descendente. Los métodos de codificación de objetos, antes de la presente invención, no presentaban una solución para la decodificación conjunta de una mezcla descendente con más de un canal.
Referencias:
[1] L. Villemoes, J. Herre, J. Breebaart, G. Hotho, S. Disch, H. Pumhagen y K. Kjörling, “MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding”, en 28th International AES Conference, The Future of Audio Technology Surround and Beyond, Piteå, Suecia, 30 de junio - 2 de julio, 2006.
[2] J. Breebaart, J. Herre, L. Villemoes, C. Jin, K. Kjörling, J. Plogsties y J. Koppens, “Multi-Channels goes Mobile: MPEG Surround Binaural Rendering”, en 29th International AES Conference, Audio for Mobile and Handheld Devices, Seúl, 2-4 de septiembre de 2006.
[3] C. Faller, “Parametric Joint-Coding of Audio Sources”, Convention Paper 6752 presentado en 120th AES Convention, París, Francia, 20-23 de mayo de 2006.
[4] C. Faller, “Parametric Joint-Coding of Audio Sources”, solicitud de patente PCT/EP2006/050904, 2006.
El documento WO 2006/048203 A2 da a conocer conceptos para el rendimiento mejorado de la reconstrucción multicanal basada en predicción. Particularmente, una pérdida de energía introducida mediante un proceso de mezcla ascendente predictivo se tiene en cuenta en una reconstrucción multicanal. Particularmente, un canal original izquierdo, un canal original central y un canal original derecho se mezclan de manera descendente en un canal de mezcla descendente izquierdo y un canal de mezcla descendente derecho, en los que el canal de mezcla descendente izquierdo sólo contiene el canal original izquierdo y una parte del canal central original, y el canal de mezcla descendente derecho sólo contiene el canal original derecho y una parte del canal central original. Esto está definido en una matriz de mezcla descendente. Los dos canales base se transmiten junto con dos parámetros de mezcla ascendente diferentes a un mezclador ascendente que cumple una regla de mezcla ascendente de no conservación de energía. Se generan los canales izquierdo, derecho y central originales reconstruidos y estos canales se someten a una corrección de energía para obtener canales izquierdo, derecho y central corregidos.
Es un objeto de la presente invención proporcionar un esquema de codificación/decodificación de objetos de audio mejorado.
Este objeto se logra mediante un sintetizador de audio según la reivindicación 1, un método de sintetización de audio según la reivindicación 6, un codificador de objetos de audio según la reivindicación 7, un método de codificación de objetos de audio según la reivindicación 10, una señal de objeto de audio codificada según la reivindicación 11 o un programa informático según la reivindicación 13.
SUMARIO DE LA INVENCIÓN
Un primer aspecto de la invención se refiere a un codificador de objetos de audio para generar una señal de objeto de audio codificada usando una pluralidad de objetos de audio, que comprende: un generador de información de mezcla descendente para generar información de mezcla descendente que indica una distribución de la pluralidad de objetos de audio en al menos dos canales de mezcla descendente; un generador de parámetro de objeto para generar parámetros de objeto para los objetos de audio; y una interfaz de salida para generar la señal de objeto de audio codificada usando la información de mezcla descendente y los parámetros de objeto.
Un segundo aspecto de la invención se refiere a un método de codificación de objetos de audio para generar una señal de objeto de audio codificada usando una pluralidad de objetos de audio, que comprende: generar información de mezcla descendente que indica una distribución de la pluralidad de objetos de audio en al menos dos canales de mezcla descendente; generar parámetros de objeto para los objetos de audio; y generar la señal de objeto de audio codificada usando la información de mezcla descendente y los parámetros de objeto.
Un tercer aspecto de la invención se refiere a un sintetizador de audio para generar datos de salida usando una señal de objeto de audio codificada, que comprende: un sintetizador de datos de salida para generar los datos de salida que pueden usarse para crear una pluralidad de canales de salida de una configuración de salida de audio predefinida que representa la pluralidad de objetos de audio, siendo el sintetizador de datos de salida operativo para usar información de mezcla descendente que indica una distribución de la pluralidad de objetos de audio en al menos dos canales de mezcla descendente, y parámetros de objeto de audio para los objetos de audio.
Un cuarto aspecto de la invención se refiere a un método de sintetización de audio para generar datos de salida usando una señal de objeto de audio codificada, que comprende: generar los datos de salida que pueden usarse para crear una pluralidad de canales de salida de una configuración de salida de audio predefinida que representa la pluralidad de objetos de audio, siendo el sintetizador de datos de salida operativo para usar información de mezcla descendente que indica una distribución de la pluralidad de objetos de audio en al menos dos canales de mezcla descendente, y parámetros de objeto de audio para los objetos de audio.
Un quinto aspecto de la invención se refiere a una señal de objeto de audio codificada que incluye una información de mezcla descendente que indica una distribución de una pluralidad de objetos de audio en al menos dos canales de mezcla descendente y parámetros de objeto, siendo los parámetros de objeto de manera que es posible la reconstrucción de los objetos de audio usando los parámetros de objeto y los al menos dos canales de mezcla descendente. Un sexto aspecto de la invención se refiere a un programa informático para realizar, cuando se ejecuta en un ordenador, el método de codificación de objetos de audio o el método de decodificación de objetos de audio.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
A continuación se describirá la presente invención a modo de ejemplos ilustrativos, que no limitan el alcance o espíritu de la invención, con referencia a los dibujos adjuntos, en los que:
la figura 1a ilustra la operación de codificación de objetos de audio espacial que comprende la codificación y la decodificación;
la figura 1b ilustra la operación de codificación de objetos de audio espacial reutilizando un decodificador de MPEG Surround;
la figura 2 ilustra la operación de un codificador de objetos de audio espacial;
la figura 3 ilustra un extractor de parámetros de objeto de audio que opera en un modo basado en energía;
la figura 4 ilustra un extractor de parámetros de objeto de audio que opera en un modo basado en predicción;
la figura 5 ilustra la estructura de un transcodificador de SAOC a MPEG Surround;
la figura 6 ilustra diferentes modos de operación de un convertidor de mezcla descendente;
la figura 7 ilustra la estructura de un decodificador de MPEG Surround para una mezcla descendente estéreo;
la figura 8 ilustra un caso de uso práctico que incluye un codificador SAOC;
la figura 9 ilustra una realización de codificador;
la figura 10 ilustra una realización de decodificador; la figura 11 ilustra una tabla para mostrar diferentes modos de decodificador/sintetizador preferidos;
la figura 12 ilustra un método para calcular determinados parámetros de mezcla ascendente espacial;
la figura 13a ilustra un método para calcular parámetros de mezcla ascendente espacial adicionales;
la figura 13b ilustra un método para calcular el uso de parámetros de predicción;
la figura 14 ilustra una visión general de un sistema de codificador/decodificador;
la figura 15 ilustra un método para calcular parámetros de objeto de predicción; y
la figura 16 ilustra un método de reproducción estéreo.
DESCRIPCIÓN DE REALIZACIONES PREFERIDAS
Las realizaciones descritas a continuación son meramente ilustrativas de los principios de la presente invención para laCODIFICACIÓN MEJORADA Y REPRESENTACIÓN DE PAR�?METROS DE CODIFICACIÓN DE OBJETOS DE MEZCLA DESCENDENTE MULTICANAL. Se entiende que serán evidentes para otros expertos en la técnica modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento. Por tanto, sólo se pretende que quede limitada por el alcance de las reivindicaciones de patente adjuntas y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.
Las realizaciones preferidas proporcionan un esquema de codificación que combina la funcionalidad de un esquema de codificación de objetos con las capacidades de reproducción de un decodificador multicanal. Los datos de control transmitidos se refieren a los objetos individuales y permiten, por tanto, una manipulación en la reproducción en cuanto a nivel y posición espacial. Por tanto, los datos de control están directamente relacionados con la denominada descripción de escena, dando información sobre el posicionamiento de los objetos. La descripción de escena puede controlarse o bien en el lado de decodificador de manera interactiva por el oyente o bien también en el lado de codificador por el productor. Una fase de transcodificador, tal como se enseña por la invención, se usa para convertir los datos de control relacionados con el objeto y la señal de mezcla descendente en datos de control y una señal de mezcla descendente que esté relacionada con el sistema de reproducción, como por ejemplo el decodificador de MPEG Surround.
En el esquema de codificación presentado, los objetos pueden distribuirse arbitrariamente en los canales de mezcla descendente disponibles en el codificador. El transcodificador hace uso explícito de la información de mezcla descendente multicanal, proporcionando una señal de mezcla descendente transcodificada y datos de control relacionados con el objeto. De esta forma, la mezcla ascendente en el decodificador no se realiza para todos los canales de manera individual tal como se propone en [3], sino que todos los canales de mezcla descendente se tratan al mismo tiempo en un único proceso de mezcla ascendente. En el nuevo esquema la información de mezcla descendente multicanal debe ser parte de los datos de control y se codifica por el codificador de objetos.
La distribución de los objetos en los canales de mezcla descendente puede realizarse de una manera automática o puede ser una elección de diseño en el lado de codificador. En el último caso, puede diseñarse la mezcla descendente para que sea adecuada para la reproducción por un esquema de reproducción multicanal existente (por ejemplo, un sistema de reproducción estéreo), que ofrece una reproducción y que omite la fase de decodificación multicanal y transcodificación. Esto es una ventaja adicional sobre los esquemas de codificación anteriores, que consisten en un único canal de mezcla descendente, o múltiples canales de mezcla descendente que contienen subconjuntos de los objetos fuente.
Mientras que los esquemas de codificación de objetos de la técnica anterior describen únicamente el proceso de decodificación usando un único canal de mezcla descendente, la presente invención no sufre esta limitación ya que proporciona un método para decodificar conjuntamente mezclas descendentes que contienen mezcla descendente de más de un canal. La calidad que puede obtenerse en la separación de objetos aumenta con un mayor número de canales de mezcla descendente. Por tanto, la invención llena satisfactoriamente el vacío entre un esquema de codificación de objetos con un único canal mono de mezcla descendente y un esquema de codificación multicanal en el que cada objeto se transmite en un canal separado. Por tanto, el esquema propuesto permite un ajuste a escala flexible de calidad para la separación de objetos según requisitos de la aplicación y las propiedades del sistema de transmisión (tal como la capacidad de canal).
Además, usar más de un canal de mezcla descendente es ventajoso puesto que permite considerar adicionalmente una correlación entre los objetos individuales en lugar de restringir la descripción a diferencias de intensidad tal como en los esquemas de codificación de objetos de la técnica anterior. Los esquemas de la técnica anterior se basan en la suposición que todos los objetos son independientes y no correlacionados entre sí (cero correlación cruzada), aunque en objetos reales no es poco probable que estén correlacionados, como por ejemplo el canal izquierdo y derecho de una señal estéreo. Incorporar la correlación en la descripción (datos de control) tal como enseña la invención, la hace más completa y facilita así adicionalmente la capacidad para separar los objetos.
Las realizaciones preferidas comprenden al menos una de las siguientes características:
Un sistema para transmitir y crear una pluralidad de objetos de audio individuales usando una mezcla descendente multicanal y datos de control adicionales que describen los objetos, que comprende: un codificador de objetos de audio espacial para codificar una pluralidad de objetos de audio en una mezcla descendente multicanal, información acerca de la mezcla descendente multicanal, y parámetros de objeto; o un decodificador de objetos de audio espacial para decodificar una mezcla descendente multicanal, información acerca de la mezcla descendente multicanal, parámetros de objeto, y una matriz de reproducción de objeto en una segunda señal de audio multicanal adecuada para la reproducción de audio.
La figura 1a ilustra la operación de codificación de objetos de audio espacial (SAOC), que comprende un codificador 101 SAOC y un decodificador 104 SAOC. El codificador 101 de objetos de audio espacial codifica N objetos en una mezcla descendente de objetos que consiste en K>1 canales de audio, según parámetros de codificador. La información acerca de la matriz de pesos de mezcla descendente D aplicada la emite el codificador SAOC junto con datos opcionales concernientes a la potencia y correlación de la mezcla descendente. La matriz D es con frecuencia, pero no necesariamente siempre, constante a lo largo del tiempo y la frecuencia, y por tanto representa una cantidad relativamente baja de información. Finalmente, el codificador SAOC extrae parámetros de objeto para cada objeto en función tanto del tiempo como de la frecuencia a una resolución definida por consideraciones de percepción. El decodificador 104 de objetos de audio espacial toma los canales de mezcla descendente de objetos, la información de mezcla descendente y los parámetros de objeto (generados por el codificador) como entradas y genera una salida con M canales de audio para la presentación al usuario. La reproducción de N objetos en M canales de audio hace uso de una matriz de reproducción proporcionada como entrada de usuario para el decodificador SAOC.
La figura 1b ilustra la operación de codificación de objetos de audio espacial reutilizando un decodificador de MPEG Surround. Un decodificador 104 SAOC enseñado por la invención actual puede realizarse como un transcodificador 102 de SAOC a MPEG Surround y un decodificador 103 de MPEG Surround basado en mezcla descendente estéreo. Una matriz de reproducción A controlada por el usuario de tamaño M x N define la reproducción objetivo de los N objetos a M canales de audio. Esta matriz puede depender tanto del tiempo como de la frecuencia y es la salida final de una interfaz más sencilla para el usuario para la manipulación de objetos de audio (que también puede hacer uso de una descripción de escena externamente proporcionada). En el caso de una configuración de altavoces 5.1 el número de canales de audio de salida es M = 6. La tarea del decodificador SAOC es recrear perceptivamente la reproducción objetivo de los objetos de audio originales. El transcodificador 102 de SAOC a MPEG Surround toma como entrada la matriz de reproducción A, la mezcla descendente de objetos, la información secundaria de mezcla descendente que incluye la matriz de pesos de mezcla descendente D, y la información secundaria de objeto, y genera una mezcla descendente estéreo e información secundaria de MPEG Surround. Cuando se construye el transcodificador según la invención actual, un decodificador 103 de MPEG Surround posterior alimentado con estos datos producirá una salida de audio de M canales con las propiedades deseadas.
Un decodificador SAOC enseñado por la invención actual consiste en un transcodificador 102 de SAOC a MPEG Surround y un decodificador 103 de MPEG Surround basado en mezcla descendente estéreo. Una matriz de reproducción A controlada por el usuario de tamaño M x N define la reproducción objetivo de los N objetos a M canales de audio. Esta matriz puede depender tanto del tiempo como de la frecuencia y es la salida final de una interfaz más sencilla para el usuario para la manipulación de objetos de audio. En el caso de una configuración de altavoces 5.1 el número de canales de audio de salida es M = 6. La tarea del decodificador SAOC es recrear perceptivamente la reproducción objetivo de los objetos de audio originales. El transcodificador 102 de SAOC a MPEG Surround toma como entrada la matriz de reproducción A, la mezcla descendente de objetos, la información secundaria de mezcla descendente que incluye la matriz de pesos de mezcla descendente D, y la información secundaria de objeto, y genera una mezcla descendente estéreo e información secundaria de MPEG Surround. Cuando se construye el transcodificador según la invención actual, un decodificador 103 de MPEG Surround posterior alimentado con estos datos producirá una salida de audio de M canales con las propiedades deseadas.
La figura 2 ilustra la operación de un codificador 101 de objetos de audio espacial (SAOC) enseñada por la invención actual. Los N objetos de audio se alimentan tanto en un mezclador 201 descendente como un extractor 202 de parámetros de objeto de audio. El mezclador 201 descendente mezcla los objetos en una mezcla descendente de objetos que consiste en K>1 canales de audio, según los parámetros de codificador y también emite información de mezcla descendente. Esta información incluye una descripción de la matriz de pesos de mezcla descendente D aplicada y, opcionalmente, si el extractor de parámetros de objeto de audio posterior opera en modo de predicción, describiendo los parámetros la potencia y correlación de la mezcla descendente de objetos. Como se comentará en un párrafo posterior, el papel de tales parámetros adicionales es dar acceso a la energía y correlación de subconjuntos de canales de audio reproducidos en el caso en el que los parámetros de objeto se expresan sólo en relación con la mezcla descendente, siendo el ejemplo principal las indicaciones frontales/traseras de una configuración de altavoces 5.1. El extractor 202 de parámetros de objeto de audio extrae parámetros de objeto según los parámetros de codificador. El control de codificador determina, basándose en la variación de tiempo y frecuencia, cuál de dos modos de codificador se aplica, el modo basado energía o el basado en predicción. En el modo basado en energía, los parámetros de codificador contienen además información sobre una agrupación de los N objetos de audio en P objetos estéreo y N-2P objetos mono. Cada modo se describirá adicionalmente mediante las figuras 3 y 4.
La figura 3 ilustra un extractor 202 de parámetros de objeto de audio que opera en un modo basado en energía. Una agrupación 301 en P objetos estéreo y N-2P objetos mono se realiza según la información de agrupación contenida en los parámetros de codificador. Para cada intervalo de tiempo-frecuencia considerado se realizan entonces las siguientes operaciones. Dos potencias de objeto y una correlación normalizada se extraen para cada uno de los P objetos estéreo por el extractor 302 de parámetros estéreo. Un parámetro de potencia se extrae para cada uno de los N-2P objetos mono por el extractor 303 de parámetros mono. El conjunto total de N parámetros de potencia y P parámetros de correlación normalizada se codifica entonces en 304 junto con los datos de agrupación para formar los parámetros de objeto. La codificación puede contener una etapa de normalización con respecto a la potencia de objeto más grande o con respecto a la suma de potencias de objeto extraídas.
La figura 4 ilustra un extractor 202 de parámetros de objeto de audio que opera en un modo basado en predicción. Para cada intervalo de tiempo-frecuencia considerado, se realizan las siguientes operaciones. Para cada uno de los N objetos, se deriva una combinación lineal de los K canales de mezcla descendente de objetos que coincide con el objeto dado en un sentido de mínimos cuadrados. Los K pesos de esta combinación lineal se denominan coeficientes de predicción de objeto (OPC) y se calculan por el extractor 401 de OPC. El conjunto total de los N·K OPC se codifican en 402 para formar los parámetros de objeto. La codificación puede incorporar una reducción del número total de OPC basándose en interdependencias lineales. Tal como se enseña por la presente invención, este número total puede reducirse a max{K·(N-K),0} si la matriz de pesos de mezcla descendente D tiene rango completo.
La figura 5 ilustra la estructura de un transcodificador 102 de SAOC a MPEG Surround tal como se enseña por la invención actual. Para cada intervalo de tiempo-frecuencia, la información secundaria de mezcla descendente y los parámetros de objeto se combinan con la matriz de reproducción mediante el calculador 502 de parámetros para formar parámetros de MPEG Surround de tipo CLD, CPC e ICC, y una matriz de convertidor de mezcla descendente G de tamaño 2xK. El convertidor 501 de mezcla descendente convierte la mezcla descendente de objetos en una mezcla descendente estéreo aplicando una operación de matriz según las matrices G. En un modo simplificado del transcodificador para K = 2, esta matriz es la matriz de identidad y la mezcla descendente de objetos se pasa a través de la misma sin alterarse como mezcla descendente estéreo. Este modo se ilustra en el dibujo con el conmutador 503 selector en la posición A, mientras que el modo de operación normal tiene el conmutador en la posición B. Una ventaja adicional del transcodificador es su posibilidad de uso como una aplicación autónoma en la que los parámetros de MPEG Surround se ignoran y la salida del convertidor de mezcla descendente se usa directamente como una reproducción estéreo.
La figura 6 ilustra diferentes modos de operación de un convertidor 501 de mezcla descendente tal como se enseña por la presente invención. Dada la mezcla descendente de objetos transmitida en el formato de una salida de flujo de bits desde un codificador de audio de K canales, este flujo de bits se decodifica en primer lugar por el decodificador 601 de audio en K señales de audio en el dominio del tiempo. Estas señales entonces se transforman todas al dominio de la frecuencia por un banco de filtros QMF híbrido de MPEG Surround en la unidad 602 de T/F. La operación de matriz de variación en el tiempo y la frecuencia definida por los datos de matriz de convertidor se realiza en las señales de dominio QMF híbrido resultantes mediante la unidad 603 de matrización que emite una señal estéreo en el dominio QMF híbrido. La unidad 604 de síntesis híbrida convierte la señal en el dominio QMF híbrido estéreo en una señal en el dominio QMF estéreo. El dominio QMF híbrido se define con el fin de obtener mejor resolución de frecuencia hacia frecuencias más bajas por medio de un filtrado posterior de las subbandas QMF. Cuando este filtrado posterior se define por bancos de filtros de Nyquist, la conversión del dominio QMF híbrido al convencional consiste en simplemente la suma de grupos de señales de subbanda híbridas, véase [E. Schuijers, J. Breebart y H. Purnhagen “Low complexity parametric stereo coding” Proc 116th AES convention Berlín, Alemania 2004, Preprint 6073]. Esta señal constituye el primer formato de salida posible del convertidor de mezcla descendente según se define por el conmutador 607 selector en la posición A. Una señal en el dominio QMF de este tipo puede alimentarse directamente a la interfaz en el dominio QMF correspondiente de un decodificador de MPEG Surround, y este es el modo de operación más ventajoso en cuanto a retardo, complejidad y calidad. La siguiente posibilidad se obtiene realizando una síntesis 605 de banco de filtros QMF con el fin de obtener una señal en el dominio del tiempo estéreo. Con el conmutador 607 selector en la posición B, el convertidor emite una señal estéreo de audio digital que también puede alimentarse a la interfaz en el dominio del tiempo de un decodificador de MPEG Surround posterior, o se reproduce directamente en un dispositivo de reproducción estéreo. La tercera posibilidad con el conmutador 607 selector en la posición C se obtiene codificando la señal estéreo en el dominio del tiempo con un codificador 606 de audio estéreo. El formato de salida del convertidor de mezcla descendente es entonces un flujo de bits de audio estéreo que es compatible con un decodificador de núcleo contenido en el decodificador de MPEG. Este tercer modo de operación es adecuado para el caso en el que el transcodificador de SAOC a MPEG Surround está separado por el decodificador de MPEG mediante una conexión que impone restricciones sobre la tasa de bits, o en el caso en el que el usuario desea almacenar una reproducción de objeto particular para su reproducción futura.
La figura 7 ilustra la estructura de un decodificador de MPEG Surround para una mezcla descendente estéreo. La mezcla descendente estéreo se convierte en tres canales intermedios mediante la casilla de dos a tres (TTT). Estos canales intermedios se dividen además en dos por las tres casillas de uno a dos (OTT) para conseguir los seis canales de una configuración de canales 5.1.
La figura 8 ilustra un caso de uso práctico que incluye un codificador SAOC. Un mezclador 802 de audio emite una señal estéreo (L y R) que normalmente se compone combinando señales de entrada de mezclador (en este caso los
canales de entrada 1-6) y opcionalmente entradas adicionales de retornos de efectos tales como reverberación, etc. El mezclador también emite un canal individual (en este caso el canal 5) desde el mezclador. Esto puede realizarse, por ejemplo, por medio de funcionalidades de mezclador comúnmente usadas tales como “salidas directas” o “envío auxiliar” con el fin de emitir un canal individual posterior a cualquiera de los procesos de inserción (tal como procesamiento dinámico y EQ). La señal estéreo (L y R) y la salida de canal individual (obj5) se introducen al codificador 801 SAOC, que no es sino un caso especial del codificador 101 SAOC en la figura 1. Sin embargo, ilustra claramente una aplicación típica en la que el objeto de audio obj5 (que contiene, por ejemplo, voz) debe someterse a modificaciones de nivel controladas por el usuario en el lado de decodificador mientras que todavía es parte de la mezcla estéreo (L y R). A partir del concepto, también es obvio que pueden conectarse dos o más objetos de audio al panel de “entrada de objeto” en 801, y además la mezcla estéreo puede extenderse mediante una mezcla multicanal tal como una mezcla
5.1.
En el texto que sigue, se expondrá la descripción matemática de la presente invención. Para señales complejas discretas x, y, el producto interior complejo y norma cuadrada (energía) se define por
donde y(k) indica la señal conjugada compleja de y(k). Todas las señales consideradas en este caso son muestras de subbanda de un banco de filtros modulados o análisis FFT con función ventana de señales de tiempo discretas. Se entiende que estas subbandas deben transformarse de nuevo al dominio de tiempo discreto mediante correspondientes operaciones de banco de filtros de síntesis. Un bloque de señal de L muestras representa la señal en un intervalo de tiempo y frecuencia que es parte del enlosado motivado perceptivamente del plano tiempo-frecuencia que se aplica para la descripción de propiedades de señal. En esta situación, los objetos de audio dados pueden representarse como N filas de longitud L en una matriz,
La matriz de pesos de mezcla descendente D de tamaño K x N, donde K>1 determina la señal de mezcla descendente de K canales en forma de una matriz con K filas a través de la multiplicación de matrices
La matriz de reproducción de objeto A controlada por el usuario de tamaño M x N determina la reproducción objetivo de M canales de los objetos de audio en forma de una matriz con M filas a través de la multiplicación de matrices
Ignorando de momento los efectos de la codificación de audio núcleo, la tarea del decodificador SAOC es generar una aproximación en el sentido perceptivo de la reproducción objetivo Y de los objetos de audio originales, dada la matriz de reproducción A, la mezcla descendente X, la matriz de mezcla descendente D y parámetros de objeto.
Los parámetros de objeto en el modo de energía enseñado por la presente invención llevan información acerca de la covarianza de los objetos originales. En una versión determinística conveniente para la posterior derivación y también descriptiva de las operaciones de codificador típicas, esta covarianza viene dada en forma no normalizada por el producto de matrices SS* donde el asterisco indica la operación de matriz transpuesta conjugada compleja. Por tanto, los parámetros de objeto del modo de energía proporcionan una matriz positiva semidefinida E N x N de manera que, posiblemente hasta un factor de escala,
La codificación de objetos de audio de la técnica anterior suele considerar un modelo de objeto en el que todos los objetos están no correlacionados. En este caso, la matriz E es diagonal y sólo contiene una aproximación a las energías de objeto Sn = 11sn112 para n =1,2,…,N. El extractor de parámetros de objeto según la figura 3, permite un importante refinado de esta idea, particularmente relevante en casos en los que los objetos se proporcionan como señales estéreo para las que no se sostienen las suposiciones sobre ausencia de correlación. Una agrupación de P pares estéreo seleccionados de objetos se describe mediante los conjuntos de índices {(np,mp), p =1,2,…,P}. Para estos pares estéreo se calcula la correlación (sn,sm) y el valor complejo, real, o absoluto de la correlación normalizada (ICC)
se extrae por el extractor 302 de parámetros estéreo. En el decodificador, los datos ICC pueden entonces combinarse con las energías con el fin de formar una matriz E con 2P entradas fuera de la diagonal. Por ejemplo, para un total de N=3 objetos de los que los primeros dos consisten en un único par (1,2), la energía transmitida y los datos de correlación son (S1,S2,S3) y p1.2. En este caso, la combinación en la matriz E da
Los parámetros de objeto en el modo de predicción enseñado por la presente invención pretenden poner una matriz de coeficientes de predicción de objeto (OPC) C de N x K a disposición del decodificador de manera que
En otras palabras, para cada objeto hay una combinación lineal de los canales de mezcla descendente de manera que el objeto puede recuperarse aproximadamente mediante
En una realización preferida, el extractor 401 de OPC resuelve las ecuaciones normales
o, para el caso de OPC de valor real más atractivo, resuelve
En ambos casos, suponiendo una matriz de pesos de mezcla descendente D de valor real, y una covarianza de mezcla descendente no singular, se desprende mediante la multiplicación desde la izquierda con D que
donde I es la matriz de identidad de tamaño K. Si D tiene rango completo, se desprende mediante álgebra lineal elemental que el conjunto de soluciones de (9) pueden parametrizarse mediante parámetros max{K·(N-K),0}. Esto se aprovecha en la codificación conjunta en 402 de los datos OPC. La matriz de predicción C completa puede recrearse en el decodificador a partir del conjunto reducido de parámetros y la matriz de mezcla descendente.
Por ejemplo, considérese para una mezcla descendente estéreo (K=2) el caso de tres objetos (N=3) que comprenden una pista de música estéreo (s1,s2) y una pista de voz o de instrumento individual con panorámica central s3. La matriz de mezcla descendente es
Esto es, el canal izquierdo de mezcla descendente es
y el canal derecho es
Los OPC para la pista individual pretenden aproximar s3 "c31x1+c32x2 y la ecuación (11) puede resolverse en este caso para
que bastan viene dado por K(N- K) = 2·(3-2) = 2. Los OPC c31,c32 pueden hallarse a partir de las ecuaciones normales
Transcodificador de SAOC a MPEG Surround
En referencia a la figura 7, los M = 6 canales de salida de la configuración 5.1 son (y1, y2,…, y6)=(lf,ls,rf,rs,c,lfe). El
10 transcodificador debe emitir una mezcla descendente estéreo (l0,r0) y parámetros para las casillas TTT y OTT. Como la atención se centra ahora en la mezcla descendente estéreo, se supondrá a continuación que K=2. Puesto que tanto los parámetros de objeto como los parámetros MPS TTT existen tanto en modo de energía como en un modo de predicción, las cuatro combinaciones deben considerarse. El modo de energía es una opción adecuada, por ejemplo, en caso de que el codificador de audio de mezcla descendente no sea de codificador de forma de onda en el intervalo de
15 frecuencia considerado. Se entiende que los parámetros de MPEG Surround derivados en el siguiente texto deben cuantificarse y codificarse adecuadamente antes de su transmisión. Para aclarar mejor las cuatro combinaciones mencionadas anteriormente, éstas comprenden
1.
Parámetros de objeto en modo de energía y transcodificador en modo de predicción
2.
Parámetros de objeto en modo de energía y transcodificador en modo de energía
20 3. Parámetros de objeto en modo de predicción (OPC) y transcodificador en modo de predicción
4. Parámetros de objeto en modo de predicción (OPC) y transcodificador en modo de energía
Si el codificador de audio de mezcla descendente es un codificador de forma de onda en el intervalo de frecuencia considerado, los parámetros de objeto pueden estar tanto en modo de energía como de predicción, pero el transcodificador debe operar preferiblemente en modo de predicción. Si el codificador de audio de mezcla descendente
25 no es un codificador de forma de onda en el intervalo de frecuencia considerado, el codificador de objetos y el transcodificador deben operar ambos en modo de energía. La cuarta combinación es la que tiene menos relevancias de modo que la siguiente descripción se dirigirá a las primeras tres combinaciones únicamente.
Parámetros de objeto dados en modo de energía
En modo de energía, los datos disponibles para el transcodificador se describen por el triplete de matrices (D, E, A). Los
30 parámetros OTT de MPEG Surround se obtienen realizando estimaciones de energía y correlación sobre una reproducción virtual derivada de los parámetros transmitidos y de la matriz de reproducción A 6 x N. La covarianza objetivo de seis canales viene dada por
Insertando (5) en (13) se obtiene la aproximación
que se define completamente por los datos disponibles. Digamos que fu son los elementos de F. Entonces, los parámetros CLD y ICC se leen a partir de
donde < es el operador o bien de valor absoluto <(z) = |z| o bien de valor real <(z)=Re{z}.
Como un ejemplo ilustrativo, considérese el caso de tres objetos previamente descritos en relación con la ecuación (12). Digamos que la matriz de reproducción viene dada por
10 La reproducción objetivo consiste por tanto en colocar el objeto 1 entre frontal derecho y envolvente derecho, el objeto 2 entre frontal izquierdo y envolvente izquierdo, y el objeto 3 en frontal derecho, centro y lfe. Supóngase también por motivos de simplicidad que los tres objetos no están correlacionados y todos tienen la misma energía de manera que
En este caso, el lado derecho de la fórmula (14) pasa a ser
Insertando los valores apropiados en las fórmulas (15)-(19) se obtiene entonces
Como consecuencia, se indicará al decodificador de MPEG Surround que use alguna descorrelación entre frontal derecho y envolvente derecho, pero no descorrelación entre frontal derecho y envolvente izquierdo.
Para los parámetros TTT de MPEG Surround en modo de predicción, la primera etapa es formar una matriz de
reproducción reducida A3 de tamaño 3 x N para los canales combinados (l,r,qc) donde . Se cumple que A3 = D36A donde la matriz de mezcla descendente parcial de 6 a 3 se define por
Los pesos de mezcla descendente parcial wp, p =1,2,3 se ajustan de manera que la energía de wp(y2p-1+y2p) es igual a la suma de energías 11y2p-1112+11y2p112 hasta un factor límite. Todos los datos que se requieren para derivar la matriz de mezcla descendente parcial D36 están disponibles en F. A continuación, se produce una matriz de predicción C3 de tamaño 3x2 de manera que
Una matriz de este tipo se deriva preferiblemente considerando en primer lugar las ecuaciones normales
La solución a las ecuaciones normales da la mejor coincidencia de forma de onda posible para (21) dado el modelo de covarianza de objeto E. Es preferible algún postprocesamiento de la matriz C3, incluyendo factores fila para un canal total o individual basándose en compensación de pérdida de predicción.
Para ilustrar y aclarar las etapas anteriores, considérese una continuación del ejemplo de reproducción de seis canales específico dado anteriormente. En cuanto a los elementos de matriz de F, los pesos de mezcla descendente son soluciones a las ecuaciones
que en el ejemplo específico pasa a ser
Resolviendo el sistema de ecuaciones C3(DED)=A3ED se halla entonces, (conmutando ahora a precisión finita),
La matriz C3 contiene los mejores pesos para obtener una aproximación a la reproducción de objeto deseada a los canales combinados (l, r, qc) a partir de la mezcla descendente de objetos. Este tipo general de operación de matriz no puede implementarse por el decodificador de MPEG Surround, que está restringido a un espacio limitado de matrices TTT mediante el uso de sólo dos parámetros. El objeto del convertidor de mezcla descendente de la invención es
10 procesar previamente la mezcla descendente de objetos de manera que el efecto combinado del procesamiento previo y la matriz TTT de MPEG Surround sea idéntico a la mezcla ascendente deseada descrita por C3.
En MPEG Surround, la matriz TTT para la predicción de (l,r,qc) a partir de (/0,r0) se parametriza mediante tres parámetros (e,1,y) mediante
15 La matriz de convertidor de mezcla descendente G enseñada por la presente invención se obtiene eligiendo y=1 y resolviendo el sistema de ecuaciones
Tal como puede verificarse fácilmente, se cumple que DTTTCTTT = I, donde I es la matriz de identidad de dos por dos y
20 Por tanto, una multiplicación de matrices desde la izquierda por DTTT de ambos lados de (23) conduce a
En el caso genérico, G podrá invertirse y (23) tiene una solución única para CTTT que cumple DTTTCTTT = I. Los parámetros TTT (e, 1) se determinan mediante esta solución.
Para el ejemplo específico considerado anteriormente, puede verificarse fácilmente que las soluciones vienen dadas por
Obsérvese que una parte principal de la mezcla descendente estéreo se intercambia entre izquierda y derecha para esta matriz de convertidor, lo que refleja el hecho de que el ejemplo de reproducción pone objetos que están en el canal 5 de mezcla descendente de objetos izquierdo en la parte derecha de la escena de sonido y viceversa. Tal comportamiento es imposible de obtener de un decodificador de MPEG Surround en modo estéreo.
Si es imposible aplicar un convertidor de mezcla descendente, puede desarrollarse un procedimiento que no sea del todo óptimo como sigue. Para los parámetros TTT de MPEG Surround en modo de energía, lo que se requiere es la distribución de energía de los canales combinados (l,r,c). Por tanto los parámetros CLD relevantes pueden derivarse
10 directamente a partir de los elementos de F a través de
En este caso, es adecuado usar sólo una matriz diagonal G con entradas positivas para el convertidor de mezcla descendente. Es operacional conseguir la distribución de energía correcta de los canales de mezcla descendente antes 15 de la mezcla ascendente TTT. Con la matriz de mezcla descendente de seis a dos canales D26 = DTTTD36 y las definiciones a partir de
se elige simplemente
Una observación adicional es que tal convertidor de mezcla descendente de forma diagonal puede omitirse del transcodificador de objetos a MPEG Surround e implementarse por medio de la activación de los parámetros de ganancia de mezcla descendente arbitrarios (ADG) del decodificador de MPEG Surround. Estas ganancias se darán entonces en el dominio logarítmico mediante ADG1 = 10 log10 (wii/zii) para i=1,2.
25 Parámetros de objeto dados en modo de predicción (OPC)
En el modo de predicción de objeto, los datos disponibles están representados por el triplete de matrices (D,C,A) donde C es la matriz Nx2 que contiene los N pares de OPC. Debido a la naturaleza relativa de los coeficientes de predicción, será necesario además para la estimación de parámetros de MPEG Surround basados en energía tener acceso a una aproximación a la matriz de covarianza de 2x2 de la mezcla descendente de objetos,
Esta información se transmite preferiblemente desde el codificador de objetos como parte de la información secundaria de mezcla descendente, pero también podría estimarse en el transcodificador a partir de mediciones realizadas en la mezcla descendente recibida, o indirectamente derivarse de (D, C) mediante consideraciones de modelo de objeto aproximado. Dada Z, la covarianza de objeto puede estimarse insertando el modelo predictivo Y = CX, dando
y todos los parámetros TTT de modo de energía y OTT de MPEG Surround pueden estimarse a partir de E como en el caso de parámetros de objeto basados en energía. Sin embargo, la gran ventaja de usar OPC surge en combinación con parámetros TTT de MPEG Surround en modo de predicción. En este caso, la aproximación de forma de onda D36 Y " A3CX da inmediatamente la matriz de predicción reducida
a partir de cual las etapas restantes para lograr los parámetros TTT (e,1) y el convertidor de mezcla descendente son similares al caso de parámetros de objeto proporcionados en modo de energía. De hecho, las etapas de las fórmulas
(22) a (25) son completamente idénticas. Se alimenta la matriz resultante G al convertidor de mezcla descendente y los parámetros TTT (e,1) se transmiten al decodificador de MPEG Surround.
Aplicación autónoma del convertidor de mezcla descendente para reproducción estéreo
En todos los casos descritos anteriormente, el convertidor 501 de mezcla descendente de objetos a estéreo emite una aproximación a una mezcla descendente estéreo de la reproducción de canales 5.1 de los objetos de audio. Esta reproducción estéreo puede expresarse mediante una matriz A2 2xN definida por A2 = D26A. En muchas aplicaciones esta mezcla descendente es interesante en sí misma y una manipulación directa de la reproducción estéreo A2 es atractiva. Considérese como ejemplo ilustrativo de nuevo el caso de una pista estéreo con una pista de voz mono con panorámica central superpuesta codificada siguiendo un caso especial del método expuesto en la figura 8 y comentado en la sección en torno a la fórmula (12). Un control de usuario del volumen de voz puede realizarse mediante la reproducción
donde v es el control de cociente de voz a música. El diseño de la matriz de convertidor de mezcla descendente se basa en
Para los parámetros de objeto basados en predicción, simplemente se inserta la aproximación S"CDS y se obtiene la matriz de convertidor G"A2C. Para parámetros de objeto basados en energía, se resuelven las ecuaciones normales
La figura 9 ilustra una realización preferida de un codificador de objetos de audio según un aspecto de la presente invención. El codificador 101 de objetos de audio ya se ha descrito generalmente en conexión con las figuras anteriores. El codificador de objetos de audio para generar la señal de objeto codificada usa la pluralidad de objetos 90 de audio que se han indicado en la figura 9 cuando entran en un mezclador 92 descendente y un generador 94 de parámetros de objeto. Además, el codificador 101 de objetos de audio incluye el generador 96 de información de mezcla descendente para generar información 97 de mezcla descendente que indica una distribución de la pluralidad de objetos de audio en al menos dos canales de mezcla descendente indicados en 93 cuando salen del mezclador 92 descendente.
El generador de parámetros de objeto es para generar parámetros 95 de objeto para los objetos de audio, en el que los parámetros de objeto se calculan de manera que es posible la reconstrucción del objeto de audio usando los parámetros de objeto y al menos dos canales 93 de mezcla descendente. Notablemente, sin embargo, esta reconstrucción no tiene lugar en el lado de codificador, sino que tiene lugar en el lado de decodificador. No obstante, el generador de parámetros de objeto en el lado de codificador calcula los parámetros de objeto para los objetos 95 de modo que esta reconstrucción total pueda realizarse en el lado de decodificador.
Además, el codificador 101 de objetos de audio incluye una interfaz 98 de salida para generar la señal 99 de objeto de audio codificada usando la información 97 de mezcla descendente y los parámetros 95 de objeto. Dependiendo de la aplicación, los canales 93 de mezcla descendente también pueden usarse y codificarse en la señal de objeto de audio codificada. Sin embargo, también puede haber situaciones en las que la interfaz 98 de salida genera una señal 99 de objeto de audio codificada que no incluya los canales de mezcla descendente. Esta situación puede surgir cuando cualquier canal de mezcla descendente que va a usarse en el lado de decodificador ya está en el lado de decodificador, de modo que la información de mezcla descendente y los parámetros de objeto para los objetos de audio se transmitan por separado de los canales de mezcla descendente. Tal situación es útil cuando los canales 93 de mezcla descendente de objetos pueden adquirirse por separado a partir de los parámetros de objeto y la información de mezcla descendente por una cantidad menor de dinero, y los parámetros de objeto y la información de mezcla descendente pueden adquirirse por una cantidad adicional de dinero con el fin de proporcionar al usuario en el lado de decodificador un valor añadido.
Sin los parámetros de objeto y la información de mezcla descendente, un usuario puede reproducir los canales de mezcla descendente como una señal estéreo o multicanal dependiendo del número de canales incluidos en la mezcla descendente. Naturalmente, el usuario también podría reproducir una señal mono añadiendo simplemente los al menos dos canales de mezcla descendente de objetos transmitidos. Para aumentar la flexibilidad de reproducir y escuchar calidad y utilidad, los parámetros de objeto y la información de mezcla descendente permiten que el usuario forme una reproducción flexible de los objetos de audio en cualquier configuración de reproducción de audio prevista, tal como un sistema estéreo, un sistema multicanal o incluso un sistema de síntesis de campo de onda. Mientras que los sistemas de síntesis de campo de onda aún no son muy populares, los sistemas multicanal tales como sistemas 5.1 o sistemas
7.1 están volviéndose cada vez más populares en el mercado de consumo.
La figura 10 ilustra un sintetizador de audio para generar datos de salida. Para este fin, el sintetizador de audio incluye un sintetizador 100 de datos de salida. El sintetizador de datos de salida recibe, como entrada, la información 97 de mezcla descendente y los parámetros 95 de objeto de audio y, probablemente, los datos de fuente de audio previstos tales como un posicionamiento de las fuentes de audio o un volumen de especificado por el usuario de una fuente específica, al que debería estar la fuente cuando se reproduce, tal como se indica en 101.
El sintetizador 100 de datos de salida es para generar datos de salida que pueden usarse para crear una pluralidad de canales de salida de una configuración de salida de audio predefinida que representa una pluralidad de objetos de audio. Particularmente, el sintetizador 100 de datos de salida es operativo para el uso de la información 97 de mezcla descendente, y los parámetros 95 de objeto de audio. Tal como se comenta en conexión con la figura 11 más adelante, los datos de salida pueden ser datos de una gran variedad de diferentes aplicaciones útiles, que incluyen la reproducción específica de canales de salida o que incluyen sólo una reconstrucción de las señales fuente o que incluyen una transcodificación de parámetros en parámetros de reproducción espacial para una configuración de mezcla ascendente espacial sin ninguna reproducción específica de canales de salida, sino por ejemplo para almacenar o transmitir tales parámetros espaciales.
El escenario de aplicación general de la presente invención se resume en la figura 14. Hay un lado 140 de codificador que incluye el codificador 101 de objetos de audio que recibe, como entrada, N objetos de audio. La salida del codificador de objetos de audio preferido comprende, además de la información de mezcla descendente y los parámetros de objeto que no se muestran en la figura 14, los K canales de mezcla descendente. El número de canales de mezcla descendente según la presente invención es mayor que o igual a dos.
Los canales de mezcla descendente se transmiten a un lado 142 de decodificador, que incluye un mezclador 143 ascendente espacial. El mezclador 143 ascendente espacial puede incluir el sintetizador de audio de la invención, cuando el sintetizador de audio se opera en un modo de transcodificador. Sin embargo, cuando el sintetizador 101 de audio tal como se ilustra en la figura 10 trabaja en un modo de mezclador ascendente espacial, entonces el mezclador 143 ascendente espacial y el sintetizador de audio son el mismo dispositivo en esta realización. El mezclador ascendente espacial genera M canales de salida que van a reproducirse a través de M altavoces. Estos altavoces se colocan en ubicaciones espaciales predefinidas y conjuntamente representan la configuración de salida de audio predefinida. Un canal de salida de la configuración de salida de audio predefinida puede considerarse como una señal de altavoz digital o analógica que va a enviarse desde una salida del mezclador 143 ascendente espacial hasta la entrada de un altavoz en una posición predefinida entre la pluralidad de posiciones predefinidas de la configuración de salida de audio predefinida. Dependiendo de la situación, el número de M canales de salida puede ser igual a dos cuando se realiza la reproducción estéreo. Sin embargo, cuando se realiza una reproducción multicanal, entonces el número de M canales de salida es mayor que dos. Normalmente, habrá una situación en la que el número de canales de mezcla descendente sea más pequeño que el número de canales de salida debido a un requisito de un enlace de transmisión. En este caso, M es mayor que K y puede ser incluso mucho mayor que K, tal como doblar el tamaño o incluso más.
La figura 14 incluye además varias notaciones de matriz con el fin de ilustrar la funcionalidad del lado de codificador de la invención y el lado de decodificador de la invención. Generalmente, se procesan bloques de valores de muestreo. Por tanto, tal como se indica en la ecuación (2), se representa un objeto de audio como una línea de L valores de muestreo. La matriz S tiene N líneas que corresponden al número de objetos y L columnas que corresponden al número de muestras. Se calcula la matriz E tal como se indica en la ecuación (5) y tiene N columnas y N líneas. La matriz E incluye los parámetros de objeto cuando se proporcionan los parámetros de objeto en el modo de energía. Para objetos no correlacionados, la matriz E tiene, tal como se indicó anteriormente en conexión con la ecuación (6), sólo elementos en la diagonal principal, donde un elemento en la diagonal principal da la energía de un objeto de audio. Todos los elementos fuera de la diagonal representan, tal como se indicó anteriormente, una correlación de dos objetos de audio, que es específicamente útil cuando algunos objetos son dos canales de la señal estéreo.
Dependiendo de la realización específica, la ecuación (2) es una señal en el dominio del tiempo. Entonces, se genera un único valor de energía para la banda entera de objetos de audio. Preferiblemente, sin embargo, los objetos de audio se procesan por un convertidor de tiempo/frecuencia que incluye, por ejemplo, un tipo de transformada o un algoritmo de banco de filtros. En este último caso, la ecuación (2) es válida para cada subbanda de modo que se obtiene una matriz E para cada subbanda y, naturalmente, cada trama de tiempo.
La matriz de canal de mezcla descendente X tiene K líneas y L columnas y se calcula tal como se indica en la ecuación (3). Tal como se indica en la ecuación (4), los M canales de salida se calculan usando los N objetos aplicando la denominada matriz de reproducción A a los N objetos. Dependiendo de la situación, los N objetos pueden regenerarse en el lado de decodificador usando la mezcla descendente y los parámetros de objeto y la reproducción puede aplicarse a las señales de objeto reconstruidas directamente.
Alternativamente, la mezcla descendente puede transformarse directamente a los canales de salida sin un cálculo explícito de las señales fuente. Generalmente, la matriz de reproducción A indica el posicionamiento de las fuentes individuales con respecto a la configuración de salida de audio predefinida. Si se tuvieran seis objetos y seis canales de salida, entonces podría situarse cada objeto en cada canal de salida y la matriz de reproducción reflejaría este esquema. Sin embargo, si se desea situar todos los objetos entre dos ubicaciones de altavoz de salida, entonces la matriz de reproducción A parecería diferente y reflejaría esta situación diferente.
La matriz de reproducción o, expresado de manera más general, el posicionamiento previsto de los objetos y también un volumen relativo previsto de las fuentes de audio pueden calcularse en general por un codificador y transmitirse al decodificador como una denominada descripción de escena. En otras realizaciones, sin embargo, esta descripción de escena puede generarse por el propio usuario para generar la mezcla ascendente específica del usuario para la configuración de salida de audio específica del usuario. Por tanto, no se requiere necesariamente una transmisión de la descripción de escena, sino que la descripción de escena también puede generarse por el usuario con el fin de cumplir los deseos del usuario. El usuario podría desear situar, por ejemplo, determinados objetos de audio en lugares que son diferentes de los lugares en los que estaban estos objetos cuando se generaron estos objetos. También hay casos en los que los objetos de audio se diseñan en sí mismos y no tienen ninguna ubicación “original” con respecto a los otros objetos. En esta situación, la ubicación relativa de las fuentes de audio se genera por el usuario por primera vez.
Volviendo a la figura 9, se ilustra un mezclador 92 descendente. El mezclador descendente es para la mezcla descendente de la pluralidad de objetos de audio en la pluralidad de canales de mezcla descendente, en el que el número de objetos de audio es mayor que el número de canales de mezcla descendente, y en el que el mezclador descendente se acopla al generador de información de mezcla descendente de modo que la distribución de la pluralidad de objetos de audio en la pluralidad de canales de mezcla descendente se lleva a cabo según se indique en la información de mezcla descendente. La información de mezcla descendente generada por el generador 96 de información de mezcla descendente en la figura 9 puede crearse automáticamente o ajustarse manualmente. Se prefiere proporcionar la información de mezcla descendente con una resolución menor que la resolución de los parámetros de objeto. Por tanto, pueden ahorrarse bits de información secundaria sin mayores pérdidas de calidad, puesto que se ha demostrado que basta con información de mezcla descendente fija para una determinada pieza de audio o una situación de mezcla descendente que sólo cambia lentamente, que no necesariamente tiene que ser selectiva en frecuencia. En una realización, la información de mezcla descendente representa una matriz de mezcla descendente que tiene K líneas y N columnas.
El valor en una línea de la matriz de mezcla descendente tiene un determinado valor cuando el objeto de audio correspondiente a este valor en la matriz de mezcla descendente está en el canal de mezcla descendente representado por la fila de la matriz de mezcla descendente. Cuando un objeto de audio se incluye en más de un canal de mezcla descendente, los valores de más de una fila de la matriz de mezcla descendente tienen un determinado valor. Sin embargo, se prefiere que los valores cuadrados cuando se suman entre sí para un único objeto de audio sumen 1.0. Sin embargo, otros valores son posibles también. Adicionalmente, pueden introducirse objetos de audio en uno o más canales de mezcla descendente con diversos niveles, y estos niveles pueden indicarse por pesos en la matriz de mezcla descendente que son diferentes de uno y que no suman 1.0 para un determinado objeto de audio.
Cuando los canales de mezcla descendente se incluyen en la señal de objeto de audio codificada generada por la interfaz 98 de salida, la señal de objeto de audio codificada puede ser por ejemplo una señal de multiplexación en el tiempo en un determinado formato. Alternativamente, la señal de objeto de audio codificada puede ser cualquier señal que permita la separación de los parámetros 95 de objeto, la información 97 de mezcla descendente y los canales 93 de mezcla descendente en un lado de decodificador. Además, la interfaz 98 de salida puede incluir codificadores para los parámetros de objeto, la información de mezcla descendente o los canales de mezcla descendente. Los codificadores para los parámetros de objeto y la información de mezcla descendente pueden ser codificadores diferenciales y/o codificadores de entropía, y los codificadores para los canales de mezcla descendente pueden ser codificadores de audio mono o estéreo tales como codificadores de MP3 o codificadores de AAC. Todas estas operaciones de codificación dan como resultado una compresión de datos adicional con el fin de disminuir además la tasa de transmisión de datos requerida para la señal 99 de objeto de audio codificada.
Dependiendo de la aplicación específica, el mezclador 92 descendente es operativo para incluir la representación estéreo de música de fondo en los al menos dos canales de mezcla descendente y además introduce la pista de voz en los al menos dos canales de mezcla descendente en una relación predefinida. En esta realización, un primer canal de la música de fondo está dentro del primer canal de mezcla descendente y el segundo canal de la música de fondo está dentro del segundo canal de mezcla descendente. Esto da como resultado una reproducción óptima de la música de fondo estéreo en un dispositivo de reproducción estéreo. El usuario aún puede modificar, sin embargo, la posición de la pista de voz entre el altavoz estéreo izquierdo y el altavoz estéreo derecho. Alternativamente, los canales de música de fondo primero y segundo pueden incluirse en un canal de mezcla descendente y la pista de voz puede incluirse en el otro canal de mezcla descendente. Por tanto, al eliminar un canal de mezcla descendente, puede separarse totalmente la pista de voz de la música de fondo, lo que es particularmente adecuado para aplicaciones de karaoke. Sin embargo, la calidad de reproducción estéreo de los canales de música de fondo se verá afectada debido a la parametrización de objeto que, naturalmente, es un método de comprensión con pérdidas.
Se adapta un mezclador 92 descendente para realizar una suma muestra a muestra en el dominio del tiempo. Esta adición usa muestras a partir de objetos de audio que van a mezclarse de manera descendente en un único canal de mezcla descendente. Cuando va a introducirse un objeto de audio en un canal de mezcla descendente con un determinado porcentaje, tiene lugar una ponderación previa antes del proceso de suma con por muestras. Alternativamente, la suma también puede tener lugar en el dominio de la frecuencia, o un dominio de subbanda, es decir, en un dominio posterior a la conversión de tiempo/frecuencia. Por tanto, incluso podría realizarse la mezcla descendente en el dominio de banco de filtros cuando la conversión de tiempo/frecuencia es un banco de filtros o en el dominio de transformada cuando la conversión de tiempo/frecuencia es un tipo de FFT, MDCT o cualquier otra transformada.
En un aspecto de la presente invención, el generador 94 de parámetros de objeto genera parámetros de energía y, adicionalmente, los parámetros de correlación entre dos objetos cuando dos objetos de audio conjuntamente representan la señal estéreo, tal como queda claro por la ecuación posterior (6). Alternativamente, los parámetros de objeto son parámetros de modo de predicción. La figura 15 ilustra etapas de algoritmo o medios de un dispositivo de cálculo para calcular estos parámetros de predicción de objeto de audio. Tal como se ha comentado en conexión con las ecuaciones (7) a (12), tiene que se calcularse cierta información estadística en los canales de mezcla descendente en la matriz X y los objetos de audio en la matriz S. Particularmente, el bloque 150 ilustra la primera etapa de cálculo de la parte real de S · X* y la parte real de X · X*. Estas partes reales no son sólo números sino matrices, y estas matrices se determinan en una realización a través de las notaciones en la ecuación (1) cuando se considera la realización posterior a la ecuación (12). Generalmente, los valores de la etapa 150 pueden calculare usando datos disponibles en el codificador 101 de objeto de audio. Entonces, la matriz de predicción C se calcula tal como se ilustra en la etapa 152. Particularmente, el sistema de ecuaciones se resuelve tal como se conoce en la técnica de modo que se obtienen todos los valores de la matriz de predicción C que tiene N líneas y K columnas. Generalmente, los factores de ponderación cn,i tal como se proporcionan en la ecuación (8) se calculan de manera que la adición lineal ponderada de todos los canales de mezcla descendente reconstruye un objeto de audio correspondiente lo mejor posible. Esta matriz de predicción da como resultado una mejor reconstrucción de objetos de audio cuando el número de canales de mezcla descendente aumenta.
A continuación se comentará la figura 11 en más detalle. Particularmente, la figura 7 ilustra varias clases de datos de salida que pueden usarse para crear una pluralidad de canales de salida de una configuración de salida de audio predefinida. La línea 111 ilustra una situación en la que los datos de salida del sintetizador 100 de datos de salida son fuentes de audio reconstruidas. Los datos de entrada requeridos por el sintetizador 100 de datos de salida para reproducir las fuentes de audio reconstruidas incluyen información de mezcla descendente, los canales de mezcla descendente y los parámetros de objeto de audio. Para reproducir las fuentes reconstruidas, sin embargo, una configuración de salida y un posicionamiento previsto de las propias fuentes de audio en la configuración de salida de audio espacial no se requieren necesariamente. En este primer modo indicado por el número de modo 1 en la figura 11, el sintetizador 100 de datos de salida emitirá fuentes de audio reconstruidas. En el caso de parámetros de predicción como parámetros de objeto de audio, el sintetizador 100 de datos de salida funciona tal como se define por la ecuación (7). Cuando los parámetros de objeto están en el modo de energía, entonces el sintetizador de datos de salida usa una inversa de la matriz de mezcla descendente y la matriz de energía para reconstruir las señales fuente.
Alternativamente, el sintetizador 100 de datos de salida opera como un transcodificador tal como se ilustra por ejemplo en el bloque 102 en la figura 1b. Cuando el sintetizador de salida es un tipo de transcodificador para generar parámetros de mezclador espaciales, se requiere la información de mezcla descendente, los parámetros de objeto de audio, la configuración de salida y el posicionamiento previsto de las fuentes. Particularmente, la configuración de salida y el posicionamiento previsto se proporcionan a través de la matriz de reproducción A. Sin embargo, no se requieren los canales de mezcla descendente para generar los parámetros de mezclador espaciales tal como se comentará en más detalle en conexión con la figura 12. Dependiendo de la situación, los parámetros de mezclador espaciales generados por el sintetizador 100 de datos de salida pueden entonces usarse por un mezclador espacial directo tal como un mezclador de MPEG-surround para mezclar de manera ascendente los canales de mezcla descendente. Esta realización no necesita necesariamente modificar los canales de mezcla descendente de objetos, pero puede proporcionar una matriz de conversión simple que sólo tiene elementos diagonales tal como se comentó en la ecuación (13). En el modo 2 tal como se indica por 112 en la figura 11, el sintetizador 100 de datos de salida emitirá, por tanto, parámetros de mezclador espaciales y, preferiblemente, la matriz de conversión G tal como se indica en la ecuación (13), que incluye ganancias que pueden usarse como parámetros de ganancia de mezcla descendente arbitraria (ADG) del decodificador de MPEG-surround.
En el número de modo 3 tal como se indica por 113 de la figura 11, los datos de salida incluyen parámetros de mezclador espaciales en una matriz de conversión tal como la matriz de conversión ilustrada en conexión con la ecuación (25). En esta situación, el sintetizador 100 de datos de salida no necesariamente tiene que realizar la conversión de mezcla descendente real para convertir la mezcla descendente de objetos en una mezcla descendente estéreo.
Un modo diferente de operación indicado por el número de modo 4 en la línea 114 en la figura 11 ilustra el sintetizador 100 de datos de salida de la figura 10. En esta situación, el transcodificador se opera tal como se indica por 102 en la figura 1b y emite no sólo parámetros de mezclador espaciales sino que emite adicionalmente una mezcla descendente convertida. Sin embargo, ya no es necesario emitir la matriz de conversión G además de la mezcla descendente convertida. Emitir la mezcla descendente convertida y los parámetros de mezclador espaciales es suficiente tal como se indica por la figura 1b.
El número de modo 5 indica otro uso del sintetizador 100 de datos de salida ilustrado en la figura 10. En esta situación indicada por la línea 115 en la figura 11, los datos de salida generados por el sintetizador de datos de salida no incluyen ningún parámetro de mezclador espacial sino que sólo incluyen una matriz de conversión G tal como se indica por la ecuación (35) por ejemplo o en realidad incluyen la salida de las propias señales estéreo tal como se indica en 115. En esta realización, sólo una reproducción estéreo es de interés y no se requiere ningún parámetro de mezclador espacial. Para generar la salida estéreo, sin embargo, se requiere toda la información de entrada disponible tal como se indica en la figura 11.
Se indica otro modo de sintetizador de datos de salida mediante el número de modo 6 en la línea 116. En este caso, el sintetizador 100 de datos de salida genera una salida multicanal, y el sintetizador 100 de datos de salida sería similar al elemento 104 en la figura 1b. Para este fin, el sintetizador 100 de datos de salida requiere toda la información de entrada disponible y emite una señal de salida multicanal que tiene más de dos canales de salida que van a producirse mediante un número correspondiente de altavoces que van a colocarse en posiciones de altavoz previstas según la configuración de salida de audio predefinida. Tal salida multicanal es una salida 5.1, una salida 7.1 o sólo una salida 3.0 que tiene un altavoz izquierdo, un altavoz central y un altavoz derecho.
A continuación se hace referencia a la figura 11 para ilustrar un ejemplo para calcular varios parámetros a partir del concepto de parametrización de la figura 7 conocido del decodificador de MPEG-surround. Tal como se indica, la figura 7 ilustra una parametrización de lado de decodificador de MPEG-surround que parte de la mezcla 70 descendente estéreo que tiene un canal de mezcla descendente izquierdo l0 y un canal de mezcla descendente derecho r0. Conceptualmente, ambos canales de mezcla descendente se introducen en una denominada casilla 71 de dos a tres. La casilla de dos a tres se controla por varios parámetros 72 de entrada. La casilla 71 genera tres canales 73a, 73b, 73c de salida. Cada canal de salida se introduce en una casilla de uno a dos. Esto significa que el canal 73a se introduce en la casilla 74a, el canal 73b se introduce en la casilla 74b, y el canal 73c se introduce en la casilla 74c. Cada casilla emite dos canales de salida. La casilla 74a emite un canal frontal izquierdo lf y un canal envolvente izquierdo ls. Además, la casilla 74b emite un canal frontal derecho rf y un canal envolvente derecho rs. Además, la casilla 74c emite un canal central c y un canal de mejora de baja frecuencia Ife. Notablemente, se realiza la mezcla ascendente entera desde los canales 70 de mezcla descendente hasta los canales de salida usando una operación de matriz, y la estructura en árbol tal como se muestra en la figura 7 no se implementa necesariamente etapa por etapa sino que puede implementarse a través de una única o varias operaciones de matriz. Además, las señales intermedias indicadas por 73a, 73b y 73c no se calculan explícitamente mediante una determinada realización, pero se ilustran en la figura 7 sólo por motivos de ilustración. Además, las casillas 74a, 74b reciben algunas señales residuales res1OTT, res2OTT que pueden usarse para introducir una determinada aleatoriedad en las señales de salida.
Tal como se muestra a partir del decodificador de MPEG-surround, la casilla 71 se controla mediante o bien parámetros de predicción CPC o bien parámetros de energía CLDTTT. Para la mezcla ascendente desde dos canales hasta tres canales, se requieren al menos dos parámetros de predicción CPC1, CPC2 o al menos dos parámetros de energía CLD1TTT y CLD2TTT. Además, la medida de correlación ICCTTT puede ponerse en la casilla 71 que es, sin embargo, sólo una característica opcional que no se usa en una realización de la invención. Las figuras 12 y 13 ilustran las etapas necesarias y/o medios para calcular todos los parámetros CPC/CLDTTT, CLD0, CLD1, ICC1, CLD2, ICC2 a partir de los parámetros 95 de objeto de la figura 9, la información 97 de mezcla descendente de la figura 9 y el posicionamiento previsto de las fuentes de audio, por ejemplo la descripción 101 de escena tal como se ilustra en la figura 10. Estos parámetros son para el formato de salida de audio predefinido de un sistema envolvente 5.1.
Naturalmente, el cálculo específico de parámetros para esta implementación específica puede adaptarse para otros formatos o parametrizaciones de salida en vista de las enseñanzas de este documento. Además, la secuencia de las etapas o la disposición de medios en las figuras 12 y 13a,b sólo es a modo de ejemplo y puede cambiarse dentro del sentido lógico de las ecuaciones matemáticas.
En la etapa 120, se proporciona una matriz de reproducción A. La matriz de reproducción indica dónde va a situarse la fuente de la pluralidad de fuentes en el contexto de la configuración de salida predefinida. La etapa 121 ilustra la derivación de la matriz de mezcla descendente parcial D36 tal como se indicó en la ecuación (20). Esta matriz refleja la situación de una mezcla descendente desde seis canales de salida hasta tres canales y tiene un tamaño de 3xN. Cuando se pretende generar más canales de salida que la configuración 5.1, tal como una configuración de salida de 8 canales (7.1), entonces la matriz determinada en el bloque 121 sería una matriz D38. En la etapa 122, se genera una matriz de reproducción reducida A3 multiplicando la matriz D36 y la matriz de reproducción total tal como se define en la etapa 120. En la etapa 123, se introduce la matriz de mezcla descendente D. Esta matriz de mezcla descendente D puede recuperarse de la señal de objeto de audio codificada cuando la matriz se incluye totalmente en esta señal. Alternativamente, la matriz de mezcla descendente podría parametrizarse por ejemplo para el ejemplo específico de la información de mezcla descendente y la matriz de mezcla descendente G.
Además, se proporciona la matriz de energía de objeto en la etapa 124. Esta matriz de energía de objeto se refleja mediante los parámetros de objeto para los N objetos y puede extraerse de los objetos de audio importados o reconstruidos usando una determinada regla de reconstrucción. Esta regla de reconstrucción puede incluir una decodificación de entropía, etc.
En la etapa 125, se define la matriz de predicción “reducida” C3. Los valores de esta matriz pueden calcularse resolviendo el sistema de ecuaciones lineales tal como se indica en la etapa 125. Específicamente, los elementos de matriz C3 pueden calcularse multiplicando la ecuación en ambos lados mediante una inversa de (DED*).
En la etapa 126, se calcula la matriz de conversión G. La matriz de conversión G tiene un tamaño de KxK y se genera tal como se define por la ecuación (25). Para resolver la ecuación en la etapa 126, va a proporcionarse la matriz específica DTTT tal como se indica por la etapa 127. Un ejemplo para esta matriz viene dado por la ecuación (24) y la definición puede derivarse de la ecuación correspondiente para CTTT tal como se definió en la ecuación (22). La ecuación (22), por tanto, define lo que se realizará en la etapa 128. La etapa 129 define las ecuaciones para calcular la matriz CTTT. Tan pronto como se determine la matriz CTTT según la ecuación en el bloque 129, pueden producirse los parámetros e, 1 y y, que son los parámetros CPC. Preferiblemente, y se ajusta a 1 de modo los únicos parámetros CPC restantes introducidos en el bloque 71 son e y 1.
Los parámetros restantes necesarios para el esquema en la figura 7 son los parámetros introducidos en los bloques 74a, 74b y 74c. El cálculo de estos parámetros se comenta en conexión con la figura 13a. En la etapa 130, se proporciona la matriz de reproducción A. El tamaño de la matriz de reproducción A es N líneas para el número de objetos de audio y M columnas para el número de canales de salida. Esta matriz de reproducción incluye la información del vector de escena, cuando se usa un vector de escena. Generalmente, la matriz de reproducción incluye la información de situar una fuente de audio en una determinada posición en una configuración de salida. Cuando se considera, por ejemplo, la matriz de reproducción A bajo la ecuación (19), resulta evidente cómo una determinada colocación de objetos de audio puede codificarse dentro de la matriz de reproducción. Naturalmente, pueden usarse otras maneras de indicar una determinada posición, tal como mediante valores no iguales a 1. Además, cuando se usan valores que son menores que 1 por un lado y son mayores que 1 por otro lado, la sonoridad de determinados objetos de audio puede verse influida también.
En una realización, la matriz de reproducción se genera en el lado de decodificador sin ninguna información desde el lado de codificador. Esto permite que un usuario sitúe los objetos de audio en cualquier lugar que el usuario desee sin prestar atención a una relación espacial de los objetos de audio en la configuración de codificador. En otra realización, la ubicación relativa o absoluta de fuentes de audio puede codificarse en el lado de codificador y transmitirse al decodificador como una clase de un vector de escena. Entonces, en el lado de decodificador, esta información sobre ubicaciones de fuentes de audio que es preferiblemente independiente de una configuración de reproducción de audio prevista se procesa para dar como resultado una matriz de reproducción que refleja las ubicaciones de las fuentes de audio personalizadas a la configuración de salida de audio específica.
En la etapa 131, se proporciona la matriz de energía de objeto E que ya se ha comentado en conexión con la etapa 124 de la figura 12. Esta matriz tiene el tamaño de NxN e incluye los parámetros de objeto de audio. En una realización, tal matriz de energía de objeto se proporciona para cada subbanda y cada bloque muestras en el dominio del tiempo o muestras en el dominio de subbanda.
En la etapa 132, se calcula la matriz de energía de salida F. F es la matriz de covarianza de los canales de salida. Puesto que los canales de salida son, sin embargo, aún desconocidos, la matriz de energía de salida F se calcula usando la matriz de reproducción y la matriz de energía. Estas matrices se proporcionan en las etapas 130 y 131 y están disponibles fácilmente en el lado de decodificador. Entonces, las ecuaciones específicas (15), (16), (17), (18) y
(19) se aplican para calcular los parámetros de diferencia de nivel de canales CLD0, CLD1, CLD2 y los parámetros de coherencia entre canales ICC1 e ICC2 de modo que están disponibles los parámetros para las casillas 74a, 74b, 74c. Notablemente, los parámetros espaciales se calculan combinando los elementos específicos de la matriz de energía de salida F.
Después de la etapa 133, están disponibles todos los parámetros para un mezclador ascendente espacial, tal como el mezclador ascendente espacial tal como se ilustra esquemáticamente en la figura 7.
En las realizaciones anteriores, se proporcionaron los parámetros de objeto como parámetros de energía. Sin embargo, cuando los parámetros de objeto se proporcionan como parámetros de predicción, es decir como una matriz de predicción de objeto C tal como se indica por el elemento 124a en la figura 12, el cálculo de la matriz de predicción reducida C3 es sólo una multiplicación de matrices tal como se ilustra en el bloque 125a y se comentó en conexión con la ecuación (32). La matriz A3 tal como se usa en el bloque 125a es la misma matriz A3 que se mencionó en el bloque 122 de la figura 12.
Cuando la matriz de predicción de objeto C se genera por un codificador de objetos de audio y se transmite al decodificador, entonces se requieren algunos cálculos adicionales para generar los parámetros para las casillas 74a, 74b, 74c. Estas etapas adicionales se indican en la figura 13b. De nuevo, se proporciona la matriz de predicción de objeto C tal como se indica por 124a en la figura 13b, que es la misma que se comentó en conexión con el bloque 124a de la figura 12. Entonces, tal como se comentó en conexión con la ecuación (31), se calcula la matriz de covarianza de la mezcla descendente de objetos Z usando la mezcla descendente transmitida o se genera y se transmite como información secundaria adicional. Cuando se transmite la información en la matriz Z, entonces el decodificador no necesariamente tiene que realizar ningún cálculo de energía que de manera inherente introduce algún procesamiento retardado y aumenta la carga de procesamiento en el lado de decodificador. Sin embargo, cuando estos temas no son decisivos para una determinada aplicación, entonces puede ahorrarse ancho de banda de transmisión y la matriz de covarianza Z de la mezcla descendente de objetos también puede calcularse usando las muestras de mezcla descendente que, naturalmente, están disponibles en el lado de decodificador. Tan pronto como se complete la etapa 134 y la matriz de covarianza de la mezcla descendente de objetos esté lista, la matriz de energía de objeto E puede calcularse tal como se indica por la etapa 135 usando la matriz de predicción C y la matriz de covarianza de mezcla descendente o de “energía de mezcla descendente” Z. Tan pronto como se complete la etapa 135, pueden realizarse todas las etapas comentadas en conexión con la figura 13a, tal como las etapas 132, 133, para generar todos parámetros para los bloques 74a, 74b, 74c de la figura 7.
La figura 16 ilustra una realización adicional, en la que sólo se requiere una reproducción estéreo. La reproducción estéreo es la salida tal como se proporcionó por el número de modo 5 o línea 115 de la figura 11. En este caso, el sintetizador 100 de datos de salida de la figura 10 no es interesante en ningún parámetro de mezcla ascendente espacial pero es interesante principalmente en una matriz de conversión específica G para convertir la mezcla descendente de objetos en una mezcla descendente estéreo útil y, naturalmente, fácilmente influenciable y fácilmente controlable.
En la etapa 160 de la figura 16, se calcula una matriz de mezcla descendente parcial de M a 2. En el caso de seis canales de salida, la matriz de mezcla descendente parcial sería una matriz de mezcla descendente de seis a dos canales, pero otras matrices de mezcla descendente están disponibles también. El cálculo de esta matriz de mezcla descendente parcial puede derivarse, por ejemplo, de la matriz de mezcla descendente parcial D36 tal como se generó en la etapa 121 y la matriz DTTT tal como se usó en la etapa 127 de la figura 12.
Además, una matriz de reproducción estéreo A2 se genera usando el resultado de la etapa 160 y la matriz de reproducción “grande” A se ilustra en la etapa 161. La matriz de reproducción A es la misma matriz que se ha comentado en conexión con el bloque 120 en la figura 12.
Posteriormente, en la etapa 162, la matriz de reproducción estéreo puede parametrizarse mediante parámetros de colocación μ y K. Cuando μ se ajusta a 1 y K se ajusta a 1 también, entonces se obtiene la ecuación (33), que permite una variación del volumen de voz en el ejemplo descrito en conexión con la ecuación (33). Sin embargo, cuando se usan otros parámetros tales como μ y K, entonces la colocación de las fuentes pueden variarse también.
Entonces, tal como se indica en la etapa 163, se calcula la matriz de conversión G usando la ecuación (33). Particularmente, puede calcularse la matriz (DED*), invertirse y la matriz invertida puede multiplicarse en el lado derecho de la ecuación en el bloque 163. Naturalmente, pueden aplicarse otros métodos para resolver la ecuación en el bloque
163. Entonces, se tiene la matriz de conversión G, y la mezcla descendente de objetos X puede convertirse multiplicando la matriz de conversión y la mezcla descendente de objetos tal como se indica en el bloque 164. Entonces, la mezcla descendente convertida X’ puede reproducirse en estéreo usando dos altavoces estéreo. Dependiendo de la implementación, determinados valores para μ, v y K pueden ajustarse para calcular la matriz de conversión G. Alternativamente, la matriz de conversión G puede calcularse usando estos tres parámetros como variables de modo que los parámetros puedan ajustarse después de la etapa 163 según se requiera por el usuario.
Realizaciones preferidas resuelven el problema de transmitir un número de objetos de audio individuales (usando una mezcla descendente multicanal y datos de control adicionales que describen los objetos) y reproducir los objetos a un sistema de reproducción dado (configuración de altavoces). Se introduce una técnica de cómo modificar los datos de control relacionados con el objeto en datos de control que sean compatibles con el sistema de reproducción. Propone además métodos de codificación adecuados basados en el esquema de codificación de MPEG Surround.
Dependiendo de determinados requisitos de implementación de los métodos de la invención, los métodos y señales de la invención pueden implementarse en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento digital, en particular un disco o un CD que tiene señales de control electrónicamente legibles almacenadas en el mismo, que puede cooperar con un sistema informático programable de manera que se realicen los métodos de la invención. Generalmente, la presente invención es, por tanto, un producto de programa informático con un código de programa almacenado en un soporte legible por máquina, configurándose el código de programa para realizar al menos uno de los métodos de la invención, cuando el producto de programa informático se ejecuta en un ordenador. En otras palabras, los métodos de la invención son, por tanto, un programa informático que tiene un código de programa para realizar los métodos de la invención, cuando el programa informático se ejecuta en un ordenador.
En otras palabras, según una realización del presente caso, un codificador de objetos de audio para generar una señal de objeto de audio codificada usando una pluralidad de objetos de audio, comprende un generador de información de mezcla descendente para generar información de mezcla descendente que indica una distribución de la pluralidad de objetos de audio en al menos dos canales de mezcla descendente; un generador de parámetros de objeto para generar parámetros de objeto para los objetos de audio; y una interfaz de salida para generar la señal de objeto de audio codificada usando la información de mezcla descendente y los parámetros de objeto.
Opcionalmente, la interfaz de salida puede operarse para generar la señal de audio codificada usando además la pluralidad de canales de mezcla descendente.
Además o alternativamente, el generador de parámetros puede estar operativo para generar los parámetros de objeto con una primera resolución de tiempo y de frecuencia, y en el que el generador de información de mezcla descendente es operativo para generar la información de mezcla descendente con una segunda resolución de tiempo y de frecuencia, siendo la segunda resolución de tiempo y de frecuencia más pequeña que la primera resolución de tiempo y de frecuencia.
Además, el generador de información de mezcla descendente puede ser operativo para generar la información de mezcla descendente de manera que la información de mezcla descendente sea igual para toda la banda de frecuencia de los objetos de audio.
Además, el generador de información de mezcla descendente puede ser operativo para generar la información de mezcla descendente de manera que la información de mezcla descendente represente una matriz de mezcla descendente definida tal como se sigue:
donde D es la matriz de mezcla descendente, y donde X es una matriz y representa la pluralidad de canales de mezcla descendente y tiene un número de líneas que es igual al número de canales de mezcla descendente.
Además, la información sobre una parte puede ser un factor menor a 1 y superior a 0.
Además, el mezclador descendente puede ser operativo para incluir la representación estéreo de música de fondo en los al menos dos canales de mezcla descendente, y para introducir una pista de voz en los al menos dos canales de mezcla descendente en una relación predefinida.
Además, el mezclador descendente puede ser operativo para realizar una suma por muestras de señales que van a introducirse en un canal de mezcla descendente según se indique por la información de mezcla descendente.
Además, la interfaz de salida puede ser operativa para realizar una compresión de datos de la información de mezcla descendente y los parámetros de objeto antes de generar la señal de objeto de audio codificada.
Además, la pluralidad de objetos de audio puede incluir un objeto estéreo representado por dos objetos de audio que tienen una determinada correlación distinta de cero, y en el que el generador de información de mezcla descendente genera una información de agrupación que indica los dos objetos de audio que forman el objeto estéreo.
Además, el generador de parámetros de objeto puede ser operativo para generar parámetros de predicción de objeto para los objetos de audio, calculándose los parámetros de predicción de manera que la suma ponderada de los canales de mezcla descendente para un objeto fuente controlado por los parámetros de predicción o el objeto fuente da como resultado una aproximación del objeto fuente.
Además, los parámetros de predicción pueden generarse por banda de frecuencia, y en los que los objetos de audio cubren una pluralidad de bandas de frecuencia.
Además, el número de objetos de audio puede ser igual a N, el número de canales de mezcla descendente es igual a K, y el número de parámetros de predicción de objeto calculados por el generador de parámetros de objeto es igual a o menor que N·K.
Además, el generador de parámetros de objeto puede ser operativo para calcular como máximo K·(N-K) parámetros de predicción de objeto.
Además, el generador de parámetros de objeto puede incluir un mezclador ascendente para mezclar de manera ascendente la pluralidad de canales de mezcla descendente usando diferentes conjuntos de parámetros de predicción
de objeto de prueba; y en el que el codificador de objetos de audio comprende además un controlador de iteración para hallar los parámetros de predicción de objeto de prueba que dan como resultado la desviación más pequeña entre una señal fuente reconstruida por el mezclador ascendente y la señal de fuente original correspondiente entre los diferentes conjuntos de parámetros de predicción de objeto de prueba.
Además, el sintetizador de datos de salida puede ser operativo para determinar la matriz de conversión usando la información de mezcla descendente, en el que se calcula la matriz de conversión de modo que al menos partes de los canales de mezcla descendente se intercambian cuando un objeto de audio incluido en un primer canal de mezcla descendente que representa la primera mitad de un plano estéreo va a reproducirse en la segunda mitad del plano estéreo.
Además, el sintetizador de audio, puede comprender un reproductor de canales para reproducir canales de salida de audio para la configuración de salida de audio predefinida usando los parámetros espaciales y los al menos dos canales de mezcla descendente o los canales de mezcla descendente convertidos.
Además, el sintetizador de datos de salida puede ser operativo para emitir los canales de salida de la configuración de salida de audio predefinida usando además los al menos dos canales de mezcla descendente.
Además, el sintetizador de datos de salida puede ser operativo para calcular pesos de mezcla descendente reales para la matriz de mezcla descendente parcial de manera que una energía de una suma ponderada de dos canales es igual a las energías de los canales dentro de un factor límite.
Además, los pesos de mezcla descendente para la matriz de mezcla descendente parcial pueden determinarse tal como sigue:
donde wp es un peso de mezcla descendente, p es una variable de índice entero, fj.i es un elemento de matriz de una matriz de energía que representa una aproximación de una matriz de covarianza de los canales de salida de la configuración de salida predefinida.
Además, el sintetizador de datos de salida puede ser operativo para calcular coeficientes separados de la matriz de predicción resolviendo un sistema de ecuaciones lineales.
Además, el sintetizador de datos de salida puede ser operativo para resolver el sistema de ecuaciones lineales basándose en:
donde C3 es la matriz de predicción de dos a tres, D es la matriz de mezcla descendente derivada de la información de mezcla descendente, E es una matriz de energía derivada de los objetos de fuente de audio, y A3 es la matriz de mezcla descendente reducida, y donde “*” indica la operación conjugada compleja.
Además, los parámetros de predicción para la mezcla ascendente de dos a tres pueden derivarse de una parametrización de la matriz de predicción de modo que la matriz de predicción se define usando sólo dos parámetros, y siendo el sintetizador de datos de salida operativo para procesar previamente los al menos dos canales de mezcla descendente de modo que el efecto del procesamiento previo y la matriz de predicción parametrizada corresponda a una matriz de mezcla ascendente deseada.
Además, la parametrización de la matriz de predicción puede ser tal como sigue:
donde el índice TTT es la matriz de predicción parametrizada, y donde e, 1 y y son factores. Además, puede calcularse una matriz de conversión de mezcla descendente G tal como sigue:
donde C3 es una matriz de predicción de dos a tres, donde DTTT y CTTT es igual a 1, donde I es una matriz de identidad de dos por dos, y donde CTTT se basa en:
donde e, 1 y y son factores constantes.
Además, los parámetros de predicción para la mezcla ascendente de dos a tres pueden determinarse como e y 1, donde y se ajusta a 1.
Además, el sintetizador de datos de salida puede ser operativo para calcular los parámetros de energía para la mezcla ascendente de tres a seis usando una matriz de energía F basándose en:
10 donde A es la matriz de reproducción, E es la matriz de energía derivada de los objetos de fuente de audio, Y es una matriz de canal de salida y “*” indica la operación conjugada compleja.
Además, el sintetizador de datos de salida puede ser operativo para calcular los parámetros de energía combinando elementos de la matriz de energía.
Además, el sintetizador de datos de salida puede ser operativo para calcular los parámetros de energía basándose en 15 las siguientes ecuaciones:
donde < es un operador de valor absoluto <(z)=|z| o de valor real <(z)=Re{z}, donde CLD0 es un primer parámetro de energía de diferencia de nivel de canal, donde CLD1 es un segundo parámetro de energía de diferencia de nivel de canal, donde CLD2 es un tercer parámetro de energía de diferencia de nivel de canal, donde ICC1 es un primer
20 parámetro de energía de coherencia entre canales, y ICC2 es un segundo parámetro de energía de coherencia entre canales, y donde fij son elementos de una matriz de energía F en las posiciones ij en esta matriz.
Además, el primer grupo de parámetros puede incluir parámetros de energía, y siendo el sintetizador de datos de salida operativo para derivar los parámetros de energía combinando elementos de la matriz de energía F.
Además, los parámetros de energía pueden derivarse basándose en: donde CLD0TTT es un primer parámetro de energía del primer grupo y donde CLD1TTT es un segundo parámetro de energía del primer grupo de parámetros.
Además, el sintetizador de datos de salida puede ser operativo para calcular factores de peso para ponderar los canales de mezcla descendente, usándose los factores de peso para controlar factores de ganancia de mezcla descendente arbitraria del decodificador espacial.
Además, el sintetizador de datos de salida puede ser operativo para calcular los factores de peso basándose en:
donde D es la matriz de mezcla descendente, E es una matriz de energía derivada de los objetos de fuente de audio,
10 donde W es una matriz intermedia, donde D26 es la matriz de mezcla descendente parcial para mezcla descendente de 6 a 2 canales de la configuración de salida predeterminada, y donde G es la matriz de conversión que incluye los factores de ganancia de mezcla descendente arbitraria del decodificador espacial.
Además, el sintetizador de datos de salida puede ser operativo para calcular la matriz de energía basándose en:
15 donde E es la matriz de energía, C es la matriz de parámetro de predicción, y Z es una matriz de covarianza de los al menos dos canales de mezcla descendente.
Además, el sintetizador de datos de salida puede ser operativo para calcular la matriz de conversión basándose en:
donde G es la matriz de conversión, A2 es la matriz de reproducción parcial, y C es la matriz de parámetros de 20 predicción.
Además, el sintetizador de datos de salida puede ser operativo para calcular la matriz de conversión basándose en:
donde G es una matriz de energía derivada de la fuente de audio de las pistas, D es una matriz de mezcla descendente derivada de la información de mezcla descendente, A2 es una matriz de reproducción reducida, y “*” indica la operación 25 conjugada completa.
Además, la matriz de reproducción estéreo parametrizada A2 puede determinarse tal como sigue:
donde μ, v, y K son parámetros de valor reales que van a ajustarse según la posición y volumen de uno o más objetos de audio fuente.

Claims (13)

  1. REIVINDICACIONES
    1.
    Sintetizador (104) de audio para generar datos de salida usando una señal (95, 97) de objeto de audio codificada, que comprende:
    un sintetizador (100) de datos de salida para generar los datos de salida que pueden usarse para reproducir una pluralidad de canales de salida de una configuración de salida de audio predefinida que representa la pluralidad de objetos de audio, siendo el sintetizador de datos de salida operativo para usar información de mezcla descendente que indica una distribución de la pluralidad de objetos de audio en al menos dos canales de mezcla descendente, información de potencia, información de correlación que indican una característica de potencia y una característica de correlación de los al menos dos canales (93) de mezcla descendente, y parámetros de objeto de audio para los objetos de audio, en el que el sintetizador (100) de datos de salida es operativo para transcodificar (502) los parámetros de objeto de audio en parámetros espaciales para la configuración de salida de audio predefinida usando además un posicionamiento previsto de los objetos (90) de audio en la configuración de salida de audio.
  2. 2.
    Sintetizador de audio según la reivindicación 1, en el que el sintetizador (100) de datos de salida es operativo para convertir una pluralidad de canales de mezcla descendente en la mezcla descendente estéreo para la configuración de salida de audio predefinida usando una matriz de conversión derivada del posicionamiento previsto de los objetos de audio.
  3. 3.
    Sintetizador de audio según la reivindicación 1, en el que los parámetros espaciales incluyen el primer grupo de parámetros para una mezcla ascendente de dos a tres y un segundo grupo de parámetros de energía para una mezcla ascendente de tres a seis, y
    en el que el sintetizador (100) de datos de salida es operativo para calcular los parámetros de predicción para la matriz de predicción de dos a tres usando una matriz de reproducción determinada mediante un posicionamiento previsto de los objetos (90) de audio, describiendo una matriz de mezcla descendente parcial la mezcla descendente de los canales de salida a tres canales generados por un hipotético proceso de mezcla ascendente de dos a tres, y la matriz de mezcla descendente.
  4. 4.
    Sintetizador de audio según la reivindicación 3, en el que los parámetros de objeto son parámetros de objeto de predicción, y en el que el sintetizador (100) de datos de salida es operativo para calcular previamente una matriz de energía basándose en los parámetros de objeto de predicción, la información de mezcla descendente y la información de energía correspondiente a los canales de mezcla descendente.
  5. 5.
    Sintetizador de audio según la reivindicación 1, en el que el sintetizador (100) de datos de salida es operativo para generar (165) dos canales estéreo para una configuración de salida estéreo calculando una matriz de reproducción estéreo parametrizada y una matriz de conversión dependiendo de la matriz de reproducción estéreo parametrizada.
  6. 6.
    Método de sintetización de audio para generar datos de salida usando una señal (95, 97) de objeto de audio codificada, que comprende:
    generar los datos de salida que pueden usarse para crear una pluralidad de canales de salida de una configuración de salida de audio predefinida que representa la pluralidad de objetos (90) de audio, en el que se usan información de mezcla descendente que indica una distribución de la pluralidad de objetos de audio en al menos dos canales de mezcla descendente, información de potencia, información de correlación que indican una característica de potencia y una característica de correlación de los al menos dos canales (93) de mezcla descendente, y parámetros de objeto de audio para los objetos de audio, y en el que los parámetros de objeto de audio se transcodifican (502) en parámetros espaciales para la configuración de salida de audio predefinida usando además un posicionamiento previsto de los objetos
    (90) de audio en la configuración de salida de audio.
  7. 7. Codificador (101) de objetos de audio para generar una señal de objeto de audio codificada usando una pluralidad de objetos (90) de audio, que comprende:
    un generador (96) de información de mezcla descendente para generar información (97) de mezcla descendente que indica una distribución de la pluralidad de objetos de audio en al menos dos canales de mezcla descendente, en el que el generador (96) de información de mezcla descendente está configurado para generar (150) una información de potencia y una información de correlación que indican una característica de potencia y una característica de correlación de los al menos dos canales (93) de mezcla descendente;
    un generador (94) de parámetro de objeto para generar parámetros (95) de objeto para los objetos de audio; y
    una interfaz (98) de salida para generar la señal (99) de objeto de audio codificada, comprendiendo la señal de objeto codificada la información de mezcla descendente, la información de potencia, la información de correlación y los parámetros de objeto.
  8. 8.
    Codificador de objetos de audio según la reivindicación 7, que comprende además:
    un mezclador (92) descendente para la mezcla descendente de la pluralidad de objetos de audio en la pluralidad de canales de mezcla descendente, en el que el número de objetos de audio es mayor que el número de canales de mezcla descendente, y en el que el mezclador (92) descendente se acopla al generador de información de mezcla descendente de modo que la distribución de la pluralidad de objetos de audio en la pluralidad de canales de mezcla descendente se lleva a cabo según se indique en la información de mezcla descendente.
  9. 9.
    Codificador de objetos de audio según la reivindicación 7, en el que el generador (96) de información de mezcla descendente es operativo para calcular la información de mezcla descendente de modo que la información de mezcla descendente indica,
    qué objeto de audio se incluye total o parcialmente en uno o más de la pluralidad de canales de mezcla descendente, y
    cuando se incluye un objeto de audio en más de un canal de mezcla descendente, una información sobre una parte de los objetos de audio incluidos en un canal de mezcla descendente de los más de un canales de mezcla descendente.
  10. 10. Método (101) de codificación de objetos de audio para generar una señal de objeto de audio codificada usando una pluralidad de objetos de audio, que comprende:
    generar información (97) de mezcla descendente que indica una distribución de la pluralidad de objetos
    (90) de audio en al menos dos canales de mezcla descendente,
    generar (150) una información de potencia y una información de correlación que indican una característica de potencia y una característica de correlación de los al menos dos canales de mezcla descendente;
    generar parámetros (94) de objeto para los objetos de audio; y
    generar la señal (99) de objeto de audio codificada, comprendiendo la señal de objeto de audio codificada la información de potencia, la información de correlación, la información de mezcla descendente y los parámetros de objeto.
  11. 11.
    Señal de objeto de audio codificada que incluye una información de mezcla descendente que indica una distribución de una pluralidad de objetos de audio en al menos dos canales de mezcla descendente, una información de potencia y una información de correlación que indican una característica de potencia y una característica de correlación de los al menos dos canales de mezcla descendente, y parámetros de objeto, siendo los parámetros de objeto de manera que es posible la reconstrucción de los objetos de audio usando los parámetros de objeto y los al menos dos canales de mezcla descendente.
  12. 12.
    Señal de objeto de audio codificada según la reivindicación 11, almacenada en un medio de almacenamiento legible por ordenador.
  13. 13.
    Programa informático para realizar, cuando se ejecuta en un ordenador, un método según uno cualquiera de los métodos de las reivindicaciones 6 ó 10.
ES09004406T 2006-10-16 2007-10-05 Codificación mejorada y representación de parámetros de codificación de objetos de mezcla descendente multicanal Active ES2378734T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US82964906P 2006-10-16 2006-10-16
US829649P 2006-10-16

Publications (1)

Publication Number Publication Date
ES2378734T3 true ES2378734T3 (es) 2012-04-17

Family

ID=38810466

Family Applications (1)

Application Number Title Priority Date Filing Date
ES09004406T Active ES2378734T3 (es) 2006-10-16 2007-10-05 Codificación mejorada y representación de parámetros de codificación de objetos de mezcla descendente multicanal

Country Status (21)

Country Link
US (2) US9565509B2 (es)
EP (3) EP2372701B1 (es)
JP (3) JP5270557B2 (es)
KR (2) KR101012259B1 (es)
CN (3) CN101529501B (es)
AT (2) ATE503245T1 (es)
AU (2) AU2007312598B2 (es)
BR (1) BRPI0715559B1 (es)
CA (3) CA2666640C (es)
DE (1) DE602007013415D1 (es)
ES (1) ES2378734T3 (es)
MX (1) MX2009003570A (es)
MY (1) MY145497A (es)
NO (1) NO340450B1 (es)
PL (1) PL2068307T3 (es)
PT (1) PT2372701E (es)
RU (1) RU2430430C2 (es)
SG (1) SG175632A1 (es)
TW (1) TWI347590B (es)
UA (1) UA94117C2 (es)
WO (1) WO2008046531A1 (es)

Families Citing this family (145)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2610430C (en) * 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
KR20080093422A (ko) * 2006-02-09 2008-10-21 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치
EP2100297A4 (en) 2006-09-29 2011-07-27 Korea Electronics Telecomm DEVICE AND METHOD FOR CODING AND DECODING A MEHROBJECT AUDIO SIGNAL WITH DIFFERENT CHANNELS
JP5232791B2 (ja) * 2006-10-12 2013-07-10 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びその方法
EP2082397B1 (en) 2006-10-16 2011-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
AU2007312598B2 (en) 2006-10-16 2011-01-20 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
US8571875B2 (en) * 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
JP5394931B2 (ja) * 2006-11-24 2014-01-22 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の復号化方法及びその装置
EP2102856A4 (en) 2006-12-07 2010-01-13 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
EP2595151A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transcoding apparatus
CA2645915C (en) * 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
EP2093757A4 (en) * 2007-02-20 2012-02-22 Panasonic Corp MULTI-CHANNEL DECODING DEVICE, MULTI-CHANNEL DECODING METHOD, PROGRAM AND INTEGRATED SEMICONDUCTOR SWITCHING
EP2137726B1 (en) * 2007-03-09 2011-09-28 LG Electronics Inc. A method and an apparatus for processing an audio signal
KR20080082916A (ko) * 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
KR20080084757A (ko) * 2007-03-16 2008-09-19 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
WO2008120933A1 (en) * 2007-03-30 2008-10-09 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
WO2009031870A1 (en) * 2007-09-06 2009-03-12 Lg Electronics Inc. A method and an apparatus of decoding an audio signal
JP5883561B2 (ja) * 2007-10-17 2016-03-15 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ アップミックスを使用した音声符号器
EP2215629A1 (en) * 2007-11-27 2010-08-11 Nokia Corporation Multichannel audio coding
US8543231B2 (en) * 2007-12-09 2013-09-24 Lg Electronics Inc. Method and an apparatus for processing a signal
EP2232700B1 (en) 2007-12-21 2014-08-13 Dts Llc System for adjusting perceived loudness of audio signals
EP2254110B1 (en) * 2008-03-19 2014-04-30 Panasonic Corporation Stereo signal encoding device, stereo signal decoding device and methods for them
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
BRPI0908630B1 (pt) 2008-05-23 2020-09-15 Koninklijke Philips N.V. Aparelho de 'upmix' estéreo paramétrico, decodificador estéreo paramétrico, método para a geração de um sinal esquerdo e de um sinal direito a partir de um sinal de 'downmix' mono com base em parâmetros espaciais, dispositivo de execução de áudio, aparelho de 'downmix' estéreo paramétrico, codificador estéreo paramétrico, método para a geração de um sinal residual de previsão para um sinal de diferença a partir de um sinal esquerdo e de um sinal direito com base nos parâmetros espaciais, e, produto de programa de computador
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
RU2495503C2 (ru) * 2008-07-29 2013-10-10 Панасоник Корпорэйшн Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
US8705749B2 (en) 2008-08-14 2014-04-22 Dolby Laboratories Licensing Corporation Audio signal transformatting
US8861739B2 (en) 2008-11-10 2014-10-14 Nokia Corporation Apparatus and method for generating a multichannel signal
KR20100065121A (ko) * 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2194526A1 (en) 2008-12-05 2010-06-09 Lg Electronics Inc. A method and apparatus for processing an audio signal
WO2010091555A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种立体声编码方法和装置
BR122019023947B1 (pt) 2009-03-17 2021-04-06 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
JP2011002574A (ja) * 2009-06-17 2011-01-06 Nippon Hoso Kyokai <Nhk> 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
JP5345024B2 (ja) * 2009-08-28 2013-11-20 日本放送協会 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
WO2011045409A1 (en) * 2009-10-16 2011-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for providing one or more adjusted parameters for provision of an upmix signal representation on the basis of a downmix signal representation and a parametric side information associated with the downmix signal representation, using an average value
EP2704143B1 (en) * 2009-10-21 2015-01-07 Panasonic Intellectual Property Corporation of America Apparatus, method and computer program for audio signal processing
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
EP2489038B1 (en) * 2009-11-20 2016-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
WO2011071928A2 (en) * 2009-12-07 2011-06-16 Pixel Instruments Corporation Dialogue detector and correction
US20120277894A1 (en) * 2009-12-11 2012-11-01 Nsonix, Inc Audio authoring apparatus and audio playback apparatus for an object-based audio service, and audio authoring method and audio playback method using same
EP2522015B1 (en) * 2010-01-06 2017-03-08 LG Electronics Inc. An apparatus for processing an audio signal and method thereof
RU2586851C2 (ru) * 2010-02-24 2016-06-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство для формирования улучшенного сигнала микширования с понижением, способ формирования улучшенного сигнала микширования с понижением и компьютерная программа
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
CN113490132B (zh) 2010-03-23 2023-04-11 杜比实验室特许公司 音频再现方法和声音再现系统
JP5604933B2 (ja) * 2010-03-30 2014-10-15 富士通株式会社 ダウンミクス装置およびダウンミクス方法
CA2992917C (en) * 2010-04-09 2020-05-26 Dolby International Ab Mdct-based complex prediction stereo coding
WO2011132368A1 (ja) * 2010-04-19 2011-10-27 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
KR20120038311A (ko) 2010-10-13 2012-04-23 삼성전자주식회사 공간 파라미터 부호화 장치 및 방법,그리고 공간 파라미터 복호화 장치 및 방법
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
EP3096315B1 (en) 2011-04-20 2019-10-16 Panasonic Intellectual Property Corporation of America Device and method for execution of huffman coding
IN2014CN03413A (es) * 2011-11-01 2015-07-03 Koninkl Philips Nv
WO2013073810A1 (ko) * 2011-11-14 2013-05-23 한국전자통신연구원 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법
KR20130093798A (ko) 2012-01-02 2013-08-23 한국전자통신연구원 다채널 신호 부호화 및 복호화 장치 및 방법
CN108810744A (zh) 2012-04-05 2018-11-13 诺基亚技术有限公司 柔性的空间音频捕捉设备
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
EP2862370B1 (en) 2012-06-19 2017-08-30 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
JP6231093B2 (ja) * 2012-07-09 2017-11-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ信号の符号化及び復号
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
CN104541524B (zh) 2012-07-31 2017-03-08 英迪股份有限公司 一种用于处理音频信号的方法和设备
WO2014020181A1 (en) * 2012-08-03 2014-02-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases
US9489954B2 (en) * 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
JP6141980B2 (ja) * 2012-08-10 2017-06-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法
KR20140027831A (ko) * 2012-08-27 2014-03-07 삼성전자주식회사 오디오 신호 전송 장치 및 그의 오디오 신호 전송 방법, 그리고 오디오 신호 수신 장치 및 그의 오디오 소스 추출 방법
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
KR102037418B1 (ko) * 2012-12-04 2019-10-28 삼성전자주식회사 오디오 제공 장치 및 오디오 제공 방법
CN104904239B (zh) 2013-01-15 2018-06-01 皇家飞利浦有限公司 双耳音频处理
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
JP6484605B2 (ja) 2013-03-15 2019-03-13 ディーティーエス・インコーポレイテッドDTS,Inc. 複数のオーディオステムからの自動マルチチャネル音楽ミックス
US10635383B2 (en) 2013-04-04 2020-04-28 Nokia Technologies Oy Visual audio processing apparatus
PL2981963T3 (pl) * 2013-04-05 2017-06-30 Dolby Int Ab Urządzenie kompandujące i sposób redukcji szumu kwantyzacji stosujący zaawansowane rozszerzenie spektralne
RU2625444C2 (ru) 2013-04-05 2017-07-13 Долби Интернэшнл Аб Система обработки аудио
US9905231B2 (en) 2013-04-27 2018-02-27 Intellectual Discovery Co., Ltd. Audio signal processing method
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
EP2997573A4 (en) 2013-05-17 2017-01-18 Nokia Technologies OY Spatial object oriented audio apparatus
BR112015029132B1 (pt) 2013-05-24 2022-05-03 Dolby International Ab Método para codificar um mosaico de tempo/frequência de uma cena de áudio, codificador que codifica um mosaico de tempo/frequência de uma cena de áudio, método para decodificar um mosaico de tempo-frequência de uma cena de áudio, decodificador que decodifica um mosaico de tempo-frequência de uma cena de áudio e meio legível em computador.
KR102459010B1 (ko) * 2013-05-24 2022-10-27 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
EP2973551B1 (en) 2013-05-24 2017-05-03 Dolby International AB Reconstruction of audio scenes from a downmix
US9852735B2 (en) * 2013-05-24 2017-12-26 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CN110223702B (zh) * 2013-05-24 2023-04-11 杜比国际公司 音频解码系统和重构方法
US9892737B2 (en) * 2013-05-24 2018-02-13 Dolby International Ab Efficient coding of audio scenes comprising audio objects
TWI615834B (zh) * 2013-05-31 2018-02-21 Sony Corp 編碼裝置及方法、解碼裝置及方法、以及程式
WO2014195190A1 (en) * 2013-06-05 2014-12-11 Thomson Licensing Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
US9830918B2 (en) 2013-07-05 2017-11-28 Dolby International Ab Enhanced soundfield coding using parametric component generation
EP3023984A4 (en) * 2013-07-15 2017-03-08 Electronics and Telecommunications Research Institute Encoder and encoding method for multichannel signal, and decoder and decoding method for multichannel signal
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830054A1 (en) * 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830333A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830046A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal to obtain modified output signals
CN105612766B (zh) 2013-07-22 2018-07-27 弗劳恩霍夫应用研究促进协会 使用渲染音频信号的解相关的多声道音频解码器、多声道音频编码器、方法、以及计算机可读介质
KR102395351B1 (ko) * 2013-07-31 2022-05-10 돌비 레버러토리즈 라이쎈싱 코오포레이션 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱
CN110890101B (zh) 2013-08-28 2024-01-12 杜比实验室特许公司 用于基于语音增强元数据进行解码的方法和设备
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
WO2015036352A1 (en) 2013-09-12 2015-03-19 Dolby International Ab Coding of multichannel audio content
TWI671734B (zh) * 2013-09-12 2019-09-11 瑞典商杜比國際公司 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
TWI557724B (zh) * 2013-09-27 2016-11-11 杜比實驗室特許公司 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器
JP6429092B2 (ja) 2013-10-09 2018-11-28 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP6479786B2 (ja) * 2013-10-21 2019-03-06 ドルビー・インターナショナル・アーベー オーディオ信号のパラメトリック再構成
US10049683B2 (en) * 2013-10-21 2018-08-14 Dolby International Ab Audio encoder and decoder
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
KR102107554B1 (ko) * 2013-11-18 2020-05-07 인포뱅크 주식회사 네트워크를 이용한 멀티미디어 합성 방법
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
CN105900169B (zh) 2014-01-09 2020-01-03 杜比实验室特许公司 音频内容的空间误差度量
KR101904423B1 (ko) * 2014-09-03 2018-11-28 삼성전자주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
TWI587286B (zh) 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
US10356547B2 (en) * 2015-07-16 2019-07-16 Sony Corporation Information processing apparatus, information processing method, and program
CA3298877A1 (en) * 2015-08-25 2026-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
ES2949991T3 (es) * 2015-09-25 2023-10-04 Voiceage Corp Método y sistema para la mezcla en el dominio del tiempo de una señal de sonido estéreo en canales primario y secundario mediante el uso de la detección de un estado de desfase de los canales izquierdo y derecho
US12125492B2 (en) 2015-09-25 2024-10-22 Voiceage Coproration Method and system for decoding left and right channels of a stereo sound signal
US9961467B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
MX384922B (es) * 2015-11-17 2025-03-14 Dolby Int Ab Seguimiento de cabeza para sistema de salida binaural paramétrica y método.
ES2950001T3 (es) 2015-11-17 2023-10-04 Dolby Int Ab Rastreo de cabeza para sistema de salida binaural paramétrica
KR102881405B1 (ko) 2016-01-27 2025-11-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 음향 환경 시뮬레이션
US10135979B2 (en) * 2016-11-02 2018-11-20 International Business Machines Corporation System and method for monitoring and visualizing emotions in call center dialogs by call center supervisors
US10158758B2 (en) 2016-11-02 2018-12-18 International Business Machines Corporation System and method for monitoring and visualizing emotions in call center dialogs at call centers
CN106604199B (zh) * 2016-12-23 2018-09-18 湖南国科微电子股份有限公司 一种数字音频信号的矩阵处理方法及装置
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10650834B2 (en) 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
CN114420139A (zh) 2018-05-31 2022-04-29 华为技术有限公司 一种下混信号的计算方法及装置
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
CN110970008A (zh) * 2018-09-28 2020-04-07 广州灵派科技有限公司 一种嵌入式混音方法、装置、嵌入式设备及存储介质
ES2974219T3 (es) 2018-11-13 2024-06-26 Dolby Laboratories Licensing Corp Procesamiento de audio en servicios de audio inversivos
ES2985934T3 (es) 2018-11-13 2024-11-07 Dolby Laboratories Licensing Corp Representar audio espacial por medio de una señal de audio y metadatos asociados
CA3193359A1 (en) 2019-06-14 2020-12-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Parameter encoding and decoding
JP7286876B2 (ja) 2019-09-23 2023-06-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 変換パラメータによるオーディオ符号化/復号化
KR102079691B1 (ko) * 2019-11-11 2020-02-19 인포뱅크 주식회사 네트워크를 이용한 멀티미디어 합성 단말기
BR112022025161A2 (pt) * 2020-06-11 2022-12-27 Dolby Laboratories Licensing Corp Codificação de sinais de áudio de multicanal compreendendo a mixagem de rebaixamento de um canal de entrada primário e de dois ou mais canais de entrada não primária
WO2022245076A1 (ko) 2021-05-21 2022-11-24 삼성전자 주식회사 다채널 오디오 신호 처리 장치 및 방법
CN114463584B (zh) * 2022-01-29 2023-03-24 北京百度网讯科技有限公司 图像处理、模型训练方法、装置、设备、存储介质及程序
CN114501297B (zh) * 2022-04-02 2022-09-02 北京荣耀终端有限公司 一种音频处理方法以及电子设备

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69428939T2 (de) * 1993-06-22 2002-04-04 Deutsche Thomson-Brandt Gmbh Verfahren zur Erhaltung einer Mehrkanaldekodiermatrix
KR100193196B1 (ko) 1994-02-17 1999-06-15 모토로라 인크 신호를 그룹 엔코딩하기 위한 방법 및 장치
US6128597A (en) * 1996-05-03 2000-10-03 Lsi Logic Corporation Audio decoder with a reconfigurable downmixing/windowing pipeline and method therefor
US5912976A (en) 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
JP3743671B2 (ja) * 1997-11-28 2006-02-08 日本ビクター株式会社 オーディオディスク及びオーディオ再生装置
JP2005093058A (ja) * 1997-11-28 2005-04-07 Victor Co Of Japan Ltd オーディオ信号のエンコード方法及びデコード方法
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
US6788880B1 (en) 1998-04-16 2004-09-07 Victor Company Of Japan, Ltd Recording medium having a first area for storing an audio title set and a second area for storing a still picture set and apparatus for processing the recorded information
US6122619A (en) * 1998-06-17 2000-09-19 Lsi Logic Corporation Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor
CA2859333A1 (en) * 1999-04-07 2000-10-12 Dolby Laboratories Licensing Corporation Matrix improvements to lossless encoding and decoding
KR100392384B1 (ko) 2001-01-13 2003-07-22 한국전자통신연구원 엠펙-2 데이터에 엠펙-4 데이터를 동기화시켜 전송하는장치 및 그 방법
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
JP2002369152A (ja) 2001-06-06 2002-12-20 Canon Inc 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体
WO2003024665A1 (en) 2001-09-14 2003-03-27 Corus Aluminium Walzprodukte Gmbh Method of de-coating metallic coated scrap pieces
JP2005521921A (ja) * 2002-04-05 2005-07-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号処理
JP3994788B2 (ja) 2002-04-30 2007-10-24 ソニー株式会社 伝達特性測定装置、伝達特性測定方法、及び伝達特性測定プログラム、並びに増幅装置
CN100539742C (zh) 2002-07-12 2009-09-09 皇家飞利浦电子股份有限公司 多声道音频信号编解码方法和装置
WO2004008806A1 (en) 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
JP2004193877A (ja) 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
KR20040060718A (ko) * 2002-12-28 2004-07-06 삼성전자주식회사 오디오 스트림 믹싱 방법, 그 장치 및 그 정보저장매체
JP2006521577A (ja) 2003-03-24 2006-09-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャネル信号を表す主信号と副信号の符号化
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
JP4378157B2 (ja) 2003-11-14 2009-12-02 キヤノン株式会社 データ処理方法および装置
US7555009B2 (en) 2003-11-14 2009-06-30 Canon Kabushiki Kaisha Data processing method and apparatus, and data distribution method and information processing apparatus
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
PL1735779T3 (pl) * 2004-04-05 2014-01-31 Koninklijke Philips Nv Urządzenie kodujące, dekodujące, sposoby z nimi powiązane oraz powiązany system audio
CN1938760B (zh) * 2004-04-05 2012-05-23 皇家飞利浦电子股份有限公司 多通道编码器
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
TWI393121B (zh) 2004-08-25 2013-04-11 杜比實驗室特許公司 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
KR20070056081A (ko) * 2004-08-31 2007-05-31 마츠시타 덴끼 산교 가부시키가이샤 스테레오 신호 생성 장치 및 스테레오 신호 생성 방법
JP2006101248A (ja) 2004-09-30 2006-04-13 Victor Co Of Japan Ltd 音場補正装置
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
EP1817767B1 (en) 2004-11-30 2015-11-11 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
DE602006015294D1 (de) * 2005-03-30 2010-08-19 Dolby Int Ab Mehrkanal-audiocodierung
US7991610B2 (en) 2005-04-13 2011-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Adaptive grouping of parameters for enhanced coding efficiency
US7961890B2 (en) 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
CA2613885C (en) 2005-06-30 2014-05-06 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
JP5113050B2 (ja) 2005-07-29 2013-01-09 エルジー エレクトロニクス インコーポレイティド 符号化されたオーディオ信号の生成方法及びオーディオ信号の処理方法
US7761303B2 (en) * 2005-08-30 2010-07-20 Lg Electronics Inc. Slot position coding of TTT syntax of spatial audio coding application
EP1946296A4 (en) 2005-09-14 2010-01-20 Lg Electronics Inc METHOD AND DEVICE FOR DECODING AN AUDIO SIGNAL
EP1946310A4 (en) * 2005-10-26 2011-03-09 Lg Electronics Inc METHOD FOR CODING AND DECODING A MULTI CHANNEL AUDIO SIGNAL AND DEVICE THEREFOR
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
US8239209B2 (en) 2006-01-19 2012-08-07 Lg Electronics Inc. Method and apparatus for decoding an audio signal using a rendering parameter
KR101294022B1 (ko) 2006-02-03 2013-08-08 한국전자통신연구원 공간큐를 이용한 다객체 또는 다채널 오디오 신호의 랜더링제어 방법 및 그 장치
WO2007089129A1 (en) 2006-02-03 2007-08-09 Electronics And Telecommunications Research Institute Apparatus and method for visualization of multichannel audio signals
AU2007212873B2 (en) 2006-02-09 2010-02-25 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
KR20080093422A (ko) * 2006-02-09 2008-10-21 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치
CN101406074B (zh) * 2006-03-24 2012-07-18 杜比国际公司 解码器及相应方法、双耳解码器、包括该解码器的接收机或音频播放器及相应方法
WO2007111568A2 (en) 2006-03-28 2007-10-04 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
US7965848B2 (en) 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
BRPI0713236B1 (pt) * 2006-07-07 2020-03-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Conceito para combinação de múltiplas fontes de áudio parametricamente codificadas
US20080235006A1 (en) 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
JP5238706B2 (ja) 2006-09-29 2013-07-17 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号のエンコーディング/デコーディング方法及びその装置
EP2100297A4 (en) 2006-09-29 2011-07-27 Korea Electronics Telecomm DEVICE AND METHOD FOR CODING AND DECODING A MEHROBJECT AUDIO SIGNAL WITH DIFFERENT CHANNELS
JP5232791B2 (ja) * 2006-10-12 2013-07-10 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びその方法
AU2007312598B2 (en) 2006-10-16 2011-01-20 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding

Also Published As

Publication number Publication date
BRPI0715559B1 (pt) 2021-12-07
US20170084285A1 (en) 2017-03-23
JP5297544B2 (ja) 2013-09-25
CN102892070A (zh) 2013-01-23
US9565509B2 (en) 2017-02-07
CN101529501A (zh) 2009-09-09
JP5592974B2 (ja) 2014-09-17
PL2068307T3 (pl) 2012-07-31
CA2874451C (en) 2016-09-06
EP2372701A1 (en) 2011-10-05
KR20110002504A (ko) 2011-01-07
DE602007013415D1 (de) 2011-05-05
RU2430430C2 (ru) 2011-09-27
RU2009113055A (ru) 2010-11-27
UA94117C2 (ru) 2011-04-11
EP2068307B1 (en) 2011-12-07
AU2011201106A1 (en) 2011-04-07
CN102892070B (zh) 2016-02-24
NO20091901L (no) 2009-05-14
MY145497A (en) 2012-02-29
AU2007312598A1 (en) 2008-04-24
CN103400583A (zh) 2013-11-20
CN101529501B (zh) 2013-08-07
CA2666640A1 (en) 2008-04-24
TWI347590B (en) 2011-08-21
JP2010507115A (ja) 2010-03-04
CA2874454C (en) 2017-05-02
US20110022402A1 (en) 2011-01-27
HK1133116A1 (en) 2010-03-12
EP2054875B1 (en) 2011-03-23
KR101012259B1 (ko) 2011-02-08
RU2011102416A (ru) 2012-07-27
SG175632A1 (en) 2011-11-28
EP2068307A1 (en) 2009-06-10
JP2013190810A (ja) 2013-09-26
TW200828269A (en) 2008-07-01
KR101103987B1 (ko) 2012-01-06
EP2372701B1 (en) 2013-12-11
AU2011201106B2 (en) 2012-07-26
CA2874451A1 (en) 2008-04-24
CA2874454A1 (en) 2008-04-24
JP2012141633A (ja) 2012-07-26
NO340450B1 (no) 2017-04-24
EP2054875A1 (en) 2009-05-06
HK1126888A1 (en) 2009-09-11
HK1162736A1 (en) 2012-08-31
ATE536612T1 (de) 2011-12-15
JP5270557B2 (ja) 2013-08-21
AU2007312598B2 (en) 2011-01-20
CN103400583B (zh) 2016-01-20
WO2008046531A1 (en) 2008-04-24
BRPI0715559A2 (pt) 2013-07-02
CA2666640C (en) 2015-03-10
ATE503245T1 (de) 2011-04-15
KR20090057131A (ko) 2009-06-03
PT2372701E (pt) 2014-03-20
MX2009003570A (es) 2009-05-28

Similar Documents

Publication Publication Date Title
ES2378734T3 (es) Codificación mejorada y representación de parámetros de codificación de objetos de mezcla descendente multicanal
US10741187B2 (en) Encoding of multi-channel audio signal to generate encoded binaural signal, and associated decoding of encoded binaural signal
ES2609449T3 (es) Decodificación de audio
JP4589962B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
CN101529504B (zh) 多通道参数转换的装置和方法
PT1829026T (pt) Informações auxiliares compactas para a codificação paramétrica de áudio espacial
RU2485605C2 (ru) Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования
HK1126888B (en) Enhanced coding and parameter representation of multichannel downmixed object coding
HK1162736B (en) Enhanced coding and parameter representation of multichannel downmixed object coding
HK1133116B (en) Enhanced coding and parameter representation of multichannel downmixed object coding
HK1168683A (en) Saoc to mpeg surround transcoding