ES2439693T3 - Codificación de señales de múltiples canales - Google Patents
Codificación de señales de múltiples canales Download PDFInfo
- Publication number
- ES2439693T3 ES2439693T3 ES04809080.7T ES04809080T ES2439693T3 ES 2439693 T3 ES2439693 T3 ES 2439693T3 ES 04809080 T ES04809080 T ES 04809080T ES 2439693 T3 ES2439693 T3 ES 2439693T3
- Authority
- ES
- Spain
- Prior art keywords
- channel
- restriction
- signal
- filter
- adaptive filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims abstract description 59
- 230000003044 adaptive effect Effects 0.000 claims abstract description 35
- 230000005236 sound signal Effects 0.000 claims abstract description 18
- 238000001228 spectrum Methods 0.000 claims abstract description 14
- 238000013459 approach Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000001914 filtration Methods 0.000 description 12
- 238000005457 optimization Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 125000000391 vinyl group Chemical group [H]C([*])=C([H])[H] 0.000 description 1
- 229920002554 vinyl polymer Polymers 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/02—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
Un método de codificar señales de audio de múltiples canales (c1 - cN) que comprende al menos un canal primeroy un segundo, que comprende las etapas de: generar parámetros de codificación (px) que representan a una señal principal (x) que es una primeracombinación lineal predeterminada de señales de las señales de múltiples canales (c1 - cN); obtener los parámetros óptimos (p1 - pN) de un filtro adaptativo (31; 131, 132, 133:1-2); y codificar los parámetros óptimos (p1 - pN) caracterizado por la siguiente etapa de: obtener los parámetros óptimos (p1 - pN) de al menos un segundo filtro adaptativo (31; 131, 132, 133:1-2); siendo el citado primer filtro adaptativo (31; 131, 132, 133:1-2) obtenido para proporcionar una diferenciamínima entre la señal del primer canal (c1 - cN) y una señal de salida de filtro cuando el primer filtro adaptativo(31; 131, 132, 133:1-2) es aplicado sobre la primera combinación lineal predeterminada (x); siendo la diferencia mínima definida de acuerdo con un primer criterio; siendo el citado segundo filtro adaptativo obtenido para proporcionar una diferencia mínima entre la señal delsegundo canal (c1 - cN) y una señal de salida de filtro cuando el segundo filtro adaptativo es aplicado sobre laprimera combinación lineal predeterminada (x); estando la diferencia mínima definida de acuerdo con un segundo criterio; y por lo que las etapas de obtención de los citados filtros adaptativos primero y segundo (31; 131, 132, 133:1-2)son realizadas bajo al menos una restricción perceptual seleccionada del grupo de restricción de ganancia yde restricción de forma; imponiendo la citada restricción de ganancia una de una restricción en ganancia hardware que requiere unacoincidencia de energía exacta entre un canal original y un canal estimado y una restricción de gananciasuelta que requiere que un canal de salida tenga una energía prescrita; imponiendo la citada restricción de forma un conjunto de restricciones lineales sobre una forma del espectroen el filtro adaptativo primero y segundo, respectivamente.
Description
Codificación de señales de múltiples canales
CAMPO TÉCNICO La presente invención se refiere en general a la codificación de señales de audio, y en particular a la codificación de señales de audio de múltiples canales.
ANTECEDENTES Existe una gran necesidad en el mercado de transmitir y almacenar señales de audio a baja velocidad de datos aun manteniendo una alta calidad de audio. Particularmente, en casos en los que los recursos de transmisión y de almacenamiento están limitados la operación a alta velocidad de bits es un factor de coste esencial. Éste es típicamente el caso, por ejemplo, en las aplicaciones de transmisión en tiempo real y de intercambio de mensajes en los sistemas de comunicación para móviles, tales como GSM, UMTS o CDMA.
Hoy en día, no hay códecs estandarizados disponibles que proporcionen calidad de audio estereofónico a velocidades de bits que sean económicamente interesantes para su uso en los sistemas de comunicación para móviles. Lo que es posible con los códecs disponibles es la transmisión monofónica de las señales de audio. Hasta cierto punto está disponible también la transmisión estereofónica. No obstante, las limitaciones de la velocidad de bits normalmente requieren limitar la representación del estéreo bastante drásticamente.
La manera más sencilla de la codificación estereofónica o de múltiples canales de señales de audio es codificar las señales de los diferentes canales separadamente como señales individuales e independientes. Otra manera básica utilizada en la transmisión por radio en FM en estéreo y que asegura la compatibilidad con receptores de radio mono heredados es transmitir una señal de suma y una señal de diferencia de los dos canales implicados.
Los códecs de audio de la técnica actual, tales como MPEG – 1/2 de Capa III y MPEG – 2/4 AAC hacen uso de la llamada codificación de estéreo conjunta. De acuerdo con esta técnica, las señales de los diferentes canales son procesadas conjuntamente, en lugar de separada e individualmente. Las dos técnicas de codificación de estéreo conjunta más comúnmente utilizadas son conocidas como codificación de estéreo “Medio/Lateral” (M/S – Mid/Side, en inglés) y codificación de estéreo basada en intensidad, las cuales normalmente se aplican a sub-bandas de las señales de estéreo o de múltiples canales para ser codificadas.
La codificación de estéreo M/S es similar al procedimiento descrito en la radio de FM estéreo, en el sentido de que codifica y transmite las señales de suma y de diferencia de las sub-bandas del canal y aprovecha por ello la redundancia entre las sub-bandas del canal. La estructura y operación de un codificador basado en codificación de estéreo M/S se describe, por ejemplo, en la Patente de US 5.285.498, por J. D. Johnston.
El estéreo basado en intensidad, por otro lado, es capaz de hacer uso de la irrelevancia del estéreo. Transmite la intensidad conjunta de los canales (de las diferentes sub-bandas) junto con algo de información de ubicación que indica cómo está distribuida la intensidad entre los canales. El estéreo basado en intensidad sólo proporciona información acerca de la magnitud del espectro de los canales. La información de fase no es transportada. Por esta razón, y puesto que la información inter canales temporal (más específicamente la diferencia de tiempo inter canales) es de importante relevancia psico-acústica particularmente a bajas frecuencias, el estéreo basado en la intensidad sólo puede ser utilizado a altas frecuencias por encima, por ejemplo, de 2 kHz. Un método de codificación de estéreo basado en intensidad se describe, por ejemplo, en la Patente Europea 0497413, por R. Veldhuis et al, véase también “Intensity Stereo Coding”, por J. Harre et al, 96th AES Convention, 26.02.1994.
Un método de codificación de estéreo recientemente desarrollado se describe, por ejemplo, en un documento de la conferencia con el título “Binaural cue coding applied to stereo and multi-channel audio compression”, 112th AES convention, Mayo de 2002, Munich, Germany por C. Faller et al. Este método es un método de codificación de audio de múltiples canales paramétrico. El principio básico es que en el lado de la codificación, las señales de entrada de N canales c1, c2,… cN son combinadas en una señal mono m. La señal mono es codificada en audio utilizando cualquier códec de audio monofónico convencional. En paralelo, algunos parámetros son obtenidos a partir de las señales de canales, que describen la imagen de múltiples canales. Los parámetros son codificados y transmitidos al descodificador, junto con el flujo de bits de audio. El descodificador primero descodifica la señal mono m’ y a continuación regenera las señales de canal c1’, c2’,…, cN’ basándose en la descripción paramétrica de la imagen de múltiples canales.
El principio del método de Codificación de Referencia Bianural (BCC – Binaural Cue Coding, en inglés) es que transmite la señal mono codificada y los llamados parámetros de BCC. Los parámetros de BCC comprenden diferencias de nivel inter canales y diferencias de tiempo inter canales codificadas para sub-bandas de la señal de entrada de múltiples canales original. El descodificador regenera las diferentes señales de canal aplicando ajustes de nivel de sub-bandas y de fase de la señal mono basándose en los parámetros de BCC. La ventaja sobre, por
ejemplo, M/S o estéreo basado en intensidad es que la información de estéreo que comprende información inter canales temporal es transmitida a velocidades de bits mucho menores.
Un problema con las técnicas de codificación de múltiples canales del estado actual de la técnica descritas anteriormente es que requieren altas velocidades de bits para proporcionar buena calidad. El estéreo basado en intensidad, si se aplica a bajas velocidades de bits tan bajas como por ejemplo unos pocos Kbps sufre del hecho de que no proporciona ninguna información inter canales temporal. Dado que esta información es perceptualmente importante para bajas frecuencias por debajo, por ejemplo, de 2 kHz, no puede proporcionar una impresión de estéreo a tan bajas frecuencias.
La BCC es capaz de reproducir la imagen de múltiples canales incluso a bajas frecuencias a bajas velocidades de bits de, por ejemplo, 3 kbps puesto que también transmite información inter canales temporal. No obstante, esta técnica requiere transformadas de tiempo - frecuencia que requieren muchos cálculos en cada uno de los canales, tanto en el codificador como en el descodificador. Además, la BCC optimiza el mapeo de una manera matemática pura. Los artefactos característicos inmanentes en el método de codificación, no obstante, no desaparecerán.
Otra técnica, descrita en la patente de US 5.434.948 por C. E. Holt et al, utiliza un planteamiento similar de codificar la señal mono e información lateral. En este caso, la información lateral consiste en filtros de predicción y opcionalmente en una señal residual. Los filtros de predicción, estimados mediante un algoritmo de mínimos cuadrados promediados, cuando se aplica a la señal mono permite la predicción en las señales de audio de múltiples canales. Con esta técnica se puede conseguir una codificación de muy baja velocidad de bits de fuentes de audio de múltiples canales, no obstante, con el coste de una caída de la calidad.
Un planteamiento similar al planteamiento de filtrado anterior se describe en el documento WO 03/090206 por Breebaart y Groenendaal. No obstante, este planteamiento utiliza un filtro fijo aplicado a la señal mono y combinado junto con la señal mono no filtrada mediante una operación de matriciación. La operación de matriciación depende de un parámetro de correlación recibido y de un parámetro de nivel recibido. El objetivo de tal síntesis de señal es restaurar la correlación y la diferencia de nivel de los dos canales originales. Debido a la inherentemente fija operación de filtrado, la síntesis de la señal tiene un potencial muy limitado para la reproducción de la señal y no se adapta a las características de la señal. El planteamiento puede ser considerado como una extensión del método de codificación de estéreo basado en intensidad explicado anteriormente, en el cual ahora una componente temporal es transportada al descodificador. Aún así, sólo los parámetros de nivel y de correlación permiten un cierto grado de adaptabilidad mediante una operación de matriciación. Esta operación consiste en una mera rotación y escalado de las señales filtradas estadísticamente, limitando así la capacidad de reproducción polifónica. Otro inconveniente del planteamiento es el hecho de que no está basado en un criterio de fidelidad, por ejemplo, relación de señal a ruido, lo que limita su escalabilidad a una calidad transparente.
Finalmente, para completar, debe mencionarse una técnica que se utiliza en audio de 3D. Esta técnica sintetiza las señales del canal derecho e izquierdo filtrando las señales de fuente de sonido con los llamados filtros relativos a la cabeza. No obstante, esta técnica requiere que las diferentes señales de fuente de sonido sean separadas y puedan así no ser aplicadas generalmente para codificación de estéreo o de múltiples canales.
COMPENDIO Aunque los filtros de predicción se conoce que son óptimos en el sentido de mínimos cuadrados promediados, no siempre restauran completamente las características perceptuales de las señales de múltiples canales originales. Por ejemplo, en el caso de la codificación de estéreo, puede ocurrir una inestabilidad de la imagen de estéreo, donde el sonido salta aleatoriamente entre el lado izquierdo y el derecho. Además, los ceros espectrales pueden provocar inestabilidades y conducir a un filtro cuya respuesta en frecuencia a estas frecuencias tiene artefactos. Esto puede provocar que el filtro lleve a cabo una amplificación innecesaria en ciertas regiones y conducir a artefactos audibles muy molestos, sobre todo si las señales están filtradas en paso bajo o en paso alto.
Un objeto de la presente invención es proporcionar un método y dispositivo para la codificación de múltiples canales que mejore la calidad perceptual de la señal de audio. Otro objeto de la presente invención es proporcionar un método y dispositivo tales, que requieran una representación de baja velocidad de bits.
Los objetos anteriores se consiguen mediante métodos y dispositivos de acuerdo con las reivindicaciones de patente adjuntas. En general en el lado del codificador, las señales de los diferentes canales se combinan en una señal principal. Un conjunto de filtros adaptativos, preferiblemente uno para cada canal, es obtenido. Cuando se aplica un filtro a la señal principal reconstruye la señal de canal respectiva bajo una restricción perceptual. La restricción perceptual es una restricción de ganancia y/o de forma. La restricción de ganancia permite la preservación de la energía relativa entre los canales mientras que la restricción de forma permite la estabilidad de la imagen de estéreo, es decir, evitando el filtrado innecesario de los ceros del espectro. Los parámetros transmitidos son la señal principal, en forma codificada, y los parámetros de los filtros adaptativos, preferiblemente también codificados. El receptor reconstruye la señal de los diferentes canales aplicando los filtros adaptativos y posiblemente algún postprocesamiento adicional.
Una ventaja con la presente invención es que los artefactos perceptuales se reducen cuando se descodifican las señales de audio. La velocidad de bits de transmisión requerida es al mismo tiempo mantenida también a un nivel muy bajo.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La invención, junto con otros objetos y ventajas de la misma, puede comprenderse mejor haciendo referencia a la siguiente descripción, tomada junto con los dibujos que se acompañan, en los cuales:
la FIGURA 1 es un esquema de bloques de un sistema para transmitir señales de múltiples canales;
la FIGURA 2a es un diagrama de bloques de una realización de un codificador en un transmisor de acuerdo
con la presente invención;
la FIGURA 2b es un diagrama de bloques de una realización de un descodificador en un receptor de acuerdo
con la presente invención;
la FIGURA 3a es un diagrama de bloques de otra realización de un codificador en un transmisor de acuerdo
con la presente invención;
la FIGURA 3b es un diagrama de bloques de otra realización de un descodificador en un receptor de acuerdo
con la presente invención;
la FIGURA 4 es un diagrama de bloques de una realización de una unidad de adaptación de filtro de acuerdo
con la presente invención;
la FIGURA 5 son diagramas que ilustran los efectos de una reproducción insuficiente de señales laterales en
un sistema de la técnica anterior;
la FIGURA 6 es un diagrama que ilustra los efectos de ceros del espectro en los sistemas de la técnica
anterior;
la FIGURA 7 es un diagrama de bloques que ilustra la combinación de posibilidades en las secciones de
filtrado de canal de acuerdo con la presente invención;
la FIGURA 8 es un diagrama de bloques de una realización de un codificador que emplea codificación
combinada parcial de una señal de estéreo;
la FIGURA 9 es un diagrama de bloques que ilustra el uso de la división en sub-bandas de frecuencia;
la FIGURA 10 es un diagrama compuesto que ilustra el análisis de la superposición para la codificación y
descodificación; y
la FIGURA 11 es un diagrama de flujo de las etapas básicas de una realización de un método de codificación
de acuerdo con la presente invención.
DESCRIPCIÓN DETALLADA La FIGURA 1 ilustra un sistema 1 típico, en el cual puede ser utilizada ventajosamente la invención. Un transmisor 10 comprende una antena 12 que incluye hardware y software asociados para poder transmitir señales de radio 5 a un receptor 20. El transmisor 10 comprende entre otras partes un codificador 14 de múltiples canales, que transforma las señales de un número de canales de entrada 16 en señales de salida adecuadas para la transmisión por radio. Ejemplos de codificadores 14 de múltiples canales adecuados se describen con detalle a continuación. Las señales de los canales de entrada 16 pueden ser proporcionadas por ejemplo desde un almacén de señales de audio 18, tal como un archivo de datos de representación digital de grabaciones de audio, grabaciones de audio de cinta magnética o disco de vinilo, etc. Las señales de los canales de entrada 16 pueden ser también proporcionadas en “directo”, por ejemplo desde un conjunto de micrófonos 19. Las señales de audio son digitalizadas, si no están ya en formato digital, antes de entrar en el codificador 14 de múltiples canales.
En el lado del receptor 20, una antena 22 con hardware y software asociados maneja la recepción real de las señales de radio 5 que representan señales de audio polifónicas. Aquí, se llevan a cabo funcionalidades típicas, tales como por ejemplo corrección de error. Un descodificador 24 descodifica las señales de radio 5 recibidas y transforma los datos de audio transportados por ellas en señales de un número de canales de salida 26. Las señales de salida pueden ser proporcionadas por ejemplo a altavoces 29 para su presentación inmediata, o pueden ser almacenadas en un almacén de señales de audio 28 de cualquier tipo.
El sistema 1 puede, por ejemplo, ser un sistema de conferencia telefónica, un sistema para proporcionar servicios de audio u otras aplicaciones de audio. En algunos sistemas, tales como por ejemplo el sistema de conferencia telefónica, la comunicación tiene que ser de tipo bidireccional, mientras que por ejemplo, la distribución de música de un proveedor de servicio a un abonado puede ser esencialmente de un tipo de un solo sentido. La transmisión de señales desde el transmisor 10 al receptor 20 puede ser también llevada a cabo mediante cualquier otro medio, por ejemplo, mediante diferentes tipos de ondas electromagnéticas, cables o fibras, así como combinaciones de los mismos.
La FIGURA 2a ilustra una realización de un codificador 14 de múltiples canales de acuerdo con la presente invención. Un número de señales de canal c1, c2,…, cN son recibidas en entradas separadas 16:1 – 16:N.
Las señales de canal están conectadas a una unidad de combinación lineal 34. En la presente realización, todas las señales de canal son sumadas entre sí para formar una señal mono x. No obstante, cualquier combinación lineal predeterminada de una o más de las señales de canal puede ser utilizada como alternativa, incluyendo las señales de canal puras. No obstante, una suma pura simplificará la mayoría de las operaciones matemáticas. La señal mono x es proporcionada como una señal de entrada 42 a una sección de filtro de canal 130. Además, la señal mono x es proporcionada a, y codificada en, un codificador 38 de señal mono para proporcionar parámetros de codificación px que representan a la señal mono x. El codificador de señal mono opera de acuerdo con cualquier técnica de codificación de señal mono adecuada. Muchas de tales técnicas están disponibles en la tecnología conocida. Los detalles reales de la técnica de codificación no son de importancia para habilitar la presente invención y por lo tanto no se explican con más detalle.
Las señales de canal están también conectadas a la sección de filtro de canal 130. En la presente realización, cada señal de canal está conectada a una unidad de adaptación de filtro respectiva 30:1 – 30:N. Las unidades de adaptación de filtro llevan a cabo una reconstrucción de una señal de canal respectiva cuando se aplican a la señal mono x. Los coeficientes de las unidades de adaptación de filtro 30:1 – 30:N son, de acuerdo con la presente invención, optimizados bajo una restricción perceptual. No obstante, los coeficientes optimizados de las unidades de adaptación de filtro 30:1 – 30:N pueden ser también obtenidos al menos parcialmente en una optimización conjunta de dos o más señales de canal.
La salida de la sección de filtro de canal 130 comprende N conjuntos de parámetros de filtro p1 – pN. Estos parámetros de filtro p1 – pN están típicamente codificados separada o conjuntamente para ser adecuados para su transmisión. Los parámetros de filtro p1 – pN y la señal mono x son suficientes para permitir la reconstrucción de todas las señales de canales. Los parámetros de filtro p1 – pN codificados y los parámetros de codificación px que representan a la señal mono x están en la presente realización multiplexados en un multiplexador 40 en una señal de salida 52, listos para su transmisión.
La FIGURA 2b ilustra un descodificador 24 de múltiples canales. El descodificador 24 de la FIGURA 2b es adecuado para la descodificación de señales de múltiples canales mediante el codificador de la FIGURA 2a. Una señal de entrada 54 es recibida y proporcionada a un desmultiplexador 56, el cual divide la señal de entrada 54 en parámetros de codificación px que representan a la señal mono x y a un número de conjuntos de parámetros de filtro p1 – pN codificados.
Los parámetros de codificación px que representan a la señal mono x son proporcionados a un descodificador 64 de señal mono, en el cual los parámetros de codificación px que representan a la señal mono x son utilizados para generar una señal mono x’’ descodificada de acuerdo con cualquier técnica de descodificación adecuada asociada con la técnica de codificación utilizada en la FIGURA 2a. Muchas de tales técnicas están disponibles en la tecnología conocida. Los detalles reales de la técnica de codificación no son de importancia y por lo tanto no se explicarán con más detalle. La señal mono x’’ descodificada es proporcionada a una sección de filtro de canal 160.
Los parámetros de filtro codificados son también proporcionados a la sección de filtro de canal 160, donde son descodificados y utilizados para definir los filtros de canal 60:1 – 60:N. Los filtros de canal respectivos 60:1 – 60:N así definidos son aplicados a la señal mono x’’ descodificada, por lo que las respectivas señales de canal c’’1 – c’’N son reconstruidas y proporcionadas en las entradas 26:1 – 26:N.
En la mayoría de las realizaciones de la presente descripción, una señal mono es utilizada como una señal principal para regenerar las señales de canal en la codificación o descodificación. No obstante, en un planteamiento general, cualquier combinación lineal de señales predeterminada seleccionada entre las señales de canal puede ser utilizada como tal señal principal. La elección óptima de la combinación lineal predeterminada depende de la aplicación y de la implementación reales. Una única señal de canal puede constituir también una posible de tales combinaciones lineales predeterminadas.
Otra realización de un codificador 14 de múltiples canales de acuerdo con la presente invención se ilustra en la FIGURA 3a. Partes similares se denotan mediante números de referencia similares y sólo las diferencias se explican en lo que sigue.
La unidad de combinación lineal 34 proporciona como antes una combinación lineal predeterminada de las señales de canal al codificador de señal mono 38. No obstante, en esta realización, la señal asociada con la señal mono x es por el contrario una versión x’’ descodificada de los parámetros de codificación px que representan la señal mono x. Tal disposición, denominada planteamiento de bucle cerrado, permitirá ciertas compensaciones de imprecisiones de codificación de señal mono, tal como se describe con más detalle a continuación.
La unidad de combinación lineal 34 de la presente invención también combina las señales de canal en N-1 combinaciones lineales predeterminadas c*1 – c*N-1, que sirven como señales de entrada reales a la sección de filtro del canal 130. Las N-1 combinaciones lineales predeterminadas c*1 – c*N-1 deben ser linealmente independientes entre sí. Las combinaciones lineales c*1 – c*N-1 no necesariamente comprenden alguna contribución de todas las señales de canal. El término “combinación lineal” debe ser utilizado en este contexto como comprendiendo también los casos especiales en los que un factor de un componente puede ser igual a cero. En realidad, en la disposición más simple, las combinaciones lineales c*1 – c*N-1 pueden ser idénticas a las señales de canal c1 – cN-1. Utilizando una señal mono x’’ descodificada en el lado del descodificador, las señales de canal originales pueden ser
5 recuperadas.
Las señales de canal modificadas están también en esta realización conectadas a la sección de filtro de canal 130, en la cual N-1 conjuntos de coeficientes de filtro son deducidos, correspondiendo ahora a las señales de canal modificadas. Los coeficientes de las unidades de adaptación de filtro 30:1 – 30:N están, de acuerdo con la presente
10 invención, optimizados bajo una restricción perceptual.
La salida de la sección de filtro de canal 130 comprende N-1 conjuntos de parámetros de filtro p*1 – p*N-1. Estos parámetros de filtro p*1 – p*N-1 están típicamente codificados separada o conjuntamente para ser adecuados para su transmisión. Los parámetros de filtro codificados p*1 – p*N-1 y los parámetros de codificación px que representan a la
15 señal mono x son, en la presente realización, transmitidos separadamente.
La FIGURA 3b ilustra otro descodificador 24 de múltiples canales. El descodificador 24 de la FIGURA 3b es adecuado para la descodificación de las señales de múltiples canales codificadas mediante el codificador de la FIGURA 3a. Los parámetros de codificación px que representan a la señal mono x y a un conjunto de parámetros de 20 filtro codificados p*1 – p*N-1 son recibidos. Los parámetros de codificación px que representan a la señal mono x son utilizados para generar una señal mono x’’ en un descodificador 64 de señal mono en analogía con la realización previa. Los parámetros de filtro p*1 – p*N-1 son asimismo proporcionados a la sección de filtro de canal 160 para obtener N-1 señales de canal c*1 – c*N-1 modificadas descodificadas. Una unidad de combinación lineal 74 es a continuación utilizada para proporcionar señales de canal c’’1 – c’’N a partir de las señales de canal c*1 – c*N-1
25 modificadas y de la señal mono x’’ descodificada.
Con el fin de darse cuenta de la importante relevancia de las restricciones perceptuales, se describirá ahora con más detalle un ejemplo de la codificación con el filtro de la técnica anterior, en referencia básicamente a la patente de U.
S. 5.434.948. Esta codificación de múltiples canales permite bajas velocidades de bits si la transmisión de señales
30 residuales se omite. Para obtener el filtro de reconstrucción de canal, un procedimiento de minimización del error basado en un concepto de mínimos cuadrados promediados o mínimos cuadrados promediados ponderados calcula
los filtros de manera que su señal de salida coincide mejor con la señal de objetivo c(n).
Para calcular el filtro, pueden utilizarse varias medidas del error. El error medio cuadrático o el error medio 35 cuadrático ponderado son bien conocidos y son baratos de implementar en términos de cálculos. De acuerdo con el
planteamiento de mínimos cuadrados promediados, el filtro , donde “uc” se refiere a “no restringido” (UnConstrained, en inglés), es válido para una trama de datos y es elegido de manera que minimice el error
cuadrático entre la señal de objetivo y la salida del filtro, es decir, el cuadrado de la diferencia ruc (n) = c (n) clasificando n las muestras de una trama de datos. Este error se expresa como:
Esto conduce al siguiente sistema de ecuaciones lineales para el vector de coeficiente de filtro
y donde
es un vector de correlaciones cruzadas de las señales x(n) y c(n):
No obstante, como se ha mencionado con más detalle anteriormente, las características perceptuales pueden no ser completamente determinadas mediante una minimización matemática pura.
5 Una característica perceptual muy importante de las señales de múltiples canales es su energía y sobre todo los niveles relativos entre las señales de audio de múltiples canales. En el caso de la codificación de estéreo con métodos de la técnica anterior, una molesta inestabilidad de la imagen estéreo en la que la fuente de sonido salta periódicamente del lado izquierdo al derecho puede ser el resultado. Además, puesto que sólo es necesario un filtro
10 en la codificación de estéreo, no se consigue ningún control directo sobre las predicciones del lado izquierdo y del derecho. De acuerdo con la presente invención, una restricción de ganancia es ventajosamente utilizada durante los procedimientos de optimización. En ese contexto, puede observarse que un filtro por canal básicamente es necesario, c. f. la FIGURA 2a y la FIGURA 2b anteriores.
15 En ciertas situaciones, los canales predichos pueden no tener ningún contenido de frecuencia por encima o por debajo de una cierta frecuencia. Esto ocurre si, por ejemplo, el canal está filtrado en paso alto, o resulta de un procedimiento de división de banda. Los ceros espectrales pueden provocar inestabilidades y conducir a respuestas del filtro que producen una innecesaria amplificación y artefactos audibles en baja frecuencia. De acuerdo con la presente invención, una restricción de forma es por lo tanto ventajosamente utilizada durante los procedimientos de
20 optimización.
La FIGURA 4 ilustra las ideas básicas del procedimiento de minimización restringido en el lado del codificador de acuerdo con la presente invención en una realización que tiene dos canales (el caso estéreo) y un filtro 31 lineal. Un
filtro 31 en respuesta a la reconstrucción del canal c1 que tiene los coeficientes de filtro , es obtenido de acuerdo
25 con un procedimiento de minimización de error restringido en una unidad de optimización 32. El filtro toma como entrada la señal de canal combinada, es decir, la señal mono x(n), la cual en esta realización es una
combinación lineal de las dos señales de canal c1 y c2:
e infiere a partir de ella la señal de salida . Los factores γ
c1 y γc2 determinan cómo están combinadas las señales de canal. Una posibilidad es igualar γc1 a un factor 2γ e γc2 a 2(1-γ). En este caso, la señal mono será una suma ponderada de los canales. En particular, un ajuste adecuado es γ = 0,5, en cuyo caso los dos canales están igualmente ponderados. Otro ajuste adecuado puede ser γc1 = γc2, en cuyo caso la señal mono es la diferencia de las
35 señales de canal.
La combinación ponderada de las señales de canal individuales para formar la señal mono puede en general incluso ser la combinación de versiones filtradas de las respectivas señales del canal. Tal planteamiento se denominará prefiltrado. Esto puede resultar útil si el planteamiento es implementado en el dominio de excitación o en general en un
40 dominio de señal ponderada. Por ejemplo, los canales pueden ser pre-filtrados mediante un filtro residual de LPC (Codificación Predictiva Lineal – Lineal Predictive Coding, en inglés) de la señal mono.
En lo que sigue, se asume que los canales mono e izquierdo y derecho son en general versiones prefiltradas de los canales mono, izquierdo y derecho reales. Cuando se restauran los canales, la etapa de post-filtrado con el filtro de
45 síntesis de LPC mono sería necesaria con el fin de volver a los dominios de la señal.
En lo que sigue, el caso γc1 = 1/2 e γc2 = 1/2 se explican con más detalle.
En el caso de que
sea un filtro de FIR (Respuesta de Impulsos Finitos – Finite Impulse Response, en inglés),
50 es una combinación lineal de versiones retardadas de la señal x(n):
siendo el conjunto de índice I = [imin K imax]. Los parámetros de filtro p1 comprenden los coeficiente de filtro 55 pueden ser necesarios datos adicionales que definan el filtro.
Si se aplica por ejemplo el método de codificación presentado en el documento US 5.434.948, la señal de diferencia de dos señales de canal es reproducida mediante un filtro. En la FIGURA 5, las señales de derecha e izquierda se ilustran mediante las curvas 301 y 302, respectivamente. Debe asumirse que la representación no es ideal, 5 proporcionando una diferencia ligeramente mayor que la diferencia de objetivo sobre toda la trama. Esto conducirá a una señal derecha 303 reproducida en el lado del descodificador que es ligeramente inferior a la señal derecha original, y a una señal izquierda 304 reproducida que es ligeramente mayor que la señal izquierda original. La percepción de tal artefacto es que el volumen del canal derecho ha disminuido y que el volumen del canal izquierdo ha aumentado. Si tales artefactos además varían en el tiempo, el sonido fluctuará entre el canal derecho y el
10 izquierdo. Una restricción de ganancia puede mejorar tal situación.
Existen varias maneras de implementar la restricción de ganancia. Un posible planteamiento es tener una restricción fuerte, es decir, una coincidencia exacta de energía entre el canal original y el canal estimado, o imponer una restricción de pérdida de ganancia tal como el canal de salida tiene una energía Ec1 prescrita, que no es
15 necesariamente igual a la energía de la señal de canal original.
El problema de minimización restringida puede ser resuelto fácilmente mediante el método de Lagrange, es decir, la función de Lagrange:
La solución óptima proporciona un filtro
que es proporcional al filtro no restringido
. El factor
de proporcionalidad es:
El filtro restringido en ganancia resulta ser por ello
Si el presente principio de codificación se utiliza en una banda de frecuencia limitada, una señal de canal puede
30 parecerse a la curva 305 de la FIGURA 6. No hay ninguna intensidad por debajo de la frecuencia f1 ó por encima de la frecuencia f2. No obstante, una optimización matemática pura da lugar a una curva 306, que presenta alguna potencia limitada también por debajo y por encima de las frecuencias f1 y f2, respectivamente. Tales artefactos son percibidos.
35 Con el fin de imponer una cierta forma de espectro en el filtro, tiene que imponerse un conjunto de restricciones lineales sobre el filtro. Estas restricciones deberían ser en general de un número menor que el número de coeficientes del filtro.
Por ejemplo, si se desea establecer una restricción de un cero del espectro en 0 kHz, entonces una restricción 40 adecuada es:
En general, la restricción de forma puede ser formulada mediante una matriz y un vector de manera que
A partir de la teoría de los mínimos cuadrados restringidos, el filtro óptimo que satisface estas restricciones es:
Esta restricción es sobre todo útil cuando es conocido a priori que el canal no tiene contenido de frecuencia en un cierto intervalo de frecuencias.
Las restricciones de ganancia y de forma pueden ser también combinadas. En tal caso, la restricción de forma es preferiblemente aplicada en primer lugar y la restricción de ganancia es a continuación añadida como factor, de acuerdo con
Puesto que los filtros dependen del filtro no restringido y este último obedece, puesto que c1(n) + c2(n) = 2x(n), a la relación:
donde δ denota al filtro de identidad. Propiedades útiles pueden ser obtenidas a partir de los filtros de forma restringida, si las restricciones sobre los dos canales son idénticas,
25 Esta ecuación resulta útil para una reducción de la velocidad de bits cuando se codifican los filtros de canal, puesto que muestra que los filtros de canal están relacionados por las cantidades que están disponibles en el lado del descodificador.
Las relaciones entre los filtros restringidos en forma también abren un cálculo racional de los filtros. En la FIGURA 7,
30 una ilustración muestra que un grupo de dos canales c1, c2 es reproducido aplicando la señal mono x a un filtro no restringido 131. El resultado del filtro no restringido es modificado dependiendo de las restricciones de forma en una sección de restricción de forma 132. A partir del filtro restringido en forma para el canal c1, también el filtro restringido en forma del canal c2 puede ser calculado y proporcionado a secciones de restricción de ganancia 133 separadas para cada canal.
35 Un esquema de bloques más detallado de otra realización que utiliza una única señal lateral para aplicar la restricción de forma se ilustra en la FIGURA 8. Dos señales de canal c1 y c2 son combinadas en los medios de adición 55, 57 de una unidad de combinación lineal 34 a una señal mono x y a una señal lateral s. Una sección de filtro de canal 130 comprende un filtro paramétrico no restringido 131, que aplicado a la señal mono x reproduce una
40 estimación de la señal lateral . En una unidad de optimización no restringida 33, los coeficientes del filtro están
adaptados para proporcionar la mínima diferencia entre s y . El filtro obtenido de esta manera , es proporcionado a una sección de restricción de forma 132, básicamente de acuerdo con las explicaciones anteriores.
Se crea un filtro restringido en forma
para la señal lateral. A partir de la relación (1) entre los filtros de canal en una aplicación estéreo, se calcula un filtro restringido en forma para cada señal de canal, basándose en el filtro
45 restringido en forma para la señal lateral. Estos filtros, o mejor los coeficientes de los mismos, son proporcionados a una sección de restricción de ganancia 133:1, 133:2 respectiva. Se calcula un factor de ganancia para cada señal de canal, y los dos filtros son proporcionados a una sección de codificación de parámetro 66, en la que los parámetros de los dos filtros son codificados conjuntamente.
50 Tras el cálculo de los filtros de canal restringidos y
, son cuantificados y codificados en una representación, que es adecuada para su transmisión al receptor. Típicamente, los coeficientes de los filtros son cuantificados utilizando cuantificadores escalares o vectoriales y los índices de cuantificación son transmitidos. Los cuantificadores pueden también implementar predicción, lo cual resulta muy beneficioso para la reducción de la velocidad de bits sobre todo en este escenario.
Hacer uso de las complementariedades de los filtros puede también reducir la velocidad de bits, puesto que sólo uno
de los filtros
o una combinación lineal de ellos es cuantificado y transmitido mientras que las ganancias gc1 y gc2 son cuantificadas vectorialmente de manera conjunta y transmitidas separadamente. Tal transmisión puede ser llevada a cabo a velocidades de bits tan bajas como, por ejemplo, 1 kbps.
Ciertas etapas de post-procesamiento que mejoran más la calidad de la señal de múltiples canales reconstruida pueden seguir a la regeneración de las diferentes señales de canales.
15 Resulta en ocasiones beneficioso suavizar la ganancia de los filtros restringidos en forma o una combinación lineal de estos filtros, antes de calcular los filtros de canal restringidos en ganancia.
Por ejemplo, en el caso de estéreo, el filtro de señal lateral equivalente es (como se utiliza en la FIGURA 8): 20
Y para reducir las posibles artefactos, la diferencia de ganancia de este filtro entre sucesivas tramas es suavizada, lo
que lleva a un filtro . Los filtros de canal son entonces modificados de acuerdo con:
Este tipo de modificación no conserva las restricciones de forma, no obstante, uno puede ver fácilmente que las restricciones de forma se conservan aún en el filtro de señal lateral y esto es suficiente en el caso de la codificación
30 de estéreo.
La restricción de ganancia en los filtros asume las energías de canal calculadas previamente, es decir, Ec1, Ec2. Es importante controlar las ganancias de los filtros, por ejemplo, gc1, gc2 y evitar una amplificación innecesaria limitando las ganancias. Dependiendo de las propiedades de las diferentes señales de canal puede ocurrir que los canales
35 estén correlacionados al contrario en el intervalo de frecuencias completo o en ciertas bandas de frecuencia. Esto conduce a una cierta cancelación cuando se forma el canal mono. En este caso, puesto que la información del canal individual se ha perdido, al menos parcialmente y en algunas bandas de frecuencia, resulta a menudo beneficioso limitar las ganancias de los canales cuando éstas sean mayores que una cierta cantidad, por ejemplo, 0 dB. Una manera de llevar a cabo esta limitación de ganancia es calcular un cierto factor de ganancia:
que es la relación entre la energía del canal mono efectiva y la energía del canal mono si los dos canales no estuviesen correlacionados. Cuando este factor es menor de 0 dB, entonces tenemos cancelación de señal. En este 45 caso, gF cuantifica cómo es de severa esta cancelación. La limitación de ganancia puede entonces ser calculada como:
La misma limitación aplica para la ganancia de los otros canales.
No sólo los parámetros de filtro de canal necesitan ser codificados y transmitidos, sino también la señal mono. Hay dos planteamientos de principio diferentes para considerar la codificación de audio de la señal mono cuando se obtienen los coeficientes del filtro de canal.
En una forma de bucle abierto, los filtros son obtenidos basándose en la señal mono original. Éste es, por ejemplo, el caso de la FIGURA 2a, en la que la señal 42 es la señal mono x original. El descodificador, no obstante, utilizará una señal mono cuantificada como entrada para el filtrado del canal.
En una forma de bucle cerrado, los cálculos del filtro se basan en la señal mono codificada y por ello ya cuantificada.Éste es, por ejemplo, el caso de la FIGURA 3a, en el que la señal 44 es una señal mono x’’ descodificada. Este planteamiento tiene la ventaja de que el diseño del filtro del canal no sólo se dirige a hacer coincidir las respectivas señales de canal de la mejor manera posible. Se dirige también a mitigar los errores de codificación, que son el resultado de la codificación de la señal mono.
Los principios descritos en esta memoria son aplicables en el espectro completo, es decir, señales de banda completa. No obstante, son igualmente bien o incluso de manera más beneficiosa aplicables sobre sub-bandas de las señales. La FIGURA 9 ilustra los principios del procesamiento de sub-banda. Un número de canales c1 – cN están cada uno de ellos divididos en K sub-bandas SB1, SB2, SBK. Las señales de canal en cada sub-banda son proporcionadas a una unidad de codificador de múltiples canales 80:1 – 80:K respectiva, donde las señales de canal son codificadas. Una o varias de las unidades de codificador de múltiples canales 80:1 – 80:K puede o pueden ser unidades de codificador de múltiples canales de acuerdo con la presente invención. Un combinador de flujo de bits 82 combina las señales codificadas en una señal codificada 53 común, que es transmitida.
Las ventajas del procesamiento de sub-banda descrito son que la codificación de múltiples canales para las diferentes sub-bandas puede ser llevada a cabo individualmente optimizada con respecto, por ejemplo, a la velocidad de bits asignada, tamaños de trama de procesamiento y velocidad de muestreo.
Una clase especial de procesamiento de sub-banda no lleva a cabo codificación de múltiples canales para frecuencias muy bajas, por ejemplo, por debajo de 200 Hz. Eso significa que para esta banda de frecuencia muy baja, se transmite una mera señal mono. Este principio hace uso del hecho de que la percepción de estéreo humana es menos sensible para frecuencias muy bajas. Se conoce de la técnica anterior y se llamó reproducción de sonidos de baja frecuencia (sub-woofing, en inglés).
En otra realización del procesamiento de sub-banda la división de la banda se realiza utilizando una transformada de tiempo – frecuencia, tal como, por ejemplo, una transformada de Fourier de corto plazo (STFT – Short Term Fourier Transform, en inglés), que permite la descomposición de la señal en componentes de una única frecuencia. En este caso, el filtrado se reduce a una mera multiplicación de los coeficientes de espectro individuales de la señal mono con un factor complejo.
El método de codificación de múltiples canales paramétrica de acuerdo con la invención implicará típicamente un procesamiento por tramas fijas de muestras de señal. En otras palabras, los parámetros que describen la imagen de múltiples canales son obtenidos y transmitidos con una velocidad correspondiente a una longitud de trama de código de, por ejemplo 20 ms. Los parámetros pueden, no obstante, ser obtenidos a partir de tramas de la señal que sean mucho más largas que la longitud de trama de codificación. Una elección adecuada es establecer la longitud de tales tramas de análisis en valores más grandes que la longitud de la trama de codificación. Esto implica que el cálculo de parámetros se lleva a cabo con tramas de análisis superpuestas.
Esto se ilustra en la FIGURA 10. Las tramas de análisis 83 en el codificador son ligeramente más largas que las tramas de codificación 84, como se muestra en la parte superior de la figura. Una consecuencia de tales tramas de análisis superpuestas es que los parámetros evolucionan de manera continua, lo que es esencial con el fin de proporcionar una impresión estable de la señal de audio de múltiples canales. Lo mismo se lleva a cabo en el lado del descodificador, mostrado en la parte media de la figura. Resulta así esencial en el descodificador tener esto en cuenta y añadir enmarcando y superponiendo tramas de síntesis 85, con una superposición 86, como se muestra en la parte inferior de la figura. Esto permite una transición sin solución de continuidad entre los filtros asociados con cada trama.
También en el codificador, puede forzarse una evolución de parámetros de filtro continua. Es, por ejemplo, posible, aplicar filtrado de paso bajo o medio para filtrar parámetros.
Los códecs de audio monofónicos del estado de la técnica así como los códecs de conversación llevan a cabo el llamado modelado de ruido del ruido de codificación. El propósito de esta operación es trasladar el ruido de codificación a frecuencias en las que la señal tenga una densidad de espectro alta y así hacer que el ruido sea menos audible. El modelado del ruido se realiza normalmente de manera adaptativa, es decir, en respuesta a la
señal de audio. Esto implica que, en general, el modelado del ruido en la señal mono será diferente de lo que se requiere para los diferentes canales. Como resultado, a pesar del adecuado modelado del ruido en el códec de audio mono, el subsiguiente filtrado del canal de acuerdo con la invención conducirá a un aumento del ruido de codificación audible en la señal de múltiples canales reconstruida cuando se compara con el ruido de codificación audible en la señal mono.
Con el fin de mitigar este problema, puede aplicarse un post-filtrado adaptado a la señal a las señales de canal reconstruidas en una etapa de post procesamiento del receptor. Puede desplegarse aquí cualquier técnica de post filtrado del estado de la técnica, lo que esencialmente resalta las partes superiores del espectro o profundiza los valles del espectro y por ello reduce el ruido audible. Un ejemplo de tal técnica es el llamado post filtrado de alta resolución que se describe en la Patente Europea 0 965 123 B1, por E. Ekudden et al. Otros métodos simples son los llamados post filtros de afinación y formantes, que son conocidos de la codificación de conversación.
En la FIGURA 11, las principales etapas de una realización de un método de codificación de acuerdo con la presente invención se ilustran como un diagrama de flujo. El procedimiento se inicia en la etapa 200. En la etapa 220, una señal principal, preferiblemente una señal mono deducida de las señales de múltiples canales, es codificada. En la etapa 222, los coeficientes de filtro son optimizados para proporcionar la mejor representación posible de una señal de canal cuando se aplica a la señal principal. La optimización tiene lugar bajo restricciones perceptuales. Los coeficientes óptimos son a continuación codificados en la etapa 224. El procedimiento finaliza en la etapa 299.
Las realizaciones descritas anteriormente deben ser entendidas como unos pocos ejemplos ilustrativos de la presente invención. Resultará evidente para los expertos en la materia que varias modificaciones, combinaciones y cambios pueden ser realizados a las realizaciones sin separarse del alcance de la presente invención. En particular, pueden combinarse diferentes soluciones de partes en otras configuraciones, en las que sea técnicamente posible. El alcance de la presente invención está, no obstante, definido por las reivindicaciones adjuntas.
REFERENCIAS
Patente de US 5.285.498
Patente de US 5.434.948
Patente europea 0 497 413
Patente europea 0 965 123
Solicitud de patente internacional WO 03/090206
“Binaural cue coding applied to stereo and multi-channel audio compression”, 112ava convención AES, Mayo
de 2002, Munich, Alemania, por C. Faller et al.
Claims (15)
- REIVINDICACIONES1. Un método de codificar señales de audio de múltiples canales (c1 – cN) que comprende al menos un canal primero y un segundo, que comprende las etapas de:5 generar parámetros de codificación (px) que representan a una señal principal (x) que es una primera combinación lineal predeterminada de señales de las señales de múltiples canales (c1 – cN); obtener los parámetros óptimos (p1 – pN) de un filtro adaptativo (31; 131, 132, 133:1-2); y codificar los parámetros óptimos (p1 – pN)10 caracterizado por la siguiente etapa de:obtener los parámetros óptimos (p1 – pN) de al menos un segundo filtro adaptativo (31; 131, 132, 133:1-2); siendo el citado primer filtro adaptativo (31; 131, 132, 133:1-2) obtenido para proporcionar una diferencia15 mínima entre la señal del primer canal (c1 – cN) y una señal de salida de filtro cuando el primer filtro adaptativo (31; 131, 132, 133:1-2) es aplicado sobre la primera combinación lineal predeterminada (x); siendo la diferencia mínima definida de acuerdo con un primer criterio; siendo el citado segundo filtro adaptativo obtenido para proporcionar una diferencia mínima entre la señal del segundo canal (c1 – cN) y una señal de salida de filtro cuando el segundo filtro adaptativo es aplicado sobre la20 primera combinación lineal predeterminada (x); estando la diferencia mínima definida de acuerdo con un segundo criterio; y por lo que las etapas de obtención de los citados filtros adaptativos primero y segundo (31; 131, 132, 133:1-2) son realizadas bajo al menos una restricción perceptual seleccionada del grupo de restricción de ganancia y de restricción de forma;25 imponiendo la citada restricción de ganancia una de una restricción en ganancia hardware que requiere una coincidencia de energía exacta entre un canal original y un canal estimado y una restricción de ganancia suelta que requiere que un canal de salida tenga una energía prescrita; imponiendo la citada restricción de forma un conjunto de restricciones lineales sobre una forma del espectro en el filtro adaptativo primero y segundo, respectivamente.
-
- 2.
- Un método de acuerdo con la reivindicación 1, caracterizado porque al menos uno del primer criterio y del segundo criterio es un criterio de mínimos cuadrados promediados.
-
- 3.
- Un método de acuerdo con la reivindicación 1 ó 2, caracterizado porque la restricción perceptual es al menos
35 una restricción de ganancia, que intenta proporcionar una energía total de la señal de salida de filtro igual a la energía total de la señal del primer canal. - 4. El método de acuerdo con la reivindicación 3, caracterizado porque la restricción de ganancia es una restricciónabsoluta, que demanda que la energía total de la señal de salida del filtro adaptativo sea igual a la energía total de la 40 señal del correspondiente canal.
- 5. Un método de acuerdo con la reivindicación 3, caracterizado porque la restricción de ganancia es una restricción de software, que favorece el que los filtros adaptativos proporcionen la energía total de la señal de salida del filtro adaptativo cercana a la energía total de la señal del canal correspondiente.
-
- 6.
- Un método de acuerdo con la reivindicación 3, caracterizado porque la restricción de ganancia está impuesta como un factor de ganancia (gc1 – gcN) veces un filtro adaptativo obtenido sin restricciones de ganancia.
-
- 7.
- Un método de acuerdo con la reivindicación 6, caracterizado porque el filtro restringido en ganancia
viene dado por:donde es el filtro adaptativo obtenido sin restricciones de ganancia, E c es una energía prescrita de la señal desalida del filtro adaptativo yes una salida del filtro adaptativo de la señal principal x(n) sin restricciones de ganancia. -
- 8.
- Un método de acuerdo con cualquiera de las reivindicaciones 1 a 7, caracterizado porque la restricción perceptual es al menos una restricción de forma, que impone una forma de espectro predefinida sobre el filtro adaptativo (31; 131, 132, 133:1-2).
-
- 9.
- Un método de acuerdo con la reivindicación 8, caracterizado porque la restricción de forma impone un contenido cero en un intervalo de frecuencia predefinido.
-
- 10.
- Un método de acuerdo con cualquiera de las reivindicaciones 1 a 9, caracterizado porque la etapa de codificación de los parámetros óptimos (p1 – pN) comprende codificar conjuntamente los parámetros óptimos de los filtros primero y segundo.
-
- 11.
- Un método de acuerdo con cualquiera de las reivindicaciones 1 a 10 y de acuerdo con la reivindicación 8, caracterizado porque la etapa de obtener parámetros a su vez comprende las etapas de:
crear una segunda combinación lineal predeterminada (s; c*1 – c*N) de las señales de las señales de múltiples canales (c1 – cN); obtener parámetros de un tercer filtro para proporcionar una diferencia mínima entre la segunda combinación lineal predeterminada y la señal de salida del filtro cuando se aplica el tercer filtro sobre la primera combinación lineal predeterminada, bajo la restricción de forma; calcular los parámetros óptimos de los filtros primero y segundo en función de los parámetros óptimos del tercer filtro. -
- 12.
- Un método de acuerdo con cualquiera de las reivindicaciones 1 a 11, caracterizado porque la etapa de obtener se lleva a cabo basándose en los parámetros de codificación (px) que representan a la señal principal (x).
-
- 13.
- Un método de acuerdo con cualquiera de las reivindicaciones 1 a 11, caracterizado porque la etapa de obtener se lleva a cabo basándose directamente en la primera combinación lineal predeterminada (x).
-
- 14.
- Un método de acuerdo con cualquiera de las reivindicaciones 1 a 13, caracterizado porque las señales de múltiples canales comprenden más de dos canales, por lo que la señal principal se basa en una primera combinación lineal predeterminada (x) de todos los más de dos canales, y la señal de cada canal se representa mediante un filtro adaptativo separado, optimizado bajo la restricción perceptual.
-
- 15.
- Aparato codificador (14), que comprende:
una entrada (16:1 – 16:N) para señales de audio de múltiples canales (c1 – cN) que comprenden al menos un canal primero y un segundo; un medio (38) para generar los parámetros de codificación (px) que representan a una señal principal (x) que es una primera combinación lineal predeterminada de señales de las señales de múltiples canales (c1 – cN), cuyo medio (38) para generar está conectado a la entrada (16:1 – 16:N); un medio (31; 131, 132, 133:1-2) para obtener los parámetros óptimos de un primer filtro adaptativo; un medio (66) para codificar los parámetros óptimos; y un medio de salida (52);caracterizado por:un medio (31; 131, 132, 133:1-2) para obtener los parámetros óptimos de un segundo filtro adaptativo; proporcionando el primer filtro adaptativo una diferencia mínima entre la señal del primer canal (c1 – cN) y la señal del filtro de salida cuando el primer filtro adaptativo es aplicado sobre la primera combinación lineal predeterminada (x); estando la diferencia mínima definida de acuerdo con un primer criterio; proporcionando el segundo filtro adaptativo una diferencia mínima entre la señal del segundo canal (c1 – cN) y la señal de salida del filtro cuando el segundo filtro adaptativo es aplicado sobre la primera combinación lineal predeterminada (x); estando la diferencia mínima definida de acuerdo con un segundo criterio; por lo que el medio (31; 131, 132, 133:1-2) para obtener los parámetros óptimos de los citados filtros adaptativos primero y segundo está dispuesto para obtener los parámetros óptimos bajo al menos una restricción perceptual seleccionada del grupo de restricción de ganancia y de restricción de forma; imponiendo la citada restricción de ganancia el que una de una restricción de ganancia de hardware requiera una exacta coincidencia de energía entre un canal original y un canal estimado y el que una restricción de pérdida de ganancia suelta requiera un canal de salida para tener una energía prescrita; Imponiendo la citada restricción de forma un conjunto de restricciones lineales sobre una forma del espectro en los filtros primero y segundo, respectivamente.
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| SE0303499 | 2003-12-19 | ||
| SE0303499A SE0303499D0 (sv) | 2003-12-19 | 2003-12-19 | Multi-channel coding using gain-shape constrained filters |
| SE0400415A SE527713C2 (sv) | 2003-12-19 | 2004-02-20 | Kodning av polyfoniska signaler med villkorsbegränsade filter |
| SE0400415 | 2004-02-20 | ||
| PCT/SE2004/001907 WO2005059901A1 (en) | 2003-12-19 | 2004-12-15 | Constrained filter encoding of polyphonic signals |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2439693T3 true ES2439693T3 (es) | 2014-01-24 |
Family
ID=31996352
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES04809080.7T Expired - Lifetime ES2439693T3 (es) | 2003-12-19 | 2004-12-15 | Codificación de señales de múltiples canales |
Country Status (8)
| Country | Link |
|---|---|
| EP (2) | EP2456236A1 (es) |
| JP (1) | JP4323520B2 (es) |
| DK (1) | DK1639580T3 (es) |
| ES (1) | ES2439693T3 (es) |
| PL (1) | PL1639580T3 (es) |
| PT (1) | PT1639580E (es) |
| SE (1) | SE527713C2 (es) |
| WO (1) | WO2005059901A1 (es) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2008016098A1 (en) * | 2006-08-04 | 2008-02-07 | Panasonic Corporation | Stereo audio encoding device, stereo audio decoding device, and method thereof |
| WO2010042024A1 (en) * | 2008-10-10 | 2010-04-15 | Telefonaktiebolaget Lm Ericsson (Publ) | Energy conservative multi-channel audio coding |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5434948A (en) | 1989-06-15 | 1995-07-18 | British Telecommunications Public Limited Company | Polyphonic coding |
| NL9100173A (nl) | 1991-02-01 | 1992-09-01 | Philips Nv | Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting. |
| US5285498A (en) | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
| SE9700772D0 (sv) | 1997-03-03 | 1997-03-03 | Ericsson Telefon Ab L M | A high resolution post processing method for a speech decoder |
| WO2003009206A1 (en) * | 2001-07-19 | 2003-01-30 | Sungwoo Kim | The system and operational method of mobile telecommunication device for electronic cash |
| WO2003009208A1 (en) * | 2001-07-20 | 2003-01-30 | Medical Research Group | Method and apparatus for communicating between an ambulatory medical device and a control device via telemetry using randomized data |
| DE60311794C5 (de) | 2002-04-22 | 2022-11-10 | Koninklijke Philips N.V. | Signalsynthese |
-
2004
- 2004-02-20 SE SE0400415A patent/SE527713C2/sv unknown
- 2004-12-15 DK DK04809080.7T patent/DK1639580T3/da active
- 2004-12-15 PL PL04809080T patent/PL1639580T3/pl unknown
- 2004-12-15 EP EP12154099A patent/EP2456236A1/en not_active Ceased
- 2004-12-15 WO PCT/SE2004/001907 patent/WO2005059901A1/en not_active Ceased
- 2004-12-15 ES ES04809080.7T patent/ES2439693T3/es not_active Expired - Lifetime
- 2004-12-15 PT PT48090807T patent/PT1639580E/pt unknown
- 2004-12-15 JP JP2006518597A patent/JP4323520B2/ja not_active Expired - Fee Related
- 2004-12-15 EP EP04809080.7A patent/EP1639580B1/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| EP1639580A1 (en) | 2006-03-29 |
| EP2456236A1 (en) | 2012-05-23 |
| JP4323520B2 (ja) | 2009-09-02 |
| DK1639580T3 (da) | 2014-01-13 |
| EP1639580B1 (en) | 2013-10-23 |
| PL1639580T3 (pl) | 2014-04-30 |
| WO2005059901A1 (en) | 2005-06-30 |
| SE0400415D0 (sv) | 2004-02-20 |
| JP2007527543A (ja) | 2007-09-27 |
| SE0400415L (sv) | 2005-06-20 |
| SE527713C2 (sv) | 2006-05-23 |
| PT1639580E (pt) | 2013-11-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI544479B (zh) | 音訊解碼器、音訊編碼器、用以基於已編碼表示型態提供至少四音訊聲道信號的方法、用以基於至少四音訊聲道信號提供已編碼表示型態的方法、及使用頻寬擴展的電腦程式 | |
| Noll | MPEG digital audio coding | |
| ES2312025T3 (es) | Esquema de codificador/descodificador de multicanal casi transparente o transparente. | |
| US9812136B2 (en) | Audio processing system | |
| US8218775B2 (en) | Joint enhancement of multi-channel audio | |
| JP4174072B2 (ja) | 心理音響学的アダプティブ・ビット割り当てを用いたマルチ・チャネル予測サブバンド・コーダ | |
| CA2527971C (en) | Fidelity-optimised variable frame length encoding | |
| US8817992B2 (en) | Multichannel audio coder and decoder | |
| AU2006222285B2 (en) | Device and method for generating an encoded stereo signal of an audio piece or audio data stream | |
| CN100474780C (zh) | 用于从编码后的音频数据流中解码重建多声道音频信号的解码方法 | |
| JP6759277B2 (ja) | マルチチャネル・オーディオ・コンテンツの符号化 | |
| US7725324B2 (en) | Constrained filter encoding of polyphonic signals | |
| US20070168183A1 (en) | Audio distribution system, an audio encoder, an audio decoder and methods of operation therefore | |
| ES2439693T3 (es) | Codificación de señales de múltiples canales | |
| Noll | Digital audio for multimedia | |
| Noll | Wideband Audio | |
| Sattar et al. | Implementation and optimization of parametric stereo encoding in enhanced aacPlus encoder | |
| HK1115665B (en) | Fidelity-optimised pre-echo suppressing encoding | |
| MX2008009186A (es) | Codificacion de canal de transformacion compleja con codificacion de frecuencia de banda extendida |