ES2216367T3

ES2216367T3 - Aparato de codificacion y de decodificacion de señales de audio.

Info

Publication number: ES2216367T3
Application number: ES99104831T
Authority: ES
Inventors: Tomokazu Ishikawa; Mineo Tsushima; Takeshi Norimatsu
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-03-11
Filing date: 1999-03-11
Publication date: 2004-10-16
Anticipated expiration: 2019-03-11
Also published as: EP0942411A3; CN1131507C; KR19990077753A; EP0942411A2; DE69915400T2; KR100304092B1; EP0942411B1; DE69915400D1; US6871106B1; CN1240978A

Abstract

APARATO CODIFICADOR DE SEÑALES DE AUDIO QUE COMPRENDE UN CODIFICADOR DE PRIMERA FASE PARA CUANTIFICAR LA SEÑAL DE AUDIO TRANSFORMADA DE TIEMPO EN FRECUENCIA LAS FASES SEGUNDA Y POSTERIORES DE LOS CODIFICADORES, CADA UNO DE ELLOS PARA CUANTIFICAR UNA SALIDA DE ERRORES DE CUANTIFICACION PROCEDENTE DEL CODIFICADOR DE LA FASE ANTERIOR; UNA UNIDAD DE DECISION DE CARACTERISTICAS QUE DECIDE LA BANDA DE FRECUENCIAS DE UNA SEÑAL DE AUDIO QUE VA A SER CUANTIFICADA POR CADA CODIFICADOR DE CODIFICADORES DE PASOS MULTIPLES; Y UNA UNIDAD DE CONTROL DE LA BANDA DE CODIFICACION QUE RECIBE LA BANDA DE FRECUENCIAS DECIDIDA POR LA UNIDAD DE DECISION DE CARACTERISTICAS Y LA SEÑAL DE AUDIO TRANSFORMADA DE TIEMPO A FRECUENCIA DECIDE EL ORDEN DE CONEXION DE LOS RESPECTIVOS CODIFICADORES, Y TRANSFORMA LAS BANDAS DE CUANTIFICACION DE LOS CODIFICADORES Y EL ORDEN DE CONEXION A LAS SECUENCIAS DEL CODIGO. POR LO TANTO, ES POSIBLE PROPORCIONAR UN APARATO CODIFICADOR DE SEÑALES DE AUDIO QUE REALIZA CODIFICACION ESCALABLE ADAPTATIVA QUE TIENE UN RENDIMIENTO SUFICIENTE CUANDO SE CODIFICAN VARIAS SEÑALES DE AUDIO.

Description

Aparato de codificación y de decodificación de señales de audio.

Campo de la invención

La presente invención se refiere a un aparato de codificación de señales de audio que codifica con eficacia la señal obtenida transformando una señal de audio (por ejemplo, una señal de voz o una señal de música), mediante un procedimiento como el de la transformación ortogonal, para representarla con menos secuencias de código relativas a la señal de audio original utilizando la cantidad de características obtenidas de la propia señal de audio. La presente invención también se refiere a un aparato de decodificación de señales de audio que puede decodificar una señal de audio de banda ancha y alta calidad, utilizando todas o parte de las secuencias de código como señal codificada.

Antecedentes de la invención

Se han propuesto diversos procedimientos para codificar y decodificar con eficacia las señales de audio. Como procedimientos de codificación por compresión para señales de audio que tienen bandas de frecuencias que sobrepasan los 20 kHz (por ejemplo, las señales de música), se han propuesto los procedimientos MPEG audio y Twin VQ (TC-WVQ). En un procedimiento de codificación representado por un sistema MPEG audio, la señal de audio digital del eje del tiempo se transforma en datos del eje de la frecuencia mediante una transformación ortogonal (por ejemplo, una transformación del coseno) y los datos del eje de la frecuencia se codifican utilizando las características acústicas de los seres humanos, siendo codificados los datos que son acústicamente importantes, mientras que los que no son importantes desde el punto de vista acústico y los datos redundantes no son codificados. Por otra parte, el procedimiento Twin VQ (TC-WVQ) es un procedimiento de codificación en el que la señal de audio se representa con una cantidad de datos considerablemente inferior a la de la señal digital original, utilizando cuantificación vectorial. Los procedimientos MPEG audio y Twin VQ se describen en la regla "ISO/IEC standard IS-11172-3" y en el documento de T. Moriya, H. Suga, "An 8 Kbits transform coder for noisy channels", Proc. ICASSP 89, pp.196-199, respectivamente.

A continuación, se proporciona una descripción global del sistema Twin VQ general, en relación con la Figura 10.

La señal de audio original 101 se introduce en una unidad de decisión de escala de análisis 102 para calcular una escala de análisis 112. Al mismo tiempo, la unidad de decisión de escala de análisis 102 cuantifica la escala de análisis 112 para generar una secuencia de código de escala de análisis 111. A continuación, la unidad de transformación tiempo-frecuencia 103 transforma la señal de audio original 101 en una señal de audio original 104 del dominio de la frecuencia. Seguidamente, la unidad de normalización (unidad de aplanamiento) 106 somete a normalización (aplanamiento) la señal de audio original 104 del dominio de la frecuencia para obtener la señal de audio 108 tras la normalización. Esta normalización se lleva a cabo calculando un contorno de frecuencia 105 de la señal de audio original 104 y, a continuación, dividiendo la señal de audio original 104 por el contorno de frecuencia 105 calculado. Además, la unidad de normalización 106 cuantifica la información de contorno de frecuencia utilizada para la normalización, para generar una secuencia de código normalizada 107. Por último, la unidad de cuantificación vectorial 109 cuantifica la señal de audio 108 sometida a normalización para obtener una secuencia de código 110.

En los últimos años, se ha propuesto un decodificador que tiene una estructura capaz de reproducir una señal de audio utilizando parte de las secuencias de código que recibe. Esta estructura se denomina "estructura escalable" y la codificación de una señal de audio para obtener la estructura escalable se denomina "codificación escalable".

La Figura 11 muestra un ejemplo de codificación escalable fija empleada en un sistema Twin VQ general.

Según la escala de análisis 1314 decidida por la unidad de decisión de escala de análisis 1303 a partir de una señal de audio original 1301, la unidad de conversión tiempo-frecuencia 1302 obtiene una señal de audio original 1304 del dominio de la frecuencia. Un codificador de banda baja 1305 recibe la señal de audio original 1304 del dominio de la frecuencia y genera un error de cuantificación 1306 y una secuencia de código de banda baja 1311. Un codificador de banda intermedia 1307 recibe el error de cuantificación 1306 y genera un error de cuantificación 1308 y una secuencia de código de banda intermedia 1312. Un codificador de banda alta 1309 recibe el error de cuantificación 1308 y genera un error de cuantificación 1310 y una secuencia de código de banda alta 1313. El codificador de banda baja, el de banda intermedia y el de banda alta comprenden una unidad de normalización y una unidad de cuantificación vectorial cada uno, y generan una secuencia de código de banda baja, de banda intermedia y de banda alta, respectivamente, que incluye un error de cuantificación y las secuencias de código generadas por la unidad de normalización y la unidad de cuantificación vectorial.

En la codificación escalable fija convencional mostrada en la Figura 11, puesto que los codificadores (cuantificadores) de banda baja, banda intermedia y banda alta son fijos, es difícil codificar la señal de audio original para reducir al mínimo los errores de cuantificación respecto de la distribución de la señal de audio original mostrada en la Figura 12. Por consiguiente, cuando se codifican señales de audio que tienen características y distribuciones diversas, no se obtiene un rendimiento suficiente ni puede llevarse a cabo una codificación escalable de alta calidad y eficacia.

Sumario de la invención

La presente invención resuelve el problema indicado anteriormente proporcionando un aparato de codificación de señales de audio según la reivindicación 1 y un aparato de decodificación de señales de audio según la reivindicación 4. Asimismo, proporciona un procedimiento de codificación de señales de audio según la reivindicación 5 y un procedimiento de decodificación de señales de audio según la reivindicación 8.

Breve descripción de los dibujos

La Figura 1 es un diagrama de bloques que ilustra un aparato de codificación de señales de audio que lleva a cabo una codificación escalable adaptativa, y un aparato de decodificación adaptado al aparato de codificación, según una primera forma de realización de la presente invención.

La Figura 2 es un diagrama de bloques que ilustra una unidad de transformación tiempo-frecuencia incluida en el aparato de codificación de la primera forma de realización.

La Figura 3 es un diagrama que ilustra un codificador incluido en el aparato de codificación de la primera forma de realización.

La Figura 4 es un diagrama de bloques que ilustra una unidad de normalización incluida en el aparato de codificación de la primera forma de realización.

La Figura 5 es una unidad de normalización de contorno de frecuencia incluida en el aparato de codificación de la primera forma de realización

La Figura 6 es un diagrama de bloques que ilustra una unidad de decisión de características incluida en el aparato de codificación de la primera forma de realización.

La Figura 7 es un diagrama de bloques que ilustra una unidad de control de bandas de codificación incluida en el aparato de codificación de la primera forma de realización.

La Figura 8 es un diagrama de bloques que ilustra una unidad de cuantificación incluida en el aparato de codificación de la primera forma de realización.

La Figura 9 es un diagrama de bloques que ilustra un decodificador incluido en el aparato de decodificación de la primera forma de realización.

La Figura 10 es un diagrama que describe el contorno del sistema Twin VQ general.

La Figura 11 es un diagrama que describe la codificación escalable Twin VQ general.

La Figura 12 es un diagrama que describe las desventajas de la codificación escalable fija general.

La Figura 13 es un diagrama que describe las ventajas de la codificación escalable adaptativa general.

La Figura 14 es un diagrama de bloques que ilustra un aparato de codificación de señales de audio que lleva a cabo una codificación escalable adaptativa, y un aparato de decodificación adaptado al aparato de codificación, según una segunda forma de realización de la presente invención.

La Figura 15 es un diagrama de bloques que ilustra un codificador incluido en el aparato de codificación de la segunda forma de realización.

La Figura 16 es un diagrama de bloques que ilustra una unidad de decisión de características incluida en el aparato de codificación de la segunda forma de realización.

La Figura 17 es un diagrama de bloques que ilustra una unidad de control de bandas de codificación incluida en el aparato de codificación de la segunda forma de realización.

La Figura 18 es un diagrama de bloques que ilustra un decodificador incluido en el aparato de codificación de la segunda forma de realización.

La Figura 19 es un diagrama de bloques que ilustra una unidad de control de bandas de decodificación incluida en el aparato de codificación de la segunda forma de realización.

La Figura 20 es un diagrama de bloques que ilustra unos medios de desplazamiento espectral incluidos en el aparato de codificación de la segunda forma de realización.

Descripción detallada de las formas de realización preferidas

A continuación, se describirá una primera forma de realización de la presente invención en relación con las Figuras 1 a 9, y una segunda forma de realización de la presente invención en relación con las Figuras 14 a 20.

Forma de realización 1

La Figura 1 es un diagrama de bloques que ilustra un aparato de codificación de señales de audio 1 que lleva a cabo una codificación escalable adaptativa según una primera forma de realización de la presente invención.

En la Figura 1, el número de referencia 1001 denota un aparato de codificación para codificar una señal de audio original 501. En el aparato de codificación 1001, el número 502 denota una unidad de decisión de escala de análisis que decide la escala de análisis 504 para analizar la señal de audio original 501; el número 503 denota una unidad de transformación tiempo-frecuencia que transforma el eje del tiempo de la señal de audio original 501 en el eje de la frecuencia en unidades de escala de análisis 504; el número 504 denota la escala de análisis decidida por la unidad de decisión de escala de análisis 502; el número 505 denota el espectro de la señal de audio original; el número 701 denota un filtro en el que se introduce el espectro 505 de la señal de audio original; el número 506 designa una unidad de decisión de características que decide la característica del espectro 505 de la señal de audio original para decidir la banda de frecuencias de las señales de audio que se van a cuantificar mediante las diversas etapas de los codificadores 511, 512, 513, 511b, ... incluidos en el aparato de codificación 1001; el número 507 designa una unidad de control de bandas de codificación que recibe las bandas de frecuencias de los respectivos codificadores decididas por la unidad de decisión de características 506 y la señal de audio sometida a transformación tiempo-frecuencia, y decide el orden de conexión de las diversas etapas de los codificadores 511, 512, 513, 514, 511b, ..., y transforma las bandas de cuantificación de losrespectivos codificadores y el orden de conexión en secuencias de código; el número 508 denota una secuencia de código de control de bandas como la secuencia de código generada por la unidad de control de bandas de codificación 507; el número 510 denota una longitud de código de escala de análisis que es una secuencia de código de la escala de análisis generada por la unidad de decisión de escala de análisis 502; los números 511, 512 y 513 denotan un codificador de banda baja, un codificador de banda intermedia y un codificador de banda alta para codificar señales de banda baja, banda intermedia y banda alta, respectivamente; el número 511b denota un codificador de banda baja de segunda etapa para codificar un error de cuantificación 518 del codificador de banda baja de la primera etapa 511; los números 521, 522 y 523 denotan una secuencia de código de banda baja, una secuencia de código de banda intermedia y una secuencia de código de banda alta como las señales codificadas generadas por los codificadores 511, 512 y 513, respectivamente; el número 521b denota una secuencia de código de banda baja de segunda etapa que es la salida del codificador de banda baja de segunda etapa 11b; los números 518, 519 y 520 denotan las diferencias de cuantificación correspondientes a las diferencias entre las señales que todavía no han sido codificadas y las señales que ya han sido codificadas, generadas, respectivamente, por los codificadores 511, 512 y 513; y el número 518b denota un error de cuantificación de segunda etapa generado por el codificador de banda baja de segunda etapa 511b.

Por otra parte, el número de referencia 1002 denota un aparato de decodificación para decodificar las secuencias de código obtenidas en el aparato de codificación 1001. En el aparato de decodificación 1002, el número 5 denota una unidad de transformación frecuencia-tiempo que lleva a cabo la transformación inversa a la de la unidad de transformación tiempo-frecuencia 503; el número 6 denota una unidad de multiplicación de ventana que multiplica la entrada por una función ventana del eje del tiempo; el número 7 denota una unidad de superposición de tramas; el número 8 denota una señal codificada; el número 9 denota una unidad de composición de bandas; el número 1201 denota una unidad de control de bandas de decodificación; los números 1202, 1203 y 1204 denotan un decodificador de banda baja, un decodificador de banda intermedia y un decodificador de banda alta que llevan a cabo la decodificación adaptativa respecto del codificador de banda baja 511, el codificador de banda intermedia 512 y el codificador de banda alta 513, respectivamente; y el número 1202b denota un decodificador de banda baja de segunda etapa que decodifica la salida del decodificador de banda baja de primera etapa 1202.

En la estructura descrita anteriormente, los codificadores (decodificadores) posteriores al codificador (decodificador) de primera etapa pueden disponerse de tal forma que incluyan más bandas o formen más etapas que las indicadas anteriormente. Incrementando el número de etapas de codificadores (decodificadores), la precisión de la codificación (decodificación) aumentará de la forma deseada.

A continuación, se describirá el funcionamiento del aparato de codificación 1001.

Se supone que la señal de audio original 501 que se va a codificar es una secuencia de señal digital que es temporalmente continua. Por ejemplo, es una señal digital obtenida cuantificando una señal de audio con 16 bits a una frecuencia de muestreo de 48 kHz.

La señal de audio digital 501 se introduce en la unidad de decisión de escala de análisis 502. La unidad de decisión de escala de análisis 502 investiga las características de la señal de audio original para decidir la escala de análisis 504, y el resultado se envía al aparato de decodificación 1002 como secuencia de código de escala de análisis 510. Como escala de análisis 504 se utiliza, por ejemplo, 256, 1024 ó 4096. Cuando el componente de alta frecuencia incluido en la señal de audio original 501 sobrepasa un valor predeterminado, la escala de análisis 504 que se decide es 256. Cuando el componente de baja frecuencia sobrepasa un valor predeterminado y el componente de alta frecuencia es inferior a un valor predeterminado, la escala de análisis 504 que se decide es 4096. En el resto de los casos, la escala de análisis 504 que se decide es 1024. Según la escala de análisis 504 decidida, la unidad de transformación tiempo-frecuencia 503 calcula un espectro 505 de la señal de audio original 501.

La Figura 2 es un diagrama de bloques que ilustra en mayor detalle la unidad de transformación tiempo-frecuencia 503.

La señal de audio original 501 se acumula en una unidad de división de tramas 201 hasta que se alcanza un número de muestras predeterminado. Cuando el número de muestras acumuladas llega al valor de la escala de análisis 504 decidida por la unidad de decisión de escala de análisis 502, la unidad de división de tramas 201 proporciona las muestras. Además, la unidad de división de tramas 201 proporciona las muestras para cada longitud de desplazamiento indicada previamente. Por ejemplo, en el caso en que la escala de análisis 504 es de 4096 muestras, si la longitud de desplazamiento establecida es la mitad de la escala de análisis 504, la unidad de división de tramas 201 proporciona las últimas 4096 muestras cada vez que la escala de análisis 504 llega a 2048 muestras. Naturalmente, aunque la escala de análisis 504 o la frecuencia de muestreo varíen, la longitud de desplazamiento puede establecerse en la mitad de la escala de análisis 504.

La salida de la unidad de división de tramas 201 se introduce en una unidad de multiplicación de ventana 202 en la etapa subsiguiente. En la unidad de multiplicación de ventana 202, la salida de la unidad de división de tramas 201 se multiplica por una función ventana en el eje del tiempo y se proporciona como resultado. Esta operación se expresa mediante la fórmula (1).

hxi=h_{i}*x_{i}

\hskip2cm

i=1,2, \Lambda,N

...(1)h_{i}=sin\left\{\frac{\pi}{N}(i+0.5)\right\}

siendo x_{i} la salida de la unidad de división de tramas 201, h_{i} la función ventana y hxi es la salida de la unidad de multiplicación de ventana 202. Además, i es un sufijo del tiempo. La función ventana h_{i} mostrada en la fórmula (1) sólo constituye un ejemplo, y la función ventana no se restringe a la de la fórmula (1).

La selección de la función ventana depende de la característica de la señal introducida en la unidad de multiplicación de ventana 202, la escala de análisis 504 de la unidad de división de tramas 201 y las formas de las funciones ventana de las tramas que están situadas temporalmente antes y después de la trama que se está procesando. Por ejemplo, la función ventana se selecciona de la forma indicada a continuación. Si se supone que la escala de análisis 504 de la unidad de división de tramas 201 es N, la característica de la señal introducida en la unidad de multiplicación de ventana 202 determina que la potencia media de las señales, que se calcula cada N/4, varíe de forma significativa y la escala de análisis 504 sea menor que N, antes de la operación de la fórmula (1). Además, es deseable que la función ventana sea seleccionada correctamente según la forma de la función ventana de una trama pasada y la forma de la función ventana de una trama futura, para no distorsionar la forma de la función ventana de la trama presente.

A continuación, la salida de la unidad de multiplicación de ventana 202 se introduce en una unidad MDCT 203, en la que la salida se somete a una transformada discreta del coseno modificada (MDCT) para generar coeficientes MDCT. La transformada discreta del coseno modificada se representa de forma general mediante la fórmula (2).

y_{k}=\sum\limits^{N-1}_{n=0}hx_{n} * cos\left\{\frac{2\pi\left(k+\tfrac{1}{2}\right)(n+n_{o})}{N}\right\}

...(2)n_{0}=\frac{N}{4}+\frac{1}{2}

\hskip0.5cm

\left(k=0,1,\Lambda,\tfrac{N}{2}-1\right)

Suponiendo que los coeficientes MDCT generados por la unidad MDCT 203 estén representados por y_{k} en la fórmula (2), los coeficientes MDCT presentan las características de frecuencia, y las características de frecuencia corresponden linealmente a componentes de frecuencia más baja a medida que la variable k de y_{k} se aproxima a 0, y corresponden a componentes de frecuencia más alta a medida que la variable k se aproxima a N/2-1, aumentando desde 0. Los coeficientes MDCT calculados de esta forma se representan mediante el espectro 505 de la señal de audio original.

A continuación, el espectro 505 de la señal de audio original se introduce en un filtro 701. Suponiendo que la entrada del filtro 701 sea x_{701}(i) y la salida del filtro 701 sea y_{701}(i), el filtro 701 se expresa mediante la fórmula (3).

y_{701}(i)=W_{701}(i)*\{x_{701}(i) + x_{701}(i+1)\}

...(3)i=0,1,\Lambda,fs-2

en la que fs es la escala de análisis 504.

El filtro 701 expresado por la fórmula (3) es un tipo de filtro de media móvil. No obstante, el filtro 701 no está restringido a dicho filtro de media móvil, sino que pueden utilizarse otros filtros como, por ejemplo, un filtro pasa alta o un filtro de supresión de banda.

La salida del filtro 701 y la escala de análisis 504 calculada en la unidad de decisión de escala de análisis 502 se introducen en una unidad de decisión de características 506. En la Figura 6, se muestra en detalle la unidad de decisión de características 506. En la unidad de decisión de características 506, se deciden las características acústicas y físicas de la señal de audio original 501 y del espectro 505 de la señal de audio original 501. Las características acústicas y físicas de la señal de audio original 501 y las del espectro 505 son, por ejemplo, una distinción entre la voz y la música. En el caso de la voz, la mayor parte de los componentes de frecuencia están incluidos en bandas inferiores a 6 kHz, por ejemplo.

A continuación, se describirá el funcionamiento de la unidad de decisión de características 506, en relación con la Figura 6.

Suponiendo que la señal obtenida mediante filtración con el filtro 701 del espectro 505 de la señal de audio original que se introduce en la unidad de decisión de características 506, mediante el filtro 701 sea x_{506}(i), se calcula la potencia del espectro p_{506}(i) a partir de x_{506}(i), según la fórmula (4), en la unidad de cálculo de potencia de espectro 803.

(4)p_{506}(i)=x_{506}(i)^{2}

La potencia de espectro p_{506}(i) se utiliza como una de las entradas de la unidad de control de bandas de codificación 507 descrita más adelante y se utiliza como ponderación de control de bandas 517.

Cuando la escala de análisis 504 es pequeña (por ejemplo, 256), una unidad de decisión de disposición 804 decide la disposición de los respectivos codificadores, que se colocan en una posición fija, y se envía una información de disposición de bandas de codificación 516 que indica "disposición fija" a una unidad de control de bandas de codificación 507.

Cuando la escala de análisis 504 no es pequeña (por ejemplo, 4096 ó 1024), la unidad de decisión de disposición 804 decide la disposición de los respectivos codificadores, que se colocan en una posición dinámica, y se envía una información de disposición de bandas de codificación 516 que indica "disposición dinámica" a la unidad de control de bandas de codificación 507.

A continuación, se describirá el funcionamiento de la unidad de control de bandas de codificación 507, en relación con la Figura 7.

La unidad de control de bandas de codificación 507 recibe la ponderación de control de bandas 517 generada por la unidad de decisión de características 506, la información de disposición de bandas de codificación 516, la señal obtenida filtrando con el filtro 701 el espectro 505 de la señal de audio original y el error de cuantificación 518, 519 ó 520 generado por el codificador 511, 512 ó 513. No obstante, la unidad de control de bandas de codificación 507 recibe estas entradas, debido a que los respectivos codificadores 511, 512, 513, 511b, ... y la unidad de control de bandas de codificación 507 funcionan de forma recursiva. Por lo tanto, puesto que durante la primera operación de la unidad de control de bandas de codificación 507 no existe ningún error de cuantificación, la unidad de control de bandas de codificación 507 recibe las tres entradas que no son errores de cuantificación.

Cuando la escala de análisis 504 es pequeña y la información de disposición de bandas de codificación 516 indica "disposición fija", las bandas de cuantificación de los codificadores, el número de codificadores y el orden de conexión son decididos por una unidad de decisión de orden de cuantificación 902, una unidad de decisión de número de codificadores 903 y una unidad de cálculo de ancho de banda 901, y de ese modo la codificación se ejecuta primero en banda baja, luego en banda intermedia y finalmente en banda alta, según una disposición fija definida de antemano y, por último se lleva a cabo una codificación para generar una secuencia de código de control de bandas 508. En la secuencia de código de control de bandas 508, la información de banda, el número de codificadores y el orden de conexión de los codificadores se codifica como información.

Por ejemplo, los codificadores se disponen de tal forma que las bandas de codificación de los respectivos codificadores y el número de codificadores se seleccionan del modo siguiente: un codificador en 0 Hz\sim4 Hz, un codificador en 0 Hz\sim8 kHz, un codificador en 4 kHz\sim12 kHz, dos codificadores en 8 kHz\sim16 kHz y tres codificadores en 16 kHz\sim24 kHz y, a continuación, se lleva a cabo la codificación.

Cuando la información de disposición de bandas de codificación 516 indica "disposición dinámica", la unidad de control de banda 507 funciona de la forma indicada a continuación.

Como se muestra en la Figura 7, la unidad de control de bandas de codificación 507 comprende una unidad de cálculo de ancho de banda 901 que decide los anchos de banda de cuantificación de los respectivos codificadores, una unidad de decisión de orden de cuantificación 902 que decide el orden de cuantificación de los respectivos codificadores y una unidad de decisión de número de codificadores 903 que decide el número de codificadores de cada banda. Es decir, los anchos de banda de los respectivos codificadores se deciden según las señales introducidas en la unidad de control de bandas de codificación 507. En cada una de las bandas predeterminadas (por ejemplo, 0 kHz\sim4 Hz, 0 Hz\sim8 kHz, 4 kHz\sim12 kHz, 8 kHz\sim16 kHz y 16 kHz\sim24 kHz), se calcula el promedio de los resultados obtenidos multiplicando la ponderación de control de bandas 517 y el error de cuantificación tras la codificación de cada codificador. Suponiendo que la ponderación de control de bandas 517 sea weight_{517}(i) y el error de cuantificación sea err_{507}(i), el promedio se calculará mediante la fórmula (5).

1

siendo j el índice de la banda, Ave_{501}(j) el promedio para la banda j y f_{upper}(j) y f_{lower}(j) la frecuencia de límite superior y la frecuencia de límite inferior para la banda j, respectivamente. Entonces, se calcula el valor de j para el cual el promedio Ave_{501}(j) adquiere el valor máximo, siendo este valor de j la banda que va a codificar el codificador. Además, el valor j obtenido se envía a la unidad de decisión de número de codificadores 903 para incrementar en uno el número de codificadores en la banda correspondiente a j, y el número de codificadores existentes en la banda de codificación se continúa almacenando. La codificación se repite hasta que la suma total del número de codificadores almacenados alcanza la suma global de los codificadores decididos de antemano. Por último, las bandas de los codificadores y el número de codificadores para las respectivas bandas se transmiten al decodificador, como una secuencia de código de control de bandas 508.

A continuación, se describirá el funcionamiento del codificador 3, en relación con la Figura 3.

El codificador 3 comprende una unidad de normalización 301 y una unidad de cuantificación 302.

La unidad de normalización 301 recibe tanto la señal del eje del tiempo generada por la unidad de división de tramas 201 como los coeficientes MDCT generados por la unidad MDCT 203, y normaliza los coeficientes MDCT utilizando algunos parámetros. Normalizar los coeficientes MDCT significa suprimir las variaciones de los valores de los coeficientes MDCT (valores que difieren considerablemente entre los componentes de banda baja y los componentes de banda alta). Por ejemplo, cuando el componente de banda baja es mucho más elevado que el componente de banda alta, se selecciona un parámetro que tiene un valor superior en el componente de banda baja y un valor inferior en el componente de banda alta para dividir los coeficientes MDCT, obteniéndose de ese modo coeficientes MDCT con variaciones suprimidas. Además, en la unidad de normalización 301, los índices que expresan los parámetros utilizados para la normalización se codifican como una secuencia de código normalizada 303.

La unidad de cuantificación 302 recibe como entrada los coeficientes MDCT normalizados por la unidad de normalización 301 y los cuantifica. Entonces, la unidad de cuantificación 302 genera un índice de código que presenta la diferencia menor entre lasdiferencias entre los valores cuantificados y las respectivas salidas cuantificadas correspondientes a una pluralidad de índices de código incluidos en un libro de códigos. En este caso, la diferencia entre el valor cuantificado por la unidad de cuantificación 302 y el valor correspondiente al índice de código generado por la unidad de cuantificación 203 es el error de cuantificación.

A continuación, se describirá en mayor detalle la unidad de normalización 301, en relación con la Figura 4.

En la Figura 4, el número de referencia 401 denota una unidad de normalización de contorno de frecuencia que recibe la salida de la unidad de división de tramas 201 y la salida de la unidad MDCT 203, y el número 402 denota una unidad de normalización de amplitud de banda que recibe la salida de la unidad de normalización de contorno de frecuencia 401 y efectúa la normalización con referencia a una tabla de bandas 403.

A continuación, se describirá el funcionamiento de la unidad de normalización 301.

La unidad de normalización de contorno de frecuencia 401 calcula un contorno de frecuencia, es decir, una forma aproximada de la frecuencia, utilizando los datos del eje del tiempo proporcionados por la unidad de división de tramas 201, y divide los coeficientes MDCT proporcionados por la unidad MDCT 203. Los parámetros utilizados para expresar el contorno de frecuencia se codifican como una secuencia de código normalizada 303. La unidad de normalización de amplitud de banda 402 recibe la señal de salida de la unidad de normalización de contorno de frecuencia 401 y lleva a cabo la normalización de cada banda mostrada en la tabla de bandas 403. Por ejemplo, suponiendo que los coeficientes MDCT proporcionados por la unidad de normalización de contorno de frecuencia 401 sean dct(i) (i = 0\sim2047) y la tabla de bandas 403 sea la representada en la [Tabla 1]:

2

entonces, el promedio de las amplitudes de cada banda se calcula según la fórmula (6).

sum_{j}=\sum\limits_{i=bjlow}^{bjhigh}dct(i)^{p}

...(6)ave_{j}=\left(\frac{sum_{j}}{bjhigh-bjlow+1}\right)^{-p}

\hskip0.7cm

bjlow \leq i \leq bjhigh

siendo bjlow y bjhigh el índice de banda inferior i y el índice de banda superior i,respectivamente, correspondientes al coeficiente dct(i) de la j-ésima banda mostrada en la tabla de bandas 203. Además, p es la norma del cálculo de distancia, que preferentemente es 2. Asimismo, ave_{j} es el promedio de las amplitudes de cada banda j. La unidad de normalización de amplitud de banda 402 cuantifica ave_{j} para obtener qave_{j} y lo normaliza según la fórmula (7).

(7)n\_dct(i)=dct(i)/qave_{j}

\hskip0.7cm

bjlow\leq i \leq bjhigh

Para cuantificar ave_{j}, puede emplearse la cuantificación escalar o la cuantificación vectorial mediante el libro de códigos. La unidad de normalización de amplitud de banda 402 codifica los índices de los parámetros utilizados para expresar qave_{j}, como una secuencia de código normalizada 303.

Aunque la unidad de normalización 301 del codificador comprende tanto la unidad de normalización de contorno de frecuencia 401 como la unidad de normalización de amplitud de banda 402 mostradas en la Figura 4, también puede comprender sólo una de estas unidades 401 ó 402. Además, cuando no existen variaciones significativas entre los componentes de banda baja y los componentes de banda alta de los coeficientes MDCT generados por la unidad MDCT 203, la salida de la unidad MDCT 203 puede introducirse directamente en la unidad de cuantificación 302 sin utilizar las unidades 401 y 402.

A continuación, se describirá en mayor detalle la unidad de normalización de contorno de frecuencia 401 mostrada en la Figura 4, en relación con la Figura 5. En la Figura 5, el número de referencia 601 denota una unidad de análisis de predicción lineal que recibe la salida de la unidad de división de tramas 201, el número 602 denota una unidad de cuantificación de contorno que recibe la salida de la unidad de análisis de predicción lineal 601 y el número 603 denota una unidad de normalización de características de envolvente que recibe la salida de la unidad MDCT 203.

A continuación, se describirá el funcionamiento de la unidad de normalización de contorno de frecuencia, en relación con la Figura 5.

La unidad de análisis de predicción lineal 601 recibe la señal de audio del eje del tiempo proporcionada por la unidad de división de tramas 201 y la somete a codificación predictiva lineal (LPC). Por lo general, los coeficientes de predicción lineal (coeficientes LPC) pueden obtenerse calculando una función de autocorrelación de la señal que se multiplica por una ventana (por ejemplo, ventana de Humming) y resolviendo una ecuación de normalización. Los coeficientes LPC calculados se transforman en coeficientes de pares de líneas espectrales (coeficientes LSP) o similares para ser cuantificados por la unidad de cuantificación de contorno 602. Como procedimiento de cuantificación puede utilizarse la cuantificación vectorial o la cuantificación escalar. A continuación, la unidad de normalización de características de envolvente 603 calcula las características de transferencia de frecuencia expresadas por los parámetros cuantificados por la unidad de cuantificación de contorno 602, y los coeficientes MDCT generados por la unidad MDCT 203 se dividen por las características de transferencia de frecuencia, normalizándose de ese modo los coeficientes MDCT. Para concretar, suponiendo que los coeficientes LPC equivalentes a los parámetros cuantificados por la unidad de cuantificación de contorno 602 sean qlpc(i), las características de transferencia de frecuencia calculadas por la unidad de normalización de características de envolvente 603 podrán expresarse mediante la fórmula (8).

3

siendo ORDER preferentemente 10\sim40, y fft ( ) una transformada de Fourier de alta velocidad. Utilizando las características de transferencia de frecuencia env(i) calculadas, la unidad de normalización de características de envolvente 603 lleva a cabo la normalización de características de envolvente según la fórmula (9).

(9)fdct(i)=\frac{mdct(i)}{env(i)}

siendo mdct(i) la señal de salida de la unidad MDCT 203, y fdct (i) la señal de salida normalizada de la unidad de normalización de características de envolvente 603.

A continuación, se describirá en mayor detalle el funcionamiento de la unidad de cuantificación 302 incluida en el codificador 1, en relación con la Figura 8.

Inicialmente, se extraen algunos de los coeficientes MDCT 1001 introducidos en la unidad de cuantificación 302 para formar un subvector de fuente de sonido 1003. Suponiendo que las secuencias de coeficientes (obtenidas dividiendo los coeficientes MDCT introducidos en la unidad de normalización 301 por los coeficientes MDCT obtenidos de la unidad de normalización 301) sean componentes normalizados 1002, se obtendrá un subvector de los componentes normalizados 1002 según la misma regla de extracción que la del subvector de fuente de sonido 1003 de los coeficientes MDCT 1001, proporcionando de ese modo un subvector de ponderación 1004. La regla de extracción del subvector de fuente de sonido 1003 (el subvector de ponderación 1004) de los coeficientes MDCT 1001 (los componentes normalizados 1002) se representa mediante la fórmula (10).

4

siendo el subvector_{i}(j) el j-ésimo elemento del i-ésimo subvector de fuente de sonido, vector ( ) los coeficientes MDCT 1001, TOTAL el número total de elementos de los coeficientes MDCT 1001, CR el número de elementos del subvector de fuente de sonido 1003 y VTOTAL un valor mayor o igual a TOTAL, que determina que VTOTAL/CR sea un número entero. Por ejemplo, cuando TOTAL es 2048, CR es 19 y VTOTAL es 2052 o CR es 23 y VTOTAL es 2070 o CR es 21 y VTOTAL es 2079. Los subvectores de ponderación 1004 pueden extraerse según el procedimiento de la fórmula (10).

El cuantificador vectorial 1005 busca en el libro de código 1009 el vector de código que tiene la distancia más corta desde el subvector de fuente de sonido 1003, tras ser ponderado mediante el subvector de ponderación 1004. El cuantificador vectorial 1005 proporciona el índice del vector de código que tiene la distancia menor y un subvector residual 1010 que corresponde al error de cuantificación entre el vector de código que tiene la distancia más corta y el subvector de fuente de sonido de entrada 1003.

A continuación, se proporciona un ejemplo de un procedimiento de cálculo práctico que parte de la premisa de que el cuantificador vectorial 1005 se compone de medios de cálculo de distancia 1006, medios de decisión de código 1007 y medios de generación de residuo 1008.

Los medios de cálculo de distancia 1006 calculan la distancia entre el i-ésimo subvector de fuente de sonido 1003 y el k-ésimo vector de código del libro de códigos 1009 utilizando la fórmula (11).

... (11)dik=\sum\limits_{j=o}^{CR-1}w_{j}^{R}(subvector_{i}(j)-C_{k}(j))^{s}

siendo w_{j} el j-ésimo elemento del subvector de ponderación, C_{k}(j) el j-ésimo elemento del k-ésimo vector de código y R y S normas para el cálculo de la distancia. Los valores de R y S deseables son 1, 1,5 y 2. Estas normas R y S pueden tener diferentes valores. Además, dik es la distancia del k-ésimo vector de código del i-ésimo subvector de fuente de sonido. Los medios de decisión de código 1007 seleccionan el vector de código que tiene la distancia más corta de las distancias calculadas mediante la fórmula (11), y codifican el índice del vector de código seleccionado como una secuencia de código 304. Por ejemplo, cuando diu es el valor más pequeño de la pluralidad de valores dik, el índice que se codificará con respecto al i-ésimo subvector es u. Los medios de generación de residuo 1008 generan el subvector residual 1010 utilizando el vector de código seleccionado por los medios de decisión de código 1007, según la fórmula (12).

(12)res_{i}(j)=subvector_{i}(j)-C_{u}(j)

siendo res_{i}(j) el j-ésimo elemento del i-ésimo subvector residual 1010 y c_{u}(j) el j-ésimo elemento del vector de código seleccionado por los medios de decisión de código 1007.A continuación, se efectúa la operación aritmética inversa a la de la fórmula (10) para obtener un vector utilizando el subvector residual 101, y la diferencia entre este vector y el vector que era el objetivo original de codificación original de este codificador se retiene como coeficientes MDCT para cuantificar en los subsiguientes codificadores. No obstante, cuando la codificación de alguna banda no influye en los subsiguientes codificadores, es decir, cuando los subsiguientes codificadores no llevan a cabo ninguna codificación, no es necesario que los medios de generación de residuo 1008 generen el subvector residual 1010 y los coeficientes MDCT 1011. Aunque el número de vectores de código incluidos en el libro de códigos 1009 no se indica, es preferentemente de alrededor de 64 cuando se considera la capacidad de memoria y el tiempo de cálculo.

La estructura proporcionada a continuación constituye otro ejemplo de cuantificador vectorial 1005. Los medios de cálculo de distancia 1006 calculan la distancia utilizando la fórmula (13).

5

siendo K el número total de vectores de código utilizados para la recuperación de códigos del libro de códigos 1009.

Los medios de decisión de código 1007 seleccionan el valor de k que proporciona el valor mínimo de la distancia dik calculada en la fórmula (13), y codifican el índice del mismo. En este caso, k adopta cualquier valor comprendido entre 0 y 2K-1. Los medios de generación de residuo 1008 generan un subvector residual 1010 utilizando la fórmula (14).

6

Aunque el número de vectores de código incluidos en el libro de códigos 1009 no está limitado, es preferentemente de alrededor de 64 cuando se considera la capacidad de memoria y el tiempo de cálculo.

Además, aunque el subvector de ponderación 1004 se genera a partir de componentes normalizados 1002 en la estructura descrita anteriormente, es posible generar un subvector de ponderación multiplicando el subvector de ponderación 1004 por una ponderación relativa a las características acústicas de los seres humanos.

Como se ha descrito anteriormente, los anchos de banda, el número de codificadores de cada banda y el orden de conexión de los codificadores se decide de forma dinámica. La cuantificación se lleva a cabo según la información de los respectivos codificadores decididos.

Por otra parte, el aparato de decodificación 2 lleva a cabo la decodificación utilizando las secuencias de código normalizadas que se obtienen de los codificadores de las respectivas bandas, las secuencias de código procedentes de las unidades de cuantificación correspondientes a las secuencias de código normalizadas, las secuencias de código de control de bandas obtenidas de la unidad de control de bandas de codificación y las secuencias de código de escala de análisis obtenidas de la unidad de decisión de escala de análisis.

La Figura 9 muestra la estructura de los decodificadores 1202, 1203 ó similares. Cada codificador comprende una unidad de cuantificación inversa 1101 que reproduce coeficientes MDCT normalizados, y una unidad de normalización inversa 1102 que decodifica los coeficientes de normalización (los parámetros utilizados para la normalización) y multiplica los coeficientes MDCT normalizados reproducidos por los coeficientes de normalización.

Para concretar, en la unidad de normalización inversa 1102, los parámetros utilizados para la normalización en el aparato de codificación 1 se reproducen a partir de la secuencia de código normalizada 303 obtenida de la unidad de normalización del aparato de codificación 1, y la salida de la unidad de cuantificación inversa 1101 se multiplica por los parámetros para reproducir los coeficientes MDCT.

En la unidad de control de bandas de decodificación 1201, la información relativa a la disposición y número de codificadores utilizados en el aparato de codificación se reproduce utilizando la secuencia de código de control de bandas 508 obtenida de la unidad de control de bandas de codificación 507, y los decodificadores se disponen en las respectivas bandas, según la información. A continuación, una unidad de composición de bandas 9 obtiene coeficientes MDCT y coloca las bandas en el orden inverso al de codificación de los respectivos codificadores del aparato de codificación. Los coeficientes MDCT obtenidos se introducen en una unidad de transformación frecuencia-tiempo 5, donde se someten a MDCT inversa para reproducir la señal del dominio del tiempo a partir de la señal del dominio de la frecuencia. La MDCT inversa se representa mediante la fórmula (15).

...(15)xx(n)=\frac{2}{N}\sum\limits_{K-0} ^{N-1} yy_{k}cos\left\{\frac{2\pi(k+1/2)(n+n_{0})}{N}\right\}

n_{0}=\frac{N}{4}+\frac{1}{2}

siendo yy_{k} los coeficientes MDCT reproducidos en la unidad de composición de bandas 9, y xx(n) los coeficientes MDCT inversos obtenidos de la unidad de transformación frecuencia-tiempo 5.

La unidad de multiplicación de ventana 6 efectúa la multiplicación de ventana utilizando la salida xx(i) de la unidad de transformación frecuencia-tiempo 5. Esta multiplicación de ventana se lleva a cabo según la fórmula (16), utilizando la misma ventana que la utilizada por la unidad de transformación tiempo-frecuencia 503 del aparato de codificación 1.

(16)z(i)=xx(i)*h_{i}

siendo z(i) la salida de la unidad de multiplicación de ventana 6.

La unidad de superposición de tramas 7 reproduce la señal de audio, mediante la salida de la unidad de multiplicación de ventana 6. Puesto que la salida de la unidad de multiplicación de ventana 6 es una señal superpuesta temporalmente, la unidad de superposición de tramas 7 genera una señal de salida 8 del aparato de decodificación 2, mediante la fórmula (17).

(17)out_{m}(i)=z_{m}(i)+z_{m-1}(i+SHIFT)

siendo z_{m}(i) la i-ésima señal de salida z(i) de la unidad de multiplicación de ventana 6 en la m-ésima trama de tiempo, z_{m-1}(i) la i-ésima señal de salida de la unidad de multiplicación de ventana 6 en la (m-1)-ésima trama de tiempo, SHIFT el número de muestras correspondiente a la escala de análisis del aparato de codificación, y out_{m}(i) la señal de salida del aparato de decodificación 2 en la m-ésima trama de tiempo de la unidad de superposición de tramas 7.

En esta primera forma de realización, el rango de frecuencias cuantificable calculado por la unidad de cálculo de ancho de banda 901, incluida en la unidad de control de bandas de codificación 507, puede restringirse mediante la escala de análisis 504, tal como se describe a continuación.

Por ejemplo, cuando la escala de análisis 504 es 256, los límites inferior y superior del rango de frecuencias cuantificable de cada codificador se establece en alrededor de 4 kHz y 24 kHz, respectivamente. Cuando la escala de análisis 504 es 1024 ó 2048, los límites inferior y superior mencionados se establecen en 0 Hz y alrededor de 16 kHz, respectivamente. Además, cuando la escala de análisis 504 llega a ser 256, durante un período predeterminado (p.ej., alrededor de 20 ms), el rango de frecuencias cuantificable de cada cuantificador y la disposición de los cuantificadores puede fijarse bajo control de la unidad de decisión de orden de cuantificación 902. De esta forma, la disposición de los cuantificadores se fija desde el punto de vista del tiempo y se suprime la presencia de entradas y salidas de bandas de voz (es decir, percepción acústica en la que una voz que se halla principalmente en la banda alta pasa a ser, en un momento, voz de banda baja).

Como se ha descrito anteriormente, el aparato de codificación de señales de audio según la primera forma de realización está provisto de una unidad de valoración de características que decide la banda de frecuencias de la señal de audio que será cuantificada por cada uno de los codificadores de las diversas etapas de codificadores; y la unidad de control de bandas de codificación, que recibe la banda de frecuencias decidida por la unidad de decisión de características y la señal de audio original sometida a transformación tiempo-frecuencia, decide el orden de conexión de los respectivos codificadores y transforma las bandas de cuantificación de los codificadores y el orden de conexión en secuencias de código, llevándose a cabo de ese modo una codificación escalable adaptativa. Por consiguiente, es posible proporcionar un aparato de codificación de señales de audio que lleve a cabo una codificación escalable adaptativa de alta calidad y eficacia con un rendimiento suficiente para diversas señales de audio, y un aparato de decodificación que pueda decodificar las señales de audio codificadas.

Forma de realización 2

A continuación, se describirá una segunda forma de realización de la presente invención, en relación con las Figuras 14 a 20.

La Figura 14 es un diagrama de bloques que ilustra un aparato de codificación 2001 que lleva a cabo una codificación escalable adaptativa, y un aparato de decodificación 2002 adaptado al aparato de codificación 2001, según la segunda forma de realización de la presente invención. En el aparato de codificación 2001, el número de referencia 200105 denota las condiciones de codificación como, por ejemplo, el número de codificadores, la velocidad de transmisión binaria, la frecuencia de muestreo de la señal de audio de entrada y la información de bandas de codificación de cada codificador; el número 200107 denota una unidad de decisión de características que decide las bandas de frecuencias de las señales de audio que van a ser cuantificadas por las diversas etapas de codificadores; el número 200109 denota información de disposición de bandas de codificación; el número 200110 denota una unidad de control de bandas de codificación, que recibe las bandas de frecuencias decididas por la unidad de decisión de características 200107 y la señal de audio sometida a transformación tiempo-frecuencia y transforma las bandas de cuantificación de los respectivos codificadores y el orden de conexión de los codificadores en una secuencia de código 200111; y el número 200112 denota una unidad de composición de secuencias de código de transmisión. Además, en el aparato de decodificación 2002, el número de referencia 200150 denota una unidad de descomposición de secuencias de código de transmisión; el número 200151 denota una secuencia de código; el número 200153b denota una unidad de control de bandas de decodificación que recibe la secuencia de código 200151 y controla las bandas de decodificación de los decodificadores para decodificar la secuencia de código 200151 y el número 200154b denota un espectro decodificado. El aparato de codificación 2001 de esta segunda forma de realización lleva a cabo una codificación escalable adaptativa, como el aparato de codificación 1001 de la primera forma de realización. No obstante, el aparato de codificación 2001 es diferente del aparato de codificación 1001 en los puntos indicados a continuación. La unidad de control de bandas de codificación 200110 del aparato de codificación 2001 incluye una unidad de control de bandas de decodificación 200153 y el aparato de decodificación 2002 incluye una unidad de control de bandas de decodificación 200153b idéntica a la unidad de control de bandas de decodificación 200153. Además, la unidad de cálculo de potencia de espectro 803 de la unidad de decisión de características 506 de la primera forma de realización es sustituida por una unidad de cálculo de modelo psicoacústico 200602. Por otra parte, la unidad de decisión de características 200107 incluye medios de generación de información de disposición de bandas de codificación 200604 que generan información de disposición de bandas de codificación 200109 según las condiciones de codificación 200105, la información de bandas de codificación 200702 proporcionada por la unidad de cálculo de bandas de codificación 200601 y el número de bandas 200606 proporcionado por la unidad de decisión de disposición 200603.

A continuación, se describirá el funcionamiento del aparato de codificación 2001.

Se supone que la señal de audio original 501 que va a ser codificada por el aparato de codificación 2001 es una secuencia de señal digital que es temporalmente continua.

Inicialmente, el espectro 505 de la señal de audio original 501 se obtiene mediante el mismo procedimiento que el descrito para la primera forma de realización. En esta segunda forma de realización, las condiciones de codificación 200105, que incluyen el número de codificadores, la velocidad de transmisión binaria, la frecuencia de muestreo de la señal de audio de entrada y la información de bandas de codificación de los respectivos codificadores, se introducen en la unidad de decisión de características 200107 del aparato de codificación 2001. La unidad de decisión de características 200107 proporciona la información de disposición de bandas de codificación 200109 que incluye las bandas de cuantificación de los respectivos codificadores y el orden de conexión e los mismos, a la unidad de control de bandas de codificación 200110. La unidad de control de bandas de codificación 200110 recibe la información de disposición de bandas de codificación 200109 y el espectro 505 de la señal de audio original y lleva a cabo la codificación, basándose en estas entradas. mediante los codificadores bajo control de la unidad de control 200110, proporcionando de ese modo la secuencia de código 200111. La secuencia de código 200111 se introduce en la unidad de composición de secuencias de código de transmisión 200112 donde será compuesta y el resultado obtenido se envía al aparato de decodificación 2002.

En el aparato de decodificación 2002, la unidad de de secuencias de código transmitidas 200150 recibe la salida de la unidad de composición de secuencias de código de transmisión 2001 y la descompone en la secuencia de código 200151 y la secuencia de código de escala de análisis 200152. La secuencia de código 200151 se introduce en la unidad de control de bandas de decodificación 200153, donde es decodificada por los decodificadores bajo control de la unidad de control 200153, obteniéndose de ese modo el espectro decodificado 200154. A continuación, basándose en el espectro decodificado 200152 y la secuencia de código de escala de análisis 200152, se obtiene la señal decodificada 8 utilizando la unidad de transformación frecuencia-tiempo 5, la unidad de multiplicación de ventana 6 y la unidad de superposición de tramas 7.

A continuación, se describirá el funcionamiento de la unidad de decisión de características 200107, en relación con la Figura 16.

La unidad de decisión de características 200107 comprende la unidad de cálculo de bandas de codificación 200601 que calcula la información de disposición de bandas de codificación 200702 utilizando las condiciones de codificación 200105; la unidad de cálculo de modelo psicoacústico 200602 que calcula una ponderación psicoacústica 200605, basándose en las características psicoacústicas de los seres humanos, a partir de la información de espectro (p.ej., el espectro 505 de la señal de audio original o el espectro de diferencia 200108) y la información de bandas de codificación 200702; la unidad de decisión de disposición 200603 que, utilizando la ponderación psicoacústica 200605 para ponderar con referencia a la escala de análisis 503, decide la disposición de las bandas de los respectivos codificadores y proporciona el número de bandas 200606; y la unidad de generación de información de disposición de bandas de codificación 200604 que genera la información de disposición de bandas de codificación 200109, a partir de las condiciones de codificación 200105, la información de bandas de codificación 200702 proporcionada por la unidad de cálculo de bandas de codificación 200601 y el número de bandas 200606 proporcionado por la unidad de decisión de disposición 200603.

La unidad de cálculo de bandas de codificación 200601 calcula el límite superior fpu(k) y el límite inferior fpl(k) de la banda de codificación que va a ser codificada por el codificador 2003 mostrado en la Figura 15, utilizando la condición de codificación 200105 que se ha establecido antes de que el aparato de codificación 2001 se ponga en funcionamiento. Los límites superior e inferior se envían a la unidad de generación de información de disposición de bandas de codificación 200604, como información de bandas de codificación 200702. En este caso, k es el número que indica la banda de codificación y, entonces, cuando k se aleja de 0 para aproximarse al número máximo pmax establecido previamente, significa que la banda es una banda de alta frecuencia.Por ejemplo, pmax es 4. En la Tabla 2, se proporciona un ejemplo del funcionamiento de la unidad de cálculo de bandas de codificación 200601.

TABLA 2

banda k	fpu(k)	fpl(k)
0	221	0
1	318	222
2	415	319
3	512	416

condición de codificación: frecuencia de muestreo = 48 kHz, velocidad de transmisión binaria total = 24 kb/s

banda k	Fpu(k)	fpl(k)
0	443	0
1	637	444
2	831	638
3	1024	832

condición de codificación: frecuencia de muestreo = 24 kHz, velocidad de transmisión binaria total = 24 kb/s

La unidad de cálculo de modelo psicoacústico 200602 calcula una ponderación psicoacústica 200605, basándose en las características psicoacústicas de los seres humanos, a partir de la información de espectro (por ejemplo, la señal de salida del filtro 701 o el espectro de diferencia 200108 obtenido de la unidad de control de bandas de codificación 200110) y la información de bandas de codificación 200702 obtenida de la unidad de cálculo de bandas de codificación 200601. La ponderación psicoacústica 200605 tiene un valor relativamente alto para un ancho de banda que es importante desde el punto de vista psicoacústico, y un valor relativamente bajo para una banda que no es tan importante desde el punto de vista psicoacústico. El cálculo de modelo psicoacústico puede llevarse a cabo, por ejemplo, calculando la potencia del espectro de entrada. Suponiendo que el espectro de entrada sea x_{602}(i), la ponderación psicoacústica w_{pay}(k) vendrá representada por:

7

La ponderación psicoacústica 200605 calculada se introduce en la unidad de decisión de disposición 200603, donde se calcula la banda en la que la ponderación psicoacústica 200605 adquiere el valor máximo, en relación con la escala de análisis 503, bajo la siguiente condición. En particular, cuando la escala de análisis 503 es pequeña (p.ej., 128), la ponderación psicoacústica 200605 de una banda que tiene un número de bandas alto 200606 (p.ej., 4) se incrementa, por ejemplo, para ser el doble, mientras que cuando la escala de análisis no es pequeña, la ponderación psicoacústica 200605 se utiliza tal cual. Entonces, el número de bandas 200606 se envía a la unidad de generación de información de disposición de bandas de codificación 200604.

La unidad de generación de información de disposición de bandas de codificación 200604 recibe la información de bandas de codificación 200702, el número de bandas 200606 y la condición de codificación 200105, y proporciona información de disposición de bandas de codificación 200109. Para concretar, la unidad de generación de información de disposición de bandas de codificación 200604 proporciona, con referencia a la condición de codificación 200105, la información de disposición de bandas de codificación 200109 que comprende la información de bandas de codificación 200702 y el número de bandas 200606 que se conectan, siempre y cuando se requiera información de disposición de bandas de codificación 200109. Cuando la información de disposición de bandas de codificación 200109 deja de ser necesaria, la unidad de generación de información de disposición de bandas de codificación 200604 deja de proporcionar la información 200109. Por ejemplo, la unidad 200604 continúa proporcionando el número de bandas 200606 hasta que se alcanza el número de codificadores indicado por la condición de codificación 200105. Además, cuando la escala de análisis 503 es pequeña, el número de bandas de salida 200606 puede fijarse en la unidad de decisión de disposición 200603.

A continuación, se describirá el funcionamiento de la unidad de control de bandas de codificación 200110, en relación con la Figura 17.

La unidad de control de bandas de codificación 200110 recibe la información de disposición de bandas de codificación 200109 proporcionada por la unidad de decisión de características 200107 y el espectro 505 de la señal de audio original, y proporciona la secuencia de código 200111 y el espectro de diferencia 200108. La unidad de control de bandas de codificación 200110 comprende medios de desplazamiento de espectro 200701 que reciben la información de disposición de bandas de codificación 200109, y desplazan el espectro de diferencia 200108 entre el espectro 505 de la señal de audio original y el espectro decodificado 200705, obtenido codificando el espectro 505 que tenía anteriormente la señal de audio original y decodificándolo, hacia la banda del número de bandas 200606; un codificador 2003; medios de cálculo de diferencia 200703 que calculan la diferencia entre el espectro 505 de la señal de audio original y el espectro decodificado 200705; medios de almacenamiento de espectro de diferencia 200704 y una unidad de control de bandas de decodificación 200153 que someten el espectro compuesto 2001001, obtenido mediante la secuencia de código 200111 que es decodificada por el decodificador 2004, a desplazamiento de espectro utilizando la información de disposición de bandas de codificación 200702, y calculan el espectro decodificado 200705b utilizando el espectro compuesto desplazado. La estructura de los medios de desplazamiento de espectro 200701 se muestra en la Figura 20. Los medios de desplazamiento de espectro 200701 reciben el espectro original 2001101 que se va a desplazar y la información de disposición de bandas de codificación 200109. Entre las entradas de los medios de desplazamiento de espectro 200701, se incluye el espectro 2001101 que se va a desplazar, que puede ser el espectro 505 de la señal de audio original o el espectro de diferencia 200108, y los medios de desplazamiento de espectro 200701 desplazan el espectro hacia la banda del número de bandas 200606 para proporcionar el espectro desplazado 2001102 y la información de bandas de codificación 200702 incluida en la información de disposición de bandas de codificación 200109. La banda correspondiente al número de bandas 200606 se obtiene a partir de fpl(k) y fpu(k) de la información de bandas de codificación 200702. El procedimiento de desplazamiento consiste en desplazar el espectro entre fpl(k) y fpu(k) hasta la banda que puede ser procesada por el codificador 2003.

El codificador 2003 recibe el espectro 2001102 desplazado y genera una secuencia de código normalizada 303 y una secuencia de código residual 304 como las mostradas en la Figura 15. Estas secuencias 303 y 304 y la información de bandas de codificación 200702 que se obtiene de los medios de desplazamiento de espectro 200701 se proporcionan como una secuencia de código 200111 a la unidad de composición de códigos de transmisión 200112 y a la unidad de control de bandas de decodificación 200153.

La secuencia de código 200111 proporcionada por el codificador 2003 se introduce en la unidad de control de bandas de decodificación 200153 de la unidad de control de bandas de codificación 20011. La unidad de control de bandas de decodificación 200153 funciona de la misma manera que la unidad de control de bandas de decodificación 200153b incluida en el aparato de decodificación 2002.

La estructura de la unidad de control de bandas de decodificación 200153b se muestra en la Figura 19.

La unidad de control de bandas de decodificación 200153b recibe la secuencia de código 200111 desde la unidad de descomposición de secuencias de código transmitidas 200150 y proporciona un espectro decodificado 200705b. La unidad de control de bandas de decodificación 200153 incluye un decodificador 2004, medios de desplazamiento de espectro 200701 y una unidad de cálculo de espectro decodificado 2001003b.

La estructura del decodificador 2004 se muestra en la Figura 18.

El decodificador 2004 comprende una unidad de cuantificación inversa 1101 y una unidad de normalización inversa 1102. La unidad de cuantificación inversa 1101 recibe la secuencia de código residual 304 en la secuencia de código 200111, transforma la secuencia de código residual 304 en un índice de código y reproduce el código consultando el libro de códigos utilizado en el codificador 2003. El código reproducido se envía a la unidad de normalización inversa 1102, donde el código se multiplica por la secuencia de coeficientes normalizada 303a reproducida a partir de la secuencia de código normalizada 303 de la secuencia de código 200111, para generar un espectro compuesto 2001001. El espectro compuesto 2001001 se introduce en los medios de desplazamiento de espectro 200701.

Aunque la salida de la unidad de control de bandas de decodificación 200153 incluida en la unidad de control de bandas de codificación 200110 es el espectro decodificado 200705, éste es idéntico al espectro compuesto 2001001 obtenido de la unidad de control de bandas de decodificación 200153 incluida en el aparato de decodificación 2002.

El espectro compuesto 2001001 obtenido por el decodificador 2004 es desplazado por los medios de desplazamiento de espectro 200701 y se convierte en un espectro compuesto desplazado 2001002 que se introduce en la unidad de cálculo de espectro decodificado 2001003.

El espectro compuesto de entrada en la unidad de cálculo de espectro decodificado 2001003 se almacena y se suma al último espectro compuesto para generar el espectro decodificado 200705b que se proporcionará.

Los medios de cálculo de diferencia 200703 de la unidad de control de bandas de codificación 200110 calculan la diferencia entre el espectro 505 de la señal de audio original y el espectro decodificado 200705 para proporcionar un espectro de diferencia 200108, y dicho espectro 200108 se vuelve a introducir en la unidad de decisión de características 200107. Al mismo tiempo, el espectro de diferencia 200108 es almacenado en los medios de almacenamiento de espectro de diferencia 200704 para ser enviados a los medios de desplazamiento de espectro 200701 para la siguiente entrada de información de disposición de bandas de codificación 200109. En la unidad de decisión de características 200107, los medios de generación de información de disposición de bandas de codificación continúan proporcionando la información de disposición de bandas de codificación 200109 con referencia a la condición de codificación, hasta que se cumple la condición de codificación. Cuando se interrumpe la salida de la información de disposición de bandas de codificación 200109, también se interrumpe el funcionamiento de la unidad de control de bandas de codificación 200110.La unidad de control de bandas de codificación 200110 está provista de medios de almacenamiento de espectro de diferencia 200704 para el cálculo del espectro de diferencia 200108. Los medios de almacenamiento de espectro de diferencia 200704 están constituidos por un área de almacenamiento destinada a almacenar los espectros de diferencia (por ejemplo, una matriz capaz de almacenar 2048 elementos numéricos).

Como se ha descrito anteriormente, el procedimiento de la unidad de decisión de características 200107 y el subsiguiente procedimiento de la unidad de control de bandas de codificación 2000110 se repiten para satisfacer la condición de codificación 200105,generándose y transmitiéndose de esta forma las secuencias de código 200111, una tras otra, a la unidad de composición de secuencias de código de transmisión 200112. En la unidad de composición de secuencias de código de transmisión 200112, las secuencias de código 200111 se combinan con la secuencia de código de escala de análisis 510 para generar una secuencia de código de transmisión. La secuencia de código compuesta se transmite al aparato de decodificación 2002.

En el aparato de decodificación 2002, la unidad de descomposición de secuencias de código de transmisión 200150 descompone la secuencia de código de transmisión transmitida desde el aparato de codificación 2001 en una secuencia de código 200151 y una secuencia de código de escala de análisis 200152. La secuencia de código 200151 y la secuencia de código de escala de análisis 200152 son idénticas a la secuencia de código 200111 y la secuencia de código de escala de análisis 510 del aparato de codificación 2001, respectivamente.

La secuencia de código 200151 se transforma en un espectro decodificado 200154b en la unidad de control de bandas de decodificación 200153b, y el espectro decodificado 200154b se transforma en una señal del dominio del tiempo en la unidad detransformación frecuencia-tiempo 5, la unidad de multiplicación de ventana 6 y la unidad de superposición de tramas 7, utilizando la información de la secuencia de código de escala de análisis 200152 para proporcionar una señal decodificada 8.

Como se ha descrito anteriormente, el aparato de codificación y decodificación de señales de audio según la segunda forma de realización es similar a la primera forma de realización, en la medida en que está provista de la unidad de decisión de características que decide la banda de frecuencias de la señal de audio que va a ser cuantificada por cada uno de los codificadores de las diversas etapas; y la unidad de control de bandas de codificación que recibe como entradas la banda de frecuencias decidida por la unidad de decisión de características y la señal de audio original sometida a transformación tiempo-frecuencia, y decide el orden de conexión de los codificadores y transforma las bandas de cuantificación de los respectivos codificadores y el orden de conexión en secuencias de código, llevando a cabo de ese modo una codificación escalable adaptativa. En esta segunda forma de realización, el aparato de codificación incluye además la unidad de control de bandas de codificación que incluye la unidad de control de bandas de decodificación, y el aparato de decodificación incluye además una unidad de control de bandas de decodificación. Además, la unidad de cálculo de potencia de espectro incluida en la unidad de decisión de características de la primera forma de realización es sustituida por la unidad de cálculo de modelo psicoacústico y, además, la unidad de decisión de características incluye los medios de generación de información de disposición de bandas de codificación. Puesto que la unidad de cálculo de potencia de espectro de la unidad de decisión de características es sustituida por la unidad de cálculo de modelo psicoacústico, la parte (banda) psicoacústicamente importante de la señal de audio se valora de forma correcta y, en consecuencia, esta banda puede seleccionarse con mayor frecuencia. Además, aunque en el aparato de codificación y decodificación de señales de audio de la presente invención cuando se satisface la condición de codificación durante la ejecución de la operación para decidir la disposición de los codificadores el procedimiento de codificación se considera satisfactorio y no se proporciona información de disposición de bandas de codificación, en la operación para decidir la disposición de los codificadores, los respectivos anchos de banda para seleccionar las bandas y disponer los codificadores y las ponderaciones de las respectivas bandas se fijan en la unidad de decisión de características de la primera forma de realización de la presente invención. Por el contrario, en esta segunda forma de realización, puesto que la condición de valoración de la unidad de decisión de características incluye la frecuencia de muestreo de la señal de entrada y la relación de compresión, es decir, la velocidad de transmisión binaria en la codificación, el grado de ponderación de las respectivas bandas de frecuencia para seleccionar la disposición de los codificadores en las respectivas bandas puede variarse. Además, puesto que la condición de valoración de la unidad de decisión de características incluye la relación de compresión, si se efectúa dicho control cuando la relación de compresión es alta (es decir, cuando la velocidad de transmisión binaria es baja), el grado de ponderación para seleccionar las respectivas bandas no varía mucho cuando la relación de compresión es baja (es decir, cuando la velocidad de transmisión binaria es alta), el grado de ponderación psicoacústica para la selección de las respectivas bandas varía mucho para resaltar la parte importante desde el punto de vista psicoacústico y mejorar la eficacia y puede obtenerse el mejor equilibrio entre la relación de compresión y la calidad. Por consiguiente, el aparato de codificación y decodificación de señales de audio según esta segunda forma de realización presenta un rendimiento suficiente para codificar diversas señales de audio.

Claims

1. Aparato de codificación de señales de audio que comprende una unidad de decisión de características (506), una unidad de control de bandas de codificación (507) y una unidad de codificación, y que transforma una señal de audio sometida a transformación tiempo-frecuencia en una secuencia codificada, en el que

dicha secuencia codificada incluye información de codificación y una secuencia de código de control de bandas (508),

dicha unidad de codificación tiene una pluralidad de codificadores (511), (511b),(512) y (513) y efectúa una codificación en diversas etapas de la señal de audio, bajo control de una unidad de control de bandas de codificación (507), para proporcionar la información de codificación,

dicha unidad de decisión de características (506) valora la señal de audio (501) de entrada y proporciona información de ponderación de bandas (517) que indica la ponderación para codificar las respectivas bandas de frecuencias,

dicha unidad de control de bandas de codificación (507) decide las bandas de cuantificación y los órdenes de conexión de los respectivos codificadores, configurando de ese modo la codificación en diversas etapas, basándose en la información de ponderación de banda (517),

determina que la unidad de codificación lleve a cabo una codificación en diversas etapas que se configura mediante una escala, basándose en las bandas de cuantificación y los órdenes de conexión decididos de los respectivos codificadores, y

proporciona una secuencia de código de control de bandas (508) que indica las bandas de cuantificación y los órdenes de conexión decididos de los respectivos codificadores.

2. Aparato de codificación de señales de audio según la reivindicación 1, en el que:

dicha unidad de control de bandas de codificación decide las bandas de cuantificación y los órdenes de conexión de los respectivos codificadores, para efectuar cualquiera de las codificaciones en diversas etapas descritas anteriormente.

3. Aparato de codificación de señales de audio según la reivindicación 1, en el que:

la unidad de codificación genera un error de cuantificación, y

la unidad de control de bandas de codificación decide las bandas de cuantificación y los órdenes de conexión de los respectivos codificadores, basándose en la información de ponderación de bandas y el error de cuantificación.

4. Aparato de decodificación de señales de audio que comprende una unidad de control de bandas de decodificación (1201) y una unidad de decodificación, y que decodifica una secuencia codificada que incluye información de codificación y una secuencia de código de control de bandas para convertirla en una señal de audio, en el que:

dicha secuencia de código de control de bandas indica las bandas de cuantificación y los órdenes de conexión de los respectivos codificadores a la información de codificación para llevar a cabo una codificación en diversas etapas,

dicha unidad de decodificación tiene una pluralidad de decodificadores (1201), (1203) y (1204) y lleva a cabo una decodificación en diversas etapas de la información de codificación, bajo control de la unidad de control de bandas de decodificación (1201), y

dicha unidad de control de bandas de decodificación determina que la unidad de decodificación lleve a cabo una decodificación en diversas etapas que se configura mediante una escala, basándose en la secuencia de código de control de bandas.

5. Procedimiento de codificación de señales de audio para transformar una señal de audio sometida a transformación tiempo-frecuencia en una secuencia codificada que incluye información de codificación y una secuencia de código de control de bandas, que comprende las etapas siguientes:

decisión de características para valorar la señal de audio de entrada y generar información de ponderación de bandas que indica la ponderación para codificar las respectivas bandas de frecuencias;

control de bandas de codificación para decidir las bandas de cuantificación y órdenes de conexión de los respectivos codificadores que configuran la codificación en diversas etapas, basándose en la información de ponderación de bandas, generar la secuencia de código de control de bandas que indica las bandas de cuantificación y los órdenes de conexión decididos de los respectivos codificadores, así como efectuar un control de codificación en el que se lleva a cabo una codificación en diversas etapas que se configura mediante una escala, basándose en las bandas de cuantificación y los órdenes de conexión decididos de los respectivos codificadores, y

codificación para llevar a cabo la codificación en diversas etapas de la señal de audio bajo control de la etapa de control de bandas de codificación, y generar la información de codificación.

6. Procedimiento de codificación de señales de audio según la reivindicación 5, en el que:

dicha etapa de control de bandas de codificación está destinada a decidir las bandas de cuantificación y los órdenes de conexión de los respectivos codificadores que configuran la unidad de codificación que lleva a cabo la etapa de codificación, para llevar a cabo cualquiera de las codificaciones en diversas etapas descritas anteriormente.

7. Procedimiento de codificación de señales de audio según la reivindicación 5, en el que:

dicha etapa de codificación está destinada a generar un error de cuantificación, y

dicha etapa de control de bandas de codificación está destinada a decidir as bandas de cuantificación y los órdenes de conexión de los respectivos codificadores que configuran la unidad de codificación que lleva a cabo la etapa de codificación, basándose en la información de ponderación de bandas y el error de cuantificación.

8. Procedimiento de decodificación de señales de audio para decodificar una secuencia codificada que incluye información de codificación y una secuencia de control de bandas que indica las bandas de cuantificación y los órdenes de conexión de los respectivos codificadores a la información de codificación para llevar a cabo una codificación en diversas etapas, y convertirla en una señal de audio, que incluye las etapas siguientes:

una etapa de control de bandas de codificación para llevar a cabo un control de decodificación en el que se efectúa una etapa de decodificación que consiste en una decodificación en varias etapas que se configura mediante una escala, basándose en la secuencia de código de control de bandas, y

una etapa de decodificación destinada a decodificar en diversas etapas la información de codificación, bajo control de la etapa de control de bandas de decodificación.