ES2216367T3 - Aparato de codificacion y de decodificacion de señales de audio. - Google Patents
Aparato de codificacion y de decodificacion de señales de audio.Info
- Publication number
- ES2216367T3 ES2216367T3 ES99104831T ES99104831T ES2216367T3 ES 2216367 T3 ES2216367 T3 ES 2216367T3 ES 99104831 T ES99104831 T ES 99104831T ES 99104831 T ES99104831 T ES 99104831T ES 2216367 T3 ES2216367 T3 ES 2216367T3
- Authority
- ES
- Spain
- Prior art keywords
- coding
- unit
- band
- bands
- quantification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
APARATO CODIFICADOR DE SEÑALES DE AUDIO QUE COMPRENDE UN CODIFICADOR DE PRIMERA FASE PARA CUANTIFICAR LA SEÑAL DE AUDIO TRANSFORMADA DE TIEMPO EN FRECUENCIA LAS FASES SEGUNDA Y POSTERIORES DE LOS CODIFICADORES, CADA UNO DE ELLOS PARA CUANTIFICAR UNA SALIDA DE ERRORES DE CUANTIFICACION PROCEDENTE DEL CODIFICADOR DE LA FASE ANTERIOR; UNA UNIDAD DE DECISION DE CARACTERISTICAS QUE DECIDE LA BANDA DE FRECUENCIAS DE UNA SEÑAL DE AUDIO QUE VA A SER CUANTIFICADA POR CADA CODIFICADOR DE CODIFICADORES DE PASOS MULTIPLES; Y UNA UNIDAD DE CONTROL DE LA BANDA DE CODIFICACION QUE RECIBE LA BANDA DE FRECUENCIAS DECIDIDA POR LA UNIDAD DE DECISION DE CARACTERISTICAS Y LA SEÑAL DE AUDIO TRANSFORMADA DE TIEMPO A FRECUENCIA DECIDE EL ORDEN DE CONEXION DE LOS RESPECTIVOS CODIFICADORES, Y TRANSFORMA LAS BANDAS DE CUANTIFICACION DE LOS CODIFICADORES Y EL ORDEN DE CONEXION A LAS SECUENCIAS DEL CODIGO. POR LO TANTO, ES POSIBLE PROPORCIONAR UN APARATO CODIFICADOR DE SEÑALES DE AUDIO QUE REALIZA CODIFICACION ESCALABLE ADAPTATIVA QUE TIENE UN RENDIMIENTO SUFICIENTE CUANDO SE CODIFICAN VARIAS SEÑALES DE AUDIO.
Description
Aparato de codificación y de decodificación de
señales de audio.
La presente invención se refiere a un aparato de
codificación de señales de audio que codifica con eficacia la señal
obtenida transformando una señal de audio (por ejemplo, una señal de
voz o una señal de música), mediante un procedimiento como el de la
transformación ortogonal, para representarla con menos secuencias de
código relativas a la señal de audio original utilizando la cantidad
de características obtenidas de la propia señal de audio. La
presente invención también se refiere a un aparato de decodificación
de señales de audio que puede decodificar una señal de audio de
banda ancha y alta calidad, utilizando todas o parte de las
secuencias de código como señal codificada.
Se han propuesto diversos procedimientos para
codificar y decodificar con eficacia las señales de audio. Como
procedimientos de codificación por compresión para señales de audio
que tienen bandas de frecuencias que sobrepasan los 20 kHz (por
ejemplo, las señales de música), se han propuesto los
procedimientos MPEG audio y Twin VQ (TC-WVQ). En
un procedimiento de codificación representado por un sistema MPEG
audio, la señal de audio digital del eje del tiempo se transforma en
datos del eje de la frecuencia mediante una transformación ortogonal
(por ejemplo, una transformación del coseno) y los datos del eje de
la frecuencia se codifican utilizando las características acústicas
de los seres humanos, siendo codificados los datos que son
acústicamente importantes, mientras que los que no son importantes
desde el punto de vista acústico y los datos redundantes no
son codificados. Por otra parte, el procedimiento Twin VQ
(TC-WVQ) es un procedimiento de codificación en el
que la señal de audio se representa con una cantidad de datos
considerablemente inferior a la de la señal digital original,
utilizando cuantificación vectorial. Los procedimientos MPEG audio y
Twin VQ se describen en la regla "ISO/IEC standard
IS-11172-3" y en el documento de
T. Moriya, H. Suga, "An 8 Kbits transform coder for noisy
channels", Proc. ICASSP 89, pp.196-199,
respectivamente.
A continuación, se proporciona una descripción
global del sistema Twin VQ general, en relación con la Figura
10.
La señal de audio original 101 se introduce en
una unidad de decisión de escala de análisis 102 para calcular una
escala de análisis 112. Al mismo tiempo, la unidad de decisión de
escala de análisis 102 cuantifica la escala de análisis 112 para
generar una secuencia de código de escala de análisis 111. A
continuación, la unidad de transformación
tiempo-frecuencia 103 transforma la señal de audio
original 101 en una señal de audio original 104 del dominio de la
frecuencia. Seguidamente, la unidad de normalización (unidad de
aplanamiento) 106 somete a normalización (aplanamiento) la señal de
audio original 104 del dominio de la frecuencia para obtener la
señal de audio 108 tras la normalización. Esta normalización se
lleva a cabo calculando un contorno de frecuencia 105 de la señal de
audio original 104 y, a continuación, dividiendo la señal de audio
original 104 por el contorno de frecuencia 105 calculado. Además, la
unidad de normalización 106 cuantifica la información de contorno de
frecuencia utilizada para la normalización, para generar una
secuencia de código normalizada 107. Por último, la unidad de
cuantificación vectorial 109 cuantifica la señal de audio 108
sometida a normalización para obtener una secuencia de código
110.
En los últimos años, se ha propuesto un
decodificador que tiene una estructura capaz de reproducir una señal
de audio utilizando parte de las secuencias de código que recibe.
Esta estructura se denomina "estructura escalable" y la
codificación de una señal de audio para obtener la estructura
escalable se denomina "codificación escalable".
La Figura 11 muestra un ejemplo de codificación
escalable fija empleada en un sistema Twin VQ general.
Según la escala de análisis 1314 decidida por la
unidad de decisión de escala de análisis 1303 a partir de una señal
de audio original 1301, la unidad de conversión
tiempo-frecuencia 1302 obtiene una señal de audio
original 1304 del dominio de la frecuencia. Un codificador de banda
baja 1305 recibe la señal de audio original 1304 del dominio de la
frecuencia y genera un error de cuantificación 1306 y una secuencia
de código de banda baja 1311. Un codificador de banda intermedia
1307 recibe el error de cuantificación 1306 y genera un error de
cuantificación 1308 y una secuencia de código de banda intermedia
1312. Un codificador de banda alta 1309 recibe el error de
cuantificación 1308 y genera un error de cuantificación 1310 y una
secuencia de código de banda alta 1313. El codificador de banda
baja, el de banda intermedia y el de banda alta comprenden una
unidad de normalización y una unidad de cuantificación vectorial
cada uno, y generan una secuencia de código de banda baja, de banda
intermedia y de banda alta, respectivamente, que incluye un error de
cuantificación y las secuencias de código generadas por la unidad de
normalización y la unidad de cuantificación vectorial.
En la codificación escalable fija convencional
mostrada en la Figura 11, puesto que los codificadores
(cuantificadores) de banda baja, banda intermedia y banda alta son
fijos, es difícil codificar la señal de audio original para reducir
al mínimo los errores de cuantificación respecto de la distribución
de la señal de audio original mostrada en la Figura 12. Por
consiguiente, cuando se codifican señales de audio que tienen
características y distribuciones diversas, no se obtiene un
rendimiento suficiente ni puede llevarse a cabo una codificación
escalable de alta calidad y eficacia.
La presente invención resuelve el problema
indicado anteriormente proporcionando un aparato de codificación de
señales de audio según la reivindicación 1 y un aparato de
decodificación de señales de audio según la reivindicación 4.
Asimismo, proporciona un procedimiento de codificación de señales de
audio según la reivindicación 5 y un procedimiento de decodificación
de señales de audio según la reivindicación 8.
La Figura 1 es un diagrama de bloques que ilustra
un aparato de codificación de señales de audio que lleva a cabo una
codificación escalable adaptativa, y un aparato de decodificación
adaptado al aparato de codificación, según una primera forma de
realización de la presente invención.
La Figura 2 es un diagrama de bloques que ilustra
una unidad de transformación tiempo-frecuencia
incluida en el aparato de codificación de la primera forma de
realización.
La Figura 3 es un diagrama que ilustra un
codificador incluido en el aparato de codificación de la primera
forma de realización.
La Figura 4 es un diagrama de bloques que ilustra
una unidad de normalización incluida en el aparato de codificación
de la primera forma de realización.
La Figura 5 es una unidad de normalización de
contorno de frecuencia incluida en el aparato de codificación de la
primera forma de realización
La Figura 6 es un diagrama de bloques que ilustra
una unidad de decisión de características incluida en el aparato de
codificación de la primera forma de realización.
La Figura 7 es un diagrama de bloques que ilustra
una unidad de control de bandas de codificación incluida en el
aparato de codificación de la primera forma de realización.
La Figura 8 es un diagrama de bloques que ilustra
una unidad de cuantificación incluida en el aparato de codificación
de la primera forma de realización.
La Figura 9 es un diagrama de bloques que ilustra
un decodificador incluido en el aparato de decodificación de la
primera forma de realización.
La Figura 10 es un diagrama que describe el
contorno del sistema Twin VQ general.
La Figura 11 es un diagrama que describe la
codificación escalable Twin VQ general.
La Figura 12 es un diagrama que describe las
desventajas de la codificación escalable fija general.
La Figura 13 es un diagrama que describe las
ventajas de la codificación escalable adaptativa general.
La Figura 14 es un diagrama de bloques que
ilustra un aparato de codificación de señales de audio que lleva a
cabo una codificación escalable adaptativa, y un aparato de
decodificación adaptado al aparato de codificación, según una
segunda forma de realización de la presente invención.
La Figura 15 es un diagrama de bloques que
ilustra un codificador incluido en el aparato de codificación de la
segunda forma de realización.
La Figura 16 es un diagrama de bloques que
ilustra una unidad de decisión de características incluida en el
aparato de codificación de la segunda forma de realización.
La Figura 17 es un diagrama de bloques que
ilustra una unidad de control de bandas de codificación incluida en
el aparato de codificación de la segunda forma de realización.
La Figura 18 es un diagrama de bloques que
ilustra un decodificador incluido en el aparato de codificación de
la segunda forma de realización.
La Figura 19 es un diagrama de bloques que
ilustra una unidad de control de bandas de decodificación incluida
en el aparato de codificación de la segunda forma de
realización.
La Figura 20 es un diagrama de bloques que
ilustra unos medios de desplazamiento espectral incluidos en el
aparato de codificación de la segunda forma de realización.
A continuación, se describirá una primera forma
de realización de la presente invención en relación con las Figuras
1 a 9, y una segunda forma de realización de la presente invención
en relación con las Figuras 14 a 20.
Forma de realización
1
La Figura 1 es un diagrama de bloques que ilustra
un aparato de codificación de señales de audio 1 que lleva a cabo
una codificación escalable adaptativa según una primera forma de
realización de la presente invención.
En la Figura 1, el número de referencia 1001
denota un aparato de codificación para codificar una señal de audio
original 501. En el aparato de codificación 1001, el número 502
denota una unidad de decisión de escala de análisis que decide la
escala de análisis 504 para analizar la señal de audio original 501;
el número 503 denota una unidad de transformación
tiempo-frecuencia que transforma el eje del tiempo
de la señal de audio original 501 en el eje de la frecuencia en
unidades de escala de análisis 504; el número 504 denota la escala
de análisis decidida por la unidad de decisión de escala de análisis
502; el número 505 denota el espectro de la señal de audio original;
el número 701 denota un filtro en el que se introduce el espectro
505 de la señal de audio original; el número 506 designa una unidad
de decisión de características que decide la característica del
espectro 505 de la señal de audio original para decidir la banda de
frecuencias de las señales de audio que se van a cuantificar
mediante las diversas etapas de los codificadores 511, 512, 513,
511b, ... incluidos en el aparato de codificación 1001; el número
507 designa una unidad de control de bandas de codificación que
recibe las bandas de frecuencias de los respectivos codificadores
decididas por la unidad de decisión de características 506 y la
señal de audio sometida a transformación
tiempo-frecuencia, y decide el orden de conexión de
las diversas etapas de los codificadores 511, 512, 513, 514, 511b,
..., y transforma las bandas de cuantificación de losrespectivos
codificadores y el orden de conexión en secuencias de código; el
número 508 denota una secuencia de código de control de bandas como
la secuencia de código generada por la unidad de control de bandas
de codificación 507; el número 510 denota una longitud de código de
escala de análisis que es una secuencia de código de la escala de
análisis generada por la unidad de decisión de escala de análisis
502; los números 511, 512 y 513 denotan un codificador de banda
baja, un codificador de banda intermedia y un codificador de banda
alta para codificar señales de banda baja, banda intermedia y banda
alta, respectivamente; el número 511b denota un codificador de banda
baja de segunda etapa para codificar un error de cuantificación 518
del codificador de banda baja de la primera etapa 511; los números
521, 522 y 523 denotan una secuencia de código de banda baja, una
secuencia de código de banda intermedia y una secuencia de código de
banda alta como las señales codificadas generadas por los
codificadores 511, 512 y 513, respectivamente; el número 521b denota
una secuencia de código de banda baja de segunda etapa que es la
salida del codificador de banda baja de segunda etapa 11b; los
números 518, 519 y 520 denotan las diferencias de cuantificación
correspondientes a las diferencias entre las señales que todavía no
han sido codificadas y las señales que ya han sido codificadas,
generadas, respectivamente, por los codificadores 511, 512 y 513; y
el número 518b denota un error de cuantificación de segunda etapa
generado por el codificador de banda baja de segunda etapa 511b.
Por otra parte, el número de referencia 1002
denota un aparato de decodificación para decodificar las secuencias
de código obtenidas en el aparato de codificación 1001. En el
aparato de decodificación 1002, el número 5 denota una unidad de
transformación frecuencia-tiempo que lleva a cabo la
transformación inversa a la de la unidad de transformación
tiempo-frecuencia 503; el número 6 denota una unidad
de multiplicación de ventana que multiplica la entrada por una
función ventana del eje del tiempo; el número 7 denota una unidad de
superposición de tramas; el número 8 denota una señal codificada; el
número 9 denota una unidad de composición de bandas; el número 1201
denota una unidad de control de bandas de decodificación; los
números 1202, 1203 y 1204 denotan un decodificador de banda baja, un
decodificador de banda intermedia y un decodificador de banda alta
que llevan a cabo la decodificación adaptativa respecto del
codificador de banda baja 511, el codificador de banda intermedia
512 y el codificador de banda alta 513, respectivamente; y el
número 1202b denota un decodificador de banda baja de segunda etapa
que decodifica la salida del decodificador de banda baja de primera
etapa 1202.
En la estructura descrita anteriormente, los
codificadores (decodificadores) posteriores al codificador
(decodificador) de primera etapa pueden disponerse de tal forma que
incluyan más bandas o formen más etapas que las indicadas
anteriormente. Incrementando el número de etapas de codificadores
(decodificadores), la precisión de la codificación (decodificación)
aumentará de la forma deseada.
A continuación, se describirá el funcionamiento
del aparato de codificación 1001.
Se supone que la señal de audio original 501 que
se va a codificar es una secuencia de señal digital que es
temporalmente continua. Por ejemplo, es una señal digital obtenida
cuantificando una señal de audio con 16 bits a una frecuencia de
muestreo de 48 kHz.
La señal de audio digital 501 se introduce en la
unidad de decisión de escala de análisis 502. La unidad de decisión
de escala de análisis 502 investiga las características de la señal
de audio original para decidir la escala de análisis 504, y el
resultado se envía al aparato de decodificación 1002 como secuencia
de código de escala de análisis 510. Como escala de análisis 504 se
utiliza, por ejemplo, 256, 1024 ó 4096. Cuando el componente de alta
frecuencia incluido en la señal de audio original 501 sobrepasa un
valor predeterminado, la escala de análisis 504 que se decide es
256. Cuando el componente de baja frecuencia sobrepasa un valor
predeterminado y el componente de alta frecuencia es inferior a un
valor predeterminado, la escala de análisis 504 que se decide es
4096. En el resto de los casos, la escala de análisis 504 que se
decide es 1024. Según la escala de análisis 504 decidida, la unidad
de transformación tiempo-frecuencia 503 calcula un
espectro 505 de la señal de audio original 501.
La Figura 2 es un diagrama de bloques que ilustra
en mayor detalle la unidad de transformación
tiempo-frecuencia 503.
La señal de audio original 501 se acumula en una
unidad de división de tramas 201 hasta que se alcanza un número de
muestras predeterminado. Cuando el número de muestras acumuladas
llega al valor de la escala de análisis 504 decidida por la unidad
de decisión de escala de análisis 502, la unidad de división de
tramas 201 proporciona las muestras. Además, la unidad de división
de tramas 201 proporciona las muestras para cada longitud de
desplazamiento indicada previamente. Por ejemplo, en el caso en que
la escala de análisis 504 es de 4096 muestras, si la longitud de
desplazamiento establecida es la mitad de la escala de análisis 504,
la unidad de división de tramas 201 proporciona las últimas 4096
muestras cada vez que la escala de análisis 504 llega a 2048
muestras. Naturalmente, aunque la escala de análisis 504 o la
frecuencia de muestreo varíen, la longitud de desplazamiento puede
establecerse en la mitad de la escala de análisis 504.
La salida de la unidad de división de tramas 201
se introduce en una unidad de multiplicación de ventana 202 en la
etapa subsiguiente. En la unidad de multiplicación de ventana 202,
la salida de la unidad de división de tramas 201 se multiplica por
una función ventana en el eje del tiempo y se proporciona como
resultado. Esta operación se expresa mediante la fórmula (1).
hxi=h_{i}*x_{i}
\hskip2cmi=1,2, \Lambda,N
...(1)h_{i}=sin\left\{\frac{\pi}{N}(i+0.5)\right\}
siendo x_{i} la salida de la unidad de división
de tramas 201, h_{i} la función ventana y hxi es la salida de la
unidad de multiplicación de ventana 202. Además, i es un sufijo del
tiempo. La función ventana h_{i} mostrada en la fórmula (1) sólo
constituye un ejemplo, y la función ventana no se restringe a la de
la fórmula
(1).
La selección de la función ventana depende de la
característica de la señal introducida en la unidad de
multiplicación de ventana 202, la escala de análisis 504 de la
unidad de división de tramas 201 y las formas de las funciones
ventana de las tramas que están situadas temporalmente antes y
después de la trama que se está procesando. Por ejemplo, la función
ventana se selecciona de la forma indicada a continuación. Si se
supone que la escala de análisis 504 de la unidad de división de
tramas 201 es N, la característica de la señal introducida en la
unidad de multiplicación de ventana 202 determina que la potencia
media de las señales, que se calcula cada N/4, varíe de forma
significativa y la escala de análisis 504 sea menor que N, antes de
la operación de la fórmula (1). Además, es deseable que la función
ventana sea seleccionada correctamente según la forma de la función
ventana de una trama pasada y la forma de la función ventana de una
trama futura, para no distorsionar la forma de la función ventana de
la trama presente.
A continuación, la salida de la unidad de
multiplicación de ventana 202 se introduce en una unidad MDCT 203,
en la que la salida se somete a una transformada discreta del coseno
modificada (MDCT) para generar coeficientes MDCT. La transformada
discreta del coseno modificada se representa de forma general
mediante la fórmula (2).
y_{k}=\sum\limits^{N-1}_{n=0}hx_{n}
*
cos\left\{\frac{2\pi\left(k+\tfrac{1}{2}\right)(n+n_{o})}{N}\right\}
...(2)n_{0}=\frac{N}{4}+\frac{1}{2}
\hskip0.5cm\left(k=0,1,\Lambda,\tfrac{N}{2}-1\right)
Suponiendo que los coeficientes MDCT generados
por la unidad MDCT 203 estén representados por y_{k} en la fórmula
(2), los coeficientes MDCT presentan las características de
frecuencia, y las características de frecuencia corresponden
linealmente a componentes de frecuencia más baja a medida que la
variable k de y_{k} se aproxima a 0, y corresponden a componentes
de frecuencia más alta a medida que la variable k se aproxima a
N/2-1, aumentando desde 0. Los coeficientes MDCT
calculados de esta forma se representan mediante el espectro 505 de
la señal de audio original.
A continuación, el espectro 505 de la señal de
audio original se introduce en un filtro 701. Suponiendo que la
entrada del filtro 701 sea x_{701}(i) y la salida del
filtro 701 sea y_{701}(i), el filtro 701 se expresa
mediante la fórmula (3).
y_{701}(i)=W_{701}(i)*\{x_{701}(i) + x_{701}(i+1)\}
...(3)i=0,1,\Lambda,fs-2
en la que fs es la escala de análisis
504.
El filtro 701 expresado por la fórmula (3) es un
tipo de filtro de media móvil. No obstante, el filtro 701 no está
restringido a dicho filtro de media móvil, sino que pueden
utilizarse otros filtros como, por ejemplo, un filtro pasa alta o un
filtro de supresión de banda.
La salida del filtro 701 y la escala de análisis
504 calculada en la unidad de decisión de escala de análisis 502 se
introducen en una unidad de decisión de características 506. En la
Figura 6, se muestra en detalle la unidad de decisión de
características 506. En la unidad de decisión de características
506, se deciden las características acústicas y físicas de la señal
de audio original 501 y del espectro 505 de la señal de audio
original 501. Las características acústicas y físicas de la señal de
audio original 501 y las del espectro 505 son, por ejemplo, una
distinción entre la voz y la música. En el caso de la voz, la mayor
parte de los componentes de frecuencia están incluidos en bandas
inferiores a 6 kHz, por ejemplo.
A continuación, se describirá el funcionamiento
de la unidad de decisión de características 506, en relación con la
Figura 6.
Suponiendo que la señal obtenida mediante
filtración con el filtro 701 del espectro 505 de la señal de audio
original que se introduce en la unidad de decisión de
características 506, mediante el filtro 701 sea x_{506}(i),
se calcula la potencia del espectro p_{506}(i) a partir de
x_{506}(i), según la fórmula (4), en la unidad de cálculo
de potencia de espectro 803.
(4)p_{506}(i)=x_{506}(i)^{2}
La potencia de espectro p_{506}(i) se
utiliza como una de las entradas de la unidad de control de bandas
de codificación 507 descrita más adelante y se utiliza como
ponderación de control de bandas 517.
Cuando la escala de análisis 504 es pequeña (por
ejemplo, 256), una unidad de decisión de disposición 804 decide la
disposición de los respectivos codificadores, que se colocan en una
posición fija, y se envía una información de disposición de bandas
de codificación 516 que indica "disposición fija" a una unidad
de control de bandas de codificación 507.
Cuando la escala de análisis 504 no es pequeña
(por ejemplo, 4096 ó 1024), la unidad de decisión de disposición 804
decide la disposición de los respectivos codificadores, que se
colocan en una posición dinámica, y se envía una información de
disposición de bandas de codificación 516 que indica "disposición
dinámica" a la unidad de control de bandas de codificación
507.
A continuación, se describirá el funcionamiento
de la unidad de control de bandas de codificación 507, en relación
con la Figura 7.
La unidad de control de bandas de codificación
507 recibe la ponderación de control de bandas 517 generada por la
unidad de decisión de características 506, la información de
disposición de bandas de codificación 516, la señal obtenida
filtrando con el filtro 701 el espectro 505 de la señal de audio
original y el error de cuantificación 518, 519 ó 520 generado por el
codificador 511, 512 ó 513. No obstante, la unidad de control de
bandas de codificación 507 recibe estas entradas, debido a que los
respectivos codificadores 511, 512, 513, 511b, ... y la unidad de
control de bandas de codificación 507 funcionan de forma recursiva.
Por lo tanto, puesto que durante la primera operación de la unidad
de control de bandas de codificación 507 no existe ningún error de
cuantificación, la unidad de control de bandas de codificación 507
recibe las tres entradas que no son errores de cuantificación.
Cuando la escala de análisis 504 es pequeña y la
información de disposición de bandas de codificación 516 indica
"disposición fija", las bandas de cuantificación de los
codificadores, el número de codificadores y el orden de conexión son
decididos por una unidad de decisión de orden de cuantificación 902,
una unidad de decisión de número de codificadores 903 y una unidad
de cálculo de ancho de banda 901, y de ese modo la codificación se
ejecuta primero en banda baja, luego en banda intermedia y
finalmente en banda alta, según una disposición fija definida de
antemano y, por último se lleva a cabo una codificación para generar
una secuencia de código de control de bandas 508. En la secuencia de
código de control de bandas 508, la información de banda, el número
de codificadores y el orden de conexión de los codificadores se
codifica como información.
Por ejemplo, los codificadores se disponen de tal
forma que las bandas de codificación de los respectivos
codificadores y el número de codificadores se seleccionan del modo
siguiente: un codificador en 0 Hz\sim4 Hz, un codificador en 0
Hz\sim8 kHz, un codificador en 4 kHz\sim12 kHz, dos
codificadores en 8 kHz\sim16 kHz y tres codificadores en 16
kHz\sim24 kHz y, a continuación, se lleva a cabo la
codificación.
Cuando la información de disposición de bandas de
codificación 516 indica "disposición dinámica", la unidad de
control de banda 507 funciona de la forma indicada a
continuación.
Como se muestra en la Figura 7, la unidad de
control de bandas de codificación 507 comprende una unidad de
cálculo de ancho de banda 901 que decide los anchos de banda de
cuantificación de los respectivos codificadores, una unidad de
decisión de orden de cuantificación 902 que decide el orden de
cuantificación de los respectivos codificadores y una unidad de
decisión de número de codificadores 903 que decide el número de
codificadores de cada banda. Es decir, los anchos de banda de los
respectivos codificadores se deciden según las señales introducidas
en la unidad de control de bandas de codificación 507. En cada una
de las bandas predeterminadas (por ejemplo, 0 kHz\sim4 Hz, 0
Hz\sim8 kHz, 4 kHz\sim12 kHz, 8 kHz\sim16 kHz y 16 kHz\sim24
kHz), se calcula el promedio de los resultados obtenidos
multiplicando la ponderación de control de bandas 517 y el error de
cuantificación tras la codificación de cada codificador. Suponiendo
que la ponderación de control de bandas 517 sea
weight_{517}(i) y el error de cuantificación sea
err_{507}(i), el promedio se calculará mediante la fórmula
(5).
siendo j el índice de la banda,
Ave_{501}(j) el promedio para la banda j y
f_{upper}(j) y f_{lower}(j) la frecuencia de
límite superior y la frecuencia de límite inferior para la banda j,
respectivamente. Entonces, se calcula el valor de j para el cual el
promedio Ave_{501}(j) adquiere el valor máximo, siendo este
valor de j la banda que va a codificar el codificador. Además, el
valor j obtenido se envía a la unidad de decisión de número de
codificadores 903 para incrementar en uno el número de codificadores
en la banda correspondiente a j, y el número de codificadores
existentes en la banda de codificación se continúa almacenando. La
codificación se repite hasta que la suma total del número de
codificadores almacenados alcanza la suma global de los
codificadores decididos de antemano. Por último, las bandas de los
codificadores y el número de codificadores para las respectivas
bandas se transmiten al decodificador, como una secuencia de código
de control de bandas
508.
A continuación, se describirá el funcionamiento
del codificador 3, en relación con la Figura 3.
El codificador 3 comprende una unidad de
normalización 301 y una unidad de cuantificación 302.
La unidad de normalización 301 recibe tanto la
señal del eje del tiempo generada por la unidad de división de
tramas 201 como los coeficientes MDCT generados por la unidad MDCT
203, y normaliza los coeficientes MDCT utilizando algunos
parámetros. Normalizar los coeficientes MDCT significa suprimir las
variaciones de los valores de los coeficientes MDCT (valores que
difieren considerablemente entre los componentes de banda baja y los
componentes de banda alta). Por ejemplo, cuando el componente de
banda baja es mucho más elevado que el componente de banda alta, se
selecciona un parámetro que tiene un valor superior en el componente
de banda baja y un valor inferior en el componente de banda alta
para dividir los coeficientes MDCT, obteniéndose de ese modo
coeficientes MDCT con variaciones suprimidas. Además, en la unidad
de normalización 301, los índices que expresan los parámetros
utilizados para la normalización se codifican como una secuencia de
código normalizada 303.
La unidad de cuantificación 302 recibe como
entrada los coeficientes MDCT normalizados por la unidad de
normalización 301 y los cuantifica. Entonces, la unidad de
cuantificación 302 genera un índice de código que presenta la
diferencia menor entre lasdiferencias entre los valores
cuantificados y las respectivas salidas cuantificadas
correspondientes a una pluralidad de índices de código incluidos en
un libro de códigos. En este caso, la diferencia entre el valor
cuantificado por la unidad de cuantificación 302 y el valor
correspondiente al índice de código generado por la unidad de
cuantificación 203 es el error de cuantificación.
A continuación, se describirá en mayor detalle la
unidad de normalización 301, en relación con la Figura 4.
En la Figura 4, el número de referencia 401
denota una unidad de normalización de contorno de frecuencia que
recibe la salida de la unidad de división de tramas 201 y la salida
de la unidad MDCT 203, y el número 402 denota una unidad de
normalización de amplitud de banda que recibe la salida de la unidad
de normalización de contorno de frecuencia 401 y efectúa la
normalización con referencia a una tabla de bandas 403.
A continuación, se describirá el funcionamiento
de la unidad de normalización 301.
La unidad de normalización de contorno de
frecuencia 401 calcula un contorno de frecuencia, es decir, una
forma aproximada de la frecuencia, utilizando los datos del eje del
tiempo proporcionados por la unidad de división de tramas 201, y
divide los coeficientes MDCT proporcionados por la unidad MDCT 203.
Los parámetros utilizados para expresar el contorno de frecuencia se
codifican como una secuencia de código normalizada 303. La unidad de
normalización de amplitud de banda 402 recibe la señal de salida de
la unidad de normalización de contorno de frecuencia 401 y lleva a
cabo la normalización de cada banda mostrada en la tabla de bandas
403. Por ejemplo, suponiendo que los coeficientes MDCT
proporcionados por la unidad de normalización de contorno de
frecuencia 401 sean dct(i) (i = 0\sim2047) y la tabla de
bandas 403 sea la representada en la [Tabla 1]:
entonces, el promedio de las amplitudes de cada
banda se calcula según la fórmula
(6).
sum_{j}=\sum\limits_{i=bjlow}^{bjhigh}dct(i)^{p}
...(6)ave_{j}=\left(\frac{sum_{j}}{bjhigh-bjlow+1}\right)^{-p}
\hskip0.7cmbjlow \leq i \leq bjhigh
siendo bjlow y bjhigh el índice de banda inferior
i y el índice de banda superior i,respectivamente, correspondientes
al coeficiente dct(i) de la j-ésima banda mostrada en la
tabla de bandas 203. Además, p es la norma del cálculo de distancia,
que preferentemente es 2. Asimismo, ave_{j} es el promedio de las
amplitudes de cada banda j. La unidad de normalización de amplitud
de banda 402 cuantifica ave_{j} para obtener qave_{j} y lo
normaliza según la fórmula
(7).
(7)n\_dct(i)=dct(i)/qave_{j}
\hskip0.7cmbjlow\leq i \leq bjhigh
Para cuantificar ave_{j}, puede emplearse la
cuantificación escalar o la cuantificación vectorial mediante el
libro de códigos. La unidad de normalización de amplitud de banda
402 codifica los índices de los parámetros utilizados para expresar
qave_{j}, como una secuencia de código normalizada 303.
Aunque la unidad de normalización 301 del
codificador comprende tanto la unidad de normalización de contorno
de frecuencia 401 como la unidad de normalización de amplitud de
banda 402 mostradas en la Figura 4, también puede comprender sólo
una de estas unidades 401 ó 402. Además, cuando no existen
variaciones significativas entre los componentes de banda baja y los
componentes de banda alta de los coeficientes MDCT generados por la
unidad MDCT 203, la salida de la unidad MDCT 203 puede introducirse
directamente en la unidad de cuantificación 302 sin utilizar las
unidades 401 y 402.
A continuación, se describirá en mayor detalle la
unidad de normalización de contorno de frecuencia 401 mostrada en la
Figura 4, en relación con la Figura 5. En la Figura 5, el número de
referencia 601 denota una unidad de análisis de predicción lineal
que recibe la salida de la unidad de división de tramas 201, el
número 602 denota una unidad de cuantificación de contorno que
recibe la salida de la unidad de análisis de predicción lineal 601 y
el número 603 denota una unidad de normalización de características
de envolvente que recibe la salida de la unidad MDCT 203.
A continuación, se describirá el funcionamiento
de la unidad de normalización de contorno de frecuencia, en relación
con la Figura 5.
La unidad de análisis de predicción lineal 601
recibe la señal de audio del eje del tiempo proporcionada por la
unidad de división de tramas 201 y la somete a codificación
predictiva lineal (LPC). Por lo general, los coeficientes de
predicción lineal (coeficientes LPC) pueden obtenerse calculando una
función de autocorrelación de la señal que se multiplica por una
ventana (por ejemplo, ventana de Humming) y resolviendo una ecuación
de normalización. Los coeficientes LPC calculados se transforman en
coeficientes de pares de líneas espectrales (coeficientes LSP) o
similares para ser cuantificados por la unidad de cuantificación de
contorno 602. Como procedimiento de cuantificación puede utilizarse
la cuantificación vectorial o la cuantificación escalar. A
continuación, la unidad de normalización de características de
envolvente 603 calcula las características de transferencia de
frecuencia expresadas por los parámetros cuantificados por la unidad
de cuantificación de contorno 602, y los coeficientes MDCT generados
por la unidad MDCT 203 se dividen por las características de
transferencia de frecuencia, normalizándose de ese modo los
coeficientes MDCT. Para concretar, suponiendo que los coeficientes
LPC equivalentes a los parámetros cuantificados por la unidad de
cuantificación de contorno 602 sean qlpc(i), las
características de transferencia de frecuencia calculadas por la
unidad de normalización de características de envolvente 603 podrán
expresarse mediante la fórmula (8).
siendo ORDER preferentemente 10\sim40, y fft (
) una transformada de Fourier de alta velocidad. Utilizando las
características de transferencia de frecuencia env(i)
calculadas, la unidad de normalización de características de
envolvente 603 lleva a cabo la normalización de características de
envolvente según la fórmula
(9).
(9)fdct(i)=\frac{mdct(i)}{env(i)}
siendo mdct(i) la señal de salida de la
unidad MDCT 203, y fdct (i) la señal de salida normalizada de la
unidad de normalización de características de envolvente
603.
A continuación, se describirá en mayor detalle el
funcionamiento de la unidad de cuantificación 302 incluida en el
codificador 1, en relación con la Figura 8.
Inicialmente, se extraen algunos de los
coeficientes MDCT 1001 introducidos en la unidad de cuantificación
302 para formar un subvector de fuente de sonido 1003. Suponiendo
que las secuencias de coeficientes (obtenidas dividiendo los
coeficientes MDCT introducidos en la unidad de normalización 301 por
los coeficientes MDCT obtenidos de la unidad de normalización 301)
sean componentes normalizados 1002, se obtendrá un subvector de los
componentes normalizados 1002 según la misma regla de extracción que
la del subvector de fuente de sonido 1003 de los coeficientes MDCT
1001, proporcionando de ese modo un subvector de ponderación 1004.
La regla de extracción del subvector de fuente de sonido 1003 (el
subvector de ponderación 1004) de los coeficientes MDCT 1001 (los
componentes normalizados 1002) se representa mediante la fórmula
(10).
siendo el subvector_{i}(j) el j-ésimo
elemento del i-ésimo subvector de fuente de sonido, vector ( ) los
coeficientes MDCT 1001, TOTAL el número total de elementos de los
coeficientes MDCT 1001, CR el número de elementos del subvector de
fuente de sonido 1003 y VTOTAL un valor mayor o igual a TOTAL, que
determina que VTOTAL/CR sea un número entero. Por ejemplo, cuando
TOTAL es 2048, CR es 19 y VTOTAL es 2052 o CR es 23 y VTOTAL es 2070
o CR es 21 y VTOTAL es 2079. Los subvectores de ponderación 1004
pueden extraerse según el procedimiento de la fórmula
(10).
El cuantificador vectorial 1005 busca en el libro
de código 1009 el vector de código que tiene la distancia más corta
desde el subvector de fuente de sonido 1003, tras ser ponderado
mediante el subvector de ponderación 1004. El cuantificador
vectorial 1005 proporciona el índice del vector de código que tiene
la distancia menor y un subvector residual 1010 que corresponde al
error de cuantificación entre el vector de código que tiene la
distancia más corta y el subvector de fuente de sonido de entrada
1003.
A continuación, se proporciona un ejemplo de un
procedimiento de cálculo práctico que parte de la premisa de que el
cuantificador vectorial 1005 se compone de medios de cálculo de
distancia 1006, medios de decisión de código 1007 y medios de
generación de residuo 1008.
Los medios de cálculo de distancia 1006 calculan
la distancia entre el i-ésimo subvector de fuente de sonido 1003 y
el k-ésimo vector de código del libro de códigos 1009 utilizando la
fórmula (11).
...
(11)dik=\sum\limits_{j=o}^{CR-1}w_{j}^{R}(subvector_{i}(j)-C_{k}(j))^{s}
siendo w_{j} el j-ésimo elemento del subvector
de ponderación, C_{k}(j) el j-ésimo elemento del k-ésimo
vector de código y R y S normas para el cálculo de la distancia. Los
valores de R y S deseables son 1, 1,5 y 2. Estas normas R y S pueden
tener diferentes valores. Además, dik es la distancia del k-ésimo
vector de código del i-ésimo subvector de fuente de sonido. Los
medios de decisión de código 1007 seleccionan el vector de código
que tiene la distancia más corta de las distancias calculadas
mediante la fórmula (11), y codifican el índice del vector de código
seleccionado como una secuencia de código 304. Por ejemplo, cuando
diu es el valor más pequeño de la pluralidad de valores dik, el
índice que se codificará con respecto al i-ésimo subvector es u. Los
medios de generación de residuo 1008 generan el subvector residual
1010 utilizando el vector de código seleccionado por los medios de
decisión de código 1007, según la fórmula
(12).
(12)res_{i}(j)=subvector_{i}(j)-C_{u}(j)
siendo res_{i}(j) el j-ésimo elemento
del i-ésimo subvector residual 1010 y c_{u}(j) el j-ésimo
elemento del vector de código seleccionado por los medios de
decisión de código 1007.A continuación, se efectúa la operación
aritmética inversa a la de la fórmula (10) para obtener un vector
utilizando el subvector residual 101, y la diferencia entre este
vector y el vector que era el objetivo original de codificación
original de este codificador se retiene como coeficientes MDCT para
cuantificar en los subsiguientes codificadores. No obstante, cuando
la codificación de alguna banda no influye en los subsiguientes
codificadores, es decir, cuando los subsiguientes codificadores no
llevan a cabo ninguna codificación, no es necesario que los medios
de generación de residuo 1008 generen el subvector residual 1010 y
los coeficientes MDCT 1011. Aunque el número de vectores de código
incluidos en el libro de códigos 1009 no se indica, es
preferentemente de alrededor de 64 cuando se considera la capacidad
de memoria y el tiempo de
cálculo.
La estructura proporcionada a continuación
constituye otro ejemplo de cuantificador vectorial 1005. Los medios
de cálculo de distancia 1006 calculan la distancia utilizando la
fórmula (13).
siendo K el número total de vectores de código
utilizados para la recuperación de códigos del libro de códigos
1009.
Los medios de decisión de código 1007 seleccionan
el valor de k que proporciona el valor mínimo de la distancia dik
calculada en la fórmula (13), y codifican el índice del mismo. En
este caso, k adopta cualquier valor comprendido entre 0 y
2K-1. Los medios de generación de residuo 1008
generan un subvector residual 1010 utilizando la fórmula (14).
Aunque el número de vectores de código incluidos
en el libro de códigos 1009 no está limitado, es preferentemente de
alrededor de 64 cuando se considera la capacidad de memoria y el
tiempo de cálculo.
Además, aunque el subvector de ponderación 1004
se genera a partir de componentes normalizados 1002 en la estructura
descrita anteriormente, es posible generar un subvector de
ponderación multiplicando el subvector de ponderación 1004 por una
ponderación relativa a las características acústicas de los seres
humanos.
Como se ha descrito anteriormente, los anchos de
banda, el número de codificadores de cada banda y el orden de
conexión de los codificadores se decide de forma dinámica. La
cuantificación se lleva a cabo según la información de los
respectivos codificadores decididos.
Por otra parte, el aparato de decodificación 2
lleva a cabo la decodificación utilizando las secuencias de código
normalizadas que se obtienen de los codificadores de las respectivas
bandas, las secuencias de código procedentes de las unidades de
cuantificación correspondientes a las secuencias de código
normalizadas, las secuencias de código de control de bandas
obtenidas de la unidad de control de bandas de codificación y las
secuencias de código de escala de análisis obtenidas de la unidad de
decisión de escala de análisis.
La Figura 9 muestra la estructura de los
decodificadores 1202, 1203 ó similares. Cada codificador comprende
una unidad de cuantificación inversa 1101 que reproduce coeficientes
MDCT normalizados, y una unidad de normalización inversa 1102 que
decodifica los coeficientes de normalización (los parámetros
utilizados para la normalización) y multiplica los coeficientes MDCT
normalizados reproducidos por los coeficientes de normalización.
Para concretar, en la unidad de normalización
inversa 1102, los parámetros utilizados para la normalización en el
aparato de codificación 1 se reproducen a partir de la secuencia de
código normalizada 303 obtenida de la unidad de normalización del
aparato de codificación 1, y la salida de la unidad de
cuantificación inversa 1101 se multiplica por los parámetros para
reproducir los coeficientes MDCT.
En la unidad de control de bandas de
decodificación 1201, la información relativa a la disposición y
número de codificadores utilizados en el aparato de codificación se
reproduce utilizando la secuencia de código de control de bandas 508
obtenida de la unidad de control de bandas de codificación 507, y
los decodificadores se disponen en las respectivas bandas, según la
información. A continuación, una unidad de composición de bandas 9
obtiene coeficientes MDCT y coloca las bandas en el orden inverso al
de codificación de los respectivos codificadores del aparato de
codificación. Los coeficientes MDCT obtenidos se introducen en una
unidad de transformación frecuencia-tiempo 5, donde
se someten a MDCT inversa para reproducir la señal del dominio del
tiempo a partir de la señal del dominio de la frecuencia. La MDCT
inversa se representa mediante la fórmula (15).
...(15)xx(n)=\frac{2}{N}\sum\limits_{K-0}
^{N-1}
yy_{k}cos\left\{\frac{2\pi(k+1/2)(n+n_{0})}{N}\right\}
n_{0}=\frac{N}{4}+\frac{1}{2}
siendo yy_{k} los coeficientes MDCT
reproducidos en la unidad de composición de bandas 9, y xx(n)
los coeficientes MDCT inversos obtenidos de la unidad de
transformación frecuencia-tiempo
5.
La unidad de multiplicación de ventana 6 efectúa
la multiplicación de ventana utilizando la salida xx(i) de la
unidad de transformación frecuencia-tiempo 5. Esta
multiplicación de ventana se lleva a cabo según la fórmula (16),
utilizando la misma ventana que la utilizada por la unidad de
transformación tiempo-frecuencia 503 del aparato de
codificación 1.
(16)z(i)=xx(i)*h_{i}
siendo z(i) la salida de la unidad de
multiplicación de ventana
6.
La unidad de superposición de tramas 7 reproduce
la señal de audio, mediante la salida de la unidad de multiplicación
de ventana 6. Puesto que la salida de la unidad de multiplicación de
ventana 6 es una señal superpuesta temporalmente, la unidad de
superposición de tramas 7 genera una señal de salida 8 del aparato
de decodificación 2, mediante la fórmula (17).
(17)out_{m}(i)=z_{m}(i)+z_{m-1}(i+SHIFT)
siendo z_{m}(i) la i-ésima señal de
salida z(i) de la unidad de multiplicación de ventana 6 en la
m-ésima trama de tiempo, z_{m-1}(i) la
i-ésima señal de salida de la unidad de multiplicación de ventana 6
en la (m-1)-ésima trama de tiempo, SHIFT el número
de muestras correspondiente a la escala de análisis del aparato de
codificación, y out_{m}(i) la señal de salida del aparato
de decodificación 2 en la m-ésima trama de tiempo de la unidad de
superposición de tramas
7.
En esta primera forma de realización, el rango de
frecuencias cuantificable calculado por la unidad de cálculo de
ancho de banda 901, incluida en la unidad de control de bandas de
codificación 507, puede restringirse mediante la escala de análisis
504, tal como se describe a continuación.
Por ejemplo, cuando la escala de análisis 504 es
256, los límites inferior y superior del rango de frecuencias
cuantificable de cada codificador se establece en alrededor de 4 kHz
y 24 kHz, respectivamente. Cuando la escala de análisis 504 es 1024
ó 2048, los límites inferior y superior mencionados se establecen en
0 Hz y alrededor de 16 kHz, respectivamente. Además, cuando la
escala de análisis 504 llega a ser 256, durante un período
predeterminado (p.ej., alrededor de 20 ms), el rango de frecuencias
cuantificable de cada cuantificador y la disposición de los
cuantificadores puede fijarse bajo control de la unidad de decisión
de orden de cuantificación 902. De esta forma, la disposición de los
cuantificadores se fija desde el punto de vista del tiempo y se
suprime la presencia de entradas y salidas de bandas de voz (es
decir, percepción acústica en la que una voz que se halla
principalmente en la banda alta pasa a ser, en un momento, voz de
banda baja).
Como se ha descrito anteriormente, el aparato de
codificación de señales de audio según la primera forma de
realización está provisto de una unidad de valoración de
características que decide la banda de frecuencias de la señal de
audio que será cuantificada por cada uno de los codificadores de las
diversas etapas de codificadores; y la unidad de control de bandas
de codificación, que recibe la banda de frecuencias decidida por la
unidad de decisión de características y la señal de audio original
sometida a transformación tiempo-frecuencia, decide
el orden de conexión de los respectivos codificadores y transforma
las bandas de cuantificación de los codificadores y el orden de
conexión en secuencias de código, llevándose a cabo de ese modo una
codificación escalable adaptativa. Por consiguiente, es posible
proporcionar un aparato de codificación de señales de audio que
lleve a cabo una codificación escalable adaptativa de alta calidad y
eficacia con un rendimiento suficiente para diversas señales de
audio, y un aparato de decodificación que pueda decodificar las
señales de audio codificadas.
Forma de realización
2
A continuación, se describirá una segunda forma
de realización de la presente invención, en relación con las Figuras
14 a 20.
La Figura 14 es un diagrama de bloques que
ilustra un aparato de codificación 2001 que lleva a cabo una
codificación escalable adaptativa, y un aparato de decodificación
2002 adaptado al aparato de codificación 2001, según la segunda
forma de realización de la presente invención. En el aparato de
codificación 2001, el número de referencia 200105 denota las
condiciones de codificación como, por ejemplo, el número de
codificadores, la velocidad de transmisión binaria, la frecuencia de
muestreo de la señal de audio de entrada y la información de bandas
de codificación de cada codificador; el número 200107 denota una
unidad de decisión de características que decide las bandas de
frecuencias de las señales de audio que van a ser cuantificadas por
las diversas etapas de codificadores; el número 200109 denota
información de disposición de bandas de codificación; el número
200110 denota una unidad de control de bandas de codificación, que
recibe las bandas de frecuencias decididas por la unidad de decisión
de características 200107 y la señal de audio sometida a
transformación tiempo-frecuencia y transforma las
bandas de cuantificación de los respectivos codificadores y el orden
de conexión de los codificadores en una secuencia de código 200111;
y el número 200112 denota una unidad de composición de secuencias de
código de transmisión. Además, en el aparato de decodificación 2002,
el número de referencia 200150 denota una unidad de descomposición
de secuencias de código de transmisión; el número 200151 denota una
secuencia de código; el número 200153b denota una unidad de control
de bandas de decodificación que recibe la secuencia de código 200151
y controla las bandas de decodificación de los decodificadores para
decodificar la secuencia de código 200151 y el número 200154b denota
un espectro decodificado. El aparato de codificación 2001 de esta
segunda forma de realización lleva a cabo una codificación escalable
adaptativa, como el aparato de codificación 1001 de la primera forma
de realización. No obstante, el aparato de codificación 2001 es
diferente del aparato de codificación 1001 en los puntos indicados a
continuación. La unidad de control de bandas de codificación 200110
del aparato de codificación 2001 incluye una unidad de control de
bandas de decodificación 200153 y el aparato de decodificación 2002
incluye una unidad de control de bandas de decodificación 200153b
idéntica a la unidad de control de bandas de decodificación 200153.
Además, la unidad de cálculo de potencia de espectro 803 de la
unidad de decisión de características 506 de la primera forma de
realización es sustituida por una unidad de cálculo de modelo
psicoacústico 200602. Por otra parte, la unidad de decisión de
características 200107 incluye medios de generación de información
de disposición de bandas de codificación 200604 que generan
información de disposición de bandas de codificación 200109 según
las condiciones de codificación 200105, la información de bandas de
codificación 200702 proporcionada por la unidad de cálculo de bandas
de codificación 200601 y el número de bandas 200606 proporcionado
por la unidad de decisión de disposición 200603.
A continuación, se describirá el funcionamiento
del aparato de codificación 2001.
Se supone que la señal de audio original 501 que
va a ser codificada por el aparato de codificación 2001 es una
secuencia de señal digital que es temporalmente continua.
Inicialmente, el espectro 505 de la señal de
audio original 501 se obtiene mediante el mismo procedimiento que el
descrito para la primera forma de realización. En esta segunda forma
de realización, las condiciones de codificación 200105, que incluyen
el número de codificadores, la velocidad de transmisión binaria, la
frecuencia de muestreo de la señal de audio de entrada y la
información de bandas de codificación de los respectivos
codificadores, se introducen en la unidad de decisión de
características 200107 del aparato de codificación 2001. La unidad
de decisión de características 200107 proporciona la información de
disposición de bandas de codificación 200109 que incluye las bandas
de cuantificación de los respectivos codificadores y el orden de
conexión e los mismos, a la unidad de control de bandas de
codificación 200110. La unidad de control de bandas de codificación
200110 recibe la información de disposición de bandas de
codificación 200109 y el espectro 505 de la señal de audio original
y lleva a cabo la codificación, basándose en estas entradas.
mediante los codificadores bajo control de la unidad de control
200110, proporcionando de ese modo la secuencia de código 200111. La
secuencia de código 200111 se introduce en la unidad de composición
de secuencias de código de transmisión 200112 donde será compuesta y
el resultado obtenido se envía al aparato de decodificación
2002.
En el aparato de decodificación 2002, la unidad
de de secuencias de código transmitidas 200150 recibe la salida de
la unidad de composición de secuencias de código de transmisión 2001
y la descompone en la secuencia de código 200151 y la secuencia de
código de escala de análisis 200152. La secuencia de código 200151
se introduce en la unidad de control de bandas de decodificación
200153, donde es decodificada por los decodificadores bajo control
de la unidad de control 200153, obteniéndose de ese modo el espectro
decodificado 200154. A continuación, basándose en el espectro
decodificado 200152 y la secuencia de código de escala de análisis
200152, se obtiene la señal decodificada 8 utilizando la unidad de
transformación frecuencia-tiempo 5, la unidad de
multiplicación de ventana 6 y la unidad de superposición de tramas
7.
A continuación, se describirá el funcionamiento
de la unidad de decisión de características 200107, en relación con
la Figura 16.
La unidad de decisión de características 200107
comprende la unidad de cálculo de bandas de codificación 200601 que
calcula la información de disposición de bandas de codificación
200702 utilizando las condiciones de codificación 200105; la unidad
de cálculo de modelo psicoacústico 200602 que calcula una
ponderación psicoacústica 200605, basándose en las características
psicoacústicas de los seres humanos, a partir de la información de
espectro (p.ej., el espectro 505 de la señal de audio original o el
espectro de diferencia 200108) y la información de bandas de
codificación 200702; la unidad de decisión de disposición 200603
que, utilizando la ponderación psicoacústica 200605 para ponderar
con referencia a la escala de análisis 503, decide la disposición de
las bandas de los respectivos codificadores y proporciona el número
de bandas 200606; y la unidad de generación de información de
disposición de bandas de codificación 200604 que genera la
información de disposición de bandas de codificación 200109, a
partir de las condiciones de codificación 200105, la información de
bandas de codificación 200702 proporcionada por la unidad de cálculo
de bandas de codificación 200601 y el número de bandas 200606
proporcionado por la unidad de decisión de disposición 200603.
La unidad de cálculo de bandas de codificación
200601 calcula el límite superior fpu(k) y el límite inferior
fpl(k) de la banda de codificación que va a ser codificada
por el codificador 2003 mostrado en la Figura 15, utilizando la
condición de codificación 200105 que se ha establecido antes de que
el aparato de codificación 2001 se ponga en funcionamiento. Los
límites superior e inferior se envían a la unidad de generación de
información de disposición de bandas de codificación 200604, como
información de bandas de codificación 200702. En este caso, k es el
número que indica la banda de codificación y, entonces, cuando k se
aleja de 0 para aproximarse al número máximo pmax establecido
previamente, significa que la banda es una banda de alta
frecuencia.Por ejemplo, pmax es 4. En la Tabla 2, se proporciona un
ejemplo del funcionamiento de la unidad de cálculo de bandas de
codificación 200601.
| banda k | fpu(k) | fpl(k) |
| 0 | 221 | 0 |
| 1 | 318 | 222 |
| 2 | 415 | 319 |
| 3 | 512 | 416 |
condición de codificación: frecuencia de muestreo
= 48 kHz, velocidad de transmisión binaria total = 24 kb/s
| banda k | Fpu(k) | fpl(k) |
| 0 | 443 | 0 |
| 1 | 637 | 444 |
| 2 | 831 | 638 |
| 3 | 1024 | 832 |
condición de codificación: frecuencia de muestreo
= 24 kHz, velocidad de transmisión binaria total = 24 kb/s
La unidad de cálculo de modelo psicoacústico
200602 calcula una ponderación psicoacústica 200605, basándose en
las características psicoacústicas de los seres humanos, a partir de
la información de espectro (por ejemplo, la señal de salida del
filtro 701 o el espectro de diferencia 200108 obtenido de la unidad
de control de bandas de codificación 200110) y la información de
bandas de codificación 200702 obtenida de la unidad de cálculo de
bandas de codificación 200601. La ponderación psicoacústica 200605
tiene un valor relativamente alto para un ancho de banda que es
importante desde el punto de vista psicoacústico, y un valor
relativamente bajo para una banda que no es tan importante desde el
punto de vista psicoacústico. El cálculo de modelo psicoacústico
puede llevarse a cabo, por ejemplo, calculando la potencia del
espectro de entrada. Suponiendo que el espectro de entrada sea
x_{602}(i), la ponderación psicoacústica
w_{pay}(k) vendrá representada por:
La ponderación psicoacústica 200605 calculada se
introduce en la unidad de decisión de disposición 200603, donde se
calcula la banda en la que la ponderación psicoacústica 200605
adquiere el valor máximo, en relación con la escala de análisis 503,
bajo la siguiente condición. En particular, cuando la escala de
análisis 503 es pequeña (p.ej., 128), la ponderación psicoacústica
200605 de una banda que tiene un número de bandas alto 200606
(p.ej., 4) se incrementa, por ejemplo, para ser el doble, mientras
que cuando la escala de análisis no es pequeña, la ponderación
psicoacústica 200605 se utiliza tal cual. Entonces, el número de
bandas 200606 se envía a la unidad de generación de información de
disposición de bandas de codificación 200604.
La unidad de generación de información de
disposición de bandas de codificación 200604 recibe la información
de bandas de codificación 200702, el número de bandas 200606 y la
condición de codificación 200105, y proporciona información de
disposición de bandas de codificación 200109. Para concretar, la
unidad de generación de información de disposición de bandas de
codificación 200604 proporciona, con referencia a la condición de
codificación 200105, la información de disposición de bandas de
codificación 200109 que comprende la información de bandas de
codificación 200702 y el número de bandas 200606 que se conectan,
siempre y cuando se requiera información de disposición de bandas de
codificación 200109. Cuando la información de disposición de bandas
de codificación 200109 deja de ser necesaria, la unidad de
generación de información de disposición de bandas de codificación
200604 deja de proporcionar la información 200109. Por ejemplo, la
unidad 200604 continúa proporcionando el número de bandas 200606
hasta que se alcanza el número de codificadores indicado por la
condición de codificación 200105. Además, cuando la escala de
análisis 503 es pequeña, el número de bandas de salida 200606 puede
fijarse en la unidad de decisión de disposición 200603.
A continuación, se describirá el funcionamiento
de la unidad de control de bandas de codificación 200110, en
relación con la Figura 17.
La unidad de control de bandas de codificación
200110 recibe la información de disposición de bandas de
codificación 200109 proporcionada por la unidad de decisión de
características 200107 y el espectro 505 de la señal de audio
original, y proporciona la secuencia de código 200111 y el espectro
de diferencia 200108. La unidad de control de bandas de codificación
200110 comprende medios de desplazamiento de espectro 200701 que
reciben la información de disposición de bandas de codificación
200109, y desplazan el espectro de diferencia 200108 entre el
espectro 505 de la señal de audio original y el espectro
decodificado 200705, obtenido codificando el espectro 505 que tenía
anteriormente la señal de audio original y decodificándolo, hacia la
banda del número de bandas 200606; un codificador 2003; medios de
cálculo de diferencia 200703 que calculan la diferencia entre el
espectro 505 de la señal de audio original y el espectro
decodificado 200705; medios de almacenamiento de espectro de
diferencia 200704 y una unidad de control de bandas de
decodificación 200153 que someten el espectro compuesto 2001001,
obtenido mediante la secuencia de código 200111 que es decodificada
por el decodificador 2004, a desplazamiento de espectro utilizando
la información de disposición de bandas de codificación 200702, y
calculan el espectro decodificado 200705b utilizando el espectro
compuesto desplazado. La estructura de los medios de desplazamiento
de espectro 200701 se muestra en la Figura 20. Los medios de
desplazamiento de espectro 200701 reciben el espectro original
2001101 que se va a desplazar y la información de disposición de
bandas de codificación 200109. Entre las entradas de los medios de
desplazamiento de espectro 200701, se incluye el espectro 2001101
que se va a desplazar, que puede ser el espectro 505 de la señal de
audio original o el espectro de diferencia 200108, y los medios de
desplazamiento de espectro 200701 desplazan el espectro hacia la
banda del número de bandas 200606 para proporcionar el espectro
desplazado 2001102 y la información de bandas de codificación 200702
incluida en la información de disposición de bandas de codificación
200109. La banda correspondiente al número de bandas 200606 se
obtiene a partir de fpl(k) y fpu(k) de la información
de bandas de codificación 200702. El procedimiento de desplazamiento
consiste en desplazar el espectro entre fpl(k) y
fpu(k) hasta la banda que puede ser procesada por el
codificador 2003.
El codificador 2003 recibe el espectro 2001102
desplazado y genera una secuencia de código normalizada 303 y una
secuencia de código residual 304 como las mostradas en la Figura 15.
Estas secuencias 303 y 304 y la información de bandas de
codificación 200702 que se obtiene de los medios de desplazamiento
de espectro 200701 se proporcionan como una secuencia de código
200111 a la unidad de composición de códigos de transmisión 200112 y
a la unidad de control de bandas de decodificación 200153.
La secuencia de código 200111 proporcionada por
el codificador 2003 se introduce en la unidad de control de bandas
de decodificación 200153 de la unidad de control de bandas de
codificación 20011. La unidad de control de bandas de decodificación
200153 funciona de la misma manera que la unidad de control de
bandas de decodificación 200153b incluida en el aparato de
decodificación 2002.
La estructura de la unidad de control de bandas
de decodificación 200153b se muestra en la Figura 19.
La unidad de control de bandas de decodificación
200153b recibe la secuencia de código 200111 desde la unidad de
descomposición de secuencias de código transmitidas 200150 y
proporciona un espectro decodificado 200705b. La unidad de control
de bandas de decodificación 200153 incluye un decodificador 2004,
medios de desplazamiento de espectro 200701 y una unidad de cálculo
de espectro decodificado 2001003b.
La estructura del decodificador 2004 se muestra
en la Figura 18.
El decodificador 2004 comprende una unidad de
cuantificación inversa 1101 y una unidad de normalización inversa
1102. La unidad de cuantificación inversa 1101 recibe la secuencia
de código residual 304 en la secuencia de código 200111, transforma
la secuencia de código residual 304 en un índice de código y
reproduce el código consultando el libro de códigos utilizado en el
codificador 2003. El código reproducido se envía a la unidad de
normalización inversa 1102, donde el código se multiplica por la
secuencia de coeficientes normalizada 303a reproducida a partir de
la secuencia de código normalizada 303 de la secuencia de código
200111, para generar un espectro compuesto 2001001. El espectro
compuesto 2001001 se introduce en los medios de desplazamiento de
espectro 200701.
Aunque la salida de la unidad de control de
bandas de decodificación 200153 incluida en la unidad de control de
bandas de codificación 200110 es el espectro decodificado 200705,
éste es idéntico al espectro compuesto 2001001 obtenido de la unidad
de control de bandas de decodificación 200153 incluida en el aparato
de decodificación 2002.
El espectro compuesto 2001001 obtenido por el
decodificador 2004 es desplazado por los medios de desplazamiento de
espectro 200701 y se convierte en un espectro compuesto desplazado
2001002 que se introduce en la unidad de cálculo de espectro
decodificado 2001003.
El espectro compuesto de entrada en la unidad de
cálculo de espectro decodificado 2001003 se almacena y se suma al
último espectro compuesto para generar el espectro decodificado
200705b que se proporcionará.
Los medios de cálculo de diferencia 200703 de la
unidad de control de bandas de codificación 200110 calculan la
diferencia entre el espectro 505 de la señal de audio original y el
espectro decodificado 200705 para proporcionar un espectro de
diferencia 200108, y dicho espectro 200108 se vuelve a introducir en
la unidad de decisión de características 200107. Al mismo tiempo, el
espectro de diferencia 200108 es almacenado en los medios de
almacenamiento de espectro de diferencia 200704 para ser enviados a
los medios de desplazamiento de espectro 200701 para la siguiente
entrada de información de disposición de bandas de codificación
200109. En la unidad de decisión de características 200107, los
medios de generación de información de disposición de bandas de
codificación continúan proporcionando la información de disposición
de bandas de codificación 200109 con referencia a la condición de
codificación, hasta que se cumple la condición de codificación.
Cuando se interrumpe la salida de la información de disposición de
bandas de codificación 200109, también se interrumpe el
funcionamiento de la unidad de control de bandas de codificación
200110.La unidad de control de bandas de codificación 200110 está
provista de medios de almacenamiento de espectro de diferencia
200704 para el cálculo del espectro de diferencia 200108. Los medios
de almacenamiento de espectro de diferencia 200704 están
constituidos por un área de almacenamiento destinada a almacenar los
espectros de diferencia (por ejemplo, una matriz capaz de almacenar
2048 elementos numéricos).
Como se ha descrito anteriormente, el
procedimiento de la unidad de decisión de características 200107 y
el subsiguiente procedimiento de la unidad de control de bandas de
codificación 2000110 se repiten para satisfacer la condición de
codificación 200105,generándose y transmitiéndose de esta forma las
secuencias de código 200111, una tras otra, a la unidad de
composición de secuencias de código de transmisión 200112. En la
unidad de composición de secuencias de código de transmisión 200112,
las secuencias de código 200111 se combinan con la secuencia de
código de escala de análisis 510 para generar una secuencia de
código de transmisión. La secuencia de código compuesta se transmite
al aparato de decodificación 2002.
En el aparato de decodificación 2002, la unidad
de descomposición de secuencias de código de transmisión 200150
descompone la secuencia de código de transmisión transmitida desde
el aparato de codificación 2001 en una secuencia de código 200151 y
una secuencia de código de escala de análisis 200152. La secuencia
de código 200151 y la secuencia de código de escala de análisis
200152 son idénticas a la secuencia de código 200111 y la secuencia
de código de escala de análisis 510 del aparato de codificación
2001, respectivamente.
La secuencia de código 200151 se transforma en un
espectro decodificado 200154b en la unidad de control de bandas de
decodificación 200153b, y el espectro decodificado 200154b se
transforma en una señal del dominio del tiempo en la unidad
detransformación frecuencia-tiempo 5, la unidad de
multiplicación de ventana 6 y la unidad de superposición de tramas
7, utilizando la información de la secuencia de código de escala de
análisis 200152 para proporcionar una señal decodificada 8.
Como se ha descrito anteriormente, el aparato de
codificación y decodificación de señales de audio según la segunda
forma de realización es similar a la primera forma de realización,
en la medida en que está provista de la unidad de decisión de
características que decide la banda de frecuencias de la señal de
audio que va a ser cuantificada por cada uno de los codificadores de
las diversas etapas; y la unidad de control de bandas de
codificación que recibe como entradas la banda de frecuencias
decidida por la unidad de decisión de características y la señal de
audio original sometida a transformación
tiempo-frecuencia, y decide el orden de conexión de
los codificadores y transforma las bandas de cuantificación de los
respectivos codificadores y el orden de conexión en secuencias de
código, llevando a cabo de ese modo una codificación escalable
adaptativa. En esta segunda forma de realización, el aparato de
codificación incluye además la unidad de control de bandas de
codificación que incluye la unidad de control de bandas de
decodificación, y el aparato de decodificación incluye además una
unidad de control de bandas de decodificación. Además, la unidad de
cálculo de potencia de espectro incluida en la unidad de decisión de
características de la primera forma de realización es sustituida por
la unidad de cálculo de modelo psicoacústico y, además, la unidad de
decisión de características incluye los medios de generación de
información de disposición de bandas de codificación. Puesto que la
unidad de cálculo de potencia de espectro de la unidad de decisión
de características es sustituida por la unidad de cálculo de modelo
psicoacústico, la parte (banda) psicoacústicamente importante de la
señal de audio se valora de forma correcta y, en consecuencia, esta
banda puede seleccionarse con mayor frecuencia. Además, aunque en el
aparato de codificación y decodificación de señales de audio de la
presente invención cuando se satisface la condición de codificación
durante la ejecución de la operación para decidir la disposición de
los codificadores el procedimiento de codificación se considera
satisfactorio y no se proporciona información de disposición de
bandas de codificación, en la operación para decidir la disposición
de los codificadores, los respectivos anchos de banda para
seleccionar las bandas y disponer los codificadores y las
ponderaciones de las respectivas bandas se fijan en la unidad de
decisión de características de la primera forma de realización de la
presente invención. Por el contrario, en esta segunda forma de
realización, puesto que la condición de valoración de la unidad de
decisión de características incluye la frecuencia de muestreo de la
señal de entrada y la relación de compresión, es decir, la velocidad
de transmisión binaria en la codificación, el grado de ponderación
de las respectivas bandas de frecuencia para seleccionar la
disposición de los codificadores en las respectivas bandas puede
variarse. Además, puesto que la condición de valoración de la unidad
de decisión de características incluye la relación de compresión, si
se efectúa dicho control cuando la relación de compresión es alta
(es decir, cuando la velocidad de transmisión binaria es baja), el
grado de ponderación para seleccionar las respectivas bandas no
varía mucho cuando la relación de compresión es baja (es decir,
cuando la velocidad de transmisión binaria es alta), el grado de
ponderación psicoacústica para la selección de las respectivas
bandas varía mucho para resaltar la parte importante desde el punto
de vista psicoacústico y mejorar la eficacia y puede obtenerse el
mejor equilibrio entre la relación de compresión y la calidad. Por
consiguiente, el aparato de codificación y decodificación de señales
de audio según esta segunda forma de realización presenta un
rendimiento suficiente para codificar diversas señales de audio.
Claims (8)
1. Aparato de codificación de señales de audio
que comprende una unidad de decisión de características (506), una
unidad de control de bandas de codificación (507) y una unidad de
codificación, y que transforma una señal de audio sometida a
transformación tiempo-frecuencia en una secuencia
codificada, en el que
dicha secuencia codificada incluye información de
codificación y una secuencia de código de control de bandas
(508),
dicha unidad de codificación tiene una pluralidad
de codificadores (511), (511b),(512) y (513) y efectúa una
codificación en diversas etapas de la señal de audio, bajo control
de una unidad de control de bandas de codificación (507), para
proporcionar la información de codificación,
dicha unidad de decisión de características (506)
valora la señal de audio (501) de entrada y proporciona información
de ponderación de bandas (517) que indica la ponderación para
codificar las respectivas bandas de frecuencias,
dicha unidad de control de bandas de codificación
(507) decide las bandas de cuantificación y los órdenes de conexión
de los respectivos codificadores, configurando de ese modo la
codificación en diversas etapas, basándose en la información de
ponderación de banda (517),
determina que la unidad de codificación lleve a
cabo una codificación en diversas etapas que se configura mediante
una escala, basándose en las bandas de cuantificación y los órdenes
de conexión decididos de los respectivos codificadores, y
proporciona una secuencia de código de control de
bandas (508) que indica las bandas de cuantificación y los órdenes
de conexión decididos de los respectivos codificadores.
2. Aparato de codificación de señales de audio
según la reivindicación 1, en el que:
dicha unidad de control de bandas de codificación
decide las bandas de cuantificación y los órdenes de conexión de los
respectivos codificadores, para efectuar cualquiera de las
codificaciones en diversas etapas descritas anteriormente.
3. Aparato de codificación de señales de audio
según la reivindicación 1, en el que:
la unidad de codificación genera un error de
cuantificación, y
la unidad de control de bandas de codificación
decide las bandas de cuantificación y los órdenes de conexión de los
respectivos codificadores, basándose en la información de
ponderación de bandas y el error de cuantificación.
4. Aparato de decodificación de señales de audio
que comprende una unidad de control de bandas de decodificación
(1201) y una unidad de decodificación, y que decodifica una
secuencia codificada que incluye información de codificación y una
secuencia de código de control de bandas para convertirla en una
señal de audio, en el que:
dicha secuencia de código de control de bandas
indica las bandas de cuantificación y los órdenes de conexión de los
respectivos codificadores a la información de codificación para
llevar a cabo una codificación en diversas etapas,
dicha unidad de decodificación tiene una
pluralidad de decodificadores (1201), (1203) y (1204) y lleva a cabo
una decodificación en diversas etapas de la información de
codificación, bajo control de la unidad de control de bandas de
decodificación (1201), y
dicha unidad de control de bandas de
decodificación determina que la unidad de decodificación lleve a
cabo una decodificación en diversas etapas que se configura mediante
una escala, basándose en la secuencia de código de control de
bandas.
5. Procedimiento de codificación de señales de
audio para transformar una señal de audio sometida a transformación
tiempo-frecuencia en una secuencia codificada que
incluye información de codificación y una secuencia de código de
control de bandas, que comprende las etapas siguientes:
decisión de características para valorar la señal
de audio de entrada y generar información de ponderación de bandas
que indica la ponderación para codificar las respectivas bandas de
frecuencias;
control de bandas de codificación para decidir
las bandas de cuantificación y órdenes de conexión de los
respectivos codificadores que configuran la codificación en diversas
etapas, basándose en la información de ponderación de bandas,
generar la secuencia de código de control de bandas que indica las
bandas de cuantificación y los órdenes de conexión decididos de los
respectivos codificadores, así como efectuar un control de
codificación en el que se lleva a cabo una codificación en diversas
etapas que se configura mediante una escala, basándose en las bandas
de cuantificación y los órdenes de conexión decididos de los
respectivos codificadores, y
codificación para llevar a cabo la codificación
en diversas etapas de la señal de audio bajo control de la etapa de
control de bandas de codificación, y generar la información de
codificación.
6. Procedimiento de codificación de señales de
audio según la reivindicación 5, en el que:
dicha etapa de control de bandas de codificación
está destinada a decidir las bandas de cuantificación y los órdenes
de conexión de los respectivos codificadores que configuran la
unidad de codificación que lleva a cabo la etapa de codificación,
para llevar a cabo cualquiera de las codificaciones en diversas
etapas descritas anteriormente.
7. Procedimiento de codificación de señales de
audio según la reivindicación 5, en el que:
dicha etapa de codificación está destinada a
generar un error de cuantificación, y
dicha etapa de control de bandas de codificación
está destinada a decidir as bandas de cuantificación y los órdenes
de conexión de los respectivos codificadores que configuran la
unidad de codificación que lleva a cabo la etapa de codificación,
basándose en la información de ponderación de bandas y el error de
cuantificación.
8. Procedimiento de decodificación de señales de
audio para decodificar una secuencia codificada que incluye
información de codificación y una secuencia de control de bandas que
indica las bandas de cuantificación y los órdenes de conexión de los
respectivos codificadores a la información de codificación para
llevar a cabo una codificación en diversas etapas, y convertirla en
una señal de audio, que incluye las etapas siguientes:
una etapa de control de bandas de codificación
para llevar a cabo un control de decodificación en el que se efectúa
una etapa de decodificación que consiste en una decodificación en
varias etapas que se configura mediante una escala, basándose en la
secuencia de código de control de bandas, y
una etapa de decodificación destinada a
decodificar en diversas etapas la información de codificación, bajo
control de la etapa de control de bandas de decodificación.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP5940398 | 1998-03-11 | ||
| JP5940398 | 1998-03-11 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2216367T3 true ES2216367T3 (es) | 2004-10-16 |
Family
ID=13112289
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES99104831T Expired - Lifetime ES2216367T3 (es) | 1998-03-11 | 1999-03-11 | Aparato de codificacion y de decodificacion de señales de audio. |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US6871106B1 (es) |
| EP (1) | EP0942411B1 (es) |
| KR (1) | KR100304092B1 (es) |
| CN (1) | CN1131507C (es) |
| DE (1) | DE69915400T2 (es) |
| ES (1) | ES2216367T3 (es) |
Families Citing this family (39)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| FR2791167B1 (fr) * | 1999-03-17 | 2003-01-10 | Matra Nortel Communications | Procedes de codage, de decodage et de transcodage audio |
| KR100347752B1 (ko) * | 2000-01-25 | 2002-08-09 | 주식회사 하이닉스반도체 | 이동통신 시스템에서 객관적 음질 평가 장치 및 그 방법 |
| KR100708092B1 (ko) * | 2000-06-15 | 2007-04-16 | 삼성전자주식회사 | 가변 샘플링 레이트를 이용한 녹음 및/또는 재생 장치 및그 방법 |
| US8605911B2 (en) | 2001-07-10 | 2013-12-10 | Dolby International Ab | Efficient and scalable parametric stereo coding for low bitrate audio coding applications |
| SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
| CN1279512C (zh) * | 2001-11-29 | 2006-10-11 | 编码技术股份公司 | 用于改善高频重建的方法和装置 |
| EP1489599B1 (en) * | 2002-04-26 | 2016-05-11 | Panasonic Intellectual Property Corporation of America | Coding device and decoding device |
| JP3881943B2 (ja) | 2002-09-06 | 2007-02-14 | 松下電器産業株式会社 | 音響符号化装置及び音響符号化方法 |
| SE0202770D0 (sv) | 2002-09-18 | 2002-09-18 | Coding Technologies Sweden Ab | Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks |
| KR100513729B1 (ko) * | 2003-07-03 | 2005-09-08 | 삼성전자주식회사 | 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법 |
| KR20060131793A (ko) * | 2003-12-26 | 2006-12-20 | 마츠시타 덴끼 산교 가부시키가이샤 | 음성ㆍ악음 부호화 장치 및 음성ㆍ악음 부호화 방법 |
| US7994946B2 (en) | 2004-06-07 | 2011-08-09 | Agency For Science, Technology And Research | Systems and methods for scalably encoding and decoding data |
| US20090070118A1 (en) * | 2004-11-09 | 2009-03-12 | Koninklijke Philips Electronics, N.V. | Audio coding and decoding |
| JP4635709B2 (ja) * | 2005-05-10 | 2011-02-23 | ソニー株式会社 | 音声符号化装置及び方法、並びに音声復号装置及び方法 |
| WO2007105586A1 (ja) * | 2006-03-10 | 2007-09-20 | Matsushita Electric Industrial Co., Ltd. | 符号化装置および符号化方法 |
| KR100738109B1 (ko) * | 2006-04-03 | 2007-07-12 | 삼성전자주식회사 | 입력 신호의 양자화 및 역양자화 방법과 장치, 입력신호의부호화 및 복호화 방법과 장치 |
| JP2009539132A (ja) * | 2006-05-30 | 2009-11-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号の線形予測符号化 |
| KR100827458B1 (ko) * | 2006-07-21 | 2008-05-06 | 엘지전자 주식회사 | 오디오 부호화 방법 |
| JP2008076776A (ja) * | 2006-09-21 | 2008-04-03 | Sony Corp | データ記録装置、データ記録方法及びデータ記録プログラム |
| CN101179278B (zh) * | 2006-11-07 | 2010-09-08 | 扬智科技股份有限公司 | 音响系统及其声音讯号编码的方法 |
| JP4708446B2 (ja) * | 2007-03-02 | 2011-06-22 | パナソニック株式会社 | 符号化装置、復号装置およびそれらの方法 |
| JP4871894B2 (ja) | 2007-03-02 | 2012-02-08 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法および復号方法 |
| RU2459283C2 (ru) * | 2007-03-02 | 2012-08-20 | Панасоник Корпорэйшн | Кодирующее устройство, декодирующее устройство и способ |
| JP5045295B2 (ja) * | 2007-07-30 | 2012-10-10 | ソニー株式会社 | 信号処理装置及び方法、並びにプログラム |
| KR101235830B1 (ko) * | 2007-12-06 | 2013-02-21 | 한국전자통신연구원 | 음성코덱의 품질향상장치 및 그 방법 |
| US8654990B2 (en) * | 2009-02-09 | 2014-02-18 | Waves Audio Ltd. | Multiple microphone based directional sound filter |
| CN101847412B (zh) * | 2009-03-27 | 2012-02-15 | 华为技术有限公司 | 音频信号的分类方法及装置 |
| US8924208B2 (en) | 2010-01-13 | 2014-12-30 | Panasonic Intellectual Property Corporation Of America | Encoding device and encoding method |
| CN104347079B (zh) | 2010-08-24 | 2017-11-28 | Lg电子株式会社 | 处理音频信号的方法和设备 |
| WO2012144128A1 (ja) | 2011-04-20 | 2012-10-26 | パナソニック株式会社 | 音声音響符号化装置、音声音響復号装置、およびこれらの方法 |
| CN110706715B (zh) * | 2012-03-29 | 2022-05-24 | 华为技术有限公司 | 信号编码和解码的方法和设备 |
| KR101821532B1 (ko) * | 2012-07-12 | 2018-03-08 | 노키아 테크놀로지스 오와이 | 벡터 양자화 |
| EP2863386A1 (en) | 2013-10-18 | 2015-04-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder |
| WO2015166734A1 (ja) * | 2014-05-01 | 2015-11-05 | 日本電信電話株式会社 | 符号化装置、復号装置、及びその方法、プログラム |
| CN104217726A (zh) * | 2014-09-01 | 2014-12-17 | 东莞中山大学研究院 | 一种无损音频压缩编码方法及其解码方法 |
| CN106448630B (zh) | 2016-09-09 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 歌曲的数字乐谱文件的生成方法和装置 |
| CN113903345B (zh) * | 2021-09-29 | 2025-09-26 | 北京字节跳动网络技术有限公司 | 音频处理方法、设备及电子设备 |
| CN115579013B (zh) * | 2022-12-09 | 2023-03-10 | 深圳市锦锐科技股份有限公司 | 一种低功耗音频解码器 |
| KR20240161342A (ko) * | 2023-05-04 | 2024-11-12 | 한국전자통신연구원 | 오디오 신호의 부호화/복호화 방법 및 장치 |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2077662C (en) * | 1991-01-08 | 2001-04-17 | Mark Franklin Davis | Encoder/decoder for multidimensional sound fields |
| JP3277679B2 (ja) * | 1994-04-15 | 2002-04-22 | ソニー株式会社 | 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置 |
| TW321810B (es) * | 1995-10-26 | 1997-12-01 | Sony Co Ltd | |
| US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
| US5781888A (en) * | 1996-01-16 | 1998-07-14 | Lucent Technologies Inc. | Perceptual noise shaping in the time domain via LPC prediction in the frequency domain |
| JP3189660B2 (ja) * | 1996-01-30 | 2001-07-16 | ソニー株式会社 | 信号符号化方法 |
| US5913191A (en) * | 1997-10-17 | 1999-06-15 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries |
-
1999
- 1999-03-10 KR KR1019990007928A patent/KR100304092B1/ko not_active Expired - Fee Related
- 1999-03-11 US US09/266,631 patent/US6871106B1/en not_active Expired - Lifetime
- 1999-03-11 DE DE69915400T patent/DE69915400T2/de not_active Expired - Lifetime
- 1999-03-11 EP EP99104831A patent/EP0942411B1/en not_active Expired - Lifetime
- 1999-03-11 ES ES99104831T patent/ES2216367T3/es not_active Expired - Lifetime
- 1999-03-11 CN CN99108017A patent/CN1131507C/zh not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| EP0942411A3 (en) | 2002-01-30 |
| CN1131507C (zh) | 2003-12-17 |
| KR19990077753A (ko) | 1999-10-25 |
| EP0942411A2 (en) | 1999-09-15 |
| DE69915400T2 (de) | 2004-08-05 |
| KR100304092B1 (ko) | 2001-09-26 |
| EP0942411B1 (en) | 2004-03-10 |
| DE69915400D1 (de) | 2004-04-15 |
| US6871106B1 (en) | 2005-03-22 |
| CN1240978A (zh) | 2000-01-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2216367T3 (es) | Aparato de codificacion y de decodificacion de señales de audio. | |
| ES2205238T3 (es) | Procedimientos de codificacion y decodificacion de señales de audio, y codificador y decodificador de señales de audio. | |
| JP4950210B2 (ja) | オーディオ圧縮 | |
| CN101199121B (zh) | 编码输入信号方法和编码器/译码器 | |
| KR100193353B1 (ko) | 적응블록길이, 적응변환, 적응윈도우 변환코더, 디코더 및 고품질 오디오용 인코더/디코더 | |
| ES2433043T3 (es) | Conmutación del modo de codificación ACELP a TCX | |
| US7243061B2 (en) | Multistage inverse quantization having a plurality of frequency bands | |
| JP2774203B2 (ja) | オーディオ信号処理方法 | |
| US7512539B2 (en) | Method and device for processing time-discrete audio sampled values | |
| WO2002103685A1 (en) | Encoding apparatus and method, decoding apparatus and method, and program | |
| JP3344962B2 (ja) | オーディオ信号符号化装置、及びオーディオ信号復号化装置 | |
| HK1002743B (en) | Hybrid perceptual audio coding | |
| ES2145737T5 (es) | Codificador digital de voz con predictor a largo plazo mejorado por resolucion de submuestreos. | |
| KR100309727B1 (ko) | 오디오 신호 부호화 장치 및 복호화 장치와 오디오 신호 부호화 및 복호화 방법 | |
| JP4359949B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
| CN119229881A (zh) | 一种基于mdct系数残差矢量量化的分层语音编解码方法 | |
| RU2409874C2 (ru) | Сжатие звуковых сигналов | |
| JP4327420B2 (ja) | オーディオ信号符号化方法、及びオーディオ信号復号化方法 | |
| JP4618823B2 (ja) | 信号符号化装置及び方法 | |
| KR100241689B1 (ko) | Mpeg-2를 이용한 오디오 인코더 | |
| Ozaydin | Residual Lsf Vector Quantization Using Arma Prediction | |
| Bhaskar | Low rate coding of audio by a predictive transform coder for efficient satellite transmission | |
| MXPA98010783A (es) | Aparato codificador, aparato descodificador de señal de audio y metodo de codificacion y descodificacion de señal de audio |