ES2995310T3

ES2995310T3 - Downscaled decoding of audio signals

Info

Publication number: ES2995310T3
Application number: ES23174595T
Authority: ES
Inventors: Markus Schnell; Manfred Lutzky; Eleni Fotopoulou; Konstantin Schmidt; Conrad Benndorf; Adrian Tomasek; Tobias Albert; Timon Seidl
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2015-06-16
Filing date: 2016-06-10
Publication date: 2025-02-10
Anticipated expiration: 2036-06-10
Also published as: JP2022130447A; JP2023164894A; US11062719B2; US20200051578A1; WO2016202701A1; ES2991689T3; TWI611398B; CN114255771A; KR102660438B1; CA3267964A1; PL4365895T3; KR102502643B1; CN108028046A; CA2989252C; KR20220093254A; PL4235658T3; US20180366133A1; KR20180021704A; PL4239631T3; EP4239632A2

Abstract

Se puede lograr una versión reducida de un procedimiento de decodificación de audio de manera más efectiva y/o con un mantenimiento de cumplimiento mejorado si la ventana de síntesis utilizada para la decodificación de audio reducida es una versión reducida de una ventana de síntesis de referencia involucrada en el procedimiento de decodificación de audio no reducida mediante un muestreo reducido por el factor de muestreo reducido por el cual se desvían la frecuencia de muestreo reducida y la frecuencia de muestreo original, y un muestreo reducido utilizando una interpolación segmentaria en segmentos de 1/4 de la longitud del cuadro. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Decodificación con reducción de escala de señales de audio

[0001] La presente solicitud se refiere a un concepto de decodificación con reducción de escala.

[0002] El MPEG-4 AAC Mejorado de Bajo Retardo (AAC-ELD) normalmente opera a tasas de muestreo de hasta 48 kHz, lo que da lugar a un retardo algorítmico de 15 ms. Para algunas aplicaciones, p. ej., transmisión de audio de la sincronización de labios, es deseable un retardo incluso más bajo. AAC-ELD ya proporciona una opción tal por medio de la operación a tasas de muestreo más altas, p. ej., 96 kHz, y por lo tanto proporciona modos de funcionamiento en un plazo incluso menor, p. ej., 7,5 ms. Sin embargo, este modo de operación viene junto con una alta complejidad innecesaria debido a la alta tasa de muestreo.

[0003] La solución a este problema es aplicar una versión con reducción de escala del banco de filtros y, por lo tanto, provocar que la señal de audio en una tasa de muestreo inferior, p. ej., 48 kHz en lugar de 96 kHz. La operación con reducción de escala ya es parte de AAC-ELD ya que se hereda del códec MPEG-4 AAC-LD, que sirve como base para AAC-ELD.

[0004] En lo sucesivo, se describen los principios del modo de operación con reducción de escala de los códecs AAC-(E)LD.

[0005] El modo de operación con reducción de escala o AAC-LD se describe para AAC-LD en la norma ISO/IEC 14496-3:2009 en la sección 4.6.17.2.7 "Adaptation to systems using lower sampling rates" de la siguiente manera:

[0006]"En ciertas aplicaciones puede ser necesario integrar el decodificador de bajo retardo en un sistema de audio funciona a velocidades de muestreo más bajas (p. ej., 16 kHz), mientras que la tasa de muestreo nominal de la carga útil de corriente de bits es mucho más alta (p. ej., 48 kHz, correspondiente a un retardo de códec algorítmico de aprox. 20 ms). En tales casos, es favorable decodificar la salida del códec de bajo retardo directamente en la tasa de muestreo de destino en lugar de utilizar una operación de conversión de tasa de muestreo adicional después de la decodificación.

[0007]Esto se puede aproximar por medio de la reducción de escala apropiada de ambos, el tamaño de la trama y la tasa de muestreo, por algún factor entero (p. ej., 2, 3), lo que da lugar a la misma resolución de tiempo/frecuencia del códec. Por ejemplo, la salida de códec se puede generar a 16 kHz de tasa de muestreo en lugar de la nominal 48 kHz por medio de la retención de sólo el tercer más bajo (es decir, 480/3 = 160) de los coeficientes espectrales antes de la síntesis del banco de filtros y la reducción del tamaño de la transformada inversa a un tercio (es decir, tamaño de la ventana 960/3 = 320).

[0008]Como consecuencia, la decodificación de una tasa de muestreo más baja reduce tanto la memoria y los requisitos computacionales, pero puede no producir exactamente el mismo resultado que una decodificación de ancho de banda completo, seguido por limitación de banda y la conversión de tasa de muestreo.

[0009]Se debe tener en cuenta que la decodificación a una menor tasa de muestreo, según lo descrito con anterioridad, no afecta a la interpretación de los niveles, que se refiere a la tasa de muestreo nominal de la carga útil corriente de bits de bajo retardo de AAC'.

[0010] Se debe tener en cuenta que AAC-LD trabaja con un marco estándar de MDCT y dos formas de ventana, es decir, ventana senoidal y ventana bajo solapamiento. Ambas ventanas están totalmente descritas por las fórmulas y, por lo tanto, se pueden determinar los coeficientes de ventana para cualquier longitud de transformación.

[0011] En comparación con AAC-LD, el códec de AAC-ELD muestra dos diferencias principales:

- La ventana de MDCT de bajo retardo (LD-MDCT)

- La posibilidad de utilizar la herramienta de SBR de Bajo Retardo

[0012] El algoritmo de IMDCT por el uso de la ventana de MDCT de bajo retardo se describe en 4.6.20.2 en [1], que es muy similar a la versión estándar por el uso de, por ejemplo, IMDCT la ventana senoidal. Los coeficientes de ventana de MDCT de bajo retardo (tamaño de trama de muestras 480 y 512) se presentan en la Tabla 4.A.15 4.A.16 y en [1]. Se debe tener en cuenta que los coeficientes no se pueden determinar por medio de una fórmula, dado que los coeficientes son el resultado de un algoritmo de optimización. La Fig. 9 muestra un gráfico de la forma de la ventana para el tamaño de trama 512.

[0013] En caso de que la herramienta de SBR de bajo retardo (LD-SBR) se utilice en conjunción con el codificador AAC-ELD, los bancos de filtros del módulo de LD-SBR también tienen reducción de escala. Esto asegura que el módulo de SBR opera con la misma resolución de frecuencia y, por lo tanto, no se requieren más adaptaciones.

[0014]Por lo tanto, la descripción anterior pone de manifiesto que existe una necesidad con reducción de escala de operaciones de decodificación tales como, por ejemplo, reducción de escala de una decodificación en un AAC-ELD. Sería factible encontrar los coeficientes de la función de ventana de síntesis con reducción de escala de nuevo, pero esta es una tarea complicada, que hace necesario el almacenamiento adicional para almacenar la versión con reducción de escala y hacer una verificación de la conformidad entre la decodificación sin reducción de escala y la decodificación con reducción de escala más complicada o, desde otra perspectiva, no se ajusta a la forma con reducción de escala deseada en el AAC-ELD, por ejemplo. Dependiendo de la proporción de escala descendente, es decir, la relación entre la tasa de muestreo original y la tasa de muestreo con reducción de escala, se podría derivar la función de ventana de síntesis con reducción de escala simplemente por medio de submuestreo, es decir, eligiendo cada segundo, tercer, ... coeficiente de ventana de la función de ventana de síntesis original, pero este procedimiento no da como resultado una conformidad suficiente de la decodificación sin reducción de escala y decodificación con reducción de escala, respectivamente. El uso de procedimientos diezmados más sofisticados aplicados a la función de ventana de síntesis, conduce a desviaciones inaceptables de la función de ventana de síntesis forma original. Por lo tanto, hay una necesidad en la técnica de un concepto de decodificación con reducción de escala mejorada.

[0015]La publicación científica Juin-Hwey Chen: “A high-fidelity speech and audio codec with low delay and low complexity” (Un discurso de alta fidelidad y códec de audio con bajo retardo y baja complejidad), Procedimientos de 2000 IEEE Conf. Int. Sobre Procesamiento de señal, discurso y acústica (iCASSP); Estambul, Turquía; 5-9 de junio de 2000, páginas ||1161-1164||, describe decodificar directamente una señal de flujo de bits de audio de alta fidelidad en una señal de audio muestreada inferior sin la decodificación primero y el muestreo descendente a continuación a la tasa de muestreo destino.

[0016]En consecuencia, un objetivo de la presente invención es proporcionar un esquema de decodificación de audio que permita una decodificación con reducción de escala tal mejorada.

[0017]Este objeto se consigue por medio de la materia objetivo de las reivindicaciones independientes.

[0018]La presente invención se basa en el hallazgo de que una versión con reducción de escala de un procedimiento de decodificación de audio se puede lograr de manera más eficaz y/o con un mantenimiento de cumplimiento mejorado si la ventana de síntesis que se utiliza para la decodificación de audio con reducción de escala es una versión submuestreada de una ventana de síntesis de referencia que está implicada en el procedimiento de decodificación de audio sin reducción de escala por medio del submuestreo por el factor de submuestreo por el cual la tasa de muestreo submuestreada y la tasa de muestreo original se desvían, y se submuestrean por el uso de una interpolación segmentaria en los segmentos de 1/4 de la longitud de la trama.

[0019]Los aspectos ventajosos de la presente solicitud son el objetivo de las reivindicaciones dependientes. Las realizaciones preferidas de la presente solicitud se describen a continuación con respecto a las figuras, entre los cuales:

La Fig. 1 muestra un diagrama esquemático que ilustra las necesidades de reconstrucción perfectas necesarias para ser obedecidas cuando se decodifica con reducción de escala con el fin de preservar una reconstrucción perfecta; La Fig. 2 muestra un diagrama de bloques de un decodificador de audio para decodificación con reducción de escala según una realización;

La Fig. 3 muestra un diagrama esquemático que ilustra en la mitad superior la forma donde una señal de audio se ha codificado a una tasa de muestreo original, en una corriente de datos y, en la mitad inferior separada de la mitad superior por una línea horizontal de trazos, una operación de decodificación con reducción de escala para la reconstrucción de la señal de audio de la corriente de datos a una tasa de muestreo reducida o con reducción de escala, con el fin de ilustrar el modo de operación del decodificador de audio de la Fig. 2;

La Fig. 4 muestra un diagrama esquemático que ilustra la cooperación del formador de ventanas y cancelador de solapamiento de dominio de tiempo de la Fig. 2;

La Fig. 5 ilustra una posible implementación para lograr la reconstrucción según la Fig. 4 por el uso de un tratamiento especial de las porciones pesadas en cero de las porciones de tiempo moduladas espectrales a tiempo; La Fig. 6 muestra un diagrama esquemático que ilustra el submuestreo para obtener la ventana de síntesis submuestreada;

La Fig. 7 muestra un diagrama de bloques que ilustra una operación con reducción de escala de AAC-ELD que incluye la herramienta de SBR de bajo retardo;

La Fig. 8 muestra un diagrama de bloques de un decodificador de audio para la decodificación con reducción de escala según una realización donde el modulador, el formador de ventanas y el cancelador se implementan según una implementación de elevación; y

La Fig. 9 muestra un gráfico de los coeficientes de ventana de una ventana de bajo retardo según AAC-ELD de tamaño de trama de la muestra 512 como un ejemplo de una ventana de síntesis de referencia que se va a submuestrear.

[0020]La siguiente descripción comienza con una ilustración de una realización para la decodificación con reducción de escala con respecto al códec AAC-ELD. Es decir, la siguiente descripción comienza con una realización, que podría formar un modo con reducción de escala para AAC-ELD. Esta descripción forma al mismo tiempo una especie de explicación de la motivación subyacente a las realizaciones de la presente solicitud. Más tarde, esta descripción se generaliza, lo que conduce a una descripción de un decodificador de audio y el procedimiento de decodificación de audio según una realización de la presente solicitud.

[0021]Según lo descrito en la porción introductoria de la memoria descriptiva de la presente solicitud, AAC-ELD utiliza ventanas de MDCT de bajo retardo. Para generar versiones con reducción de escala de la misma, es decir, ventanas de bajo retardo con reducción de escala, la propuesta se explica posteriormente para formar un modo con reducción de escala para AAC-ELD utiliza un algoritmo de interpolación segmentaria de spline que mantiene la propiedad de reconstrucción perfecta (PR, por su sigla en inglés) de la ventana de LD-MDCT con una precisión muy alta. Por lo tanto, el algoritmo permite la generación de coeficientes de ventana en forma directa, según lo descrito en ISO/IEC 14496-3: 2009, así como también en la forma de elevación, según lo descrito en [2], de una manera compatible. Esto significa que ambas implementaciones generan una salida conforme de 16 bits.

[0022]La interpolación de la ventana de MDCT de Bajo Retardo se lleva a cabo según lo presentado a continuación.

[0023]En general una interpolación spline se va a utilizar para la generación de los coeficientes de ventana con reducción de escala para mantener la respuesta de frecuencia y en su mayoría la propiedad de reconstrucción perfecta (de aproximadamente 170dB SNR). La interpolación tiene que ser restringida en ciertos segmentos para mantener la propiedad de reconstrucción perfecta. Para los coeficientes de ventana c que cubren el núcleo de la transformación DCT (véase también la Figura 1, c(1024) ... c(2048)), se requiere la siguiente restricción,

1 = |(sgn • c(f) •c(2N— 1 —i) c(Ni) ■c(l\l— 1 — 0 )[ para i = 0...N/2— 1 (1)

donde ¿Y denota el tamaño de la trama. Alguna implementación puede utilizar diferentes señales para optimizar la complejidad, en la presente memoria, denotado por sgn. El requisito en (1) se puede ilustrar por medio de la Fig. 1. Se debe recordar que, simplemente, en incluso en caso de M = 2, es decir la mitad de la tasa de muestreo, deja afuera cada segundo coeficiente de ventana de la ventana de síntesis de referencia para obtener la ventana de síntesis con reducción de escala no cumple el requisito.

c(0 )...c(2N -1.)

[0024]Los coeficientes se enumeran a lo largo de la forma de diamante. Los N/4 ceros en los coeficientes de ventana, que son responsables de la reducción del retardo del banco de filtros, se marcan por medio de una flecha en negrita. La Fig. 1 muestra las dependencias de los coeficientes provocadas por el plegamiento involucrado en la MDCT y también los puntos donde la interpolación tiene que ser restringida con el fin de evitar cualquier dependencia no deseada.

-Cada N/2 coeficientes, la interpolación tiene que parar para mantener (1)

-Además, el algoritmo de interpolación tiene que parar cada N/4 coeficientes debido a los ceros insertados. Esto asegura que los ceros se mantengan y que no se transmita el error de interpolación que mantiene la PR.

[0025]La segunda restricción no sólo es necesaria para el segmento que contiene los ceros sino también para los otros segmentos. Sabiendo que algunos coeficientes DCT en el núcleo no se determinaron por medio del algoritmo de optimización, sino que se determinaron por medio de la fórmula (1) para permitir PR, se pueden explicar varias discontinuidades en la forma de la ventana, por ejemplo, de aproximadamente c(1536+128) en la Figura 1. Con el fin de minimizar el error de PR, la interpolación tiene que parar en tales puntos, que aparecen en una rejilla de N/4.

[0026]Debido a esta razón, el tamaño de segmento de N/4 que se elige para la interpolación segmentaria spline para generar los coeficientes de ventana con reducción de escala. Los coeficientes de ventana de origen siempre son dados por los coeficientes utilizados paraN= 512, también para las operaciones con reducción de escala que da lugar a tamaños de trama deN= 240 oN= 120. El algoritmo básico se describe muy brevemente en lo siguiente como el código de MATLAB:

FAC = factor de reducción de escala%p. ej. 0,5

sb = 128;%de tamaño de segmento de ventana de origen

w_down = □; % de ventana con reducción de escala

nSegments = longitud í'W':/(SB):%del número de segmentos; W = LD coeficientes de ventana para N = 512

xn = ((0: (FACl sb-1 JJ+0,5VFAC-0.5; % de spline inicial

para i = 1: nSegmenls.

w_down = [w_down, spline ([0: (sb-1)], W((M)*sb+(1:(sb))), xn)];

fin:

[0027]Dado que la función de spline puede no ser determinista por completo, el algoritmo completo se especifica exactamente en la sección siguiente, que se puede incluir en la norma ISO/IEC 14496-3: 2009, con el fin de formar un modo con reducción de escala mejorado en AAC-ELD.

[0028]En otras palabras, en la siguiente sección se ofrece una propuesta de cómo la idea descrita con anterioridad se podría aplicar a ER AAC ELD, es decir, en cuanto a cómo un decodificador poco complejo podría decodificar una corriente de bits ER AAC ELD codificada a una primera tasa de datos a una segunda tasa de datos más baja que la primera tasa de datos. Se enfatiza, sin embargo, que la definición de N según lo utilizado en lo siguiente se adhiere a la norma. En este caso, N corresponde a la longitud del núcleo de DCT, mientras que en lo que antecede, en las reivindicaciones, y las realizaciones generalizadas posteriormente descritas, N corresponde a la longitud de la trama, es decir, la longitud de solapamiento mutuo de los núcleos de DCT, es decir, la media de la longitud del núcleo de DCT. En consecuencia, mientras que N se indicó que era 512 en lo que antecede, por ejemplo, se indica para ser 1024 en lo sucesivo.

[0029]Se proponen los siguientes párrafos para su inclusión a 14496-3: 2009 a través de la Enmienda, que ilustran un ejemplo no necesariamente abarcado por la invención. Las referencias numeradas a continuación se refieren a ese documento [1].

A.0 Adaptación a los sistemas que utilizan tasas de muestreo más bajas

[0030]Para ciertas aplicaciones, ER AAC LD puede cambiar la tasa de muestreo de reproducción con el fin de evitar medidas de remuestreo adicionales (véase 4.6.17.2.7). ER AAC ELD puede aplicar medidas con reducción de escala similares por el uso de la ventana de MDCT de bajo retardo y la herramienta LD-SBR. En el caso de que<AAC-ELD funcione con la herramienta LD-SBR, el factor con reducción de escala se limita a múltiplos de 2. Sin>L<d>-SBR, el tamaño de la trama con reducción de escala tiene que ser un número entero.

A.1 Reducción de escala de la ventana de MDCT de Bajo Retardo

[0031]La ventana LD-MDCT wld para N = 1024 se reduce proporcionalmente un factorFpor el uso de una interpolación segmentaria spline. El número de ceros a la izquierda en los coeficientes de ventana, es decir, N/8, determina el tamaño del segmento. Los coeficientes de ventana con reducción de escala WLD_d se utilizan para la MDCT inversa según lo descrito en 4.6.20.2 pero con una longitud de ventana con reducción de escala Nd =N / F.

Se debe tener en cuenta que el algoritmo también es capaz de generar coeficientes de elevación con reducción de escala de la LD-MDCT.

fs_window_size = 2048:f*Número de coeficientes de ventana cor fondo de escala. Según la norma ISG/IEC 14496-3: 2009. se utilizan 2043. Para imple mentación es de elevación, por favor a j usía esta variable en consecuencia 7

ds_window_size = N * fs_v.,lndow_s¡ze/(1024 * F);f*Coeficienles de ventana con reducción de escala; N determina la longitud transformación según 4.6.20.27

fs_segment_size = 123;

num_segments = 1s_window_size!fs_segmenl_size;

ds_segment_size = ds_window_sizetnum_segments:

tmp[128], y [128]:i*búfers temporales 7

11 bucle sobre segmentos 7

para (b = 0, b < num_segments: b-n-} {

t*copiar segmento actual a tmp 7

copiar (&W_LD [b * fs_segment_size]; tmp, fs_segment_size);

t*aplicar la interpolación spline cúbica para la reducción de escala V

rcalcular fase de Interpolación 7

fase = (fswlndowslze - ds_window_sizeJ!(21 ds_window_size);

t*calcular los coeficientes c del spline cúbico dado tmp 7

!'* matriz de constantes gjoe&stoolajdto 7

m = {0,166666672, 0,25, 0,266666631. 0,267357184, 0.267942573, 0,267943717, 0,267949164};

n = fs_segment_size;t*por simplicidad 7

t*calcular el vector r necesario para calcular los coeficientes c 7

para (i = n - 3; i> = O: i-)

r[¡] = 3 * ((tmp[i - 2]-tmp[¡ 1]} - (tmp[¡ ■ 1]-tmpp]}};

para 0 = 1: i <7; i +)

r[¡]-= m [i - 1 ]1 r[i -1];

para (i = 7; i <n - 4: i++)

r[i]-= 0,267949194 * r|i-1];

t*Calcular los coeficientes c 7

c[n - 2] = r [n - 3]/6;

c[n -3] =(r [n - 4] - c[n - 2])*0,25:

para (i =n- 4; i> 7: i-}

c[¡] = (r[i-1]-c[¡ ■ 1]) * 0,267949194;

para (i= 7;i>1;i-':-cfi] = (rfi-1] -c[¡ 1])* m[F1];

c[1]= r[0] * m[0];

c|0] = 2 * c[1] - c[2]:

c[n-1] = 21 c[n - 2] - c[n - 3];

t*mantener las muestras originales en el búfer y temporal ya que las muestras de tmp será reemplazado con las muestras interpoladas 7

copiar(tmp, y, fs_segment_size};

t*generar puntos con reducción de escala y hacer la interpolación 7

para (k = 0; k < ds_segment_size: k +) {

paso = fase k * fs_segment_s¡ze/ds_segment_size;

¡idx = suelo(paso);

diff = paso-IDX:

di=(c[idx+ 1]- c[idx]>/ 3;

b¡=(y [idx+■1]-y [idx])-(c[idx+ 1] 2 *c[idx])/ 3;

t*calcular los valores con reducción de escala y se almacenan en Imp 7

tmptk] = y[idx] diff * [bi diff1 (cfldx] diff1 di}};

rmontar ventana con reducción de escala 7

copiar (tmp, &W_LD_d[b1 ds_segment_size], ds_segment_size):

A.2 Reducción de escala de la herramienta de SBR de bajo retardo

[0032]En el caso de que se utilice la herramienta de SBR de bajo retardo en conjunción con ELD, esta herramienta se puede reducir según las tasas de muestreo más bajas, al menos para los factores con reducción de escala de un múltiplo de 2. El factor con reducción de escala F controla el número de bandas utilizadas para el análisis de CLDFB y el banco de filtros de síntesis. Los dos párrafos siguientes describen un análisis de CLDFB con reducción de escala y el banco de filtros de síntesis, véase también 4.6.19.4.

4.6.20.5.2.1 Análisis con reducción de escala de banco de filtros de CLDFB

[0033]

-Definir el número de bandas CLDFB con reducción de escala. B=32/F

-Cambiar las muestras en la matriz x porBposiciones. LasBmuestras más antiguas se descartan y las nuevasBmuestras se almacenan en posiciones de 0 aB- 1.

-Multiplicar las muestras de matriz x por el coeficiente de ventanacipara conseguir la matrizz.Los coeficientes de ventana se obtienen por interpolación lineal de los coeficientes c, es decir, a través de la ecuación

[0034]Los coeficientes de ventana decse pueden encontrar en la Tabla 4.A.90.

-Sumar las muestras para crear la matrizude 2B elementos:

- CalcularBnuevas muestras de subbanda por la operación de la matrizMu,donde

0 <k < B

0 < n <2B‘

[0035]En la ecuación, exp( ) denota la función exponencial compleja yjes la unidad imaginaria.

4.6.20.5.2.2 Síntesis con reducción de escala de banco de filtros de CLDFB

[0036]

- Definir número de bandas CLDFB con reducción de escala. B=64/F

- Cambiar las muestras en la matrizvpor 2B posiciones. Las 2B muestras más antiguas se descartan.

- LasBnuevas muestras de subbanda con valores complejos se multiplican por la matrizN,donde

rQ < k < B

K Q < n < 2 B

[0037]En la ecuación, exp( ) denota la función exponencial compleja yjes la unidad imaginaria. La parte real de la salida de esta operación se almacena en las posiciones 0 a 2B - 1 de la matrizv.

-Extraer muestras devpara crear la matrizgde 10B-elemento.

g(2B n fc ) = v(4B - n k ){ 0 <n< 4g(2B ■ n B k ) =u (4B- n3B k')' 1 0< k<B

- Multiplicar las muestras de matrizgpor el coeficiente de ventanacipara producir la matrizw.Los coeficientes de ventanacise obtienen por medio de la interpolación lineal de los coeficientesc, es decir, a través de la ecuación

[0038]Los coeficientes de ventana decse pueden encontrar en la Tabla 4.A.90.

-CalcularBnuevas muestras de salida por medio de la suma de las muestras de la matrizwsegún la ecuación:(n ) = £¡z^w(¿íi n) , Q < n < B,

Salida

[0039]Se debe tener en cuenta que el ajusteF= 2 ofrece el banco de filtros de síntesis submuestreado según 4.6.19.4.3. Por lo tanto, para procesar una corriente de bits LD-SBR submuestreada con un factor con reducción de escala adicional F,Ftiene que ser multiplicado por 2.

4.6.20.5.2.3 Banco de filtros de CLDFB de valor real con reducción de escala

[0040]La reducción de escala de CLDFB se puede aplicar para las versiones de valores reales del modo de bajo consumo de energía de SBR también. A título de ejemplo, cabe tener en cuenta también 4.6.19.5.

[0041]Para el banco de filtros de síntesis y análisis de valor real con reducción de escala, siga la descripción en 4.6.20.5.2.1 y 4.6.20.2.2 e intercambie el modulador exp() enMpor un modulador de cos().

A.3 Análisis de MDCT de Bajo Retardo

[0042]En esta subcláusula se describe el banco de filtros de MDCT de bajo retardo utilizado en el codificador AAC ELD. El algoritmo de núcleo MDCT es prácticamente igual, pero con una ventana más larga, de tal manera que n está en funcionamiento de -N a N-1 (en lugar de desde 0 hasta N-1)

[0043]El coeficiente espectral, Xi,k, se define según lo presentado a continuación:

donde:

zin<=>secuencia de entrada de ventana

N = índice de muestra

K<=>índice de coeficiente espectral

ll<=>índice de bloque

n<=>longitud de la ventana

n0<=>(-N / 2 1)/ 2

[0044]La longitud de la ventana N (en base a la ventana senoidal) es 1024 o 960.

[0045]La longitud de ventana de la ventana de bajo retardo es 2*N. Las ventanas se extienden al pasado de la siguiente forma:

,n=W LD ( N - 1 -n ) •X ' ,n

para n = -N,..., N-1, con la ventana de síntesis w utilizada como la ventana de análisis por medio de la inversión del orden.

A.4 Síntesis de MDCT de Bajo Retardo

[0046]El banco de filtros de síntesis se modifica en comparación con el algoritmo IMDCT estándar por el uso de una ventana senoidal con el fin de adoptar un banco de filtros de bajo retardo. El algoritmo de IMDCT de núcleo es prácticamente igual, pero con una ventana más larga, de tal manera que n esté en funcionamiento hasta 2N-1 (en lugar de hasta N-1).

donde:

n = índice de muestra

ii = índice de ventana

k = índice de coeficiente espectral

N = longitud de la ventana / el doble de la longitud de la trama

no = (-N / 2 1) / 2

con N = 960 o 1024.

[0047]La formación de ventanas y el solapamiento y suma se llevan a cabo de la siguiente manera:

La ventana de longitud N se sustituye por una ventana de longitud 2N con más solapamiento en el pasado, y menos solapamiento para el futuro (N/8 valores son en realidad cero).

[0048]Ventanas para la Ventana de Bajo Retardo:

Z i,n = W LD( « ) • X,n

[0049]Cuando la ventana ahora tiene una longitud de 2N, por lo tanto, n = 0,..., 2N-1.

[0050]Se superponen y se suma:

o u t . Z i ,n ZZ

i—l, n--N---+ Z i - 2 ,n N+

i—3,n+ N N_22

para 0 <= n <N/2

[0051]En este caso, los párrafos propuestos para ser incluidos en 14496-3:2009 a través de la enmienda final. Naturalmente, la descripción anterior de un posible modo con reducción de escala para AAC-ELD representa meramente una realización de la presente solicitud y varias modificaciones son factibles. En general, las realizaciones de la presente solicitud no se limitan a un decodificador de audio que realiza una versión con reducción de escala de la decodificación AAC-ELD. En otras palabras, las realizaciones de la presente solicitud se pueden, por ejemplo, derivar por medio de la formación de un decodificador de audio capaz de llevar a cabo el proceso de transformación inversa de una manera con reducción de escala sólo sin apoyo o por el uso de las diversas tareas más específicas AAC-ELD tales como, por ejemplo, la transmisión basada en el factor de escala de la envolvente espectral, el filtrado de TNS (formación por ruido temporal), la replicación de banda espectral (SBR, por su sigla en inglés) o similares.

[0052]Posteriormente, se describe una realización más general para un decodificador de audio. El decodificador que se explica posteriormente se muestra en la Fig. 2 mientras que la Fig. 3 ilustra las etapas llevadas a cabo por el decodificador de la Fig. 2.

[0053]El decodificador de audio de la Fig. 2, que por lo general se indica por medio del signo de referencia 10, comprende un receptor 12, un capturador 14, un modulador espectral a tiempo 16, un formador de ventanas 18 y un cancelador de solapamiento de dominio de tiempo 20, todos los cuales están conectados en serie el uno al otro en el orden de su mención. La interacción y la funcionalidad de los bloques 12 a 20 del decodificador de audio 10 se describen a continuación con respecto a la Fig. 3. Según lo descrito al final de la descripción de la presente solicitud, los bloques 12 a 20 se pueden implementar en software, hardware programable o hardware, tales como en forma de un programa informático, una FPGA o un ordenador programado apropiadamente, un microprocesador programado o un circuito integrado de aplicación específica con los bloques 12 a 20 que representan subrutinas respectivas, trayectorias de circuito o similares.

[0054]De una manera que se describe en más detalle a continuación, el decodificador de audio 10 de la Fig. 2 está configurado para, (y los elementos del decodificador de audio 10 están configurados para cooperar apropiadamente) con el fin de decodificar una señal de audio 22 de una corriente de datos 24 con una mención destacable de que el decodificador de audio 10 decodifica la señal 22 a una tasa de muestreo de 1/Fva de la tasa de muestreo donde la señal de audio 22 se ha codificado por transformada en la corriente de datos 24 en el lado de codificación. F puede ser, por ejemplo, cualquier número racional mayor que uno. El decodificador de audio puede estar configurado para operar a diferentes o variables factores con reducción de escala F o en uno fijo. Las alternativas se describen con más detalle a continuación.

[0055]La manera en que la señal de audio 22 está codificada por transformada en tasa de la codificación o de muestreo original en la corriente de datos se ilustra en la Fig. 3 en la mitad superior. En el punto 26 de la Fig. 3, se ilustran los coeficientes espectrales por el uso de cajas pequeñas o cuadrados 28 dispuestos en una manera espectro-temporal a lo largo de un eje de tiempo 30 que se extiende horizontalmente en la Fig. 3, y un eje de frecuencia 32 que se extiende verticalmente en la Fig. 3, respectivamente. Los coeficientes espectrales 28 se transmiten dentro de corriente de datos 24. La manera en que se han obtenido los coeficientes espectrales 28, y por lo tanto la forma a través de la cual los coeficientes espectrales 28 representan la señal de audio 22, se ilustra en la Fig. 3 en el punto 34, que ilustra un eje de la porción de tiempo 30 cómo los coeficientes espectrales 28 pertenecientes a, o que representan la porción de tiempo respectiva, se han obtenido a partir de la señal de audio.

[0056]En particular, los coeficientes 28 según lo transmitido dentro de la corriente de datos 24 son coeficientes de un transformada solapada de la señal de audio 22 de tal manera que la señal de audio 22, muestreada en la tasa de muestreo original o de codificación, se dividen en tramas inmediatamente temporalmente consecutivas y que no se solapan de una longitud predeterminada N, donde N coeficientes espectrales se transmiten en corriente de datos 24 para cada trama 36. Es decir, los coeficientes de transformada 28 se obtienen a partir de la señal de audio 22 por el uso de una transformada solapada muestreada críticamente. En la representación de espectrograma espectro-temporal 26, cada columna de la secuencia temporal de columnas de coeficientes espectrales 28 corresponde a una respectiva de las tramas 36 de la secuencia de fotogramas. Los N coeficientes espectrales 28 se obtienen para la trama correspondiente 36 por medio de una transformada de descomposición espectral o modulación espectral a tiempo, las funciones de modulación de las cuales se extienden temporalmente, sin embargo, no sólo a través de la trama 36 a la que pertenecen los coeficientes espectrales resultantes 28, sino también a través de E+1 tramas anteriores, donde E puede ser cualquier número entero o cualquier número entero par mayor que cero. Es decir, los coeficientes espectrales 28 de una columna del espectrograma en el punto 26 que pertenecía a una trama determinado 36 se obtienen por medio de la aplicación de una transformada en una ventana de transformada, que además de la trama respectiva comprende E+1 tramas situadas en el pasado con respecto a la trama actual. La descomposición espectral de las muestras de la señal de audio dentro de esta ventana de transformada 38, que se ilustra en la Fig. 3 para la columna de coeficientes de transformada 28 que pertenecen a la trama intermedia 36 de la porción mostrada en el punto 34 se consigue por el uso de una función de ventana de análisis unimodal bajo retardo 40 con el que las muestras espectrales dentro de la ventana de transformada 38 se ponderan antes de someter la misma a una MDCT.

[0057]Con el fin de reducir el retardo del lado del codificador, la ventana de análisis 40 comprende un intervalo de cero 42 en el extremo delantero temporal del mismo modo que el codificador no tiene que esperar a la porción correspondiente de las nuevas muestras dentro de la trama actual 36 con el fin de calcular los coeficientes espectrales 28 de esta trama actual 36. Es decir, en el intervalo de cero 42 la función de ventana de bajo retardo 40 es cero o tiene cero coeficientes de ventana para que las muestras de audio de ubicación conjunta de la trama actual 36 no lo hacen, debido a la ponderación de ventana 40, contribuyen a los coeficientes de transformada 28 transmitidos para esa trama y una corriente de datos 24. Es decir, resumiendo lo anterior, los coeficientes de transformada 28 que pertenecen a una trama actual 36 se obtienen por medio de la creación de ventanas y la descomposición espectral de muestras de la señal de audio dentro de una ventana de transformada 38 que comprende la trama actual, así como también las tramas temporalmente precedentes y que temporalmente se solapan con las ventanas de transformada correspondientes utilizadas para determinar los coeficientes espectrales 28 pertenecientes a las tramas temporalmente vecinas.

[0058]Antes de reanudar la descripción del decodificador de audio 10, se debe señalar que la descripción de la transmisión de los coeficientes espectrales 28 dentro de la corriente de datos 24 según lo previsto hasta ahora se ha simplificado con respecto a la manera donde los coeficientes espectrales 28 se cuantifican o se codifican en la corriente de datos 24 y/o la manera en que la señal de audio 22 se ha pre-procesado antes de someter la señal de audio a la transformada solapada. Por ejemplo, el codificador de audio que tiene la señal de audio codificada por transformada 22 en la corriente de datos 24 puede ser controlada por medio de un modelo psicoacústico o puede utilizar un modelo psicoacústico para mantener el ruido de cuantificación y cuantificar los coeficientes espectrales 28 imperceptibles para el oyente y/o por debajo de una función de umbral de enmascaramiento, lo que de ese modo determina los factores de escala para las bandas espectrales por el uso de los coeficientes espectrales cuantificados y transmitidos 28 que se escalan. Los factores de escala también se señalizan en la corriente de datos 24. En forma alternativa, el codificador de audio puede haber sido un tipo de codificador TCX (excitación codificada de transformada). Entonces, la señal de audio se habría sometido a un filtrado de análisis de predicción lineal antes de formar la representación espectro-temporal 26 de coeficientes espectrales 28 por medio de la aplicación de la transformada de solapado sobre la señal de excitación, es decir, la señal residual de predicción lineal. Por ejemplo, los coeficientes de predicción lineal pueden estar señalados en la corriente de datos 24, de este modo, y se podría aplicar una cuantificación uniforme espectral con el fin de obtener los coeficientes espectrales 28.

[0059]Además, la descripción presentada hasta ahora también se ha simplificado con respecto a la longitud de la trama de las tramas 36 y/o con respecto a la función de ventana de bajo retardo 40. De hecho, la señal de audio 22 puede haber sido codificada en la corriente de datos 24 en una manera por el uso de diferentes tamaños de trama y/o diferentes ventanas 40. Sin embargo, la descripción presentada a continuación en lo siguiente se concentra en una ventana 40 y una longitud de la trama, aunque la descripción posterior con facilidad se puede extender a un caso donde el codificador de entropía cambia estos parámetros durante la codificación de la señal de audio en la corriente de datos.

[0060]Volviendo de nuevo al decodificador de audio 10 de la Fig. 2 y su descripción, el receptor 12 recibe la corriente de datos 24 y recibe de este modo, para cada trama 36, N coeficientes espectrales 28, es decir, una columna respectiva de coeficientes 28 mostrados en la Fig. 3. Se debe recordar que la longitud temporal de las tramas 36, medida en muestras de la tasa de muestreo original o de codificación, es N, según lo indicado en la Fig. 3 a 4, pero el decodificador de audio 10 de la Fig. 2 está configurado para decodificar la señal de audio 22 a una tasa de muestreo reducida. El decodificador de audio 10 soporta, por ejemplo, simplemente esta funcionalidad de decodificación con reducción de escala que se describe a continuación. En forma alternativa, el decodificador de audio 10 sería capaz de reconstruir la señal de audio a la tasa de muestreo original o de codificación, pero puede ser conmutada entre el modo de decodificación con reducción de escala y un modo de decodificación sin reducción de escala con el modo de decodificación con reducción de escala que coincide con el modo de operación del decodificador de audio 10 explicado posteriormente. Por ejemplo, el codificador de audio 10 se podría cambiar a un modo de decodificación con reducción de escala en el caso de un nivel de batería baja, la reducción de las capacidades de reproducción de entorno o similares. Cuando la situación cambia, el decodificador de audio 10 podría, por ejemplo, cambiar de nuevo desde el modo de decodificación con reducción de escala al sin reducción de escala. En cualquier caso, según el proceso de decodificación con reducción de escala del decodificador 10 según lo descrito en lo que sigue, la señal de audio 22 se reconstruye a una tasa de muestreo donde las tramas 36 tienen, en la tasa de muestreo reducida, una longitud inferior medida en muestras de esta tasa de muestreo reducida, es decir, una longitud de las muestras N/F en la tasa de muestreo reducida.

[0061]La salida del receptor 12 es la secuencia de N coeficientes espectrales, es decir, un conjunto de N coeficientes espectrales, es decir, una columna en la Fig. 3, por trama 36. Ya resultó de la breve descripción anterior del proceso de codificación de transformada para la formación de la corriente de datos 24 que el receptor 12 se pueden aplicar varias tareas en la obtención de los N coeficientes espectrales por trama 36. Por ejemplo, el receptor 12 puede utilizar la decodificación por entropía para leer los coeficientes espectrales 28 de la corriente de datos 24. El receptor 12 también puede dar forma espectralmente a los coeficientes espectrales leídos de la corriente de datos con los factores de escala dentro de la corriente de datos y/o los factores de escala obtenidos por coeficientes de predicción lineal transportados dentro de la corriente de datos 24. Por ejemplo, el receptor 12 puede obtener los factores de escala de la corriente de datos 24, a saber, en una por trama y por base de subbanda, y utilizar estos factores de escala con el fin de ampliar los factores de escala transmitidos dentro de la corriente de datos 24. En forma alternativa, el receptor 12 puede derivar los factores de escala de coeficientes de predicción lineal transmitidos dentro de la corriente de datos 24, para cada trama 36, y utilizar estos factores de escala con el fin de escalar los coeficientes espectrales de transmisión 28. En forma opcional, el receptor 12 puede llevar a cabo el relleno de espacios con el fin de llenar porciones sintéticamente cuantificadas en cero dentro de los conjuntos de N coeficientes espectrales 18 por trama. De forma adicional o alternativa, el receptor 12 puede aplicar un filtro de síntesis de TNS en un coeficiente de filtro TNS transmitido por trama para ayudar a la reconstrucción de los coeficientes espectrales 28 de la corriente de datos con los coeficientes de TNS también transmitidos dentro de la corriente de datos 24. Las posibles funciones simplemente esbozadas del receptor 12 se entenderán como una lista no exhaustiva de posibles medidas y el receptor 12 puede llevar a cabo otras tareas en relación con la lectura de los coeficientes espectrales 28 de la corriente de datos 24.

[0062]El capturador 14 recibe desde el receptor 12 el espectrograma 26 de coeficientes espectrales 28 y captura, para cada trama 36, una fracción de baja frecuencia 44 de los N coeficientes espectrales de la trama respectiva 36, es decir, los coeficientes espectrales N/F de menor frecuencia. Es decir, el modulador espectral a tiempo 16 recibe del capturador 14 una corriente o secuencia 46 de N/F coeficientes espectrales 28 por trama 36, que corresponde a una porción de baja frecuencia del espectrograma 26, registrado espectralmente en los coeficientes espectrales de frecuencia más baja que se ilustran por medio del índice "0" en la Fig. 3, y que se extienden hasta los coeficientes espectrales de índice N/F-1.

[0063]El modulador espectral a tiempo 16 somete, para cada trama 36, la fracción de baja frecuencia correspondiente 44 de coeficientes espectrales 28 a una transformada inversa 48 que tiene funciones de modulación de longitud (E+2)N/F que temporalmente se extienden sobre la trama respectiva y E+1 tramas anteriores según lo ilustrado en el punto 50 en la Fig. 3, para obtener de ese modo una porción temporal de longitud (E+2)N/F, es decir, un segmento de tiempo 52 aún no colocado en una ventana. Es decir, el modulador espectral a tiempo puede obtener un segmento de tiempo temporal de (E+2)N/F muestras de tasa de muestreo reducida por medio de la ponderación y la suma de funciones de modulación de la misma longitud por el uso de, por ejemplo, las primeras fórmulas de la sección de reemplazo A.4 propuesta indicada con anterioridad. Las nuevas N/F muestras del segmento de tiempo 52 pertenecen a la trama actual 36. Las funciones de modulación pueden, según lo indicado, ser funciones coseno en el caso que de la transformada inversa sea una MDCT inversa, o funciones seno en el caso de que la transformada inversa sea una MDCT inversa, por ejemplo.

[0064]Por lo tanto, el formador de ventanas 52 recibe, para cada trama, una porción temporal 52, las N/F muestras en el extremo delantero de la misma temporalmente correspondiente a la trama respectiva, mientras que las otras muestras de la respectiva porción temporal 52 pertenecen a las correspondientes tramas temporalmente precedentes. El formador de ventanas 18 forma una ventana, para cada trama 36, en la porción temporal 52 por el uso de una ventana de síntesis unimodal 54 de longitud (E+2)N/F que comprende un porción nula 56 de longitud 1/4N/F en un extremo delantero de la misma, es decir, 1/F N/F coeficientes de ventana valorados en cero, y que tiene un pico 58 dentro de su intervalo temporal subsiguiente, temporalmente, la porción nula 56, es decir, el intervalo temporal de la porción temporal 52 no cubierta por la porción nula 52. El último intervalo temporal se puede denominar la porción no nula de ventana 58 y tiene una longitud de 7/4 N/F medido en muestras de la tasa de muestreo reducida, es decir, 7/4N/F coeficientes de ventana. El formador de ventanas 18 pesa, por ejemplo, la porción temporal 52 por el uso de la ventana 58. Esta ponderación o multiplicación 58 de cada porción temporal 52 con la ventana 54 da lugar a una porción temporal de ventana 60, una para cada trama 36, y coincide con la porción temporal respectiva en lo que se refiere a la cobertura temporal. En la sección A.4 propuesta con anterioridad, el procesamiento de ventanas que puede ser utilizado por la ventana 18 se describe por las fórmulas relativas Zi,n a Xi n, donde Xi,n corresponde a las porciones temporales 52 mencionadas con anterioridad aún no con una ventana formada y zi,n corresponde a las porciones temporales de ventana 60 con i como la indexación de la secuencia de tramas/ventanas, y n como la indexación, dentro de cada porción temporal 52/60, de las muestras o los valores de las respectivas porciones 52/60 según una tasa de muestreo reducida.

[0065]Por lo tanto, el tiempo de cancelador de solapamiento de dominio de tiempo 20 recibe del formador de ventanas 18 una secuencia de porciones temporales de ventana 60, es decir, una por cada trama 36. El cancelador 20 somete las porciones temporales de ventana 60 de las tramas 36 a un proceso de superposición y suma 62 por medio del registro de cada porción temporal de ventana 60 con sus N/F valores principales para coincidir con la trama correspondiente 36. Por esta medida, una fracción del extremo trasero de longitud (E+1)/(E+2) de la porción temporal de ventana 60 de una trama actual, es decir, el resto que tiene una longitud (E+1)N/F, se superpone con un correspondiente extremo igualmente largo delantero de la porción temporal de la trama inmediatamente anterior. En las fórmulas, el cancelador de solapamiento de dominio de tiempo 20 puede funcionar según lo mostrado en la última fórmula de la versión anterior propuesta de la sección A.4, donde outi n corresponde a las muestras de audio de la señal de audio reconstruida 22 en la tasa de muestreo reducida.

[0066]Los procesos de formación de ventanas 58 y la superposición y suma 62 según lo llevado a cabo por el formador de ventanas 18 y el cancelador de solapamiento de dominio de tiempo 20 se ilustran en más detalle a continuación con respecto a la Fig. 4. La Fig. 4 utiliza tanto la nomenclatura aplicada en la sección A.4 propuesta con anterioridad y los signos de referencia aplicados en las Figs. 3 y 4. x<0,0>a<xü>,(<e>+<2>)<n>/<f-1>representa la porción temporal 0va 52 obtenida por el modulador espacial a temporal 16 para la trama 0va 36. El primer índice de x indexa las tramas 36 a lo largo del orden temporal, y el segundo índice de x ordena las muestras de la temporal a lo largo del orden temporal, el paso de inter-muestra pertenece a la tasa de muestreo reducida. A continuación, en la Fig. 4, W<0>a W(e+<2>) n/f<-1>indican los coeficientes de ventana de la ventana 54. Al igual que el segundo índice de x, es decir, la porción temporal 52 según la salida del modulador 16, el índice de w es tal que el índice 0 corresponde al índice más antiguo y (E+2)N/F-1 se corresponde con el valor de la muestra más reciente cuando la ventana 54 se aplica a la porción temporal 52 respectiva. El formador de ventanas 18 forma una ventana de la porción temporal 52 por el uso de la ventana 54 para obtener la porción temporal de ventana 60 de tal manera que Z<0,0>a Zü,(e+<2>) n/f<-1>, que indica la porción temporal de ventana 60 para la trama 0va, se obtenga acuerdo con Z<0,0>= x<0,0>■ W<0>,..., Z<ü>,(<e>+2)<n>/<f>-1 =<xü>,(<e>+2)<n>/<f>-1 ■ W(<e>+<2>)<n>/<f-1>. Los índices de z tienen el mismo significado que para x. De esta manera, el modulador 16 y el formador de ventanas 18 actúan para cada trama indexada por el primer índice de x y z. El cancelador 20 resume las E+2 porciones temporales de ventana 60 de E+2 fotogramas inmediatamente consecutivos con la compensación de las muestras de las porciones temporales de ventana 60 respecto a la otra por una trama, es decir, por el número de muestras por trama 36, es decir, N/F, con el fin de obtener las muestras u de una trama actual, en este caso u-(<e>+<1),0>...-(<e>+<1>),<n>/<f>-<1>). En este caso, de nuevo, el primer índice de u indica el número de trama y el segundo índice ordena las muestras de esta trama a lo largo del orden temporal. El cancelador de este modo une las tramas reconstruidas obtenidas de tal manera que las muestras de la señal de audio reconstruida 22 dentro de las tramas consecutivas 36 se siguen unas a otras según u-(e+<1),0>... u-(e+<1>),n/f<- 1>, ue<,0>,... ue,n/f<-1>, U(e-<1),0>,.... el cancelador 22 calcula cada muestra de la señal de audio 22 dentro de la-(E+1)va trama según la u-(e+<1),0>= z<0,0>+ z-<1>,n/f ... Z-(e<1>),(e+<1>) n/f,...,(<e>+<1>)<n>/<f-1>=<z0>,<n>/<f-1>+<z>-<1>,<2 n>/<f-1>+... Z-(<e>+<1>),(<e>+<2>)<n>/<f-1>es decir, resumiendo (e+2) sumandos por u muestras de la trama actual.

[0067]La Fig. 5 ilustra una posible explotación del hecho de que, entre las muestras con ventanas recién formadas que contribuyen a las muestras de audio u de trama -(E+1), las que corresponden a, o se han creado en ventanas por el uso de, la porción nula 56 de la ventana 54, a saber, Z-(<e>+<1>),(<e>+<7>/<4>)<n>/<f>... Z-(<e>+<1>),(<e>+<2>)<n>/<f-1>se valoran cero. Por lo tanto, en lugar de obtener todas las muestras N/F dentro de la (E+1)va trama 36 de la señal de audio u por el uso de E+2 sumandos, el cancelador 20 puede calcular el cuarto extremo delantero de la misma, es decir,(<e>+1),(<e>+7/4)<n>/<f>...(<e>+<1>),(<e>+<2>)<n>/<f-1>por el mero uso de E+1 sumandos según-(<e>+1),(<e>+7/4)<n>/<f>=<zü>,3/4<n>/<f>+<z>-1,7/4<n>/<f>+ ... ze,(e+3/4)n/f, ..., u-(e+<1>),(e+<2>) n/f<-1>= z<0>,n/f<-1>+ z_<1>,<2>-N/F<-1>+ ... z-e,(e+<1>) n/f<-1>. De esta manera, el formador de ventanas podría incluso dejar fuera, de manera efectiva, el rendimiento de la ponderación 58 con respecto a la porción nula 56. Las muestras-(<e>+<1>),(<e>+<7>/<4>)<n>/<f>...-(<e>+<1>),(<e>+<2>)<n>/<f-1>de la -(E+1)va trama actual se podría obtener, por lo tanto, por el uso de sólo E+1 sumandos, mientras que-(<e>+<1>)(<e>+<1>)<n>/<f>...-(<e>+<1>)(<e>+<7>/<4>)<n>/<f-1>que se obtendría por el uso de E+2 sumandos.

[0068]De este modo, en la forma indicada con anterioridad, el decodificador de audio 10 de la Fig. 2 reproduce, en una manera con reducción de escala, la señal de audio codificada en la corriente de datos 24. Para este fin, el decodificador de audio 10 utiliza una función de ventana 54 que es en sí misma una versión submuestreada de una ventana de síntesis de referencia de longitud (E+2)N. Según lo explicado con respecto a la Fig. 6, esta versión submuestreada, es decir, la ventana 54, se obtiene por medio del submuestreo de la ventana de síntesis de referencia por un factor de F, es decir, el factor de submuestreo, por el uso de una interpolación segmentaria, a saber, en segmentos de longitud 1/4 N cuando se miden en el régimen aún sin reducción de escala, en segmentos de longitud 1/4 N/F en el régimen de submuestreo, en los segmentos de cuartos de longitud de la trama de las tramas 36, medidos en forma temporal y expresados en forma independiente de la tasa de muestreo. Por lo tanto, en 4(E+2) la interpolación se lleva a cabo, lo que de este modo rinde 4(E+2) veces segmentos de 1/4N/F de largo, que, concatenados, representan la versión submuestreada de la ventana de síntesis de referencia de longitud (E+2)N. Véase la Fig. 6 para la ilustración. La Fig. 6 muestra la ventana de síntesis 54, que es unimodal y utilizada por el decodificador de audio 10 según un procedimiento de decodificación de audio muestreado debajo de la ventana de síntesis de referencia 70 con su longitud de (E+2)N. Es decir, por medio del procedimiento de submuestreo 72 que conduce desde la ventana de síntesis de referencia 70 a la ventana de síntesis 54 realmente utilizada por el decodificador de audio 10 para la decodificación submuestreada, el número de coeficientes de ventana se reduce en un factor de F. En la Fig. 6, la nomenclatura de las Figs. 5 y 6 se ha adherido a, es decir, w se utiliza con el fin de denotar la ventana de versión submuestreada 54, mientras que w' se ha utilizado para denotar los coeficientes de ventana de la ventana de síntesis de referencia 70.

[0069]Según lo que se acaba de mencionar, con el fin de llevar a cabo el submuestreo 72, la ventana de síntesis de referencia 70 se procesa en segmentos 74 de igual longitud. En número, hay (E+2)4 tales segmentos 74. Si se mide en la tasa de muestreo original, es decir, en el número de coeficientes de ventana de la ventana de síntesis de referencia 70, cada segmento 74 tiene 1/4N coeficientes de ventana w' de largo, y si se mide en la tasa de muestreo reducida o submuestreada, cada segmento 74 es de 1/4 N/F coeficientes de ventana w de largo.

[0070]Naturalmente, sería posible llevar a cabo el submuestreo 72 para cada coeficiente de ventanawsubmuestreado w¡ que coincide accidentalmente con cualquiera de los coeficientes de ventana ^ de la ventanaw.

de síntesis de referencia 70 simplemente por medio del ajuste de w¡ = ^ con el tiempo de la muestra de w¡ quew ■

coincide con el de ^ , y/o por medio de la interpolación lineal de cualquier coeficiente de ventana w¡ que reside,

temporalmente, entre dos coeficientes de ventana por medio de interpolación lineal, pero este procedimiento daría lugar a una aproximación pobre de la ventana de síntesis de referencia 70, es decir, la ventana de síntesis 54 utilizada por el decodificador de audio 10 para la decodificación submuestreada representaría una aproximación pobre de la ventana de síntesis de referencia 70, con lo que no cumplía con la solicitud de garantizar las pruebas de conformidad de la decodificación con reducción de escala en relación con la decodificación sin reducción de escala de la señal de audio de la corriente de datos 24. Por lo tanto, el submuestreo 72 implica un procedimiento de interpolación según el cual la mayor parte de los coeficientes de ventana wi de la ventana submuestreada 54, a saber, los posicionados desplazados de las fronteras de segmentos 74, depende del procedimiento de submuestreo 72 en más de dos coeficientes de ventana w' de la ventana de referencia 70. En particular, aunque la mayoría de los coeficientes de ventana w¡ de la ventana submuestreada 54 dependen de másw ■

de dos coeficientes de ventana ^ de la ventana de referencia 70 con el fin de aumentar la calidad del resultado de la interpolación/submuestreo, es decir, la calidad de aproximación, para cada coeficiente de ventana wi de la versión submuestreada 54, es válido que el mismo no depende de los coeficientes de ventana que pertenecen a diferentes segmentos 74. Más bien, el procedimiento de submuestreo 72 es un procedimiento de interpolación segmentaria.

[0071]Por ejemplo, la ventana de síntesis 54 puede ser una concatenación de funciones de spline de longitud 1/4 N/F. Se pueden utilizar funciones de spline cúbicas. Tal ejemplo se ha descrito con anterioridad en la sección A.1 donde el exterior para la próxima secuencia de bucle en bucle sobre los segmentos 74 donde, en cada segmento 74, el submuestreo o la interpolación 72 implicó una combinación matemática de los coeficientes de ventana w' consecutivos dentro del segmento actual 74 en, por ejemplo, la primera para la siguiente cláusula en la sección "calcular el vector r necesario para calcular los coeficientes c". Sin embargo, la interpolación aplicada en segmentos, también se puede elegir de manera diferente. Es decir, la interpolación no se limita a las splines o splines cúbicos. Más bien, la interpolación lineal o cualquier otro procedimiento de interpolación se pueden utilizar también. En cualquier caso, la aplicación segmentaria de la interpolación haría que el cálculo de muestras de la ventana de síntesis con reducción de escala, es decir, las muestras más externas de los segmentos de la ventana de síntesis con reducción de escala, que se encuentran próximos a otro segmento, no dependan de los coeficientes de ventana de la ventana de síntesis de referencia que residen en diferentes segmentos.

[0072]Puede ser que el formador de ventanas 18 obtenga la ventana de síntesis submuestreada 54 desde un almacenamiento donde los coeficientes de ventana wi de esta ventana de síntesis submuestreada 54 se hayan almacenado después de haber sido obtenido por medio del submuestreo 72. De forma alternativa, según lo ilustrado en la Fig. 2, el decodificador de audio 10 puede comprender un submuestreador segmentario 76 que lleva a cabo el submuestreo 72 de la Fig. 6 sobre la base de la ventana de síntesis de referencia 70.

[0073]Se debe señalar que el decodificador de audio 10 de la Fig. 2 puede estar configurado para soportar simplemente un factor de submuestreo F fijo u puede soportar diferentes valores. En ese caso, el decodificador de audio 10 puede ser sensible a un valor de entrada para F según lo ilustrado en la Fig. 2 en el punto 78. El capturador 14, por ejemplo, puede ser sensible a este valor F con el fin de capturar, según lo mencionado con anterioridad, los N/F valores espectrales por espectro de trama. De una manera similar, el submuestreador segmentario opcional 76 también puede ser sensible a este valor de F para operar según lo indicado con anterioridad. El modulador S/T 16 puede ser sensible a F o bien con el fin de, por ejemplo, derivar computacionalmente las versiones con reducción de escala/submuestreadas de las funciones de modulación, con reducción de escala/submuestreadas relativas a las utilizadas en el modo de operación sin reducción de escala, donde la reconstrucción conduce a la tasa de muestreo de audio completa.

[0074]Naturalmente, el modulador 16 también sería sensible a la entrada de F 78, dado que el modulador 16 utilizaría versiones submuestreadas en forma adecuada de las funciones de modulación y lo mismo es cierto para el formador de ventanas 18 y el cancelador 20 con respecto a una adaptación de la longitud real de las tramas en la tasa de muestreo reducida o submuestreada.

[0075]Por ejemplo, F puede estar entre 1,5 y 10, ambos inclusive.

[0076]Se debe señalar que el decodificador de la Fig. 2 y 3 o cualquier modificación de la misma indicado en la presente solicitud, se pueden implementar con el fin de llevar a cabo la transición espectral a tiempo por el uso de una aplicación de elevación del<m>D<c>T de bajo retardo según lo enseñado en, por ejemplo, la Patente E2378516 B1.

[0077]La Fig. 8 ilustra una implementación del decodificador por el uso del concepto de elevación. El modulador S/T 16 lleva a cabo a modo de ejemplo una DCT-IV inversa y se muestra como seguido de un bloque que representa la concatenación del formador de ventanas 18 y el cancelador de solapamiento de dominio de tiempo 20. En el ejemplo de la Fig. 8 E es 2, es decir E=2.

[0078]El modulador 16 comprende un convertidor de frecuencia/tiempo de transformada inversa de coseno discreta de tipo-iv. En lugar de dar salida a las secuencias de (E+2)N/F largas porciones temporales 52, simplemente da salida a porciones temporales 52 de longitud 2N/F, todas derivadas de la secuencia de N/F de espectros largos 46, estas porciones acortadas 52 corresponden al núcleo de DCT, es decir, las 2N/F muestras más nuevas de las porciones antiguas descritas.

[0079]El formador de ventanas 18 actúa según lo descrito con anterioridad y genera una porción temporal de ventana 60 para cada porción temporal 52, pero opera únicamente en el núcleo DCT. Con este fin, el formador de ventanas 18 utiliza la función de ventana Di con i = 0... 2 N/F-1, que tiene el tamaño del núcleo. La relación entre wi con i = 0... (E+2)N/F-1 se describe más adelante, así como también la relación entre los coeficientes de elevación posteriormente mencionados y Wi con i = 0... (E+2)N/F -1.

[0080]Por el uso de la nomenclatura aplicada con anterioridad, el proceso descrito rinde hasta ahora:

con la redefinición de M = N/F, de tal manera que M corresponde al tamaño de la trama expresada en el dominio con reducción de escala y por el uso de la nomenclatura de las Figs. 2 a 6, donde, sin embargo, Zk,n y Xk,n deberá contener simplemente las muestras de la porción temporal de ventana y la porción temporal aún no de ventana dentro del núcleo DCT tiene un tamaño de 2<m>y que temporalmente corresponde a las muestras EN/F... (E+2)N/F-1 en la Fig. 4. Es decir, n es un número entero que indica un índice de muestra y Dn es un coeficiente de función de ventana de valor real que corresponde al índice de muestra n.

[0081]El proceso de solapamiento/suma del cancelador 20 opera de una manera diferente en comparación con la descripción anterior. Genera porciones temporales intermedias mk(0),... mk(M-1) en base a la ecuación o expresión

mkn = Zkn zn,n+M para n = M-1

[0082]En la implementación de la Fig. 8, el aparato comprende además un elevador 80 que se puede interpretar como una parte del modulador 16 y el formador de ventanas 18 dado que el elevador 80 compensa el hecho de que el modulador y el formador de ventanas restringe su procesamiento al núcleo DCT en lugar de procesar la extensión de las funciones de modulación y la ventana de síntesis más allá del núcleo hacia el pasado, dicha extensión se introdujo para compensar la porción nula 56. El elevador 80 produce, por el uso de un marco de los retardadores y los multiplicadores 82 y sumadores 84, las últimas porciones temporales reconstruidas o tramas de longitud M en pares de tramas inmediatamente consecutivas en base a la ecuación o la expresión

Uk.r = mk,' ln-M'2 ■ IKlfc-1,M-1-npara n = M/'Z,..., M-1 ,

y

Llk,- = mk,n lM-1-n ■ Olltk-1 ,kV1-n psri n = 0,..., M/2-1

donde ln con n = 0... M-1 son coeficientes de elevación con valores reales relacionados con la ventana de síntesis con reducción de escala de una manera descrita con más detalle a continuación.

[0083]En otras palabras, para la superposición prolongada de E tramas en el pasado, sólo se requieren M operaciones de multiplicador-suma adicionales, según lo que se puede observar en el marco del elevador 80. Estas operaciones adicionales a veces también se denominan como "matrices de retardo nulo". A veces, estas operaciones también se conocen como "pasos de elevación". La aplicación eficiente que se muestra en la Fig. 8 puede en algunas circunstancias ser más eficiente como una implementación sencilla. Para ser más precisos, según la aplicación concreta, tal aplicación más eficiente podría dar lugar al ahorro de las operaciones de fusión, como en el caso de una implementación directa de las operaciones de fusión, podría ser aconsejable poner en práctica, ya que la aplicación que se muestra en la Fig. 8, requiere, en principio, las 2M operaciones en el marco del módulo 820 y M en operaciones en el marco del elevador 830.

[0084]En cuanto a la dependencia de Dn con n = 0... 2 M-1 y ln con n = 0... M-1 en la ventana de síntesis wi con i = 0... (E+2)M-1 (se recuerda que en la presente solicitud E=2), las siguientes fórmulas describen la relación entre ellos con desplazamiento, sin embargo, los índices de subíndices utilizados hasta ahora en el paréntesis que sigue a la variable respectiva:

M

para i ,« = 0 — - 1

2

[0085]Se debe tener en cuenta que el wi ventana contiene los valores pico en el lado derecho en esta formulación, es decir, entre los índices2My 4M -1. Las fórmulas anteriores se refieren a coeficientes de ln con n = 0... M-1 y Wn n = 0,..., 2M-1 a los coeficientes Wn con n = 0... (E+2)M-1 de la ventana de síntesis con reducción de escala. Como puede verse, In con n = 0... M-1 en realidad sólo depende de % de los coeficientes de ventana de síntesis submuestreada, a saber, en wn con n = 0... (E+1) M-1, mientras que Un n = 0,..., 2M-1 dependen de todo Wn con n = 0... (E+2)M-1.

[0086]Según lo indicado con anterioridad, podría ser que el formador de ventanas 18 obtenga la ventana de síntesis submuestreada 54 Wn con n = 0... (E+2)M-1 desde un almacenamiento donde los coeficientes de ventana Wi de esta ventana de síntesis submuestreada 54 se han almacenado después de haber sido obtenida por el uso del submuestreo 72, y desde donde los mismos se leen para calcular los coeficientes de ln con n = 0... M-1 y Un n = 0,..., 2M-1 por el uso de la relación anterior, pero, en forma alternativa, del formador de ventanas 18 puede recuperar los coeficientes de ln con n = 0... M-1 y Un n = 0,..., 2M-1, por lo que calcula a partir de la ventana de síntesis presubmuestreada, directamente desde el almacenamiento. En forma alternativa, según lo indicado con anterioridad, el decodificador de audio 10 puede comprender el submuestreador segmentario 76 para llevar a cabo el submuestreo 72 de la Fig. 6 sobre la base de la ventana de síntesis de referencia 70, lo que rinde Wn con n = 0... (E+2)M-1 sobre la base de que el formador de ventanas 18 calcula los coeficientes de ln con n = 0... M-1 y Un n = 0,..., 2M-1 por el uso de las relaciones/fórmulas anteriores. Incluso mediante el uso de la implementación de elevación, se puede soportar más de un valor para F.

[0087]Para sintetizar brevemente la implementación de elevación, los mismos resultados en un decodificador de audio 10 configurado para decodificar una señal de audio 22 a una primera tasa de muestreo de una corriente de datos 24 donde la señal de audio está codificada por transformada a una segunda tasa de muestreo, la primera tasa de muestreo es 1/Fva de la segunda tasa de muestreo, el decodificador de audio 10 comprende el receptor 12 que recibe, por trama de longitud N de la señal de audio, N coeficientes espectrales 28, el capturador 14 que captura para cada trama, una fracción de baja frecuencia de longitud N/F de los N coeficientes espectrales 28, un modulador espectral a tiempo 16 configurado para someter, para cada trama 36, la fracción de baja frecuencia a una transformada inversa que tiene funciones de modulación de longitud 2N/F que se extiende temporalmente sobre la trama respectiva y una trama anterior con el fin de obtener una porción temporal de longitud 2N/F, y un formador de ventanas 18 que forma una ventana, para cada trama 36, la porción temporal Xk,n según Zk,n =Un ■ Xk,n para n = 0,..., 2M-1 con el fin de obtener una porción temporal de ventana Zk,n con n = 0... 2M-1. El cancelador de solapamiento de dominio de tiempo 20 genera porciones temporales intermedias mk(0),... mk(M-1) según mk,n = Zk,n Zk-<1>,n+M para n = 0,..., M-1. Por último, el elevador 80 calcula tramas uk,n de la señal de audio con n = 0... M-1 según uk,n = mk,n ln-M</2>■ mk-<1>,M-<1>-n para n = M/2,..., M-1, y uk,n = mk,n LM-<1>-n ■ outk-<1>,M-<1>-n para n = 0,..., M/2-1, donde ln con n = 0... M-1 son coeficientes de elevación, donde la transformada inversa es una MDCT inversa o MDST inversa, y donde ln con n = 0... M-1 y □„ n = 0,..., 2M-1 dependen de coeficientes Wn con n = 0... (E+2)M-1 de una ventana de síntesis, y la<ventana de síntesis es una versión submuestreada de una ventana de síntesis de referencia de longitud>4<n>, submuestreada por un factor de F por una interpolación segmentaria en segmentos de longitud 1/4N.

[0088]Ya resultó de la discusión anterior de una propuesta de una extensión de AAC-ELD con respecto a un modo de decodificación con reducción de escala que el decodificador de audio de la Fig. 2 pueden ir acompañados de una herramienta de SBR de bajo retardo. A continuación, se describen, por ejemplo, cómo el codificador AAC-ELD extendido para soportar el modo de operación con reducción de escala propuesto con anterioridad, operaría cuando se utiliza la herramienta de SBR de bajo retardo. Según lo mencionado en la porción introductoria de la memoria descriptiva de la presente solicitud, en el caso de que se utilice la herramienta de SBR de bajo retardo en conexión con el codificador AAC-ELD, los bancos de filtros del módulo de SBR de bajo retardo también están con reducción de escala. Esto asegura que el módulo de SBR opera con la misma resolución de frecuencia y por lo tanto no se requieren más adaptaciones. La Fig. 7 describe el recorrido de la señal del decodificador AAC-ELD que opera a 96 kHz, con un tamaño de trama de 480 muestras, en el modo de SBR de muestreo reducido y con un factor con reducción de escalaFde 2.

[0089]En la Fig. 7, la corriente de bits que llegan como procesada por una secuencia de bloques, a saber, un decodificador AAC, un bloque de LD-MDCT inversa, un bloque de análisis CLDFB, un decodificador de SBR y un bloque de síntesis CLDFB (CLDFB = banco de filtros complejo de bajo retardo). La corriente de bits es igual a la corriente de datos 24 discutida previamente con respecto a las Figs. 3 a 6, pero está, además, junto con los datos de SBR paramétricos que asisten a la conformación espectral de una réplica espectral de una banda de extensión espectral que extiende la frecuencia de los espectros de la señal de audio obtenida por medio de la decodificación de audio con reducción de escala en la salida del bloque de MDCT inversa bajo retardo, la conformación espectral se lleva a cabo por medio del decodificador de SBR. En particular, el decodificador AAC recupera todos los elementos de sintaxis necesarios por análisis apropiado y decodificación de entropía. El decodificador AAC puede coincidir parcialmente con el receptor 12 del decodificador de audio 10 que, en la Fig. 7, está realizado por el bloque de MDCT de bajo retardo inversa. En la Fig. 7, F es a modo de ejemplo igual a 2. Esto es, el bloque de retardo MDCT inversa bajo de la salida de la Fig. 7, como un ejemplo para la señal de audio reconstruida 22 de la Fig. 2, una señal de tiempo de 48 kHz submuestreada en la mitad de la velocidad a la que la señal de audio se codificó originalmente en la corriente de bits que llega. El bloque de análisis CLDFB subdivide esta señal de tiempo de 48 kHz, es decir, la señal de audio obtenida por la decodificación de audio con reducción de escala, en N bandas, en<este caso N = 16, y el decodificador de s>B<r calcula los coeficientes de re-configuración de estas bandas, da forma>de nuevo a las N bandas, que en consecuencia se controlan a través de los datos de SBR en la corriente de bits de entrada que llegan a la entrada del decodificador AAC, y el bloque de síntesis CLDFB se traslada de nuevo desde el dominio espectral al dominio de tiempo con la obtención, de este modo, de una señal de extensión de alta frecuencia que se ha de añadir a las señales de audio originales decodificadas que salen por el bloque de MDCT de bajo retardo inversa.

[0090]Se debe tener en cuenta que la operación estándar de SBR utiliza un CLDFB de 32 bandas. El algoritmo de interpolación para los coeficientes de ventanaci32de CLDFB de 32 bandas ya se da en 4.6.19.4.1 en[1] , "

donde c<64>son los coeficientes de ventana de la ventana de 64 bandas dada en la Tabla 4.A.90 en [1].

[0091]Esta fórmula se puede generalizar aún más para definir los coeficientes de ventana de un menor número de bandasBtambién

dondeFdenota el factor con reducción de escala que esF= 32/B. Con esta definición de los coeficientes de ventana, el banco de filtros de análisis y síntesis de CLDFB se puede describir por completo según lo indicado en el ejemplo anterior de la sección A.2.

[0092]Por lo tanto, los ejemplos anteriores proporcionan algunas definiciones que faltan para el códec AAC-ELD con el fin de adaptar el códec para sistemas con tasas de muestreo más bajas.

REFERENCIAS

[0093]

[1] ISO/IEC 14496-3: 2009

[<2>] M13958, "Proposal for an Enhanced Low Delay Coding Mode", octubre de 2006, Hangzhou, China

Claims

REIVINDICACIONES

1. Decodificador de audio (10) configurado para decodificar una señal de audio (22) a una primera tasa de muestreo de una corriente de datos (24) donde la señal de audio está codificada por transformada a una segunda tasa de muestreo, la primera tasa de muestreo es 1/Fva de la segunda tasa de muestreo, comprendiendo el decodificador de audio (10):

un receptor (12) configurado para recibir, por trama de longitud N de la señal de audio, N coeficientes espectrales (28);

un capturador (14) configurado para capturar para cada trama, una fracción de baja frecuencia de longitud N/F de los N coeficientes espectrales (28);

un modulador espectral a tiempo (16) configurado para someter, para cada trama (36), la fracción de baja frecuencia a una transformada inversa que tiene funciones de modulación de longitud (E+2)N/F que se extiende temporalmente sobre la trama respectiva y E+1 tramas anteriores con el fin de obtener una porción temporal de longitud (E+2)N/F;

un formador de ventanas (18) configurado para formar una ventana, para cada trama (36), la porción temporal por el uso de una ventana de síntesis de longitud (E+2)N/F que comprende una porción nula de longitud 1/4N/F en un extremo delantero de la misma y que tiene un pico dentro de un intervalo temporal de la ventana de síntesis, el intervalo temporal sucede a la porción nula y que tiene una longitud de 7/4 N/F de tal manera que el formador de ventanas obtenga una porción temporal formada en ventana de longitud (E+2)N/F; y

un cancelador de solapamiento de dominio de tiempo (20) configurado para someter la porción temporal formada en ventana de las tramas a un proceso de superposición y suma de tal manera que una fracción del extremo trasero de longitud (E+1)/(E+2) de la porción temporal formada en ventana de una trama actual se superpone a un extremo delantero de longitud (E+1)/(E+2) de la porción temporal formada en ventana de una trama anterior, donde la transformada inversa es una MDCT inversa, y

donde la ventana de síntesis es una versión submuestreada de una ventana de síntesis de referencia de longitud (E+2)N, submuestreada por un factor de F por una interpolación segmentaria en segmentos de longitud 1/4N, donde la ventana de síntesis es una concatenación de funciones de spline de longitud 1/4N/F,

donde el decodificador de audio (10) está configurado para llevar a cabo la interpolación de tal manera que cada coeficiente de la ventana de síntesis separado por más de dos coeficientes de los bordes del segmento dependa de más de dos coeficientes de la ventana de síntesis de referencia, y

donde E=2,

donde el receptor está configurado para llevar a cabo un relleno de huecos con el fin de rellenar de manera sintética las porciones cuantificadas a cero dentro de los N coeficientes espectrales.

2. Decodificador de audio (10) según la reivindicación 1, donde el decodificador de audio (10) está configurado para admitir diferentes valores para F.

3. Decodificador de audio (10) según la reivindicación 1 o 2, donde F está entre 1,5 y 10, ambos inclusive.

4. Decodificador de audio (10) según cualquiera de las reivindicaciones anteriores, donde la ventana de síntesis de referencia es unimodal.

5. Decodificador de audio (10) según cualquiera de las reivindicaciones anteriores, donde el formador de ventanas (18) y el cancelador de solapamiento de dominio de tiempo cooperan de tal manera que el formador de ventanas se salta la porción nula en la ponderación de la porción temporal por el uso de la ventana de síntesis y el cancelador de solapamiento de dominio de tiempo (20) no tiene en cuenta una porción no ponderada correspondiente de la porción temporal de ventana en el proceso de superposición y suma de tal manera que simplemente las E+1 porciones temporales de ventana se suman con el fin de dar lugar a la porción no ponderada correspondiente de una trama correspondiente y E+2 porciones de ventana se suman dentro de un recordatorio de la trama correspondiente.