ES3039678T3

ES3039678T3 - Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap

Info

Publication number: ES3039678T3
Application number: ES19164500T
Authority: ES
Inventors: Christian Helmrich; Jérémie Lecomte; Goran Markovic; Markus Schnell; Bernd Edler; Stefan Reuschl
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2013-02-20
Filing date: 2014-02-20
Publication date: 2025-10-23
Anticipated expiration: 2034-02-20
Also published as: TWI550600B; CN105378835B; TW201447868A; JP2016513283A; HK1218988A1; SG11201506543WA; CN110047498A; EP2959482A1; KR101764725B1; CN110097889A; EP2959481A1; PL2959482T3; WO2014128197A1; CN105074819B; US20190371346A1; PL2959481T3; PT2959482T; JP6175148B2; MY173774A; US11682408B2

Abstract

Un aparato para codificar una señal de audio o imagen, comprende: un ventanador controlable (102) para ventanar la señal de audio o imagen para proporcionar la secuencia de bloques de muestras en ventana; un convertidor (104) para convertir la secuencia de bloques de muestras en ventana en una representación espectral que comprende una secuencia de cuadros de valores espectrales; un detector de ubicación transitoria (106) para identificar una ubicación de un transitorio dentro de una región de anticipación transitoria de un cuadro; y un controlador (108) para controlar el generador de ventanas controlable (102) para aplicar una ventana específica con una longitud de superposición especificada a la señal de audio o imagen en respuesta a una ubicación identificada (210-213) del transitorio, donde el controlador (108) está configurado para seleccionar la ventana específica de un grupo de al menos tres ventanas que comprenden una primera ventana (201) con una primera longitud de superposición (203), una segunda ventana (215) con una segunda longitud de superposición (218) y una tercera ventana (224) con una tercera longitud de superposición (229) o sin superposición, donde la primera longitud de superposición (203) es mayor que la segunda longitud de superposición (218), y donde la segunda longitud de superposición (218) es mayor que la tercera longitud de superposición (229) o mayor que una superposición de cero, donde la ventana específica se selecciona en función de la ubicación del transitorio de modo que una de las dos ventanas superpuestas adyacentes en el tiempo tenga coeficientes en la ubicación del transitorio y la otra de las dos ventanas superpuestas adyacentes en el tiempo. tiene coeficientes de segunda ventana en la ubicación del transitorio, donde los segundos coeficientes son al menos nueve veces mayores que los primeros coeficientes. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Aparato y procedimiento para codificar o decodificar una señal de audio utilizando una superposición que depende de una ubicación de transitorios

[0001] La presente invención se refiere al procesamiento de señales de audio o imagen y, en particular, a la codificación o decodificación de señales de audio o imagen en presencia de transitorios.

[0002] Los esquemas de codificación de voz y audio actuales en el dominio de la frecuencia basados en FFT superpuestas o la transformada discreta del coseno modificada(modified discrete cosine transform,MDCT) ofrecen cierto grado de adaptación a las características de señales no estacionarias. Los códecs de uso general estandariza dos en MPEG, concretamente, MPEG-1 Layer 3 mejor conocido como MP3, MPEG-4 (HE-) AAC [1] y, más reciente mente, MPEG-0 xHE-AAC (USAC), así como el códec Opus/Celt especificado por el IETF [2], permiten la codificación de una trama utilizando una entre al menos dos longitudes de transformada diferentes - una longitud de transformada larga M para el paso de señales estacionarias, u 8 transformadas cortas de longitud M/8 cada una. En el caso de los códecs MPEG, la conmutación de transformadas largas a cortas y de cortas a largas (también conocido como con mutación de bloques) requiere la utilización de transformadas de transición con ventanas asimétricas, es decir, una ventana de inicio y una ventana de finalización, respectivamente. Estas formas de transformadas, junto con otras formas conocidas de la técnica anterior, se representan en la Figura 16. Debe observarse que la pendiente de superposición lineal es meramente ilustrativa y varía en su forma exacta. Las posibles formas de las ventanas se dan en el estándar AAC [1] y en la sección 6 de [3].

[0003] Dado que, si la trama siguiente se va a codificar con transformadas cortas por un codificador MPEG, la trama actual debe codificarse con una transformada transitoria de inicio, se hace evidente que un codificador implementado según una de las normas MPEG antes mencionadas requiere por lo menos una longitud de trama de antici pación. Sin embargo, en aplicaciones de comunicación de bajo retardo, es deseable minimizar o incluso evitar esta trama adicional por adelantado. Con este fin se han propuesto dos modificaciones al paradigma de la codificación de propósito general. Una de ellas, adoptada por ejemplo en Celt [2], consiste en reducir la superposición de la transfor mada larga a la de la transformada corta para evitar las ventanas de transición asimétricas. La otra modificación que se utiliza, por ejemplo, en los esquemas de codificación MPEG-4 (mejorado) AAC de bajo retardo (MPEG-4 (mejorado) AAC de bajo retardo), es inhabilitar la conmutación a transformadas más cortas y, en lugar de ello, basarse en una herramienta de codificación del modelado del ruido temporal(Temporal Noise Shaping,TNS) [4] que opera los coefi cientes de la transformada larga para minimizar la propagación temporal del error de codificación alrededor de los transitorios.

[0004] Además, al igual que xHE-AAC, AAC de bajo retardo(Low Delay AAC)permite la utilización de dos anchos de superposición de trama - la superposición por defecto del 50 % para la entrada estacionaria, o una super posición reducida (similar a la superposición corta de las transformadas de transiciones) para las señales no estacio narias. La superposición reducida limita eficazmente la extensión de tiempo de una transformada y, por lo tanto, su error de codificación en el caso de cuantización de los coeficientes.

[0005] La patente de EE. UU. 2008/0140428A1 cedida a Samsung Electronics Co., así como las patentes US 5502789 y 5819214 cedidas a Sony Corp., describen unidades de determinación del tamaño de transformada o del tamaño de ventana adaptable a la señal. Sin embargo, las unidades de transformador controladas por dichas unidades de determinación del tamaño de transformador o dicha ventana operan en valores de subbandas QMF o LOT (lo que implica que los sistemas descritos emplean tanto bancos de filtros en cascada como transformadas) en contraposición a trabajar directamente con la señal de entrada en el dominio del tiempo de la banda completa, como en el presente caso. Además, en la patente 2008/0140428A 1 no se describen detalles sobre la forma o control de la superposición de la ventana, y en la patente 5819214 vienen las formas de superposición, es decir, son el resultado de la salida de la unidad de determinación del tamaño de transformada, lo cual es lo contrario a lo que propone la realización preferida de la presente invención.

[0006] La patente de EE. UU. 2010/0076754A 1 cedida a France Telecom sigue la misma motivación que la presente invención, concretamente, ser capaz de realizar conmutación de la longitud de transformada en escenarios de codificación de comunicación para mejorar la codificación de segmentos de señal transitorios y hacerlo sin un codificador extra de anticipación. Sin embargo, mientras que dicho documento revela que el objetivo de bajo retardo se logra evitando ventanas de transición de una longitud de transformada y post-procesando la señal reconstruida en el decodificador (desventajosamente mediante amplificación de partes de la señal decodificada y, por lo tanto, el error de codificación), la presente invención propone una modificación sencilla de la ventana de transición de un sistema de la técnica anterior que se introducirá a continuación, de manera que se puede minimizar la anticipación adicional del codificador y se puede evitar el post-procesamiento especial del decodificador (arriesgado).

[0007] La transformada de transición a la que se ha de aplicar una modificación inventiva es la ventana de inicio descrita en dos variantes de la patente de EE. UU. 5848391 cedida a Fraunhofer-Gesellschaft eV y Dolby Laboratories Licensing Corp. así como, de forma ligeramente diferente, en la patente US 2006/0122825A 1 cedida a Samsung Electronics Co. La Figura 16 muestra estas ventanas de inicio y revela que la diferencia entre las ventanas de Fraunhofer/Dolby y Samsung es la presencia de un segmento que no se superpone, es decir, una zona de la ventana que tiene un valor máximo constante que no pertenece a ninguna pendiente de superposición. Las ventanas de Fraunhofer/Dolby presentan una “parte no superpuesta que tiene una longitud”, las ventanas de Samsung no. Se puede concluir que un codificador con la menor cantidad de anticipación adicional, pero utilizando la conmutación de transformada de la técnica anterior puede realizarse empleando la estrategia de ventana de transición de Samsung. Con dichas transformadas, una anticipación igual al ancho de superposición entre las transformadas cortas es sufi ciente para conmutar completamente de transformadas largas a cortas antes de una señal transitoria.

[0008] Información adicional sobre la técnica anterior puede encontrarse en los documentos WO 2008/022566 A1 o WO 90/09063 o “Coding of audio signals with overlap block transform and adaptive window functions”, Frequenz, Band 43, septiembre de 1989, páginas 2052 a 2056, o bien en AES Convention Paper 4929, “MPEG-4 Low Delay Audio Coding based on the AAC Codec”, E. Allamanche, y col., 106 Convention, 1999.

[0009] Sin embargo, según la longitud de la transformada corta, la anticipación puede permanecer bastante grande y no debe evitarse. La Figura 17 ilustra el resultado de la conmutación de bloques durante la situación de entrada en el peor de los casos, es decir, la presencia de un transitorio repentino al inicio de la zona de anticipación, que a su vez comienza al final de la pendiente larga, es decir, en la zona de superposición en las tramas. Según las estrategias de la técnica anterior, al menos uno de los dos transitorios representados alcanza la transformada de transición. En un sistema de codificación con pérdida que utiliza un codificador sin anticipación adicional - un codifica dor que no “ve el transitorio que viene” - esta condición provoca la propagación temporal del error de codificación hasta el comienzo de la pendiente larga e incluso cuando se utiliza TNS, es probable que un ruido de pre-eco sea audible en la señal decodificada.

[0010] Las dos soluciones de anticipación antes mencionadas tienen sus desventajas.

[0011] La reducción de la superposición de las transformadas largas por un factor de hasta 8, por un lado, como se hace en el codificador Celt, limita severamente la eficacia (es decir, la ganancia de codificación, la compactación espectral) sobre el material de entrada estacionario, especialmente altamente tonal. Por otro lado, la prohibición de las transformadas cortas como en el AAC de bajo retardo (mejorado)(Low Delay AAC (Enhanced))reduce el resultado de los códecs en transitorios fuertes con duraciones mucho menores que la longitud de trama, lo que a menudo conduce a ruido de pre-eco o posteco audible, incluso cuando se utiliza t Ns .

[0012] Por lo tanto, los procedimientos de determinación de secuencia de ventanas de la técnica anterior son subóptimos con respecto a flexibilidad debido a las longitudes de ventana restringidas, son subóptimos con respecto al retardo requerido debido a los períodos de anticipación transitorios mínimos requeridos, son subóptimos con res pecto a la calidad de audio debido a pre-ecos o postecos, son subóptimos con respecto a la eficacia debido al prepro cesamiento adicional potencialmente necesario que utiliza funcionalidades adicionales aparte de los procedimientos de formación en ventanas con determinadas ventanas, o son subóptimos con respecto a la flexibilidad y eficacia debido a la necesidad potencial de cambiar un ráster de tramas/bloques en presencia de un transitorio.

[0013] Un objeto de la presente invención es proporcionar un concepto mejorado de codificación/decodificación de audio que proporcione un resultado mejorado con respecto a, al menos uno, de los inconvenientes de la técnica anterior.

[0014] Este objeto se consigue mediante un aparato para codificar una señal de audio según la reivindicación 1, un procedimiento de codificación de una señal de audio según la reivindicación 6 y un programa informático según la reivindicación 7.

[0015] Los aspectos de la presente invención se basan en el hallazgo de que, para que un códec de audio de bajo retardo sea capaz de aproximarse a la calidad de codificación de códecs de propósito general, es útil mantener un alto porcentaje de superposición entre las transformadas largas durante las entradas de señal estacionaria y per mitir la conmutación instantánea a superposiciones y transformadas más cortas en partes de señal de audio o imagen que rodean a señales no estacionarias. Además, es deseable permitir una flexibilidad algo mayor que ofrecer solo una elección binaria con respecto al ancho de superposición y, adicionalmente o alternativamente con respecto a las lon gitudes de las transformadas, de manera que el ancho de superposición o las longitudes de la(s) transformada(s) dentro de una trama se puedan adaptar con precisión en base a la ubicación de un posible transitorio dentro de la zona temporal de la trama con el fin de minimizar pre-ecos u otros artefactos.

[0016] Específicamente, un detector de ubicación de transitorio está configurado para identificar la ubicación de un transitorio dentro de una zona de anticipación de transitorios de una trama y, en base a la ubicación del transitorio dentro de la trama, se selecciona una ventana específica entre un grupo de al menos tres ventanas, donde estas tres ventanas son diferentes con respecto a sus longitudes de superposición con las ventanas adyacentes correspondien tes. De este modo, la primera ventana tiene una longitud de superposición mayor que la segunda ventana y la segunda ventana tiene una longitud de superposición mayor que la longitud de superposición de la tercera ventana y la tercera ventana puede, de forma alternativa, tener también una superposición cero, es decir, no superposición. La ventana específica se selecciona en base a la ubicación de transitorios de manera que una de las dos ventanas superpuestas adyacentes en el tiempo tenga los coeficientes de la primera ventana en la ubicación del transitorio y la otra de las dos ventanas superpuestas adyacentes en el tiempo tenga los coeficientes de segunda ventana en la ubicación del transitorio, donde los segundos coeficientes son al menos nueve veces mayores que los primeros coeficientes. De este modo, se asegura que la ubicación de transitorios sea, con respecto a la primera ventana, suficientemente suprimida y que el transitorio sea, con respecto a la segunda ventana, suficientemente capturado. En otras palabras y, preferen temente, la ventana anterior ya está en valores cercanos a cero en la ubicación de transitorios donde se ha detectado el transitorio y la segunda ventana tiene coeficientes de ventana cercanos o iguales a uno en esta zona de modo que, durante al menos una parte del transitorio, el transitorio se suprime en la ventana anterior y no se suprime en la ventana posterior o siguiente.

[0017] En una implementación, las longitudes de superposición son diferentes por factores enteros, de manera que la segunda longitud de superposición es, por ejemplo, igual a la mitad de la tercera longitud de superposición y la tercera longitud de superposición es igual a la mitad de la segunda longitud de superposición, o es diferente de la segunda longitud de superposición por un factor diferente pero es mayor o igual a, al menos 64 muestras, o es mayor o igual a, al menos 32, muestras o es mayor o igual a, al menos incluso, 16 muestras de audio o imagen.

[0018] La selección de ventana obtenida a partir de la ubicación de transitorios se transmite junto con las tramas de la señal de audio o imagen de manera que un decodificador pueda seleccionar las ventanas de síntesis correspon dientes en línea con la selección de codificador de las ventanas de análisis, asegurándose de que el codificador y el decodificador están sincronizados durante toda la operación de codificación/ decodificación.

[0019] En una implementación, un dispositivo de formación en ventanas controlable, un convertidor, un detector de ubicación de transitorios y un controlador forman un aparato para codificar y el convertidor aplica cualquiera de las transformadas de introducción de aliasing conocidas tales como una MDCT (transformada discreta del coseno modi ficada), un DST (transformada discreta del seno modificada), o cualquier otra transformada similar. En el lado del decodificador, un procesador coopera con un convertidor controlable para convertir una secuencia de bloques de valores espectrales en una representación en el dominio del tiempo utilizando un procesamiento de suma de superposición según secuencias de ventanas indicadas por la información de una ventana recibida en el decodificador.

[0020] Según la implementación, se puede implementar una conmutación de longitud de una transformada además de la selección de superposición de la transformada, de nuevo en base a la ubicación de transitorios dentro de la trama. Mediante la implementación de una sección de superposición múltiple donde al menos tres ventanas se superponen entre sí, se logra un concepto de códec de retardo muy bajo que, de nuevo, reduce sustancialmente el retardo de anticipación de transitorios requerido con respecto a conceptos anteriores. En una implementación adicio nal, se prefiere realizar en primer lugar una selección de superposición y, posteriormente, adoptar una decisión de longitud de transformada para determinar un código de superposición para cada trama. De forma alternativa, la deci sión de conmutación de longitud de transformada puede hacerse independientemente de la decisión de ancho de superposición y, sobre la base de estas dos decisiones, se determina un código de superposición. Basándose en el código de superposición de una trama actual y el código de superposición de una trama anterior, se realiza una se lección de secuencia de ventanas para un transitorio específico, en base a la cual un codificador, así como un deco dificador, funcionan sincronizados entre sí.

[0021] En una realización donde se lleva a cabo una selección de superposición de transformadas, se obtiene una calidad de audio o imagen aumentada.

[0022] A diferencia de los sistemas de codificación existentes, que emplean solo una selección binaria de ancho de superposición de transformadas (grande/máximo o pequeño), la realización propone un conjunto de tres anchos de superposición a partir de los cuales un codificador puede elegir una base por trama (u opcionalmente, por transfor mada): superposición máxima, superposición media o superposición mínima. La superposición máxima podría ser igual a la longitud de la trama como para las transformadas largas en AAC, es decir, el 50 % de superposición, pero también podría equivaler a la mitad de la longitud de la trama, es decir, el 33 % de superposición o menos, como se describirá en una realización preferida. En consecuencia, la superposición mínima podría indicar un ancho de superposición de cero, es decir, sin superposición, pero también podría representar una superposición superior a cero de un número muy pequeño de muestras de tiempo o milisegundos, como demostrará dicha realización preferida. Final mente, la superposición media podría ser, pero no necesariamente tiene que ser, la mitad de la superposición máxima.

[0023] En particular, según un aspecto de la presente invención, se define una unidad de determinación de ancho de superposición que selecciona para cada trama (u, opcionalmente, para cada transformadas dentro de una trama) una de los tres anchos de superposición posibles. Más precisamente, dicha unidad de determinación de ancho de superposición tiene como entrada la salida de una unidad de detección de transitorios para identificar con suficiente precisión la posición de un transitorio dentro de la trama actual (u, opcionalmente, dentro de una transformada en la trama actual) y obtener un ancho de superposición de manera que se consigan al menos uno de los dos objetivos: - El ancho se elige de manera que solo una de las transformadas superpuestas contiene el transitorio.

- Se suprimen en gran medida los pseudotransitorios debido al modelado TNS del error de codificación con aliasing en el tiempo.

[0024] En otras palabras, el ancho de superposición se determina con el objetivo de impedir la distorsión del pre-eco o posteco alrededor de un transitorio codificado perceptualmente situado en la trama dada. Debe observarse que es posible un cierto grado de libertad con respecto a los medios para determinar la ubicación exacta del transitorio. El tiempo o índice de subbloque que designa una ubicación de transitorios podría ser igual al inicio (comienzo) de esa ubicación de transitorio, como en una realización preferida, pero también podría ser la ubicación de la energía o am plitud máxima, o el centro de energía, del transitorio.

[0025] Además, a diferencia de los esquemas de codificación de la técnica anterior que obtienen las superpo siciones entre-transformadas instantáneas a partir de la selección dada de longitudes de transformada para un par de tramas (es decir, el ancho de superposición viene a continuación de la salida de una unidad de determinación del tamaño de transformada), según otro aspecto de la presente invención un sistema de codificación puede, en determi nadas condiciones que se examinarán a continuación en una realización preferida, controlar u obtener la longitud o longitudes de las transformadas que se utilizarán para una trama particular utilizando el ancho de superposición atri buida a esa trama y, opcionalmente, el ancho de superposición de la trama anterior (es decir, el tamaño de la transformada va detrás de los datos de la unidad de determinación del ancho de superposición).

[0026] En una realización adicional donde se utiliza una parte de superposición múltiple o se aplica una con mutación de longitud de transformada, se obtiene un concepto de retardo particularmente bajo.

[0027] Una mejora de los esquemas de conmutación de bloques de la técnica anterior es una modificación ventajosa de las transformadas transitorias de la Figura 16, que permite que la anticipación adicional del codificador necesaria para un funcionamiento con calidad estable durante las señales no estacionarias se reduzca a la mitad. Como se ha expuesto anteriormente, las ventanas de inicio propuestas por Fraunhofer/ Dolby o por Samsung se caracterizan por la presencia o ausencia, respectivamente, de una “parte no superpuesta que tiene una longitud”. La realización va incluso más allá y permite que las pendientes de superposición izquierda y derecha de la ventana de transición se extiendan entre sí. En otras palabras, la transformada de transición modificada presenta una zona de “doble superposición” de longitud no cero donde se superpone tanto con la transformada larga de la trama anterior como con la siguiente transformada corta. La forma resultante de la transformada de transición de la invención se ilustra en la Figura 13. En comparación con la ventana de transición de Samsung que se muestra en la Figura 17, está claro que al permitir una zona de “superposición doble” en la transformada, la pendiente de superposición corta en el extremo derecho de la transformada puede desplazarse a la izquierda por (y por lo tanto la anticipación necesaria del codificador se puede reducir por) la mitad del ancho de superposición de la transformada corta. La longitud reducida de dicha ventana de transición modificada presenta tres ventajas cruciales que facilitan la implementación, especial mente en dispositivos móviles:

El kernel de la transformada, es decir, la longitud del vector de coeficientes resultante de la transformada superpuesta en tiempo/frecuencia (preferentemente MDCT), es exactamente la mitad del ancho de la zona de superposición entre dos transformadas largas. Dado el hecho de que dicho ancho de superposición largo generalmente es igual a la lon gitud de la trama o la mitad de la longitud de la trama, esto implica que la ventana de transición de la invención y las ventanas cortas subsiguientes encajan perfectamente en la matriz de la trama y que todos los tamaños de transfor madas del códec resultante están relacionados con un factor de potencia de dos enteros, como se ve en la Figura 13. - Ambas ubicaciones de transitorios representadas en la Figura 17 y de nuevo en la Figura 13 se encuentran fuera de la transformada de transición, por lo que una dispersión temporal del error de codificación debido a los transitorios puede restringirse dentro de la extensión de las dos primeras ventanas cortas después de la transformada. Por lo tanto, contrariamente a los esquemas Fraunhofer/Dolby y Samsung de la técnica anterior, es improbable que se pro duzca ruido pre-eco audible alrededor de los transitorios cuando se usa la estrategia de conmutación de bloques de la invención de la Figura 13.

- Tanto el codificador como el decodificador pueden utilizar las mismas ventanas para las transformadas directa e inversa. En un dispositivo de comunicación que realiza tanto codificación como decodificación, solo se necesita alma cenar un conjunto de datos de ventana en la ROM. Además, también se puede evitar un preprocesamiento o post procesamiento especial de la señal, que requeriría un programa ROM y/o RAM adicional.

[0028] Tradicionalmente, las ventanas de transición con un segmento de “superposición doble” como en la presente invención no se han utilizado en la codificación de voz o audio o imagen, lo más probablemente porque se pensaba que violaban ciertos principios que aseguran una reconstrucción de forma de onda perfecta en ausencia de cuantización de los coeficientes de las transformadas. Sin embargo, es posible reconstruir exactamente la entrada cuando se utiliza la transformada de transición de la invención y, además, no se requiere post-procesamiento especial en el lado del decodificador como en la propuesta de France Telecom.

[0029] Como nota adicional, vale la pena enfatizar que la utilización de dicha ventana de transición de la inven ción se puede controlar por medio de la unidad de determinación del ancho de superposición de la invención en lugar de, o además de, una unidad de determinación de la longitud de la transformada.

[0030] Posteriormente, se analizan e ilustran con más detalle las realizaciones preferidas de la presente inven ción. Además, se hace referencia particular a las reivindicaciones dependientes donde se definen otras realizaciones.

[0031] Además, la memoria descriptiva ilustra concretamente un aspecto relacionado con la conmutación de superposición adaptable a la ubicación de transitorios, particularmente con respecto a las Figs. 1a a 7. Un aspecto adicional relacionado con la parte de superposición múltiple se ilustra y se describe con respecto a las Figs. 8a a 15f. Estos aspectos individuales se pueden implementar independientemente unos de otros, es decir, la conmutación de superposición se puede aplicar sin una zona de superposición múltiple, o bien la zona de superposición múltiple puede aplicarse sin conmutación de superposición adaptable a la ubicación de transitorios. Sin embargo, en una implementación, ambos aspectos se pueden combinar ventajosamente dando como resultado un concepto de codificación/decodificación que tiene una conmutación de superposición adaptable a la ubicación de transitorios y una zona de su perposición múltiple. Dicho concepto puede ser adicionalmente mejorado por un procedimiento de conmutación de longitud de transformada, que de nuevo depende de una ubicación de transitorios en una zona de anticipación de transitorios de una trama. La conmutación de longitud de transformada puede realizarse según la determinación del ancho de superposición o independiente de la conmutación de superposición.

[0032] La presente invención no solo es útil para señales de audio, sino que también es útil para señales de vídeo, fotos o, generalmente, señales de imagen. Por ejemplo, en la codificación de imágenes fijas, o las llamadas tramas I en AVC, o tecnologías más o menos avanzadas, la presente invención puede aplicarse para evitar artefactos de bloqueo. Un transitorio en el campo de imagen sería un borde afilado y una trama correspondería, por ejemplo, a un macrobloque. Preferentemente, la imagen se codifica bidimensionalmente utilizando una transformada de introduc ción de aliasing y la superposición espacial correspondiente. Esto reduce los artefactos de bloqueo, por un lado, y reduce cualquier otro artefacto causado por partes transitorias, es decir, partes con bordes afilados, por otro lado. Por lo tanto, la descripción posterior se aplica igualmente a las señales de imagen, aunque no se indique específicamente en toda la descripción.

[0033] La invención se define por las reivindicaciones adjuntas.

[0034] A continuación, se describen realizaciones y aspectos con respecto a los dibujos adjuntos donde: la Fig. 1a ilustra un aparato para codificar en el contexto de un aspecto de conmutación de superposición;

la Fig. 1b ilustra un aparato para decodificar el aspecto de la conmutación de superposición;

la Fig. 2a ilustra una secuencia de ventanas con superposición total entre ventanas adyacentes;

la Fig. 2b ilustra una secuencia de ventanas con superposición media entre dos ventanas adyacentes;

la Fig. 2c ilustra una secuencia de ventanas con un cuarto de superposición entre ventanas adyacentes y una super posición media entre ventanas adyacentes y una superposición total posterior entre ventanas adyacentes;

las Figs. 3a y 3c e ilustran diferentes anchos de superposición en diferentes ubicaciones de transitorios para una realización con una longitud de transformada de 20 ms tal como en TCX 20;

las Figs. 4a a 4g ilustran una selección de longitudes de superposición de transformadas para una longitud de transformadas de 10 ms tal como TCX 10 según una ubicación de transitorios;

las Figs. 5a a 5c ilustran una codificación de un ancho de superposición;

la Fig. 6a ilustra una codificación del ancho de superposición y la longitud de la transformada en base a la ubicación de transitorios;

la Fig. 6b ilustra una tabla de decisiones de longitud de transformadas;

la Fig. 7 ilustra diferentes secuencias de ventanas dependientes de los códigos de superposición anteriores y actuales; la Fig. 8a ilustra un codificador en el contexto de una parte de superposición múltiple en una realización de la presente invención;

la Fig. 8d ilustra un decodificador para el aspecto de la parte de superposición múltiple en una realización de la presente invención;

la Fig. 9a ilustra un procedimiento según una realización preferida que ilustra el lado del codificador; la Fig. 9b ilustra un diagrama de flujo de un procedimiento preferido realizado en el lado del codificador;

la Fig. 10a ilustra una realización de un procedimiento en el lado del decodificador;

la Fig. 10b ilustra una realización adicional de un procedimiento realizado en el lado del decodificador;

la Fig. 11a ilustra operaciones realizadas en el lado del codificador de una realización;

la Fig. 11b ilustra operaciones realizadas por un decodificador en una realización de la presente invención;

las Figs. 12a y 12b ilustran una realización adicional de procedimientos a realizar en el lado del codificador/decodificador en el contexto del aspecto de superposición múltiple de la invención;

la Fig. 13 ilustra diferentes secuencias de ventanas que tienen ambas una parte de superposición múltiple;

la Fig. 14a ilustra una secuencia de ventanas que tiene una longitud de transformada conmutada según la ubicación de transitorios;

la Fig. 14b ilustra una secuencia de ventanas adicional que tiene una parte de superposición múltiple;

las Figs. 15a a 15f ilustran diferentes secuencias de ventanas y las partes de anticipación correspondientes y pre ecos;

la Fig. 16 ilustra formas de ventanas de la técnica anterior; y

la Fig. 17 ilustra las secuencias de ventanas de la técnica anterior formadas por las formas de ventana de la Fig. 16.

[0035] La Fig. 1a ilustra un aparato para codificar una señal de audio 100. El aparato para codificar una señal de audio comprende un dispositivo de formación en ventanas controlable 102 para formar en ventanas la señal de audio 100 y proporcionar una secuencia de bloques de muestras formadas en ventanas en 103. El decodificador comprende además un convertidor 104 para convertir la secuencia de bloques de las muestras formadas en ventanas 103 en una representación espectral comprendiendo una secuencia de tramas de valores espectrales indicados en 105. Además, se proporciona un detector de ubicación de transitorios 106. El detector está configurado para identificar la ubicación de un transitorio en una zona de anticipación de transitorios dentro de una trama. Además, un controlador 108 que controla el dispositivo de formación en ventanas controlable está configurado para aplicar una ventana espe cífica que tiene una longitud de superposición especificada a la señal de audio 100 en respuesta a una ubicación identificada del transitorio que se ilustra en 107.

[0036] Además, el controlador 108 está configurado, en una realización, para proporcionar información de ven tana 112 no solo al dispositivo de ventanas controlable 102, sino también a una interfaz de salida 114 que proporciona, en su salida, la señal de audio codificada 115. La representación espectral comprendiendo la secuencia de tramas de valores espectrales 105 se introduce en un procesador de codificación 110, que puede realizar cualquier tipo de operación de codificación tal como una operación de predicción, una operación de modelado de ruido temporal, una ope ración de cuantización preferentemente con respecto a un modelo psicoacústico o, al menos con respecto a principios psicoacústicos, o puede comprender una operación de codificación de reducción de redundancia tal como una opera ción de codificación Huffman o una operación de codificación aritmética. La salida del procesador de codificación 110 se envía, a continuación, a la interfaz de salida 114 y la interfaz de salida 114 proporciona finalmente la señal de audio codificada que tiene asociada, a cada trama codificada, una determinada información de ventana 112.

[0037] El controlador 108 está configurado para seleccionar la ventana específica a partir de un grupo de al menos tres ventanas. El grupo comprende una primera ventana que tiene una primera longitud de superposición, una segunda ventana que tiene una segunda longitud de superposición y una tercera ventana que tiene una tercera longitud de superposición o ninguna superposición. La primera longitud de superposición es mayor que la segunda longitud de superposición y la segunda longitud de superposición es mayor que una superposición cero. La ventana específica se selecciona con el dispositivo de formación en ventanas controlable 102 en base a la ubicación de transitorios de manera que una de las dos ventanas superpuestas adyacentes en el tiempo tenga los coeficientes de la primera ventana en la ubicación del transitorio y la otra de las dos ventanas superpuestas adyacentes en el tiempo tenga los coeficientes de segunda ventana en la ubicación del transitorio y los segundos coeficientes son al menos nueve veces mayores que los primeros coeficientes. Esto asegura que el transitorio es sustancialmente suprimido por la primera ventana que tiene los primeros coeficientes (pequeños) y el transitorio no es demasiado afectado por la segunda ventana que tiene los coeficientes de la segunda ventana. Preferentemente, los coeficientes de la primera ventana son iguales a 1 dentro de una tolerancia de más/menos 5 %, tal como entre 0,95 y 1,05, y los segundos coeficientes de la ventana son, preferentemente, iguales a 0 o al menos menores que 0,05. Los coeficientes de ventana también pueden ser negativos y, en este caso, las relaciones y las cantidades de los coeficientes de ventana están relacionadas con la magnitud absoluta.

[0038] La Fig. 2a ilustra una secuencia de ventanas con primeras ventanas solamente y las primeras ventanas tienen la primera longitud de superposición. Particularmente, la última trama tiene asociada una primera ventana 200, la trama actual tiene una ventana asociada 202 y la tercera o siguiente trama tiene asociada una ventana 204. En esta realización, las ventanas adyacentes se superponen en un 50 %, es decir, una longitud total. Además, las tramas se colocan con respecto a las ventanas con el fin de identificar qué parte de la señal de audio es procesada por una trama. Esto se explica haciendo referencia a la trama actual La trama actual tiene una parte izquierda 205a y una parte derecha 205b. Correspondientemente, la última trama tiene una parte derecha 204b y una parte izquierda 204a. De forma análoga, la trama siguiente tiene una parte izquierda 206a y una parte derecha 206b. Izquierda/derecha se refiere a antes en el tiempo y después en el tiempo, como se ilustra en la Fig. 2a. Cuando se genera la trama actual de valores espectrales, se utilizan las muestras de audio obtenidas con la formación en ventanas con la ventana 202. Las muestras de audio provienen de las partes 204b a 206a.

[0039] Como se conoce en la técnica del procesamiento MDCT, en general, el procesamiento que utiliza una transformada de introducción de aliasing, esta transformada de introducción de aliasing se puede separar en una etapa de plegamiento y una etapa de transformada subsiguiente que utiliza una determinada transformada de introducción de no aliasing. En la Fig. 2a, por ejemplo, la sección 204b se pliega dentro de la sección 205a y la sección 206a se pliega dentro de la sección 205b. El resultado de la operación de plegamiento, es decir, la combinación ponderada de 205a, 204b, por un lado, y 206a y 205b, se transforman a continuación en el dominio espectral utilizando una trans formada tal como una transformada DCT. En el caso de una MDCT, se aplica una transformada DCT IV.

[0040] Posteriormente, esto se ejemplifica con referencia a la MDCT, pero pueden procesarse otras transfor madas de introducción de aliasing de una manera análoga y similar. Como una transformada superpuesta, la MDCT es un poco inusual en comparación con otras transformadas relacionadas con Fourier, ya que tiene la mitad de salidas que entradas (en lugar del mismo número). En particular, es una función lineal F: R2N -> RN (donde R indica el conjunto de números reales). Los 2N números reales x0, ..., x2N-1 se transforman en los N números reales X0, ..., XN-1 según la fórmula:

[0041] (El coeficiente de normalización frente a esta transformada, aquí la unidad, es una convención arbitraria y difiere entre los tratamientos. Solo el producto de las normalizaciones de la MDCT y la IMDCT, a continuación, está restringido).

Transformada inversa

[0042] La MDCT inversa se conoce como la IMDCT. Debido a que hay diferentes números de entradas y salidas, a primera vista puede parecer que la MDCT no debe ser invertible. Sin embargo, la invertibilidad perfecta se logra añadiendo las IMDCT superpuestas de los bloques de superposición adyacentes en el tiempo, haciendo que los erro res se anulen y se recuperen los datos originales; esta técnica se conoce como Cancelación de Aliasing en el Dominio del Tiempo(time-domain aliasing cancellation,TDAC).

[0043] La IMDC transforma N números reales X0, ..., XN-1 en 2N números reales y0, ..., y2N-1 según la fór mula:

(Al igual que para la DCT-IV, una transformada ortogonal, la inversa tiene la misma forma que la transformada directa.) [0044] En el caso de una MDCT formada en ventanas con la normalización habitual de ventanas (véase más adelante), el coeficiente de normalización frente a la IMDCT debe multiplicarse por 2 (es decir, convertirse en 2/N).

[0045] En aplicaciones típicas de compresión de señal, las propiedades de las transformadas se mejoran adi cionalmente utilizando una función ventana wn (n = 0, ..., 2N-1) que se multiplica con xn e yn en las fórmulas MDCT y IMDCT, arriba, con el fin de evitar discontinuidades en los límites n = 0 y 2N, haciendo que la función transcurra suavemente a cero en esos puntos. (Esto es, formamos en ventanas los datos antes de la MDCT y después de la IMDCT). En principio, x e y podrían tener diferentes funciones ventana, y la función ventana también podría cambiar de un bloque al siguiente (especialmente para el caso donde se combinan bloques de datos de diferentes tamaños), pero por simplicidad consideramos el caso común de funciones ventana idénticas para bloques del mismo tamaño.

[0046] La transformada permanece invertible (es decir, funciona la TDAC), para una ventana simétrica wn = w2N-1-n, siempre que w satisfaga la condición de Princen-Bradley:

w l+ Wl N<=>1

se utilizan varias funciones ventana. Una ventana que produce una forma conocida como transformada superpuesta modulada [3] [4] se da con

y se utiliza para MP3 y MPEG-2 AAC, y

para Vorbis. AC-3 utiliza una ventana obtenida a partir de Kaiser-Bessel (KBD), y MPEG-4 AAC también puede usar una ventana KBD.

[0047] Cabe observar que las ventanas aplicadas a la MDCT son diferentes de las ventanas utilizadas para algunos otros tipos de análisis de señales, ya que deben cumplir la condición Princen-Bradley. Una de las razones de esta diferencia es que las ventanas MDCT se aplican dos veces, tanto para la MDCT (análisis) como para la IMDCT (síntesis).

[0048] Como puede verse mediante la inspección de las definiciones, para N par, la MDCT es esencialmente equivalente a una DCT-IV, donde la entrada se desplaza según N/2 y dos N-bloques de datos se transforman a la vez. Examinando esta equivalencia más cuidadosamente, se pueden obtener fácilmente propiedades importantes como la TDAC.

[0049] Para definir la relación exacta con la DCT-IV, debe tener en cuenta de que la DCT-IV corresponde a condiciones limítrofes par/impar alternantes: par en el límite izquierdo (alrededor de n=-1/2), impar en el límite derecho (alrededor de n=N-1/2) y así sucesivamente (en lugar de límites periódicos como para una DFT). Esto se deduce de las identidades y. De este modo, si las entradas

y

eos

[0050] Por lo tanto, si las entradas son una matriz x de longitud N, podemos imaginar extendiendo esta matriz a (x, -xR, -x, xR, ...) y así sucesivamente, donde xR indica x en orden inverso.

[0051] Consideremos una MDCT con 2N entradas y N salidas, donde dividimos las entradas en cuatro bloques (a, b, c, d) de tamaño N/2. Si desplazamos estos N/2 a la derecha (a partir del término N/2 en la definición MDCT), entonces (b, c, d) se extienden más allá del final de las N entradas DCT-IV, por lo que debemos “plegarlos” según las condiciones limítrofes descritas anteriormente.

[0052] Por lo tanto, la MDCT de 2N entradas (a, b, c, d) es exactamente equivalente a una DCT-IV de las N entradas: (-cR-d, a-bR), donde R indica inversión igual que arriba.

[0053] Esto se ejemplifica para la función basada en ventana 202 en la Fig. 2a; a es la parte 204b, b es la parte 205a, c es la parte 205b y d es la parte 206a.

[0054] (De esta manera, cualquier algoritmo para calcular la DCT-IV puede aplicarse trivialmente a la MDCT). De forma similar, la fórmula de la IMDCT anterior es precisamente 1/2 de la DCT-IV (que es su propia inversa), donde la salida se extiende (a través de las condiciones limítrofes) a una longitud 2N y se desplaza hacia atrás N/2 a la izquierda. La DCT-IV inversa simplemente devolvería las entradas (-cR-d, a-bR) de arriba. Cuando esto se extiende a través de las condiciones limítrofes y se desplaza, se obtiene:

IM D C T (M D C T(a , b, c, d )) = (a -b R , b -a R , c+dR , d+ cR ) / 2.

[0055] De este modo, la mitad de las salidas de IMDCT son redundantes, como b-aR = -(a-bR) R, y también para los dos últimos términos. Si agrupamos la entrada en bloques mayores A, B de tamaño N, donde A= (a, b) y B = (c, d), podemos escribir este resultado de una manera más simple:

IM D C T (M D C T (A , B )) = (A -A R , B B R ) / 2

[0056] Ahora se puede entender cómo funciona la TDAC. Supongamos que se calcula la MDCT del bloque 2N (B, C), adyacente en el tiempo y superpuesto un 50 %. La IMDCT producirá entonces, de forma análoga al anterior: (B-BR, C+CR) / 2. Cuando esto se agrega con el anterior resultado de la IMDCT en la superposición media, los térmi nos invertidos se cancelan y se obtiene simplemente B, recuperando los datos originales.

[0057] El origen del término “cancelación de aliasing en el dominio del tiempo” ahora está claro. La utilización de datos de entrada que se extienden más allá de los límites de la DCT-IV lógica hace que los datos sean aliasados de la misma manera que las frecuencias más allá de la frecuencia de Nyquist son alias con las frecuencias más bajas, excepto que este aliasing ocurre en el dominio del tiempo en lugar del dominio de la frecuencia: no podemos distinguir las contribuciones de a y bR a la MDCT de (a, b, c, d) o, de manera equivalente, al resultado de la IMDCT (MDCT (a, b, c, d)) = (a -bR, b-aR, c+dR, d+cR)/2. Las combinaciones c-dR, y así sucesivamente, tienen precisamente los signos correctos para que las combinaciones se cancelen cuando se añaden.

[0058] Para el N impar (que rara vez se usa en la práctica), N/2 no es un entero por lo que la MDCT no es simplemente una permutación de cambio de una DCT-IV. En este caso, el desplazamiento adicional de la mitad de una muestra significa que la MDCT/IMDCT se convierte en equivalente a la DCT-III/II y el análisis es análogo al anterior.

[0059] Hemos visto anteriormente que la MDCT de 2N entradas (a, b, c, d) es equivalente a una DCT-IV de las N entradas (-cR-d, a-bR). La DCT-IV está diseñada para el caso en que la función en el límite derecho es impar y, por lo tanto, los valores cerca del límite derecho son cercanos a 0. Si la señal de entrada es lisa, este es el caso: los componentes más a la derecha de a y bR son consecutivos en la secuencia de entrada (a, b, c, d), y por lo tanto su diferencia es pequeña. Veamos la mitad del intervalo: si reescribimos la expresión anterior como (-cR-d, a-bR) = (-d, a) - (b, c) R, el segundo término, (b, c) R, forma una transición suave en el medio. Sin embargo, en el primer término, (-d, a), hay una discontinuidad potencial donde el extremo derecho de -d se encuentra con el extremo izquierdo de a. Esta es la razón para usar una función ventana que reduce los componentes cercanos a los límites de la secuencia de entrada (a, b, c, d) hacia 0.

[0060] Por encima, se probó la propiedad TDAC para la MDCT ordinaria, mostrando que la adición de IMDCT de bloques adyacentes en el tiempo en su superposición media recupera los datos originales. El razonamiento de esta propiedad inversa para la ventana MDCT es solo un poco más complicado.

[0061] Considere la superposición de conjuntos consecutivos de 2N entradas (A, B) y (B, C), para los bloques A, B, C de tamaño N. Recuerde desde arriba que cuando se realiza la MDCT y la IMDCT de(A, B)y(B, C)y se añaden en su superposición media, obtenemos(B+Br) I 2+(B - Br) I2 =B,los datos originales. Ahora supongamos que multiplicamos tanto las entradas MDCT como las salidas IMDCT por una función basada en ventana de longitud 2n . Igual que antes, asumimos una función basada en ventana simétrica, que es por lo tanto de la forma(W, Wr)donde W es un vector de longitud N y R indica inversión como antes. Entonces la condición de Princen-Bradley puede escri birse comoW+W2r= (1, 1, ...), con los cuadrados y las adiciones realizadas en el sentido de los elementos.

[0062] Por lo tanto, en lugar de realizar la MDCT(A, B),se realiza la MDCT(WA, WrB)con todas las multipli caciones realizadas en el sentido de los elementos. Cuando se realiza la IMDCT de esto y se multiplica de nuevo (en el sentido de los elementos) por la función ventana, la última N-mitad se convierte en:

WrÍW rB+{WrB)r)=Wr {WrB+WBr)=Wr B+WWhBr

[0063] (Cabe observar que ya no tenemos la multiplicación por 1/2, porque la normalización IMDCT difiere por un factor de 2 en el caso de ventanas.)

[0064] De forma similar, la MDCT con ventana y la IMDCT de (B, C) producen en su primera N-mitad:

[0065] Cuando uno añade estas dos mitades juntas, se recuperan los datos originales.

[0066] En un procedimiento similar, la siguiente trama se calcula utilizando las partes 205b, 206a, 206b y la primera parte de la siguiente trama de la Fig. 2a. Por lo tanto, las ventanas 200, 202, 204 corresponden a la función ventana que tiene una primera longitud de superposición de las tres ventanas con las diferentes longitudes de super posición utilizadas por el dispositivo de formación en ventanas controlable 102 de la Fig. 1a. Como se ha indicado, la Fig. 2a ilustra una situación donde no se detectan transitorios en la última trama, la trama actual y la trama siguiente y, específicamente, en la zona de anticipación de cada trama indicada por el punto 207 en la última trama, 208 en la trama actual y 209 en la trama siguiente. La Fig. 2b ilustra una situación, donde se detectan transitorios en las posi ciones transitorias 210, 211, 212, 213. Debido al hecho de que, por ejemplo, se detecta una posición de transitorios en 210 y debido al hecho de que 210 está en la zona de anticipación que comienza en 207 para la última trama, el controlador 108 determina que se realice una conmutación desde la primera ventana 201 a una ventana adicional 215. Debido a los transitorios adicionales 211 y, en particular, 212/213 que se encuentran en la siguiente zona de anticipa ción, la trama actual se procesa adicionalmente utilizando la segunda ventana 216 con la segunda longitud de super posición. De este modo, la ventana 215 es una especie de ventana de inicio que cambia desde la ventana con la primera longitud de superposición indicada en 201 a la segunda ventana que tiene la segunda longitud de superposición. Tal como se ilustra, la segunda longitud de superposición solo se extiende sobre ocho espacios y, por lo tanto, es solo la mitad de longitud que la primera longitud de superposición. Debido al hecho de que en la zona de anticipación que comienza en 209, ya no se detecta ningún transitorio, se realiza una conmutación de nuevo a la ventana larga 201 mediante una especie de “ventana de parada 217”. De nuevo, se observa que la longitud de superposición ilus trada en 218 en la trama actual, por un lado, y entre la trama actual y la trama siguiente, por otro lado, que está indicada en 218 es la mitad de larga que la longitud de superposición en la Fig. 2a para la primera ventana que tiene 16 espacios ilustrados.

[0067] Por lo tanto, la ventana con superposición media se utiliza para los transitorios que se detectan en las zonas de detección 1 y 6. Como se ilustra en 219, dicha zona de detección comprende dos espacios. De este modo, el intervalo de anticipación está separado en preferentemente ocho espacios. Por otra parte, sin embargo, se puede realizar una subdivisión más gruesa o más fina. Sin embargo, en las realizaciones preferidas, la zona de anticipación está subdividida en al menos cuatro espacios y, preferentemente, subdividida en ocho espacios como se ilustra en 2b y 2c y otras figuras.

[0068] Como se ilustra, la segunda ventana 216 tiene una superposición media en ambos lados, mientras que la ventana 215 tiene una superposición media en el lado derecho y tiene una superposición total en el lado izquierdo y la ventana 217 tiene una superposición media en el lado izquierdo y una superposición total en el lado derecho.

[0069] Se hace referencia a la Fig. 2c. La Fig. 2c ilustra una situación donde el detector de transitorios detecta, en la zona de anticipación que comienza en el centro de la última trama, que hay un transitorio en la segunda zona de detección de transitorios 222. De este modo, se realiza un cambio a un cuarto de superposición para asegurarse de que el transitorio 223 solo está “disperso” dentro de la ventana 224, pero no está incluido en la zona definida por la ventana 201 ni en la zona definida por la ventana 225. Además, se indica una secuencia, donde se realiza una con mutación desde un cuarto de superposición en la última trama y la trama actual a una superposición media entre la trama actual y la trama siguiente, y vuelve a la superposición total entre la trama siguiente y la siguiente y la trama siguiente. Esto se debe a los transitorios detectados. En la zona de anticipación que comienza en 208, se detectan transitorios en la parte una y en la parte seis mientras se detectan transitorios en la parte dos y en la parte cinco entre la última trama 207 y la trama actual 208.

[0070] Así, la Fig. 2c ilustra una secuencia de ventanas, donde se ilustra la primera ventana 201 que tiene toda o la primera longitud de superposición, donde se utiliza una segunda ventana que tiene la segunda longitud de super posición indicada en 218, donde la segunda ventana puede ser, por ejemplo, la ventana 225 o la ventana 226 y, donde se ilustra una tercera ventana que tiene una tercera longitud de superposición como tiene la ventana 224 o la ventana 225 que tiene, en su lado izquierdo, la longitud de superposición pequeña 229. Por lo tanto, se ilustra una secuencia de ventanas que cambia de una superposición total a un cuarto de superposición y después a una superposición media y luego a una superposición total. Por lo tanto, la primera ventana que tiene la primera longitud de superposición puede ser una ventana asimétrica que tiene una superposición diferente de la primera superposición en un lado y que tiene la primera longitud de superposición en el otro lado. De forma alternativa, sin embargo, la primera ventana tam bién puede ser una ventana que tiene la primera longitud de superposición en ambos lados como se ilustra en 216 en la Fig. 2b. Además, la segunda ventana que tiene la segunda longitud de superposición puede ser una ventana simé trica que tiene la segunda longitud de superposición en ambos lados o puede ser una ventana asimétrica que tiene la segunda longitud de superposición en un lado y que tiene, en el otro lado, la primera longitud de superposición o la tercera longitud de superposición o cualquier otra longitud de superposición. Finalmente, la tercera ventana que tiene la tercera longitud de superposición puede ser una ventana simétrica que tiene la tercera longitud de superposición en ambos lados o puede ser una ventana que tiene la tercera longitud de superposición en un lado y que tiene una longitud de superposición diferente en el otro lado.

[0071] Posteriormente, se ilustran otras realizaciones con respecto a las figuras siguientes. Generalmente, la detección del transitorio y su ubicación pueden realizarse, por ejemplo, utilizando un procedimiento o un procedimiento similar al detector de transitorios descrito en la patente de EE. UU. 6,826,525 B2, pero también se pueden utilizar otros detectores de transitorios.

[0072] La unidad de detección de transitorios identifica la presencia y, si es aplicable, la ubicación del inicio del transitorio más fuerte en la nueva parte de señal de una trama dada, es decir, excluyendo la zona de superposición entre la trama actual y la anterior. La resolución del índice que describe la ubicación de transitorios es, en las figuras siguientes, 1/8 de la longitud de la trama, por lo que el intervalo de índice es de 0 a 7. En las figuras posteriores, los subbloques con índices 0, ..., 7 representan los 20 ms más nuevos de una señal de dominio en el tiempo que se utilizan para la codificación en la trama actual.

[0073] Las Figs. 3a-3c ilustran la selección del ancho de superposición de transformadas para una longitud de transformada ejemplar ms, es decir, para una longitud de transformada de TCX20.

[0074] En la Fig. 3a, ningún transitorio está presente en la trama actual. Por lo tanto, se detecta una superpo sición total 300.

[0075] La Fig. 3b, por el contrario, ilustra una situación donde se detecta un transitorio en el séptimo subbloque de manera que el controlador 108 de la Fig. 1a. selecciona una superposición media 302. Además, la Fig. 3c ilustra la situación donde se detecta un transitorio en el sexto subbloque y, por lo tanto, el controlador establece una superpo sición mínima 304. De este modo, el detector de ubicación de transitorios 106 detecta si hay un transitorio y, si no, se selecciona el ancho de superposición o el primer ancho de superposición 300. Sin embargo, cuando existe un transi torio en el séptimo subbloque determinado por el detector de ubicación de transitorios 106 de la Fig. 1a, a continuación, la segunda longitud de superposición 302, preferentemente la mitad de la primera longitud de superposición 300, es establecida por el controlador y cuando el transitorio está en el subbloque 6, entonces se establece una superposición mínima. La Fig. 3c muestra adicionalmente la situación donde, en lugar del hecho de que el transitorio se detecta en la posición 6 o 7, se mantiene sin embargo la longitud de la transformada. De este modo, las longitudes de las trans formadas de las ventanas 301a, 301b o 303a o 303b son idénticas e iguales a la primera ventana que tiene la longitud de superposición más larga ilustrada en la Fig. 3a en 301a y 301b. Como se mostrará más adelante, se prefiere no solo controlar la longitud de superposición, sino también controlar asimismo la longitud de las transformadas, especí ficamente en situaciones donde el transitorio se detecta en otros subbloques. Por lo tanto, el ancho de superposición entre la actual y la siguiente ventana transformada depende de la ubicación del transitorio. Sin embargo, la superpo sición entre la ventana transformada actual y la anterior se determinó al procesar la trama anterior.

[0076] Posteriormente, se hace referencia a la Fig. 4a a 4g con el fin de mostrar la selección de la longitud de superposición de transformada durante 10 ms de longitud de transformada, es decir, TCX10. Si, por ejemplo, un códec está limitado a una longitud de transformada de 10 ms, se elige la superposición entre dos ventanas TCX10 de manera que los pseudotransitorios debido al modelado TNX del error de codificación con aliasing en el tiempo se suprimen en gran medida. Además, se minimiza la dispersión del transitorio a más de cinco bloques anteriores y a más de cinco subsiguientes. Es decir, es el pre-eco y el posteco están limitados a 12,5 ms. La elección de la superposición se basa en la ubicación de transitorios.

[0077] La Fig. 4a ilustra una situación donde se detecta un transitorio en el cero o primer subbloque. A conti nuación, se eligen las “primeras ventanas” 401, 402, que tienen la longitud de superposición máxima o primera 403. Además, con fines ilustrativos, se ilustra una superposición total de TCX20 con la ventana anterior y con la siguiente ventana como referencia en 404. De este modo, la “superposición total” corresponde al 50 % de la ventana 401,402 o corresponde al 33 % de la ventana TCX20301a, 301b, por ejemplo. Así, la longitud de superposición 300 en la Fig. 3a y 403 en la Fig. 4a son idénticas.

[0078] La FIG. 4b ilustra una situación donde se detecta un transitorio en el segundo subbloque y el controlador controla luego la secuencia de ventanas de manera que se elige una superposición mínima 404 correspondiente a la “tercera longitud de superposición” ilustrada en 229 de la Fig. 2c. De este modo, se seleccionan las ventanas 406, 407 que son, en esta realización, ventanas asimétricas que tienen la longitud de superposición corta correspondiente a la “segunda ventana” en el lenguaje de la Fig. 1a y 1b. Además, cuando se detecta el transitorio en el tercer subbloque, se selecciona la segunda longitud de superposición 405. De este modo, las ventanas 408, 409 corresponden a la tercera ventana que tiene la tercera longitud de superposición 405, pero son ventanas asimétricas.

[0079] Además, como se ilustra en la Fig. 4d, se determina la longitud total de superposición cuando el transitorio está en la parte de transitorio 4 y, por lo tanto, las ventanas seleccionadas en esta situación son las ventanas 401, 402 ilustradas en la Fig. 4a. Cuando se elige la superposición de manera que en una de las transformadas superpuestas contenga un transitorio como se ilustra, el caso donde el transitorio está en el segundo o tercer subblo que es como se ilustra en la Fig. 4f o 4g, respectivamente. Los casos, cuando el transitorio está en el cero o primer subbloque, se tratan por separado, así como los casos, cuando el transitorio está en el cuarto o quinto subbloque. Por lo tanto, se hace referencia a la Fig. 4e que ilustra la situación, donde el transitorio está en el subbloque cero, se obtiene una secuencia de ventanas como se ilustra en la Fig. 4e, donde hay una superposición media 405 y que conmuta de nuevo a la superposición total 403. Esto se obtiene mediante la secuencia de ventanas formada por la ventana de inicio 408 y la ventana de parada 409 y otra ventana de longitud normal 402.

[0080] La Fig. 4f, por otra parte, ilustra la situación donde el transitorio está en el primer subbloque de manera que se selecciona una longitud corta o una tercera longitud de superposición 404, lo que es posible gracias a la ventana de inicio 406 y a la ventana de parada 407 que va seguida por una ventana de superposición total 402. De este modo, la ventana 408 o 409 en la Fig. 4e ilustra la segunda ventana que tiene la segunda longitud de superposición 405 y las ventanas 406 y 407 corresponden a la tercera ventana que tiene la tercera longitud de superposición 404”.

[0081] La Fig. 4g ilustra una situación donde el transitorio se detecta en el cuarto subbloque. Esta situación se refleja mediante una primera ventana 401 que tiene una longitud de superposición total 403 y una segunda ventana 409 que tiene una longitud de superposición media 405 y otra segunda ventana 414 que tiene la segunda longitud de superposición 405. Sin embargo, el lado derecho de la ventana 414 depende de la longitud de superposición determinada para la siguiente trama, es decir, en la siguiente zona de anticipación que comienza en el instante de tiempo indicado con el número de referencia 415.

[0082] Así, las Figs. 4a a 4g ilustran la situación donde se determina la longitud de superposición de manera que el transitorio se sitúa solamente dentro de una ventana que se asegura por el hecho de que, en la ubicación del transitorio, por ejemplo, en el subbloque 4, los coeficientes de ventana de la ventana 414 son iguales a 0 y los coefi cientes de ventana de la ventana 409 son iguales a 1.

[0083] Posteriormente, se hace referencia a una realización preferida, donde la longitud de transformada se obtiene del ancho de superposición. Las Figs. 5a, 5b, 5c ilustran tres longitudes de superposición 403, 405, 404 diferentes, donde la longitud de superposición total está determinada por dos primeras ventanas indicadas en 501 y 502. Además, la longitud de superposición media se obtiene mediante dos segundas ventanas que tienen la segunda longitud de superposición ilustrada en 503 y 504 y la tercera longitud de superposición 404 se obtiene mediante dos terceras ventanas 505 y 506 que tienen la tercera longitud de superposición 404. La superposición total se codifica, preferentemente, utilizando un bit “0”, la superposición media se codifica utilizando una combinación de bits “11” y la superposición mínima se codifica utilizando la combinación de bits “10”.

[0084] De este modo, esta codificación es útil cuando se determina el ancho de superposición y se puede utilizar una selección de longitud de transformada cuando se puede usar TCX-20 y una combinación de tramas TCX-5 y TCX-10.

[0085] A diferencia de los esquemas de codificación de la técnica anterior que obtienen las superposiciones entre-transformadas instantáneas a partir de la selección dada de longitudes de transformada para un par de tramas (es decir, el ancho de superposición viene a continuación de la salida de la determinación de longitud de transformada), una realización preferida de la presente invención se refiere a un sistema de codificación que puede controlar u obtener la longitud o longitudes de las transformadas que se utilizarán para una trama particular utilizando el ancho de super posición atribuido a esa trama y, opcionalmente, el ancho de superposición de la trama anterior (es decir, la longitud de transformada va después de la unidad de determinación del ancho de superposición, o bien, con respecto a la Fig. 1 a, mediante la cooperación del detector de ubicación de transitorios 106 y el controlador 108). La Fig. 6a ilustra una tabla de codificación y la Fig. 6b ilustra una tabla de decisiones correspondiente. En las Figs. 5a, 5b y 5c, la línea completa representa la mitad derecha de la ventana de la última transformada en la trama actual y la línea discontinua representa la mitad izquierda de la ventana de la primera transformadas en la trama siguiente.

[0086] La Fig. 6a ilustra una codificación de la superposición y la longitud de la transformada en base a la ubicación de transitorios. En particular, la decisión de transformada corta/larga se codifica utilizando 1 bit como se indica en la columna 600 y la superposición con la primera ventana de la trama siguiente se codifica utilizando el código de longitud variable con 1 o 2 bits como se ilustra en la columna 602. El código para la decisión de transformada corta/larga 600, por una parte, y el código binario para el ancho de superposición de la columna 602, se concatenan para obtener el denominado código de superposición en la columna 603. Además, la superposición con la primera ventana de la siguiente trama está determinada por el controlador 108 según el índice de posición del transitorio de la columna 604 según lo determinado con el detector de transitorios 106. A diferencia de las ilustraciones anteriores, el índice de posición de transitorios tiene un intervalo de anticipación incrementado que comienza en dos espacios an teriores indicados por -1 y - 2 y para esta situación, además, se señala la superposición total en esta realización.

[0087] Por lo tanto, la superposición total se indica para “no transitorios” o una ubicación de transitorios entre -2 y 1. Además, la columna 605 señala una superposición media para las posiciones de transitorios 2 y 3 y 7 y señala la superposición mínima para las posiciones de transitorios 4, 5, 6.

[0088] Por lo tanto, el índice “-2” en la Fig. 6a significa que había un transitorio en la trama anterior en la posición 6 y “-1” significa que había un transitorio en la trama anterior en la posición 7. Como se ha indicado, “ninguno” significa que no se detectó ningún transitorio en la zona de anticipación de transitorios.

[0089] Como se ha detallado, la decisión de transformada corta/larga y el ancho de superposición se codifican conjuntamente utilizando el código de superposición. El código de superposición consiste en 1 bit para una decisión de transformada corta/larga y en el código binario para el ancho de superposición codificado con 1 o 2 bits. El código es un código de longitud variable donde se detecta automáticamente donde comienza una palabra de código y termina la palabra de código anterior. Los códigos para la decisión de transformada corta/larga y para el ancho de superposi ción se definen en la Fig. 6a. Por ejemplo, cuando la decisión de transformada corta/larga da 1 y se selecciona la superposición mínima, es decir, un código binario es igual a 10, el código de superposición es 110.

[0090] Además, la Fig. 6a ilustra la situación donde se toma una decisión de transformada corta para todas las posiciones de transitorios entre -2 y 5 y se elige una transformada larga si no hay ningún transitorio o el transitorio está en la posición 6 o 7. Así, la Fig. 6a ilustra la situación donde el detector de ubicación de transitorios puede detectar un cierto transitorio en una determinada posición y, cuando son independientes entre sí o en paralelo, se puede determi nar la decisión de transformada corta/larga y la superposición con la primera ventana de la trama siguiente, es decir, se puede obtener el código de superposición total 603. Se hace hincapié en que los expertos en la técnica compren derán que pueden usarse otros códigos para codificar diferentes transformadas cortas/largas y diferentes superposi ciones. Además, se pueden determinar y señalar más de dos, es decir, tres o incluso más longitudes de transformadas y, a la vez, se pueden determinar y codificar también más de tres superposiciones tales como cuatro o cinco longitudes de superposición diferentes. Todo esto determinado es, por ejemplo, en respuesta a un detector de ubicación de transitorios que funciona sobre, al menos cuatro divisiones diferentes por trama, o bien, como en la realización, ope rando en ocho divisiones por trama o, para una decisión más fina, operando en aún más divisiones, como dieciséis divisiones de una trama.

[0091] Basándose en el código de superposición para la trama actual y para la trama anterior, se toma una decisión para una combinación de la longitud de transformadas a utilizar, como se ilustra en la Fig. 6b. Así, la Fig. 6b ilustra la decisión de una longitud de transformadas basada en el código de superposición anterior y el código de superposición actual. Por ejemplo, si el código de superposición anterior y el código de superposición actual son ambos “00”, se utiliza una ventana tal como 401. Si el código de superposición anterior era 10 y el código de superposición actual es 00, entonces se selecciona la misma ventana. Sin embargo, si el código anterior es 111, es decir, un código de superposición media y el código de superposición actual es 00, entonces se selecciona, por ejemplo, la ventana 409 de la Fig. 4c. Para un código de superposición anterior de 110 y el código de superposición actual 00, se selecciona de nuevo una transformada larga, pero con una ventana similar a la ventana 407, y la misma situación se observa para un código de superposición anterior de 010 y el código de superposición actual de 00, es decir, se selecciona la ventana 407 de la Fig. 4f. Finalmente, para un código de superposición anterior 011 y para el código de superposición actual 00, se selecciona una ventana tal como 409 en la Fig. 4e.

[0092] Se seleccionan otras ventanas para otras combinaciones y esto se ilustra específicamente con respecto a la Fig. 7. Así, la Fig. 7 ilustra algunas de las combinaciones de longitudes de transformadas junto con la ubicación de transitorios en la trama actual y con los códigos de superposición para la trama actual y para las tramas anteriores.

110/010 -111 en la Fig. 7 significa que el código de superposición anterior es 110 o 010 y el código de superposición actual es 111. La Fig. 7 ilustra, por tanto, diferentes combinaciones. Por ejemplo, la imagen superior izquierda de la Fig. 7 ilustra una superposición mínima al inicio de una secuencia de dos transformadas TCX-5 y una transformada TCX-10 siguiente que tiene la superposición total. Contrariamente a esto, la imagen debajo de esta imagen ilustra una superposición mínima seguida de cuatro ventanas TCX-5, donde la cuarta ventana de las ventanas TCX-5 tiene una superposición media y así sucesivamente. De este modo, los números de referencia 700, 701 ilustran una secuencia de dos TCX-5 o dos ventanas cortas seguidas de una ventana media. De forma similar, los números de referencia 702, 703, 704, 705, 706, 707 ilustran una situación con cuatro longitudes de transformadas cortas o transformadas “TCX-5” mientras que los números de referencia 708, 709, 710, 711 ilustran la situación donde hay, en el primer tiempo, es decir, al inicio de la secuencia, una ventana de longitud de transformada media tal como una ventana TXC 10 seguida de dos ventanas de longitud de transformada corta o TCX-5. Las secuencias 700 a 711 en la Fig. 7 pueden ser introducidas por otras secuencias de este tipo o por ventanas de longitud de transformada larga o TCX-20 que tienen superposiciones diferentes tales como superposiciones cortas en 700, 702 por ejemplo, una superposición media en 704 o superposiciones largas en 708 o 710, por ejemplo. Al mismo tiempo, la secuencia puede ir seguida por otras secuencias de este tipo o puede ir seguida por tCX-20, es decir, ventanas de transformadas largas, pero con una longitud de superposición diferente. De este modo, la secuencia 700 termina, por ejemplo, con una superpo sición larga y la secuencia 702, por ejemplo, termina con una superposición media o la secuencia 706, por ejemplo, termina con una longitud de superposición pequeña.

[0093] Como se ilustra en la Fig. 1a, la información de ventana, es decir, el código de superposición 603 de la Fig. 6a que se ilustra en 112 en la Fig. 1a se puede asociar a cada trama codificada mediante una interfaz de salida 114.

[0094] Además, la transformada aplicada en el convertidor 104 puede ser una MDCT o una MDST o una trans formada de introducción de aliasing diferente que se caracteriza por el hecho de que el número de valores espectrales en un bloque de valores espectrales es menor que el número de muestras formadas en ventanas en un bloque de muestras formadas en ventanas introducidas en la transformada o, con respecto al lado del decodificador, donde el número de muestras de salida en el dominio del tiempo es mayor que el número de valores espectrales introducidos en dicha transformada inversa o de reducción de aliasing.

[0095] Como se ilustra en todas las Figs. 2 a 7, se mantiene un ráster de trama constante. De este modo, el controlador 108 garantiza que, aunque se realice una conmutación a longitudes de transformadas más cortas, como se ilustra, por ejemplo, en la Fig. 7, siempre se mantiene el mismo ráster de trama constante. Esto se asegura utili zando solo estas ventanas específicas que siempre dan como resultado una longitud de transformada similar para cada clase de ventanas en el contexto del tamaño de superposición correcto. De este modo, se define que cada longitud de transformada TCX-5 tiene dicha zona de superposición y una zona constante entre las dos zonas de superposición que la transformada da como resultado N/4 valores espectrales, donde N es el número de valores espectrales dentro de una trama. La forma y el tamaño y, concretamente, las longitudes de superposición de las ventanas de transformadas TCX 20 se diseñan asimismo de tal manera que esta ventana da como resultado N mues tras espectrales posteriores a la transformada.

[0096] La Fig. 1c ilustra una implementación preferida en el lado del decodificador del convertidor controlable 158. En particular, el convertidor controlable 158 comprende un convertidor de tiempo-frecuencia 170, un dispositivo de formación en ventanas de síntesis conectado posteriormente 172 y un sumador de superposiciones final 174. Es pecíficamente, el convertidor de tiempo-frecuencia realiza la transformada tal como una transformada DCT-IV y una operación de despliegue posterior de modo que la salida del convertidor de tiempo-frecuencia 170 tiene, para una ventana primera o larga, 2N muestras mientras que la entrada en el convertidor de tiempo-frecuencia era, por ejemplo, de N valores espectrales. Por otro lado, cuando la entrada en el convertidor de tiempo-frecuencia es de N/8 valores espectrales, la salida es de N/4 valores en el dominio del tiempo para una operación MDCT, de manera ejemplar.

[0097] A continuación, la salida del convertidor de tiempo-frecuencia 170 se introduce en un dispositivo de formación en ventanas de síntesis que aplica la ventana de síntesis que es, preferentemente, exactamente la misma que la ventana en el lado del codificador. De este modo, cada muestra es, antes de que se realice una suma de superposición, formada en dos ventanas de modo que la “ventana total” resultante es un cuadrado de los coeficientes de ventana correspondientes de modo que se cumple la condición de Princen-Bradley como se ha analizado anteriormente.

[0098] Finalmente, el sumador de superposición 174 realiza la suma de superposición correcta correspondiente para obtener finalmente la señal de audio decodificada en la salida 175. En particular, el convertidor de tiempo-fre cuencia 170, el dispositivo de formación en ventanas de síntesis 172 y el sumador de superposición 174 son controlables y están controlados, por ejemplo, mediante el código de superposición 603 analizado en el contexto de la Fig. 6a, o bien mediante cualquier otra información relativa a la situación analizada en el contexto de la Fig. 6b. Sin em bargo, preferentemente, se determina la longitud de transformada correspondiente para el convertidor de tiempofrecuencia en base al código de superposición anterior y al código de superposición actual utilizando la tabla de deci sión de longitud de transformada. Además, el tamaño/forma de la ventana también se determina basándose en el código de superposición anterior y un código de superposición actual, y lo mismo es cierto para el sumador de super posición de modo que el sumador de superposición aplica la superposición máxima, la superposición media o la su perposición mínima señalada.

[0099] De este modo, se prefiere que el controlador 180 en el decodificador de la Fig. 1c reciba los códigos de superposición, es decir, el código de superposición anterior 606 y el código de superposición actual 607 y determine, a partir de esta información, la superposición y la ventana para el bloque de valores espectrales.

[0100] De este modo, se determina cada ventana y el tamaño de transformada correspondiente asociado con la ventana. En las realizaciones preferidas donde se utiliza una MDCT como transformada y se utiliza una MDCT inversa para la transformada inversa, el tamaño de ventana es dos veces la longitud de transformada, o bien la longitud de transformada es la mitad del tamaño de ventana.

[0101] La Fig. 1d ilustra una realización adicional de la presente invención implementada con un dispositivo móvil donde el dispositivo móvil comprende, por una parte, un codificador 195 y, por otra parte, un decodificador 196. Además, según una realización preferida de la presente invención, tanto el codificador 105 como el decodificador 106 recuperan la misma información de ventana desde una única memoria 197, puesto que las ventanas utilizadas en el codificador 195 y las ventanas utilizadas en el decodificador 196 son idénticas entre sí. De este modo, el decodificador tiene una memoria de solo lectura 197 o una memoria de acceso aleatorio o, en general, cualquier memoria 197 donde se almacena solo un único conjunto de secuencias de ventanas o ventanas para su uso tanto en el codificador como en el decodificador. Esto es ventajoso por el hecho de que los diferentes coeficientes de ventana para las diferentes ventanas no tienen que ser almacenados dos veces, con un conjunto para el codificador y un conjunto para el deco dificador. En su lugar, debido al hecho de que, según la presente invención, se utilizan ventanas y secuencias de ventanas idénticas en el codificador y el decodificador, solo se tiene que almacenar un único conjunto de coeficientes de ventana. Por lo tanto, la utilización de memoria del dispositivo móvil de la invención que se ilustra en la Fig. 1d se reduce sustancialmente con respecto a un concepto diferente donde el codificador y el decodificador tienen ventanas diferentes o donde se realiza cierto post-procesamiento con procesamiento distinto aparte de las operaciones basadas en ventanas.

[0102] Posteriormente, se hace referencia a una realización preferida adicional con respecto a la realización de conmutación de transformada/longitud transformada.

[0103] El esquema de codificación adaptable a la longitud de superposición y transformada descrito anterior mente se implementó en el modelo de excitación de transformada codificada(transform coded excitation,TCX) del codificador LD-USAC, una variante de bajo retardo de xHE-AAC [5] con una longitud de trama de 20 ms y probado a 48 kbit/s mono. En este punto de configuración, LD-USAC funciona solo en modo TCX con una longitud de 512 mues tras y una superposición de 256 muestras, es decir, un 33 % durante condiciones de entrada (pseudo) estacionarias. El codificador incluye una unidad de detección de transitorios, cuya salida es introducida a una unidad de determina ción de longitud de transformada y a la unidad de determinación del ancho de superposición de la invención. Se dispone de tres longitudes de transformadas para la codificación: una longitud TCX-20 con 512 coeficientes MDCT, una longitud TCX-10 con 256 coeficientes MDCT y una longitud especial TCX-5 con 128 coeficientes MDCT. En con secuencia, se puede utilizar y transmitir por trama uno de los tres anchos de superposición: superposición máxima de 256 muestras básicas (10 ms), superposición media de 128 muestras básicas (5 ms) y superposición mínima de 16 muestras (0,6 ms). Para cada trama se deben seleccionar las longitudes de transformadas de manera que la suma de las longitudes de todas las transformadas en esa trama sea igual a la longitud de la trama básica, es decir, 512 muestras.

[0104] En una realización preferida del sistema de codificación de la invención, el codificador funciona de la siguiente manera:

1. La unidad de detección de transitorios identifica la presencia y, si es aplicable, la ubicación del inicio del transitorio más fuerte en la nueva parte de señal de una trama dada (es decir, excluyendo la zona de superposición entre la trama actual y la anterior). La resolución del índice que describe la ubicación de transitorios es 1/8 de la longitud de trama, por lo que el intervalo del índice es 0, ..., 7.

2. Si no se ha detectado ningún transitorio, o si el índice de ubicación de transitorio es 6 o 7, la trama afectada se codifica utilizando la transformada TCX-20 por decisión de la unidad de determinación de longitud de transformada. De lo contrario, se utiliza una combinación de transformadas TCX-10 y/o TCX-5: 2x TCX-10 o 4x TCX-5, o bien, TCX-10 seguido de 2x TCX-5, o bien, 2x TCX-5 seguido de TCX-10.

3. La unidad de determinación del ancho de superposición controla en este punto las formas de superposición de las transformadas utilizadas dentro de la trama actual (excluyendo la superposición ya elegida con la última trama) según los objetivos enumerados anteriormente, de tal manera que se seleccionan las superposiciones más largas posibles que no violan dichos objetivos. En particular, si una trama es TCX-20 y el índice de ubicación de transitorio es 6 o 7, la unidad de superposición devuelve una superposición media o mínima, respectivamente. Si no hay ninguna señal estacionaria en una trama, se utiliza superposición máxima.

4. Además, si una combinación TCX-10/-5 ha sido devuelta por la unidad de determinación de longitud de transfor mada para la trama (no estacionaria), la unidad de determinación del ancho de superposición controla la composición exacta de las longitudes de transformada en esa trama. En particular, si se utiliza la superposición máxima tanto en la trama anterior como en la trama actual, se aplican 2x TCX-5 seguido de un TCX-10 en la trama actual, siendo la primera de las transformadas TCX-5 la transformada de transición de la invención con superposición doble. Si el ancho de superposición de la última trama o la trama actual es menor que el máximo, también se utiliza una de las configu raciones mixtas TCX-10/-5. Si tanto la trama última como la trama actual tienen menos que la superposición máxima, se utiliza 4x TCX-5.

5. El codificador ahora procede a formar en ventanas la señal y las MDCT reales para la trama. Debe tenerse especial cuidado con respecto al orden de las operaciones basadas en ventanas en presencia de la ventana de transición de doble superposición de la invención a fin de lograr una reconstrucción perfecta después de la decodificación. El resto del proceso de codificación es similar al de xH E-AAC. Opcionalmente se aplica TNS a las transformadas individuales y se puede realizar el agolpamiento de dos conjuntos de coeficientes MDCT TCX-5 en un conjunto de coeficientes (entrelazados) de tipo TCX-10 para guardar información lateral. Para cada trama, se transmite al decodificador un valor de ancho de superposición, así como un indicador de 1 bit que indica TCX-20 o codificación no TCX-20.

[0105] Al igual que el codificador, el decodificador apropiado según la realización preferida presenta una unidad de determinación de ancho de superposición que interpreta los valores de ancho de superposición transmitidos para controlar la longitud y la formación en ventanas de las MDCT inversas de modo que el codificador y el decodificador están totalmente sincronizados con respecto a las transformadas utilizadas. Como en el codificador, el orden de las operaciones basadas en ventanas y plegamiento después de cada MDCT es crítico para obtener una reconstrucción de la señal perfecta.

[0106] Posteriormente, se analiza e ilustra una realización adicional de la invención en el contexto de las Figs.

8 a 15f. Este aspecto, que también se denomina “aspecto de superposición múltiple”, se puede combinar con la forma de realización de conmutación de ancho de superposición y longitud de transformada analizada con respecto a las Figs. 1 a 7, o bien se puede implementar por separado de este aspecto.

[0107] Un lado del codificador de la invención se ilustra en la Fig. 8a y un lado del decodificador se ilustra en la Fig. 8b. En particular, el aparato para generar una señal codificada o el codificador ilustrado en la Fig. 8a comprende un controlador de secuencia de ventanas para generar una información de secuencia de ventanas 809 enviada, por ejemplo, a un preprocesador 802, un convertidor espectral 804, o una interfaz de salida 810 como se ilustra en la Fig. 8a. La información de secuencia de ventanas indica una primera función ventana para generar una primera trama de valores espectrales, una segunda función ventana y una o más terceras funciones ventana para generar una segunda trama de valores espectrales. La primera función ventana, la segunda función ventana y la una o más terceras funcio nes ventana se superponen dentro de una zona de superposición múltiple.

[0108] Esta zona de superposición múltiple se ilustra, por ejemplo, en 1300 en la Fig. 13 o la Fig. 14b o la Fig. 15e o la Fig. 15f. Por lo tanto, en esta zona de superposición múltiple 1300, al menos tres funciones ventana, es decir, la primera función ventana con respecto a la Fig. 15f ilustrada en 1500, la segunda función ventana 1502 y la tercera función ventana 1503, se superponen entre sí dentro de la zona de superposición múltiple 1300. También puede haber una superposición superior, como una superposición de cuatro, cinco o incluso más ventanas. De forma alternativa, la Fig. 15e ilustra la situación donde una tiene de nuevo la primera función ventana 1500, la segunda función ventana 1502 pero ahora cuatro terceras funciones ventana 1503 a diferencia de una única función ventana 1503 de la Fig. 15f.

[0109] Con el fin de manejar correctamente esta zona de superposición múltiple que da como resultado una reducción significativa del retardo necesario en la zona de anticipación de transitorios, se proporciona un preprocesa dor 102. El preprocesador está configurado para formar en ventanas un segundo bloque de muestras correspondiente a la segunda ventana y la una o más terceras funciones ventana utilizando una función ventana auxiliar para obtener un segundo bloque de muestras formadas en ventanas. Además, el preprocesador está configurado para preprocesar el segundo bloque de muestras de ventanas utilizando una operación de plegamiento de una parte del segundo bloque que se superpone con el primer bloque en la parte de superposición múltiple para obtener un segundo bloque prepro cesado de muestras formadas en ventanas que tienen una parte de superposición múltiple modificada. Además, un convertidor espectral 804 está configurado para aplicar una transformada de introducción de aliasing en el primer bloque de muestras utilizando la primera ventana para obtener la primera trama de valores espectrales. Además, el convertidor espectral está configurado para aplicar una transformada de introducción de aliasing a una primera parte del segundo bloque preprocesado de muestras formadas en ventanas utilizando la segunda ventana para obtener una primera parte de muestras espectrales de una segunda trama y aplicar la transformada de introducción de aliasing a una segunda parte del segundo bloque preprocesado de muestras formadas en ventanas utilizando la una o más terceras funciones ventana para obtener una segunda parte de muestras espectrales de la segunda trama. Además, se proporciona un procesador 806 indicado como “procesador de codificación” dentro del codificador de la Fig. 8a para procesar la primera trama y la segunda trama de valores espectrales y obtener las tramas codificadas de la señal de audio en la salida 807 del bloque 806. De este modo, el procesador de codificación puede ser idéntico o diferente del procesador de codificación 110 de la Fig. 1a y puede realizar cualquiera de las bien conocidas MPEG o AMR o cual quier otra característica de codificación en la técnica.

[0110] Posteriormente, se hace referencia a la Fig. 13. La Fig. 13 ilustra una vez más la segunda mitad de la primera función ventana 1500, la segunda función ventana 1502 y, en la segunda imagen de la Fig. 13, dos terceras funciones ventana 1503. Al contrario, la ilustración superior de la Fig. 13 ilustra de nuevo una primera función ventana 1500, una segunda función ventana 1502 y, a diferencia de, por ejemplo, la Fig. 15f y ligeramente similar a la Fig. 15e, cuatro terceras funciones ventana 1503. De forma alternativa, el número de terceras funciones ventana también puede ser tres, cinco, más o menos.

[0111] Además, la Fig. 13 ilustra adicionalmente una situación con una primera función ventana 1500', una segunda función ventana diferente 1502' y la misma tercera función ventana 1503. La diferencia entre 1500 y 1500' es que la longitud de superposición de las funciones 1500' y 1502 'es la mitad con respecto a las ventanas 1500, 1502. De este modo, la situación de las funciones ventana 1500 'y 1502' es que la longitud de superposición es una superposición media ilustrada en 218, por ejemplo, en la Fig. 2d, mientras que la longitud de superposición total corresponde a una trama completa como, por ejemplo, la que se ilustra en 203 en la Fig. 2a o la Fig. 13. Por lo tanto, las funciones ventana 1500 'y 1502' ilustradas en esta figura representan una combinación del aspecto de superposición múltiple y el aspecto de determinación de ancho de superposición.

[0112] Con el fin de explicar mejor el procedimiento del preprocesador 802 en el lado del codificador, se hace referencia a la ilustración de la Fig. 11a, por un lado, y a los diagramas de flujo en la Fig. 9a, 9b, por otro lado. Con respecto al decodificador, se hace referencia a las ilustraciones correspondientes en la Fig. 8b, Figs. 10a, 10b y la ilustración de la Fig. 11b. Además, el codificador se ilustra también en la Fig. 12a y el decodificador se ilustra en la Fig. 12b.

[0113] En particular, la Fig. 11a ilustra nuevamente la primera función ventana 1500 y al menos una parte de la segunda función ventana 1502 y cuatro terceras funciones ventana 1503 o una única tercera función ventana 1503. En particular, la Fig. 11a ilustra adicionalmente la función ventana auxiliar 1100. La función ventana auxiliar 1100 tiene una primera parte 1100a que coincide con la primera parte ascendente 1500a de la primera función ventana 1500. Además, la función ventana auxiliar 1100 tiene una segunda parte sin superposición 1100b que tiene, preferentemente, coeficientes de ventana igual a la unidad y una tercera parte 1100c que corresponde a una parte descendente o decreciente o una parte derecha de una o más terceras funciones ventana. De este modo, la función ventana auxiliar 1100 cubre la segunda mitad de trama anterior ilustrada en 1102, la primera mitad de la trama actual i indicada por 1103, la segunda mitad de la trama actual i indicada por 1104 y la primera parte pequeña 1105 cubierta por la parte de función ventana auxiliar 1100c. Como se desprende claramente de la Fig. 11a, la función ventana auxiliar se trata como una “secuencia de ventanas de inicio” o corresponde a dicha “secuencia de ventanas de inicio”, como si en la trama i 1 se tuviera que introducir una secuencia de ventanas cortas. No obstante, es importante destacar que una secuencia de ventanas cortas ya se ha introducido en la trama actual en lugar de en la trama siguiente i 1.

[0114] La funcionalidad del preprocesador se ilustra a continuación en la Fig. 11a. El preprocesador preprocesa el segundo bloque de muestras de ventanas obtenidas con la formación de ventanas utilizando la función ventana auxiliar que utiliza una operación de votación indicada como “alias de inicio de plegamiento, trama i”. De este modo, la parte más izquierda del segundo bloque de muestras formadas en ventanas indicadas por 1110 se pliega hacia dentro. Esta parte 1110 es la parte del segundo bloque de muestras formadas en ventanas que se superponen con la primera función ventana anterior 1500, es decir, la parte del segundo bloque de muestras formadas en ventanas que corresponde al período de tiempo 1102 y que se encuentra en la trama anterior i - 1. Debido al hecho de que esta operación de plegamiento de la parte 1110 influye ahora en la zona de superposición 1300, la operación de plegamiento realizada por el preprocesador da como resultado una parte modificada de superposición múltiple. En este punto, el convertidor espectral aplica la operación ilustrada en la línea de la Fig. 11a indicada como “aliases de plegamiento interno”. En particular, el convertidor espectral aplica una transformada de introducción de aliasing al primer bloque de muestras utilizando la primera función ventana que se ilustra para la trama i -1. La transformada de intro ducción de aliasing comprende la operación de plegamiento ilustrada en 1120 y la subsiguiente, por ejemplo, la trans formada DCT-IV indicada en 1122. Para ello, se requiere la primera función ventana 1500 a fin de obtener la forma antes de la operación de plegamiento 1120 para la trama i -1. Además, el convertidor espectral aplica la transformada de introducción de aliasing a la primera parte indicada por el punto 1131 en la Fig. 11 a. Esto se realiza utilizando la segunda función ventana 1502 y, en particular, la parte derecha de la segunda función ventana 1502. Esta operación da como resultado una primera parte de muestras espectrales de una segunda trama obtenida por la transformada 1132, donde la transformada 1132 representa, una vez más, una operación DCT-IV que constituye, junto con la co rrespondiente operación de plegamiento, pero ahora solo en la parte de superposición derecha del bloque 1131, la transformada de introducción de aliasing.

[0115] Además, el convertidor espectral está configurado para aplicar la transformada de introducción de alia sing a una segunda parte 1133 del segundo bloque preprocesado 1130 utilizando la una o más terceras funciones ventana 1503 para obtener una segunda parte 1135 de muestras espectrales de la segunda trama. Por lo tanto, con el fin de obtener la segunda parte 1135 de muestras espectrales, se pueden aplicar cuatro transformadas N/8 DCT-IV o una única transformada DCT-IV N/2. El número de transformadas y las longitudes dependen del número de terceras funciones ventana. Generalmente, la longitud, la transformada o el número de muestras espectrales en la segunda parte 1135 es igual al número de muestras espectrales en una trama menos la longitud de la transformada 1132 y el resultado se divide, a continuación, por el número de terceras funciones ventana utilizadas.

[0116] Por lo tanto, el preprocesador 802 es generalmente operativo para la formación en ventanas 902 (Fig. 9a) de la señal de audio utilizando la función ventana auxiliar 1100 para obtener el segundo bloque de muestras formadas en ventanas. A continuación, el procesador 904 aplica, preferentemente, la operación de plegamiento indi cada en 1110 en la Fig. 11a para obtener el segundo bloque preprocesado de muestras formadas en ventanas con la parte de superposición múltiple modificada 1300. A continuación, el convertidor 906 aplica las transformadas utilizando la primera, segunda y tercera funciones ventana para obtener la primera trama de valores espectrales 1122, la primera parte 1132 de la segunda trama y la segunda parte 1135 de la segunda trama o trama i en la notación de la Fig. 11a.

[0117] En la realización preferida, ilustrada con respecto a la Fig. 9b, se determina la función ventana auxiliar 910 haciendo referencia a la primera función ventana y, ejemplarmente seleccionando, como primera parte 1100a de la función ventana auxiliar 1100, la primera parte 1500a de la primera función ventana. Además, se determina la parte sin superposición 1100b (se toman los coeficientes de ventana de uno para la longitud correspondiente) y se determina entonces la tercera parte 1100c, de nuevo ejemplarmente, tomando la segunda parte de la función ventana corta.

[0118] A continuación, se forma en ventanas 912 la señal de audio con esta función ventana auxiliar en la relación correcta con la anterior o primera trama i - 1 ilustrada en la Fig. 11a. A continuación, como se ilustra en 914 en la Fig. 9b, la parte izquierda 1110 y, preferentemente, la parte derecha 1111 se pliegan. En la etapa 916, se realiza un plegamiento de las partes superpuestas ilustradas en las líneas sombreadas en el punto e) o f) en la zona interna. Además, como se ilustra en 918, si hay más terceras funciones ventana como en la Fig. 11a subimagen e), entonces también se realiza el plegamiento de partes superpuestas de las terceras funciones ventana. Sin embargo, si solo hay una única tercera función ventana como se ilustra en la Fig. 11a, subimagen f), entonces el control procede desde la etapa 916 a 920 directamente sin la etapa 918. En la etapa 920, las operaciones DCT se realizan utilizando los kernels DCT más cortos que el kernel DCT de la primera trama. El kernel DCT de la subimagen e) es, para la segunda función ventana, N/2, y para las terceras funciones ventana, N/8. Contrariamente a esto, cuando solo hay una sola tercera función ventana, entonces el kernel de la transformada es igual a N/2 para la segunda función ventana y es igual a N/2 para la única tercera función ventana.

[0119] Por lo tanto, queda claro que la zona de superposición múltiple 1300 se forma en ventanas dos veces. La primera formación en ventanas es realizada por la primera parte 1100a de la ventana auxiliar y la segunda formación en ventanas es realizada por la segunda mitad de la primera tercera función ventana 1503 como se ilustra en la subimagen e) o f) de la Fig. 11a.

[0120] Se hace referencia a la Fig. 13 de nuevo. Como se ha analizado en el contexto de la Fig. 1a o en el contexto de la Fig. 8a, el controlador de secuencia de ventanas genera las formas de ventana específicas. En una realización, el controlador de secuencia de ventanas está configurado para comprender el detector de ubicación de transitorios 106. Cuando se detecta un transitorio en las partes de detección de transitorios 0 o 1, entonces el codifi cador es controlado para entrar en el modo de parte de superposición múltiple de modo que estos transitorios indicados en 1305 se limitan a quedar solamente dentro de una única tercera ventana o dentro de dos terceras ventanas adya centes. Específicamente, el transitorio izquierdo 1305 está confinado para quedar en la primera función ventana corta solamente, donde el transitorio derecho de los transitorios 1305 se encuentra entre la primera a tercera funciones ventana. Sin embargo, cuando se determina que los transitorios están situados en una zona diferente de 0, tal como en la zona 1,2, 3, más o menos, entonces se puede realizar un procesamiento sin la zona de superposición múltiple, por ejemplo, de manera similar a lo analizado en el contexto de la Fig. 6a, Fig. 6b, Fig. 7, más o menos.

[0121] Sin embargo, contrariamente a esto, el procesamiento de la zona de superposición múltiple también se puede realizar en el contexto de la aplicación de conmutación de ventana, donde, cuando se detecta un transitorio, se puede conmutar un conjunto aún mayor de ventanas cortas para la trama actual, de manera que, preferentemente, dentro de un mismo bloque o ráster de trama, se utiliza una ventana larga o un número especificado de ventanas cortas para la formación en ventanas. La primera ventana corresponde a la ventana 1500, por ejemplo, en la Fig. 13, la segunda ventana corresponde a la ventana 1502 y se realiza una conmutación, sin tener que hacer referencia a una determinada ubicación de transitorios, a un número de terceras funciones ventana solamente cuando en cualquier parte de la trama actual se detecta un transitorio sin saber exactamente dónde se encuentra el transitorio dentro de la trama.

[0122] Sin embargo, se prefiere, con el fin de mantener el número de terceras funciones ventana tan pequeño como sea posible, que la conmutación en el modo de parte de superposición múltiple y la conmutación adicional de la superposición de transformadas y la selección de longitud de transformada se lleve a cabo según la ubicación espe cífica del transitorio dentro de la trama, es decir, en una entre, preferentemente, cuatro o incluso ocho partes diferentes de una trama, o de una parte de tiempo correspondiente a una trama, donde esta parte de tiempo es entonces igual a la mitad del tamaño de una ventana larga, tal como una ventana larga 1500 de la Fig. 13. Preferentemente, la parte de superposición múltiple, como puede verse en la Fig. 13, está situada antes de un inicio 208 (ilustrado en la Fig. 2 por un lado y la Fig. 13 por otro lado) de la zona de anticipación.

[0123] En el lado del decodificador, se realiza un procesamiento análogo. En una realización de un aparato para decodificar una señal de audio codificada 821, comprendiendo una primera trama codificada y una segunda trama codificada, un procesador de decodificación 824 de la Fig. 8b es necesario para procesar la primera trama codificada y la segunda trama codificada y obtener una primera trama de valores espectrales y una segunda trama de valores espectrales, comprendiendo la primera trama y la segunda tramas partes de aliasing. Un convertidor de tiempo 826 está conectado al procesador decodificado 824 y el convertidor de tiempo 826 está configurado para aplicar una transformada a esta primera trama utilizando una primera función ventana para obtener un primer bloque de muestras.

Además, el convertidor de tiempo 826 está configurado para aplicar la transformada a una primera parte de la segunda trama utilizando una segunda función ventana y para aplicar la transformada a una segunda parte de la segunda trama utilizando una o más terceras funciones ventana para obtener el segundo bloque de las muestras. Como se ha anali zado en el contexto de la Fig. 1a, la primera función ventana 1500, la segunda función ventana 1502 y la una o más terceras funciones ventana 1503 conjuntamente tienen una zona de superposición múltiple 1300.

[0124] Además, el decodificador comprende un post-procesador 828 para post-procesar el segundo bloque de muestras utilizando una operación de despliegue y obtener un segundo bloque de muestras post-procesadas que tiene una parte del segundo bloque de muestras que se superpone con el primer bloque de muestras en la zona de superposición múltiple. Además, el post-procesador 828 está configurado para formar en ventanas el segundo bloque de muestras post-procesadas utilizando la función ventana auxiliar analizada en el contexto de la Fig. 8a y la Fig. 11a. El post-procesador 828 realiza una suma de superposición del segundo bloque de muestras procesadas formado en ventanas y el primer bloque de muestras para obtener la señal de audio decodificada indicada en 829 de la Fig. 8b o en el bloque 175 de la Fig. 1c. Así, básicamente, el post-procesador 828 de la Fig. 8b puede tener la funcionalidad del dispositivo de formación en ventanas de síntesis 172 con respecto a la función ventana auxiliar y el sumador de su perposición 174.

[0125] Posteriormente, se analiza la funcionalidad del post-procesador en cooperación con el convertidor de tiempo con respecto a la ilustración de la Fig. 11b que ilustra un procesamiento inverso con respecto a la Fig. 11a una ilustración del codificador. La primera trama de valores espectrales 1142 se introduce en una transformada inversa 1161 de tamaño N y la primera parte 1152 de la segunda trama se introduce en una transformada inversa N/21162 y según el número de terceras funciones ventana, la segunda parte 1155 de la segunda trama o bien se introduce en cuatro transformadas cortas N/81163 o una única transformada N/21162 similar a la primera parte 1152 de la segunda trama.

[0126] Este procedimiento es realizado por el convertidor de tiempo. El convertidor de tiempo utiliza adicional mente la primera función ventana para realizar la formación en ventanas junto con una operación de despliegue reali zada antes que se ilustra en 1170 en la Fig. 11b. Además, la segunda función ventana se utiliza cuando se aplican los procedimientos a la primera parte 1152 ilustrada en 1172. Específicamente, se realiza el despliegue específicamente de la parte más derecha 1173 de la segunda función ventana y se realiza la segunda formación en ventanas posterior, mientras que, en el lado izquierdo de la trama, no se realiza ningún despliegue interno. Además, la transformada realiza un despliegue específico y subsiguiente formación en ventanas y la suma de superposición adicional no solo con la primera parte 1152 de la segunda trama, sino también con la segunda parte 1155 de la segunda trama como se ilustra en 1172 en la Fig. 11b. Si solo hay una única tercera función ventana ilustrada en la subimagen f) de la Fig. 11b, entonces solo se realiza una única operación de despliegue de ambos lados junto con la formación en ventanas, utilizando la parte derecha de la segunda función ventana y la parte izquierda de la tercera función ventana y la pos terior suma de superposición dentro del intervalo de superposición 1174.

[0127] Después, el post-procesador aplica el post-procesamiento utilizando la operación de despliegue ilustrada en 1175 con la primera parte del resultado del procedimiento en 1172 para obtener una parte 1176a que se extiende en la trama anterior y, preferentemente, 1176b que se extiende en la trama siguiente. A continuación, se realiza la formación en ventanas con la parte desplegada 1176a, 1176b y, por supuesto, con la parte dentro de la trama actual i utilizando la función ventana auxiliar para obtener el estado ilustrado en 1175. A continuación, se realiza una suma de superposición final del segundo bloque de muestras post-procesadas formadas en ventanas con la función ventana auxiliar y el primer bloque de muestras, en y dentro del intervalo de superposición 1180 para obtener la señal de audio decodificada final correspondiente a este intervalo de superposición 1180. Además, este procedimiento da lugar adicionalmente a una parte posterior de muestras de señal de audio decodificadas 1181 debido al hecho de que no hay superposición y la sección siguiente 1182 se obtiene mediante la superposición con la parte correspon diente de una función ventana para la trama i 1, que sigue a la trama i en el tiempo.

[0128] De este modo, como se ilustra en la Fig. 10a, el procedimiento del lado del decodificador comprende aplicar 1000 una transformada a la primera trama utilizando la primera función ventana y aplicar 1010 la transformada a la primera parte de la segunda trama utilizando la segunda función ventana y aplicar 1020 la transformada a la segunda parte de la segunda trama utilizando la tercera o terceras funciones ventana. A continuación, en la etapa 1030 se realiza una operación de despliegue y en la etapa 1040 se realiza una formación en ventanas utilizando la función ventana auxiliar y, finalmente, en la etapa 1050 se realiza una suma de superposición del segundo bloque post-procesado formado en ventanas y el primer bloque para obtener la señal de audio decodificada al final del pro cesamiento ilustrado, por ejemplo, en la Fig. 11b.

[0129] Como se ilustra en la Fig. 10b, las realizaciones preferidas comprenden realizar una operación de DCT inversa para cada parte de la segunda trama, es decir, realizar varias operaciones de DCT con longitudes más cortas con respecto a la trama anterior i -1, donde se utilizó una ventana larga 1500. En la etapa 1070 se realiza un desplie gue de las partes de aliasing internas como la operación ilustrada en 1172 y el despliegue es, preferentemente, una réplica en el límite correspondiente ilustrado como líneas verticales en la línea indicada por 1172 en la Fig. 11b. A continuación, en la etapa 1080, se lleva a cabo una formación en ventanas utilizando la segunda y tercera funciones ventana dentro del bloque 1184 y la posterior suma de superposición del resultado de la formación en ventanas dentro del bloque se realiza como se ilustra en 1090. Entonces, como se indica en 192, se realiza un despliegue de la derecha/izquierda o, dicho de otro modo, de las partes de aliasing anterior/posterior del resultado de la suma de superpo sición con el fin de obtener la parte 1176a que se extiende en la trama anterior y la parte 1176b que se extiende en la trama siguiente. Sin embargo, la representación en 1175 solo es posterior a la formación en ventanas que utiliza la función ventana auxiliar ilustrada en 1094. A continuación, en la etapa 1906, se realiza una superposición con el primer bloque de muestras posterior a la formación en ventanas que utiliza la función ventana auxiliar.

[0130] Posteriormente, se hace referencia a la Fig. 12a y la Fig. 12b. El punto a en la Fig. 12a corresponde al procedimiento de la primera línea de la Fig. 11a. El procedimiento en la subimagen b) corresponde al procedimiento realizado en la segunda y tercera líneas de la Fig. 11a y los procedimientos ilustrados en el punto c) de la Fig. 12a corresponden a los procedimientos de las dos últimas líneas de la Fig. 11a. De forma análoga, la representación del lado del decodificador corresponde a la Fig. 12b. En particular, las dos primeras líneas de la Fig. 11b corresponden a la subimagen f) de la Fig. 12b. La tercera y cuarta líneas corresponden al punto e) de la Fig. 12b y la última línea de la Fig. 12b corresponde a la última línea de la Fig. 11b.

[0131] La Fig. 14a ilustra una situación donde el controlador de secuencia de ventanas en el lado del codificador o los elementos 824, 826, 828 del lado del decodificador están configurados para conmutar entre una situación de no superposición múltiple como en la Fig. 14a y una situación de superposición múltiple ilustrada en la Fig. 14b. Por lo tanto, cuando se detecta un transitorio en la parte de transitorios 0, un procedimiento es no aplicar la parte de super posición múltiple, sino conmutar a ventanas cortas de superposición única TCX-10 a partir de ventanas TCX-20. Pre ferentemente, sin embargo, se realiza una conmutación a una parte de superposición múltiple aplicando una secuencia de ventanas comprendiendo la primera ventana 1400, la segunda ventana 1402 y una o, en la realización de la Fig. 14b, dos terceras ventanas 1403.

[0132] Las superposiciones y tamaños de la ventana de la Fig. 14b son algo diferentes de la ilustración de la Fig. 13, pero queda claro que los procedimientos generales con respecto al lado del codificador en la Fig. 11a o el lado del decodificador en la Fig. 11b tienen lugar de la misma manera.

[0133] Posteriormente, se analiza la Fig. 15. Específicamente, la Fig. 15 ilustra, como las cajas negras, una anticipación de detección de transitorios 1590 y la duración del pre-eco resultante 1595. La Fig. 15a ilustra una se cuencia tradicional tipo AAC de alta eficiencia comprendiendo una ventana de inicio largo, ocho ventanas cortas, una ventana de parada larga y así sucesivamente. La anticipación necesaria es alta y asciende a N N/2 N/16, pero el pre-eco 1595 es pequeño. De forma análoga, la Fig. 15b ilustra un procedimiento tradicional de detección de transitorios AAC de tipo de bajo retardo que da como resultado una secuencia de ventanas comprendiendo una secuencia larga, una ventana de inicio largo, una ventana con superposición baja y una ventana de parada larga. La anticipación de detección de transitorios es la misma que en la Fig. 15a, pero la duración del pre-eco es más larga que en la Fig. 15a. Por otra parte, sin embargo, la eficacia es mayor debido al hecho de que cuando se utilizan ventanas más cortas, la eficacia de la velocidad binaria es menor.

[0134] La Fig. 15c y 15d ilustran una implementación del AAC de alta eficiencia o un procedimiento de AAC de bajo retardo con una anticipación reducida de detección de transitorios de N/16 muestras y solo se muestran secuen cias largas posibles con una anticipación reducida de detección de transitorios de N/16 muestras. Si la secuencia consiste en una ventana larga, una ventana larga, una ventana de inicio largo, una ventana de parada larga, y así sucesivamente, como se ilustra en la Fig. 15d, solo el posteco se reduce en comparación con la Fig. 15c, pero el pre eco 1595 es el mismo. Si la secuencia consiste en una ventana larga, una ventana larga, una ventana de inicio largo, una ventana de parada larga, y así sucesivamente, como se ilustra en la Fig. 15d, solo el posteco se reduce en comparación con la Fig. 15c, pero el pre-eco 1595 es el mismo. Por lo tanto, la Fig. 15c, d, ilustran una anticipación corta similar a las Figs. 15e y 15f de la invención. Si ahora se implementa la parte de superposición múltiple como en las Figs. 15c y 15e, entonces solo se pueden utilizar secuencias como en esas figuras, pero cualquier conmutación a una ventana corta no es posible. De este modo, la parte de superposición múltiple permite conmutar a ventanas cortas para reducir los pre-ecos/postecos, o utilizar un retardo de anticipación corto, o ambas características para reducir el retardo y reducir los pre y post-ecos.

[0135] La Fig. 15e ilustra una secuencia de AAC de Alta eficiencia con una detección reducida de transitorios frente a las N/16 muestras y la zona de superposición múltiple preferida 1300. La secuencia comprende una ventana larga, otra ventana larga 1500, otra secuencia de inicio 1502, cuatro secuencias cortas 1503 y una ventana de parada larga 1504. Como queda claro, la anticipación es pequeña, así como lo es el pre-eco. Se obtiene una situación similar para la Fig. 15f que ilustra una configuración similar a la de la Fig. 15e, pero con solo una única tercera función ventana en lugar de cuatro secuencias cortas.

[0136] Aunque la presente invención se ha descrito en el contexto de diagramas de bloques donde los bloques representan componentes de hardware reales o lógicos, la presente invención también puede implementarse mediante un procedimiento implementado por ordenador. En este último caso, los bloques representan las etapas del procedimiento correspondientes donde estas etapas representan las funcionalidades realizadas por bloques de hard ware lógico o físico correspondientes.

[0137] Aunque se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo se corres ponde con una etapa del procedimiento o una característica de una etapa del procedimiento. De forma análoga, los aspectos que se describen en el contexto de una etapa del procedimiento también representan una descripción de un bloque correspondiente o un punto o característica del aparato correspondiente. Algunas o todas las etapas del pro cedimiento se pueden ejecutar con (o utilizando) un aparato de hardware, como, por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, una o más de las etapas más importantes del procedimiento se pueden ejecutar con dicho aparato.

[0138] La señal codificada o transmitida de la invención se puede almacenar en un medio de almacenamiento digital o se puede transmitir con un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión por cable como Internet.

[0139] Según ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o en software. La implementación puede realizarse utilizando un medio de almacenamiento digital, por ejemplo, un disquete, un DVD, un Blu-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tiene señales de control legibles electrónicamente y almacenadas en el mismo, que coopera (o es capaz de cooperar) con un sistema informático programable de tal manera que se lleve a cabo el procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible mediante ordenador.

[0140] Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control legibles electrónicamente y que son capaces de cooperar con un sistema informático programable, de tal manera que se lleve a cabo uno de los procedimientos descritos en esta invención.

[0141] En general las realizaciones de la presente invención se pueden implementar como un producto de programa informático con un código de programa, siendo el código de programa operativo para llevar a cabo uno de los procedimientos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa se puede almacenar, por ejemplo, en un soporte legible por máquina.

[0142] Otras realizaciones comprenden el programa de ordenador para llevar a cabo uno de los procedimientos descritos en esta invención, almacenado en un soporte legible por máquina.

[0143] En otras palabras, una realización del procedimiento de la invención es, por lo tanto, un programa infor mático que tiene un código de programa para realizar uno de los procedimientos descritos en esta invención cuando el programa informático se ejecuta en un ordenador.

[0144] Una realización adicional del procedimiento inventivo es, por lo tanto, un soporte de datos (o un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital o un medio legible por ordenador) comprendiendo, grabado en el mismo, el programa de ordenador para realizar uno de los procedimientos descritos en esta invención. El soporte de datos, el medio de almacenamiento digital o el medio grabado son típicamente tangibles y/o no transitorios.

[0145] Por lo tanto, otra realización del procedimiento de la invención consiste en un flujo de datos o una se cuencia de señales que representa el programa de ordenador para ejecutar uno de los procedimientos descritos en esta invención. El flujo de datos o la secuencia de señales puede, por ejemplo, configurarse para su transferencia a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.

[0146] Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dis positivo lógico programable, configurado o adaptado para realizar uno de los procedimientos descritos en esta inven ción.

[0147] Otra realización comprende un ordenador que tiene instalado un programa de ordenador para realizar uno de los procedimientos descritos en esta invención.

[0148] Otra realización, según la invención, comprende un aparato o sistema configurado para transferir (por ejemplo, electrónica u ópticamente) un programa de ordenador para ejecutar uno de los procedimientos descritos en esta invención a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede, por ejemplo, comprender un servidor de archivos para transferir el programa de ordenador al receptor.

[0149] En algunas realizaciones, se puede utilizar un dispositivo lógico programable (por ejemplo, una matriz de puertas programables) para realizar algunas o todas las funciones de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de puertas programabas puede cooperar con un microprocesador para ejecutar uno de los procedimientos descritos en esta invención. Generalmente, los procedimientos se ejecutan preferiblemente mediante cualquier dispositivo de hardware.

[0150] Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en esta in vención serán evidentes para los expertos en la materia. Por lo tanto, la intención es limitarse únicamente al alcance de las reivindicaciones de patentes pendientes y no a los detalles específicos presentados a modo de descripción y explicación de las realizaciones descritas en esta invención.

Referencias

[0151]

[1] International Organization for Standardization, ISO/IEC 14496-32009, “ Information Technology - Coding of audio visual objects - Part 3 Audio,” Geneva, Switzerland, Aug. 20096.

[2] Internet Engineering Task Force (IETF), RFC 6716, “Definition of the Opus Audio Codec,” Proposed Standard, Sep.

2012. Disponible en línea en http://tools.ietf.org/html/rfc6716.

[3] C. R. Heimrich, “On the Use of Sums of Sines in the Signal Windows,” in Proc. of the 13th Int. Conference on Digital Audio Effects (DAFx-10), Graz, Austria, Sep. 2010.

[4] J. Herre y J. D. Johnston, “Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS),” in Proc. 101 st AES Convention, LA, USA, Nov. 1996

[5] M. Neuendorf y col., “MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types,” in Proc 132nd Convention of the AES, Budapest, Hungary, Apr. 2012. También apare cerá en el Journal de la AeS, 2013.

Claims

REIVINDICACIONES

1. Aparato para codificar una señal de audio comprendiendo:

un dispositivo de formación en ventanas controlable (102) para formar en ventanas la señal de audio para proporcionar una secuencia de bloques de muestras formadas en ventanas;

un convertidor (104) para convertir la secuencia de bloques de muestras formadas en ventanas en una representación espectral comprendiendo una secuencia de tramas de valores espectrales;

un detector de ubicación de transitorios (106) para identificar una ubicación de un transitorio dentro de una zona de anticipación de transitorios de una trama; y

un controlador (108) para controlar el dispositivo de formación en ventanas controlable (102) para aplicar una ventana específica que tiene una longitud de superposición especificada a la señal de audio en respuesta a una ubicación identificada (210-213) del transitorio,

donde el controlador (108) está configurado para seleccionar la ventana específica a partir de un grupo de al menos tres ventanas comprendiendo una primera ventana (201) que tiene una primera longitud de superposición (203), una segunda ventana (215) que tiene una segunda longitud de superposición (218), y una tercera ventana (224) que tiene una tercera longitud de superposición (229) o que no tiene ninguna superposición,

donde la primera longitud de superposición (203) es mayor que la segunda longitud de superposición (218), y donde la segunda longitud de superposición (218) es mayor que la tercera longitud de superposición (229) o mayor que una superposición de cero, y

donde la ventana específica se selecciona en base a la ubicación del transitorio de manera que una de dos ventanas superpuestas adyacentes en el tiempo tenga los coeficientes de la primera ventana en la ubicación del transitorio y la otra de las dos ventanas superpuestas adyacentes en el tiempo tenga los coeficientes de la segunda ventana en la ubicación del transitorio, donde una ventana anterior de las dos ventanas superpuestas adyacentes en el tiempo tiene los coeficientes de la primera ventana en valores cercanos a cero o iguales a cero en la ubicación del transitorio, y una ventana posterior de las dos ventanas superpuestas adyacentes en el tiempo tiene los coeficientes de la segunda ventana cercanos o iguales a uno en la ubicación del transitorio.

2. Aparato según la reivindicación 1, donde la primera longitud de superposición (203) es igual a un cuarto o una tercera parte o una mitad de una longitud de la ventana específica, donde la segunda longitud de superposición (218) es igual a una mitad o una tercera parte de la primera longitud de superposición (203), y donde la tercera longitud de superposición (229) es una mitad o un cuarto o una octava parte de la segunda longitud de superposición (218) o inferior a o igual a 1,25 milisegundos.

3. Aparato según una de las reivindicaciones anteriores, comprendiendo además una interfaz de salida (114) para asociar una información de ventana (112) proporcionada por el controlador (108) con una representación codificada de la representación espectral comprendiendo una secuencia de bloques codificados de valores espectra les.

4. Aparato según una de las reivindicaciones anteriores,

donde el detector de ubicación de transitorios (106) está configurado para aplicar la zona de anticipación de transitorios que se extiende por toda una trama y para distinguir al menos cuatro cuartos, y donde el controlador (108) está configurado para seleccionar la primera ventana, cuando no se detecta ningún transitorio, para seleccionar la segunda ventana, cuando se detecta un transitorio en el primer o cuarto cuarto y para seleccionar la tercera ventana, cuando se detecta un transitorio en el segundo o el tercer cuarto.

5. Aparato según una de las reivindicaciones anteriores,

donde el controlador (108) está configurado para seleccionar un número de ventanas específicas para una trama de manera que un número de valores espectrales obtenidos por una pluralidad de ventanas para una trama sea igual al número de valores espectrales obtenidos convirtiendo una función ventana que tenga el primer tamaño de ventana, y donde las ventanas primera a tercera (201,215, 224) tienen un primer tamaño de ventana idéntico, y donde una trama está definida por el tamaño de ventana idéntico, y donde el grupo comprende una cuarta ventana y una quinta ventana, teniendo la cuarta ventana y la quinta ventana un segundo tamaño de ventana idéntico, siendo el segundo tamaño de ventana una fracción entera del primer tamaño de ventana, y donde la cuarta ventana tiene una cuarta longitud de superposición y la quinta ventana tiene una quinta longitud de superposición inferior a la cuarta longitud de superpo sición.

6. Procedimiento para codificar una señal de audio, comprendiendo:

formar en ventanas (102) la señal de audio para proporcionar una secuencia de bloques de muestras formadas en ventanas;

convertir (104) la secuencia de bloques de muestras formadas en ventanas en una representación espectral compren diendo una secuencia de tramas de valores espectrales;

identificar (106) una ubicación de un transitorio dentro de una zona de anticipación de transitorios de una trama; y controlar (108) la formación en ventanas (102) para aplicar una ventana específica que tenga una longitud de super posición especificada a la señal de audio en respuesta a una ubicación identificada (210-213) del transitorio, donde la ventana específica se selecciona a partir de un grupo de al menos tres ventanas comprendiendo una primera ventana (201) que tiene una primera longitud de superposición (203), una segunda ventana (215) que tiene una segunda longitud de superposición (218), y una tercera ventana (224) que tiene una tercera longitud de superposición (229) o que no tiene ninguna superposición,

donde la primera longitud de superposición (203) es mayor que la segunda longitud de superposición (218), y donde la segunda longitud de superposición (218) es mayor que la tercera longitud de superposición (229) o mayor que una superposición de cero, y donde la ventana específica se selecciona en base a la ubicación del transitorio de tal manera que una de dos ventanas superpuestas adyacentes en el tiempo tenga los coeficientes de la primera ventana en la ubicación del transitorio y la otra de las dos ventanas superpuestas adyacentes en el tiempo tenga los coeficientes de la segunda ventana en la ubicación del transitorio, donde una ventana anterior de las dos ventanas superpuestas adyacentes en el tiempo tiene los coeficientes de la primera ventana en valores cercanos a cero o iguales a cero en la ubicación del transitorio, y una ventana posterior de las dos ventanas superpuestas adyacentes en el tiempo tiene los coeficientes de la segunda ventana cercanos o iguales a uno en la ubicación del transitorio.

7. Programa informático comprendiendo instrucciones que, cuando se ejecuta en un ordenador o un pro cesador, hacen que el ordenador o el procesador lleven a cabo el procedimiento de codificación según la reivindicación 6.