ES2649728T3

ES2649728T3 - Conversión de formato de archivo de audio

Info

Publication number: ES2649728T3
Application number: ES04763200.5T
Authority: ES
Inventors: Stefan Geyersberger; Harald Gernhardt; Bernhard Grill; Michael Haertl; Johann Hilpert; Manfred Lutzky; Martin Weishart; Harald Popp
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2003-07-21
Filing date: 2004-07-13
Publication date: 2018-01-15
Anticipated expiration: 2024-07-13
Also published as: CN1826635B; IL173223A0; DE10339498B4; PT1647010T; CN1826635A; DE10339498A1; IL173223A

Abstract

Procedimiento para convertir una primera corriente de datos de audio, que representa una señal de audio codificada que comprende períodos de tiempo y que tiene un primer formato de archivo, en una segunda corriente de datos de audio que representa la señal de audio codificada y que tiene un segundo formato de archivo, comprendiendo un período de tiempo un número de valores de audio, y estando dividida de acuerdo con el primer formato de archivo la primera corriente de datos de audio en subsecuentes bloques de datos, presentando un bloque de datos un encabezado y datos de audio del bloque de datos, presentando todos los encabezados una parte redundante idéntica para todos los encabezados, con la siguiente etapa: cambiar los bloques de datos para que los mismos incluyan una indicación de longitud que indique la cantidad de datos de los bloques de datos o una cantidad de datos de los datos de audio de bloque de datos para obtener de los bloques de datos elementos de canal que forman la segunda corriente de datos de audio, presentando la etapa de cambiar el reemplazo de la parte redundante, idéntica para todos los encabezados por la indicación de longitud, presentando el procedimiento además una anteposición (60, 62) de un encabezado global a la segunda corriente de datos de audio, y presentando el encabezado global la parte redundante, idéntica para todos los encabezados, o siendo la parte redundante, idéntica para todos los encabezados una palabra de sincronización

Description

5

10

15

20

25

30

35

40

45

50

55

60

Conversión de formato de archivo de audio DESCRIPCIÓN

La presente invención se refiere a corrientes de datos de audio que codifican señales de audio y, más específicamente, a una mejor manipulación de corrientes de datos de audio en un formato de archivo en donde los datos de audio asociados con una marca de tiempo pueden distribuirse entre diferentes bloques de datos, tal como en el caso del formato MP3.

La compresión de audio MPEG es una forma particularmente efectiva para almacenar señales de audio, tal como p.ej. música o el sonido de una película, en forma digital mientras requiere, por una parte, tan poco espacio de memoria como sea posible y, por otra parte, mantener la calidad del audio tan buena como sea posible. Durante los últimos años, la compresión de audio MPEG ha probado ser una de las más exitosas soluciones en este campo.

Mientras tanto, existen diferentes versiones de procedimientos de compresión de audio MPEG. Generalmente, la señal de audio se muestrea con una cierta velocidad de muestreo, la secuencia resultante de valores de muestreo de audio se encuentra asociada con períodos de tiempo superpuestos o marcas de tiempo, respectivamente. Estas marcas de tiempo se suministran entonces individualmente, por ejemplo, a un banco híbrido de filtro compuesto de polifase y una transformación modificada discreta de coseno (MDCT), suprimiendo los efectos de alias. La compresión de datos real tiene lugar durante la cuantificación de los coeficientes MDCT. Los coeficientes MDCT cuantificados de esa manera se convierten entonces en un código Huffman de palabras en código Huffman, generando una compresión adicional asociando palabras de código más cortas con coeficientes que se presentan más frecuentemente. De este modo, en general, las compresiones MPEG son de pérdida, siendo sin embargo, las pérdidas “audibles” limitadas, debido a que el conocimiento psicoacústico se ha incorporado en la manera de cuantificar los coeficientes DCT.

Un estándar de MPEG ampliamente utilizado es el así llamado estándar MP3, como se describe en ISO/IEC 111723 y 13818-3. Este estándar permite una adaptación de la pérdida de información generada por la compresión a la velocidad de transferencia de bits mediante la cual la información de audio va a transmitirse en tiempo real. La transmisión de la señal de datos comprimida en un canal, con una velocidad de transferencia de bits constante también debe llevarse a cabo en otros estándares de MPEG. A fin de asegurar que la calidad de audición en el decodificador de recepción permanece suficiente, incluso a bajas velocidades de transferencia de bit, el estándar MP3 proporciona un codificador MP3 que tiene un así llamado depósito de bits. Esto significa lo siguiente. Normalmente, debido a la velocidad de transferencia de bits fijada, el codificador de MP3 debe codificar cada marca de tiempo en un bloque de palabras de código que tienen el mismo tamaño, este bloque podría transmitirse entonces con la velocidad de transferencia de bits dada en el período de tiempo de la tasa de repetición del período de tiempo. Sin embargo, esto no se adapta al caso en que algunas partes de una señal de audio, tales como los sonidos que siguen a un sonido muy alto en una pieza musical, requieren una cuantificación menos exacta con una calidad constante comparadas con otras partes de la señal de audio, tales como p.ej. las partes con una pluralidad de instrumentos diferentes. De este modo, un codificador de MP3 no genera un simple formato de corriente de bit en donde cada marca de tiempo se codifica en una trama con la misma longitud de trama para todas las tramas. Tal trama autónoma consiste en un encabezado de trama, información secundaria y datos principales asociados con la marca de tiempo asociada con la trama, es decir los coeficientes MDCT codificados, en donde la información secundaria es información para el decodificador de cómo van a decodificarse los coeficientes DCT, tal como cuántos coeficientes DCT subsecuentes son 0, para indicar cuáles coeficientes DCT se incluyen por orden en los datos principales. Más bien, se incluye un retroindicador o backpointer en la información secundaria o en el encabezado, en el formato MP3, apuntando a una posición dentro de los datos principales en una de las tramas previas. Esta posición es el inicio de los datos principales que corresponden a la marca de tiempo a la cual se asocia la trama en donde se incluye el retroindicador correspondiente. El retroindicador indica, por ejemplo, el número de bytes en que está desplazado el comienzo de los datos principales en la corriente de bits. El final de estos datos principales puede ser cualquier trama, dependiendo de qué tan alta sea la velocidad de compresión para esta marca de tiempo. La longitud de los datos principales de las marcas de tiempo individuales, por tanto, ya no es constante. De este modo, el número de bits mediante el cual se codifica un bloque puede adaptarse a las propiedades de la señal. Al mismo tiempo, puede lograrse una velocidad de transferencia de bits constante. Esta técnica se denomina “depósito de bits”. Generalmente, el depósito de bits es una memoria tampón (buffer) de bits, que puede utilizarse para proporcionar más bits para codificar un bloque de valores de muestreo de tiempo que los permitidos realmente por la velocidad constante de datos de salida. La técnica del depósito de bits considera el hecho de que algunos bloques de valores de muestreo de audio pueden codificarse con menos bits que los especificados por la velocidad constante de transmisión, de manera que estos bloques llenan el depósito de bits, mientras que otros bloques de valores de muestreo de audio tienen propiedades psicoacústicas que no permiten tal alta compresión, de manera que los bits disponibles no serían de hecho suficientes para la decodificación a baja interferencia o libre de interferencia, respectivamente, de estos bloques. Los bits excesivos requeridos se toman del depósito de bits, de manera que el depósito de bits se vacía durante tales bloques. La técnica del depósito de bits también se describe

5

10

15

20

25

30

35

40

45

50

55

60

en la capa 3 estándar de MPEG antes indicada.

Aunque el formato MP3 tenga también ventajas en el lado de codificador al proporcionar los retroindicadores, existen desventajas innegables en el lado de decodificador. Por ejemplo, si un decodificador recibe una corriente de bits MP3 no desde el inicio sino comenzando desde una cierta trama en la mitad, la señal de audio codificada en la marca de tiempo asociada con esta trama puede solo reproducirse instantáneamente cuando el retroindicador es incidentalmente 0, lo cual indicaría que el comienzo de los datos principales para esta trama se encuentra incidentalmente inmediatamente después del encabezado o la información secundaria, respectivamente. Sin embargo, este no es normalmente el caso. De este modo, la reproducción de la señal de audio en esta marca de tiempo no es posible cuando el retroindicador de la trama que se recibió primero apunta a una trama previa, que, sin embargo, (aún) no se ha recibido. En este caso, (al principio) solo la siguiente trama puede reproducirse.

Se presentan problemas adicionales en el lado del receptor cuando se trata de las tramas en general, que se interconectan mediante los retroindicadores y de este modo no son autónomas. Un problema adicional de las corrientes de bits con direcciones de retorno para un depósito de bits es que, cuando diferentes canales de una señal de audio se codifican individualmente en MP3, los datos principales que corresponden a cada uno en las dos corrientes de bits dado que se encuentran asociados con la misma marca de tiempo, pueden desplazarse eventualmente los unos respecto a los otros, y con desplazamientos variables a través de la secuencia de tramas, de manera que de nuevo en este caso se dificulta una combinación de estas corrientes de MP3 individuales para formar una corriente de datos de audio de canal múltiple.

Adicionalmente, existe la necesidad de una posibilidad simple para poder generar corrientes de datos de audio de canal múltiple adecuados a MP3 fácilmente manejables. Las corrientes de datos de audio de MP3 de canal múltiple de acuerdo con el estándar ISO/IEC 13818-3 requieren operaciones de matriz para recuperar los canales de entrada de los canales transmitidos en el lado del decodificador y el uso de diversos retroindicadores, y por tanto son complicados de manipular.

Las corrientes de datos de audio de capa 2 de MPEG A corresponden a las corrientes de datos de audio de MP3 en su composición de subsecuentes tramas y en la estructura y disposición de las tramas, es decir la estructura del encabezado, la información secundaria y la parte de los datos principales, y en la disposición con una distancia de la trama casi estática dependiendo de la velocidad de muestreo y de la velocidad de transferencia de bits variable de trama a trama, sin embargo, difieren de la misma por la falta de retroindicadores o del depósito de bits durante la codificación. Los períodos de tiempo costosos y no costosos de codificación de la señal de audio se codifican con la misma longitud de trama. Los datos principales que corresponden a una marca de tiempo se encuentran en la trama respectiva conjuntamente con el encabezado respectivo.

El documento US-2003/009246 A1 describe un dispositivo de reproducción de control de movimiento y/o de edición con el que es posible procesar corrientes de datos de MP3 de manera más sencilla. Para ello se propone, después de la lectura de un fichero MP3 en un proveedor de MP3, convertir inicialmente el fichero en un conversor de manera que se origina una corriente MP3 intermedia, en la cual, los datos de trama para formar una trama siguen directamente a un bloque de determinación respectivo, de modo que los retroindicadores o backpointer se ajustan a 0. En la conversión inicialmente para una trama determinada de la corriente de datos MP3 original se selecciona el bloque de determinación correspondiente, y en el mismo se ajusta la velocidad de transferencia de bits a un valor máximo posible o un valor mínimo posible, considerando la longitud de trama que se ha originado en la corriente MP3 intermedia. Además el bit de relleno (padding) se fija o no se fija según sea necesario en la corriente MP3 intermedia que se origina con tramas autónomas. Otros campos en el encabezado de trama no se modifican. Naturalmente también el valor de retroindicador se ajusta a cero. A continuación, de la corriente de datos original MP3 se seleccionan los datos de trama para formar la trama actual respectiva y se adjuntan al bloque de determinación que se ha originado como nuevo, a continuación de los datos útiles de trama se ajuntan también informaciones de relleno para ajustar la longitud de la trama originada autónoma a la que se predefinió mediante la velocidad de transferencia de bits modificada. La corriente de datos MP3 intermedia originada se alimenta a una unidad de reproducción de control de movimiento, y/o de edición, en la que pueden ejecutarse manipulaciones sencillas, dado que ahora las tramas son autónomas. La corriente de datos MP3 intermedia modificada de esta manera se transmite a un decodificador MP3 habitual.

En Finlayson R. “A more loss tolerant RTP payload format for MP3 audio”, junio de 2001, ULR: http.//
www.faqs.org/rfc3119.htm1 se describe una conversión de una corriente de datos MP3 en un formato de datos útiles de protocolo en tiempo real, abreviado formato RTP, que es más adecuado en el caso de la aparición de pérdidas de paquete. En el marco de esta conversión las tramas MP3 se convierten en unidades de datos de aplicación MP3 (MP3 application data units) abreviado tramas ADU. A cada trama ADU le precede un descriptor ADU. Una trama ADU se diferencia de la trama MP3 original en que la completa sucesión de datos de audio codificados y otros datos cualesquiera seleccionados libremente para la ADU, es decir, aquellos que comienzan en la corriente de datos MP3 original en el lugar hacia el que apunta el retroindicador que está incluido en el encabezado de trama MP3 original correspondiente, y que terminan en el siguiente lugar hacia el que apunta el

5

10

15

20

25

30

35

40

45

50

55

60

retroindicador en la siguiente trama MP3, está incluida en la misma trama ADU. Por lo demás las tramas ADU autónomas de tal manera se diferencian de las tramas MP3 originales únicamente en el reemplazo opcional de los primeros 11 bits de sincronización en el encabezado de trama MP3 por un número de secuencia de interconexión que está previsto para posibilitar de manera opcional la sucesión de la secuencia de tramas ADU para la transmisión que se aparta del orden temporal propiamente dicho. Los descriptores ADU añadidos a las tramas ADU formadas de tal manera contienen tres campos, concretamente un indicador de continuidad, un indicador de descriptor y una indicación de parámetros ADU que indica el parámetro de la trama ADU que sigue al descriptor ADU respectivo. Estas parejas de trama ADU y descriptor ADU se empaquetan en paquetes RTP que, a su vez, presentan encabezados RTP. Si una pareja de trama ADU y descriptor ADU no cabe en un paquete de este tipo entonces se distribuye en dos paquetes RTP consecutivos. En este caso, en el descriptor ADU de la secuencia de tramas ADU se fija el indicador de continuación. El indicador de descriptor únicamente indica cuántos bits contiene el indicador de parámetro ADU en el descriptor ADU. Los campos de encabezado RTP comprenden entre otros un indicador de marca de tiempo que indica el momento de reproducción de la primera ADU que está empaquetada en el paquete respectivo. Esta corriente de paquete de datos RTP con tramas ADU eventualmente interconectadas podría convertirse de nuevo sin problemas en una corriente de datos MP convencional, concretamente la corriente de datos MP3 original.

Es un objetivo de la presente invención proporcionar un esquema para convertir una corriente de datos de audio en una corriente adicional de datos de audio o viceversa, de manera que la manipulación con los datos de audio se haga más fácil, tal como en relación con la combinación de corrientes de datos de audio individuales para formar corrientes de datos de audio de canal múltiple o la manipulación de una corriente de datos de audio en general.

Este objetivo se logra mediante un procedimiento de acuerdo con la reivindicación 1 u 8 y un aparato de acuerdo con la reivindicación 9 u 11.

La manipulación de datos de audio puede simplificarse, tal como, por ejemplo, con respecto a la combinación de corrientes de datos de audio individuales para formar corrientes de datos de audio de canal múltiple o la manipulación de una corriente de datos de audio en general, modificando el bloque de datos en una corriente de datos de audio dividida en bloques de datos con bloque de determinación y datos de bloque de audio, tal como p.ej. completando o agregando o reemplazando parte de los mismos, de manera que el mismo incluye un indicador de longitud que indique una cantidad o longitud de datos de los datos de audio del bloque de datos o una cantidad o longitud de datos del bloque de datos, para obtener una segunda corriente de datos de audio con bloques de datos modificados. Alternativamente, una corriente de datos de audio con indicadores en bloques de determinación, que apuntan a los datos de audio del bloque de determinación asociados con los bloques de determinación, pero distribuidos entre diferentes bloques de datos, se transforma en una corriente de datos de audio, en donde los datos de audio del bloque de determinación se combinan para formar datos de audio del bloque de determinación relacionados. Los datos de audio del bloque de determinación relacionados pueden incluirse entonces en un elemento de canal autónomo conjuntamente con su bloque de determinación.

Un descubrimiento de la presente invención consiste en que una corriente de datos de audio basada en el indicador en la que un indicador apunta al inicio de los datos de audio de bloque de determinación del bloque de datos respectivo, es más fácil de manipular cuando esta corriente de datos de audio se manipula para que en esta todos los datos de audio del bloque de determinación, i.e., los datos de audio que se refieren a la misma marca de tiempo o que codifican los valores de audio para dar lugar a la misma marca de audio, se combinen para formar un bloque relacionado de datos de audio del bloque de determinación relacionado, y a este se agregue el bloque de determinación respectivo, al cual se asocian los datos de audio del bloque de determinación relacionados. Los elementos de canal obtenidos de ese modo, después de la disposición o alineación de los mismos dan como resultado la nueva corriente de datos de audio en donde todos los datos de audio correspondientes a una marca de tiempo o que codifican los valores de audio o de muestreo para dar lugar a esta marca de tiempo, también se combinan en un elemento de canal, de manera que la nueva corriente de datos de audio es más fácil de manejar.

De acuerdo con un ejemplo de realización de la presente invención, cada bloque de determinación o cada elemento de canal se modifica en la nueva corriente de datos de audio, tal como agregando o reemplazando una parte para obtener una indicación de longitud que indique la longitud o cantidad de datos del elemento de canal o de los datos de audio relacionados incluidos en el mismo, para facilitar la decodificación de la nueva corriente de datos de audio con los elementos de canal de longitud variable. Ventajosamente, la modificación se lleva a cabo reemplazando una parte redundante de estos bloques de determinación, idéntica para todos los bloques de determinación de la corriente de datos de audio de entrada por la indicación de longitud respectiva. Esta medida puede lograr que la velocidad de transferencia de bits de los datos de la corriente de datos de audio resultante sea igual a la de la corriente de datos de audio original a pesar de la indicación de longitud adicional comparada con la corriente de datos de audio original en base al indicador, y que por lo mismo adicionalmente pueda obtenerse el retroindicador realmente innecesario ahora en la nueva corriente de datos de audio a fin de poder reconstruir la corriente de datos de audio original a partir de la nueva corriente de datos de audio.

5

10

15

20

25

30

35

40

45

50

55

60

La parte redundante que es idéntica de estos bloques de determinación puede colocarse antes de la nueva corriente de datos de audio resultante en un bloque de determinación global. En el lado del receptor, la segunda corriente de datos de audio resultante puede así reconvertirse en la corriente de datos de audio original a fin de utilizar los decodificadores ya existentes que solo pueden decodificar corrientes de datos de audio del formato de archivo original para decodificar la corriente de datos de audio resultante en el formato sin indicador.

De acuerdo con un ejemplo de realización adicional de la presente invención una conversión de una primera corriente de datos de audio en una segunda corriente de datos de audio de otro formato de archivo se utiliza para formar una corriente de datos de audio de canal múltiple a partir de diversas corrientes de datos de audio del primer formato de archivo. La capacidad de manejo del lado del receptor se mejora en comparación con la mera unión de las corrientes de datos de audio originales con el indicador, debido a que en la corriente de datos de audio de canal múltiple todos los elementos del canal correspondientes a una marca de tiempo o que contienen los datos de audio del bloque de determinación relacionado, se obtuvieron codificando un período de tiempo simultáneo de un canal de una señal de audio de canal múltiple, i.e., codificando los períodos de tiempo de diferentes canales correspondientes a la marca de tiempo, pueden combinarse para dar lugar a unidades de acceso (access units). Esto no es posible con formatos de datos de audio en base al indicador, dado que ahí los datos de audio pueden distribuirse para dar lugar a una marca de tiempo en diferentes bloques de datos. Proporcionando bloques de datos en diversas corrientes de datos de audio para dar lugar a diferentes canales con una indicación de longitud permite un mejor análisis mediante las unidades de acceso durante la combinación de las corrientes de datos de audio para dar lugar a una corriente de datos de canal múltiple con las unidades de acceso.

Además, la presente invención dio como resultado el descubrimiento de que es muy fácil reconvertir las corrientes de datos de audio resultantes antes descritas en un formato de archivo original, que puede entonces decodificarse en la señal de audio mediante los decodificadores existentes. Aunque los elementos de canal resultantes tienen una longitud diferente y de este modo son algunas veces más largos y algunas veces más cortos que la longitud disponible en el bloque de datos de la corriente de datos de audio original, no se requiere desplazar o reunir los datos principales de acuerdo con los retroindicadores obtenidos eventualmente innecesarios para reproducir la corriente de datos de audio en un nuevo formato de archivo, sino que es suficiente incrementar una indicación de velocidad de transferencia de bits en los bloques de determinación de la corriente de datos de audio que va a generarse del formato de archivo original. El efecto de esto es que, de acuerdo con esta indicación de velocidad de transferencia de bits, incluso el más largo de los elementos de canal en la corriente de datos de audio que va a decodificarse es más pequeño o igual a la longitud del bloque de datos que tienen los bloques de datos en una corriente de datos de audio del primer formato de archivo. Los retroindicadores se ajustan a cero y los elementos de canal aumentan a la longitud correspondiente a la indicación de velocidad de transferencia de bits aumentada agregando bits de valores sin importancia (don’t care). De este modo, se generan bloques de datos de una corriente de datos de audio en formato de archivo original, en donde los datos principales correspondientes se incluyen exclusivamente en el bloque de datos en sí y no en ningún otro. Una corriente de datos de audio del primer formato de archivo reconvertida de este modo puede suministrarse entonces a un decodificador ya existente para corrientes de datos de audio del primer formato de archivo utilizando la velocidad de transferencia de bits incrementada de acuerdo con la indicación de bits aumentada. Por tanto, se omiten costosas operaciones de desplazamiento para la reconversión, así como el requerimiento de tener que reemplazar los decodificadores ya existentes por nuevos.

Por otra parte, de acuerdo con un ejemplo de realización adicional, es posible recuperar la corriente de datos de audio original de la corriente de datos de audio resultante utilizando la información incluida en el bloque de determinación completo de la corriente de datos de audio resultante a través de la parte redundante de los bloques de determinación que es idéntica para reestablecer la parte sobreescrita por la indicación de longitud.

Los ejemplos de realización preferidos de la presente invención se tratarán abajo con referencia a los dibujos que la acompañan. Éstos muestran:

La Figura 1 un dibujo esquemático para ilustrar el formato de archivo MP3 con retroindicador;

La Figura 2 un diagrama de bloque para ilustrar una estructura para convertir una corriente de datos de audio

de MP3 en una corriente de datos de audio de MPEG 4;

La Figura 3

La Figura 4

La Figura 5

un diagrama de flujo de un procedimiento para convertir una corriente de datos de audio de MP3 en una corriente de datos de audio de MPEG-4 de acuerdo con un ejemplo de realización de la presente invención;

un dibujo esquemático para ilustrar la etapa de combinar los datos de audio asociados agregando los bloques de determinación y la etapa de cambiar los bloques de determinación en el procedimiento de la Figura 3;

un dibujo esquemático para ilustrar un procedimiento para convertir diversas corrientes de datos

5

10

15

20

25

30

35

40

45

50

55

60

La Figura 6

La Figura 7

La Figura 8

La Figura 9

de audio de MP3 en una corriente de datos de audio de MPEG-4 de canal múltiple de acuerdo con un ejemplo de realización adicional de la presente invención;

un diagrama de bloque de una disposición para convertir una corriente de datos de audio de MPEG-4 obtenida de acuerdo con la Figura 3 de nuevo en una corriente de datos de audio de MP3 para ser capaz de decodificar la misma mediante decodificadores MP3 existentes;

un diagrama de flujo de un procedimiento para reconvertir la corriente de datos de audio de MPEG- 4 obtenida de acuerdo con la Figura 3 en una o varias corrientes de datos de audio en formato MP3;

un diagrama de flujo de un procedimiento para reconvertir la corriente de datos de audio de MPEG- 4 obtenida de acuerdo con la Figura 3 en una o varias corrientes de datos de audio en formato MP3 de acuerdo con un ejemplo de realización adicional de la presente invención; y

un diagrama de flujo de un procedimiento para convertir una corriente de datos de audio de MP3 en una corriente de datos de audio de MPEG-4 de acuerdo con un ejemplo de realización adicional de la presente invención.

La presente invención se tratará abajo con referencia a las figuras en base a ejemplos de realización en donde la corriente de datos de audio original en un formato de archivo, en el que se utilizan retroindicadores en los bloques de determinación de los bloques de datos para indicar el inicio de los datos principales correspondientes al bloque de determinación es meramente a modo de ejemplo una corriente de datos de audio de MP3, mientras que la corriente de datos de audio resultante que consta de elementos de canal autónomos en donde los datos de audio correspondientes a la marca de tiempo respectiva se combinan cada uno, es también meramente a modo de ejemplo una corriente de datos de audio de MPEG-4. El formato MP3 se describe en el estándar ISO/IEC 11172-3 y 13818-3 citados en la introducción de esta descripción, mientras que el formato de archivo MPEG-4 se describe en el estándar ISO/IEC 14496-3.

Primero, el formato MP3 se tratará brevemente con referencia a la Figura 1. La Figura 1 muestra una porción de una corriente de datos de audio de MP3 10. La corriente de datos de audio 10 consiste de una secuencia de tramas o bloques de datos de las cuales solo tres pueden verse al completo en la Figura 1, es decir 10a, 10b y 10c. La corriente de datos de audio de MP3 10 se ha generado por un codificador de MP3 de una señal de audio o sonido, respectivamente. La señal de audio codificada por la corriente de datos 10 es, por ejemplo, música, voz, una mezcla de los mismos o lo similar. Los bloques de datos 10a, 10b, y 10c se asocian cada uno a uno de períodos de tiempo sucesivos, posiblemente sobrepuestos en los cuales se ha dividido la señal de audio por el codificador de MP3. Cada período de tiempo corresponde a una marca de tiempo de la señal de audio y, por tanto, en la descripción, el término marca de tiempo se utiliza frecuentemente como período de tiempo. Cada período de tiempo se ha codificado en datos principales (main_data) por medio del codificador de MP3 de manera individual, por ejemplo, mediante un banco de filtro híbrido consistente de un banco de filtro de polifase y una transformación de coseno modificada discreta con una subsecuente entropía, tal como código Huffman. Los datos principales correspondientes a las tres marcas de tiempo sucesivas a las cuales se asocian los bloques de datos 10a-10c, se ilustran en la Figura 1 mediante 12a, 12b y 12c como bloques relacionados además de la corriente de datos de audio 10 real.

Los bloques de datos 10a-10c de la corriente de datos de audio 10 se encuentran dispuestos de manera equidistante en la corriente de datos de audio 10. Esto significa que cada bloque de datos 10a-10c tiene la misma longitud de bloques de datos o longitud de trama. La longitud de trama, de nuevo, depende de la velocidad de transferencia de bits a la cual la corriente de datos de audio 10 va a ser reproducida al menos en tiempo real, y de la velocidad de muestreo que ha utilizado el codificador de MP3 para muestrear la señal de audio previo a la codificación real. La conexión es que la velocidad de muestreo indica en conexión con el número fijado de valores de muestreo por marca la longitud de una marca de tiempo, y que a partir de la velocidad de transferencia de bits y la duración de marca de tiempo puede calcularse cuántos bits pueden transmitirse en esta duración temporal.

Ambos parámetros, i.e., velocidad de transferencia de bits y velocidad de muestreo, se indican en los encabezados de trama 14 en los bloques de datos 10a-10c. De este modo, cada bloque de datos 10a-10c tiene su propio encabezado de trama 14. Generalmente, toda la información importante para decodificar la corriente de datos de audio se almacena en cada trama 10a-10c en sí, de manera que el decodificador puede comenzar a decodificar en la mitad de una corriente de datos de audio de MP3 10.

Además del encabezado de trama 14, que se encuentra al principio, cada bloque de datos 10a-10c tiene una parte de información secundaria 16 y una parte de información principal 18, que contienen datos de audio del bloque de datos. La parte de información secundaria 16 sigue inmediatamente al encabezado 14. El mismo incluye información esencial para el decodificador de la corriente de datos de audio 10 para encontrar los datos principales o los datos de audio del bloque de determinación, asociados al bloque de datos respectivo, que son meramente palabras de

5

10

15

20

25

30

35

40

45

50

55

60

código Huffman dispuestas linealmente en serie y para decodificar las mismas en una forma correcta para los coeficientes DCT o MDCT. La parte de datos principales 18 forma el final de cada bloque de datos.

Como se mencionó en la introducción de la descripción, el estándar MP3 soporta una función de depósito. Esta se hace posible mediante retroindicadores incluidos en la información secundaria dentro de la parte de información secundaria 16 indicada en la Figura 1 como 20. Si un retroindicador se ajusta a 0, los datos principales para esta información secundaria comienzan inmediatamente después de la parte de información secundaria 16. De otra manera, el indicador 20 (main_data_begin) en un bloque de datos previo indica el comienzo de los datos principales que codifican la marca de tiempo a la cual se asocia el bloque de datos, en donde se incluye la información secundaria 16 que contiene el retroindicador 20. En la Figura 1, por ejemplo, el bloque de datos 10a se asocia con una marca de tiempo codificada por los datos principales 12a. El retroindicador 20 en la información secundaria 16 de este bloque de datos 10a remite, por ejemplo, hacia el inicio de los datos principales 12a, que se encuentra en un bloque de datos previo al bloque de datos 10a en la dirección de corriente 22 indicando un desplazamiento de bit o bytes medido desde el comienzo del encabezado 14 del bloque de datos 16a. Esto significa que, en este momento durante la codificación de la señal de audio, el depósito de bits del codificador de MP3 que genera la corriente de datos de audio de MP3 10 no se ha llenado, pero podría cargarse todavía hasta la altura del retroindicador. Desde la posición, en la cual apunta el retroindicador 20 del bloque de datos 10a, los datos principales 12a se insertan en la corriente de datos de audio 10 con los pares de encabezados e información secundaria 14, 16 dispuestos de manera equidistante. En el presente ejemplo, los datos principales 12a se extienden ligeramente sobre la mitad de la parte de los datos principales 18 del bloque de datos 10a. El retroindicador 20 en la parte de información secundaria 16 del subsecuente bloque de datos 10b apunta a una posición inmediatamente después de los datos principales 12a en el bloque de datos 10a. Lo mismo se aplica al retroindicador 20 en la parte de información secundaria 16 del bloque de datos 10c.

Como puede verse, en la corriente de datos de audio de MP3 10 es más bien una excepción, cuando los datos principales correspondientes a una marca de tiempo se encuentran de hecho exclusivamente en el bloque de datos asociado a esta marca de tiempo. Por el contrario, los bloques de datos se encuentran mayormente distribuidos en uno u varios bloques de datos entre los cuales ni siquiera tiene que encontrarse, dependiendo del tamaño del depósito de bits el bloque de datos correspondiente en sí, La altura del valor del retroindicador se limita por el tamaño del depósito de bits.

Después de que la estructura de una corriente de datos de audio de MP3 se hay7a descrito con respecto a la Figura 1, se describirá una disposición con referencia a la Figura 2, que es adecuada para convertir una corriente de datos de audio de MP3 en una corriente de datos de audio de MPEG-4, o para obtener a partir de una señal de audio una corriente de datos de audio de MPEG-4 que puede convertirse fácilmente en un formato de MP3.

La Figura 2 muestra un codificador de MP3 30 y un convertidor de MP3-MPEG-4 32. El codificador de MP3 30 comprende una entrada en donde el mismo recibe una señal de audio que va a codificarse, y una salida en donde el mismo da salida a una corriente de datos de audio de MP3 que codifica la señal de audio en la entrada. El codificador de MP3 30 opera de acuerdo con el estándar de MP3 antes mencionado.

La corriente de datos de audio de MP3 cuya estructura se ha tratado con referencia a la Figura 1, consiste, como se mencionó, de tramas con una longitud de trama fijada, que depende de una velocidad de transferencia de bits ajustada y de la velocidad de muestreo subyacente, así como de un byte de relleno, que se ajusta o no se ajusta. El convertidor de MP3-MPEG-4 32 recibe la corriente de datos de audio de MP3 en una entrada y da salida a una corriente de datos de audio de MPEG-4 en una salida, cuya estructura resulta de la descripción subsecuente del modo de operación del convertidor de MP3-MPEG-4 32. El propósito del convertidor 32 es convertir la corriente de datos de audio de MP3 a partir del formato de MP3 al formato MPEG-4. El formato de datos de MPEG-4 tiene la ventaja de que todos los datos principales que corresponden a una cierta marca de tiempo se incluyen en una unidad de acceso contigua o elemento de canal, de manera que se facilita significativamente la manipulación del último.

La Figura 3 muestra las etapas del procedimiento individuales durante la conversión de la corriente de datos de audio de MP3 en la corriente de datos de audio de MPEG-4 llevadas a cabo por el convertidor 32. Primero, la corriente de datos de audio de MP3 se recibe en una etapa 40. La recepción puede comprender almacenar la corriente de datos de audio completa o meramente una parte actual de la misma en una memoria intermedia. De manera correspondiente, las etapas subsecuentes durante la conversión pueden llevarse a cabo ya sea durante la recepción 40 en tiempo real o solo después de eso.

Después, en la etapa 42, todos los datos de audio o datos principales correspondientes a una marca de tiempo se combinan en un bloque continuo, y esto se lleva a cabo para todas las marcas de tiempo. La etapa 42 se ilustra en mayor detalle esquemáticamente en la Figura 4, en donde, en esta figura, los elementos de una corriente de datos de audio de MP3 similares a los elementos ilustrados en la Figura 1, se proveen con los mismos números de referencia o similares y se omite la descripción repetida de estos elementos.

5

10

15

20

25

30

35

40

45

50

55

60

Como puede verse de la dirección de la corriente de datos 22, estas partes de la corriente de datos de audio de MP3 10 ilustradas más hacia la izquierda en la Figura 4, alcanzan el convertidor 32 más pronto que las partes derechas de la misma. Dos bloques de datos 10a y 10b se ilustran completamente en la Figura 4. La marca de tiempo correspondiente al bloque de datos 10a se codifica por los datos principales MD1 incluidos en la Figura 4 de manera ejemplar parcialmente en un bloque de datos previo al bloque de datos 10 y parcialmente en el bloque de datos 10a, y aquí particularmente en la parte de datos principales 18 de la misma. Aquellos datos principales que codifican la marca de tiempo a la cual se asocia el bloque de datos 10b subsecuente, se incluyen exclusivamente en la parte de datos principales 18 del bloque de datos 10a y se indican como MD2. Los datos principales MD3 correspondientes al bloque de datos siguiente al bloque de datos 10b se distribuyen entre las partes de datos principales 18 de los bloques de datos 10a y 10b.

En la etapa 42, el convertidor 42 combina ahora todos los datos principales correspondientes, i.e., todos los datos principales que codifican la misma marca de tiempo para dar lugar a bloques coherentes. De esa manera, la porción 44 previa al bloque de datos 10a y la porción 46 de los datos principales MD1 que se encuentra en la parte de datos principal 18 del bloque de datos 10a dan como resultado conjuntamente mediante agregación el bloque coherente 48 después de la etapa 42. Lo mismo se lleva a cabo para otros datos principales MD2, MD3...

Para llevar a cabo la etapa 42, el convertidor 32 lee el indicador en la información secundaria 16 de un bloque de datos 10a y entonces, basándose en este indicador, la primera parte respectiva 44 de los datos de audio del bloque de determinación 12a para dar lugar a este bloque de datos 10a incluido en el campo 18 de un bloque de datos previo, y concretamente comenzando en la posición determinada por el indicador hasta el encabezado del bloque de datos 10a actual. Después lee la segunda parte 46 de los datos de audio del bloque de determinación que está incluida en la parte 18 del bloque de datos 10a actual y que comprende el final de los datos de audio del bloque de determinación para dar lugar a este bloque de datos 10a comenzando desde el final de la información secundaria 16 del bloque de datos de audio 10a actual hasta el comienzo de los siguientes datos de audio, indicados aquí como MD2, hacia el siguiente bloque de datos 10b, al cual apunta el indicador en la información secundaria 16 del bloque de datos 10b subsecuente, que el convertidor 32 lee también. Al agregar las dos partes 44 y 46 resulta, como se describe, el bloque 48.

En una etapa 50, el convertidor 32 agrega el encabezado 14 asociado incluyendo la información secundaria 16 asociada a los bloques coherentes para formar finalmente los elementos de canal de MP3 52a, 52b y 52c. De este modo, cada elemento de canal de MP3 52a-52c consta del encabezado 14 de un bloque de datos de MP3 correspondiente, una parte de información secundaria 16 subsecuente del mismo bloque de datos de MP3, y el bloque coherente 48 de los datos principales que codifican la marca de tiempo a la cual se asocia el bloque de datos del cual, que se originan del encabezado y la información secundaria.

Los elementos de canal de MP3 resultantes de las etapas 42 y 50 tienen diferentes longitudes de elemento de canal, como se indica por las flechas dobles 54a-54c. Debe notarse que los bloques de datos 10a, 10b, en la corriente de datos de MP3 10 tienen una longitud de trama fija 56, pero que el número de datos principales para las marcas de tiempo individuales oscila alrededor de un valor promedio debido a la función de depósito de bits.

Para facilitar la decodificación y particularmente un análisis sintáctico de los elementos de canal de MP3 52a-52c individuales en el lado del decodificador, los encabezados 14 H1-H3 se modifican para obtener la longitud del elemento de canal respectivo 52a-52c, i.e., 54a-54c. Esto se lleva a cabo en una etapa 56. La entrada de longitud se escribe en una parte idéntica o redundante para todos los encabezados 14 de la corriente de datos de audio 10. En el formato MP3, cada encabezado 14 recibe en el inicio una palabra de sincronización fijada (syncword) que consta de 12 bits. En la etapa 56, esta palabra de sincronización se ocupa por la longitud del elemento de canal respectivo. Los 12 bits de la palabra de sincronización son suficientes para representar la longitud del elemento de canal respectivo en una forma binaria, de manera que la longitud de los elementos de canal de MP3 respectivos 58a-58c resultantes con el encabezado modificador h1-h3 permanece igual a pesar de la etapa 56, i.e., igual a 54a-54c. De esa manera, la información de audio también puede transmitirse con la misma velocidad de transferencia de bits en tiempo real y reproducirse como la corriente de datos de audio de MP3 10 original después de la yuxtaposición los elementos de canal de MP3 58a-58c de acuerdo con el orden de la marca de tiempo codificada por la misma a pesar de agregar la indicación de longitud, mientras que no se agregue ningún sobre-encabezado adicional por medio de encabezados adicionales.

En una etapa 58, un encabezado de archivo, o para el caso en que la corriente de datos que va a generarse no sea un archivo sino transmisión continua, se genera un encabezado de corriente de datos para la corriente de datos de audio de MPEG-4 (etapa 60) deseada. Debido a que, de acuerdo con el presente ejemplo de realización, va a generarse una corriente de datos de audio compatible con MPEG-4, se genera el encabezado de archivo de acuerdo con el estándar MPEG-4, en donde en ese caso el encabezado de archivo tiene una estructura fijada debido a la función AudioSpecificConfig, que se define en el estándar de MPEG-4 antes mencionado. La interfaz para el sistema MPEG-4 se proporciona por el elemento ObjectTypeIndication ajustado con el valor 0 x 40, así como por la indicación de un audioObjectType con el número 29. El AudioSpecificConfig específico de MPEG-4 se extiende

5

10

15

20

25

30

35

40

45

50

55

60

como sigue correspondiendo a su definición original en ISO-IEC 14496-3, en donde en el siguiente ejemplo solo es significativo el contenido del AudioSpecificConfig para la presente descripción y no se consideran todos ellos:

1 AudioSpecificConfig () {

2 audioObjectType;

3 samplingFrequencyIndex;

4 if(sampligFrequencyIndex==0xd)

5 sampligFrequency;

6 channelConfiguration;

7 if(audioObjectType==29) {

8 MPEG_1_2_SpecificConfig ();

9 }

10 }

La lista anterior de AudioSpecificConfig es una representación en notación común para la función AudioSpecificConfig, que sirve para analizar sintácticamente o leer los parámetros de llamada en el encabezado de archivo en el decodificador, es decir el samplingFrequencyIndex (índice de velocidad de muestreo), el channelConfiguration (configuración de canal), y el audioObjectType (tipo de objeto de audio), o indica las instrucciones de cómo el encabezado de archivo debe decodificarse o analizarse sintácticamente.

Como puede verse, el encabezado de archivo generado en la etapa 60 comienza con la indicación del audioObjectType que se ajusta a 29 (línea 2) como se mencionó anteriormente. El parámetro audioObjectType indica al decodificador de qué manera se han codificado los datos, y particularmente de qué manera puede extraerse información adicional para codificar el encabezado de archivo, como se describirá abajo.

Después sigue el parámetro de llamada samplingFrequencyIndex que apunta a cierta posición en una tabla regulada para frecuencias de muestreo (línea 3). Si el índice es 0 (línea 4), la indicación de la frecuencia de muestreo sigue sin apuntar a una tabla regulada (línea 5).

Después, sigue la indicación de una configuración de canal (línea 6), que indique en una forma que se tratará abajo en mayor detalle, cómo se incluyen muchos canales en la corriente de datos de audio de MPEG-4 generada, en donde también es posible, en contraste con el presente ejemplo de realización, reunir más de una corriente de datos de audio de MP3 para formar una corriente de datos de audio de MPEG-4, como se describirá abajo con referencia a la Figura 5.

Después, si el audioObjectType es 29, que es el caso aquí, sigue una parte en el encabezado de archivo AudioSpecificConfig, que contiene una parte redundante del encabezado de trama de MP3 en la corriente de datos de audio 10, i.e., esa parte que permanece igual entre los encabezados de trama 14 (línea 8). Esta parte se indica aquí como MPEG_1_2_SpecificConfig (), de nuevo una función que define la estructura de esta parte.

Aunque la estructura de MPEG_1_2_SpecificConfig también puede tomarse del estándar MP3, debido a que corresponde a la parte fijada de un encabezado de trama de MP3 que no cambia de trama a trama, la estructura del mismo se lista debajo a modo de ejemplo:

1 MPEG_1_2_SpecificConfig (channelConfiguration) {

2 syncword

3 ID

4 layer

5 reserved

6 sampling_frequency

7 reserved

8 reserverd

9 reserved

10 if(channelConfiguration==0){

11 descripción de configuración de canal;

12 }

13 }

En la parte MPEG_1_2_SpecificConfig todos los bits que difieren del encabezado de trama al encabezado de trama 14 en la corriente de datos de audio MP3 se ajustan a 0. En cualquier caso, el primer parámetro MPEG_1_2_SpecificConfig, es decir la syncword palabra de sincronización de 12 bits que sirve para la sincronización de un codificador de MP3 al recibir la corriente de datos de audio de MP3 (línea 2), es la misma para cualquier encabezado de trama. El parámetro subsecuente ID (línea 3) indica la versión MPEG, i.e., 1 o 2 con el estándar ISO/IEC 13818-3 correspondiente para la versión 2 y el estándar ISO/IEC 11172-3 para la versión 1. La capa (layer) de parámetro (línea 4) da una indicación a la capa 3, que corresponde al estándar de MP3. El siguiente

5

10

15

20

25

30

35

40

45

50

55

60

bit se reserva (“reserved” línea 5) dado que su valor puede cambiar de trama a trama y se transmite mediante los elementos de canal de MP3. Este bit muestra dado el caso que el encabezado es seguido por una variable CRC. La siguiente variable sampling_frequency (línea 6) remite a una tabla con velocidades de muestreo definidas en el estándar MP3 y por tanto indica la velocidad de muestreo subyacente a los coeficientes de MP3-DCT. Después en la línea 7, sigue la indicación de un bit para aplicaciones específicas (reserved), así como en las líneas 8 y 9. Después, (en las líneas 11, 12) sigue la definición exacta de la configuración de canal cuando el parámetro indicado en la línea 6 del AudioSpecificConfig no indica hacia una configuración de canal predefinida, pero tiene el valor 0. De otra manera, se aplica la configuración de canal de 14496-3 apartado 1 tabla 1.11.

Mediante la etapa 60 y en particular proporcionando el elemento MPEG_1_2_SpecificConfig en el encabezado de archivo, que incluye toda la información redundante en los encabezados de trama 14 de la señal de datos de audio de MP3 10 original, se asegura que esta parte redundante en los encabezados de trama no conduzca a una pérdida irrecuperable de esta información en el archivo de MPEG-4 que va a generarse durante la inserción de los datos que facilitan la decodificación, tal como en la etapa 56 mediante la inserción de la longitud del elemento de canal, sino que esta parte modificada puede reconstruirse de nuevo mediante el encabezado de archivo MPEG-4.

Después, en la etapa 62, la corriente de datos de audio de MPEG-4 se emite en el orden del encabezado de archivo MPEG-4 generado en la etapa 60 y los elementos de canal en el orden de sus marcas de tiempo asociadas, dando como resultado la corriente de datos de audio MPEG-4 completa un archivo de MPEG-4 o mediante sistemas de MPEG-4.

La descripción anterior se refiere a la conversión de una corriente de datos de audio de MP3 en una corriente de datos de audio de MPEG-4. Sin embargo, como puede verse con líneas punteadas en la Figura 2, también es posible convertir dos o más corrientes de datos de audio de MP3 a partir de dos codificadores de MP3, es decir 30 y 30' para formar una corriente de datos de audio de canal múltiple de MPEG-4. En ese caso, el convertidor MP3- MPEG-4 32 recibe las corrientes de datos de audio de MP3 de todos los codificadores 30 y 30' y da salida a la corriente de datos de audio de canal múltiple en formato MPEG-4.

En la mitad superior, la Figura 5 ilustra en relación con la representación de la Figura 4, de qué manera puede obtenerse la corriente de datos de audio de canal múltiple de acuerdo con MPEG-4, en donde la conversión se lleva a cabo de nuevo por el convertidor 32. Se ilustran tres secuencias de elemento de canal 70, 72 y 74 que se han generado de acuerdo con las etapas 40-56 a partir de una señal de audio cada una por un codificador de MP3 30 o 30' (Figura 2). De cada secuencia de elementos de canal 70, 72 y 74, se muestran dos elementos de canal respectivos, es decir 70a, 70b, 72a, 72b o 74a, 74b, respectivamente. En la Figura 5, los elementos de canal dispuestos los unos sobre los otros, aquí 70a-74a o 70b-74b, respectivamente, se asocian cada uno con la misma marca de tiempo. Los elementos de canal de la secuencia 70, por ejemplo, codifican la señal de audio que se ha registrado de acuerdo con una regulación adecuada desde la izquierda, derecha (frente), mientras que las secuencias 72 y 82 codifican señales de audio que representan un registro de la misma fuente de audio de otras direcciones o con otro espectro de frecuencia, tal como un altavoz frontal central (center) y desde la parte posterior derecha e izquierda (envolvente, surround).

Como se indica por las flechas 76, estos elementos de canal se adjuntan ahora durante la salida (cf. Etapa 62 en la Figura 3) para formar unidades en la corriente de datos de audio de MPEG-4, denominadas en lo sucesivo como access-unit o unidades de acceso 78. De este modo, en la corriente de datos de audio de MPEG-4, los datos dentro de una unidad de acceso 78 siempre se relacionan con una marca de tiempo. La disposición de los elementos de canal de MP3 70a, 72a y 74a dentro de la unidad de acceso 78, aquí en el orden de canal (front, center and surround, frontal, central y envolvente^ se considera en el encabezado de archivo generado para la corriente de datos de audio de MPEG-4 que va a generarse (cf. etapa 60 en la Figura 3) ajustando respectivamente la configuración del canal de parámetro de llamada en el AudioSpecificConfig, haciendo de nuevo referencia al apartado 1 en ISO/IEC 14496-3. Las unidades de acceso 78 se disponen de nuevo sucesivamente en la corriente MPEG-4 de acuerdo con el orden de sus marcas de tiempo, y el encabezado de archivo de MPEG-4 se antepone a ellas. El parámetro channelConfiguration se ajusta apropiadamente en el encabezado de archivo de MPEG-4 para indicar el orden de los elementos de canal en las unidades de acceso o su significado en el lado decodificador, respectivamente.

Como lo ha mostrado la descripción anterior de la Figura 5, es muy fácil combinar las corrientes de datos de audio de MP3 para formar una corriente de datos de audio de canal múltiple cuando, como se propone de acuerdo con la presente invención, las corrientes de datos de audio de MP3 se manipulan para obtener elementos de canal autónomos a partir de bloques de datos, en donde todos los datos de una marca de tiempo se incluyen en un elemento de canal, pudiendo combinarse estos elementos de canal de los canales individuales entonces fácilmente para formar unidades de acceso.

La presente descripción se refiere a la conversión de una o varias corrientes de datos de audio de MP3 en una corriente de datos de audio de MPEG-4. Sin embargo, es un descubrimiento significativo de la presente invención que todas las ventajas de la corriente de datos de audio de MPEG-4 resultante, tales como la capacidad de manejo

5

10

15

20

25

30

35

40

45

50

55

60

mejorada de los elementos de canal de MP3 autónomos individuales con igual velocidad de transmisión, y la posibilidad de transmisión de canal múltiple, pueden utilizarse sin tener que reemplazar los codificadores de MP3 existentes completamente por nuevos decodificadores, sino que la reconversión puede efectuarse también sin problemas, de manera que el mismo puede utilizarse durante la decodificación de la corriente de datos de audio de MPEG-4 antes descrita.

En la Figura 6, esto se ilustra en una disposición de un reconstructor de MP3 100 cuyo modo de operación se tratará en mayor detalle abajo, y los decodificadores de MP3 102, 102'... Un reconstructor de MP3 100 recibe en su entrada una corriente de datos de audio de MPEG-4 generada de acuerdo con uno de los ejemplos de realización previos, y da salida a una, o en el caso de la corriente de datos de audio de canal múltiple, varias corrientes de datos de audio de MP3 hacia uno o varios decodificadores de MP3 102, 102'..., que a su vez decodifican la corriente de datos de audio de MP3 recibida respectivamente para formar una señal de audio respectiva y la pasan por ejemplo a altavoces correspondientes dispuestos de acuerdo con la configuración de canal.

Un modo particularmente simple de reconstruir las corrientes de datos de audio de MP3 originales de una corriente de datos de audio de MPEG-4 generada de acuerdo con la Figura 5, se describirá con referencia a la Figura 5 abajo y la Figura 7, en donde estas etapas se llevan a cabo por el reconstructor de MP3 de la Figura 6.

Primero, el reconstructor de MP3 100 verifica en la etapa 110 que la corriente de datos de audio de MPEG-4 recibida en la entrada sea una corriente de datos de audio de MP3 reformateada, verificando el mismo el parámetro de llamada audioObjectType en el encabezado de archivo de acuerdo con el AudioSpecificConfig si el mismo incluye el valor 29. Si este es el caso (línea 7 en el AudioSpecificConfig), el reconstructor de MP3 100 procede con el análisis sintáctico del encabezado de archivo de la corriente de datos de audio MPEG-4 y selecciona de la parte MPEG_1_2_SpecificConfig la parte redundante de todos los encabezados de trama de la corriente de datos de audio de MP3 original de la cual se obtuvo la corriente de datos de audio MPEG-4 (etapa 112).

Después de evaluar el MPEG_1_2_SpecificConfig, el reconstructor de MP3 100 reemplaza en la etapa 114 a continuación en cada elemento de canal 74a-74c en el encabezado respectivo hF, he, hS una o más partes de los elementos de canal por componentes del MPEG_1_2_SpecificConfig, particularmente la indicación de longitud del elemento de canal por la palabra de sincronización a partir de MPEG_1_2_SpecificConfig para obtener de nuevo los encabezados Hf, Hc y Hs de trama de la corriente de datos de audio de MP3 original, como se indica por las flechas 116. En la etapa 118, el reconstructor de MP3 100 modifica a continuación la información secundaria Sf, Sc y Ss en la corriente de datos de audio de MPEG-4 en cada elemento de canal. Particularmente, el retroindicador o backpointer se ajusta a 0 para obtener nueva información secundaria S'f, S'c, S's. La manipulación de acuerdo con la etapa 118 se indica en la Figura 5 mediante las flechas 120. Después en la etapa 122, el reconstructor de MP3 100 ajusta a continuación el índice de velocidad de transferencia de bits en cada elemento de canal 74a-74c en el encabezado de trama Hf, Hc, Hs provisto según la etapa 114, con la palabra de sincronización en lugar de la indicación de longitud del elemento de canal al valor más alto permisible. Al fin y al cabo, por tanto, los encabezados resultantes difieren de los originales, que se indican en la Figura 5 por un apóstrofe, i.e., H'f, H'c, y H's. La manipulación de los elementos de canal de acuerdo con la etapa 122 también se indica por la flecha 116.

Para ilustrar los cambios de las etapas 114-122 de nuevo, los parámetros individuales se listan más abajo en la Figura 5 para el encabezado H'f y la parte del índice secundario S'f. En la 124, se indican los parámetros individuales del encabezado H'f. El encabezado de trama H'f comienza con el parámetro syncword. La syncword se ajusta al valor original (etapa 114) como es el caso en cada corriente de datos de audio de MP3, es decir al valor 0xFFF. Generalmente, un encabezado de trama H'f que resulta después de las etapas 114-122 difiere del encabezado de trama de MP3 original incluido en la corriente de datos de audio de MP3 original solo por el hecho de que el índice de velocidad de transferencia de bits se ajusta al valor más alto permisible, que es 0xE de acuerdo con el estándar MP3.

El propósito del cambio del índice de velocidad de transferencia de bits es obtener una nueva longitud de trama o longitud del bloque de datos para la corriente de datos de audio de MP3 nueva que va a generarse, que es mayor que la de la corriente de datos de audio MP3 original, de la cual se ha generado la corriente de datos de audio de MPEG-4 con unidad de acceso 78. El truco en este caso es que la longitud de trama en bytes en el formato MP3 siempre depende de la velocidad de transferencia de bits, de acuerdo con la siguiente ecuación:

para MPEG 1 capa 3:

longitud de trama [Bit]=1152* velocidad de transferencia de bits [Bit/s]/ velocidad de muestreo [Bit/s] + + 8* bit

de relleno [Bit]

para MPEG 2 capa 3:

longitud de trama [Bit]=576* velocidad de transferencia de bits [Bit/s]/ velocidad de muestreo [Bit/s] + + 8* bit

de relleno [Bit]

5

10

15

20

25

30

35

40

45

50

55

60

En otras palabras, la longitud de trama de una corriente de datos de audio de MP3 de acuerdo con el estándar es directamente proporcional a la velocidad de transferencia de bits e indirectamente proporcional a la velocidad de muestreo. Como valor adicional, se agrega el valor de los bits de relleno que se indica en los encabezados de trama de MP3 hF, he, hS y pueden utilizarse para ajustar exactamente la velocidad de transferencia de bits. La velocidad de muestreo se ajusta, debido a que ésta determina con qué velocidad se reproduce la señal de audio decodificada. La conversión de la velocidad de transferencia de bits comparada con el ajuste original permite acomodar tales elementos de canal de MP3 74-74c en una longitud del bloque de datos de la corriente de datos de audio de MP3 nueva que va a generarse, que es más larga que la original, dado que para generar la corriente de datos de audio original se han generado los datos principales tomando los bits del depósito de bits.

De este modo, aunque que en el presente ejemplo de realización el índice de velocidad de transferencia de bits siempre se ajusta al valor máximo permitido, sería además posible aumentar el índice de velocidad de transferencia de bits solo a un valor suficiente para dar como resultado la longitud del bloque de datos de acuerdo con el estándar de MP3, de manera que incluso los elementos de canal de MP3 más largos 74a-74c ajustarán su longitud.

En 126 se ilustra que el main_data_begin del retroindicador se ajusta a 0 en la información secundaria resultante. Esto solo significa que en la corriente de datos de audio de MP3 generada de acuerdo con el procedimiento de la Figura 7, los bloques de datos son siempre autónomos, de manera que los datos principales para formar un encabezado de trama determinado y la información secundaria siempre se inician directamente después de la información secundaria y terminan dentro del mismo bloque de datos.

Las etapas 114, 118, 122 se llevan a cabo en cada elemento de canal, extrayéndose cada uno de su unidad de acceso, en donde las indicaciones de longitud del elemento de canal son útiles durante la extracción.

Después, en la etapa 128, a continuación, a cada elemento de canal 74a-74c se agregan tantos datos de relleno o bits don't care para aumentar la longitud de todos los elementos de canal de MP3 unitariamente a la longitud del bloque de datos de MP3 tal como está ajustada por el nuevo índice de velocidad de transferencia de bits 0xE. Estos datos de relleno se indican en 128 en la Figura 5. La cantidad de datos de relleno puede calcularse para cada elemento de canal, por ejemplo, evaluando la indicación de longitud del elemento de canal y el bit de relleno.

Después en una etapa 130, los elementos de canal mostrados en la Figura 5 en 74a'-74'c modificados de acuerdo con las etapas previas, se transfiere a un decodificador de MP3 respectivo o una entidad de decodificador de MP3 134a-134c como bloques de datos de una corriente de datos de audio de MP3 en el orden de las marcas de tiempo codificadas. El encabezado de archivo de MPEG-4 se omite. Las corrientes de datos de audio de MP3 resultantes se indican en la Figura 5 generalmente como 132a, 132b, 132c. Las entidades de decodificador de MP3 134a-134c, por ejemplo, ya se han inicializado previamente y concretamente se incluyen tantas como elementos de canal en las unidades de acceso individuales.

El reconstructor de MP3 100 sabe cuáles elementos de canal 74a-74c en una unidad de acceso 78 de la corriente de datos de audio de MPEG-4 pertenecen a cuáles de las corrientes de datos de audio de MP3 132a-132c que van a generarse a partir de una evaluación del parámetro de llamada channelConfiguration en el AudioSpecificConfig de la corriente de datos de audio de MPEG-4. De este modo, la entidad de decodificador de MP3 134a conectada al altavoz frontal recibe por consiguiente la corriente de datos de audio 132a correspondiente al canal frontal, y de manera correspondiente las entidades de decodificador de MP3 134b y 134c reciben las corrientes de datos de audio 132b y 132c asociadas con el canal central y envolvente (center and surround) y emiten señales de audio resultantes a altavoces dispuestos de manera correspondiente por ejemplo a un altavoz de subgraves (subwoofer) o a altavoces dispuestos por detrás a la izquierda y por detrás a la derecha.

Por supuesto, para la codificación en tiempo real de la corriente de datos de audio de MPEG-4 mediante la disposición de la Figura 6 con las entidades de decodificación 102, 102' o 134a-134c se requiere que las corrientes de datos de audio de MP3 recién generadas 132a-132c se transfieran con la velocidad de transferencia de bits incrementada en la etapa 122, que es más alta que en la corriente de datos de audio 10 original, que, sin embargo, no es un problema dado que la disposición entre el reconstructor de MP3 100 y los decodificadores 102, 102' o 134a-134c se encuentra fija, de manera que aquí las rutas de transmisión son correspondientemente cortas y pueden diseñarse con una velocidad de transferencia de datos correspondientemente alta con bajo costo y esfuerzo.

De acuerdo con el ejemplo de realización descrito con referencia a la Figura 7, una corriente de datos de audio de canal múltiple de MPEG-4 obtenida de acuerdo con la Figura 5 a partir de corrientes de datos de audio 10 originales, no se ha reconvertido exactamente a las corrientes de datos de audio de MP3 originales, sino que se han generado otras corrientes de datos de audio de MP3 a partir de la misma, en las que, en contraste con las corrientes de datos de audio originales, todos los retroindicadores se ajustan a 0, y el índice de velocidad de transferencia de bits se ajusta al valor más alto. Los bloques de datos de estas corrientes de datos de audio de MP3 recién generadas son por tanto también autónomos mientras que todos los datos asociados a una cierta marca de tiempo se incluyan en el

5

10

15

20

25

30

35

40

45

50

55

60

mismo bloque de datos 74'a-74'c, y los datos de relleno se hayan utilizado para incrementar la longitud del bloque de datos a un valor unitario.

La Figura 8 muestra un ejemplo de realización para un procedimiento de acuerdo con el cual es posible reconvertir una corriente de datos de audio de MPEG-4 generada de acuerdo con los ejemplos de realización de las Figuras 1-5 en corrientes de audio de MP3 originales o en la corriente de datos de audio de MP3 original.

En ese caso, el reconstructor de MP3 100 prueba de nuevo en una etapa 150 exactamente en la etapa 110, si la corriente de datos de audio de MPEG-4 es una corriente de datos de audio de MP3 reformateada. Las etapas subsecuentes 152 y 154 también corresponden a las etapas 112 y 114 del procedimiento de la Figura 7.

Sin embargo, en lugar de cambiar los retroindicadores en la información secundaria y el índice de velocidad de transferencia de bits en los encabezados de trama, el reconstructor de MP3 100 reconstruye, de acuerdo con el procedimiento de la Figura 8, en la etapa 156 a continuación la longitud del bloque de datos original en las corrientes de datos de audio de MP3 originales convertidas para formar una corriente de datos de audio de MPEG-4, en base a la velocidad de muestreo, la velocidad de transferencia de bits y el bit de relleno. La velocidad de muestreo y la indicación de relleno se indican en el MPEG_1_2_SpecificConfig, y la velocidad de transferencia de bits en cada elemento de canal si ésta última es diferente de trama a trama.

La ecuación para calcular la longitud de trama original del original y la corriente de datos de audio original que va a reconstruirse es de nuevo como se mencionó anteriormente: para MPEG 1 capa 3:

de relleno [Bit]

para MPEG 2 capa 3:

de relleno [Bit]

Después, la corriente de datos de audio de MP3 o las corrientes de datos de audio de MP3 se generan disponiendo los encabezados de trama respectivos del canal respectivo en un intervalo de la longitud del bloque de datos calculada y los huecos se rellenan insertando los datos de audio o datos principales en las posiciones indicadas por los indicadores en la información secundaria. A diferencia del ejemplo de realización de la Figura 7 o 5, los datos principales asociados al encabezado respectivo o la información secundaria respectiva, se insertan en la corriente de datos de audio de MP3 al inicio de la posición indicada por el retroindicador. O, en otras palabras, el inicio de los datos principales dinámicos se desplaza de acuerdo con el valor de main_data_begin. El encabezado de archivo de MPEG-4 se omite. La corriente de datos de audio de MP3 resultante de este modo o las corrientes de datos audio de MP3 resultantes de este modo, corresponden a las corrientes de datos de audio de MP3 originales en las cuales se basaba la corriente de datos de audio de MPEG-4. Estas corrientes de datos de audio de MP3 podrían decodificarse por tanto mediante decodificadores de MP3 convencionales para formar señales de audio, como las corrientes de datos de audio de la Figura 7.

Con respecto a la descripción previa se indica que las corrientes de datos de audio de MP3 descritas como corrientes de datos de audio de MP3 de canal único en algunas posiciones ya eran realmente corrientes de datos de audio de MP3 de dos canales definidas de acuerdo con el estándar ISO/IEC 13818-3, no entrando sin embargo en detalles sobre el tema en la descripción dado que no cambia nada con respecto a la comprensión de la presente invención. Las operaciones de matriz de los canales transmitidos para recuperar el canal de entrada en el lado del decodificador y el uso de diversos retroindicadores en estas señales de canal múltiple por lo tanto no se han tratado, sino que se hace referencia al estándar respectivo.

Los ejemplos de realización anteriores hacen posible almacenar bloques de datos de MP3 en forma alterada en formato de archivo de MPEG-4. La capa MPEG-1/2-audio-layer-3, abreviado MP3 o formatos apropiados como MPEG2.5 o mp3PRO derivados del mismo pueden empaquetarse en un archivo MPEG-4 basándose en estos procedimientos, de manera que esta nueva representación representa una representación de canal múltiple de un número arbitrario de canales en una manera simple. No se requiere el uso del procedimiento complicado y poco extendido del estándar ISO/IEC 13818-3. Particularmente, los bloques de datos de MP3 se empaquetan de manera que cada bloque - elemento de canal o unidad de acceso - pertenece a una marca de tiempo definida.

En los ejemplos de realización anteriores para cambiar el formato de la representación de señal digital, partes de la representación se han sobrescrito con datos diferentes. En otras palabras, la información requerida o útil para el decodificador se escribe a través de la parte del bloque de datos de MP3 que es constante para diferentes bloques dentro de una corriente de datos.

5

10

15

20

25

30

35

40

45

50

55

60

Al empaquetar varios de los bloques de datos mono o estéreo en una unidad de acceso del formato de archivo MPEG-4, podría obtenerse una representación de canal múltiple, que es significativamente más fácil de manejar en comparación con la representación del estándar ISO/IEC 13818-3.

En los ejemplos de realización previos se ha dado formato a la representación de un bloque de datos de MP3 de una manera tan diferente que todos los datos correspondientes a una cierta marca de tiempo también se incluyen dentro de una unidad de acceso. Este no es generalmente el caso en los bloques de datos de MP3, dado que el elemento main_data_begin o el retroindicador en el bloque de datos de MP3 original pueden remitir a bloques de datos anteriores en el tiempo.

La reconstrucción de la corriente de datos original también pudo llevarse a cabo (Figura 8). Esto significa, como se muestra, que las corrientes de datos recuperadas pueden procesarse por medio de cada decodificador conformado.

Además de eso, los ejemplos de realización anteriores permiten codificar o decodificar más de dos canales. Adicionalmente, en los ejemplos de realizaciones anteriores, solo tiene que darse un formato a los datos de MP3 ya codificados mediante operaciones simples para obtener un formato de canal múltiple. Por otra parte, en el lado del codificador, solo esta operación o estas operaciones deben revertirse.

Mientras que una corriente de datos de MP3 comúnmente incluye bloques de datos de longitudes diferentes, debido a que los datos dinámicos que corresponden a un bloque pueden empaquetarse en bloques previos, los ejemplos de realización previos conjuntaron los datos dinámicos directamente detrás de la información secundaria. La corriente de datos de audio de MPEG-4 resultante tuvo una velocidad de transferencia de bits media constante, pero bloques de datos de longitudes diferentes. El elemento main_data_begin o el retroindicador se transmite de manera inalterada para asegurar la reproducción de la corriente de datos original.

Además, con referencia a la Figura 5, se ha descrito una extensión de la sintaxis MPEG-4 para empaquetar varios bloques de datos de MP3 como elementos de canal de MP3 para dar lugar a un formato de canal múltiple dentro de un archivo de MPEG-4. Todas las entradas del elemento de canal de MP3 correspondientes a un punto de tiempo se empaquetaron en una unidad de acceso. Correspondiente al estándar de MPEG-4, la información adecuada para configuración en el lado de codificador puede tomarse del así llamado AudioSpecificConfig. Además del audioObjectType, la velocidad de muestreo y la configuración de canal, etc., el mismo incluye un descriptor relevante para el audioObjectType respectivo. Este descriptor se ha descrito anteriormente con respecto al MPEG_1_2_SpecificConfig.

De acuerdo con los ejemplos de realización previos, la syncword MPEG-1/2 de 12 bits en el encabezado se ha reemplazado por la longitud del elemento de canal de MP3 respectivo. De acuerdo con el ISO/IEC 13818-3, 12 bits son suficientes para ello. El encabezado restante no se ha modificado adicionalmente, lo que puede ocurrir, sin embargo, para acortar, por ejemplo, el encabezado de trama y la parte redundante residual excepto la syncword para reducir la cantidad de información que va a transmitirse.

Pueden llevarse a cabo fácilmente diferentes variaciones de los ejemplos de realización anteriores. De este modo, la secuencia en las etapas en las Figuras 3, 7, 8, puede alterarse, particularmente las etapas 42, 50, 56, 60, en la Figura 3, 11, 114, 118, 122 y 128 en la Figura 7, y 152, 154, 156 en la Figura 8.

Además, con respecto a las Figuras 3, 7, 8, debe notarse que las etapas mostradas ahí se llevan a cabo mediante características respectivas en el convertidor o reconstructor de las Figuras 2 o 6 que, por ejemplo, pueden realizarse como una computadora o un circuito de conexión por cable.

En el ejemplo de realización de la Figura 7, la manipulación de los encabezados o de la información secundaria, (etapas 118, 122) se ha llevado a cabo para formar la corriente de datos de MP3 ligeramente cambiada en comparación con la corriente de datos de MP3 original para los decodificadores de MP3 en el lado de receptor o de decodificador. En muchos casos de aplicación, puede ser ventajoso llevar a cabo estas etapas en el lado del codificador o del transmisor, dado que los aparatos de receptor son frecuentemente aparatos producidos en masa, de manera que el ahorro en electrónica del lado de receptor permite ganancias significativamente mayores. De acuerdo con un ejemplo de realización alternativo, puede estar previsto por tanto que estas etapas se llevan a cabo ya durante la conversión del formato de datos de MP3-MPEG-4. Las etapas de acuerdo con este procedimiento de conversión de formato alternativo se muestran en la Figura 9, en donde se proporcionan etapas idénticas a las de la Figura 3 con los mismos números de referencia y no se describen de nuevo para evitar repeticiones.

Primero, la corriente de datos de audio de MP3 que va a convertirse se recibe en la etapa 40, y en la etapa 42 los datos de audio correspondientes a una marca de tiempo o que representan la codificación de un período de tiempo de la señal de audio que va a codificarse a través de la corriente de datos de audio de MP3 correspondiente a la marca de tiempo respectiva, se combinan para formar un bloque coherente, y esto es para todas las marcas de

5

10

15

20

25

30

35

40

45

50

55

60

tiempo. Los encabezados se agregan de nuevo a los bloques coherentes para obtener los elementos de canal (etapa 50). Sin embargo, los encabezados no solo se modifican reemplazando la palabra de sincronización por la longitud del elemento de canal respectivo como en la etapa 56. Más bien, en las etapas 180 y 182 correspondientes a las etapas 118 y 122 de la Figura 7, siguen modificaciones adicionales. En la etapa 180, el indicador en la información secundaria de cada elemento de canal se ajusta a cero, y en la etapa 182, el índice de velocidad de transferencia de bits en el encabezado de cada elemento de canal se cambia de modo que tal como se describió anteriormente, la longitud del bloque de datos de MP3 dependiendo de la velocidad de transferencia de bits es suficiente para incluir todos los datos de audio de este elemento de canal o de la marca de tiempo correspondiente, conjuntamente con el tamaño del encabezado y de la información secundaria. La etapa 182 también comprende dado el caso convertir los bits de relleno en los encabezados de los elementos de canal sucesivos para producir una velocidad de transferencia de bits exacta después al suministrar la corriente de datos de audio de MPEG-4 formada mediante el procedimiento de la Figura 9 a un decodificador que opera de acuerdo con el procedimiento de la Figura 7 pero sin las etapas 118 y 122. El relleno por supuesto, puede llevarse a cabo también en el lado del decodificador dentro de la etapa 128.

En la etapa 182, puede ser útil ajustar el índice de velocidad de transferencia de bits no al más alto valor posible como se describe con respecto a la etapa 122. El valor también puede ajustarse al valor mínimo, que es suficiente para recibir todos los datos de audio, el encabezado y la información secundaria de un elemento de canal en una longitud de trama de MP3 calculada, que también puede significar que, en el caso de pasos cortos de la pieza de audio codificada, que pueden codificarse con una cantidad menor de coeficientes, se reduce el índice de velocidad de transferencia de bits.

Después de estas modificaciones, en las etapas 60 y 62, se genera meramente el encabezado de archivo (AudioSpecificConfig), y el mismo se emite junto con los elementos de canal de MP3 como corriente de datos de audio de MPEG-4. Lo mismo, como ya se ha mencionado, puede reproducirse de acuerdo con el procedimiento de la Figura 7, en donde, sin embargo, pueden omitirse las etapas 118 y 122, lo cual facilita la implementación en el lado del decodificador. Sin embargo, las etapas 42, 50, 56, 180, 182 y 60 pueden llevarse a cabo en cualquier orden.

La descripción previa se refería meramente de manera ejemplar a corrientes de datos de MP3 con longitud de bits de bloque de datos fija. Por supuesto, las corrientes de datos de MP3 con longitud de bloque de datos variable pueden procesarse de acuerdo con los ejemplos de realización previos, en los que el índice de velocidad de transferencia de bits y por tanto también la longitud del bloque de datos cambia de trama a trama.

La descripción previa se refería a corrientes de datos de audio de MP3. En otras corrientes de datos de audio no basadas en indicadores, un ejemplo de realización de la presente invención proporciona cambiar los encabezados en los bloques de datos de manera ejemplar de una corriente de datos de capa 2 de MPEG A que contiene, además de los encabezados, la información secundaria correspondiente y los datos de audio correspondientes y por tanto son ya autónomos para generar una corriente de datos de audio de MPEG-4. La cambio proporciona a cada encabezado una indicación de longitud que indica la cantidad de datos ya sea del bloque de datos respectivo o de los datos de audio en el bloque de datos respectivo de manera que la corriente de datos de MPEG-4 pueda decodificarse más fácilmente, particularmente cuando la misma se combina de varias corrientes de datos de audio de capa 2 de MPEG A para formar una corriente de datos de audio de canal múltiple, similar a la descripción anterior con respecto a la Figura 5. Preferentemente, la modificación se obtiene similar a la manera antes descrita reemplazando las palabras de sincronización u otra parte redundante de las mismas en los encabezados de la corriente de datos de capa 2 de MPEG A mediante indicaciones de longitud. El formato o resolución del indicador previo a la Figura 5 combinando los datos de audio correspondientes a una marca de tiempo se omite en las corrientes de datos de capa 2, dado que no existen retroindicadores ahí. La decodificación de una corriente de datos de audio de MPEG-4 que consta de dos corrientes de datos de audio de capa de MPEG 1/2 que representan dos canales de una corriente de datos de audio de canal múltiple puede llevarse a cabo fácilmente, leyendo las indicaciones de longitud, y basándose en estas accediendo rápidamente a los elementos de canal individuales en las unidades de acceso. estas pueden transmitirse entonces a decodificadores convencionales de acuerdo con MPEG A.

Además, no es significativo para la presente invención dónde se encuentra exactamente el retroindicador en los bloques de datos de la corriente de datos de audio basada en indicadores. Podría encontrarse además directamente en los encabezados de trama para definir un bloque de determinación coherente junto con los mismos.

Particularmente, debe notarse que, dependiendo de las condiciones, el esquema de la invención para la conversión del formato de archivo también podría implementarse en software. La implementación puede efectuarse en un medio de memoria digital, particularmente un disco o un CD con señales de control electrónicamente legibles, que pueden cooperar con un sistema de computadora programable de manera que se lleve a cabo el procedimiento correspondiente. De este modo, en general, la invención consiste también en un producto de programa de computadora con un código de programa almacenado en un vehículo legible en máquina para llevar a cabo el procedimiento de la invención cuando el producto de programa de computadora opera en una computadora. En

otras palabras, la invención también puede realizarse como un programa de computadora con un código de programa para llevar a cabo el procedimiento cuando el programa de computadora opera en una computadora.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

REIVINDICACIONES

1. Procedimiento para convertir una primera corriente de datos de audio, que representa una señal de audio codificada que comprende períodos de tiempo y que tiene un primer formato de archivo, en una segunda corriente de datos de audio que representa la señal de audio codificada y que tiene un segundo formato de archivo, comprendiendo un período de tiempo un número de valores de audio, y estando dividida de acuerdo con el primer formato de archivo la primera corriente de datos de audio en subsecuentes bloques de datos, presentando un bloque de datos un encabezado y datos de audio del bloque de datos, presentando todos los encabezados una parte redundante idéntica para todos los encabezados, con la siguiente etapa:

cambiar los bloques de datos para que los mismos incluyan una indicación de longitud que indique la cantidad de datos de los bloques de datos o una cantidad de datos de los datos de audio de bloque de datos para obtener de los bloques de datos elementos de canal que forman la segunda corriente de datos de audio, presentando la etapa de cambiar el reemplazo de la parte redundante, idéntica para todos los encabezados por la indicación de longitud,

presentando el procedimiento además una anteposición (60, 62) de un encabezado global a la segunda corriente de datos de audio, y presentando el encabezado global la parte redundante, idéntica para todos los encabezados, o siendo la parte redundante, idéntica para todos los encabezados una palabra de sincronización.
2. Procedimiento de acuerdo con la reivindicación 1, estando asociados al encabezado (14, 16) datos de audio de encabezado que se obtienen mediante codificación de un periodo de tiempo, incluyendo el encabezado un indicador que apunta a un inicio de los datos de audio de encabezado (12a-12c) y estando situado un final de los datos de audio de encabezado (12a-12c) antes de un inicio de datos de audio de encabezado (12a-12c) en la corriente de datos de audio que están asociados a un bloque de datos siguiente con las etapas siguientes:

combinar (42) los datos de audio de encabezado (44, 46) que están asociados a un encabezado a partir de al menos dos bloques de datos para obtener datos de audio de encabezado (48) coherentes que forman parte de la segunda corriente de datos de audio;

agregar (50) los datos de audio de encabezado (44, 46) coherentes al encabezado (14, 16) al que están asociados los datos de audio de encabezado (44, 46) a partir de los cuales se obtienen los datos de audio de encabezado coherentes para obtener un elemento de canal (52a); disponer los elementos de canal para obtener la segunda corriente de datos de audio; y

cambiar (56) el elemento de canal (54a-54c) para que el mismo incluya una indicación de longitud que indique la cantidad de datos del elemento de canal (54a-54c) o una cantidad de datos de los datos de audio de encabezado coherentes,

presentando la etapa de cambiar el reemplazo (56) de una parte redundante, idéntica para todos los encabezados por la indicación de longitud.
3. Procedimiento de acuerdo con la reivindicación 1 o 2, en el que la etapa de combinar comprende las siguientes subetapas de:

leer el indicador en un encabezado;

leer una primera parte de los datos de audio de encabezado que está incluida en los datos de audio del bloque de datos de uno de los al menos dos bloques de datos y que comprende el inicio de los datos de audio de encabezado a los cuales apunta el indicador del encabezado;

leer una segunda parte de los datos de audio del encabezado que está incluida en los datos de audio del bloque de datos del otro de los al menos dos bloques de datos y que comprende el final de los datos de audio del encabezado; y

juntar las primera y segunda partes.
4. Procedimiento para combinar una primera corriente de datos de audio que representa una primera señal de audio codificada y una segunda corriente de datos de audio que representa una segunda señal de audio codificada para formar una corriente de datos de audio de canal múltiple con las etapas siguientes:

convertir la primera corriente de datos de audio en una primera corriente de datos de audio parcial de acuerdo con el procedimiento de una de las reivindicaciones 1 a 3; y

convertir la segunda corriente de datos de audio en una segunda corriente de datos de audio parcial de acuerdo con el procedimiento de una de las reivindicaciones 1 a 3, llevándose a cabo las etapas de disponer, de manera que las dos corrientes de datos de audio parciales forman en conjunto la corriente de datos de audio de canal múltiple, y que en la corriente de datos de audio de canal múltiple los elementos de canal (70a) en cada caso de la primera corriente de datos de audio parcial y los elementos de canal (72a) de la segunda corriente de datos de audio parcial que contienen datos de audio de cabecera coherentes se obtienen codificando períodos de tiempo iguales en tiempo están dispuestos sucesivamente en una unidad de acceso (78) coherente.

5

10

15

20

25

30

35

40

45

50

55

60
5. Procedimiento de acuerdo con la reivindicación 4, que comprende además la etapa de:

anteponer un encabezado global a la segunda corriente de datos de audio, incluyendo el encabezado global una indicación de formato que indica en qué orden se disponen los elementos de canal (70a) de la primera corriente de datos de audio parcial y de la segunda corriente de datos de audio parcial (70b) en las unidades de acceso (78).
6. Procedimiento de acuerdo con una de las reivindicaciones previas, en el que los bloques de datos son bloques de datos de un tamaño igual o variable predeterminado que depende de una indicación de velocidad de muestreo y de una indicación de velocidad de transferencia de bits en el encabezado de los mismos.
7. Procedimiento de acuerdo con una de las reivindicaciones 1 a 3, que presenta además las siguientes etapas:

reajustar (180) los indicadores en los encabezados, de manera que los mismos indiquen como inicio de los datos de audio del encabezado, que los datos de audio del encabezado comienzan inmediatamente después del encabezado respectivo; y

cambiar (180) las indicaciones de velocidad de transferencia de bits en los encabezados de manera que una longitud del bloque de datos que depende de las indicaciones de velocidad de transferencia de bits de acuerdo con el primer formato de archivo de audio es suficiente para recibir el encabezado respectivo y los datos de audio del encabezado asociados.
8. Procedimiento para decodificar una segunda corriente de datos de audio que representa una señal de audio codificada que comprende períodos de tiempo y que tiene un segundo formato de archivo, basándose en un decodificador, que es capaz de decodificar una primera corriente de datos de audio que representa la señal de audio codificada y que tiene un primer formato de archivo para formar una señal de audio, comprendiendo un período de tiempo un número de valores de audio, y estando dividida, de acuerdo con el primer formato de archivo, la primera corriente de datos de audio en bloques de datos (10s, 10b) sucesivos con una función de depósito de bits, presentando un bloque de datos un encabezado (14, 16) y datos de audio del bloque de datos (18), estando asociados al encabezado (14, 16) datos de audio del encabezado que se obtienen codificando un período de tiempo, incluyendo el encabezado un indicador que apunta a un inicio de los datos de audio del encabezado (12a- 12c), y encontrándose un final de los datos de audio del encabezado (12a-12c) antes de un inicio de los datos de audio del encabezado (12a-12c) en la corriente de datos de audio, que están asociados a un siguiente bloque de datos, y estando dividida la segunda corriente de datos de audio en elementos de canal de acuerdo con el segundo formato de archivo, comprendiendo un elemento de canal datos de audio del encabezado (44, 46) coherentes obtenidos combinando los datos de audio del encabezado asociados a un encabezado a partir de dos bloques de datos, y el encabezado asociado, en una forma en la que una parte previamente redundante, que es idéntica para todos los encabezados, se modifica para reemplazarse por una indicación de longitud que indique la cantidad de datos del elemento de canal respectivo o una cantidad de datos de los datos del encabezado coherentes respectivos, estando antepuesto a la segunda corriente de datos de audio un encabezado global que presenta una parte redundante, idéntica para todos los encabezados con las etapas siguientes:

formar una corriente de datos de entrada que representa la señal de audio codificada y presenta tiene un primer formato de archivo, a partir de la segunda corriente de datos de audio mediante;

verificación de que en el caso de la segunda corriente de datos de audio se trata de una corriente de datos

reformateada a partir del primer formato de fichero;

lectura la parte idéntica, antes redundante desde el encabezado global;

reemplazo de la indicación de longitud en los encabezados por la parte idéntica, antes redundante; reajuste de los indicadores en los encabezados de los elementos de canal de la segunda corriente de datos de audio, de manera que los mismos indiquen como inicio de los datos de audio del encabezado que los datos de audio del encabezado comienzan inmediatamente después del encabezado respectivo para obtener los encabezados reajustados;

cambio de una indicación de velocidad de transferencia de bits en los encabezados de los elementos de canal de la segunda corriente de datos de audio de manera que una longitud del bloque de datos que depende de la indicación de velocidad de transferencia de bits, de acuerdo con el primer formato de archivo de audio sea suficiente en todos los encabezados para recibir el encabezado respectivo y los datos de audio del encabezado asociado para obtener encabezados con velocidad de transferencia de bits cambiada y reajustados; e

inserción de bis entre cada elemento de canal y el elemento de canal siguiente de manera que la longitud de cada elemento de canal más los bits insertados está adaptada a la indicación de velocidad de transferencia de bits cambiada, y

suministrar la corriente de datos de entrada al decodificador de acuerdo con la indicación de velocidad de transferencia de bits cambiada para obtener la señal de audio.

5

10

15

20

25

30

35

40

45

50

55

60
9. Aparato para convertir una primera corriente de datos de audio que representa una señal de audio codificada que comprende períodos de tiempo y que tiene un primer formato de archivo, en una segunda corriente de datos de audio que representa la señal de audio codificada y que tiene un segundo formato de archivo, comprendiendo un período de tiempo un número de valores de audio, y estando dividida de acuerdo con el primer formato de archivo, la primera corriente de datos de audio en subsecuentes bloques de datos, presentando un bloque de datos un encabezado y datos de audio del bloque de datos, presentando todos los encabezados una parte redundante idéntica para todos los encabezados con la siguiente característica:

un dispositivo para modificar los bloques de datos de manera que los mismos incluyan una indicación de longitud que indique la cantidad de datos de los bloques de datos o una cantidad de datos de los datos de audio del bloque de datos, para obtener de los bloques de datos elementos de canal que forman la segunda corriente de datos de audio, presentando la etapa de modificar el reemplazo de una parte redundante, idéntica para todos los encabezados, por la indicación de longitud,

presentando el aparato además un dispositivo para anteponer (60, 62) un encabezado global a la segunda corriente de datos de audio, y presentando el encabezado global la parte redundante, idéntica para todos los encabezados, o siendo la parte redundante, idéntica para todos los encabezados una palaba de sincronización.
10. Aparato de acuerdo con la reivindicación 9, estando asociados al encabezado (14, 16) datos de audio de encabezado que se obtienen mediante codificación de un periodo de tiempo, incluyendo el encabezado un indicador que apunta a un inicio de los datos de audio de encabezado (12a-12c) y encontrándose un final de los datos de audio de encabezado (12a-12c) antes de un inicio de datos de audio de encabezado (12a-12c) en la corriente de datos de audio que están asociados a un bloque de datos siguiente con las características siguientes:

un dispositivo para combinar (42) los datos de audio de encabezado (44, 46) que están asociados a un encabezado a partir de al menos dos bloques de datos para obtener datos de audio de encabezado (48) coherentes que forman parte de la segunda corriente de datos de audio;

un dispositivo para agregar (50) los datos de audio de encabezado (44, 46) coherentes al encabezado (14, 16) al que están asociados los datos de audio de encabezado (44, 46) a partir de los cuales se obtienen los datos de audio de encabezado coherentes para obtener un elemento de canal (52a); y

un dispositivo para disponer los elementos de canal para obtener la segunda corriente de datos de audio; y un dispositivo para modificar (56) el elemento de canal (54a-54c) para que el mismo incluya una indicación de longitud que indique la cantidad de datos del elemento de canal (54a-54c) o una cantidad de datos de los datos de audio de encabezado coherentes, estando configurado el dispositivo para modificar (56) para reemplazar una parte redundante, idéntica para todos los encabezados por la indicación de longitud.
11. Aparato para decodificar una segunda corriente de datos de audio que representa una señal de audio codificada que comprende períodos de tiempo y que tiene un segundo formato de archivo, basándose en un decodificador, que es capaz de decodificar una primera corriente de datos de audio que representa la señal de audio codificada y que tiene un primer formato de archivo, para formar una señal de audio, comprendiendo un período de tiempo un número de valores de audio, y estando dividida de acuerdo con el primer formato de archivo, la primera corriente de datos de audio en bloques de datos (10a-10c) sucesivos con función de depósito de bits, presentando un bloque de datos un encabezado (14, 16) y datos de audio del bloque de datos (18), estando asociados al encabezado (14, 16) datos de audio del encabezado que se obtienen codificando un período de tiempo, incluyendo el encabezado un indicador que apunta a un inicio de los datos de audio del encabezado (12a-12c), y encontrándose un final de los datos de audio del encabezado (12a-12c) antes de un inicio de los datos de audio del encabezado (12a-12c) en la corriente de datos de audio que están asociados a un siguiente bloque de datos, y estando dividida la segunda corriente de datos de audio en elementos de canal de acuerdo con el segundo formato de archivo, comprendiendo un elemento de canal datos de audio del cabecero (44, 46) coherentes que se obtienen combinando los datos de audio del encabezado asociados a un encabezado a partir de dos bloques de datos, y el encabezado asociado, en una forma en la que una parte previamente redundante, que es idéntica para todos los encabezados, se modifica para reemplazarse por una indicación de longitud que indique la cantidad de datos del elemento de canal respectivo o una cantidad de datos de los datos del encabezado coherentes respectivos, estando antepuesta a la segunda corriente de datos de audio un encabezado global que presenta una parte redundante, idéntica para todos los encabezados, con las siguientes características:

un dispositivo para formar una corriente de datos de entrada que representa la señal de audio codificada y que presenta un primer formato de archivo, a partir de la segunda corriente de datos de audio; mediante

verificación de que en el caso de la segunda corriente de datos de audio se trata de una corriente de datos

reformateada a partir del primer formato de fichero;

lectura de la parte idéntica, antes redundante desde el encabezado global;

reemplazo de la indicación de longitud en los encabezados por la parte idéntica, antes redundante; reajuste de los indicadores en los encabezados de los elementos de canal de la segunda corriente de datos de audio,

5

10

15

20

25

de manera que los mismos indiquen como un inicio de los datos de audio del encabezado que los datos de audio del encabezado comienzan inmediatamente después del encabezado respectivo para obtener los encabezados reajustados;

cambio de una indicación de velocidad de transferencia de bits en los encabezados de los elementos de canal de la segunda corriente de datos de audio de manera que una longitud del bloque de datos que depende de la indicación de velocidad de transferencia de bits de acuerdo con el primer formato de archivo de audio sea suficiente en todos los encabezados para recibir el encabezado respectivo y los datos de audio del encabezado asociados para obtener encabezados con velocidad de transferencia de bits cambiada y reajustados; e

inserción de bits entre cada elemento de canal y el elemento de canal subsecuente, de manera que la longitud de cada elemento de canal más los bits insertados está adaptada a la indicación de velocidad de transferencia de bits cambiada, y

un dispositivo para suministrar la corriente de datos de entrada al decodificador de acuerdo con la indicación de velocidad de transferencia de bits cambiada para obtener la señal de audio.
12. Aparato de acuerdo con la reivindicación 11, siendo la parte redundante idéntica para todos los encabezados una palabra de sincronización.
13. Aparato de acuerdo con la reivindicación 11 o 12, estando configurado el dispositivo para formar la corriente de datos de entrada para ajustar en el cambio de la indicación de velocidad de transferencia de bits la misma a un valor más alto permisible.
14. Programa de computadora con un código de programa para llevar a cabo el procedimiento de acuerdo con una de las reivindicaciones 1 u 8 cuando el programa de computadora opera en una computadora.