ES2315992T3 - Control de nivel de audio para audio comprimido. - Google Patents
Control de nivel de audio para audio comprimido. Download PDFInfo
- Publication number
- ES2315992T3 ES2315992T3 ES06076046T ES06076046T ES2315992T3 ES 2315992 T3 ES2315992 T3 ES 2315992T3 ES 06076046 T ES06076046 T ES 06076046T ES 06076046 T ES06076046 T ES 06076046T ES 2315992 T3 ES2315992 T3 ES 2315992T3
- Authority
- ES
- Spain
- Prior art keywords
- audio
- mpeg
- level
- compressed audio
- stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
Un método de detección del nivel de audio para audio comprimido (216) de una corriente (104) de datos, que comprende: (a) extraer (320) factores de escala (214) para el audio comprimido (216) a partir de la corriente (104) de datos; y (b) realizar (320, 322) una detección de nivel para el audio comprimido (216) utilizando los factores de escala (214) extraídos sin descomprimir el audio comprimido (216) a través de: (1) determinar (320) el cuadrado de un valor de pico de voltaje analógico derivado para cada uno de los factores de escala (214); (2) obtener (322) la raíz cuadrada de la suma de los cuadrados a través de un cuadro; (3) normalizar (322) la raíz cuadrada en base a un número de canales presente en el audio comprimido (216); y (4) comparar (322) la raíz cuadrada normalizada con un umbral para determinar si el audio comprimido (216) excede un nivel especificado.
Description
Control de nivel de audio para audio
comprimido.
El presente invento se refiere al control del
nivel de audio para datos comprimidos.
La televisión digital, tal como la proporcionada
por DIRECTV®, la cesionaria del presente invento, se transmite
típicamente como una corriente de datos digitales codificados
utilizando la norma MPEG (Grupo de expertos en películas
cinematográficas) promulgada por la ISO (Organización internacional
para la estandarización). La MPEG proporciona una manera eficaz de
representar video y audio en forma de una corriente de bits
comprimidos.
La norma MPEG-1 se describe en
un documento titulado "Codificación de imágenes en movimiento y
audio asociado para medios digitales de almacenamiento hasta a,
aproximadamente, 1,5 Mbit/s", ISO/IEC 11172 (1993). La norma
MPEG-1 también se describe en un documento titulado
"ISO-MPEG-1 audio: una norma
genérica para codificar audio digital del alta calidad" de
BRANDENBURG K y otros, JOURNAL OF THE AUDIO ENGINEERING SOCIETY,
Octubre de 1994, paginas 780-792, XP000978167. La
norma MPEG-2 se describe en un documento titulado
"Codificación genérica de imágenes en movimiento e información de
audio asociada", ISO/IEC-13818 (1998).
Aún cuando se trata de una emisora por satélite,
DIRECTV® ofrece a sus abonados programación local, es decir,
canales de televisión local, que requieren que cada uno de los
canales de televisión en una ciudad se codifiquen en MPEG y se
multiplexen estadísticamente en una instalación de recogida, antes
de ser transportados, mediante una portadora común, a un centro
emisor para envío por un enlace ascendente hacia satélites operados
por DIRECTV®. Pueden cerrarse acuerdos con otras emisoras por
satélite y operadores de cable para compartir estas instalaciones de
recogida con el fin de reducir costes.
Además, los proveedores de programas, tales como
Disney®, Viacom®, HBO®, Showtime®, Starz®, ESPN®, etc., proporcionan
con frecuencia a DIRECTV® una corriente de datos MPEG previamente
codificados y multiplexados estadísticamente. Estos proveedores de
programas pueden pedir que la corriente de datos MPEG sea hecha
pasar directamente a abonados de DIRECTV® sin descodificación y
nueva codificación.
Sin embargo, pueden surgir problemas al utilizar
estas distintas corrientes de datos MPEG debido a que los
diferentes emisores por satélite, operadores de cable y proveedores
de programas, pueden utilizar diferentes normas que den como
resultado distintos niveles de audio. Por ejemplo, DIRECTV® sigue la
recomendación de la SMPTE (Sociedad de ingenieros de películas
cinematográficas y televisión), de que un nivel de referencia de 0
dB se encuentra a -20 dB de la escala digital completa, mientras que
otras emisoras por satélite, operadores de cable o proveedores de
programas pueden funcionar con un nivel de referencia de 0 dB que
está a -17 dB de la escala digital completa.
Si estas diferentes corrientes de datos MPEG
utilizan una o más normas diferentes, entonces los canales de
emisión resultantes aparecerán demasiado fuertes o demasiado suaves,
en comparación con otros canales. Así, existe la necesidad de
cambiar los niveles de audio de una corriente de datos de audio
MPEG.
Existen aplicaciones adicionales en las que es
necesario disponer de la capacidad de cambiar los niveles de audio
de una corriente de datos MPEG. Por ejemplo, la producción de
televisión trabaja, generalmente, con un amplio margen dinámico,
ofreciendo la posibilidad de que un programador creativo "suba"
el audio durante escenas de clímax. Asimismo, la música clásica
trabaja, con frecuencia, con un amplio margen dinámico.
Por otra parte, la música más popular tiene
fuertemente limitado su margen dinámico. Esta limitación del margen
dinámico se debe a muchas razones:
- 1)
- El artista desea que la música suene alta.
- 2)
- Las estaciones de radio creen, con frecuencia, que mantener un silencio es dejar de emitir.
- 3)
- En un ambiente con un elevado nivel de ruido, tal como en un automóvil, un estadio u otro recinto público, es necesario disponer de un estrecho margen dinámico para hacerse oír sobre el ruido.
- 4)
- La tecnología de grabación imparte un elevado nivel de ruido, por ejemplo, en las cintas de casete y un margen dinámico limitado enmascara el ruido.
- 5)
- La tecnología de reproducción tiene un margen dinámico limitado, por ejemplo, los dispositivos de audición personales activados por baterías.
En lo que respecta a los reproductores MPEG, el
nivel de referencia de 0 dB para muchos de estos dispositivos se
encuentra a -10 dB de una escala digital completa. En consecuencia,
si una corriente de datos de audio MPEG utiliza un nivel de
referencia de 0 dB a -20 dB de la escala digital completa, entonces
el control de volumen del dispositivo tendría que ser incrementado
en 10 dB para compensar. Sin embargo, en muchos de estos
dispositivos existe un margen de ganancia limitado, ya que no
soportan un audio con un gran margen dinámico. Entonces, una
solución mejor es cambiar los niveles de audio de la corriente de
datos de audio MPEG.
En la técnica anterior, un método de alterar los
niveles de audio comprendería (1) descodificar (descomprimir) la
corriente de datos de audio MPEG, (2) ajustar la ganancia, y (3)
codificar (comprimir de nuevo) la corriente de datos de audio MPEG.
Este método es ventajoso porque codificadores y descodificadores
comercialmente disponibles pueden comprarse a precio relativamente
bajo. Sin embargo, este método tiene muchos inconvenientes,
incluyendo la inyección de un retardo de tiempo considerable, al
menos 48 milisegundos (ms), así como un aumento del ruido y de la
distorsión provocado por, todavía, otra nueva cuantización del
audio.
En consecuencia, existe la necesidad de poder
cambiar los niveles de audio de corrientes de datos de audio MPEG
sin descomprimir los datos de audio dentro de las corrientes de
datos de audio MPEG, alterar los niveles de ganancia de los datos
de audio y, luego, volver a comprimir los datos de audio dentro de
las corrientes de datos de audio MPEG.
\vskip1.000000\baselineskip
Un objetivo de la invención es proporcionar un
método de detección de nivel de audio para audio comprimido y un
aparato para ello, tal como se reivindica en las reivindicaciones
adjuntas.
\vskip1.000000\baselineskip
Nos referiremos ahora a los dibujos, en los que
números de referencia similares representan partes correspondientes
en todos ellos:
la Fig. 1 es un diagrama de bloques que ilustra
un entorno ilustrativo utilizado para llevar a la práctica la
realización preferida del invento;
la Fig. 2 es un diagrama de bloques que ilustra
la estructura de una corriente de datos de audio MPEG; y
la Fig. 3 es una gráfica de flujo que ilustra la
lógica ejecutada por un proceso de alteración de ganancia para
cambiar los factores de escala sin alterar los datos de audio
comprimidos en sub-bandas, con el fin de
proporcionar un control del nivel de audio.
\vskip1.000000\baselineskip
En la descripción siguiente, se hace referencia
a los dibujos adjuntos, que forman parte de la misma y que
muestran, a modo de ilustración, varias realizaciones del presente
invento. Ha de entenderse que pueden utilizarse otras realizaciones
y que pueden llevarse a cabo cambios estructurales sin apartarse del
alcance del presente invento.
El presente invento se refiere al control del
nivel de audio para audio comprimido. Específicamente, el presente
invento se refiere a la extracción de factores de escala para el
audio comprimido desde una corriente de datos de audio MPEG, la
alteración de los factores de escala extraídos sin descomprimir el
audio comprimido con el fin de proporcionar un control del nivel de
audio, y la actualización de la corriente de datos de audio MPEG
con los factores de escala alterados. Todos los factores de escala
de la corriente de datos de audio MPEG son alterados basándose en
un parámetro que identifica cómo han de alterarse los niveles de
ganancia de la corriente de datos MPEG.
En consecuencia, si una corriente de datos de
audio es demasiado fuerte o demasiado suave, el nivel de audio
puede regularse en la forma deseada con el fin de mantener niveles
de escucha uniformes. Esto supone una mejora con respecto a las
técnicas anteriores que descomprimen los datos de audio, alteran los
niveles de ganancia de los datos de audio y, luego, vuelven a
comprimir los datos de audio, en las que el ciclo de descompresión
y nueva compresión provoca el deterioro de la calidad de la señal y
retarda el audio.
La Fig. 1 es un diagrama de bloques que muestra
un entorno ilustrativo utilizado para llevar a la práctica la
realización preferida del invento. En el entorno ilustrativo, un
procesador 100 puede incluir, entre otros, lógica, memoria y varios
periféricos diferentes. De preferencia, el procesador 100 ejecuta un
proceso 102 de alteración de ganancia, que realiza un cambio del
nivel de audio, así como una detección del nivel de audio,
directamente sobre una corriente de datos de audio MPEG, sin
descomprimir y, luego, volver a comprimir los datos de audio dentro
de la corriente de datos de audio MPEG. Específicamente, el proceso
102 de alteración de ganancia acepta como entrada una corriente 104
de datos de audio MPEG, altera los factores de escala
sub-banda encontrados en la corriente 104 de datos
de audio MPEG, actualiza la corriente 104 de datos de audio MPEG
con los factores de escala de sub-banda alterados y,
luego, emite como salida la corriente 106 de datos de audio MPEG
actualizada.
Generalmente, el proceso 102 de alteración de
ganancia comprende lógica, instrucciones y/o datos que están
incorporados en un dispositivo, medio, portador o señal, por ejemplo
el propio procesador 100, o que pueden ser recuperados de él, una
memoria, dispositivo de almacenamiento de datos o dispositivo remoto
acoplado al procesador 100, etc. Además, esta lógica, instrucciones
y/o datos, cuando son utilizadas, ejecutadas y/o interpretadas por
el procesador 100, hacen que éste lleve a cabo los pasos necesarios
para llevar a la práctica y/o usar el presente invento. En
consecuencia, el presente invento puede ser incorporado como un
método, aparato o artículo de fabricación que emplee software,
firmware (soporte lógico inalterable) o cualquier combinación de
ellos. Los expertos en la técnica reconocerán que en esta
configuración pueden realizarse muchas modificaciones sin salirse
por ello del alcance del presente invento.
La Fig. 2 es un diagrama de bloques que ilustra
la estructura de una corriente 200 de datos de audio MPEG. Capas I,
II y III dentro de la corriente 200 de datos de audio MPEG se
muestran como tramas separados 202, 204 y 206.
Cada cuadro 202, 204 y 206 incluye una cabecera
206 que va seguida por una comprobación de redundancia cíclica
opcional (CRC) 210 de 16 bits de longitud. La cabecera 208 es de 32
bits e incluye la siguiente información:
- \bullet
- vocablo de sincronismo - 12 bits (todos 1)
- \bullet
- vocablo de sistema - 20 bits
- \sqbullet
- Identificador de versión - 1 bit
- \sqbullet
- Capa - 2 bits
- \sqbullet
- Protección contra errores - 1 bit
- \sqbullet
- Índice de tasa binaria - 4 bits
- \sqbullet
- Índice de tasa de frecuencia de muestreo - 2 bits
- \sqbullet
- Relleno - 1 bit
- \sqbullet
- Privado - 1 bit
- \sqbullet
- Modo - 2 bits
- \sqbullet
- Extensión de modo - 2 bits
- \sqbullet
- Derechos de copia - 1 bit
- \sqbullet
- Original o copia - 1 bit
- \sqbullet
- Énfasis - 2 bits
\vskip1.000000\baselineskip
La CRC 210, si está presente, es utilizada para
detectar errores.
En el cuadro 202 de la capa I, la CRC 210 va
seguida por una asignación de bit 212 (128-256 bits
de longitud), factores de escala 214 (0-384 bits de
longitud), muestras 216 (384 bits de longitud) y datos auxiliares
218. En el cuadro 204 de la capa II, la CRC 210 va seguida por una
asignación de bit 212 (26-188 bits de longitud),
información de selección de factor de escala (SCFSI) 220
(0-60 bits de longitud), factores de escala 214
(0-1080 bits de longitud), muestras 216 (1152 bits
de longitud) y datos auxiliares 218. En el cuadro 206 de la capa
III, la CRC 210 va seguida por información lateral 222
(136-256 bits de longitud) y un depósito de bits
224.
La asignación de bit 212 determina el número de
bits por muestra para la capa I o el número de niveles de
cuantización para la capa II. Específicamente, la asignación de bits
212 especifica el número de bits asignado para cuantización de cada
sub-banda. Estas asignaciones se realizan de manera
adaptable, de acuerdo con el contenido de información de la señal
de audio, por lo que la asignación de bits 212 varía en cada cuadro
202, 204. Las muestras 216 pueden codificarse con bits cero (es
decir, no hay datos presentes), o con entre dos y quince bits por
muestra.
Los factores de escala 214 se codifican para
indicar sesenta y tres posibles valores que se codifican como
diseños de índice de seis bits, desde "000000" (0), que designa
el factor de escala máximo, hasta "111111" (62) que designa el
factor de escala mínimo. Cada sub-banda de las
muestras 216 tiene un factor de escala 214 asociado que define el
nivel al que se recombina cada sub-banda durante la
descodificación.
Las muestras 216 comprenden datos de audio
comprimidos para cada una de treinta y dos
sub-bandas. Un cuadro 202 de la capa I comprende
doce muestras por sub-banda. Un cuadro 204 de la
capa II comprende treinta y seis muestras por
sub-banda.
En la capa II 204, las muestras 216 de cada
cuadro se dividen en tres partes, cada una de las cuales comprende
doce muestras por sub-banda. Para cada
sub-banda, la SCFSI 220 indica si las tres partes
tienen factores de escala 214 separados o si las tres partes tienen
el mismo factor de escala 214, o si dos partes (las dos primeras o
las dos últimas) tienen un factor de escala 214 y la otra parte
tiene otro factor de escala 214.
Durante la descompresión, se proporcionan las
muestras 216 a un cuantizador inverso, que selecciona valores
predeterminados de acuerdo con la asignación de bits 212 y lleva a
cabo una operación de descuantización, en la que los valores
descuantizados son multiplicados, luego, por los factores de escala
214 para obtener valores no normalizados. Así, si se cambian todos
los factores de escala 214 de sub-banda, se alterará
el nivel de audio. Además, estos cambios de los factores de escala
214 pueden llevarse a cabo sin alteración de los datos de audio
comprimidos de las sub-bandas.
La Fig. 3 es una gráfica de flujo que ilustra la
lógica seguida por el proceso 102 de alteración de ganancia para
cambiar los factores de escala 214 sin alterar los datos de audio
comprimidos de las sub-bandas, de acuerdo con una
realización preferida del presente invento. A este respecto, el
proceso 102 de alteración de ganancia es un filtro en el que entra
la corriente 104 de datos de audio MPEG, se alteran los factores de
escala 214 y se actualiza la corriente 106 de datos de audio MPEG
de salida con los factores de escala 214 alterados (pero que por lo
demás no sufre más cambios con respecto a la corriente 104 de datos
de audio MPEG). En la realización preferida, el proceso 102 de
alteración de ganancia solamente incurre en una latencia de 2 bytes
en su tratamiento, lo que provoca un retardo mínimo.
El bloque 300 representa el proceso 102 de
alteración de ganancia aceptando un byte cada vez de la corriente
104 de datos de audio MPEG de entrada, así como un parámetro que
identifica cómo han de alterarse los niveles de ganancia de la
corriente 104 de datos de audio MPEG de entrada.
El bloque 302 representa la lógica de una
sentencia CASE que es activada por un valor de estado corriente, en
la que el control se transfiere a los bloques
304-322, dependiendo del valor de estado corriente.
Tras haberse ejecutado la lógica de los bloques
304-322 para el estado corriente, el control se
transfiere al bloque 324, que emite como salida un número de bytes
indicado por los bloques 304-322 a la corriente 106
de audio MPEG de salida. Después de eso, el control retorna al
bloque 300 para tratar el siguiente byte de entrada.
El bloque 304 representa un estado de 0. En este
estado, el proceso 102 de alteración de ganancia espera hasta
recibir el primer byte del vocablo de sincronismo procedente de la
cabecera 208 de la corriente 104 de datos de audio MPEG de entrada.
Específicamente, si el byte de entrada es igual a 0xff, entonces se
incrementa el estado; de otro modo, no ocurre nada. Después, el
control es transferido al bloque 324, que emite como salida el byte
de entrada sin cambios.
El bloque 306 representa un estado de 1. En este
estado, el proceso 102 de alteración de ganancia examina el byte de
entrada para determinar si es el segundo byte a continuación del
primero del vocablo de sincronismo procedente de la cabecera 208 de
la corriente 104 de datos de audio MPEG de entrada, cuyo segundo
byte incluye los 4 bits menos significativos del vocablo de
sincronismo de 12 bits de la cabecera 208 y los 4 bits más
significativos del vocablo de sistema de 20 bits de la cabecera 208.
Si no es así, entonces el estado es devuelto a 0 y se transfiere el
control al bloque 324, que emite como salida el byte de entrada sin
cambios. De otro modo se extraen los bits de protección contra
errores y de capa de entre los 4 bits más significativos del
vocablo de sistema de 20 bits de la cabecera 208 de la corriente 104
de datos de audio MPEG de entrada. Si la protección contra errores
es 1 (activa) o si la capa no es 2 (capa II MPEG), entonces el
estado es devuelto a 0 y se transfiere el control al bloque 324,
que emite como salida el byte de entrada sin cambios. (Obsérvese
que esta realización solamente soporta audio de capa II MPEG sin
protección). De otro modo, se incrementa el estado y se transfiere
el control al bloque 324, que emite como salida el byte de entrada
sin cambios.
El bloque 308 representa un estado de 2. En este
estado, el proceso 102 de alteración de ganancia extrae el índice
de frecuencia binaria y el índice de tasa de frecuencia de muestreo
de entre 8 bits adicionales del vocablo del sistema de 20 bits de
la cabecera 208 de la corriente 104 de datos de audio MPEG de
entrada. El índice de tasa binaria, junto con la capa (2)
previamente extraída, se emplean como índice en una tabla de tasa
binaria, que determina una tasa binaria. El índice de tasa de
frecuencia de muestreo se utiliza como índice en una tabla de tasa
de frecuencia de muestreo que determina una tasa de frecuencia de
muestreo. Si la tasa de frecuencia de muestreo no es válida,
entonces el estado es devuelto a 0; de otro modo, se incrementa el
estado. Se transfiere entonces el control al bloque 324, que emite
como salida el byte de entrada sin cambios.
El bloque 310 representa un estado de 3. En este
estado, el proceso 102 de alteración de ganancia extrae el modo y
la extensión de modo de los 8 bits finales del vocablo de sistema de
20 bits de la cabecera 208 de la corriente 104 de datos de audio
MPEG de entrada. Con el modo y la extensión de modo, así como una
tasa de frecuencia de muestreo obtenida a partir del estado 2, se
determinan varias sub-bandas y varios canales para
cada sub-banda. Se incrementa el estado y, luego, se
transfiere el control al bloque 324, que emite como salida el byte
de entrada sin cambios.
El bloque 312 representa un estado de 4. En este
estado, el proceso 102 de alteración de ganancia recoge el primer
byte de la CRC 210 de la corriente 104 de datos de audio MPEG de
entrada. Se incrementa el estado y, luego, se transfiere el control
al bloque 324, que emite como salida el byte de entrada sin
cambios.
El bloque 314 representa un estado de 5. En este
estado, el proceso 102 de alteración de ganancia recoge el segundo
byte de la CRC 210 de la corriente 104 de datos de audio MPEG de
entrada. Se incrementa el estado y, luego, se transfiere el control
al bloque 324, que emite como salida el byte de entrada sin cambios.
Obsérvese que los estados 4 y 5 recogerían la CRC 210 para
recálculo posterior después de haber sido alterados los factores de
escala 214. Sin embargo, en esta exposición se omite la descripción
de la CRC 210.
El bloque 316 representa un estado de 6. En este
estado, el proceso 102 de alteración de ganancia extrae la
asignación de bit 210 de la corriente 104 de datos de audio MPEG de
entrada. El número de bytes de entrada recibidos mientras se está
en este estado es determinado por el número de
sub-bandas y el número de modos. En consecuencia,
el proceso 102 de alteración de ganancia se mantiene en este estado
hasta que se ha recibido la totalidad de la asignación de bit 210.
Hasta que eso ocurre, el estado no cambia y, luego, el control es
transferido al bloque 324, que emite como salida el byte de entrada
sin cambios. Una vez recibida la totalidad de la asignación de bit
210, se incrementa el estado y se transfiere, entonces, el control
al bloque 324, que también emite como salida el byte de entrada sin
cambios.
El bloque 318 representa un estado de 7. En este
estado, el proceso 102 de alteración de ganancia extrae la SCFSI
220 de la corriente 104 de datos de audio MPEG de entrada. El tamaño
del campo SCFSI 220 se basa en el número de
sub-bandas y en la asignación de bit 210. En
consecuencia, el proceso 102 de alteración de ganancia se mantiene
en este estado hasta que se ha recibido la totalidad de la SCFSI.
Hasta que eso ocurra, el estado no cambia y, luego, el control se
transfiere al bloque 324, que emite como salida el byte de entrada
sin cambios. Una vez recibida la totalidad de la SCFSI se
incrementa el estado y, entonces, se transfiere el control al
bloque 324, que también emite como salida el byte de entrada sin
cambios.
El bloque 320 representa un estado de 8. En este
estado, el proceso 102 de alteración de ganancia extrae los
factores de escala 214 para cada sub-banda de la
corriente 104 de datos de audio MPEG de entrada, cuyos factores de
escala 214 comprenden multiplicadores para
sub-bandas de los datos de audio. Una vez que se ha
extraído un factor de escala 214, se le altera, por ejemplo se le
incrementa o se le decrementa, de acuerdo con el parámetro que
identifica cómo han de alterarse los niveles de ganancia de la
corriente 104 de datos de audio MPEG de entrada.
Cada factor de escala 214 ocupa seis bits, que
no están en alineación en un byte. En consecuencia, para alterar
los factores de escala 214 hay momentos cuando los resultados de un
byte de entrada previo tienen que ser retenidos para un byte de
entrada adicional, antes de que puedan ser alterados y, luego,
emitidos como salida. Mientras se están extrayendo los factores de
escala 214, el estado se mantiene sin cambios y, luego, el control
es transferido al bloque 324, que emite como salida el número de
bytes para los factores de escala 214 alterados (0, 1 o 2) a medida
que están disponibles.
Los factores de escala 214 son enteros que van
de 0 a 63 y se utilizan como multiplicadores para la salida de
sub-banda. Los factores de escala 214 alterados son
limitados y no se inician de nuevo. En cambio, los factores de
escala 214 alterados están limitados a 0 o 63, no disminuyendo los
factores de escala 214 alterados por debajo de un mínimo (0) ni
aumentando por encima de un máximo (63).
El que los factores de escala 214 alterados
estén limitados mientras disminuye la ganancia quiere decir que un
error ocurriría en un nivel de amplitud de -140 dB, que está muy por
debajo del umbral de percepción auditiva. Por otra parte, el que
los factores de escala 214 alterados estén limitados mientras crece
la ganancia, quiere decir que todas las otras
sub-bandas verán aumentada su amplitud, mientras
esta sub-banda no puede aumentar tanto. Sin
embargo, este efecto es, con frecuencia, muy notable, aunque no es
probable que ocurra, ya que haría necesario incrementar el volumen
hasta un nivel excesivamente alto, por ejemplo de unos 20 dB por
encima del nivel medio.
Como se ha hecho notar en lo que antecede, el
proceso 102 de alteración de ganancia continúa en este estado hasta
que se han alterado todos los factores de escala 214, en cuyo
momento se incrementa el estado y se transfiere el control,
entonces, al bloque 324 que emite como salida el número de bytes
para los últimos factores de escala 214 alterados restantes (1 o
2).
El bloque 322 representa un estado de 9. En este
estado, el proceso 102 de alteración de ganancia no realiza función
alguna. En consecuencia, el estado se mantiene sin cambios y el
control se transfiere, entonces, al bloque 324, que emite como
salida el byte de entrada sin cambios. El proceso 102 de alteración
de ganancia continúa en este estado hasta que es repuesto
externamente. De preferencia, el proceso 102 de alteración de
ganancia es repuesto externamente basándose en el número de bytes de
datos y leyendo la tasa binaria y la tasa de frecuencia de muestreo
a partir de la cabecera MPEG.
Además de alterar el nivel de audio de la
corriente de datos de audio MPEG, el presente invento también puede
llevar a cabo una detección de nivel para el audio comprimido, cuya
detección de nivel determina si todavía está presente audio. Esto
ocurre porque los factores de escala 214 de la corriente de datos de
audio MPEG representan un valor de pico del nivel de
sub-banda por encima de los 24 ms de cada paquete de
la corriente de datos de audio MPEG.
La detección de nivel para el audio comprimido
supone: (1) obtener la raíz cuadrada de la suma de los cuadrados de
los factores de escala 214 a través de un cuadro 202, 204; (2)
normalizar la raíz cuadrada basándose en un número de canales
presentes en el audio comprimido; y (3) comparar la raíz cuadrada
normalizada con un umbral para determinar si el audio comprimido
supera un nivel especificado. La raíz cuadrada normalizada de una
suma de cuadrados de los factores de escala 214 proporciona una
buena estimación del nivel de audio.
Tal función tiene utilidad, no como medio para
medir con precisión el nivel de audio, sino como medio para
determinar si todavía está presente audio. Aún cuando el nivel de
audio medido es preciso hasta, quizás, solamente 5 dB, el presente
invento puede determinar que está presente audio. Por tanto, si se
determina que el nivel de audio para cierto número de paquetes
secuenciales está sustancialmente por debajo de lo que sería de
esperar normalmente (por ejemplo, más de 30 dB por debajo),
entonces puede suponerse que algo ha fallado aguas arriba.
Para conseguir esta detección del nivel de
audio, se realiza cierto número de adiciones a la lógica de la Fig.
3 anterior. Estas adiciones se describen en lo que sigue.
El bloque 320 utiliza una tabla para determinar
un valor entero para cada factor de escala 214 correspondiente que
represente el cuadrado del valor de pico de voltaje analógico
derivado. El bloque 320 almacena la suma de estos cuadrados a
través de un cuadro 202 o 204.
El bloque 322 obtiene la raíz cuadrada de la
suma de los cuadrados almacenados en el bloque 320, en un punto en
que el proceso 102 de alteración de ganancia ha completado su
tratamiento de una trama 202 o 204. Se normaliza entonces la raíz
cuadrada, dependiendo del número de canales presentes en el audio
comprimido, que representa el cuadrado de la tensión de entrada
estimada. La raíz cuadrada normalizada es comparada con un umbral
para determinar si el audio comprimido supera un nivel
especificado, por encima del cual un canal de audio puede ser
declarado activo.
Además, la propia detección de nivel puede
utilizarse para iniciar una alteración de los niveles de audio,
formando por tanto un sencillo control de ganancia automático. Por
ejemplo, si durante algún período de tiempo se ve que el nivel de
audio es demasiado bajo o demasiado alto, entonces puede ajustarse
el nivel de ganancia empleando la lógica de la Fig. 3, para llevar
al nivel de audio a un valor predeterminado.
Esto lo ejecutarían los bloques 320 o 322
examinando el nivel de pico durante un cierto período de tiempo y,
si se determina que el nivel es demasiado bajo o demasiado alto,
alterando entonces la ganancia a un valor predeterminado mediante
el empleo de la lógica de la Fig. 3. El examen del nivel de pico
durante un largo período de tiempo mitiga los errores de medición y
de control.
El presente invento incluye varias
características y ventajas únicas:
- 1)
- La alteración del nivel de audio en una corriente de datos de audio MPEG debe realizarse sin un retardo apreciable. Generalmente, una descodificación y codificación de la corriente de datos de audio MPEG requiere, al menos, 48 ms de retardo. Sin embargo, para difusión, el audio está asociado con vídeo y, a no ser que se inyecte un retardo de vídeo adicional, a un espectador le parecerá que los labios se mueven mucho antes de que se oiga el diálogo, generándose un problema con la sincronización de los labios.
- 2)
- El presente invento demuestra una elevada eficacia desde el punto de vista del cálculo. Por ejemplo, un software de prueba ejecutado en un ordenador personal hizo variar el nivel de audio de una corriente de datos de audio MPEG a más de 20 veces el tiempo real, cuando una codificación y una descodificación MPEG solamente funcionaban en tiempo real.
- 3)
- Eliminación de los errores de cuantización del descodificador en el ínterin. En la técnica anterior si el descodificador solamente proporciona 16 bits de resolución, el propio descodificador podría inyectar errores de cuantización en la corriente de datos de audio MPEG. Esto es cierto si la corriente original de datos de audio MPEG estaba codificada con más de 16 bits de precisión (típicamente 20 o 24 bits). La mayoría de los descodificadores están construidos parta mantener, como máximo una precisión de 16 bits. Si se incrementa el nivel de audio tras una descodificación de 16 bits, el codificador siguiente ve una base de ruido elevada provocada por errores de truncamiento en el descodificador. Con este invento, si la codificación de audio MPEG original se realizó con más de 16 bits de precisión, la ganancia puede incrementarse mientras se mantiene la base de ruido en un descodificador de 16 bits a un nivel óptimo, incrementando realmente las relaciones entre señal y ruido.
La anterior descripción de la realización
preferida del invento se ha presentado con fines de ilustración y
descripción. No se pretende que sea exhaustiva ni que limite el
invento a la forma precisa expuesta. A la luz de las enseñanzas
anteriores son posibles muchas modificaciones y variaciones.
Por ejemplo, si bien la anterior exposición
ofrece una realización del presente invento aplicada a un sistema
de transmisión por satélite o a un reproductor MPEG personal, el
presente invento puede utilizarse en cualquier aplicación que
utilice audio MPEG. Además, aunque el presente invento se ha
descrito en términos de audio MPEG, podría aplicarse, también, a
otros esquemas de compresión, tales como Dolby®
AC-3. Finalmente, aunque en esta memoria se ha
descrito una lógica específica, los expertos en la técnica
reconocerán que otra lógica puede ofrecer los mismos resultados,
sin apartarse del alcance del presente invento.
Se pretende que el alcance del invento no esté
limitado por esta descripción detallada, sino por las
reivindicaciones adjuntas a ella. La anterior exposición, ejemplos
y datos ofrecen una completa descripción de la fabricación y uso de
la composición del invento. Dado que pueden ejecutarse muchas
realizaciones del invento sin apartarse del alcance del mismo, el
invento reside en las siguientes reivindicaciones adjuntas.
Claims (2)
1. Un método de detección del nivel de audio
para audio comprimido (216) de una corriente (104) de datos, que
comprende:
- (a)
- extraer (320) factores de escala (214) para el audio comprimido (216) a partir de la corriente (104) de datos; y
- (b)
- realizar (320, 322) una detección de nivel para el audio comprimido (216) utilizando los factores de escala (214) extraídos sin descomprimir el audio comprimido (216) a través de:
- (1)
- determinar (320) el cuadrado de un valor de pico de voltaje analógico derivado para cada uno de los factores de escala (214);
- (2)
- obtener (322) la raíz cuadrada de la suma de los cuadrados a través de un cuadro;
- (3)
- normalizar (322) la raíz cuadrada en base a un número de canales presente en el audio comprimido (216); y
- (4)
- comparar (322) la raíz cuadrada normalizada con un umbral para determinar si el audio comprimido (216) excede un nivel especificado.
2. Un aparato adaptado para llevar a cabo el
método de la reivindicación 1.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US426664 | 2003-04-30 | ||
| US10/426,664 US7647221B2 (en) | 2003-04-30 | 2003-04-30 | Audio level control for compressed audio |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2315992T3 true ES2315992T3 (es) | 2009-04-01 |
Family
ID=33159436
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES04252531T Expired - Lifetime ES2288665T3 (es) | 2003-04-30 | 2004-04-30 | Control de nivel de audio para señales de audio comprimidas. |
| ES06076046T Expired - Lifetime ES2315992T3 (es) | 2003-04-30 | 2004-04-30 | Control de nivel de audio para audio comprimido. |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES04252531T Expired - Lifetime ES2288665T3 (es) | 2003-04-30 | 2004-04-30 | Control de nivel de audio para señales de audio comprimidas. |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US7647221B2 (es) |
| EP (2) | EP1484747B1 (es) |
| DE (2) | DE602004018396D1 (es) |
| ES (2) | ES2288665T3 (es) |
Families Citing this family (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7983909B2 (en) * | 2003-09-15 | 2011-07-19 | Intel Corporation | Method and apparatus for encoding audio data |
| CN1964447B (zh) * | 2005-11-09 | 2010-11-10 | 鸿富锦精密工业(深圳)有限公司 | 音量管理系统及方法 |
| CN101578654B (zh) * | 2006-07-04 | 2013-04-24 | 韩国电子通信研究院 | 用于恢复多通道音频信号的设备和方法 |
| US20090067550A1 (en) * | 2007-09-06 | 2009-03-12 | Arie Heiman | Method and system for redundancy-based decoding of audio content |
| US8204744B2 (en) * | 2008-12-01 | 2012-06-19 | Research In Motion Limited | Optimization of MP3 audio encoding by scale factors and global quantization step size |
| US9729120B1 (en) | 2011-07-13 | 2017-08-08 | The Directv Group, Inc. | System and method to monitor audio loudness and provide audio automatic gain control |
| US9543917B2 (en) * | 2014-01-24 | 2017-01-10 | Fabrice Gabriel Paumier | Software for manipulating equalization curves |
| US11862147B2 (en) * | 2021-08-13 | 2024-01-02 | Neosensory, Inc. | Method and system for enhancing the intelligibility of information for a user |
Family Cites Families (66)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3627914A (en) * | 1969-09-04 | 1971-12-14 | Central Dynamics | Automatic television program control system |
| FR2181593B1 (es) * | 1972-04-26 | 1974-10-18 | Ibm France | |
| DE3735421A1 (de) * | 1987-10-20 | 1989-05-11 | Deutsche Forsch Luft Raumfahrt | Verfahren zur minderung des ueberfluggeraeusches von flugzeugen mit einem von einem kolbenmotor getriebenen propeller |
| US5404315A (en) * | 1991-04-30 | 1995-04-04 | Sharp Kabushiki Kaisha | Automatic sound gain control device and a sound recording/reproducing device including arithmetic processor conducting a non-linear conversion |
| US5642437A (en) * | 1992-02-22 | 1997-06-24 | Texas Instruments Incorporated | System decoder circuit with temporary bit storage and method of operation |
| US5337041A (en) * | 1992-04-13 | 1994-08-09 | Lorri Friedman | Personal safety guard system for stray person or pet |
| US5363147A (en) * | 1992-06-01 | 1994-11-08 | North American Philips Corporation | Automatic volume leveler |
| DE69328399T2 (de) * | 1992-09-30 | 2000-10-19 | Hudson Soft Co. Ltd., Sapporo | Sprachdaten-Verarbeitung |
| CA2104753C (en) * | 1992-10-29 | 1999-02-16 | Kotikalapudi Sriram | Bandwidth allocation, transmission scheduling, and congestion avoidance in broadband atm networks |
| US5579404A (en) * | 1993-02-16 | 1996-11-26 | Dolby Laboratories Licensing Corporation | Digital audio limiter |
| US5729556A (en) * | 1993-02-22 | 1998-03-17 | Texas Instruments | System decoder circuit with temporary bit storage and method of operation |
| DE69321575T3 (de) * | 1993-03-22 | 2005-05-25 | Sony Deutschland Gmbh | Rundfunksignalempfänger |
| CA2121151A1 (en) * | 1993-04-16 | 1994-10-17 | Trevor Lambert | Method and apparatus for automatic insertion of a television signal from a remote source |
| US5461619A (en) * | 1993-07-06 | 1995-10-24 | Zenith Electronics Corp. | System for multiplexed transmission of compressed video and auxiliary data |
| US5448568A (en) * | 1994-04-28 | 1995-09-05 | Thomson Consumer Electronics, Inc. | System of transmitting an interactive TV signal |
| US5506844A (en) * | 1994-05-20 | 1996-04-09 | Compression Labs, Inc. | Method for configuring a statistical multiplexer to dynamically allocate communication channel bandwidth |
| US5625743A (en) * | 1994-10-07 | 1997-04-29 | Motorola, Inc. | Determining a masking level for a subband in a subband audio encoder |
| US5666430A (en) * | 1995-01-09 | 1997-09-09 | Matsushita Electric Corporation Of America | Method and apparatus for leveling audio output |
| US5650825A (en) * | 1995-03-31 | 1997-07-22 | Matsushita Electric Corporation Of America | Method and apparatus for sending private data instead of stuffing bits in an MPEG bit stream |
| US5802068A (en) * | 1995-06-30 | 1998-09-01 | Nippon Steel Corporation | Multiplexing apparatus of a plurality of data having different bit rates |
| US5778077A (en) * | 1995-09-13 | 1998-07-07 | Davidson; Dennis M. | Automatic volume adjusting device and method |
| US5966120A (en) * | 1995-11-21 | 1999-10-12 | Imedia Corporation | Method and apparatus for combining and distributing data with pre-formatted real-time video |
| US5686963A (en) * | 1995-12-26 | 1997-11-11 | C-Cube Microsystems | Method for performing rate control in a video encoder which provides a bit budget for each frame while employing virtual buffers and virtual buffer verifiers |
| KR0165063B1 (ko) * | 1995-12-29 | 1999-02-01 | 정장호 | 시분할 다중화 버스에서 통계적 다중화 장치 |
| US5822018A (en) * | 1996-04-02 | 1998-10-13 | Farmer; James O. | Method and apparatus for normalizing signal levels in a signal processing system |
| US5898675A (en) * | 1996-04-29 | 1999-04-27 | Nahumi; Dror | Volume control arrangement for compressed information signals |
| US6137834A (en) * | 1996-05-29 | 2000-10-24 | Sarnoff Corporation | Method and apparatus for splicing compressed information streams |
| US5751723A (en) * | 1996-07-01 | 1998-05-12 | Motorola, Inc. | Method and system for overhead bandwidth recovery in a packetized network |
| US5864557A (en) * | 1996-09-25 | 1999-01-26 | Thomson Multimedia S.A. | Method and apparatus for opportunistically transferring data in a packet stream encoder |
| US6369855B1 (en) * | 1996-11-01 | 2002-04-09 | Texas Instruments Incorporated | Audio and video decoder circuit and system |
| US5991812A (en) * | 1997-01-24 | 1999-11-23 | Controlnet, Inc. | Methods and apparatus for fair queuing over a network |
| US5877821A (en) * | 1997-01-30 | 1999-03-02 | Motorola, Inc. | Multimedia input and control apparatus and method for multimedia communications |
| TW384434B (en) * | 1997-03-31 | 2000-03-11 | Sony Corp | Encoding method, device therefor, decoding method, device therefor and recording medium |
| JPH10284980A (ja) | 1997-04-08 | 1998-10-23 | Murata Mfg Co Ltd | 弾性表面波装置 |
| JPH10284960A (ja) | 1997-04-10 | 1998-10-23 | Matsushita Electric Ind Co Ltd | オーディオレベル制御方法及び再生装置 |
| KR19980076752A (ko) * | 1997-04-14 | 1998-11-16 | 윤종용 | 화면 및 음향을 자동으로 전환하기 위한 방송 신호 수신 방법 및 수신 장치 |
| US5987031A (en) | 1997-05-22 | 1999-11-16 | Integrated Device Technology, Inc. | Method for fair dynamic scheduling of available bandwidth rate (ABR) service under asynchronous transfer mode (ATM) |
| US6169807B1 (en) * | 1997-10-04 | 2001-01-02 | Michael Sansur | Remote automatic audio level control device |
| KR20000069723A (ko) * | 1997-10-28 | 2000-11-25 | 요트.게.아. 롤페즈 | 개선된 오디오 재생 장치 및 전화기 단말 |
| UA56279C2 (uk) * | 1997-11-04 | 2003-05-15 | Джорджія Тек Ресерч Корпорейшн | Система і спосіб підтримки синхронізації за часом у мережі цифрового відео |
| US6169584B1 (en) * | 1997-12-05 | 2001-01-02 | Motorola, Inc. | Automatic modulation control of sync suppressed television signals |
| US6047178A (en) * | 1997-12-19 | 2000-04-04 | Nortel Networks Corporation | Direct communication wireless radio system |
| US6064676A (en) | 1998-01-14 | 2000-05-16 | Skystream Corporation | Remultipelxer cache architecture and memory organization for storing video program bearing transport packets and descriptors |
| US6389019B1 (en) * | 1998-03-18 | 2002-05-14 | Nec Usa, Inc. | Time-based scheduler architecture and method for ATM networks |
| AU750605B2 (en) | 1998-04-14 | 2002-07-25 | Hearing Enhancement Company, Llc | User adjustable volume control that accommodates hearing |
| US6272131B1 (en) * | 1998-06-11 | 2001-08-07 | Synchrodyne Networks, Inc. | Integrated data packet network using a common time reference |
| US7035278B2 (en) | 1998-07-31 | 2006-04-25 | Sedna Patent Services, Llc | Method and apparatus for forming and utilizing a slotted MPEG transport stream |
| GB2341745A (en) | 1998-09-10 | 2000-03-22 | Snell & Wilcox Ltd | Image encoding |
| US6298089B1 (en) * | 1998-12-10 | 2001-10-02 | Viewgraphics, Inc. | Method for seamless and near seamless audio and non-video splicing of a digital transport stream |
| US6252848B1 (en) * | 1999-03-22 | 2001-06-26 | Pluris, Inc. | System performance in a data network through queue management based on ingress rate monitoring |
| US6430233B1 (en) * | 1999-08-30 | 2002-08-06 | Hughes Electronics Corporation | Single-LNB satellite data receiver |
| JP2001111969A (ja) | 1999-10-06 | 2001-04-20 | Nec Corp | Tsパケットデータ多重方法及びtsパケットデータ多重装置 |
| DE60042761D1 (de) | 1999-10-20 | 2009-09-24 | Samsung Electronics Co Ltd | Verfahren und vorrichtung zum einfügen digitaler medienanzeigen in statistische gemultiplexte ströme |
| US6687247B1 (en) | 1999-10-27 | 2004-02-03 | Cisco Technology, Inc. | Architecture for high speed class of service enabled linecard |
| US6931370B1 (en) * | 1999-11-02 | 2005-08-16 | Digital Theater Systems, Inc. | System and method for providing interactive audio in a multi-channel audio environment |
| JP2001169248A (ja) | 1999-12-07 | 2001-06-22 | Matsushita Electric Ind Co Ltd | デジタル音声レベル可変装置 |
| JP4300697B2 (ja) | 2000-04-24 | 2009-07-22 | ソニー株式会社 | 信号処理装置及び方法 |
| JP2001344905A (ja) * | 2000-05-26 | 2001-12-14 | Fujitsu Ltd | データ再生装置、その方法及び記録媒体 |
| US6801886B1 (en) * | 2000-06-22 | 2004-10-05 | Sony Corporation | System and method for enhancing MPEG audio encoder quality |
| JP4055336B2 (ja) * | 2000-07-05 | 2008-03-05 | 日本電気株式会社 | 音声符号化装置及びそれに用いる音声符号化方法 |
| JP4441839B2 (ja) * | 2000-08-17 | 2010-03-31 | ソニー株式会社 | 統計多重システム、統計多重制御装置および統計多重方法 |
| US20020146023A1 (en) | 2001-01-09 | 2002-10-10 | Regan Myers | Transport stream multiplexer utilizing smart FIFO-meters |
| JP3601473B2 (ja) * | 2001-05-11 | 2004-12-15 | ヤマハ株式会社 | ディジタルオーディオ圧縮回路および伸長回路 |
| US20020173864A1 (en) * | 2001-05-17 | 2002-11-21 | Crystal Voice Communications, Inc | Automatic volume control for voice over internet |
| US6765867B2 (en) * | 2002-04-30 | 2004-07-20 | Transwitch Corporation | Method and apparatus for avoiding head of line blocking in an ATM (asynchronous transfer mode) device |
| US20040199933A1 (en) * | 2003-04-04 | 2004-10-07 | Michael Ficco | System and method for volume equalization in channel receivable in a settop box adapted for use with television |
-
2003
- 2003-04-30 US US10/426,664 patent/US7647221B2/en not_active Expired - Lifetime
-
2004
- 2004-04-30 DE DE602004018396T patent/DE602004018396D1/de not_active Expired - Lifetime
- 2004-04-30 EP EP04252531A patent/EP1484747B1/en not_active Expired - Lifetime
- 2004-04-30 EP EP06076046A patent/EP1742203B1/en not_active Expired - Lifetime
- 2004-04-30 ES ES04252531T patent/ES2288665T3/es not_active Expired - Lifetime
- 2004-04-30 ES ES06076046T patent/ES2315992T3/es not_active Expired - Lifetime
- 2004-04-30 DE DE602004007979T patent/DE602004007979T2/de not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| EP1742203B1 (en) | 2008-12-10 |
| EP1742203A3 (en) | 2007-02-21 |
| DE602004018396D1 (de) | 2009-01-22 |
| US20070255556A1 (en) | 2007-11-01 |
| DE602004007979D1 (de) | 2007-09-20 |
| US7647221B2 (en) | 2010-01-12 |
| ES2288665T3 (es) | 2008-01-16 |
| EP1484747B1 (en) | 2007-08-08 |
| EP1484747A1 (en) | 2004-12-08 |
| EP1742203A2 (en) | 2007-01-10 |
| DE602004007979T2 (de) | 2008-04-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102115358B1 (ko) | 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치 | |
| ES2945463T3 (es) | Método de codificación de señales de entrada de audio izquierda y derecha, codificador, decodificador y producto de programa informático correspondientes | |
| ES2994484T3 (en) | Metadata for loudness and dynamic range control | |
| BRPI0512882B1 (pt) | Método para corrigir os metadados que afetam a sonoridade de reprodução e a faixa dinâmica de informações de áudio | |
| CN106471822B (zh) | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备 | |
| ES2986126T3 (es) | Decodificación de la representación exacta de una señal de audio | |
| JP2026012702A (ja) | Hoaデータ・フレーム表現のデータ・フレームの個々のもののチャネル信号に関連付けられた非差分的な利得値を含む符号化されたhoaデータ・フレーム表現 | |
| US6915263B1 (en) | Digital audio decoder having error concealment using a dynamic recovery delay and frame repeating and also having fast audio muting capabilities | |
| KR20160012215A (ko) | 구면 조화 계수들에 대한 공간 마스킹의 수행 | |
| US11081116B2 (en) | Embedding enhanced audio transports in backward compatible audio bitstreams | |
| JP7275191B2 (ja) | 非差分的な利得値を表現するのに必要とされる最低整数ビット数をhoaデータ・フレーム表現の圧縮のために決定する装置 | |
| ES2315992T3 (es) | Control de nivel de audio para audio comprimido. | |
| CN106471580A (zh) | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备 | |
| US11062713B2 (en) | Spatially formatted enhanced audio data for backward compatible audio bitstreams | |
| US6463405B1 (en) | Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband | |
| JP3416403B2 (ja) | Mpegオーディオデコーダ | |
| JP4862136B2 (ja) | 音声信号処理装置 | |
| TWI304207B (en) | Bit allocation method for perceptual audio coding | |
| HK40053165A (en) | Method and apparatus for determining for the compression of an hoa data frame representation a lowest integer number of bits required for representing non-differential gain values | |
| JP2002351499A (ja) | 音声符号化データの編集方法、及び音声符号化信号編集装置 | |
| HK40045794B (en) | Method and apparatus for determining for the compression of an hoa data frame representation a lowest integer number of bits required for representing non-differential gain values | |
| HK40039253A (en) | Method and apparatus for decoding a higher order ambisonics (hoa) representation of a sound or soundfield | |
| HK40010362A (en) | Method for decoding a higher order ambisonics (hoa) representation of a sound or soundfield | |
| HK40014969A (en) | Method for decoding a higher order ambisonics (hoa) representation of a sound or soundfield | |
| JPH09325797A (ja) | マルチチャンネルオーディオデータの符号化方法及びその符号化装置 |