ES2644131T3 - Predicción lineal basada en una codificación de audio utilizando un estimador mejorado de distibución de probabilidad - Google Patents

Predicción lineal basada en una codificación de audio utilizando un estimador mejorado de distibución de probabilidad Download PDF

Info

Publication number
ES2644131T3
ES2644131T3 ES13730249.3T ES13730249T ES2644131T3 ES 2644131 T3 ES2644131 T3 ES 2644131T3 ES 13730249 T ES13730249 T ES 13730249T ES 2644131 T3 ES2644131 T3 ES 2644131T3
Authority
ES
Spain
Prior art keywords
linear prediction
probability distribution
spectral
spectrum
spectral components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13730249.3T
Other languages
English (en)
Inventor
Tom BÄCKSTRÖM
Christian Helmrich
Guillaume Fuchs
Markus Multrus
Martin Dietz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2644131T3 publication Critical patent/ES2644131T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Decodificador de audio basado en predicción lineal, que comprende: un estimador de distribución de probabilidad (102) configurado para determinar, para cada pluralidad de componentes espectrales, una estimación de distribución de probabilidad (28) a partir de la información del coeficiente de predicción lineal contenido en un flujo de datos (22) en el cual la señal de audio se codifica; una etapa de decodificación y descuantificación de entropía (104) configurada para decodificar y descuantificar la entropía de un espectro (26) compuesta por una pluralidad de componentes espectrales desde el flujo de datos (22) usando la estimación de distribución de probabilidad (28) como determina cada una de las pluralidades de componentes espectrales; y un filtro configurado para dar forma al espectro (26) de acuerdo con una función de transferencia dependiendo de un filtro de síntesis de predicción lineal definido por la información del coeficiente de predicción lineal, caracterizado porque el estimador de distribución de probabilidad (102) está configurado para determinar una estructura fina espectral (70) a partir de los parámetros de predicción a largo plazo contenidos en el flujo de datos y para determinar, para cada una de las pluralidades de los componentes espectrales, un parámetro de distribución de probabilidad de forma que los parámetros de distribución de probabilidad sigan espectralmente una función (72) que depende multiplicativamente de la estructura fina espectral (70), donde, para cada una de las pluralidades de componentes espectrales, la estimación de distribución de probabilidad (28) es una función parametrizable parametrizada con el parámetro de distribución de probabilidad del componente espectral respectivo.

Description

DESCRIPCION
Prediccion lineal basada en una codificacion de audio utilizando un estimador mejorado de distibucion de probabilidad.
[0001] La presente invencion se relaciona con la codificacion de audio basada en la prediccion lineal y, en particular, la codificacion de audio basada en la prediccion lineal usando codificacion de espectro.
[0002] El enfoque clasico para la cuantificacion y codificacion en el dominio de la frecuencia es tomar 10 ventanas (superpuestas) de la senal, realizar una transformacion de tiempo-frecuencia, aplicar un modelo perceptivo
y cuantificar las frecuencias individuales con un codificador de entropla, como un codificador aritmetico [1]. El modelo perceptivo es basicamente una funcion de ponderacion que se multiplica sobre las llneas espectrales de forma que los errores en cada llnea espectral ponderada tengan un impacto perceptivo igual. Todas las llneas ponderadas pueden as! ser cuantificadas con la misma precision, y la precision general determina el compromiso 15 entre la calidad perceptual y el consumo de bits.
[0003] En AAC y en el modo de dominio de frecuencia de USAC (no-TCX), el modelo perceptivo se definio a nivel de banda de forma que un grupo de llneas espectrales (la banda espectral) tendrla la misma ponderacion. Estas ponderaciones se conocen como factores de escala, ya que definen por que factor se escala la banda.
20 Ademas, los factores de escala se codificaron de forma diferencial.
[0004] En el dominio TCX, las ponderaciones no se codifican usando factores de escala, sino mediante un modelo LPC [2] que define el envolvente espectral, que es la forma general del espectro. El LPC se utiliza porque permite un intercambio suave entre TCX y ACELP. Sin embargo, el LPC no se corresponde bien con el modelo
25 perceptivo, que deberla ser mucho mas suave, donde un proceso conocido como ponderacion se aplica al LPC de forma que el LPC se corresponde aproximadamente con el modelo perceptivo deseado.
[0005] En el dominio TCX de USAC, las llneas espectrales se codifican mediante un codificador aritmetico. Un codificador aritmetico se basa en asignar probabilidades a todas las configuraciones posibles de la senal, de
30 forma que los valores de alta probabilidad pueden codificarse con un numero pequeno de bits, de forma que el consumo de bits se minimiza. Para estimar la distribucion de probabilidad de las llneas espectrales, el codec emplea un modelo de probabilidad que predice la distribucion de la senal en base a llneas anteriores ya codificadas en el espacio tiempo-frecuencia. Las llneas anteriores se conocen como el contexto de la llnea actual a codificar [3].
35 [0006] Recientemente, NTT propuso un procedimiento para mejorar el contexto del codificador aritmetico
(comparar [4]). Se basa en el uso de la LTP para determinar las posiciones aproximadas de las llneas armonicas (filtro-comp) y re-disponiendo las llneas espectrales de forma que la prediccion de la magnitud desde el contexto es mas eficiente. La Solicitud de Patente Europea EP 2077550 A1 describe un sistema de codificacion de audio en el cual las distribuciones de probabilidad para los valores de las llneas espectrales a ser codificadas o decodificadas se 40 determinan en base al parametro de ganancia de la prediccion a largo plazo (LTP), donde una variacion espectral mas grande se asume para ganancias LTP mas altas. En general, cuanto mejor sea la estimacion de la distribucion de probabilidad, mas eficiente sera la compresion conseguida por la codificacion de entropla. Deberla ser favorable tener un concepto a mano que posibilitarfa la consecucion de una estimacion de distribucion de probabilidad de calidad similar a la obtenible usando cualquiera de las tecnicas indicadas anteriormente, pero con una menor 45 complejidad.
[0007] Por tanto, es un objetivo de la presente invencion proporcionar un esquema de codificacion de audio basado en una prediccion lineal que tenga caracterlsticas mejoradas. Este objetivo se consigue mediante la materia de las reivindicaciones independientes.
50
[0008] Es una conclusion basica de la presente invencion que la codificacion de audio basada en la prediccion lineal puede mejorarse codificando un espectro compuesto por una pluralidad de componentes espectrales usando una estimacion de distribucion de probabilidad determinada para cada uno de los componentes espectrales a partir de la information del coeficiente de prediccion lineal. En particular, la information del coeficiente
55 de prediccion lineal esta disponible de todas formas. Por tanto, puede utilizarse para determinar la estimacion de distribucion de probabilidad tanto en la parte de codificacion como en la de decodificacion. La determination de esta ultima puede implementarse de una forma computacionalmente sencilla usando, por ejemplo, una parametrizacion apropiada para la estimacion de la distribucion de probabilidad en la pluralidad de los componentes espectrales. En general, la eficiencia de codificacion como proporciona la codificacion de entropla es compatible con las
estimaciones de distribucion de probabilidad como se consigue usando seleccion de contexto, pero su derivacion es menos compleja. Por ejemplo, la derivacion puede ser puramente anallticamente y/o no requerir ninguna informacion sobre los atributos de las llneas espectrales adyacentes como los valores espectrales codificados/decodificados previamente de las llneas espectrales adyacentes como es el caso de la seleccion de contexto espacial. Esto, a su 5 vez, renderiza la paralelizacion de los procesos de computacion de forma mas facil, por ejemplo. Ademas, pueden ser necesarios menos requisitos de memoria y menos accesos a la memoria.
[0009] De acuerdo con una realizacion de la presente aplicacion, el espectro, los valores espectrales del cual estan codificados por entropla usando la estimacion de probabilidad determinada como simplemente indicada,
10 puede ser una excitacion codificada de transformacion obtenida usando la informacion del coeficiente de prediction lineal.
[0010] De acuerdo con una realizacion de la presente aplicacion, por ejemplo, el espectro es una excitacion codificada de transformacion definida, sin embargo, en un dominio ponderado perceptualmente. Es decir, el espectro
15 codificado con entropla usando la estimacion de distribucion de probabilidad determinada se corresponde con un espectro de senales de audio pre-filtrado usando una funcion de transformacion correspondiente a un filtro de slntesis de prediccion lineal ponderada perceptualmente definido por la informacion del coeficiente de prediccion lineal y para cada uno de la pluralidad de componentes espectrales una pluralidad de parametros de distribucion se determina de forma que los parametros de distribucion de probabilidad siguen, por ejemplo, son una version a 20 escala, a una funcion que depende de un producto de una funcion de transferencia del filtro de slntesis de prediccion lineal y una inversa de una funcion de transferencia de la modification ponderada perceptualmente del filtro de slntesis de prediccion lineal. Para cada uno de la pluralidad de componentes espectrales, la estimacion de distribucion de la pluralidad es entonces una funcion parametrizable parametrizada con el parametro de distribucion de probabilidad del componente espectral respectivo. De nuevo, la informacion del coeficiente de prediccion lineal 25 esta disponible de todas formas, y la derivacion del parametro de distribucion de probabilidad puede implementarse como un proceso puramente analltico y/o un proceso que no requiere ninguna interdependencia entre los valores espectrales en diferentes componentes espectrales del espectro.
El parametro de distribucion de probabilidad se determina adicionalmente de forma que los parametros de distribucion de probabilidad sigan espectralmente una funcion que depende multiplicativamente de la estructura fina 30 espectral que a su vez se determina utilizando la prediccion a largo plazo (LTP). De nuevo, en algunos codecs basados en la prediccion lineal, la informacion LTP esta disponible de todas formas y mas alla de esto, la determination de los parametros de distribucion de probabilidad es factible que pueda realizarse puramente de forma analltica y/o sin interdependencias entre la codification de los valores espectrales de los diferentes componentes espectrales del espectro. Cuando se combina en uso LTP con la codificacion de excitacion codificada 35 de transformacion perceptual, la eficiencia de la codificacion se mejora aun mas mientras que la complejidad aumenta moderadamente.
[0011] Las implementaciones y realizaciones ventajosas estan sujetas a las reivindicaciones dependientes. Las realizaciones preferidas de la presente solicitud se describen mas adelante con respecto a las figuras, entre las
40 cuales,
la Fig. 1 muestra un diagrama de bloque de un codificador de audio basado en prediccion lineal de acuerdo con una realizacion
La Fig. 2 muestra un diagrama de bloque de un determinador de espectro de la Fig. 1 de acuerdo con una 45 realizacion;
La Fig. 3a muestra diferentes funciones de transferencia que se producen en la description del modo de funcionamiento de los elementos mostrados en las Figs. 1 y 2 cuando se implementan las mismas usando la codificacion perceptual;
La Fig. 3b muestra las funciones de la Fig. 3a ponderadas, sin embargo, usando la inversa del modelo perceptivo;
50 La Fig. 4 muestra un diagrama de bloque que ilustra el funcionamiento interno del estimador de distribucion de probabilidad de la Fig. 1 de acuerdo con una realizacion utilizando codificacion perceptual;
La Fig. 5a muestra un grafico que ilustra una senal de audio original tras el filtrado pre-enfasis y su envolvente estimado;
La Fig. 5b muestra un ejemplo de una funcion LTP utilizada para estimar mas de cerca el envolvente de acuerdo con 55 una realizacion;
La Fig. 5c muestra un grafico que ilustra el resultado de la estimacion del envolvente, aplicando la funcion LTP de la Fig. 5b al ejemplo de la Fig. 5a;
La Fig. 6 muestra un diagrama de bloque del funcionamiento interno del estimador de distribucion de probabilidad 16 en una realizacion adicional usando codificacion perceptual ademas de procesamiento LTP;
La Fig. 7 muestra un diagrama de bloque de un decodificador de audio basado en prediccion lineal de acuerdo con una realizacion;
La Fig. 8 muestra un diagrama de bloque de un decodificador de audio basado en prediccion lineal de acuerdo con una realizacion adicional;
5 La Fig. 9 muestra un diagrama de bloque del filtro de la Fig. 8 de acuerdo con una realizacion;
La Fig. 10 muestra un diagrama de bloque de una estructura mas detallada de una parte del codificador de la Fig. 1 posicionada en una etapa de cuantificacion y codificacion de entropla, y el estimador de distribucion de probabilidad 14 de acuerdo con una realizacion; y la Fig. 11 muestra un diagrama de bloque de una parte dentro del decodificador de audio basado en prediccion lineal de por ejemplo las Figs. 7 y 8 posicionada en una parte del 10 mismo que se corresponde con la parte en la cual la Fig. 10 esta ubicada en el lado de codificacion, es decir, ubicada en el estimador de distribucion de probabilidad 102 y la etapa de decodificacion por entropla y descuantificacion 104 de acuerdo con una realizacion.
[0012] Antes de describir las diferentes realizaciones de la presente solicitud, las ideas subyacentes en las
15 mismas se explican de forma ejemplar contra el antecedente indicado en la parte introductoria de la especificacion de la presente solicitud. Las caracterlsticas especlficas que, derivadas de la comparacion con las tecnicas de comparacion concreta como USAC, no seran tratadas como restrictivas del alcance de la presente solicitud y sus realizaciones.
20 [0013] En el enfoque USAC para codificacion aritmetica, el contexto practicamente predice la distribucion de
magnitud de las siguientes llneas. Es decir, las llneas espectrales o componentes espectrales se analizan en dimensiones espectrales durante la codificacion/decodificacion, y la distribucion de magnitud se predice continuamente dependiendo de los vales espectrales codificados/decodificados previamente. Sin embargo, el LPC ya codifica la misma informacion de forma expllcita, sin necesidad de prediccion. Por tanto, emplear el LPC en vez 25 de este contexto arrojarla un resultado similar, sin embargo, a una complejidad computacional inferior o al menos con la posibilidad de conseguir una menor complejidad. De hecho, ya que a una tasa de bits baja el espectro consiste esencialmente de unos a ceros, el contexto casi siempre sera muy escaso y carecera de informacion util. Por tanto, en teorla, el LPC deberla de hecho ser una fuente mucho mejor para las estimaciones de magnitud ya que la plantilla de los valores espectrales adyacentes ya codificados/decodificados, usados para la estimacion de la 30 distribucion de probabilidad, meramente se completa escasamente con informacion util. Ademas, la informacion LPC ya esta disponible en el codificador y el decodificador, donde tiene un coste cero en terminos de consumo de bits.
[0014] El modelo LPC solo define la forma envolvente espectral, que es la magnitud relativa de cada llnea, pero no la magnitud absoluta. Para definir una distribucion de probabilidad para una unica llnea. siempre
35 necesitamos la magnitud absoluta, es decir un valor para la variacion de senal (o una medida similar). Una parte esencial de la mayorla de los modelos de cuantificador espectral basado en LPC deberla por tanto ser una escalacion del envolvente de LPC, de forma que la variacion deseada (y, por tanto, el consumo de bits deseado), se alcance. Esta escalacion deberla normalmente realizarse en el codificador y el decodificador ya que las distribuciones de probabilidad para cada llnea entonces dependen del LPC escalado.
40
[0015] Como se ha descrito anteriormente, el modelo perceptivo (LPC ponderado) puede utilizarse para definir el modelo perceptivo, es decir, la cuantificacion puede realizarse en el dominio perceptivo de forma que el error de cuantificacion esperado en cada llnea espectral causa aproximadamente una cantidad igual de distorsion perceptual. Por tanto, si es asl, el modelo LPC se transforma al dominio perceptivo tambien multiplicandolo con el
45 LPC ponderado como se define a continuacion. En las realizaciones descritas a continuacion, se asume a menudo que el envolvente del LPC se transforma para el dominio perceptivo.
[0016] Asl, es posible aplicar un modelo de probabilidad independiente para cada llnea espectral. Es razonable asumir que las llneas espectrales no tienen correlation de fase predecible, donde sea suficiente para
50 modelar solo la magnitud. Ya que se puede presumir que el LPC codifica la magnitud de forma eficiente, tener un codificador aritmetico basado en contexto probablemente no mejorara la eficiencia de la estimacion de magnitud.
[0017] Por tanto, es posible aplicar un codificador de entropla basado en contexto, como del que depende el contexto, o incluso consiste en, el envolvente LPC.
55
[0018] Ademas del envolvente LPC, el LTP puede utilizarse para inferir la informacion del envolvente. Despues de todo, el LTP puede corresponderse a un filtro de peine en el dominio de frecuencia. A continuacion, se explican algunos detalles practicos.
[0019] Tras haber explicado algunos pensamientos que llevaron a la idea en la que se basan las realizaciones descritas a continuacion, la descripcion de estas realizaciones ahora comienza con respecto a la Fig. 1, que muestra una realization de un codificador de audio basado en prediction lineal de acuerdo con una realization de la presente solicitud. El codificador de audio basado en prediccion lineal de la Fig. 1 se indica
5 generalmente usando el signo de referencia 10 y comprende un analizador de prediccion lineal 12, una estimation de distribution de probabilidad 14, un determinador de espectro 16 y una etapa de codification de cuantificacion y entropla 18. El codificador de audio basado en prediccion lineal 10 de la Fig. 1, recibe una senal de audio que se codificara en, por ejemplo, una entrada 20 y produce un flujo de datos 22 que de forma correspondiente tiene una senal de audio codificada en el mismo. El analizador LP 12 y el determinador de espectro 16 estan, como se 10 muestra en la Fig. 1, directamente o indirectamente conectados con la entrada 20. El estimador de distribucion de probabilidad 14 se conecta entre el analizador LP 12 y la etapa de cuantificacion y codificacion de entropla 18, y la etapa de cuantificacion y codificacion de entropla 18, a su vez, se conecta a una salida del determinador del espectro 16. Como puede verse en la Fig. 1, el analizador LP 12 y la etapa de cuantificacion y codificacion de entropla 18 contribuyen a la formacion/generacion del flujo de datos 22. Como se describira con mas detalle a 15 continuacion, el codificador 10 puede comprender opcionalmente un filtro pre-enfasis 24, que puede conectarse entre la entrada 20 y el analizador LP 12 y/o el determinador de espectro 16. Ademas, el determinador de espectro 16 puede conectarse opcionalmente a la salida del analizador LP 12.
[0020] En particular, el analizador LP 12 esta configurado para determinar la information del coeficiente de 20 prediccion lineal basada en la senal de audio entrante en la entrada 20. Como se describe en la Fig. 1, el analizador
LP 12 puede realizar analisis de prediccion lineal en la senal de audio en la entrada 20 directamente o sobre alguna version modificada de la misma, como, por ejemplo, una version pre-enfatizada de la misma obtenida mediante el filtro de pre-enfasis 24. El modo de funcionamiento del analizador LP 12, por ejemplo, implica una division en ventanas de la senal entrante para obtener una secuencia de partes con sistema de ventanas de la senal que sera 25 analizada por LP, una determination de autocorrelation para determinar la autocorrelation de cada parte en ventana y sistema de ventana con desfase, que es opcional, para aplicar una funcion de ventana con desfase sobre las autocorrelaciones. La estimacion del parametro de prediccion lineal puede entonces realizarse sobre las autocorrelaciones o la salida de la ventana con desfase, es decir, las funciones de autocorrelacion con sistema de ventanas. La estimacion del parametro de prediccion lineal puede, por ejemplo, implicar el rendimiento de un 30 algoritmo Wiener-Levinson-Durbin u otro algoritmo adecuado sobre las autocorrelaciones (con sistema de ventanas desfasadas) para as! obtener coeficientes de prediccion lineal por autocorrelacion, es decir, por parte con sistema de ventanas de la senal que sera analizada por LP. Es decir, en la salida del analizador LP 12, el resultado de los coeficientes LPC que son, como se describira mas adelante, usados por el estimador de distribucion de probabilidad 14 y, opcionalmente el determinador de espectro 16. El analizador LP 12 puede configurarse para cuantificar el 35 coeficiente de prediccion lineal para la insertion en el flujo de datos 22. La cuantificacion de los coeficientes de prediccion lineal puede realizarse en otro dominio distinto al dominio de coeficiente de prediccion lineal como, por ejemplo, en un par espectral de llnea o dominio de frecuencia espectral de llnea. Los coeficientes de prediccion lineal cuantificados pueden codificarse en el flujo de datos 22. La informacion del coeficiente de prediccion lineal usada realmente por el estimador de distribucion de probabilidad 14 y, opcionalmente, por el determinador de 40 espectro 16, puede tener en cuenta la perdida de cuantificacion, es decir, puede ser la version cuantificada que se transmite sin perdidas a traves del flujo de datos. Es decir, este ultimo puede en realidad usar como informacion del coeficiente de prediccion lineal los coeficientes de prediccion lineal cuantificada tal como los obtiene el analizador de prediccion lineal 12. Meramente con fines de integridad, se nota que existe una enorme cantidad de posibilidades de realizar la determinacion de la informacion del coeficiente de prediccion por medio del analizador de prediccion lineal 45 12. Por ejemplo, pueden usarse otros algoritmos distintos al algoritmo Wiener-Levinson-Durbin. Ademas, una estimacion de la autocorrelacion local de la senal que se analizara por LP puede obtenerse en base a una descomposicion espectral de la senal que sera analizada por LP. En WO 2012/110476 A1, por ejemplo, se describe que la autocorrelacion puede obtenerse dividiendo la senal que sera analizada por LP en ventanas, sometiendo cada parte dividida en ventanas a una MDCT, determinando el espectro de potencia por espectro MDCT y 50 realizando una ODFT inversa para realizar la transicion desde el dominio MDCT a una estimacion de la autocorrelacion. Para resumir, el analizador LP 12 proporciona informacion del coeficiente de prediccion lineal y el flujo de datos 22 expresa o comprende esta informacion del coeficiente de prediccion lineal. Por ejemplo, el flujo de datos 22 expresa la informacion del coeficiente de prediccion lineal en la resolution temporal que se determina mediante la frecuencia de la parte con sistema de ventanas que acabamos de mencionar, donde las partes con 55 sistema de ventanas pueden, como se conoce en la tecnica, superponerse unas a otras, como por ejemplo con una superposition del 50%.
[0021] En cuanto al filtro de pre-enfasis 24, se nota que el mismo puede, por ejemplo, implementarse usando filtrado FIR. El filtro de pre-enfasis 24 puede, por ejemplo, tener una funcion de transferencia de pase alto. De
acuerdo con una realization, el filtro de pre-enfasis 24 se realiza como un filtro de paso alto de orden n-t, como, por ejemplo, H(z) = 1 az-1 con a establecido, por ejemplo, a 0,68.
[0022] A continuation, se describira el determinador de espectro. El determinador de espectro 16 se configura para determinar un espectro compuesto por una pluralidad de componentes espectrales basados en la
5 senal de audio en la entrada 20. El espectro describira la senal de audio. De forma similar al analizador de prediction lineal 12, el determinador de espectro 16 puede operar sobre la senal de audio 20 directamente, o sobre alguna version modificada de la misma, como por ejemplo la version filtrada por pre-enfasis de la misma. El determinador de espectro 16 puede usar cualquier transformation para determinar el espectro como, por ejemplo, una transformation solapada o incluso una transformation solapada crlticamente muestreada, como, por ejemplo, 10 una MDCT, aunque existen otras posibilidades. Es decir, el determinador de espectro 16 puede someter la senal para que sea descompuesta espectralmente a sistema de ventanas para as! obtener una secuencia de partes en ventanas y someter cada parte en ventanas a una transformation respectiva como una MDCT. La frecuencia con sistema de ventanas del determinador de espectro 16, es decir, la resolution temporal de la descomposicion espectral puede diferir de la resolution temporal en la cual el analizador LP 12 determina la information del 15 coeficiente de prediccion lineal.
[0023] El determinador de espectro 16 as! produce un espectro compuesto de una pluralidad de componentes espectrales. En particular, el determinador de espectro 16 puede producir, por parte con ventanas que esta sometida a una transformacion, una secuencia de valores espectrales, es decir, un valor espectral por
20 componente espectral, por ejemplo, por llnea espectral de frecuencia. Los valores espectrales pueden ser valores complejos o valores reales. Los valores espectrales son valores reales en el caso de que se utilice una MDCT, por ejemplo, En particular, los valores espectrales pueden estar senalizados, es decir, pueden ser una combination de senal y magnitud.
25 [0024] Como se ha indicado anteriormente, la information del coeficiente de prediction lineal forma una
prediction a corto plazo del envolvente espectral de la senal analizada por LP y puede, por tanto, servir como base para determinar, para cada una de las pluralidades de componentes espectrales, una estimation de la distribution de probabilidad, es decir, una estimation de como, estadlsticamente, la probabilidad de que el espectro en el componente espectral respectivo, asuma un vierto valor espectral posible, y varle sobre el dominio de posibles 30 valores espectrales. La determination se realiza mediante el estimador de distribution de probabilidad 14. Existen diferentes posibilidades con respecto a los detalles de determination de la estimation de distribution de probabilidad. Por ejemplo, aunque el determinador de espectro 16 podrla implementarse para determinar el espectrograma de la senal de audio o la version pre-enfatizada de la senal de audio, de acuerdo con las realizaciones descritas adicionalmente a continuation, el determinador de espectro 16 se configura para determinar, 35 como el espectro, una senal de excitacion, es decir, una senal residual obtenida mediante filtrado basado en LP de la senal de audio o alguna version modificada de la misma, como la version filtrada por pre-enfasis de la misma. En particular, el determinador de espectro 16 puede configurarse para determinar el espectro de la senal entrante al determinador de espectro 16, tras filtrar la senal entrante usando una funcion de transferencia que depende de, o es igual a, una inversa de un filtro de slntesis de prediction lineal definido por la information del coeficiente de 40 prediction lineal, es decir, el filtro de analisis de prediction lineal. Alternativamente, el codificador de audio basado en LP puede ser un codificador de audio basado en LP perceptivo y el determinador de espectro 16 puede configurarse para determinar el espectro de la senal entrante al determinador de espectro 16, tras filtrar la senal entrante usando una funcion de transferencia que depende de, o es igual a, una inversa de un filtro de slntesis de prediction lineal definido por la information del coeficiente de prediction lineal, pero ha sido modificado para, por 45 ejemplo, corresponderse a la inversa de una estimation de un umbral de enmascaramiento. Es decir, el determinador de espectro 16 podrla configurarse para determinar el espectro de la senal entrante, filtrado con una funcion de transferencia que se corresponde a la inversa de un filtro de slntesis de prediction lineal modificado de forma preceptiva. En tal caso, el determinador de espectro 16 reduce comparativamente el espectro en las regiones espectrales donde el enmascaramiento preceptivo es mas alto en relation con las regiones espectrales donde el 50 enmascaramiento perceptivo es mas bajo. Al usar la information del coeficiente de prediction lineal, el estimador de distribution de probabilidad 14 aun es capaz, sin embargo, de estimar el envolvente del espectro determinado por el determinador del espectro 16, es decir, teniendo en cuenta la modification preceptiva del filtro de slntesis de prediction a la hora de determinar la estimation de la distribution de probabilidad. Los detalles en este aspecto se describen adicionalmente a continuation.
[0025] Ademas, como se describira con mas detalle a continuation, el estimador de distribution de
probabilidad 14 es capaz de usar la prediction a largo plazo para obtener una information de estructura fina sobre el espectro, para as! obtener una mejor estimation de la distribution de probabilidad por componente espectral. El
parametro o parametros LTP se envlan, por ejemplo, a decodificacion para as! permitir una reconstruccion de la information de estructura fina. Los detalles en este aspecto se describen mas adelante.
[0026] En cualquier caso, la etapa de cuantificacion y codification de entropla 18 se configura para codificar 5 por cuantificacion y entropla el espectro usando la estimation de distribution de probabilidad como se determina
para cada una de las pluralidades de los componentes espectrales mediante el estimador de distribucion de probabilidad 14. Para ser mas precisos, la etapa de cuantificacion y codificacion de entropla 18 recibe desde el determinador del espectro 16 un espectro 26 compuesto por componentes espectrales k, o para ser mas precisos, una secuencia de espectros 26 a alguna frecuencia temporal que se corresponde con la frecuencia de la parte con 10 sistema de ventanas mencionada anteriormente de las partes con sistema de ventanas sujetas a la transformation. En particular, la etapa 18 puede recibir un valor de senal por valor espectral en el componente espectral k y una magnitud correspondiente | xk | por componente espectral k.
[0027] Por otro lado, la etapa de cuantificacion y codificacion de entropla 18 recibe, por componente 15 espectral k, una estimacion de distribucion de probabilidad 28 que define, para cada valor posible que el valor
espectral puede asumir, una estimacion del valor de probabilidad que determina la probabilidad del valor espectral en el componente espectral k teniendo este muy posible valor. Por ejemplo, la estimacion de la distribucion de probabilidad determinada mediante el estimador de distribucion de probabilidad 14, se concentra en las magnitudes de los valores espectrales solamente, y determina, por tanto, los valores de probabilidad para los valores positivos, 20 incluyendo cero, unicamente. En particular, la etapa de cuantificacion y codificacion de entropla 18 cuantifica los valores espectrales, por ejemplo, utilizando una regla de cuantificacion que es igual para todos los componentes espectrales. Los niveles de magnitud para los componentes espectrales k, obtenidos de este modo, se definen por tanto sobre un dominio de enteros incluyendo cero hasta, opcionalmente, algun valor maximo. La estimacion de la distribucion de probabilidad podrla, para cada componente espectral k, definirse sobre este dominio de posibles 25 enteros i, es decir, p(k, i) serla la estimacion de probabilidad para el componente espectral k y estara definido sobre el entero i e [0;max] con el entero k e [0;kmax] con kmax siendo el componente espectral maximo y p(k;i) e [0; 1 ] para todo k,i y la suma sobre p(k,i) sobre todo i e [0;max] siendo uno para todo k.
[0028] La etapa de cuantificacion y codificacion de entropla 18 puede, por ejemplo, utilizar un tamano de 30 paso de cuantificacion constante para la cuantificacion con el tamano del paso siendo igual para todos los
componentes espectrales k. Cuanto mejor sea la estimacion de la distribucion de probabilidad 28, mejor sera la eficiencia de compresion conseguida por la etapa de cuantificacion y codificacion de entropla 18.
[0029] Francamente, el estimador de la distribucion de probabilidad 14 puede usar la informacion del 35 coeficiente de prediccion lineal proporcionada por el analizador LP 12 para conseguir una informacion sobre un
envolvente 30, o forma aproximada, del espectro 26. Usando esta estimacion 30 del envolvente o forma, el estimador 14 puede obtener una medida de dispersion 32 para cada componente espectral k mediante, por ejemplo, una escalation apropiada, usando un factor de escala comun igual para todos los componentes espectrales, el envolvente. Estas medidas de dispersion en los componentes espectrales k pueden servir como parametros para las 40 parametrizaciones de las estimaciones de distribucion de probabilidad para cada componente espectral k. Por ejemplo, p(k,i) puede ser f(i,l(k)) para todo k con l(i) siendo la medida de dispersion determinada en el componente espectral k, con f(i,l) siendo, para cada l fija, una funcion apropiada de la variable i como una funcion monotonica como, como se define mas adelante, una funcion Gaussiana o Laplace definida para los valores positivos i incluyendo cero, mientras l es el parametro de la funcion que mide la "pendiente" o "amplitud" de la funcion como se 45 explicara mas adelante de forma mas precisa. Usando las parametrizaciones parametrizadas, la etapa de cuantificacion y codificacion de entropla 18 puede as! codificar por entropla de forma eficiente los valores espectrales del espectro a un flujo de datos 22. Como se vera claramente a partir de la description explicada mas adelante con mas detalle, la determination de la estimacion de distribucion de probabilidad 28 puede implementarse puramente anallticamente y/o sin requerir interdependencias entre los valores espectrales de los diferentes 50 componentes espectrales del mismo espectro 26, es decir, de forma independiente de los valores espectrales de los diferentes componentes espectrales relacionados con el mismo instante de tiempo. La etapa de cuantificacion y codificacion de entropla 18 podrla por tanto realizar le codificacion por entropla de los valores espectrales cuantificados o niveles de magnitud, respectivamente, en paralelo. La codificacion por entropla real puede, a su vez, ser una codificacion aritmetica o una codificacion de longitud variable o alguna otra forma de codificacion por 55 entropla como codificacion por entropla de partition de intervalo de probabilidad o similar. En efecto, la etapa de cuantificacion y codificacion de entropla 18 codifica por entropla cada valor espectral en un cierto componente espectral k usando la estimacion de distribucion de probabilidad 28 para ese componente espectral k, de forma que un consumo de bits para un valor espectral k respectivo para su codificacion a un flujo de datos 22 es inferior dentro de las partes del dominio de posibles valores del valor espectral en el componente espectral k donde la probabilidad
indicada por la estimacion de distribution de probabilidad 28 es mas alta, y el consumo de bits es mayor en las partes del dominio de valores posibles donde la probabilidad indicada por la estimacion de distribucion de probabilidad 28 es mas baja. En el caso de codification aritmetica, por ejemplo, puede utilizarse la codification aritmetica basada en tabla. En el caso de codificacion de longitud variable, la etapa de cuantificacion y codificacion 5 de entropla puede seleccionar y aplicar diferentes tablas de palabras claves que asignen los posibles valores a las palabras claves dependiendo de la estimacion de distribucion de probabilidad 28 determinada por el estimador de distribucion de probabilidad 14 para el componente espectral k respectivo.
[0030] La Fig. 2 muestra una implementation posible del determinador de espectro 16 de la Fig. 1. De
10 acuerdo con la Fig. 2, el determinador de espectro 16 comprende un determinador de factores de escala 34, un transformador 36 y un conformador espectral 38. El transformador y el conformador espectral 38 se conectan en serie uno al otro entre la entrada y la salida del determinador del espectro 16 mediante el cual el determinador del espectro 16 se conecta entre la entrada 20 y la etapa de cuantificacion y codificacion de entropla 18 en la Fig. 1.
15 [0031] El determinador del factor de escala 34 esta, a su vez, conectado entre el analizador LP 12 y una
entrada adicional del conformador espectral 38 (consultar la Fig. 1). El determinador de factores de escala 34 se configura para usar la information del coeficiente de prediction lineal para determinar as! los factores de escala. El transformador 36 descompone espectralmente la senal que recibe, para obtener un espectro original. Como se ha indicado anteriormente, la senal entrante puede ser la senal de audio original en la entrada 20 o, por ejemplo, una 20 version pre-enfatizada de la misma. Como tambien se ha indicado anteriormente, el transformador 36 puede someter internamente a la senal para que sea transformada a un sistema con ventanas, con partes, usando partes superpuestas, mientras que transforma individualmente cada parte con sistema de ventanas. Como se ha esbozado anteriormente, una MDCT puede usarse para la transformation. Es decir, el transformador 36 produce un valor espectral X'k por componente espectral k y el conformador espectral 38 se configura para dar forma espectralmente 25 a este espectro original escalando el espectro usando factores de escala, es decir, escalando cada valor espectral original X'k usando los factores de escala Sk producidos por el determinador de factores de escala 34 para as! obtener un valor espectral respectivo Xk, que luego se somete a codificacion y cuantificacion de entropla en el estado 18 de la Fig. 1.
30 [0032] La resolution espectral en la cual el determinador de factores de escala 34 determina los factores
escala, no coincide necesariamente con la resolucion definida por el componente espectral k. Por ejemplo, un agrupamiento motivado perceptualmente de los componentes espectrales en los grupos espectrales como bandas Bark, puede formar la resolucion espectral en la cual los factores de escala, es decir las ponderaciones espectrales por las cuales los valores espectrales del espectro producido por el transformador 36 se ponderan, se determinan.
35
[0033] El determinador de factores de escala 34 esta configurado para determinar los factores de escala de forma que los mismos representen, o se aproximen, a una funcion de transferencia que depende de una inversa de un filtro de slntesis de prediccion lineal definido por la informacion de coeficiente de prediccion lineal. Por ejemplo, el determinador de factores de escala 34 puede estar configurado para usar los coeficientes de prediccion lineal
40 obtenidos desde el analizador LP 12 en, por ejemplo, su forma cuantificada en la cual estan tambien disponibles en el lado de decodificacion a traves de un flujo de datos 22, como una base para la conversion LPC a MDCT que, a su vez, puede involucrar una ODFT. Naturalmente, tambien existen alternativas. En el caso de las alternativas indicadas anteriormente, donde el codificador de audio de la Fig. 1 es un codificador de audio basado en prediccion lineal perceptual, el determinador de factores de escala 34 puede configurarse para realizar una ponderacion 45 motivada perceptualmente de los LPC primero antes de realizar la conversion a los factores de escala usando, por ejemplo, una ODFT. Sin embargo, pueden existir otras posibilidades. Como se explicara con mas detalle mas adelante, la funcion de transferencia del filtrado resultante de la escalation espectral por el conformador espectral 38 puede depender, a traves de la determination del factor de escala realizada por el determinador de factores de escala 34, en la inversa del filtro de slntesis de prediccion lineal 1/A(z) definida por la informacion del coeficiente de 50 prediccion lineal de forma que la funcion de transferencia sea una inversa de una funcion de transferencia de 1/A(kz), donde k denota una constante que puede ser, por ejemplo, 0,92.
[0034] Para comprender mejor la relation mutua entre la funcionalidad del determinador del espectro por un lado y el estimador de distribucion de probabilidad 14 por el otro, y la forma en que esta relacion lleva al
55 funcionamiento efectivo de la etapa de codificacion y cuantificacion de entropla 18 en el caso del codificador de audio basado en prediccion lineal que actua como codificador de audio basado en prediccion lineal perceptual, pueden consultarse las Figs. 3a y 3b. La Fig. 3a muestra un espectro original 40. Aqul, es ejemplarmente el espectro de la senal de audio ponderado por la funcion de transferencia del filtro de pre-enfasis. Para ser mas precisos, la Fig. 3a muestra la magnitud del espectro 40 trazada sobre los componentes espectrales o llneas espectrales k. En el
mismo grafico, la Fig. 3 muestra la funcion de transferencia del filtro de slntesis de prediction lineal A(z) multiplicada por la funcion de transferencia del filtro de pre-enfasis 24, el producto resultante siendo denotado por 42. Como puede verse, la funcion 42 se aproxima al envolvente o forma gruesa del espectro 40. En la Fig. 3a, la modification motivada perceptualmente del filtro de slntesis de prediccion lineal se muestra, como A(0,92z) en el caso ejemplar 5 mencionado antes. Este "modelo perceptual" se denota mediante la referencia 44. La funcion 44 as! representa una estimation simplificada de un umbral de enmascaramiento de la senal de audio teniendo en cuenta al menos oclusiones espectrales. El determinador de factores espectrales 34 determina los factores de escala para aproximar la inversa del modelo perceptual 44. El resultado de multiplicar las funciones 40 a 44 de la Fig. 3a con la inversa del modelo perceptual 44 se muestra en la Fig. 3b. Por ejemplo, 46 muestra el resultado de multiplicar el espectro 40 10 con la inversa de 44 y as! se corresponde con el espectro ponderado perceptualmente como resultado del conformador espectral 38 en el caso de que el codificador 10 actue como codificador basado en prediccion lineal perceptual como se ha descrito anteriormente. Como funcion multiplicadora 44 con la inversa de la misma resulta en una funcion constante, el producto resultante se representa como siendo plano en la Fig. 3b; vease 50.
15 [0035] Ahora volviendo al estimador de distribucion de probabilidad 14, el mismo tiene acceso a la
information del coeficiente de prediccion lineal como se ha descrito anteriormente. El estimador 14 es por tanto capaz de calcular la funcion 48 resultante de la funcion multiplicadora 42 con la inversa de la funcion 44. Esta funcion 48 puede servir, como se puede ver en la Fig. 3b, como una estimacion del envolvente o la forma gruesa del pre-filtrado 46 como resultado del conformador espectral 38.
20
[0036] Por tanto, el estimador de distribution de probabilidad 14 podrla operar como se ilustra en la Fig. 4. En particular, el estimador de distribucion de probabilidad 14 podrla someter los coeficientes de la prediccion lineal que definen el filtro de slntesis de prediccion lineal 1/A(z) a la ponderacion perceptual 64 de forma que esta se corresponda con un filtro de slntesis de prediccion lineal modificada perceptualmente 1/A(k z). Ambos, los
25 coeficientes de prediccion lineal no ponderados y los ponderados se someten a la conversion LPC a ponderacion espectral 60 y 62 respectivamente, y el resultado se somete, por el componente espectral k, a division. El cociente resultante se somete opcionalmente a alguna derivation de parametro 68 donde los cocientes para los componentes espectrales k se someten individualmente, es decir para cada k, a alguna funcion de asignacion para obtener como resultado un parametro de distribucion de probabilidad que representa una medida, por ejemplo, para la dispersion 30 de la estimacion de distribucion de probabilidad. Para ser mas precisos, las conversiones ponderadas LPC a espectral 60, 62 aplicadas a los coeficientes de prediccion lineal no ponderados y ponderados resulta en ponderaciones sk y para los componentes espectrales k. Las conversiones 60, 62 pueden, como se ha indicado anteriormente, realizarse a una resolution espectral mas baja que la resolution espectral definida por los componentes espectrales k, pero puede utilizarse por ejemplo la interpolation para suavizar el cociente resultante qk 35 sobre el componente espectral k. La derivacion del parametro entonces resulta en un parametro de distribucion de probabilidad nk por componente espectral mediante, por ejemplo, escalar todo qk usando un factor de escala comun para todo k. La etapa de codification y cuantificacion de entropla 18 puede entonces usar estos parametros de distribucion de probabilidad nk para la codificacion de entropla del espectro con forma espectral de la cuantificacion. En particular, como nk es una medida para una dispersion de la estimacion de la distribucion de la probabilidad del 40 valor de espectro envolvente xk o al menos su magnitud, una funcion parametrizable, como la mencionada anteriormente f(i,l(k)), puede usarse mediante la etapa de codificacion y cuantificacion de entropla 18 para determinar, para cada componente espectral k, la estimacion de distribucion de probabilidad 28 usando nk como funcion parametrizable, es decir, como l(k). Preferiblemente, la parametrizacion de la funcion parametrizable es tal que el parametro de distribucion de probabilidad, por ejemplo, l(k), es realmente una medida para una dispersion de 45 la estimacion de distribucion de la probabilidad, es decir, el parametro de distribucion de probabilidad mide una anchura de la funcion parametrizable de distribucion de probabilidad. En una realization especlfica descrita mas adelante, se utiliza una distribucion Laplace como la funcion parametrizable, por ejemplo, f(i,l(k)).
[0037] Con respecto a la Fig. 1, se nota que el estimador de distribucion de probabilidad 14 puede insertar 50 adicionalmente informacion en el flujo de datos 22, lo que permite que el lado de decodificacion aumente la calidad
de la estimacion de distribucion de probabilidad 28 para los componentes espectrales k individuales en comparacion con la calidad proporcionada unicamente basada en la informacion del LPC. En particular, de acuerdo con estos detalles de implementation especlficos descritos de forma ejemplar explicados mas adelante, el estimador de distribucion de probabilidad 14 puede usar prediccion a largo plazo para obtener una estimacion espectralmente mas 55 fina 30 del envolvente o forma del espectro 26 en el caso de que el espectro 26 represente una excitation codificada por transformation como el espectro resultante del filtrado con una funcion de transformation correspondiente con una inversa del modelo perceptual o la inversa del filtro de slntesis de prediccion lineal.
[0038] Por ejemplo, veanse las Figs. 5a y 5c para ilustrar esto ultimo, la funcionalidad opcional del estimador
de distribucion de probabilidad 14. La Fig. 5a muestra, como la Fig. 3a, el espectro de senales de audio originales 40 y el modelo LPC A(z) incluyendo el pre-enfasis. Es decir, tenemos la senal original 40 y su envolvente 42 incluyendo pre-enfasis. La Fig. 5b muestra, como un ejemplo del resultado del analisis LTP realizado por el estimador de 5 distribucion de probabilidad 14, un filtro de peine LTP 70, es decir una funcion de peine sobre los componentes espectrales k parametrizados, por ejemplo, mediante un valor de ganancia LTP que describe la frecuencia valle a pico a/b y un parametro de retardo LTP que define el paso o distancia entre los picos de la funcion de peine 70, es decir, c. El estimador de distribucion de probabilidad 14 puede determinar los parametros LTP que acabamos de mencionar de forma que multiplicar la funcion de peine LTP 70 con la estimacion basada en el coeficiente de 10 prediction lineal 30 del espectro 26 estime de forma mas aproximada el espectro real 26. La multiplication de la funcion de peine LTP 70 con el modelo LPC 42 se muestra de forma ejemplar en la Fig. 5c y puede verse que el producto 72 de la funcion de peine LTP 70 y el modelo LPC 42 se aproxima mas de cerca a la forma real del espectro 40.
15 [0039] En el caso de combinar la funcionalidad LTP del estimador de distribucion de probabilidad 14 con el
uso del dominio perceptual, el estimador de distribucion de probabilidad 14 puede operar como se muestra en la Fig. 6. El modo de operation coincide ampliamente con el mostrado en la Fig. 4. Es decir, los coeficientes LPC que definen el filtro de slntesis de prediccion lineal 1/A(z) se someten a la conversion LPC a ponderacion espectral 60 y 62, es decir una vez directamente y la otra vez tras ser perceptualmente ponderados 64. Los factores de escala 20 resultantes se someten a division 66 y los cocientes resultantes qk se multiplican usando el multiplicador 47 con la funcion de peine LTP 70, la ganancia LTP de los parametros y el desfase LTP del cual se determina mediante el estimador de distribucion de probabilidad 14 de forma apropiada y se inserta en el flujo de datos 22 para su acceso por parte del lado de decodificacion. El producto resultante lk ■ qk con lk denotando la funcion de peine LTP en el componente espectral k, se somete a continuation a la derivation del parametro de distribucion de probabilidad 68 25 para obtener los parametros de distribucion de probabilidad nk. Por favor, tenga en cuenta que, en la siguiente description del lado de decodificacion, se hace referencia, inter alias, a la Fig. 6 con respecto a la funcionalidad del lado del decodificador de la estimacion de la distribucion de probabilidad. En este aspecto, por favor tenga en cuenta que, en el lado del decodificador, los parametros LTP se determinan mediante la optimization y similar y se insertan en el flujo de datos 22, mientras que el lado de decodificacion meramente tiene que leer los parametros LTP desde 30 el flujo de datos.
[0040] Tras haber descrito varias realizaciones para un codificador de audio basado en la prediccion lineal con respecto a las Figs. 1 a 6, la siguiente descripcion se concentra en el lado de decodificacion. La Fig. 7 muestra una realization para un decodificador de audio basado en la prediccion lineal 100. Comprende un estimador de distribucion de probabilidad 102 y una etapa de decodificacion y cuantificacion de entropla 104. El decodificador de
35 audio basado en prediccion lineal tiene acceso al flujo de datos 22 y aunque el estimador de distribucion de probabilidad 102 esta configurado para determinar, para cada una de las pluralidades de componentes espectrales k, una estimacion de distribucion de probabilidad 28 a partir de la information del coeficiente de prediccion lineal contenida en el flujo de datos 22, la etapa decodificacion entropla y descuantificacion 104 esta configurada para decodificar la entropla y descuantificar el espectro 26 del flujo de datos 22 usando la estimacion de distribucion de 40 probabilidad como se determina para cada una de las pluralidades de componentes espectrales k mediante el estimador de distribucion de probabilidad 102. Es decir, tanto el estimador de distribucion de probabilidad 102 como la etapa decodificacion entropla y descuantificacion 104 tienen acceso al flujo de datos 22 y el estimador de distribucion de probabilidad 102 tiene su salida conectada a una entrada de la etapa decodificacion entropla y descuantificacion 104. En la salida de la ultima, se obtiene el espectro 26.
45
[0041] Deberla tenerse en cuenta que, naturalmente, el resultado del espectro por la etapa decodificacion entropla y descuantificacion 104 puede someterse a un posterior procesamiento dependiendo de la aplicacion. La salida del decodificador 100 no necesita ser necesariamente, sin embargo, la senal de audio que se codifica en el flujo de datos 22, en el dominio temporal para, por ejemplo, reproducirse usando altavoces. En vez de eso, el
50 decodificador de audio basado en prediccion lineal 100 puede interconectarse con la salida de, por ejemplo, el mezclador de un sistema de conferencias, un decodificador multi-canal o multi-objeto o similar, y esta interconexion puede estar en el dominio espectral. Alternativamente, el espectro o alguna version post-procesada del mismo puede estar sujeto a una conversion espectral a tiempo mediante una conversion de descomposicion espectral como una transformation inversa usando un proceso de superposicion/adicion como se describe mas adelante.
55
[0042] Como el estimador de distribucion de probabilidad 102 tiene acceso a la misma informacion LPC que el estimador de distribucion de probabilidad 14 en el lado de codification, el estimador de distribucion de probabilidad 102 opera igual que el estimador correspondiente en el lado de codificacion, excepto por, por ejemplo, la determination del parametro LTP adicional en el lado de codificacion, el resultado de dicha determination se
senaliza al lado de decodificacion mediante el flujo de datos 22. La etapa decodificacion entropla y descuantificacion 104 se configura para usar la estimacion de distribucion de probabilidad en la decodificacion de entropla de los valores espectrales del espectro 62, como los niveles de magnitud desde el flujo de datos 22, y la descuantifica igualmente para todos los componentes espectrales para as! obtener el espectro 26. En cuanto a las diferentes 5 posibilidades para implementar la codificacion de entropla, se hace referencia a las declaraciones anteriores que sobre la codificacion de entropla. Ademas, la misma regla de cuantificacion se aplica en una direccion inversa relativa a la usada en el lado de codificacion de forma que todas las alternativas y detalles descritos anteriormente con respecto a la codificacion y cuantificacion de entropla se aplicaran tambien para las realizaciones del decodificador de forma correspondiente. Es decir, por ejemplo, la etapa decodificacion entropla y descuantificacion 10 puede configurarse para usar un tamano de paso de cuantificacion constante para descuantificar los niveles de magnitud y puede usar, por ejemplo, decodificacion aritmetica.
[0043] Como se ha denotado anteriormente, el espectro 26 puede representar una excitacion de codificacion de transformacion y por tanto la Fig.8 muestra que el decodificador de audio basado en prediccion lineal puede
15 comprender adicionalmente un filtro 106 que tambien tiene acceso a la informacion LPC y al flujo de datos 22, y esta conectado a la salida de la etapa decodificacion entropla y descuantificacion 104 para recibir el espectro 26 y la salida del espectro de una senal de audio post-filtrada/reconstruida en su salida. En particular, el filtro 106 se configura para dar forma al espectro 26 de acuerdo con una funcion de transferencia dependiendo de un filtro de slntesis de prediccion lineal definido por la informacion del coeficiente de prediccion lineal. Para ser aun mas 20 precisos, el filtro 106 puede implementarse mediante la concatenacion del determinador de factores de escala 34 y el conformador espectral 38, con el conformador espectral 38 recibiendo el espectro 26 desde la etapa 104 y produciendo la senal post-filtrada, es decir la senal de audio reconstruida. La unica diferencia serla que la escalacion realizada dentro del filtro 106 serla exactamente la inversa de la escalacion realizada por el conformador espectral 38 en el lado de codificacion, es decir, donde el conformador espectral 38 en el lado de codificacion realiza, por 25 ejemplo, una multiplicacion usando los factores de escala, y en el filtro 106 se realizara una division por los factores de escala o viceversa.
[0044] La ultima circunstancia se muestra en la Fig. 9, que muestra una realizacion para el filtro 106 de la Fig. 8. Como puede verse, el filtro 108 puede comprender un determinador de factores de escala 110 que opera, por
30 ejemplo, como el determinador de factores de escala 34 de la Fig.2, y un conformador espectral 112 que, como se ha indicado anteriormente, aplica los factores de escala para el determinador del factor de escala 110 a la entrada del espectro, inversamente relativo al conformador espectral 38.
[0045] La Fig. 9 ilustra que el filtro 106 puede ademas comprender de forma ejemplar un transformador 35 inverso 114, un anadidor de superposicion 116 y un filtro de de-enfasis 118. Estos ultimos componentes 114 y 118
podrlan conectarse secuencialmente a la salida del conformador espectral 112 en el orden en que se mencionan, donde el filtro de de-enfasis 118 o la superposicion/anadidor 116 y el filtro de de-enfasis 118 podrlan, de acuerdo con una alternativa adicional, dejarse fuera.
40 [0046] El filtro de de-enfasis 118 realiza la inversa del filtrado pre-enfasis del filtro 24 en la Fig. 1 y la
superposicion/anadidor 116 puede, como se conoce en la tecnica, resultar en una cancelacion del solapamiento en el caso de que la transformacion inversa usada dentro del transformador inverso 114 sea una transformacion traslapada muestreada crlticamente. Por ejemplo, el transformador inverso 114 podrla someter a cada espectro 26 recibido desde el conformador espectral 112 a una frecuencia temporal en la cual dichos espectros se codifican 45 dentro del flujo de datos 22 a una transformacion inversa para obtener partes con sistema de ventanas que, a su vez, se superponen-anaden por la superposicion/anadidor 115 para obtener una version de senal tiempo-dominio. El filtro de de-enfasis 118, al igual que el filtro pre-enfasis 24, puede implementarse como un filtro FIR.
[0047] Tras haber descrito las realizaciones de la presente solicitud con respecto a las figuras, a continuacion
50 se proporciona una descripcion mas matematica de las realizaciones de la presente solicitud con esta descripcion finalizando en la descripcion correspondiente de las Figs. 10 y 11. En particular, en las realizaciones descritas a continuacion se asume que la binarizacion unaria de los valores espectrales del espectro con codificacion aritmetica binaria de las celdas de las secuencias de celdas resultantes se utiliza para codificar el espectro.
55 [0048] En particular, en los detalles ejemplares descritos a continuacion, que deben comprenderse como
transferibles a las realizaciones descritas anteriormente, se ha decidido ejemplarmente calcular la estructura del envolvente 30 en 64 bandas cuando la longitud de la trama, es decir, la frecuencia de espectro en la cual el espectro 26 se actualiza dentro del flujo de datos 22, es de 256 muestras y 80 bandas cuando la longitud de la trama es de 320 muestras. Si el modelo LPC es A(z), entonces el LPC ponderado es, por ejemplo, A(gz) con g = 0.92 y el termino
de filtro de pre-enfasis 24 asociado es (1 - 0.68z-i), por ejemplo, donde las constantes pueden variar en base a la aplicacion. El envolvente 30 y el dominio perceptual es asi
X(0.92r)(]-0.68z-')
A(z)■ W
5
[0049] De esta forma, la funcion de transferencia del filtro definido por la formula (1) se corresponde con la funcion 48 en la Fig. 3b y es el resultado de la computacion en las Figs. 4 y 6 en el resultado del divisor 66.
[0050] Deberia notarse que las Figs. 4 y 6 representan el modo de funcionamiento del estimador de 10 distribucion de probabilidad 14 y el estimador de distribucion de probabilidad 102 de la Fig. 7. Ademas, en el caso de
que se utilicen el filtro pre-enfasis 24 y el filtro de-enfasis 118, la conversion LPC a ponderacion espectral 60 tiene la funcion de filtro pre-enfasis en cuenta de forma que, al final, represente el producto de las funciones de transferencia del filtro de sintesis y el filtro pre-enfasis.
15 [0051] En cualquier caso, la transformacion tiempo-frecuencia del filtro definido por la formula (1) deberia
calcularse de forma que el envolvente final sea la frecuencia alineada con la representacion espectral de la senal de entrada. Ademas, deberia observarse de nuevo que el estimador de distribucion de probabilidad puede computar meramente la magnitud absoluta del envolvente o la funcion de transferencia del filtro de la formula (1). En ese caso, el componente de fase puede descartarse.
20
[0052] En el caso de calcular el envolvente para las bandas espectrales y no para las lineas individuales, el envolvente aplicado a las lineas espectrales tendra un planteamiento por etapas continuo. Para obtener un envolvente aun mas continuo, es posible interpolar o suavizar el envolvente. Sin embargo, deberia observarse que las bandas espectrales continuas en sus etapas proporcionan una reduccion en la complejidad computacional. Por
25 tanto, esto es un equilibrio entre la precision y la complejidad.
[0053] Como se ha indicado anteriormente, el LTP tambien puede usarse para inferir un envolvente mas detallado. Algunos de los principales desafios de aplicar la informacion armonica a la forma del envolvente son:
30 1) Seleccionar la codificacion y precision de la informacion LTP como el desfase LTP y la ganancia LTP. Por ejemplo, podria usarse la misma codificacion que en ACELP.
2) El LTP puede corresponderse a un filtro de peine en el dominio de frecuencia. Sin embargo, las realizaciones anteriores o cualquier otra realizacion de acuerdo con la presente invencion no estaran restringida al uso de un filtro de peine de la misma forma que el LTP. Tambien podrian usarse otras funciones.
35 3) Ademas de la forma de filtro de peine del LTP, tambien es posible decidir aplicar el LTP de forma diferente en diferentes regiones de frecuencia. Por ejemplo, los picos armonicos son normalmente mas prominentes en frecuencias mas bajas. Tendria entonces sentido aplicar el modelo armonico en la frecuencia baja con una amplitud mas alta que en las frecuencias altas.
4) Como se ha indicado anteriormente, la forma del envolvente se calcula a nivel de bandas. Sin embargo, un filtro 40 de peine en LTP ciertamente tendra una estructura y frecuencia mucho mas detalladas que las que tienen los valores de envolvente estimados a nivel de banda. En la implementacion del modelo armonico, es entonces beneficioso reducir la complejidad computacional.
[0054] En las realizaciones anteriores, puede utilizarse el supuesto segun el cual las lineas individuales o 45 mas especificamente las magnitudes del espectro 26 en los componentes espectrales k, se distribuyen de acuerdo
con la distribucion Laplace, es decir, la distribucion exponencial senalizada. En otras palabras, la anteriormente mencionada f(i,l(k)) puede ser una funcion Laplace. Ya que la senal del espectro 26 en el componente espectral k puede siempre codificarse por un bit, y la probabilidad de ambas senales puede asumirse de forma segura que sera 0,5, la senal siempre puede codificarse por separado, y debemos considerar solo la distribucion exponencial.
50
[0055] En general, sin ninguna informacion anterior, la primera opcion para cualquier distribucion seria la distribucion normal. La distribucion exponencial, sin embargo, tiene mucha mas probabilidad de tener una masa cercana a cero que la distribucion normal y por tanto describe una senal mas dispersa que la distribucion normal. Ya que uno de los principales objetivos de las transformaciones tiempo-frecuencia es conseguir una senal dispersa,
55 entonces una distribucion de probabilidad que describa senales dispersas esta bien garantizada. Ademas, la distribucion exponencial tambien proporciona ecuaciones que son facilmente tratables en formato analitico. Estos
dos segmentos proporcionan la base para usar la distribucion exponencial. Las siguientes derivaciones pueden naturalmente modificarse facilmente para otras distribuciones.
[0056]
5
Una variable distribuida exponencialmente x tiene la funcion de densidad de probabilidad (x < 0):
imagen1
y la funcion de distribucion acumulativa
10
[0057] La entropla de una variable exponencial es 1 - ln(l), donde el consumo de bits esperado de una llnea unica, incluyendo signo, serla log2(2e1). Sin embargo, este es un valor teorico que se conserva para variables discretas solo l cuando es grande.
15
[0058] El consumo real de bits puede estimarse mediante simulaciones, pero no hay disponible una formula analltica precisa. Un consumo de bits aproximado es, por tanto, log2(2e1 + 0,15 + 0,035/ l) para l > 0,08.
[0059] Es decir, las realizaciones descritas anteriormente con el estimador de distribucion de probabilidad en 20 los lados de codificacion y decodificacion pueden usar una distribucion Laplace como una funcion parametrizable
para determinar la estimacion de distribucion de probabilidad. El parametro de escala l de la distribucion Laplace puede servir como el parametro de distribucion de probabilidad mencionado anteriormente, es decir, como nk.
[0060] A continuacion, se describe una posibilidad para realizar la escalacion de envolvente. Un enfoque se 25 basa en realizar una primera suposicion para la escalacion, calculando su consumo de bits y mejorando la
escalacion iterativamente hasta que este lo suficientemente cerca del nivel deseado. En otras palabras, los estimadores de distribucion de probabilidad mencionados anteriormente en el lado de codificacion y decodificacion podrlan realizar los siguientes pasos.
30 [0061] Digamos que fk es el valor de envolvente para la posicion k. El valor promedio del envolvente es
f=-Yjt
entonces N donde N es el numero de lineas espectrales. Si el consumo de bits deseado es b, entonces el primer intento de suposicion de escalacion puede resolverse facilmente a partir de
35 [0062] El consumo estimado de bits bk para la iteracion k y con la escalacion gk es entonces
imagen2
imagen3
imagen4
[0063] La operacion de logaritmo es computacionalmente compleja, as! que, en vez de eso, podemos
40 calcular
h = log2 IJ(2e/h0fc + 0-15 I Q.Q'&ifhSir)
h
[0064] Incluso aunque el termino del producto es un numero muy grande y su calculo en punto fijo requiere mucha administracion, sigue siendo menos complejo que un numero grande de operaciones log2().
[0065] Para reducir aun mas la complejidad, podemos estimar el consumo de bits mediante log2(2e1), donde 5 el consumo total de bits es b = log2 n 2efh g. A partir de esta ecuacion, el coeficiente de escalation g puede
resolverse facilmente de forma analltica, donde la iteration de escalacion del envolvente no es necesaria.
[0066] En general, no existe una forma analltica de resolver gk a partir de la Ec. 5, donde debe usarse un metodo iterativo. Si se utiliza la busqueda de bisection, entonces si bo < b, entonces el tamano del paso inicial es
10 2(b-bo)/N -1 y de lo contrario el tamano del paso es 1-2(b-bo)/w. Mediante este enfoque, la busqueda de biseccion converge tlpicamente en 5-6 iteraciones.
[0067] El envolvente debe escalarse igualmente en el codificador y en el decodificador. Ya que las distribuciones de probabilidad se derivan del envolvente, incluso una diferencia de 1 bit en la escalacion en el
15 codificador y el decodificador causarla que el decodificador aritmetico produzca un resultado aleatorio. Es por tanto muy importante que la implementation opere exactamente igual en todas las plataformas. En la practica, esto requiere que el algoritmo se implemente con operaciones de entero y punto fijo.
[0068] Aunque el envolvente ya ha sido escalado de forma que la expectativa del consumo de bits sea igual 20 al nivel deseado, las llneas espectrales reales en general no coincidiran con la asignacion de bits sin la escalacion.
Incluso si se escalara la senal de forma que su variation coincidiera con la variation del envolvente, la distribution de muestra invariablemente diferirla de la distribucion del modelo, donde el consumo deseado de bits no se alcanza. Es por tanto necesario escalar la senal de forma que cuando se cuantifique y codifique, el consumo final de bits alcance el nivel deseado. Ya que esto normalmente debe realizarse de forma iterativa (no existe una solution 25 analltica), el proceso se conoce como bucle de regimen.
[0069] Hemos elegido comenzar con una escalacion de primera suposicion de forma que la variacion del envolvente y la senal escalada coincidan. Simultaneamente, podemos encontrar esa llnea espectral, que tiene la menor probabilidad de acuerdo con nuestro modelo de probabilidad. Debe tenerse cuidado de que el valor de
30 probabilidad mas pequeno no este por debajo de la precision de maquina. Esto as! establece un llmite en el factor de escala que se estimara en el bucle de regimen.
[0070] Para el bucle de regimen, de nuevo empleamos la busqueda biseccion, de forma que el tamano del paso comience a la mitad del factor de escala inicial. Luego el consumo de bits se calcula en cada iteracion como
35 una suma de todas las llneas espectrales y la precision de cuantificacion se actualiza dependiendo de como de cerca estemos a la asignacion de bits.
[0071] En cada iteracion, la senal se cuantifica primero con la escalacion actual. Segundo, cada llnea se codifica con el codificador aritmetico. De acuerdo con el modelo de probabilidad, la probabilidad de que una llnea xk
40 se cuantifique a cero es de p(xk = 0) = 1 -exp(.5/fk), donde fk es el valor del envolvente (= desviacion estandar de la llnea espectral). El consumo de bits de dicha llnea es naturalmente -log2 p(xk = 0). Un valor xk no cero tiene la probabilidad p(| xk | = q) = exp((q + .5)/fk) - exp((q - .5)/fk). La magnitud puede entonces codificarse con log2(p(| xk | = q)) bits, mas un bit por el signo.
45 [0072] De esta forma, puede calcularse el consumo de bits de todo el espectro. Ademas, debe tenerse en
cuenta que podemos establecer un llmite K de forma que todas las llneas k > K sean cero. Es entonces suficiente codificar las primeras llneas K. El decodificador puede entonces deducir que, si las primeras llneas K han sido decodificadas, pero no hay bits adicionales disponibles, entonces las llneas restantes deben ser todas cero. Por tanto, no es necesario transmitir el llmite K, sino que puede deducirse de la secuencia de bits. De esta forma, 50 podemos evitar las llneas de codification que son cero, donde ahorramos bits. Ya que para las senales de voz y audio sucede frecuentemente que la parte superior del espectro se cuantifica a cero, es beneficioso comenzar desde las frecuencias bajas, y hasta donde sea posible, usar todos los bits para las llneas K.
[0073] Debe tenerse en cuenta de que ya que los valores del envolvente fk son iguales dentro de una banda,
55 podemos reducir facilmente la complejidad precalculando los valores que son necesarios para cada llnea en una banda. Especlficamente, en las llneas de codificacion, el termino exp(.5/fk) siempre es necesario y es igual dentro de cada banda. Ademas, este valor no cambia dentro del bucle de regimen, donde puede calcularse fuera del bucle de regimen y el mismo valor puede usarse tambien para la cuantificacion final.
[0074] Ademas, ya que el consumo de bits de una ilnea es log2() de la probabilidad, podemos, en vez de calcular la suma de los logaritmos, calcular el logaritmo de un producto. De esta forma se ahorra en complejidad de nuevo. Ademas, ya que el bucle de regimen es una funcion solo del codificador, las operaciones de punto flotante nativas pueden usarse en vez de punto fijo.
5
[0075] Haciendo referencia a lo anterior, se consulta la Fig. 10, que muestra una subparte del codificador explicada anteriormente con respecto a las figuras, cuya parte es responsable de realizar la escalation del envolvente mencionada anteriormente y el bucle de regimen de acuerdo con una realization. En particular, la Fig. 10 muestra elementos de la etapa de codification y cuantificacion de entropla 18 por un lado y el estimador de
10 distribucion de probabilidad 14 por el otro. Un binarizador de binarizacion unaria 130 somete a las magnitudes de los valores espectrales xk del espectro 26 a los componentes espectrales k para una binarizacion unaria, por tanto, generando, para cada magnitud en el componente espectral k, una secuencia de celdas. El codificador aritmetico binario 132 recibe estas secuencias de celdas, es decir, una por componente espectral k, y las somete a codificacion aritmetica binaria. Tanto el binarizador de binarizacion unaria 130 y el codificador aritmetico binario 132 son parte de 15 la etapa de codificacion y cuantificacion de entropla 18. La Fig. 10 muestra el derivador del parametro 68, que es responsable de realizar la escalacion mencionada anteriormente para escalar los valores de estimation del envolvente qk, o como tambien se denotaron anteriormente por fk, de forma que resulte en parametros de distri bucion de probabilidad escalada correctamente nk o usando notation recien usada gkfk. Como se ha descrito anteriormente usando la formula (5), el derivador binario 68 determina el valor de escalacion gk de forma iterativa, de 20 forma que la estimacion analltica del consumo de bits sea un ejemplo del cual se representa mediante la ecuacion (5), alcance alguna tasa de bits objetivo para todo el espectro 26. Como nota adicional, debera notarse que k como se utiliza en conexion con la ecuacion (5) denotaba el numero de paso de la iteration, mientras que en otros sitios la variable k debla denotar la llnea espectral o el componente k. Mas alla de eso, deberla notarse que el derivador de parametros 68 no escala necesariamente los valores de envolvente originales derivados ejemplarmente como se 25 muestra en las Figs. 4 y 6, sino que podrla modificar directa e iterativamente los valores del envolvente usando, por ejemplo, modificadores aditivos.
[0076] En cualquier caso, el codificador aritmetico binario 132 aplica, para cada componente espectral, la estimacion de distribution de probabilidad como se define mediante el parametro de distribution de probabilidad nk,
30 o como se ha usado de forma alternativa anteriormente, gkfk, para todas las celdas de la binarizacion unaria de la magnitud respectiva de los valores espectrales xk.
[0077] Ademas, como se ha descrito anteriormente, un verificador de bucle de regimen 134 puede proporcionarse para verificar el consumo real de bits producido usando los parametros de distribucion de
35 probabilidad como determina el derivador de parametros 68 como primera suposicion. El verificador de bucle de regimen 134 verifica la suposicion al estar conectado entre el codificador aritmetico binario 132 y el derivador de parametros 68.
[0078] Si el consumo real de bits supera el consumo de bits permitido a pesar de la estimacion realizada por 40 el derivador de parametros 68, el verificador de bucle de regimen 134 corrige los primeros valores supuestos de los
parametros de distribucion de parametro nk (o gkfk), y la codificacion aritmetica binaria 132 real de las binarizaciones unarias se realiza de nuevo.
[0079] La Fig. 11 muestra con fines de exhaustividad una parte similar del decodificador de la Fig. 8. En 45 particular, el derivador de parametros 68 opera en el lado de codificacion y decodificacion de la misma forma y por
tanto se muestra igual en la Fig. 11. En vez de usar una concatenation del binarizador de binarizacion unaria seguido del codificador aritmetico, el lado de decodificacion se utiliza la disposicion secuencial inversa, es decir, la etapa de decodificacion y descuantificacion de entropla 104 de acuerdo con la Fig. 11 ejemplarmente comprende un decodificador aritmetico binario 136 seguido de un desbinarizador de dispositivo de binarizacion unaria 138. El 50 decodificador aritmetico binario 136 recibe la parte del flujo de datos 22 que codifica aritmeticamente el espectro 26. El resultado del decodificador aritmetico binario 136 es una secuencia de secuencias de celdas, es decir, una secuencia de celdas de una cierta magnitud de valor espectral en el componente espectral k seguida por la secuencia de bits de la magnitud del valor espectral del siguiente componente espectral k + 1 y as! sucesivamente. El desbinarizador de binarizacion unaria 138 realiza la desbinarizacion, es decir, produce las magnitudes 55 desbinarizadas de los valores espectrales en el componente espectral k e informa al decodificador aritmetico binario 136 al principio y al final de las secuencias de celda de las magnitudes individuales de los valores espectrales. Al igual que el codificador aritmetico binario 132, el decodificador aritmetico binario 136 utiliza, por decodificacion aritmetica binaria, las estimaciones de distribucion de parametros definidas por los parametros de distribucion de
parametro, es decir, el parametro de distribucion de probabilidad nk (gkfk), para todas las celdas que pertenezcan a una magnitud respectiva de un valor espectral del componente espectral k.
[0080] Como tambien se ha descrito anteriormente, el codificador y decodificador pueden explorar el hecho 5 de que ambos lados pueden estar informados sobre la tasa de bits maxima disponible para que ambos lados puedan
explorar la circunstancia de que la codificacion real de las magnitudes de los valores espectrales del espectro 26 puede frustrarse cuando cruzan desde la frecuencia mas baja a la frecuencia mas alta, tan pronto como se alcance la tasa de bits maxima disponible en la secuencia de bits 22. Por convencion, la magnitud no transmitida puede establecerse a cero.
10
[0081] Con respecto a las realizaciones descritas mas recientemente, se tiene en cuenta que, por ejemplo, la primera escalacion supuesta del envolvente para obtener los parametros de distribucion de probabilidad pueden usarse sin el bucle de regimen para obedecer la tasa bits algo constante como, por ejemplo, si el escenario de la aplicacion no requiere conformidad.
15
[0082] Aunque algunos aspectos se han descrito en el contexto de un aparato, esta claro que estos aspectos tambien representan una descripcion del procedimiento correspondiente, donde un bloque o dispositivo se corresponde con un paso del procedimiento o una caracterlstica de un paso del procedimiento. Semejantemente, los aspectos descritos en el contexto de un paso del procedimiento representan una descripcion de un bloque
20 correspondiente o elemento o caracterlstica de un aparato correspondiente. Algunos o todos los pasos del procedimiento pueden ejecutarse por (o usando) un aparato de hardware, como, por ejemplo, un microprocesador, un ordenador programable o un circuito electronico. En algunas realizaciones, alguno o mas de los pasos del procedimiento mas importantes pueden ejecutarse por dicho aparato.
25 [0083] La senal de audio codificada de la invencion puede almacenarse en un medio de almacenamiento
digital o pueden transmitirse sobre un medio de transmision, como un medio de transmision inalambrica o un medio de transmision por cable como Internet.
[0084] Dependiendo de ciertos requisitos de implementacion, las realizaciones de la invencion pueden 30 implementarse en hardware o en software. La implementacion puede realizarse usando un medio de
almacenamiento digital, por ejemplo, un disco floppy, un DVD, un Blue-Ray, un CD, un ROM, un PROM, un EPROM, un EEPROM o una memoria flash, con senales de control legibles electronicamente almacenadas en el mismo, que cooperan (o son capaces de cooperar) con un sistema informatico programable de forma que se realice el procedimiento respectivo. Por tanto, el medio de almacenamiento digital puede ser legible por ordenador.
35
[0085] Algunas realizaciones de acuerdo con la invencion comprenden un soporte de datos que tiene senales de control legibles electronicamente, que son capaces de cooperar con un sistema informatico programable, de forma que uno de los procedimientos descritos en el presente se lleva a cabo.
40 [0086] Generalmente, las realizaciones de la presente invencion pueden implementarse como un producto de
programa informatico con un codigo de programa, el codigo de programa siendo operativo para realizar uno de los procedimientos cuando el producto de programa informatico se ejecuta en un ordenador. El codigo del programa puede, por ejemplo, almacenarse en un soporte legible por maquina.
45 [0087] Otras realizaciones comprenden el programa informatico para realizar uno de los procedimientos
descritos en el presente, almacenado en un soporte legible por maquina.
[0088] En otras palabras, una realizacion del procedimiento de la invencion es, por tanto, un programa informatico que tiene un codigo de programa para realizar uno de los procedimientos descritos en el presente,
50 cuando el programa informatico se ejecuta en un ordenador.
[0089] Una realizacion adicional del procedimiento de la invencion es, por tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informatico para realizar uno de los procedimientos descritos en el mismo. El soporte de datos, el medio
55 de almacenamiento digital o el medio grabado son normalmente tangibles y/o no transitorios.
[0090] Una realizacion adicional del procedimiento de la invencion es, por tanto, un flujo de datos o una secuencia de senales que representa el programa informatico para realizar uno de los procedimientos descritos en el
presente. El flujo de datos de la secuencia de las senales puede, por ejemplo, estar configurado para transferirse mediante una conexion de comunicacion de datos, por ejemplo, por Internet.
[0091] Una realization adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un 5 dispositivo logico programable, configurado o adaptado para realizar uno de los procedimientos descritos en el
presente.
[0092] Una realizacion adicional comprende un ordenador que tiene instalado el programa informatico para realizar uno de los procedimientos descritos en el presente.
10
[0093] Una realizacion adicional de acuerdo con la invention comprende un aparato o un sistema configurado para transferir (por ejemplo, de forma electronica u optica) un programa informatico para realizar uno de los procedimientos descritos en el presente a un receptor. El receptor pude, por ejemplo, ser un ordenador, un dispositivo movil, un dispositivo de memoria o similar. El aparato o sistema puede, por ejemplo, comprender un
15 servidor de archivos para transferir el programa informatico al receptor.
[0094] En algunas realizaciones, un dispositivo logico programable (por ejemplo, una Matriz de puertas programables por campo o FPGA)) puede utilizarse para realizar algunas o todas las funcionalidades de los procedimientos descritos en el presente. En algunas realizaciones, la FPGA puede cooperar con un
20 microprocesador para realizar uno de los procedimientos descritos en el presente. Generalmente, los procedimientos se realizan preferiblemente mediante un aparato de hardware.
[0095] Las realizaciones descritas anteriormente son meramente ilustrativas para los principios de la presente invencion. Se comprende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el
25 presente seran aparentes para aquellos expertos en la tecnica. Es la intention, por tanto, estar limitados solo por el alcance de las reivindicaciones de patente inminentes y no por los detalles especlficos presentados mediante la descripcion y explicacion de las realizaciones del presente.
Referencias
30
[0096]
[1] ISO/IEC 23003-3:2012, "MPEG-D (MPEG audio technologies), Part 3: Unified speech and audio coding," 2012.
[2] J. Makhoul, "Linear prediction: A tutorial review," Proc. IEEE, vol. 63, no. 4, pp. 561-580, April 1975.
35 [3] G. Fuchs, V. Subbaraman, and M. Multrus, "Efficient context adaptive entropy coding for real-time applications," in Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, May 2011, pp.
493-496.
[4] US8296134 and WO2012046685.

Claims (25)

  1. REIVINDICACIONES
    1. Decodificador de audio basado en prediccion lineal, que comprende:
    5 un estimador de distribucion de probabilidad (102) configurado para determinar, para cada pluralidad de componentes espectrales, una estimacion de distribucion de probabilidad (28) a partir de la informacion del coeficiente de prediccion lineal contenido en un flujo de datos (22) en el cual la senal de audio se codifica;
    una etapa de decodificacion y descuantificacion de entropla (104) configurada para decodificar y descuantificar la 10 entropla de un espectro (26) compuesta por una pluralidad de componentes espectrales desde el flujo de datos (22) usando la estimacion de distribucion de probabilidad (28) como determina cada una de las pluralidades de componentes espectrales; y un filtro configurado para dar forma al espectro (26) de acuerdo con una funcion de transferencia dependiendo de un filtro de slntesis de prediccion lineal definido por la informacion del coeficiente de prediccion lineal, caracterizado porque el estimador de distribucion de probabilidad (102) esta configurado para 15 determinar una estructura fina espectral (70) a partir de los parametros de prediccion a largo plazo contenidos en el flujo de datos y para determinar, para cada una de las pluralidades de los componentes espectrales, un parametro de distribucion de probabilidad de forma que los parametros de distribucion de probabilidad sigan espectralmente una funcion (72) que depende multiplicativamente de la estructura fina espectral (70), donde, para cada una de las pluralidades de componentes espectrales, la estimacion de distribucion de probabilidad (28) es una funcion 20 parametrizable parametrizada con el parametro de distribucion de probabilidad del componente espectral respectivo.
  2. 2. El decodificador de audio basado en prediccion lineal de acuerdo con la reivindicacion 1, que comprende, ademas:
    25 un determinador de factores de escala (110) configurado para determinar los factores de escala basado en la informacion del coeficiente de prediccion lineal; y un conformador espectral (112) configurado para formar espectralmente el espectro escalando el espectro usando los factores de escala, donde el determinador del factor de escala se configura para determinar los factores de escala de forma que representen una funcion de transferencia dependiendo del filtro de slntesis de prediccion lineal definido por la informacion del coeficiente de prediccion lineal. 30
  3. 3. El decodificador de audio basado en prediccion lineal de acuerdo con las reivindicaciones 1 o 2, donde la dependencia de la funcion de transferencia en el filtro de slntesis de prediccion lineal definido por la informacion del coeficiente de prediccion lineal es tal que la funcion de transferencia se pondera perceptualmente.
    35 4. El decodificador de audio basado en prediccion lineal de acuerdo con las reivindicaciones 1 o 3, donde
    la dependencia de la funcion de transferencia en el filtro de slntesis de prediccion lineal 1/A(z) definido por la
    prediccion lineal es tal que la funcion de transferencia es una funcion de transferencia de 1/A(kz), donde k es una
    constante.

    40 5. El decodificador de audio basado en prediccion lineal de acuerdo con cualquiera de las
    reivindicaciones anteriores, donde el estimador de distribucion de probabilidad esta configurado de forma que la estructura fina espectral es una estructura tipo peine definida por los parametros de prediccion a largo plazo.

  4. 6. El decodificador de audio basado en prediccion lineal de acuerdo con cualquiera de las
    45 reivindicaciones anteriores, donde los parametros de prediccion a largo plazo comprenden la ganancia de prediccion
    a largo plazo y un paso de prediccion a largo plazo.

  5. 7. El decodificador de audio basado en prediccion lineal de acuerdo con cualquiera de las
    reivindicaciones 1 a 6, donde, por cada una de las pluralidades de componentes espectrales, la funcion
    50 parametrizable se define de forma que el parametro de distribucion de probabilidad es una medida para una dispersion de la estimacion de distribucion de probabilidad.

  6. 8. El decodificador de audio basado en prediccion lineal de acuerdo con cualquiera de las
    reivindicaciones 1 a 7, donde, por cada una de las pluralidades de componentes espectrales, la funcion
    55 parametrizable es una distribucion Laplace, y el parametro de distribucion de probabilidad del componente espectral respectivo forma un parametro de escala de la distribucion Laplace respectiva.

  7. 9. El decodificador de audio basado en prediccion lineal de acuerdo con cualquiera de las
    reivindicaciones 1 a 8 ademas comprende un filtro de de-enfasis.
  8. 10. El decodificador de audio basado en prediction lineal de acuerdo con cualquiera de las reivindicaciones anteriores, donde la etapa de decodificacion y descuantificacion de entropla (104) esta configurada para, decodificar y descuantificar la entropla del espectro de la pluralidad de componentes espectrales, tratar el
    5 signo y la pluralidad en los componentes espectrales por separado usando la estimation de distribucion de probabilidad como se determina para cada una de las pluralidades de componentes espectrales para la magnitud.
  9. 11. El decodificador de audio basado en prediccion lineal de acuerdo con cualquiera de las reivindicaciones, donde la etapa de decodificacion y descuantificacion de entropla (104) se configura para usar la
    10 estimacion de distribution de probabilidad en la decodificacion de entropla a un nivel de magnitud del espectro por componente espectral y descuantificar los niveles de magnitud para todos los componentes espectrales de forma que se obtenga el espectro.
  10. 12. El decodificador de audio basado en prediccion lineal de acuerdo con la reivindicacion 11, donde la 15 etapa de decodificacion y cuantificacion de entropla (104) se configura para usar un tamano de paso de
    cuantificacion constante para descuantificar los niveles de magnitud.
  11. 13. El decodificador de audio basado en prediccion lineal de acuerdo con cualquiera de las reivindicaciones anteriores, que ademas comprende un transformador inverso configurado para someter al espectro
    20 a una transformation inversa muestreada crlticamente con valor real para obtener una parte de senal son solapamiento tiempo-dominio; y un anadidor de superposition configurado para someter a la parte de senal con solapamiento tiempo-dominio a un proceso superponer y anadir con una parte tiempo-dominio precedente y/o subsiguiente para reconstruir la senal de audio.
    25 14. Codificador de audio basado en prediccion lineal que comprende:
    un analizador de prediccion lineal (12) configurado para determinar la information del coeficiente de prediccion lineal;
    30 un estimador de distribucion de probabilidad (14) configurado para determinar, para cada una de las pluralidades de componentes espectrales, una estimacion de distribucion de probabilidad a partir de la informacion del coeficiente de prediccion lineal; y un determinador de espectro (16) configurado para determinar un espectro compuesto por la pluralidad de componentes espectrales desde una senal de audio;
    35 una etapa de cuantificacion y codification de entropla (18) configura para cuantificar y codificar la entropla del espectro usando la estimacion de distribucion de probabilidad como se determina para cada una de las pluralidades de componentes espectrales, donde el determinador de espectro (16) esta configurado para dar forma a un espectro original de la senal de audio de acuerdo con una funcion de transferencia que depende de una inversa de un filtro de slntesis de prediccion lineal definido por la informacion del coeficiente de prediccion lineal, y caracterizado porque 40 el codificador de audio basado en prediccion lineal ademas comprende un predictor a largo plazo configurado para determinar los parametros de prediccion a largo plazo, y el estimador de distribucion de probabilidad (14) esta configurado para determinar una estructura fina espectral (70) a partir de los parametros de prediccion a largo plazo y determinar, para cada una de las pluralidades de componentes espectrales, un parametro de distribucion de probabilidad de forma que los parametros de distribucion de probabilidad sigan espectralmente una funcion (72) que 45 depende de un producto de una funcion de transferencia del filtro de slntesis de prediccion lineal, una inversa de una funcion de transferencia de una modification ponderada perceptualmente del filtro de slntesis de prediccion lineal, y la estructura espectral fina (70), donde, para cada una de las pluralidades de componentes espectrales, la estimacion de la distribucion de probabilidad (28) es una funcion parametrizable con el parametro de distribucion de probabilidad del componente espectral respectivo.
    50
  12. 15. El codificador de audio basado en prediccion lineal de acuerdo con la reivindicacion 14, donde el
    determinador de espectro (16) comprende:
    un determinador de factores de escala (34) configurado para determinar los factores de escala basado en la 55 informacion del coeficiente de prediccion lineal;
    un transformador (36) configurado para descomponer espectralmente la senal de audio para obtener el espectro original; y un conformador espectral (38) configurado para dar forma espectralmente al espectro original escalando el espectro usando los factores de escala, donde el determinador de factores de escala (34) se configura para
    determinar los factores de escala de forma que la conformacion espectral por el conformador espectral usando los factores de escala se corresponde con una funcion de transferencia que depende de una inversa del filtro de slntesis de prediccion lineal definido por la informacion del coeficiente de prediction lineal.
    5 16. El codificador de audio basado en prediccion lineal de acuerdo con las reivindicaciones 14 o 15, donde
    la dependencia de la funcion de transferencia en la inversa del filtro de slntesis de prediccion lineal definido por la prediccion lineal es tal que la funcion de transferencia se pondera perceptualmente.
  13. 17. El codificador de audio basado en prediccion lineal de acuerdo con las reivindicaciones 14 a 16, donde 10 la dependencia de la funcion de transferencia en la inversa del filtro de slntesis de prediccion lineal 1/A(z) definido
    por la informacion del coeficiente de prediccion lineal es tal que la funcion de transferencia es una inversa de una funcion de transferencia de 1/A(kz), donde k es una constante.
  14. 18. El codificador de audio basado en prediccion lineal de acuerdo con cualquiera de las reivindicaciones
    15 14 a 17, donde el estimador de distribution de probabilidad esta configurado de forma que la estructura fina
    espectral es una estructura tipo peine definida por los parametros de prediccion a largo plazo.
  15. 19. El codificador de audio basado en prediccion lineal de acuerdo con cualquiera de las reivindicaciones
    14 a 18, donde los parametros de prediccion a largo plazo comprenden una ganancia de prediccion a largo plazo y
    20 un paso de prediccion a largo plazo.
  16. 20. El codificador de audio basado en prediccion lineal de acuerdo con cualquiera de las reivindicaciones 14 a 19, donde, por cada una de las pluralidades de componentes espectrales, la funcion parametrizable se define de forma que el parametro de distribucion de probabilidad es una medida para una dispersion de la estimacion de
    25 distribucion de probabilidad.
  17. 21. El codificador de audio basado en prediccion lineal de acuerdo con cualquiera de las reivindicaciones
    14 a 20, donde, por cada una de las pluralidades de componentes espectrales, la funcion parametrizable es una distribucion Laplace, y el parametro de distribucion de probabilidad del componente espectral respectivo forma un
    30 parametro de escala de la distribucion Laplace respectiva.
  18. 22. El codificador de audio basado en prediccion lineal de acuerdo con cualquiera de las reivindicaciones 14 a 21, que ademas comprende un filtro pre-enfasis (24) configurado para someter la senal de audio a un pre- enfasis.
    35
  19. 23. El codificador de audio basado en prediccion lineal de acuerdo con cualquiera de las reivindicaciones 14 a 22, donde la etapa de codification y cuantificacion de entropla esta configurada para, al cuantificar y codificar la entropla del espectro de la pluralidad de componentes espectrales, tratar el signo y la magnitud en la pluralidad de componentes espectrales de forma independiente usando la estimation de distribucion de probabilidad como se
    40 determina para cada una de las pluralidades de componentes espectrales para la magnitud.
  20. 24. El codificador de audio basado en prediccion lineal de acuerdo con cualquiera de las reivindicaciones 14 a 23, donde la etapa de codificacion y cuantificacion de entropla (18) se configura para cuantificar el espectro igualmente para todos los componentes espectrales para obtener los niveles de magnitud para los componentes
    45 espectrales y usar la estimacion de distribucion de probabilidad en la codificacion de entropla de los niveles de magnitud del espectro por componente espectral.
  21. 25. El codificador de audio basado en prediccion lineal de acuerdo con la revindication 24, donde la etapa de codificacion y cuantificacion de entropla esta configurada para usar un tamano de paso de cuantificacion
    50 constante para la cuantificacion.
  22. 26. El codificador de audio basado en prediccion lineal de acuerdo con cualquiera de las reivindicaciones 14 a 25, donde el transformador esta configurado para realizar una transformation muestreada crlticamente con valor real.
    55
  23. 27. Procedimiento de decodificacion de audio basada en prediccion lineal, que comprende:
    determinar, para cada pluralidad de componentes espectrales, una estimacion de distribucion de probabilidad (28) a partir de la informacion del coeficiente de prediccion lineal contenido en un flujo de datos (22) en el cual la senal de audio se codifica; y
    5 decodificar y descuantificar la entropla de un espectro (26) compuesta por una pluralidad de componentes espectrales desde el flujo de datos (22) usando la estimacion de distribucion de probabilidad como determina cada una de las pluralidades de componentes espectrales, el procedimiento comprendiendo ademas dar forma al espectro (26) de acuerdo con una funcion de transferencia dependiendo de un filtro de slntesis de prediccion lineal definido por la informacion del coeficiente de prediccion lineal, caracterizado porque la determinacion de la 10 estimacion de distribucion de probabilidad (28) comprende determinar una estructura fina espectral (70) a partir de los parametros de prediccion a largo plazo contenidos en el flujo de datos y determinar, para cada una de las pluralidades de los componentes espectrales, un parametro de distribucion de probabilidad de forma que los parametros de distribucion de probabilidad sigan espectralmente una funcion (72) que depende multiplicativamente de la estructura fina espectral (70), donde, para cada una de las pluralidades de componentes espectrales, la 15 estimacion de distribucion de probabilidad es una funcion parametrizable parametrizada con el parametro de distribucion de probabilidad del componente espectral respectivo.
  24. 28. Procedimiento de codificacion de audio basada en prediccion lineal, que comprende:
    20 determinar la informacion del coeficiente de prediccion lineal;
    determinar, para cada una de las pluralidades de componentes espectrales, una estimacion de distribucion de probabilidad (28) a partir de la informacion del coeficiente de prediccion lineal; determinar un espectro compuesto por la pluralidad de componentes espectrales desde una senal de audio;
    25
    cuantificar y codificar la entropla del espectro usando la estimacion de distribucion de probabilidad como se determina para cada una de las pluralidades de componentes espectrales, donde el determinador de espectro comprende dar forma a un espectro original de la senal de audio de acuerdo con una funcion de transferencia que depende de una inversa de un filtro de slntesis de prediccion lineal definido por la informacion del coeficiente de 30 prediccion lineal, y caracterizado porque el procedimiento ademas comprende determinar los parametros de prediccion a largo plazo, y la determinacion de la estimacion de distribucion de probabilidad (28) comprende determinar una estructura espectral fina (70) a partir de los parametros de prediccion a largo plazo y determinar, para cada una de las pluralidades de componentes espectrales, un parametro de distribucion de probabilidad de forma que los parametros de distribucion de probabilidad sigan espectralmente una funcion (72) que depende de un 35 producto de una funcion de transferencia del filtro de slntesis de prediccion lineal, una inversa de una funcion de transferencia de una modificacion ponderada perceptualmente del filtro de slntesis de prediccion lineal, y la estructura espectral fina (70), donde, para cada una de las pluralidades de los componentes espectrales, la estimacion de la distribucion de probabilidad (28) es una funcion parametrizable parametrizada con el parametro de distribucion de probabilidad del componente espectral respectivo.
    40
  25. 29. Programa informatico que tiene un codigo de programa para realizar, cuando se ejecuta en un ordenador, un procedimiento de acuerdo con la reivindicacion 27 o 28.
ES13730249.3T 2012-06-28 2013-06-19 Predicción lineal basada en una codificación de audio utilizando un estimador mejorado de distibución de probabilidad Active ES2644131T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261665485P 2012-06-28 2012-06-28
US201261665485P 2012-06-28
PCT/EP2013/062809 WO2014001182A1 (en) 2012-06-28 2013-06-19 Linear prediction based audio coding using improved probability distribution estimation

Publications (1)

Publication Number Publication Date
ES2644131T3 true ES2644131T3 (es) 2017-11-27

Family

ID=48669969

Family Applications (1)

Application Number Title Priority Date Filing Date
ES13730249.3T Active ES2644131T3 (es) 2012-06-28 2013-06-19 Predicción lineal basada en una codificación de audio utilizando un estimador mejorado de distibución de probabilidad

Country Status (19)

Country Link
US (1) US9536533B2 (es)
EP (1) EP2867892B1 (es)
JP (1) JP6113278B2 (es)
KR (2) KR101733326B1 (es)
CN (1) CN104584122B (es)
AR (1) AR091631A1 (es)
AU (1) AU2013283568B2 (es)
BR (1) BR112014032735B1 (es)
CA (1) CA2877161C (es)
ES (1) ES2644131T3 (es)
MX (1) MX353385B (es)
MY (1) MY168806A (es)
PL (1) PL2867892T3 (es)
PT (1) PT2867892T (es)
RU (1) RU2651187C2 (es)
SG (1) SG11201408677YA (es)
TW (1) TWI520129B (es)
WO (1) WO2014001182A1 (es)
ZA (1) ZA201500504B (es)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT3058566T (pt) * 2013-10-18 2018-03-01 Fraunhofer Ges Forschung Codificação de coeficientes espectrais de um espectro de um sinal de áudio
EP2919232A1 (en) 2014-03-14 2015-09-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and method for encoding and decoding
CN110491402B (zh) 2014-05-01 2022-10-21 日本电信电话株式会社 周期性综合包络序列生成装置、方法、记录介质
US9620138B2 (en) 2014-05-08 2017-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Audio signal discriminator and coder
EP2980793A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and methods for encoding and decoding
US10057383B2 (en) 2015-01-21 2018-08-21 Microsoft Technology Licensing, Llc Sparsity estimation for data transmission
EP3252768B1 (en) * 2015-01-30 2020-08-19 Nippon Telegraph and Telephone Corporation Parameter determination device, method, program, and recording medium
EP3382701A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3382700A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
CN113571073A (zh) * 2020-04-28 2021-10-29 华为技术有限公司 一种线性预测编码参数的编码方法和编码装置
CN114172891B (zh) * 2021-11-19 2024-02-13 湖南遥昇通信技术有限公司 基于加权概率编码的提升ftp传输安全性方法、设备及介质
CN119652440B (zh) * 2024-12-23 2025-09-16 中国电子科技集团公司第五十四研究所 一种基于联合概率密度分布的pcma信号识别方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100322706B1 (ko) * 1995-09-25 2002-06-20 윤종용 선형예측부호화계수의부호화및복호화방법
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
DE602008005250D1 (de) 2008-01-04 2011-04-14 Dolby Sweden Ab Audiokodierer und -dekodierer
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
EP2309493B1 (en) * 2009-09-21 2013-08-14 Google, Inc. Coding and decoding of source signals using constrained relative entropy quantization
TWI435317B (zh) * 2009-10-20 2014-04-21 Fraunhofer Ges Forschung 音訊信號編碼器、音訊信號解碼器、用以提供音訊內容之編碼表示型態之方法、用以提供音訊內容之解碼表示型態之方法及使用於低延遲應用之電腦程式
JP5316896B2 (ja) 2010-03-17 2013-10-16 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
RU2445718C1 (ru) * 2010-08-31 2012-03-20 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале
WO2012161675A1 (en) 2011-05-20 2012-11-29 Google Inc. Redundant coding unit for audio codec

Also Published As

Publication number Publication date
SG11201408677YA (en) 2015-01-29
CN104584122B (zh) 2017-09-15
CA2877161A1 (en) 2014-01-03
AR091631A1 (es) 2015-02-18
RU2015102588A (ru) 2016-08-20
JP2015525893A (ja) 2015-09-07
ZA201500504B (en) 2016-01-27
RU2651187C2 (ru) 2018-04-18
TWI520129B (zh) 2016-02-01
CN104584122A (zh) 2015-04-29
MX2014015742A (es) 2015-04-08
TW201405549A (zh) 2014-02-01
PT2867892T (pt) 2017-10-27
HK1210316A1 (en) 2016-04-15
AU2013283568A1 (en) 2015-01-29
KR101866806B1 (ko) 2018-06-18
MY168806A (en) 2018-12-04
EP2867892B1 (en) 2017-08-02
MX353385B (es) 2018-01-10
BR112014032735A2 (pt) 2017-06-27
EP2867892A1 (en) 2015-05-06
BR112014032735B1 (pt) 2022-04-26
PL2867892T3 (pl) 2018-01-31
JP6113278B2 (ja) 2017-04-12
WO2014001182A1 (en) 2014-01-03
AU2013283568B2 (en) 2016-05-12
KR101733326B1 (ko) 2017-05-24
CA2877161C (en) 2020-01-21
US20150106108A1 (en) 2015-04-16
KR20170049642A (ko) 2017-05-10
KR20150032723A (ko) 2015-03-27
US9536533B2 (en) 2017-01-03

Similar Documents

Publication Publication Date Title
ES2644131T3 (es) Predicción lineal basada en una codificación de audio utilizando un estimador mejorado de distibución de probabilidad
RU2575993C2 (ru) Основанная на линейном предсказании схема кодирования, использующая формирование шума в спектральной области
ES2604983T3 (es) Ajuste de nivel en el dominio del tiempo para decodificación o codificación de señales de audio
ES2433043T3 (es) Conmutación del modo de codificación ACELP a TCX
RU2562375C2 (ru) Аудиокодер и декодер
US10734003B2 (en) Noise signal processing method, noise signal generation method, encoder, decoder, and encoding and decoding system
ES2797525T3 (es) Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
ES2911893T3 (es) Codificador de audio, decodificador de audio y métodos relacionados para procesar señales de audio estéreo usando una dirección de predicción variable
TWI407432B (zh) 用於可縮放的語言及音頻編碼之方法、器件、處理器及機器可讀媒體
ES2660392T3 (es) Codificación de coeficientes espectrales de un espectro de una señal de audio
US9026451B1 (en) Pitch post-filter
DK3040988T3 (en) AUDIO DECODING BASED ON AN EFFECTIVE REPRESENTATION OF AUTOREGRESSIVE COEFFICIENTS
CN107210042B (zh) 编码装置、编码方法以及记录介质
CN105122358A (zh) 用于处理编码信号的装置和方法与用于产生编码信号的编码器和方法
ES2646021T3 (es) Método y aparato para codificación, procesamiento y decodificación de envolvente de señal de audio mediante modelado de una representación de suma acumulativa que emplea cuantificación de distribución y codificación
HK1210316B (en) Linear prediction based audio coding using improved probability distribution estimation
JP2013057792A (ja) 音声符号化装置及び音声符号化方法