ES2964807T3

ES2964807T3 - Procedimiento y aparato para controlar la ocultación de la pérdida de tramas de audio

Info

Publication number: ES2964807T3
Application number: ES21162222T
Authority: ES
Inventors: Stefan Bruhn; Jonas Svedberg
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2013-02-05
Filing date: 2014-01-22
Publication date: 2024-04-09
Anticipated expiration: 2034-01-22
Also published as: NZ739387A; RU2728832C2; EP3561808B1; AU2021212049A1; PH12015501507A1; PL3125239T3; PT3125239T; EP2954518B1; RU2020122689A3; CN108831490B; ES2750783T3; ES2603827T3; US20220375480A1; CA2978416C; JP6698792B2; KR20200052983A; AU2016225836A1; US10332528B2; US9721574B2; HK1258094A1

Abstract

Se divulga un método y un aparato para la adaptación de un método de ocultación de pérdida de cuadros en la decodificación de audio. El método comprende analizar una señal de audio recibida previamente para realizar una detección transitoria selectiva de frecuencia en base a bandas de frecuencia y modificar el método de ocultación de pérdida de trama por banda de frecuencia ajustando selectivamente una magnitud espectral de un espectro de trama de sustitución en respuesta a un transitorio detectado en la banda de frecuencia. El método comprende además detectar una pérdida de ráfaga y modificar adicionalmente el método de ocultación ajustando selectivamente una magnitud de un espectro de trama de sustitución en respuesta a la pérdida de ráfaga detectada. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Procedimiento y aparato para controlar la ocultación de la pérdida de tramas de audio

Sector técnico

La solicitud se refiere a procedimientos y aparatos para controlar un procedimiento de ocultación para una trama de audio perdida de una señal de audio recibida.

Antecedentes

Los sistemas de comunicación de audio convencionales transmiten señales de voz y audio en tramas, lo que significa que el lado emisor primero dispone la señal en segmentos cortos o tramas de longitud comprendida entre, por ejemplo, 20 y 40 ms, que, posteriormente, se codifican y transmiten como una unidad lógica, por ejemplo un paquete de transmisión. El receptor descodifica cada una de estas unidades y reconstruye las tramas de señal correspondientes que, a su vez, finalmente, se emiten como una secuencia continua de muestras de señal reconstruidas. Antes de la codificación, suele haber una etapa de conversión de analógico a digital (A/D), que convierte la señal de voz o audio analógica de un micrófono en una secuencia de muestras de audio. Por el contrario, en el extremo receptor, habitualmente hay una etapa final de conversión de D/A que convierte la secuencia de muestras de señales digitales reconstruidas en una señal analógica continua en el tiempo para la reproducción del altavoz.

Sin embargo, dicho sistema de transmisión para señales de voz y audio puede sufrir errores de transmisión, lo que podría conducir a una situación en la que una o varias de las tramas transmitidas no estén disponibles en el receptor para su reconstrucción. En ese caso, el descodificador tiene que generar una señal de sustitución para cada una de las tramas borradas, es decir, no disponibles. Esto se realiza en la denominada unidad de ocultación de la pérdida o error de tramas del descodificador de señales del lado del receptor. El propósito de la ocultación de la pérdida de tramas es hacer que la pérdida de tramas sea lo más inaudible posible y, por lo tanto, mitigar, tanto tal como sea posible, el impacto de la pérdida de tramas en la calidad de la señal reconstruida.

Los procedimientos convencionales de ocultación de la pérdida de tramas pueden depender de la estructura o arquitectura del códec, por ejemplo aplicando una forma de repetición de parámetros de códec recibidos previamente. Estas técnicas de repetición de parámetros dependen claramente de los parámetros específicos del códec utilizado y, por lo tanto, no se pueden aplicar fácilmente a otros códecs con una estructura diferente. Los procedimientos actuales de ocultación de la pérdida de tramas pueden, por ejemplo, aplicar el concepto de congelación y extrapolación de parámetros de una trama recibida previamente para generar una trama de sustitución de la trama perdida.

Estos procedimientos de ocultación de la pérdida de tramas de la técnica anterior incorporan algunos esquemas de manejo de pérdida de ráfagas. En general, después de varias pérdidas de tramas seguidas, la señal sintetizada se atenúa hasta quedar completamente silenciada después de largas ráfagas de errores. Además, los parámetros de codificación que se repiten y extrapolan esencialmente se modifican de manera que se consigue la atenuación, y los máximos espectrales se aplanan.

Las técnicas actuales de ocultación de la pérdida de tramas del estado de la técnica normalmente aplican el concepto de congelación y extrapolación de parámetros de una trama recibida previamente para generar una trama de sustitución para la trama perdida. Muchos códecs de voz paramétricos, tales como los códecs predictivos lineales tales como AMR o AMR-WB, habitualmente congelan los parámetros recibidos anteriormente o utilizan alguna extrapolación de los mismos, y utilizan el descodificador con ellos. En esencia, el principio es tener un modelo determinado para codificar/descodificar, y aplicar el mismo modelo con parámetros congelados o extrapolados. Las técnicas de ocultación de la pérdida de tramas de AMR y AMR-WB se pueden considerar representativas. Se especifican en detalle en las memorias descriptivas de los estándares correspondientes.

Muchos códecs de la clase de códecs de audio se aplican a técnicas de codificación del dominio de la frecuencia. Esto significa que después de una cierta transformación en el dominio de la frecuencia, se aplica un modelo de codificación a los parámetros espectrales. El descodificador reconstruye el espectro de la señal a partir de los parámetros recibidos y, finalmente, transforma el espectro nuevamente en una señal de tiempo. Habitualmente, la señal de tiempo se reconstruye trama a trama. Dichas tramas son combinadas mediante técnicas de superposición y adición a la señal reconstruida final. Incluso en el caso de los códecs de audio, la ocultación de errores de la técnica anterior suele aplicar el mismo modelo de descodificación, o al menos uno similar, para las tramas perdidas. Los parámetros del dominio de la frecuencia de una trama recibida previamente son congelados o se extrapolados adecuadamente y, a continuación, utilizados en la conversión del dominio de la frecuencia al dominio del tiempo. Ejemplos de dichas técnicas se proporcionan con los códecs de audio del 3GPP, según los estándares del 3GPP.

El documento US2004/122680 describe un sistema para la ocultación de errores de trama que enseña a ajustar la magnitud de la trama de sustitución según el número de tramas consecutivas perdidas. El documento EP 1722359 A1 describe un procedimiento de ocultación que incluye la detección de transitorios.

Compendio

Las soluciones actuales de la técnica anterior para la ocultación de la pérdida de tramas suelen adolecer de falta de calidad. El principal problema es que la técnica de congelación y extrapolación de parámetros y la nueva aplicación del mismo modelo de descodificador, incluso para tramas perdidas, no siempre garantiza una evolución continua y fiable de la señal desde las tramas de señal previamente descodificadas hasta la trama perdida. Esto conduce habitualmente a discontinuidades de la señal audible, con el correspondiente impacto en la calidad.

Se describen nuevos esquemas para la ocultación de la pérdida de tramas para sistemas de transmisión de voz y audio. Los nuevos esquemas mejoran la calidad en caso de pérdida de tramas con respecto a la calidad alcanzable con las técnicas de ocultación de la pérdida de tramas de la técnica anterior.

El objetivo de las presentes realizaciones es controlar un esquema de ocultación de la pérdida de tramas que, preferentemente, es del tipo de los nuevos procedimientos relacionados descritos de tal manera que se consigue la mejor calidad de sonido posible de la señal reconstruida. Las realizaciones tienen como objetivo optimizar esta calidad de reconstrucción tanto con respecto a las propiedades de la señal como a la distribución temporal de las pérdidas de trama. Particularmente problemáticos para que la ocultación de la pérdida de tramas proporcione una buena calidad son los casos en los que la señal de audio tiene propiedades que varían mucho, tal como inicios o desplazamientos de energía, o si es espectralmente muy fluctuante. En ese caso, los procedimientos de ocultación descritos pueden repetir el inicio, el desplazamiento o la fluctuación espectral, lo que conduce a grandes desviaciones con respecto a la señal original y la correspondiente pérdida de calidad.

Otro caso problemático es si se producen ráfagas de pérdida de tramas seguidas. Conceptualmente, el esquema para la ocultación de la pérdida de tramas según los procedimientos descritos puede tratar estos casos, aunque resulta que aún se pueden producir artefactos tonales molestos. Otro objetivo de las presentes realizaciones es mitigar dichos artefactos tanto tal como sea posible.

Según un primer aspecto, se da a conocer un procedimiento para la adaptación de un procedimiento de ocultación de la pérdida de tramas en la descodificación de audio, según la reivindicación 1.

Según un segundo aspecto, se describe un aparato para la adaptación de un procedimiento de ocultación de la pérdida de tramas, según la reivindicación 8.

Según un tercer aspecto, se da a conocer un programa informático, según la reivindicación 15.

Una ventaja de una realización aborda el control de las adaptaciones de los procedimientos de ocultación de la pérdida de tramas que permiten mitigar el impacto audible de la pérdida de tramas en la transmisión de señales de voz y audio codificadas incluso más allá de la calidad lograda solo con los procedimientos de ocultación descritos. El beneficio general de las realizaciones es proporcionar una evolución continua y fiable de la señal reconstruida incluso para tramas perdidas. El impacto audible de las pérdidas de tramas se reduce considerablemente en comparación con la utilización de técnicas de última generación.

Breve descripción de los dibujos

Para una comprensión más completa de las realizaciones de ejemplo de la presente invención, a continuación se hace referencia a la siguiente descripción, tomada junto con los dibujos que se acompañan, en los que:

la figura 1 muestra una función de ventana rectangular;

la figura 2 muestra una combinación de la ventana de Hamming con la ventana rectangular;

la figura 3 muestra un ejemplo de un espectro de magnitud de una función de ventana;

la figura 4 ilustra un espectro de líneas de una señal sinusoidal, a modo de ejemplo, con la frecuenciafk;

la figura 5 muestra un espectro de una señal sinusoidal con ventana, con la frecuenciafk;

la figura 6 ilustra las barras correspondientes a la magnitud de los puntos de la cuadrícula de una DFT, según una trama de análisis;

la figura 7 ilustra un ajuste parabólico a través de los puntos P1, P2 y P3 de la cuadrícula de la DFT;

la figura 8 ilustra un ajuste de un lóbulo principal de un espectro de ventana;

la figura 9 ilustra un ajuste de la función P de aproximación del lóbulo principal a través de los puntos P1 y P2 de la cuadrícula de la DFT;

la figura 10 es un diagrama de flujo que ilustra un procedimiento de ejemplo, según las realizaciones de la invención, para controlar un procedimiento de ocultación de una trama de audio perdida de una señal de audio recibida;

la figura 11 es un diagrama de flujo que ilustra otro procedimiento de ejemplo, según las realizaciones de la invención, para controlar un procedimiento de ocultación de una trama de audio perdida de una señal de audio recibida;

la figura 12 ilustra otro ejemplo de realización de la invención;

la figura 13 muestra un ejemplo de un aparato, según una realización de la invención;

la figura 14 muestra otro ejemplo de un aparato, según una realización de la invención;

la figura 15 muestra otro ejemplo de un aparato, según una realización de la invención.

Descripción detallada

El nuevo esquema de control para las nuevas técnicas de ocultación de la pérdida de tramas descritas implica las siguientes etapas, tal como se muestra en la figura 10. Cabe señalar que el procedimiento puede ser implementado en un controlador en un descodificador.

1. Detectar condiciones en las propiedades de la señal de audio previamente recibida y reconstruida o en las propiedades estadísticas de las pérdidas de trama observadas para las cuales la sustitución de una trama perdida según los procedimientos descritos proporciona una calidad relativamente reducida,101.

2. En caso de que se detecte dicha condición en la etapa 1, modificar el elemento de los procedimientos según los cuales el espectro de la trama de sustitución se calcula mediante7{m) ~ Y(m) ■ e]0kajustando selectivamente las fases o las magnitudes del espectro,102.

Análisis sinusoidal

Una primera etapa de la técnica de ocultación de la pérdida de tramas a la que se puede aplicar la nueva técnica de control implica un análisis sinusoidal de una parte de la señal recibida previamente. El propósito de este análisis sinusoidal es encontrar las frecuencias de las principales sinusoides de esa señal, y la suposición subyacente es que la señal está compuesta por un número limitado de sinusoides individuales, es decir, que es una señal multisinusoidal del siguiente tipo :

K j

s ( " ) = Y . a x ^ ■ n <pk )

k=i' c°s(<2>

.1 s

En esta ecuación, K es el número de sinusoides en las que se supone que consiste la señal. Para cada una de las sinusoides con índice k = 1...K,akes la amplitud,fkes la frecuencia y$kes la fase. La frecuencia de muestreo se denominafs,y el índice de tiempo de la señal discreta de tiempo muestreas(n)mediante n.

Es de suma importancia encontrar las frecuencias de las sinusoides tan exactas como sea posible. Si bien una señal sinusoidal ideal tendría un espectro de líneas con frecuencias de líneafk,encontrar sus valores verdaderos requeriría en principio un tiempo de medición infinito. Por lo tanto, en la práctica es difícil encontrar estas frecuencias puesto que solo pueden ser estimadas basándose en un período de medición corto, que corresponde al segmento de señal utilizado para el análisis sinusoidal descrito en el presente documento; este segmento de señal se denomina en lo que sigue trama de análisis. Otra dificultad es que la señal puede variar en el tiempo en la práctica, lo que significa que los parámetros de la ecuación anterior varían en el tiempo. Por lo tanto, por un lado, es deseable utilizar una trama de análisis larga, que haga que la medición sea más precisa; por otro lado, sería necesario un período de medición corto, para tratar mejor con las posibles variaciones de la señal. Una buena solución de compromiso es utilizar una longitud de trama de análisis del orden de, por ejemplo, entre 20 y 40 ms.

Una posibilidad preferida para identificar las frecuencias de las sinusoidesfkes realizar un análisis del dominio de la frecuencia de la trama de análisis. Con este fin, la trama de análisis se transforma en el dominio de la frecuencia, por ejemplo por medio de una DFT o una DCT, o transformadas del dominio de la frecuencia similares. En caso de que se utilice una DFT de la trama de análisis, el espectro viene dado por:

£-1.j,

X(m)<=>DFT(w(n<) •>x(n))<=>’JTe 11 ■ w(n) ■ x(n)

n=0 .

En esta ecuación, w(n) designa la función de ventana con la que se extrae y pondera la trama de análisis de longitud L. Las funciones de ventana habituales son, por ejemplo, ventanas rectangulares, que son iguales a 1 para n E [0...E-1] y, en caso contrario, 0, tal como se muestra en la figura 1. En este caso, se supone que los índices de tiempo de la señal de audio recibida previamente se establecen de tal manera que la trama de análisis es referenciada por los índices de tiempo n = 0...L-1. Otras funciones de ventana que pueden ser más adecuadas para el análisis espectral son, por ejemplo, la ventana de Hamming, la ventana de Hanning, la ventana de Kaiser o la ventana de Blackman. Una función de ventana que resulta particularmente útil es una combinación de la ventana de Hamming con la ventana rectangular. Esta ventana tiene una forma de borde ascendente como la mitad izquierda de una ventana de Hamming de longitud L1, y una forma de borde descendente como la mitad derecha de una ventana de Hamming de longitudL1, y entre los bordes ascendente y descendente la ventana es igual a 1 para la longitud deL-L1, tal como se muestra en la figura 2.

Los máximos del espectro de magnitud de la trama de análisis de ventana |X(m)| constituyen una aproximación de las frecuencias sinusoidalesfkrequeridas. Sin embargo, la precisión de esta aproximación está limitada por la separaciónA

de frecuencias de la DFT. Con la DFT con longitud de bloqueL,la precisión está limitada a 2¿.

Los experimentos muestran que este nivel de precisión puede ser demasiado bajo en el alcance de los procedimientos descritos en el presente documento. Se puede obtener una precisión mejorada basándose en los resultados de la siguiente consideración:

El espectro de la trama de análisis con ventana viene dado por la convolución del espectro de la función de ventana con el espectro de líneas de la señal del modelo sinusoidal S(D),

posteriormente muestreado en los puntos de cuadrícula de la DFT:

X{m )= J8(0. - m -?f) ■ (W(Q)*S(Clj) ■ dQ.

2tt

Utilizando la expresión de espectro de la señal del modelo sinusoidal, esto se puede escribir como

Por lo tanto, el espectro muestreado viene dado por

Sobre la base de esta consideración, se supone que los máximos observados en el espectro de magnitud de la trama de análisis provienen de una señal sinusoidal con ventana conKsinusoides, donde las verdaderas frecuencias sinusoidales se encuentran en la proximidad de los máximos.

Seamkel índice de la DFT (punto de la cuadrícula) del máximo de orden k observado; por lo tanto, la frecuencia

h = ~ f ,

correspondiente es '■ , que puede ser considerada una aproximación de la verdadera frecuencia sinusoidalfk.Se puede suponer que la verdadera frecuencia sinusoidalfkse encuentra dentro del intervalo

En aras de la claridad, cabe señalar que la convolución del espectro de la función de ventana con el espectro del espectro de líneas de la señal del modelo sinusoidal se puede entender como una superposición de versiones desplazadas en frecuencia, del espectro de la función de ventana, donde las frecuencias de desplazamiento son las frecuencias de las sinusoides. A continuación, esta superposición es muestreada en los puntos de la cuadrícula de la DFT. Estas etapas se ilustran con las siguientes figuras. La figura 3 muestra un ejemplo del espectro de magnitud de una función de ventana. La figura 4 muestra el espectro de magnitud (espectro de líneas) de una señal sinusoidal de ejemplo con una sola sinusoide de frecuencia. La figura 5 muestra el espectro de magnitud de la señal sinusoidal con ventana que replica y superpone los espectros de la ventana con desplazamiento de frecuencia en las frecuencias de la sinusoide. Las barras de la figura 6 corresponden a la magnitud de los puntos de la cuadrícula de la DFT de la sinusoide con ventana que se obtienen al calcular la DFT de la trama de análisis. Cabe señalar que todos los espectros son periódicos con el parámetro de frecuencia estandarizado D, donde D = 2n que corresponde a la frecuencia de muestreofs.

La explicación anterior y la ilustración de la figura 6 sugieren que solo se puede encontrar una mejor aproximación de las frecuencias sinusoidales verdaderas aumentando la resolución de la búsqueda sobre la resolución de la frecuencia de la transformada del dominio de la frecuencia utilizada.

Un modo preferido de encontrar mejores aproximaciones de las frecuenciasfkde las sinusoides es aplicar la interpolación parabólica. Uno de esos enfoques es ajustar parábolas a través de los puntos de la cuadrícula del espectro de magnitud de la DFT que rodean a los máximos, y calcular las respectivas frecuencias pertenecientes a los máximos de la parábola. Una elección adecuada para el orden de las parábolas es 2. En detalle, se puede aplicar el siguiente procedimiento:

1. Identificar los máximos de la DFT de la trama de análisis con ventana. La búsqueda de máximos proporcionará el númeroKde máximos, y los índices de la DFT correspondientes de los máximos. La búsqueda de máximos se puede realizar habitualmente en el espectro de magnitud de la DFT o en el espectro de magnitud de la DFT logarítmica.

2. Para cada máximok(siendok= 1...K) con el correspondiente índicemkde la DFT, ajustar una parábola a través de los tres puntos {P1; P2; P3} = {(m<k>-1, log(|X(m<k>-1)|); (m<k>, log(|X(m<k>)|); (m<k>+1, log(|X(m<k>+1)|)}. Esto da como resultado los coeficientes de parábola b<k>(0), b<k>(1), b<k>(2) de la parábola definida por

2

<a>( ‘/ ) = 2 > ( 0 V

i=0

Este ajuste parabólico se ilustra en la figura 7.

3. Para cada una de lasKparábolas, calcular el índice de frecuencia interpoladomkcorrespondiente al valor deqpara

el cual la parábola tiene su máximo. Utilizarf k ~ n,ks^ - , como aproximación para la frecuencia sinusoidalfk.

El enfoque descrito proporciona buenos resultados, pero puede tener algunas limitaciones, puesto que las parábolas no se aproximan a la forma del lóbulo principal del espectro de magnitud | W(Q)| de la función de ventana. Un esquema alternativo que hace esto es una estimación de frecuencia mejorada utilizando una aproximación de lóbulo principal, que se describe a continuación. La idea principal de esta alternativa es ajustar una funciónP(q),que aproxima el lóbulo

m ~ q ) \

principal de'■, a través de los puntos de la cuadrícula del espectro de magnitud de la DFT que rodean a los máximos, y calcular las respectivas frecuencias pertenecientes a la función máxima. La funciónP(q)podría ser 9jr

IW (—— ■ (q — (]))|

idéntica al espectro de magnitud desfasada en frecuencia ¿ de la función de ventana. Sin embargo, por sencillez informática, debería ser, por ejemplo, un polinomio que permita un cálculo sencillo del máximo de la función. Se puede aplicar el siguiente procedimiento detallado:

1. Identificar los máximos de la DFT de la trama de análisis con ventana. La búsqueda de máximos proporcionará el número de máximosKy los índices de la DFT correspondientes de los máximos. La búsqueda de máximos se puede realizar habitualmente en el espectro de magnitud de la DFT o en el espectro de magnitud de la DFT logarítmica.

2n

\ W { ~ q ) \

2. Obtener la funciónP(q)que aproxima el espectro de magnitudL-de la función de ventana o del espectro

\0g \ W ( 2^ - q ) \

de magnitud logarítmica'■para un intervalo(q1, <72) determinado. La elección de la función de aproximación que aproxima el lóbulo principal del espectro de la ventana se ilustra mediante la figura 8.

3. Para cada máximok(conk -1...K) con el índicemkde la DFT correspondiente, ajustar la función de desplazamiento de frecuencia ^ )a través de los dos puntos de la cuadrícula de la DFT que rodean el máximo real esperado

del espectro continuo de la señal sinusoidal con ventana. Por lo tanto, si I 1 ) l es mayor que |2f(W£ 1)|

ajustar a través de los puntos log(|4 f(fM A-l)|),(ntk,log(|A^(/W*)|)} y en caso

contrario, a través de los puntos O *'" P ¡> = « " " • 1° S ( W » 'i ) l ) ; ( r o L l o g ( W » « l ) | ) ! . Por sencillez,P(q)se puede elegir para que sea un polinomio de orden 2 o 4. Esto hace que la aproximación en la etapa 2 sea un cálculo de regresión lineal simple, y el cálculo de ?*, directo. El intervalo (<71,172) puede ser elegido para ser fijo e idéntico para todos los máximos, por ejemplo (91, q2) = (-1, 1), o adaptativo.

En el enfoque adaptativo, el intervalo se puede elegir de tal manera que la función P(q—qk) se ajuste al lóbulo principal del espectro de función con ventana en el rango de los puntos de la cuadrícula de la DFT {P<1>; P<2>} relevantes. El proceso de ajuste se visualiza en la figura 9.

4. Para cada uno de losKparámetros de cambio de frecuencia9kpara los que se espera que el espectro continuo

de la señal sinusoidal con ventana tenga su máximo, calcularf ' ’Llcomo aproximación para la frecuencia sinusoidalfk.

Hay muchos casos en los que la señal transmitida es armónica, lo que significa que la señal consta de ondas sinusoidales cuyas frecuencias son múltiplos enteros de alguna frecuencia fundamentalfo.Este es el caso cuando la señal es muy periódica, tal como, por ejemplo para la conversación de voz o los tonos sostenidos de algún instrumento musical. Esto significa que las frecuencias del modelo sinusoidal de las realizaciones no son independientes, sino que tienen una relación armónica y parten de la misma frecuencia fundamental. Tener en cuenta esta propiedad armónica puede mejorar sustancialmente el análisis de las frecuencias de componentes sinusoidales.

A continuación se describe una posibilidad de mejora:

1. Comprobar si la señal es armónica. Esto se puede hacer, por ejemplo, evaluando la periodicidad de la señal antes de la pérdida de la trama. Un procedimiento sencillo es realizar un análisis de autocorrelación de la señal. El máximo de dicha función de autocorrelación para un retraso de tiempo<t>> 0 se puede utilizar como indicador. Si el valor de este máximo supera un umbral determinado, la señal se puede considerar armónica. El retraso de tiempo<t>correspondiente corresponde, por lo tanto, al período de la señal que está relacionado con la frecuencia fundamental

a través d .

Muchos procedimientos de codificación de voz predictiva lineal aplican la llamada predicción de tono de bucle abierto o cerrado o codificación CELP (Closed-Loop Pitch Prediction) utilizando libros de códigos adaptativos. La ganancia de tono y los parámetros del retraso de tono asociados derivados de dichos procedimientos de codificación también son indicadores útiles si la señal es armónica y, respectivamente, para el retraso de tiempo.

A continuación se describe otro procedimiento para obtenerfo.

2. Para cada índice armónicojdentro del rango de enteros 1...Jmax,verificar si hay un máximo en el espectro de magnitud de la DFT (logarítmico) de la trama de análisis dentro de la proximidad de la frecuencia armónicaf j J f ° .La proximidad defj,se puede definir como el rango delta alrededor defjdonde delta corresponde a la resolución deL

frecuencia de la DFTL, es decir, al intervalo

En el caso de que esté presente dicho máximo con la correspondiente frecuencia sinusoidal estimadafk, sustituirfk

porfkporf k ~ í f ° .

Para el procedimiento de dos etapas proporcionado anteriormente, también existe la posibilidad de verificar si la señal es armónica y obtener la frecuencia fundamental implícitamente y, posiblemente de manera iterativa, sin utilizar necesariamente indicadores de algún procedimiento separado. A continuación se proporciona un ejemplo de dicha técnica:

Para cadafoi. pPu dec un u couniijun iutou u dec va culouriecas c uacunlduiiduat ious 'f (Kl f ° - p' < d ajpjuliucadrf la etapa 2 del procedimiento, aunque sin sustituir i , do cuántos máximos de la DFT están presentes en la proximidad alrededor de las frecuencias armónicas, es decir, los múltiplos enteros defo,p.Identificar la frecuencia fundamentalfo,pmaxpara la cual se obtiene el mayor número de máximos en o alrededor de las frecuencias armónicas. Si este mayor número de máximos supera un umbral determinado, se supone que la señal es armónica. En ese caso, se puede suponer quefo.pmax,es la

frecuencia fundamental con la que se ejecuta la etapa 2, lo que conduce a unas frecuencias sinusoidalesfmejoradas. Sin embargo, una alternativa más preferente es optimizar primero la frecuencia fundamentalfobasándose en las

frecuencias máximasf, que se ha encontrado que coinciden con las frecuencias armónicas. Suponer un conjunto deMarmónicos, es decir, los múltiplos enteros i W|nAi}de alguna frecuencia fundamental que se ha encontrado que

coinciden con algún conjunto deMmáximos espectrales en las frecuenciasf k,m), m =1...ÍW, entonces la frecuencia fundamental subyacente (optimizada)fo,optse puede calcular para minimizar el error entre las frecuencias armónicas y las frecuencias espectrales máximas. Si el error a minimizar es el error cuadrático medio

= £ > » > -/o - / « o ) 2

entonces la frecuencia fundamental óptima se calcula como

El conjunto inicial de valores candidatos{ fo . i . ". '.f JoU,p ‘<}>>se puede obtener a partir de las frecuencias de los máximos

<de la DFT o de las frecuencias sinusoidales estimadas>f k.

<Otra posibilidad para mejorar la precisión de las frecuencias sinusoidales estimadas>fk<es considerar su evolución en>el tiempo. Con ese fin, las estimaciones de las frecuencias sinusoidales de un múltiplo de tramas de análisis pueden ser combinadas, por ejemplo, mediante promediación o predicción. Antes de promediar o predecir, se puede aplicar un seguimiento de los máximos que conecta los máximos espectrales estimados con las mismas sinusoides subyacentes respectivas.

Aplicación del modelo sinusoidal

La aplicación de un modelo sinusoidal para realizar una operación de ocultación de la pérdida de trama descrita en el presente documento se puede describir como sigue.

Se supone que el descodificador no puede reconstruir un segmento determinado de la señal codificada, puesto que la información codificada correspondiente no está disponible. Se supone, además, que una parte de la señal anterior a este segmento está disponible. Sea y(n), siendon= 0...N-1 el segmento no disponible para el cual debe generarse una trama de sustitución z(n), y sea y(n) siendo n<0 la señal disponible previamente descodificada. A continuación, en una primera etapa, una trama prototipo de la señal disponible de longitudLe índice de inicio n-1 se extrae con una función de ventanaw(n)y se transforma en el dominio de la frecuencia, por ejemplo por medio de la DFT:

.27T

Y -X(m ) = Y,nZoy(n -n _ x) • w (n ) •e~}T nm

La función de ventana puede ser una de las funciones de ventana descritas anteriormente en el análisis sinusoidal. Preferentemente, para ahorrar complejidad informática, la trama transformada en el dominio de la frecuencia debe ser idéntica a la utilizada durante el análisis sinusoidal.

En una siguiente etapa, se aplica la suposición del modelo sinusoidal. Según eso, la DFT de la trama prototipo se puede escribir de la siguiente manera:

La siguiente etapa es darse cuenta de que el espectro de la función de ventana utilizada solo tiene una contribución significativa en un rango de frecuencias cercano a cero. Tal como se ilustra en la figura 3, el espectro de magnitud de la función de ventana es grande para frecuencias cercanas a cero, y pequeño en caso contrario (dentro del rango de frecuencias estandarizado entre -n y n, correspondiente a la mitad de la frecuencia de muestreo). Por lo tanto, como una aproximación se supone que el espectro de la ventana W(m) es distinto de cero solo para un intervalo M = [-mm/n,mmax],siendomminymmaxnúmeros positivos pequeños. En particular, se utiliza una aproximación del espectro de la función de ventana de modo que, para cada k, las contribuciones de los espectros de ventana desplazados en la expresión anterior son estrictamente no superpuestas. Por lo tanto, en la ecuación anterior para cada índice de frecuencia siempre existe como máximo la contribución de un sumando, es decir, de un espectro de ventana desplazado. Esto significa que la expresión anterior se reduce a la siguiente expresión aproximada:

parameMkno negativo y para cada k.

En este caso,Mkdesigna el intervalo de enteros

M k = [redondeo ( E • ¿ ) - m m in k t o n t e o (<t>' L ) m ™ u x ,k ]

15hdondeMmin.kyMmax.kcumplen la restricción explicada anteriormente, de tal manera que los intervalos no se superponen. Una elección adecuada paraMmin,kyMmax,kes establecerlos en un valor entero 5 pequeño, por ejemplo 5 = 3. Sin embargo, si los índices de la DFT relacionados con dos frecuencias sinusoidales adyacentesfkyfk+1son menores que 25, entonces 5 se establece en Redondeo hacia infinito negativo

de tal manera que se garantiza que los intervalos no son superpuestos. La función redondeo hacia infinito negativo (■) es el entero más cercano al argumento de la función que es menor o igual a él.

La siguiente etapa según la realización es aplicar el modelo sinusoidal según la expresión anterior y hacer evolucionar en el tiempo susKsinusoides. La suposición de que los índices de tiempo del segmento borrado en comparación con los índices de tiempo de la trama prototipo difieren en n-1 muestras significa que las fases de las sinusoides avanzan en

9k = 2n ■ j~n- i

Por lo tanto, el espectro de la DFT del modelo sinusoidal evolucionado viene dado por:

Aplicar nuevamente la aproximación según la cual los espectros de la función de ventana desplazada no se superponen proporciona:

para m EMkno negativo y para cadak.

Comparando la DFT de la trama prototipo Y-i(m) con la DFT del modelo sinusoidal evolucionadoYo(m)utilizando la aproximación, se encuentra que el espectro de magnitud permanece sin cambios mientras la fase se desplaza en

0 k = 27117 -n _ !

■s , para cadam e Mk.Por lo tanto, los coeficientes del espectro de frecuencias de la trama prototipo en la proximidad de cada sinusoide se desplazan proporcionalmente a la frecuencia sinusoidalfky a la diferencia de tiempo entre la trama de audio perdida y la trama prototipo n-1.

Por lo tanto, según la realización, la trama de sustitución se puede calcular mediante la siguiente expresión:

z(n)=lDTF{Z(m)}conZ(m)=Y(m)■e j0k para m e Mk nonegativo y para cadak.

Una realización específica aborda la aleatorización de fase para índices de la DFT que no pertenecen a ningún intervaloMk.Tal como se describió anteriormente, los intervalosMk, k= 1...K deben ser configurados de modo que no se superpongan estrictamente, lo que se realiza mediante algún parámetro, que controla el tamaño de los intervalos. Puede suceder que 5 sea pequeño en relación con la distancia de frecuencia de dos sinusoides adyacentes. Por lo tanto, en ese caso sucede que existe un espacio entre dos intervalos. En consecuencia, para los correspondientes

índices m de la DFT no se define ningún desfase según la expresión anteriorZ (m )— )(m ) ■ e j i¡u na e|ecc¡ón

adecuada según esta realización es aleatorizar la fase para estos índices, lo que conduce aZ(m) = Y(m) 'ey2'Trand()donde la función rand() devuelve algún número aleatorio.

Se ha encontrado beneficioso para la calidad de las señales reconstruidas optimizar el tamaño de los intervalosMk.En particular, los intervalos deben ser mayores si la señal es muy tonal, es decir, cuando tiene máximos espectrales claros y distintos. Este es el caso, por ejemplo, cuando la señal es armónica con una periodicidad clara. En otros casos en los que la señal tiene una estructura espectral menos pronunciada con máximos espectrales más amplios, se ha encontrado que la utilización de intervalos pequeños conduce a una mejor calidad. Este hallazgo conduce a una mejora adicional según la cual el tamaño del intervalo e se adapta según las propiedades de la señal. Una realización es utilizar un detector de tonalidad o periodicidad. Si este detector identifica la señal como tonal, el parámetro 5 que controla el tamaño del intervalo se establece en un valor relativamente grande. De lo contrario, el parámetro 5 se establece en valores relativamente más pequeños.

Con base en lo anterior, los procedimientos de ocultación de la pérdida de tramas de audio implican las siguientes etapas:

1. Analizar un segmento de la señal disponible, previamente sintetizada, para obtener las frecuencias sinusoidales constituyentesfkde un modelo sinusoidal, utilizando opcionalmente una estimación de frecuencia mejorada.

2. Extraer una trama prototipo y-1 de la señal disponible previamente sintetizada y calcular la DFT de esa trama.

3. Calcular el desfaseQkpara cada sinusoide k en respuesta a la frecuencia sinusoidalfky al avance de tiempon- 1entre la trama prototipo y la trama de sustitución. Opcionalmente en esta etapa se puede haber adaptado el tamaño del intervaloMen respuesta a la tonalidad de la señal de audio.

4. Para cada sinusoidekque avanza la fase de la DFT de la trama prototipo conQkselectivamente para los índices de la DFT relacionados con una proximidad alrededor de la frecuenciafkde la sinusoide.

5. Calcular la DFT inversa del espectro obtenido en la etapa 4.

Análisis y detección de propiedades de pérdida de señal y trama

Los procedimientos descritos anteriormente se basan en la suposición de que las propiedades de la señal de audio no cambian significativamente durante el breve período de tiempo desde la trama de señal recibida y reconstruida previamente y una trama perdida. En ese caso, es una muy buena opción retener el espectro de magnitud de la trama previamente reconstruida y evolucionar las fases de las componentes principales sinusoidales detectadas en la señal previamente reconstruida. Sin embargo, hay casos en los que esta suposición es incorrecta, por ejemplo, transitorios con cambios de energía repentinos o cambios espectrales repentinos.

Por consiguiente, una primera realización de un detector de transitorios, según la invención, puede basarse en variaciones de energía dentro de la señal previamente reconstruida. Este procedimiento, ilustrado en la figura 11, calcula la energía en una parte izquierda y una parte derecha de alguna trama de análisis113. La trama de análisis puede ser idéntica a la trama utilizada para el análisis sinusoidal descrito anteriormente. Una parte (izquierda o derecha) de la trama de análisis puede ser la primera o respectivamente la última mitad de la trama de análisis o, por ejemplo el primer o, respectivamente, el último, cuarto de la trama de análisis110. El cálculo de la energía respectiva se realiza sumando los cuadrados de las muestras en estas tramas parciales:

_ Y1 Aparte ^

<derec>= ^ n = Gy 2 ( n — -r )

yE<ha>tderedia

En este caso y(n) designa la trama de análisis,rnzquieidaynderechadesignan los respectivos índices de inicio de las tramas parciales que son ambas de tamañoNparte.

Ahora las energías de las tramas parciales izquierda y derecha se utilizan para la detección de una discontinuidad de señal. Esto se hace calculando la relación

Rl/r = Eizquierda / Ederecha.

Se puede detectar una discontinuidad con una disminución repentina de energía (desplazamiento) si la relaciónRi/rsupera algún umbral (por ejemplo, 10),115. De manera similar, se puede detectar una discontinuidad con un aumento repentino de energía (inicio) si la relaciónRwestá por debajo de algún otro umbral (por ejemplo, 0,1),117.

En el contexto de los procedimientos de ocultación descritos anteriormente, se ha descubierto que la relación de energía definida anteriormente puede ser, en muchos casos, un indicador demasiado inmune. En particular, en las señales reales y, especialmente, en la música, hay casos en los que un tono en alguna frecuencia aparece repentinamente mientras que otro tono en alguna otra frecuencia se detiene repentinamente. El análisis de una trama de señal de este tipo con la relación de energía definida anteriormente conduciría en cualquier caso a un resultado de detección erróneo para al menos uno de los tonos, puesto que este indicador es insensible a diferentes frecuencias.

Una solución a este problema se describe en la siguiente realización. La detección de transitorios se realiza ahora en el plano de tiempo y frecuencia. La trama de análisis se divide de nuevo en una trama parcial izquierda y una derecha,110. Aunque ahora, estos dos tramas parciales son (después de una creación de ventana adecuada con, por ejemplo, una ventana de Hamming,111) transformadas en el dominio de la frecuencia, por ejemplo por medio de una DFT de N<parte>-punto,112.

%quierda(^0D F T {y (ni^zquierda) parte

' 5 y

, siendom = 0 Nparte-1

A continuación, la detección de transitorios se puede realizar de manera selectiva en frecuencia para cada bin de la DFT con índice m. Utilizando las potencias de los espectros de magnitud de trama parcial izquierda y derecha, para cada índicemde la DFT se puede calcular una relación de energía113respectiva como

r

| derecha ( ) | |_os eXper¡ment0S muestran que la deteCCión de transitorios seleetivos de freCuenCia Con resolución de bin de la DFT es relativamente imprecisa debido a las fluctuaciones estadísticas (errores de estimación). Se encontró que la calidad de la operación mejora bastante cuando se realiza la detección de transitorios selectivos

en frecuencia sobre la base de bandas de frecuencia. Sea que * — especifica el intervalo de orden k,k=1...K,cubriendo los bins de la DFT desde mk-1 1 hastamk,entonces estos intervalos definirKbandas de frecuencia. La detección transitoria selectiva del grupo de frecuencias ahora se puede basar en la relación de banda entre las energías de banda respectivas de las tramas parciales izquierda y derecha:

de frecuencias

|7rt£_2^1 ^ ,J ^ k _ m fi

Bu<L>AHparte' Js> Ar,v parte' Jsl

donde fs designa la frecuencia de muestreo de audio.

El límite inferior de la banda de frecuencias más baja, m<o>, se puede establecer en 0, pero también se puede establecer en un índice de la DFT correspondiente a una frecuencia mayor para mitigar los errores de estimación que aumentan con las frecuencias más bajas. El límite superior de la banda de frecuencia más altamkse puede configurar en N<parte>/2 pero se elige, preferentemente, para que corresponda a alguna frecuencia más baja en la que un transitorio todavía tiene un efecto audible significativo.

Una opción adecuada para estos tamaños o anchos de banda de frecuencia es hacerlos del mismo tamaño, por ejemplo un ancho de varios 100 Hz. Otro modo preferido es hacer que los anchos de banda de frecuencia sigan el tamaño de las bandas críticas auditivas humanas, es decir, relacionarlos con la resolución de frecuencia del sistema auditivo. Esto significa aproximadamente igualar los anchos de banda de frecuencia para frecuencias de hasta 1 kHz, y aumentarlos exponencialmente por encima de 1 kHz. Un aumento exponencial significa, por ejemplo, duplicar el ancho de banda de frecuencias al incrementar el índice de banda k.

Tal como se ha descrito en la primera realización del detector de transitorios que estaba basado en una relación de energía de dos tramas parciales, cualquiera de las relaciones relacionadas con las energías de banda o las energías de bin de la DFT de dos tramas parciales se comparan con ciertos umbrales. Se utiliza un umbral superior respectivo para la detección de desplazamiento115(selectivo en frecuencia) y un umbral inferior respectivo para la detección de inicio117(selectivo en frecuencia).

Otro indicador dependiente de la señal de audio que es adecuado para una adaptación del procedimiento de ocultación de la pérdida de trama puede basarse en los parámetros del códec transmitidos al descodificador. Por ejemplo, el códec puede ser un códec multimodo, tal como según el estándar ITU-T G.718. Dicho códec puede utilizar modos de códec particulares para diferentes tipos de señales y un cambio del modo de códec en una trama poco antes de la pérdida de trama puede considerarse como un indicador de un transitorio.

Otro indicador útil para la adaptación de la ocultación de la pérdida de tramas es un parámetro de códec relacionado con una propiedad de sonorización y la señal transmitida. La sonorización se relaciona con la voz altamente periódica que se genera por una excitación glótica periódica del tracto vocal humano.

Otro indicador preferido es si se estima que el contenido de la señal es música o voz. Dicho indicador se puede obtener de un clasificador de señal que habitualmente puede formar parte del códec. En caso de que el códec realice dicha clasificación y ponga a disposición del descodificador una decisión de clasificación correspondiente como parámetro de codificación, este parámetro se utiliza preferentemente como indicador de contenido de señal para adaptar el procedimiento de ocultación de la pérdida de trama.

Otro indicador que se utiliza preferentemente para la adaptación de los procedimientos de ocultación de la pérdida de tramas es el carácter de ráfaga de las pérdidas de tramas. El carácter de ráfaga de las pérdidas de tramas significa que se producen varias pérdidas de tramas seguidas, lo que dificulta que el procedimiento de ocultación de la pérdida de tramas utilice porciones de señal válidas recientemente descodificadas para su funcionamiento. Un indicador de la técnica anterior es el númeronráfagade pérdidas de trama observadas seguidas. Este contador se incrementa en uno con cada pérdida de trama y se restablece a cero con la recepción de una trama válida. Este indicador también se utiliza en el contexto de las presentes realizaciones de ejemplo de la invención.

Adaptación del procedimiento de ocultación de la pérdida de tramas

En caso de que las etapas realizadas anteriormente indiquen una condición que sugiera una adaptación de la operación de ocultación de la pérdida de trama, se modifica el cálculo del espectro de la trama de sustitución.

Si bien el cálculo original del espectro de la trama de sustitución se realiza según la expresión m ) —' e >Je k,., ahora se introduce una adaptación modificando tanto la magnitud como la fase. La magnitud se modifica mediante escalado con dos factores a(m) yfi(m)y la fase se modifica con un componente de fase aditivo -9(m). Esto conduce al siguiente cálculo modificado de la trama de sustitución:

Cabe señalar que los procedimientos originales (no adaptados) de ocultación de la pérdida de tramas se utilizan sia {m ) =1,p (n t)= 1, and>%m)= 0. p0r lo tanto, estos valores respectivos son los predeterminados.

El objetivo general con la introducción de adaptaciones de magnitud es evitar artefactos audibles del procedimiento de ocultación de la pérdida de tramas. Dichos artefactos pueden ser sonidos musicales o tonales o sonidos extraños que surgen de repeticiones de sonidos transitorios. Dichos artefactos conducirían a su vez a degradaciones de la calidad, cuya evitación es el objetivo de las adaptaciones descritas. Un modo adecuado de dichas adaptaciones es modificar el espectro de magnitud de la trama de sustitución en un grado adecuado.

La figura 12 ilustra una realización de modificación del procedimiento de ocultación. La adaptación de la magnitud,123, se realiza preferentemente si el contador de pérdidas en ráfagasnráfagasupera algún umbralthrá a g a ,por ejemplothrráfaga= 3,121. En ese caso, se utiliza un valor inferior a 1 para el factor de atenuación, por ejemplo a(m) = 0,1.

Sin embargo, se ha encontrado que es beneficioso realizar la atenuación con un grado gradualmente creciente. Una realización preferida que consigue esto es definir un parámetro logarítmico que especifica un aumento logarítmico en la atenuación por cada trama,att_per_frame.A continuación, en caso de que el contador de ráfagas exceda el umbral, el factor de atenuación que aumenta gradualmente se calcula mediante

a ( m )<= i o c '>att-Per-frame'(n' ^~lhrTát<ac>

En este caso, la constante c es simplemente una constante de escala que permite especificar el parámetroatt_per_frame,por ejemplo, en decibelios (dB).

Se realiza una adaptación preferida adicional en respuesta al indicador de si se estima que la señal es música o voz. Para el contenido de música en comparación con el contenido de voz, es preferente aumentar el umbralthráfagay disminuir la atenuación por cada trama. Esto es equivalente a realizar la adaptación del procedimiento de ocultación de la pérdida de trama con un grado inferior. Los antecedentes de este tipo de adaptación son que la música es, en general, menos sensible a las ráfagas de pérdida más largas que la voz. Por lo tanto, el original, es decir, el procedimiento de ocultación de la pérdida de tramas sin modificar sigue siendo preferente para este caso, al menos para un mayor número de pérdidas de tramas seguidas.

Otra adaptación del procedimiento de ocultación con respecto al factor de atenuación de magnitud se realiza preferentemente en caso de que se haya detectado un transitorio basado en que el indicadorRi/r,banda(k)o alternativamenteR/ r (m)oR/ rhan pasado un umbral,122. En ese caso, una acción de adaptación adecuada,125, es modificar el segundo factor de atenuación de magnitud¡3(m) de modo que la atenuación total esté controlada por el producto de los dos factoresa (m ) f i ( m )

P(m)se establece en respuesta a un transitorio indicado. En caso de que se detecte un desplazamiento, el factorfi(m)se elige preferentemente para reflejar la disminución de energía del desplazamiento. Una opción adecuada es establecerfi(m)para el cambio de ganancia detectado:

p(m )= VKyr.i— ( * ) , param e l k, k =1...K

En caso de que se detecte un inicio, se considera ventajoso limitar el aumento de energía en la trama de sustitución. En ese caso, el factor se puede establecer en un valor fijo de, por ejemplo 1, lo que significa que no hay atenuación pero tampoco amplificación.

En lo anterior, se debe observar que el factor de atenuación de magnitud se aplica preferentemente de manera selectiva en frecuencia, es decir, con factores calculados individualmente para cada banda de frecuencias. En caso de que no se utilice el enfoque de banda, los factores de atenuación de magnitud correspondientes aún pueden obtenerse de manera analógica.f i(m)se puede configurar individualmente para cada bin de la DFT en caso de que se utilice la detección transitoria selectiva de frecuencias en el nivel del bin de la DFT. O bien, en caso de que no se utilice ninguna indicación de transitorios selectivos en frecuencia,f i(m )puede ser globalmente idéntico para todos losm.

Otra adaptación preferida del factor de atenuación de la magnitud se realiza junto con una modificación de la fase por medio del componente de fase adicionald(m)127. En caso de que se utilice dicha modificación de fase para unmdeterminado, el factor de atenuaciónf i(m)se reduce aún más. Preferentemente, se tiene en cuenta incluso el grado de modificación de fase. Si la modificación de fase es solo moderada,f i (m )solo se reduce ligeramente, mientras que si la modificación de fase es grande,f i (m )se reduce en un grado mayor.

El objetivo general con la introducción de adaptaciones de fase es evitar una tonalidad demasiado fuerte o una periodicidad de la señal en las tramas de sustitución generadas, lo que a su vez conduciría a degradaciones de la calidad. Un modo adecuado de dichas adaptaciones es aleatorizar o difuminar la fase en un grado adecuado.

Dicho difuminado de fase se consigue si el componente de fase adicionald(m)se establece en un valor aleatorio escalado con algún factor de control: = ' rand0 )

El valor aleatorio obtenido por la función rand( ) es, por ejemplo, generado por algún generador de números pseudoaleatorios. En este caso, se supone que proporciona un número aleatorio dentro del intervalo [0, 2n].

El factor de escalaa(m )en la ecuación anterior controla el grado en el que se altera la fase originalGk.Las siguientes realizaciones abordan la adaptación de fase por medio del control de este factor de escala. El control del factor de escala se realiza de manera análoga al control de los factores de modificación de magnitud descritos anteriormente.

Según una primera realización, el factor de escalaa(m)se adapta en respuesta al contador de pérdidas en ráfagas. Si el contador de pérdidas en ráfagasnráfagasupera algún umbralthrráfaga,por ejemplothrráfaga= 3, se utiliza un valor mayor que 0, por ejemplo a(m) = 0,2.

Sin embargo, se ha encontrado que es beneficioso realizar el difuminado con un grado gradualmente creciente. Una realización preferida que consigue esto es definir un parámetro que especifica un aumento en el difuminado por cada trama,dith_increase_per_frame.Entonces, en el caso de que el contador de ráfagas supere el umbral, el factor de control del difuminado que aumenta gradualmente se calcula mediante

Cl(_TTl'j= ^^^^¡ncr»nertoporca<Jatrana ' (HráfagatflT~ráfaga )

Cabe señalar en la fórmula anterior quea(m)se tiene que limitar a un valor máximo de 1 para que se consiga el difuminado de fase completa.

Cabe señalar que el valor umbral de pérdida de ráfagathrráfagautilizado para iniciar el difuminado de fase puede ser el mismo umbral que el utilizado para la atenuación de la magnitud. Sin embargo, se puede obtener una mejor calidad estableciendo estos umbrales en valores óptimos individuales, lo que, en general, significa que estos umbrales pueden ser diferentes.

Se realiza una adaptación preferida adicional en respuesta al indicador de si se estima que la señal es música o voz. Para el contenido de música en comparación con el contenido de voz, es preferente aumentar el umbralthrráfaga,lo que significa que el difuminado de fase para la música en comparación con el habla se realiza solo en caso de que se pierdan más tramas seguidas. Esto es equivalente a realizar la adaptación del procedimiento de ocultación de la pérdida de tramas para música con un grado inferior. Los antecedentes de este tipo de adaptación son que la música es, en general, menos sensible a las ráfagas de pérdida más largas que la voz. Por lo tanto, el procedimiento de ocultación de la pérdida de tramas original, es decir, no modificado, sigue siendo preferente para este caso, al menos para un mayor número de pérdidas de tramas seguidas.

Otra realización preferente es adaptar el difuminado de fase en respuesta a un transitorio detectado. En ese caso, se puede utilizar un mayor grado de difuminado de fase para losmbins de la DFT para los que se indica un transitorio, ya sea para ese bin, los bins de la DFT de la banda de frecuencia correspondiente o de la trama completa.

Parte de los esquemas descritos optimizan la dirección del procedimiento de ocultación de la pérdida de tramas para señales armónicas y, en particular, para conversación de voz.

En caso de que los procedimientos que utilizan una estimación de frecuencia mejorada, tales como los descritos anteriormente no se lleven a cabo, otra posibilidad de adaptación para el procedimiento de ocultación de la pérdida de tramas que optimiza la calidad de las señales de voz sonora es cambiar a algún otro procedimiento de ocultación de la pérdida de tramas que esté específicamente diseñado y optimizado para voz en lugar de para las señales de audio generales que contienen música y voz. En ese caso, el indicador de que la señal comprende una señal de voz sonora se utiliza para seleccionar otro esquema optimizado de ocultación de la pérdida de tramas para voz en lugar de los esquemas descritos anteriormente.

Las realizaciones se aplican a un controlador en un descodificador, tal como se ilustra en la figura 13. La figura 13 es un diagrama de bloques esquemático de un descodificador según las realizaciones. El descodificador130comprende una unidad de entrada132configurada para recibir una señal de audio codificada. La figura ilustra la ocultación de la pérdida de tramas mediante una unidad de ocultación de la pérdida de tramas lógica134, lo que indica que el descodificador está configurado para implementar una ocultación de una trama de audio perdida, según las realizaciones descritas anteriormente. Además, el descodificador comprende un controlador136para implementar las realizaciones descritas anteriormente. El controlador136está configurado para detectar condiciones en las propiedades de la señal de audio previamente recibida y reconstruida o en las propiedades estadísticas de las pérdidas de trama observadas para las que la sustitución de una trama perdida según los procedimientos descritos proporciona una calidad relativamente reducida. En caso de que se detecte dicha condición, el controlador136está configurado para modificar el elemento de los procedimientos de ocultación según los cuales el espectro de la trama de sustitución se calcula medianteZ(m )=Y(m ) eJBkajustando selectivamente las fases o las magnitudes del espectro. La detección puede ser realizada mediante una unidad de detección146y la modificación puede ser realizada mediante una unidad de modificación148tal como se ilustra en la figura 14.

El descodificador con sus unidades incluidas podría ser implementado en hardware. Hay numerosas variantes de elementos de circuitería que se pueden utilizar y combinar para conseguir las funciones de las unidades del descodificador. Dichas variantes están abarcadas por las realizaciones. Ejemplos particulares de implementación de hardware del descodificador es la implementación en hardware de procesador de señal digital (Digital Signal Processor, DSP) y tecnología de circuitos integrados, que incluye tanto circuitos electrónicos de propósito general como circuitos específicos de aplicaciones.

El descodificador150descrito en el presente documento podría ser implementado alternativamente, por ejemplo tal como se ilustra en la figura 15, es decir, mediante uno o más procesadores154y software155adecuados con almacenamiento o memoria156adecuados por lo tanto, para reconstruir la señal de audio, que incluye realizar la ocultación de la pérdida de tramas de audio según las realizaciones descritas en el presente documento, tal como se muestra en la figura 13. La señal de audio codificada entrante es recibida por una entrada (IN)152, a la que están conectados el procesador154y la memoria156. La señal de audio descodificada y reconstruida obtenida del software se emite desde la salida (OUT)158.

La tecnología descrita anteriormente se puede utilizar, por ejemplo en un receptor, que se puede utilizar en un dispositivo móvil (por ejemplo, un teléfono móvil, un ordenador portátil) o un dispositivo estacionario, tal como un ordenador personal.

Se debe entender que la elección de las unidades o módulos que interactúan, así como la denominación de las unidades son solo para fines de ejemplo, y pueden ser configuradas en una pluralidad de modos alternativos para poder ejecutar las acciones del proceso dado a conocer.

Cabe señalar, asimismo, que las unidades o módulos descritos en esta invención deben ser consideradas como entidades lógicas y no necesariamente como entidades físicas separadas. Se apreciará que el alcance de la tecnología dada a conocer en el presente documento abarca completamente otras realizaciones que pueden resultar evidentes para los expertos en la materia y que, por consiguiente, el alcance de esta invención no debe estar limitado.

La referencia a un elemento en singular no pretende significar “uno y solo uno” a menos que se declare explícitamente así, sino más bien “uno o más”. Además, no es necesario que un dispositivo o procedimiento aborde todos y cada uno de los problemas que se busca resolver mediante la tecnología descrita en el presente documento, para que esté abarcado en el presente documento.

En la descripción anterior, con fines de explicación y no de limitación, los detalles específicos se establecen como arquitecturas particulares, interfaces, técnicas, etc. para proporcionar una comprensión completa de la tecnología dada a conocer. Sin embargo, será evidente para los expertos en la materia que la tecnología dada a conocer se puede poner en práctica en otras realizaciones y/o combinaciones de realizaciones que se apartan de estos detalles específicos. Es decir, los expertos en la materia serán capaces de idear diversas disposiciones que, aunque no se describan o muestren explícitamente en el presente documento, incorporan los principios de la tecnología dada a conocer. En algunos casos, se omiten descripciones detalladas de dispositivos, circuitos y procedimientos bien conocidos para no oscurecer la descripción de la tecnología dada a conocer con detalles innecesarios.

Claims

REIVINDICACIONES

1. Un procedimiento para la adaptación de un procedimiento de ocultación de la pérdida de tramas en la descodificación de audio, comprendiendo el procedimiento:

- analizar (101, 122) una señal de audio recibida previamente para realizar una detección de transitorios selectiva en frecuencia sobre la base de bandas de frecuencia;

- modificar (102, 125) el procedimiento de ocultación de la pérdida de tramas por banda de frecuencia ajustando selectivamente una magnitud de espectro de un espectro de la trama de sustitución en respuesta a un transitorio detectado en la banda de frecuencias;

- detectar (101, 121) una pérdida de ráfaga con varias pérdidas de tramas consecutivas; y

- modificar adicionalmente (102, 123) el procedimiento de ocultación de la pérdida de tramas ajustando selectivamente la magnitud del espectro de la trama de sustitución en respuesta a la pérdida de ráfaga detectada.

2. El procedimiento según la reivindicación 1, en el que la detección de transitorios se basa en una relación en el sentido de la banda entre las respectivas energías de banda de las tramas parciales izquierda y derecha.

3. El procedimiento según la reivindicación 1, en el que la magnitud del espectro es ajustada en respuesta a la pérdida de ráfaga detectada realizando atenuación con un grado que aumenta gradualmente.

4. El procedimiento según cualquiera de las reivindicaciones anteriores, en el que el procedimiento de ocultación de la pérdida de tramas se modifica adicionalmente ajustando selectivamente una fase del espectro de la trama de sustitución.

5. El procedimiento según la reivindicación 4, en el que la fase del espectro de la trama de sustitución es ajustada si un número de tramas perdidas supera un umbral determinado.

6. El procedimiento según la reivindicación 4 o 5, en el que el ajuste de la fase del espectro de la trama de sustitución comprende aleatorizar o difuminar un espectro de fase.

7. El procedimiento según la reivindicación 6, en el que el espectro de fase se ajusta realizando el difuminado con un grado que aumenta gradualmente.

8. Un aparato para la adaptación de un procedimiento de ocultación de la pérdida de tramas en la descodificación de audio, estando configurado el aparato para:

- analizar una señal de audio recibida previamente para realizar una detección transitoria selectiva de frecuencia sobre la base de las bandas de frecuencia;

- modificar el procedimiento de ocultación de la pérdida de tramas ajustando la banda de frecuencias selectivamente una magnitud de espectro de un espectro de la trama de sustitución en respuesta a un transitorio detectado en la banda de frecuencias;

- detectar una pérdida de ráfaga con varias pérdidas de tramas consecutivas; y

- modificar aún más el procedimiento de ocultación de la pérdida de tramas ajustando selectivamente la magnitud de espectro del espectro de la trama de sustitución en respuesta a la pérdida de ráfaga detectada.

9. El aparato según la reivindicación 8, en el que la detección de transitorios se basa en la relación de banda entre las respectivas energías de banda de las tramas parciales izquierda y derecha.

10. El aparato según la reivindicación 8, configurado, además, para ajustar la magnitud del espectro en respuesta a la pérdida de ráfaga detectada realizando atenuación con un grado que aumenta gradualmente.

11. El aparato según cualquiera de las reivindicaciones 8 a 10, configurado para modificar aún más el procedimiento de ocultación de la pérdida de tramas ajustando selectivamente una fase del espectro de la trama de sustitución.

12. El aparato según la reivindicación 11, configurado para ajustar la fase del espectro de la trama de sustitución si un número de tramas perdidas supera un umbral determinado.

13. El aparato según la reivindicación 11 o 12, en el que ajustar la fase del espectro de la trama de sustitución comprende aleatorizar o difuminar un espectro de fase.

14. El aparato según cualquiera de las reivindicaciones 8 a 13, en el que el aparato es un descodificador en un dispositivo móvil.

15. Un programa informático (155), que comprende instrucciones que, cuando son ejecutadas en un aparato, hacen que el aparato lleve a cabo el procedimiento según cualquiera de las reivindicaciones 1 a 7.