ES2340975T3

ES2340975T3 - Metodo y aparato para obtener un factor de atenuacion.

Info

Publication number: ES2340975T3
Application number: ES08168328T
Authority: ES
Inventors: Wuzhou Zhan; Dongqi Wang; Yongfeng Tu; Jing Wang; Qing Zhang; Lei Miao; Jianfeng Xu; Chen Hu; Yi Yang; Zhengzhong Du; Fengyan Qi
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2007-11-05
Filing date: 2008-11-05
Publication date: 2010-06-11
Anticipated expiration: 2028-11-05
Also published as: US7957961B2; US8320265B2; US20090116486A1; US20090316598A1; CN101578657B; JP5255585B2; DE602008000668D1; CN101207665B; CN102682777B; PL2056292T3; CN102682777A; KR101168648B1; HK1155844A1; EP2161719A2; WO2009059497A1; KR20090046714A; BRPI0808765A2; HK1142713A1; DE202008017752U1; JP2009175693A

Abstract

Un método para tratar una señal de voz sintetizada en ocultación de pérdida de paquetes, cuyo método comprende: obtener una tendencia al cambio de la señal de voz, que comprende obtener una relación entre la energía de la última señal de voz tonal periódica y la energía de una señal de voz tonal periódica previa, de la señal de voz; obtener un factor de atenuación de acuerdo con la tendencia al cambio de la señal; y obtener una trama perdida, reconstruida después de atenuación de acuerdo con el factor de atenuación.

Description

Método y aparato para obtener un factor de atenuación.

Esta solicitud reivindica la prioridad de la solicitud de patente china núm. 200710169618.0, titulada "Método y aparato para obtener un factor de atenuación", presentada el 5 de Noviembre de 2007, en la Oficina Estatal de la Propiedad Intelectual de la RPC.

Campo del invento

El presente invento se refiere al campo del tratamiento de señales y, en particular, a un método y a un aparato para obtener un facto de atenuación.

Antecedentes del invento

De una transmisión de datos de voz se exige que se ejecute en tiempo real y que sea fiable en un sistema de comunicación de voz en tiempo real, por ejemplo, un sistema VoIP (voz por IP). Debido a las características nada fiables de un sistema de red, los paquetes de datos pueden perderse o no llegar a tiempo a su destino en un procedimiento de transmisión, desde un extremo de envío a un extremo de recepción. Estas dos clases de situaciones son consideradas, por el extremo de recepción, como pérdidas de paquetes de red. Es inevitable que se produzca pérdida de paquetes de red. Además, la pérdida de paquetes de red es uno de los factores más importantes que influyen sobre la calidad de la voz. Por tanto, se necesita un método robusto para ocultar la pérdida de paquetes con el fin de recuperar los paquetes de datos perdidos en el sistema de comunicación en tiempo real de forma que se siga obteniendo una buena calidad del habla en la situación de pérdida de paquetes de la red.

En la tecnología de comunicación por voz en tiempo real existente, en el extremo de envío un codificador divide la voz en banda ancha en una sub-banda alta y una sub-banda baja, y hace uso de ADPCM (modulación por código de impulsos diferencial, adaptable) para codificar las dos sub-bandas, respectivamente, y las envía juntas por la red al extremo de recepción. En el extremo de recepción, las dos sub-bandas son descodificadas, respectivamente, por el descodificador ADPCM y, luego, la señal final es sintetizada utilizando un filtro de síntesis QMF (filtro especular en cuadratura).

Para dos sub-bandas diferentes, se adoptan diferentes métodos de ocultación de la pérdida de paquetes (PLC). Para una sub-banda baja, en la situación en que no existe pérdida de paquetes, una señal de reconstrucción no sufre ningún cambio durante el Desvanecimiento cruzado. En la situación en que existe pérdida de paquetes, para la primera trama perdida se analiza la señal histórica (la señal histórica es una señal de voz previa a la trama perdida en el documento de la presente solicitud) utilizando un predictor a corto plazo y un predictor a largo plazo, y se extrae información sobre la clasificación de la voz. La señal de trama perdida es reconstruida utilizando LPC (codificación predictiva lineal) basada en el método de repetición tonal, el predictor y la información sobre la clasificación. El estado de ADPCM será actualizado, también, síncronamente hasta que se encuentre una trama buena. Además, no sólo ha de generarse la señal correspondiente a la trama perdida sino que, también, hay que generar una sección de señal que se adapte al Desvanecimiento cruzado. De este modo, una vez recibida una trama buena, se ejecuta el Desvanecimiento cruzado para tratar la señal de trama buena y la sección de señal. Ha de observarse que esta clase de Desvanecimiento cruzado solamente ocurre después de que el extremo de recepción pierde una trama y recibe la primera trama buena.

Durante el proceso de puesta en práctica del presente invento, el inventor encontró, al menos, los siguientes problemas en la técnica anterior. En la técnica anterior, la energía de la señal sintetizada se controla utilizando un factor de atenuación estático, auto-adaptable. Si bien el factor de atenuación definido cambia gradualmente, su velocidad de atenuación, es decir, el valor del factor de atenuación es el mismo en relación con la misma clasificación de la voz. Sin embargo, las voces humanas son diferentes. Si el factor de atenuación no coincide con la característica de las voces humanas, en la señal de reconstrucción aparecerá un ruido incómodo, particularmente en el final de las vocales estables. El factor de atenuación estático auto-adaptable no puede adaptarse a la característica de diversas voces humanas.

Se toma como ejemplo la situación mostrada en la figura 1, en la que T_{0} es el período tonal de la señal histórica. La señal superior corresponde a una señal original, es decir, un diagrama esquemático de forma de onda en la situación en la que no existe pérdida de paquetes. La señal inferior representada con línea de trazos es una señal sintetizada de acuerdo con la técnica anterior. Como puede verse en la figura, la señal sintetizada no mantiene la misma velocidad de atenuación que la señal original. Si existen demasiadas veces la misma repetición tonal, la señal sintetizada producirá un ruido musical evidente de forma que la diferencia entre la situación de la señal sintetizada y la situación deseable, es grande.

El documento EP 1 291 851 A2 describe un método y un sistema para la atenuación de formas de onda de tramas de velocidad corrompida por errores.

Sumario

Con el fin de conseguir el objeto antes mencionado, una realización del presente invento proporciona un método para tratar una señal de voz sintetizada en ocultación de pérdida de paquetes como se define en la reivindicación 1.

Una realización del presente invento proporciona, también, un aparato para tratar una señal de voz sintetizada en ocultación de pérdida de paquetes de acuerdo con la reivindicación 11.

Una realización del presente invento proporciona, también, un descodificador de voz de acuerdo con la reivindicación 14.

Una realización del presente invento proporciona, además, un producto de programa de ordenador como se define en la reivindicación 15.

En comparación con la técnica anterior, las realizaciones del presente invento presentan las siguientes ventajas:

Un factor de atenuación auto-adaptable se ajusta dinámicamente empleando la tendencia al cambio de una señal histórica. La transición suave de los datos históricos a los datos recibidos en último lugar se realiza de manera que la velocidad de atenuación entre la señal compensada y la señal original se mantenga tan consistente como resulte posible para adaptar la característica de varias voces humanas.

Breve descripción de los dibujos

La figura 1 es un diagrama esquemático que ilustra la señal original y la señal sintetizada de acuerdo con la técnica anterior;

la figura 2 es una gráfica de proceso que ilustra un método para obtener un factor de atenuación de acuerdo con la realización 1 del presente invento;

la figura 3 es un diagrama esquemático que ilustra los principios del codificador;

la figura 4 es un diagrama esquemático que ilustra el módulo de una LPC basada en la sub-unidad de repetición tonal de la unidad descodificadora de banda baja;

la figura 5 es un diagrama esquemático que ilustra una señal de salida después de adoptar el método de atenuación dinámica de acuerdo con la realización 1 del presente invento;

las figuras 6A y 6B son diagramas esquemáticos que ilustran la estructura del aparato para obtener un factor de atenuación de acuerdo con la realización 2 del presente invento;

la figura 7 es un diagrama esquemático que ilustra la escena de aplicación del aparato para obtener un factor de atenuación de acuerdo con la realización 2 del presente invento;

las figuras 8A y 8B son diagramas esquemáticos que ilustran la estructura del aparato para el tratamiento de señales de acuerdo con la realización 3 del presente invento;

la figura 9 es un diagrama esquemático que ilustra el módulo del descodificador de voz de acuerdo con la realización 4 del presente invento;

la figura 10 es un diagrama esquemático que ilustra el módulo de la unidad descodificadora de banda baja del descodificador de voz de acuerdo con la realización 4 del presente invento;

la figura 11 es un diagrama esquemático que ilustra el módulo de la LPC basada en una sub-unidad de repetición tonal, de acuerdo con la realización 4 del presente invento.

Descripción detallada

El presente invento se describirá con mayor detalle con referencia a los dibujos y a las realizaciones.

Un método para obtener un factor de atenuación se proporciona en la realización 1 del presente invento, destinado a tratar la señal sintetizada en ocultación de pérdida de paquetes, como se muestra en la figura 2, e incluye las operaciones siguientes.

Operación s101, se obtiene una tendencia al cambio de una señal:

Específicamente, la tendencia al cambio puede expresarse mediante los siguientes parámetros: (1) la relación entre la energía de la última señal tonal periódica y la energía de la señal tonal periódica previa de la señal; (2) la relación de la diferencia entre el valor máximo de la amplitud y el valor mínimo de la amplitud de la última señal tonal periódica y la diferencia entre el valor máximo de la amplitud y el valor mínimo de la amplitud de la señal tonal periódica previa de la señal.

Paso s102, se obtiene un factor de atenuación de acuerdo con la tendencia al cambio.

Se describirá el método específico de tratamiento de la realización 1 del presente invento junto con una escena de aplicación específica.

Un método para obtener el factor de atenuación que está destinado a tratar la señal sintetizada en ocultación de pérdida de paquetes, se proporciona en la realización 1 del presente invento.

Como se muestra en la figura 3, se adoptan métodos de PLC diferentes para dos sub-bandas diferentes. El método de PLC para la parte de banda baja se muestra como la parte \ding{192} en una trama representada en línea de trazos en la figura 3. Por otro lado, una trama \ding{193} representada en línea de trazos en la figura 3 corresponde al algoritmo de PLC para la banda alta. Para una señal de banda alta, zh(n) es una señal de banda alta emitida finalmente como salida. Después de obtener la señal de banda baja zl(n) y la señal de banda alta zh(n), se ejecuta el QMF para la señal de banda baja y la señal de banda alta y se sintetiza una señal y(n) de banda ancha finalmente emitida como salida.

Solamente se describe con detalle la señal de banda baja como sigue.

En la situación en la que no existe pérdida de tramas, se obtiene la señal xl(n), siendo n=0,...,L-1 después de descodificar la trama corriente recibida por el descodificador ADPCM de banda baja y la salida es zl(n), siendo n=0,...,L-1 correspondiente a la trama corriente. En esta situación, la señal de reconstrucción no cambia durante el Desvanecimiento-cruzado, es decir, zl(n)=xl(n), siendo n=0,...,L-1, donde L es la longitud de la trama;

En la situación en que existe pérdida de tramas, en lo que respecta a la primera trama perdida, se analiza la señal histórica zl(n), siendo n<0 utilizando un predictor a corto plazo y un predictor a largo plazo, y se extrae información de clasificación de voz. Adoptando los predictores antes mencionados y la información de clasificación, se genera la señal yl(n) utilizando un método de LPC basado en repetición tonal. Y la señal de trama perdida zl(n) es reconstruida como zl(n)=yl(n), siendo n=L,...,L-1. Además, también se actualizará el estado de ADPCM síncronamente hasta que se encuentre una trama buena. Se observará que no solamente ha de generarse la señal correspondiente a la trama perdida sino que, también, ha de generarse una señal de 10 ms yl(n), siendo n=L,...,L+M-1 que se adapta al Desvanecimiento cruzado, donde M es el número de puntos de muestreo de señal incluidos en el proceso cuando se calcula la energía. De ese modo, una vez que se recibe una trama buena, se ejecuta el Desvanecimiento cruzado para la xl(n), siendo n=L,...,L+M-1 y la yl(n), siendo n=L,...,L+M-1. Ha de observarse que esta clase de Desvanecimiento cruzado solamente se produce después de una pérdida de tramas y cuando el extremo de recepción recibe los datos de la primera trama buena.

Una LPC basada en el método de repetición tonal de la figura 3 es como se muestra en la figura 4.

Cuando la trama de datos es una trama buena, se almacena zl(n) en una memoria intermedia para un uso futuro.

Cuando se encuentra la primera trama perdida, la señal final yl(n) ha de sintetizarse en dos etapas. En una primera, se analiza la señal histórica zl(n), siendo n=-297,...,-1. Luego, se sintetiza la señal yl(n), siendo n=0,...,L-1, de acuerdo con el resultado del análisis, donde L es la longitud de trama de la trama de datos, es decir, el número de puntos de muestreo correspondientes a una trama de señal, Q es la longitud de la señal que se necesita para analizar la señal histórica.

El nódulo LPC basado en la repetición tonal incluye, específicamente, las partes siguientes.

\vskip1.000000\baselineskip

(1) Un análisis de LP (predicción lineal)

El filtro A(z) de análisis a corto plazo y el filtro 1/A(z) se síntesis, son filtros de predicción lineal (LP) basados en un orden P. El filtro de análisis de LP se define como:

\vskip1.000000\baselineskip

100

\vskip1.000000\baselineskip

Mediante el análisis de LP de la señal histórica zl(n), siendo n=-Q,...,-1 con el filtro A(z), se obtiene una señal residual e(n), siendo n=-Q,...,-1, correspondiente a la señal histórica zl(n), siendo n=-Q,...,-1:

\vskip1.000000\baselineskip

101

\newpage

(2) Un análisis de la señal histórica

La señal perdida es compensada por un método de repetición tonal. Por tanto, en primer lugar ha de estimarse un período tonal T_{0} correspondiente a la señal histórica zl(n), siendo n=-Q,...,-1. Las operaciones son como sigue: la zl(n) es tratada previamente para eliminar un ingrediente de baja frecuencia innecesario en un análisis de LTP (predicción a largo plazo) y el período tonal T_{0} de la zl(n) puede obtenerse mediante el análisis de LTP. La clasificación de voz se obtiene combinando un módulo de clasificación de señal después de obtener el período tonal T_{0}.

Las clasificaciones de voz son como se muestra en la siguiente Tabla 1:

\vskip1.000000\baselineskip

TABLA 1 Clasificaciones de voz

1

\vskip1.000000\baselineskip

(3) Una repetición tonal

Un módulo de repetición tonal está destinado a estimar una señal LP residual e(N), siendo n=0,...,L-1 de una trama perdida. Antes de ejecutarse la repetición tonal, si la clasificación de la voz no es VOICED, se adopta la siguiente fórmula para limitar la amplitud de una muestra:

102

\vskip1.000000\baselineskip

siendo n=-T_{0},...,-1

en donde

2

\vskip1.000000\baselineskip

Si la clasificación de la voz es VOICED, se obtiene la señal residual e(n), siendo n=0,...,L-1 correspondiente a la señal perdida adoptando el paso de repetir la señal residual correspondiente a la señal del último período tonal de la señal de una trama buena recién recibida, es decir:

103

\newpage

En relación con otras clasificaciones de voces, para evitar que la periodicidad de la señal generada sea demasiado intensa (con respecto a la señal sin voz, si la periodicidad es demasiado intensa, puede escucharse cierto ruido musical incómodo), la señal residual e(n), siendo n=0,...,L-1 correspondiente a la señal perdida, es generada utilizando la siguiente fórmula:

3

Además de generarse la señal residual correspondiente a la trama perdida, continúan generándose las señales residuales e(n), siendo n=L,...,L+N-1 de N muestras adicionales con el fin de generar una señal destinada al desvanecimiento cruzado, al objeto de garantizar la división suave entre la trama perdida y la primera trama buena después de la trama perdida.

\vskip1.000000\baselineskip

(4) Una síntesis LP

Tras generarse la señal residual e(n) correspondiente a la trama perdida y el Desvanecimiento cruzado, se obtiene una reconstrucción de la señal de trama perdida yl_{pre}(n), siendo n=0,...,L-1 empleando la siguiente fórmula:

4

donde la señal residual e(n), siendo n=0,...,L-1 es la señal residual obtenida a partir de las anteriores etapas de repetición tonal.

Además, se generan yl_{pre}(n), siendo n=L,...,L+N-1 con N muestras destinadas al Desvanecimiento cruzado empleando la fórmula anterior.

\vskip1.000000\baselineskip

(5) Silenciador adaptable

Para realizar una transición energética suave, antes de ejecutar la QMF con la señal de banda alta, la señal banda baja tiene que someterse, también, al Desvanecimiento cruzado, las reglas se muestran en la tabla siguiente:

5

En la tabla anterior, zl(n) es una señal emitida finalmente como salida, correspondiente a la trama corriente, xl(n) es la señal de la trama buena correspondiente a la trama corriente; yl(n) es una señal sintetizada correspondiente al mismo instante de la trama corriente, donde L es la longitud de la trama, N es el número de muestras que ejecutan el Desvanecimiento cruzado.

Apuntando a diferentes clasificaciones de voz, la energía de la señal en yl_{pre}(n) es controlada antes ejecutando Desvanecimiento cruzado de acuerdo con el coeficiente correspondiente a cada muestra. El valor del coeficiente cambia de acuerdo con las diferentes clasificaciones de voz y la situación de la pérdida de paquetes.

De forma detallada, en el caso de que la última señal periódica de dos tonos de la señal histórica recibida sea la señal original como se muestra en la figura 5, el factor de atenuación dinámica auto-adaptable se ajusta dinámicamente de acuerdo con la tendencia al cambio del último período de dos tonos de la señal histórica. El método de ajuste detallado incluye las siguientes operaciones:

Operación s201, se obtiene la tendencia al cambio de la señal.

La tendencia al cambio de la señal puede venir expresada por la relación entre la energía de la última señal tonal periódica y la energía de la señal tonal periódica previa de la señal, es decir, la energía E_{1} y la energía E_{2} de la última señal periódica de dos tonos de la señal histórica, y se calcula la relación entre ambas energías.

6

\vskip1.000000\baselineskip

Siendo E_{1} la energía de la última señal tonal periódica, E_{2} la energía de la señal tonal periódica previa, y T_{0} el período tonal correspondiente a la señal histórica.

Opcionalmente, la tendencia al cambio de la señal puede venir expresada por la relación entre las diferencias pico-valle de los dos últimos períodos tonales de la señal histórica.

104

\vskip1.000000\baselineskip

donde P_{1} es la diferencia existente entre el valor máximo de la amplitud y el valor mínimo de la amplitud de la última señal tonal periódica, P_{2} es la diferencia existente entre el valor máximo de la amplitud y el valor mínimo de la amplitud de la señal tonal periódica previa, y la relación se calcula como:

7

\vskip1.000000\baselineskip

Paso s202, la señal sintetizada es atenuada dinámicamente de acuerdo con la tendencia al cambio obtenida de la señal.

La fórmula de cálculo se muestra como sigue:

105

\vskip1.000000\baselineskip

donde yl_{pre}(n) es la reconstrucción de la señal de trama perdida, N es la longitud de la señal sintetizada, y C es el coeficiente de atenuación auto-adaptable, cuyo valor es:

8

\vskip1.000000\baselineskip

En la situación en que el factor de atenuación sea 1-C*(n+1)<0, es necesario hacer 1-C*(n+1)=0, con el fin de evitar la aparición de una situación en la que el facto de atenuación correspondiente a las muestras, sea negativo.

En particular, para evitar la situación en que el valor de la amplitud correspondiente a una muestra pueda desbordarse en la situación de R>1, la señal sintetizada es atenuada dinámicamente mediante el uso de la fórmula de la operación s202 de la presente realización, que solamente puede tener en cuenta la situación de R<1.

En particular, con el fin de evitar la situación en que la velocidad de atenuación de la señal con menos energía sea demasiado alta, sólo en la situación en que E_{1} supere un determinado valor límite, en la presente realización la señal sintetizada es atenuada dinámicamente mediante el uso de la fórmula de la operación s202.

En particular, para evitar que la velocidad de atenuación de la señal sintetizada sea demasiado alta, especialmente en la situación de pérdida continua de tramas, se fija un valor límite superior para el coeficiente de atenuación C. Cuando C*(n+1) supere un valor límite, el coeficiente de atenuación se establece como valor límite superior.

En particular, en la situación en que el entorno de red sea malo y la pérdida de tramas sea continua, puede establecerse una cierta condición para evitar una velocidad de atenuación demasiado alta. Por ejemplo, puede tenerse en cuenta que, cuando el número de tramas perdidas supere un número designado, por ejemplo dos tramas; o cuando la señal correspondiente a la trama perdida supere una longitud designada, por ejemplo 20 ms; o en al menos una de las anteriores condiciones en que el coeficiente de atenuación corriente 1-C*(n+1) alcance un valor de umbral designado, el coeficiente de atenuación C ha de ajustarse con el fin de evitar la velocidad de atenuación demasiado alta que puede tener como consecuencia la situación en que la señal de salida se convierta en voz en silencio.

Por ejemplo, en la situación de muestreo a la frecuencia de 8 kHz y una longitud de trama de 40 muestras, el número de tramas perdidas puede fijarse en 4 y, después de que el factor de atenuación 1-C*(n+1) se haga menor que 0,9, el coeficiente de atenuación C se ajusta para que tenga un valor menor. La regla para ajustar el valor más bajo es la siguiente.

Hipotéticamente, se predice que el coeficiente de atenuación corriente sea C y el valor del factor de atenuación sea V, y el factor de atenuación V puede atenuarse hasta 0 después de V/C muestras. No obstante, la situación más deseable es que el factor de atenuación V se atenúa hasta 0 después de M(M\neqV/C) muestras. Así, el factor de atenuación C se ajusta a

C = V/M

Como se muestra en la figura 5, la señal superior es la señal original; la señal media es la señal sintetizada. Como se ve a partir de la figura, aunque la señal tenga un cierto grado de atenuación, continúa poseyendo una característica sonora intensiva. Si la duración es demasiado larga, la señal puede mostrarse como un ruido musical, especialmente al final del sonido. La señal inferior es la señal tras la utilización de la atenuación dinámica en la realización del presente invento, que puede verse muy parecida a la señal original.

De acuerdo con el método proporcionado por la realización antes mencionada, el factor de atenuación auto-adaptable se ajusta dinámicamente utilizando la tendencia al cambio de la señal histórica, de modo que pueda realizarse la transición suave de los datos históricos a los últimos datos recibidos. La velocidad de atenuación se mantiene consistente, dentro de lo posible, entre la señal compensada y la señal original con el fin de adaptar al máximo posible la característica de varias voces humanas.

En la realización 2 del presente invento, se proporciona un aparato para obtener un factor de atenuación, destinado a tratar la señal sintetizada en ocultación de pérdida de paquetes, que incluye:

una unidad 10 de obtención de la tendencia al cambio, destinada a obtener una tendencia al cambio de una señal;

una unidad 20 de obtención de factor de atenuación, destinada a obtener un factor de atenuación de acuerdo con la tendencia al cambio obtenida mediante la unidad 10 de obtención de la tendencia al cambio.

La unidad 20 de obtención del factor de atenuación incluye, además: una sub-unidad 21 de obtención del coeficiente de atenuación, destinada a generar el coeficiente de atenuación de acuerdo con la tendencia al cambio obtenida por la unidad 10 de obtención de la tendencia al cambio; una sub-unidad 22 de obtención del factor de atenuación, destinada a obtener un factor de atenuación de acuerdo con el coeficiente de atenuación generado por la sub-unidad 21 de obtención del factor de atenuación. La unidad 20 de obtención del factor de atenuación incluye, además: una sub-unidad 23 de ajuste del coeficiente de atenuación, destinada a ajustar el valor del coeficiente de atenuación obtenido por la sub-unidad 21 de obtención del coeficiente de atenuación a un valor dado en condiciones dadas, cuyas condiciones incluyen, al menos, una de las siguientes: el valor del coeficiente de atenuación supera un valor límite superior; se da la situación de pérdida continua de tramas; y la velocidad de atenuación es demasiado alta.

El método para obtener un factor de atenuación en la realización anterior es igual que el método para obtener el factor de atenuación de las realizaciones de método.

Con detalle, la tendencia al cambio obtenida por la unidad 10 de obtención de la tendencia al cambio puede expresarse mediante los siguientes parámetros: (1) la relación entre la energía de la última señal tonal periódica y la energía de la señal tonal periódica previa, de la señal; (2) la relación que guarda la diferencia existente entre el valor máximo de amplitud y el valor mínimo de amplitud de la última señal tonal periódica, con la diferencia existente entre el valor máximo de amplitud y el valor mínimo de amplitud de la señal tonal periódica previa de la señal.

Cuando la tendencia al cambio viene expresada como la relación energética de (1), la estructura del aparato para obtener un factor de atenuación, es como se muestra en la figura 6A. La unidad 10 de obtención de la tendencia al cambio incluye, además:

una sub-unidad 11 de obtención de energía, destinada a obtener la energía de la última señal tonal periódica y la energía de la señal tonal periódica previa;

una sub-unidad 12 de obtención de la relación energética, destinada a obtener la relación existente entre la energía de la última señal tonal periódica y la energía de la señal tonal periódica previa obtenida por la sub-unidad 11 de obtención de energía y usar la relación para mostrar la tendencia al cambio de la señal.

Cuando la tendencia al cambio viene expresada como la relación de diferencia de amplitud de (2), la estructura del aparato para obtener un factor de atenuación, es como se muestra en la figura 6B. La unidad 10 de obtención de tendencia al cambio incluye, además:

una sub-unidad 13 de obtención de diferencia de amplitud, destinada a obtener la diferencia existente entre el valor máximo de amplitud y el valor mínimo de amplitud de la última señal tonal periódica, y la diferencia entre el valor máximo de amplitud y el valor mínimo de amplitud de la señal tonal periódica previa;

una sub-unidad 14 de obtención de la relación de diferencia de amplitud, destinada a obtener la relación que guarda la diferencia existente entre el valor máximo de amplitud y el valor mínimo de amplitud de la última señal tonal periódica, con la diferencia existente entre el valor máximo de amplitud y el valor mínimo de amplitud de la señal tonal periódica previa, y utilizar tal relación para mostrar la tendencia al cambio de la señal.

Un diagrama esquemático que ilustra la escena de aplicación del aparato para obtener un factor de atenuación de acuerdo con la realización 2 del presente invento, es como se ilustra en la figura 7. El factor de atenuación auto-adaptable se ajusta dinámicamente utilizando la tendencia al cambio de la señal histórica.

Mediante el uso del aparato proporcionado por la realización antes mencionada, el factor de atenuación auto-adaptable se ajusta dinámicamente empleando la tendencia al cambio de la señal histórica de forma se que lleve a cabo la transición suave desde los datos históricos a los últimos datos recibidos. La velocidad de atenuación se mantiene constante en todo lo posible entre la señal compensada y la señal original para adaptarse, dentro de lo posible, a la característica de varias voces humanas.

En la realización 3 del presente invento se proporciona un aparato para el tratamiento de señales, destinado a tratar la señal sintetizada en ocultación de pérdida de paquetes, como se muestra en la figura 8A y en la figura 8B. Basándose en la realización 2, se añade una unidad 30 de reconstrucción de tramas perdidas correlativa con la unidad de obtención del factor de atenuación. La unidad 30 de reconstrucción de tramas perdidas obtiene una trama perdida después de atenuación de acuerdo con el factor de atenuación obtenido por la unidad 20 de obtención del factor de atenuación.

Utilizando el aparato proporcionado por la realización antes mencionada, el factor de atenuación auto-adaptable se ajusta dinámicamente mediante el uso de la tendencia al cambio de la señal histórica, y se obtiene una trama perdida reconstruida después de atenuación de acuerdo con el factor de atenuación, de manera que se realice la transición suave desde los datos históricos a los últimos datos recibidos. La velocidad de atenuación se mantiene consistente en todo lo posible entre la señal compensada y la señal original para adaptarse, dentro de lo posible a la característica de varias voces humanas.

La realización 4 del presente invento proporciona un descodificador de voz, como se muestra en la figura 9. El descodificador de voz incluye: una unidad 40 descodificadora de banda alta destinada a descodificar una señal de descodificación de banda alta recibida y a compensar una señal de banda alta perdida; una unidad 50 descodificadora de banda baja destinada a descodificar una señal de descodificación de banda baja recibida y a compensar una señal de banda baja perdida; y una unidad 60 de filtrado especular en cuadratura destinada a obtener una señal de salida final sintetizando la señal de descodificación de banda baja y la señal de descodificación de banda alta. La unidad 40 descodificadora de banda alta descodifica la señal de flujo de banda alta recibida por el extremo de recepción y sintetiza la señal de banda alta perdida. La unidad 50 descodificadora de banda baja descodifica la señal de flujo de banda baja recibida por el extremo de recepción y sintetiza la señal de banda baja perdida. La unidad 60 de filtrado especular en cuadratura obtiene la señal de descodificación final sintetizando la señal de descodificación de banda baja emitida como salida por la unidad 50 descodificadora de banda baja y la señal de descodificación de banda alta emitida como salida por la unidad 40 descodificadora de banda alta.

En cuanto a la unidad 50 descodificadora de banda baja, como se muestra en la figura 10, incluye las siguientes unidades. Una sub-unidad 51 de LPC basada en la repetición tonal, que está destinada a generar una señal sintetizada correspondiente a la trama perdida, una sub-unidad 52 de descodificación de banda baja, que está destinada a descodificar una señal de flujo de banda baja recibida, y una sub-unidad 53 de desvanecimiento cruzado, que está destinada a conseguir el desvanecimiento cruzado de la señal descodificada por la sub-unidad de descodificación de banda baja y la señal sintetizada correspondiente a la trama perdida generada por la unidad de LPC basándose en la repetición tonal.

La sub-unidad 52 de descodificación de banda baja descodifica la señal de flujo de banda baja recibida. La sub-unidad 51 de LPC basada en la repetición tonal genera la señal sintetizada ejecutando una LPC sobre la señal de banda baja perdida. Y, finalmente, la sub-unidad 53 de desvanecimiento cruzado aplica el desvanecimiento cruzado a la señal tratada por la sub-unidad 52 de descodificación de banda baja y la señal sintetizada con el fin de obtener una señal de descodificación final después de la compensación de la trama perdida.

La sub-unidad 51 de LPC basada en la repetición tonal, como se muestra en la figura 10, incluye además un módulo de análisis 511 y un módulo 512 de tratamiento de señales. El módulo de análisis 511 analiza una señal histórica y genera una señal de trama perdida reconstruida; el módulo 512 de tratamiento de señales obtiene una tendencia al cambio de una señal y obtiene un factor de atenuación de acuerdo con la tendencia al cambio de la señal, y atenúa la señal de trama perdida reconstruida y obtiene una trama perdida, reconstruida después de la atenuación.

El módulo 512 de tratamiento de señales incluye, además, una unidad 5121 de obtención del factor de atenuación y una unidad 5122 de reconstrucción de trama perdida. La unidad 5121 de obtención del factor de atenuación obtiene una tendencia al cambio de una señal y obtiene un factor de atenuación de acuerdo con la tendencia al cambio; la unidad 5122 de reconstrucción de trama perdida atenúa la señal de trama perdida reconstruida de acuerdo con el factor de atenuación y obtiene una trama perdida reconstruida después de la atenuación. El módulo 512 de tratamiento de señales incluye dos estructuras, correspondientes a diagramas esquemáticos que ilustran la estructura del aparato para el tratamiento de señales de las figuras 8A y 8B, respectivamente.

La unidad 5121 de obtención del factor de atenuación incluye dos estructuras, correspondientes a diagramas esquemáticos que ilustran la estructura del aparato para obtener un factor de atenuación de las figuras 6A y 6B, respectivamente. Las funciones específicas y los medios para su ejecución en la práctica de los módulos y las unidades antes citados pueden referirse al contenido expuesto en las realizaciones de método. Los detalles innecesarios no se repetirán en este documento.

Mediante la descripción de las realizaciones antes mencionadas, los expertos en la técnica pueden comprender claramente que el presente invento puede ser llevado a la práctica dependiendo del software y de la plataforma de hardware necesaria y general y, ciertamente, también puede incorporarse en la práctica mediante software. Sin embargo, en la mayoría de las situaciones, la primera es una realización preferible. Basándose en dicha comprensión, la esencia o la parte que contribuye a la técnica anterior del esquema técnico del presente invento, puede incorporarse en forma de producto de software almacenado en un medio de almacenamiento, y el producto de software incluye ciertas instrucciones para hacer que un dispositivo ejecute en la práctica las realizaciones del presente invento.

Si bien la ilustración y la descripción de la presente exposición se han hecho con referencia a sus realizaciones, los expertos normales en la técnica deben apreciar que pueden introducirse diversos cambios, en la forma y detalles, sin por ello desviarse del alcance definido por las reivindicaciones adjuntas.

Claims

1. Un método para tratar una señal de voz sintetizada en ocultación de pérdida de paquetes, cuyo método comprende:

obtener una tendencia al cambio de la señal de voz, que comprende obtener una relación entre la energía de la última señal de voz tonal periódica y la energía de una señal de voz tonal periódica previa, de la señal de voz;

obtener un factor de atenuación de acuerdo con la tendencia al cambio de la señal; y

obtener una trama perdida, reconstruida después de atenuación de acuerdo con el factor de atenuación.

2. El método de acuerdo con la reivindicación 1, en el que antes de obtener el factor de atenuación de acuerdo con la tendencia al cambio de la señal, el método comprende, además: obtener el factor de atenuación de acuerdo con la relación, cuando la relación es menor que 1.

3. El método de acuerdo con la reivindicación 1, en el que antes de obtener el factor de atenuación de acuerdo con la tendencia al cambio de la señal, el método comprende, además: obtener el factor de atenuación de acuerdo con la relación cuando la energía de la última señal de voz tonal periódica sea mayor que un valor límite prefijado.

4. El método de acuerdo con la reivindicación 1, en el que la relación entre la energía de la última señal de voz tonal periódica y la energía de la señal de voz tonal periódica previa, de la señal de voz, es R= \sqrt{E_{1}/E_{2}}; donde E_{1} es la energía de la última señal de voz tonal periódica, y E_{2} es la energía de la señal de voz tonal periódica previa.

5. El método de acuerdo con la reivindicación 4, en el que el factor de atenuación obtenido de acuerdo con la relación es 1-C*(n+1), siendo n=0,...,N-1,

donde C es el coeficiente de atenuación, C=(1-R)/T_{0}, N es la longitud de la señal de voz sintetizada y T_{0} es la longitud de un período tonal.

6. El método de acuerdo con la reivindicación 5, en el que el factor de atenuación 1-C*(n+1)=0 se establece cuando el factor de atenuación 1-C*(n+1)<0.

7. El método de acuerdo con la reivindicación 5, en el que se fija previamente un valor límite superior para el coeficiente de atenuación C, y se hace que el coeficiente de atenuación C sea igual al límite superior cuando el valor de C*(n+1) obtenido de acuerdo con C=(1-R)/T_{0}, supera un valor límite.

8. El método de acuerdo con la reivindicación 5, en el que el coeficiente de atenuación C se reduce cuando la velocidad de atenuación es demasiado alta.

9. El método de acuerdo con la reivindicación 8, en el que la reducción del coeficiente de atenuación C se logra:

prefijando la señal de voz para que se atenúe hasta 0 después de M muestras; y

estableciendo un coeficiente de atenuación ajustado, C=V/M, donde V es un factor de atenuación corriente.

10. El método de acuerdo con la reivindicación 1, en el que la trama perdida reconstruida después de la atenuación obtenida de acuerdo con la relación, es:

106

donde yl_{pre}(n) es una señal de voz con trama perdida reconstruida, N es la longitud de la señal de voz sintetizada, C es el coeficiente de atenuación, C=(1-R)/T_{0}, y T_{0} es la longitud del período tonal.

11. Un aparato para tratar una señal de voz sintetizada en ocultación de pérdida de paquetes, cuyo aparato comprende:

una unidad de obtención de una tendencia al cambio, que comprende una sub-unidad de obtención de energía, destinada a obtener energía de una última señal de voz tonal periódica y energía de una señal de voz tonal periódica previa, de la señal de voz;

una sub-unidad de obtención de una relación energética, destinada a obtener una relación entre la energía de la última señal de voz tonal periódica y la energía de la señal de voz tonal periódica previa, de la señal de voz;

una unidad de obtención de un factor de atenuación, destinada a obtener el factor de atenuación de acuerdo con la relación obtenida por la sub-unidad de obtención de una relación energética; y

una unidad de reconstrucción de tramas perdidas, destinada a obtener una trama perdida, reconstruida después de atenuación de acuerdo con el factor de atenuación.

12. El aparato de acuerdo con la reivindicación 11, en el que la unidad de obtención del factor de atenuación comprende:

una sub-unidad de obtención del coeficiente de atenuación destinada a generar un coeficiente de atenuación de acuerdo con la relación obtenida por la sub-unidad de obtención de la relación energética; y

una sub-unidad de obtención de factor de atenuación destinada a obtener el factor de atenuación de acuerdo con el coeficiente de atenuación generado por la sub-unidad de obtención del factor de atenuación.

13. El aparato de acuerdo con la reivindicación 12, en el que la sub-unidad de obtención del factor de atenuación comprende, además:

una sub-unidad de ajuste del factor de atenuación destinada a ajustar el valor del coeficiente de atenuación obtenido por la sub-unidad de obtención del coeficiente de atenuación de modo que tenga un valor determinado cuando se satisface una condición dada;

en el que la condición dada comprende, al menos, una de las siguientes condiciones:

que el valor del coeficiente de atenuación supera un cierto valor límite;

que exista una situación de pérdida continua de tramas; y

que la velocidad de atenuación sea demasiado elevada.

14. Un descodificador de voz, que comprende: una unidad descodificadora de banda baja, una unidad descodificadora de banda alta y una unidad de filtrado especular en cuadratura, en el que:

la unidad descodificadora de banda baja está destinada a descodificar una señal de voz de descodificación de banda baja recibida, y a compensar una señal de voz de banda baja perdida;

la unidad descodificadora de banda alta está destinada a descodificar una señal de voz de descodificación de banda alta recibida, y a compensar una señal de voz de banda alta perdida;

la unidad de filtrado especular en cuadratura está destinada a obtener una señal de voz de salida final sintetizando la señal de voz de descodificación de banda baja y la señal de voz de descodificación en banda alta;

la unidad descodificadora de banda baja comprende una sub-unidad de descodificación de banda baja, una sub-unidad de codificación predictiva lineal basada en la repetición tonal y una sub-unidad de desvanecimiento cruzado;

en el que la sub-unidad de descodificación de banda baja está destinada a descodificar una señal de voz de flujo de banda baja recibida;

la sub-unidad de codificación predictiva lineal (LPC) basada en la repetición tonal, está destinada a generar una señal de voz sintetizada correspondiente a una trama perdida;

la sub-unidad de desvanecimiento cruzado está destinada a aplicar el desvanecimiento cruzado a la señal de voz tratada por la sub-unidad de descodificación de banda baja y la señal de voz sintetizada correspondiente a la trama perdida generada por la sub-unidad de LPC basada en la repetición tonal;

la sub-unidad de LPC basada en la repetición tonal comprende un módulo analizador y un aparato de acuerdo con las reivindicaciones 11 a 13, en el que el módulo analizador está destinado a analizar una señal de voz histórica, y a generar una señal de voz con trama perdida reconstruida.

15. Un producto programa de ordenador que comprende códigos de programa de ordenador que permiten que un ordenador ejecute las operaciones de una cualquiera de las reivindicaciones 1 a 10, cuando los códigos de programa de ordenador son ejecutados por el ordenador.