ES2265442T3

ES2265442T3 - Aparato para la expansion del ancho de banda de una señal vocal.

Info

Publication number: ES2265442T3
Application number: ES01974612T
Authority: ES
Inventors: Pasi Ojala; Jani Rotola-Pukkila; Janne Vainio; Hannu Mikkola
Original assignee: Nokia Inc
Current assignee: Nokia Inc
Priority date: 2000-10-18
Filing date: 2001-10-17
Publication date: 2007-02-16
Anticipated expiration: 2021-10-17
Also published as: CN1244907C; AU2001294125A1; JP2004512562A; ZA200302468B; DE60120734T2; DE60120734D1; EP1328928B1; CN1470052A; US6615169B1; CA2425926A1; PT1328928E; KR20030046510A; BR0114669A; KR100547235B1; CA2425926C; WO2002033697A3; ATE330311T1; WO2002033697A2; EP1328928A2

Abstract

Método para codificación de voz (500) para codificar y decodificar una señal de entrada (100) con períodos de voz activos y períodos de voz inactivos y para proporcionar una señal de voz sintetizada (110) con componentes de alta frecuencia y componentes de baja frecuencia en el que la señal de entrada se divide en una banda de alta frecuencia y en una banda de baja frecuencia durante los procesos de codificación y de síntesis de voz, y en el que parámetros vocales (104) característicos de la banda de baja frecuencia se utilizan para procesar una señal artificial (150) a fin de proporcionar una señal artificial procesada (152) para proporcionar adicionalmente los componentes de la frecuencia superior (160) de la voz sintetizada, incluyendo dicho método las etapas de: puesta a escala (530) de la señal artificial procesada (152) mediante un primer factor de escala (114, 144) durante los períodos de voz activos, y puesta a escala (540) de la señal artificial procesada (152) mediante un segundofactor de escala (114 y 115, 144 y 145) durante los períodos de voz inactivos, en el que dicho primer factor de escala es característico de la banda de alta frecuencia de la señal de entrada, siendo el segundo factor de escala característico de la banda de baja frecuencia de la señal de entrada.

Description

Aparato para la expansión del ancho de banda de una señal vocal.

Ámbito de la invención

La presente invención se refiere, en términos generales, al ámbito de la codificación y decodificación de voz sintetizada, y más concretamente, a un codec (codificador-decodificador) de voz de banda ancha de frecuencias múltiples adaptable.

Antecedentes de la invención

Muchos de los métodos actuales de codificación de voz están basados en la codificación lineal predictiva (LP), que extrae características perceptivamente significativas de una señal de voz directamente desde una forma de onda temporal, en lugar de hacerlo de un espectro de frecuencias de la señal de voz (como lo hace lo que se denomina un "vocoder" de canal o un "vocoder" formador). En la codificación LP, en primer lugar se analiza una forma de onda de voz (análisis LP) para determinar un modelo variable a lo largo del tiempo de la excitación del tracto vocal que ha causado la señal de voz, así como una función de transferencia. A continuación, un decodificador (de un terminal receptor en el caso de que la señal de voz codificada se haya transmitido mediante telecomunicaciones) recrea la señal de voz original utilizando un sintetizador (para llevar a cabo la síntesis LP) que hace pasar la excitación a través de un sistema parametrizado que representa un modelo del tracto local. Los parámetros del modelo de tracto vocal y la excitación del modelo se actualizan periódicamente para adaptarse a los correspondientes cambios que se han producido en el orador, cuando el orador ha generado la señal de voz. No obstante, entre las actualizaciones, es decir, durante cualquier intervalo de especificación, la excitación y los parámetros del sistema se mantienen constantes, por lo que el proceso ejecutado por el modelo, es un proceso lineal invariable a lo largo del tiempo. El sistema general (distribuido) de codificación y decodificación se denomina codec.

En un codec que utiliza la codificación LP para la generación de voz, el decodificador necesita que el codificador proporcione tres entradas: un período de frecuencias audibles o de tono si la excitación se convierte en voz, un factor de ganancia y unos coeficientes de predicción (en ciertos codecs, también se proporciona el carácter de la excitación, es decir, si ha sido o no generada por la voz, pero no suele ser necesario en el caso de un codec ACELP (Predicción Lineal Excitada por Código Algebraico), por ejemplo. La codificación LP es predictiva en el sentido de que utiliza unos parámetros de predicción basados en los segmentos de la entrada real de la forma de onda de voz (durante un intervalo de especificación) a la cual se aplican los parámetros, en un proceso de estimación directa, o basado en eventos anteriores.

Pueden utilizarse la codificación y la decodificación LP básicas para comunicar digitalmente voz con una tasa de transferencia de datos relativamente baja, pero se genera una voz de sonido sintético, debido a que se está utilizando un sistema de excitación muy sencillo. El denominado codec CELP (Predicción Lineal Excitada por Código) es un codec de excitación mejorado. Se basa en la codificación "residual". El modelado del tracto vocal se realiza en función de filtros digitales, cuyos parámetros se codifican en la voz comprimida. Estos filtros son controlados, es decir, "excitados", mediante una señal que representa la vibración de las cuerdas vocales del orador original. El residuo de una señal de voz de audio es la señal de voz de audio (original) menos la señal de voz de audio filtrada digitalmente. Un codeo CELP codifica el residuo y lo utiliza como base para la excitación, en lo que se conoce como "excitación de impulso residual". No obstante, en lugar de codificar las formas de ondas residuales muestra a muestra, el CELP utiliza una plantilla de forma de onda seleccionada a partir de un conjunto predeterminado de plantillas de forma de onda, a fin de que represente un bloque de muestras residuales. El codificador determina una palabra de código y se la facilita al decodificador, que utiliza entonces la palabra de código para seleccionar una secuencia residual que represente las muestras residuales originales.

De acuerdo con el teorema de Nyquist, una señal de voz con una frecuencia de muestreo F_{S} puede representar una banda de frecuencias variable entre 0 y 0,5 F_{S}. En la actualidad, la mayoría de los codeos de voz (codificadores-decodificadores) utilizan una frecuencia de muestreo de 8 kHz. Si la frecuencia de muestreo aumenta a partir de 8 kHz, mejora la naturalidad de la voz, debido a que pueden representarse frecuencias más elevadas. En la actualidad, la frecuencia de muestreo de la señal de voz suele ser de 8 kHz, pero se han desarrollado teléfonos móviles que utilizarán una frecuencia de muestreo de 16 kHz. De acuerdo con el teorema de Nyquist, una frecuencia de muestreo de 16 kHz puede representar voz en la banda de frecuencias de 0-8 kHz. La voz muestreada se codifica a continuación para su comunicación a través de un transmisor, y a continuación se decodifica en un receptor. La codificación de voz de la voz muestreada utilizando una frecuencia de muestreo de 16 kHz se denomina codificación de voz de banda ancha.

Cuando aumenta la frecuencia de muestreo de la voz, también aumenta la complejidad de la codificación. Con algunos algoritmos, a medida que aumenta la frecuencia de muestreo, la complejidad de la codificación puede incluso aumentar exponencialmente. Por lo tanto, la complejidad de la codificación suele ser un factor que limita la determinación de un algoritmo de codificación de voz de banda ancha. Esto es especialmente cierto, por ejemplo, en el caso de los teléfonos móviles, cuyo consumo eléctrico, la potencia de procesamiento disponible y los requisitos de memoria afectan de forma crítica a la aplicabilidad de los algoritmos.

En los codecs de banda ancha de la técnica anterior, mostrados en la figura 1 (véase, por ejemplo, J. Schnitzler, "A 13.0 Kbit/s wideband speech codec based on SB-ACELP", en ICASSP '98), se utiliza una etapa de procesamiento previo para realizar un filtrado paso bajo y una reducción de la frecuencia de muestreo (muestreo descendente) la señal de voz de entrada con respecto a la frecuencia de muestreo original, de 16 kHz a 12,8 kHz. La señal sub-muestreada se diezma de forma que el número de muestras, que es de 320 a lo largo de un período de 20 ms se reduzca a 256. La señal diezmada y sub-muestreada, con un ancho de banda de frecuencia efectivo de 0 a 6,4 kHz se codifica utilizando un bucle de Análisis por Síntesis (A-b-S) para extraer los parámetros de LPC, frecuencias audibles y excitación, que se cuantifican en un flujo binario codificado que se transmite al receptor para su decodificación. En el bucle A-b-S, una señal sintetizada a nivel local se muestrea aumentando la frecuencia de muestreo y se interpola para ajustarse a la frecuencia de muestreo original. Tras el proceso de codificación, la banda de frecuencias de 6,4 kHz a 8,0 kHz queda vacía. El codec de banda ancha genera un ruido aleatorio en esta banda de frecuencias vacía, y colorea el ruido aleatorio con parámetros LPC mediante filtrado de síntesis, como se describe a continuación.

En primer lugar, el ruido aleatorio se pone a escala de acuerdo con:

(1)e_{scaled} = \ sqrt \ [\{exc^{T} (n) \ exc \ (n)\} / \{e^{T} (n) \ e \ (n)\}] \ e \ (n)

Donde e(n) representa el ruido aleatorio y exc(n) representa la excitación LPC. La T del superíndice indica la transpuesta de un vector. El ruido aleatorio puesto a escala se filtra utilizando el filtro de síntesis LPC de coloreado y un filtro paso de banda de 6,0 a 7,0 kHz. Este componente coloreado de alta frecuencia se vuelve a poner a escala utilizando la información sobre la inclinación (tilt) espectral de la señal sintetizada. La inclinación espectral se calcula realizando el cálculo del primer coeficiente de correlación, r, utilizando la siguiente ecuación:

(2)r = {s^{T} (i) s (i-1)}/{s^{T} (i) s(i)}

donde s(i) es la señal de voz sintetizada. Por consiguiente, la ganancia estimada f_{est} se determina a partir de

(3)f_{est} = 1,0-r

con la limitación de 0,2 \leq f_{est} \leq 1,0

En el extremo receptor, con posterioridad al proceso principal de decodificación, la señal sintetizada vuelve a procesarse para generar la salida real mediante sobre-muestreo de la señal para ajustarse a la frecuencia de muestreo de la señal de entrada. Debido a que el nivel de ruido de alta frecuencia se ha calculado en función de los parámetros LPC obtenidos a partir de la banda de frecuencias inferiores y el inclinación espectral de la señal sintetizada, la puesta a escala y el coloreado del ruido aleatorio pueden llevarse a cabo en el extremo del codificador o en el extremo del decodificador.

En los codecs de la técnica anterior, el nivel de ruido de alta frecuencia se calcula en función del nivel de señal de la capa base y de la inclinación espectral. De este modo, los componentes de alta frecuencia de la señal sintetizada se eliminan mediante filtrado. Por ello, el nivel de ruido no se corresponde con las características de la señal de entrada real en la banda de frecuencias 6,4-8,0 kHz. De este modo, el codec de la técnica anterior no proporciona una señal sintetizada de alta calidad.

Resulta ventajoso y deseable proporcionar un método y un sistema capaces de proporcionar una señal sintetizada de alta calidad teniendo en cuenta las características de la señal de entrada real en la banda de altas frecuencias.

Resumen de la invención

Uno de los principales objetivos de la presente invención consiste en mejorar la calidad de la voz sintetizada en un sistema de procesamiento de voz distribuido. Este objetivo puede conseguirse utilizando las características de la señal de entrada de los componentes de alta frecuencia de la señal de voz original en la banda de frecuencias de 6,0 a 7,0 kHz, por ejemplo, para determinar el factor de escala de una señal artificial coloreada con filtrado paso alto al sintetizar los componentes de alta frecuencia de la voz sintetizada a lo largo de períodos de voz activos. Durante los períodos de voz inactivos, el factor de escala puede determinarse mediante los componentes de baja frecuencia de la señal de voz sintetizada.

Por ello, el primer aspecto de la presente invención consiste en un método de codificación de voz para codificar y decodificar una señal de entrada con períodos de voz activos y períodos de voz inactivos, y para proporcionar una señal de voz sintetizada con componentes de alta frecuencia y componentes de baja frecuencia, en el que la señal de entrada se divide en una banda de alta frecuencia y en una banda de baja frecuencia durante los procesos de codificación y síntesis de voz y en el que los parámetros vocales característicos de la banda de baja frecuencia se utilizan para procesar una señal artificial a fin de proporcionar los componentes de alta frecuencia de la señal de voz sintetizada. El método incluye las siguientes etapas:

\newpage

Puesta a escala de la señal artificial procesada mediante un primer factor de escala durante los períodos de voz activos, y

Puesta a escala de la señal artificial procesada mediante un segundo factor de escala durante los períodos de voz inactivos, donde el primer factor de escala es característico de la banda de alta frecuencia de la señal de entrada, y el segundo factor de escala es característico de los componentes de baja frecuencia de la voz sintetizada.

Preferiblemente, la señal de entrada se somete a filtrado paso alto a fin de obtener una señal de entrada situada en una banda de frecuencias característica de los componentes de alta frecuencia de la voz sintetizada, calculándose el primer factor de escala a partir de la señal filtrada y donde en los casos en que los períodos de voz inactivos incluyen períodos de hangover de voz y de ruido de confort, el segundo factor de escala para poner a escala la señal artificial procesada durante los períodos de hangover de voz se calcula a partir de la señal filtrada.

Preferiblemente, el segundo factor de escala para poner a escala la señal artificial procesada durante los períodos de hangover de voz también se calcula a partir de los componentes de baja frecuencia de la voz sintetizada y el segundo factor de escala para poner a escala la señal artificial procesada durante los períodos de ruido de confort se calcula a partir de los componentes de baja frecuencia de la señal de voz sintetizada.

Preferiblemente, el primer factor de escala se codifica y transmite dentro del flujo binario codificado a un extremo receptor y el segundo factor de escala para los períodos de hangover de voz también se incluye en el flujo binario codificado.

Es posible que el segundo factor de escala para los períodos de hangover de voz se determine en el extremo receptor.

Preferiblemente, el segundo factor de escala también se calcula a partir de un factor de inclinación espectral determinado a partir de los componentes de baja frecuencia de la voz sintetizada.

Preferiblemente, el primer factor de escala se calcula a partir de la señal artificial procesada.

El segundo aspecto de la presente invención consiste en un sistema transmisor y receptor de señales de voz para la codificación y decodificación de una señal de entrada con períodos de voz activos y períodos de voz inactivos y para proporcionar una señal de voz sintetizada que tenga componentes de alta frecuencia y componentes de baja frecuencia donde la señal de entrada se divide en una banda de alta frecuencia y en una banda de baja frecuencia en los procesos de codificación y síntesis de voz, en los que los parámetros vocales característicos de la banda de baja frecuencia de la señal de entrada se utilizan para procesar una señal artificial en el receptor para proporcionar los componentes de alta frecuencia de la voz sintetizada. El sistema incluye:

Un decodificador en el receptor para recibir un flujo binario codificado procedente del transmisor, cuyo flujo binario codificado contiene los parámetros vocales;

Un primer módulo en el transmisor, que responde a la señal de entrada para proporcionar un primer factor de escala para poner a escala la señal artificial procesada durante los períodos activos y

Un segundo módulo en el receptor que responde al flujo binario codificado, que proporciona un segundo factor de escala para poner a escala la señal artificial procesada durante los períodos inactivos, en el que el primer factor de escala es característico de la banda de alta frecuencia de la señal de entrada, y el segundo factor de escala es característico de los componentes de baja frecuencia de la voz sintetizada.

Preferiblemente, el primer módulo incluye un filtro paso alto para filtrar la señal de entrada y proporcionar una señal de entrada filtrada cuya gama de frecuencias se corresponda con los componentes de alta frecuencia de la voz sintetizada para permitir el cálculo del primer factor de escala a partir de la señal de entrada filtrada.

Preferiblemente, un tercer módulo del transmisor se utiliza para proporcionar un ruido aleatorio coloreado y con filtrado paso alto en la banda de frecuencias correspondientes a los componentes de alta frecuencia de la señal sintetizada de forma que el primer factor de escala pueda modificarse en función del ruido aleatorio coloreado y con filtrado paso alto.

El tercer aspecto de la presente invención es un codificador para codificar una señal de entrada con períodos de voz activos y períodos de voz inactivos, dividiéndose la señal de entrada en una banda de alta frecuencia y en una banda de baja frecuencia y para proporcionar un flujo binario codificado que contiene parámetros vocales característicos de la banda de baja frecuencia de la señal de entrada para permitir que el codificador reconstruya los componentes de baja frecuencia de la voz sintetizada en función de los parámetros vocales, y para procesar una señal artificial basada en parámetros vocales para proporcionar los componentes de alta frecuencia de la voz sintetizada, utilizándose un factor de escala basado en los componentes de baja frecuencia de la voz sintetizada para poner a escala la señal artificial procesada durante los períodos de voz inactivos. El codificador incluye:

\newpage

Un filtro, que responde a la señal de entrada, para filtrado paso alto de la señal de entrada en una banda de frecuencias correspondiente a los componentes de alta frecuencia de la voz sintetizada, y proporcionar una primera señal indicadora de la señal de entrada filtrada paso alto;

Una serie de medios, que responden a la primera señal, para proporcionar un factor de escala adicional basado en la señal de entrada filtrada paso alto y los componentes de baja frecuencia de la voz sintetizada y para proporcionar una segunda señal indicadora del factor de escala adicional; y

Un módulo de cuantificación, que responde a la segunda señal, para proporcionar una señal codificada indicadora del factor de escala adicional en el flujo binario codificado, para permitir al decodificador poner a escala la señal artificial procesada durante los períodos de voz activos, basándose en el factor de escala adicional.

El cuarto aspecto de la presente invención es una estación móvil configurada para transmitir un flujo binario codificado a un decodificador para proporcionar voz sintetizada con componentes de alta frecuencia y componentes de baja frecuencia, en la que el flujo binario codificado incluye datos de voz indicadores de una señal de entrada con períodos de voz activos y períodos de voz inactivos, y la señal de entrada se divide en una banda de alta frecuencia y en una banda de baja frecuencia, incluyendo los datos de voz parámetros vocales característicos de la banda de baja frecuencia de la señal de entrada para permitir al decodificador proporcionar los componentes de baja frecuencia de la voz sintetizada en función de unos parámetros vocales y colorear una señal artificial en función de los parámetros vocales y poner a escala la señal artificial coloreada con un factor de escala basado en los componentes de baja frecuencia de la voz sintetizada para proporcionar los componentes de alta frecuencia de la voz sintetizada durante los períodos de voz inactivos. La estación móvil incluye:

Un filtro, que responde a la señal de entrada, para filtrado paso alto de la señal de entrada en una banda de frecuencias correspondiente a los componentes de alta frecuencia de la voz sintetizada y para proporcionar un factor de escala adicional en función de la señal de entrada filtrada paso alto; y

Un módulo de cuantificación, que responde al factor de escala y al factor de escala adicional, para proporcionar una señal codificada indicadora del factor de escala adicional en el flujo binario codificado, para permitir al decodificador poner a escala la señal artificial coloreada durante el período de voz activa en función del factor de escala adicional.

El quinto aspecto de la presente invención es un elemento de una red de telecomunicaciones configurado para recibir un flujo binario codificado que contenga datos de voz indicadores de una señal de entrada procedente de una estación móvil para proporcionar una voz sintetizada con componentes de alta frecuencia y componentes de baja frecuencia en el que la señal de entrada con períodos de voz activos y períodos de voz inactivos se divide en una banda de alta frecuencia y una banda de baja frecuencia y los datos de voz incluyen parámetros vocales característicos de la banda de baja frecuencia de la señal de entrada y parámetros de ganancia característicos de la banda de alta frecuencia de la señal de entrada, y en el que los componentes de baja frecuencia de la voz sintetizada se proporcionan en función de los parámetros vocales, incluyendo dicho elemento:

Un primer mecanismo, que responde a los parámetros de ganancia para proporcionar un primer factor de escala;

Un segundo mecanismo, que responde a los parámetros vocales para síntesis y filtrado paso alto de una señal artificial para proporcionar una señal artificial sintetizada y filtrada paso alto;

Un tercer mecanismo, que responde al primer factor de escala y a los datos de voz, para proporcionar un factor de escala combinado incluyendo el primer factor de escala características de la banda de alta frecuencia de la señal de entrada y un segundo factor de escala basado en el primer factor de escala y un parámetro adicional relacionado con la voz característicos de los componentes de baja frecuencia de la voz sintetizada; y

Un cuarto mecanismo, que responde a la señal artificial sintetizada y filtrada paso alto y al factor de escala combinado, para poner a escala la señal artificial sintetizada y filtrada paso alto mediante el primer y el segundo factor de escala durante los períodos de voz activos y los períodos de voz inactivos, respectivamente.

La presente invención se apreciará con mayor claridad leyendo la descripción en conjunción con las figuras 2 a 8.

Breve descripción de las figuras

La figura 1 es un diagrama de bloques que muestra un codec de voz de banda ancha de la técnica anterior.

La figura 2 es un diagrama de bloques que muestra el codec de voz de banda ancha de acuerdo con la presente invención.

La figura 3 es un diagrama de bloques que muestra la función de post-procesamiento del codificador de voz de banda ancha de la presente invención.

La figura 4 es un diagrama de bloques que muestra la estructura del decodificador de voz de banda ancha de la presente invención.

La figura 5 es un diagrama de bloques que muestra la función del post-procesamiento del decodificador de voz de banda ancha.

La figura 6 es un diagrama de bloques que muestra una estación móvil de acuerdo con la presente invención.

La figura 7 es un diagrama de bloques que muestra una red de telecomunicaciones de acuerdo con la presente invención.

La figura 8 es un organigrama que muestra el método de decodificación de voz de acuerdo con la presente invención.

Modo preferido de la realización de la invención

Como se muestra en la figura 2, el codec de voz de banda ancha 1, de acuerdo con la presente invención, incluye un bloque de procesamiento previo 2 para procesamiento previo de la señal de entrada 100. Al igual que en el codec de la técnica anterior, como se describe en los antecedentes, el bloque de procesamiento previo 2 sub-muestrea y diezma la señal de entrada 100 para que pase a ser una señal de voz 102 con un ancho de banda efectivo de 0 a 6,4 kHz. La señal de voz procesada 102 se codifica mediante el bloque de codificación análisis-por-síntesis (Analysis-by-Synthesis) 4 utilizando la tecnología convencional ACELP para extraer una serie de parámetros de codificación predictiva lineal (LPC), frecuencias audibles y parámetros o coeficientes de excitación 104. Pueden utilizarse los mismos parámetros de codificación junto con un módulo de filtrado paso alto para procesar una señal artificial o ruido seudo-aleatorio en un ruido aleatorio filtrado paso alto y coloreado (134, figura 3; 154, figura 5). El bloque de codificación 4 también facilita una señal sintetizada local 106 a un bloque de post-procesamiento 6.

En contraste con el codec de banda ancha de la técnica anterior, la función de post-procesamiento del bloque de post-procesamiento 6 se modifica a fin de incorporar la puesta a escala de ganancia y la cuantificación de ganancia 108 correspondientes a las características de la señal de entrada de los componentes de alta frecuencia de la señal de voz original 100. Más concretamente, los componentes de alta frecuencia de la señal de voz original 100 pueden utilizarse junto con el ruido aleatorio filtrado paso alto y coloreado 134, 154, para determinar un factor de escala de señal de banda superior, como se muestra en la ecuación 4, descrito en conjunción con el codificador de voz como se muestra en la figura 3. La salida del bloque de post-procesamiento 6 es la señal de voz post-procesada 110.

La figura 3 muestra la estructura detallada de la función de post-procesamiento del codificador de voz 10, de acuerdo con la presente invención. Como se muestra, se utiliza un generador de ruido aleatorio 20 para proporcionar una señal artificial de 16 kHz 130. El ruido aleatorio 130 se colorea mediante un filtro de síntesis LPC 22 utilizando los parámetros LPC 104 facilitados en el flujo binario codificado procedente del bloque de codificación análisis-por-síntesis 4 (figura 2) en función de las características de la banda inferior de la señal de voz 100. A partir del ruido aleatorio coloreado 132, un filtro paso alto 24 extrae los componentes de alta frecuencia coloreados 134 en una banda de frecuencias de 6,0 a 7,0 kHz. Los componentes de alta frecuencia 112 de la banda de frecuencias de 6,0 a 7,0 kHz de la muestra de voz original 100 son también extraídos por un filtro paso alto 12. La energía de los componentes de alta frecuencia 112 y 134 se utiliza para determinar un factor puesta a escala de señales de banda alta g_{scaled} mediante un bloque de ecualización de ganancia 14 de acuerdo con:

(4)g_{scaled} = \ sqrt \ \{(s_{hp}{}^{T}s_{hp}) / (e_{hp}{}^{T} e_{hp})\}

donde S_{hp} es la señal de voz original de 6,0 - 7,0 kHz filtrada paso alto 112, y e_{hp} es el ruido aleatorio sintetizado mediante LPC (coloreado) y filtrado paso banda 134. El factor de escala g_{scaled} mostrado mediante el número de referencia 114 puede cuantificarse mediante un módulo de cuantificación de ganancia 18 y transmitirse con el flujo binario codificado de forma que el extremo receptor pueda utilizar el factor de escala para poner a escala el ruido aleatorio a fin de reconstruir la señal de voz.

En los actuales codecs de voz GSM, la transmisión de radio durante los períodos sin voz se suspende mediante una función de transmisión discontinua (DTX). La DTX ayuda a reducir las interferencias entre diferentes células y a aumentar la capacidad del sistema de comunicaciones. La función DTX se basa en un algoritmo de detección de la actividad de voz (VAD) para determinar si la señal de entrada 100 representa voz o ruido, impidiendo que el transmisor se desconecte durante los períodos de voz activos. El algoritmo VAD se muestra mediante el número de referencia 98. Adicionalmente, cuando el transmisor se desconecta durante los períodos de voz inactivos, el receptor proporciona una cantidad mínima de ruido de fondo denominado "ruido de confort" (CN) para eliminar la impresión de que la conexión está inactiva. El algoritmo VAD está diseñado de forma que se permite un período de tiempo determinado conocido como tiempo de hangover o tiempo de holdover después de detectar un período de voz inactiva.

De acuerdo con la presente invención, el factor puesta a escala g_{scaled} durante los períodos de voz activos puede calcularse de acuerdo con la ecuación 4. Sin embargo, tras la transición desde la voz activa a la voz inactiva este parámetro de ganancia no puede transmitirse dentro del flujo binario de ruido de confort debido a la limitación de la tasa de bits y al sistema de transmisión. De este modo, en la voz inactiva, el factor de escala se determina en el extremo receptor sin utilizar la señal de voz original, como se llevaba a acabo en el codec de banda ancha de la técnica anterior. Así, la ganancia se calcula implícitamente a partir de la señal de la capa base durante los períodos de voz inactivos. Por el contrario, se utiliza la cuantificación de ganancia explícita durante los períodos de voz en función de la señal de las capas de mejora de alta frecuencia. Durante la transición desde los períodos de voz activos a los períodos de voz inactivos, la conmutación entre los diferentes factores de puesta a escala puede provocar estados transitorios audibles en la señal sintetizada. Para reducir estos estados transitorios audibles, es posible utilizar un módulo de adaptación de ganancia 16 para cambiar el factor de escala. De acuerdo con la presente invención, la adaptación comienza cuando se inicia el período de hangover del algoritmo de determinación de la actividad de voz (VAD). Con este propósito, se aporta una señal 190 que representa una decisión VAD al módulo de adaptación de ganancia 16. Además, el período de hangover de transmisión discontinua (DTX) se utiliza también para la adaptación de la ganancia. Tras el período de hangover de la DTX, puede utilizarse el factor de escala determinado sin la señal de voz original. La adaptación total de ganancia para el ajuste del factor de escala puede llevarse a cabo de acuerdo con la siguiente ecuación:

G_{total} = \alpha \ g_{scaled} + (1, 0 - \alpha) f_{est}

Donde f_{est} viene determinado por la ecuación 3 y se representa mediante el número 115 y a es un parámetro de adaptación dado por:

(6)\alpha = (recuento de hangover DTX) / 7

De este modo, durante los períodos de voz activos \alpha es igual a 1,0 debido a que el recuento de hangover DTX es igual a 7. Durante un estado transitorio desde un período de voz activa a un período de voz inactiva, el recuento de hangover DTX desciende de 7 a 0. Por ello, durante el estado transitorio, 0< \alpha <1,0. Durante los períodos de voz inactivos o tras la recepción de los primeros parámetros de ruido de confort, \alpha = 0.

A este respecto, la codificación de la capa de mejora, controlada mediante la detección de la actividad de voz y la tasa de transferencia de bits de codificación fuente, es escalable en función de los distintos períodos de señal de entrada. Durante los períodos de voz activos, la cuantificación de la ganancia viene determinada explícitamente desde la capa de mejora que incluye la determinación y la adaptación de los parámetros de ganancia de ruido aleatorio. Durante el período transitorio, la ganancia determinada explícitamente se adapta al valor estimado implícitamente. Durante los períodos de voz inactivos, la ganancia se calcula implícitamente a partir de la señal de la capa base. De este modo, no se transmiten parámetros de la capa de mejora de alta frecuencia al extremo receptor durante los períodos de voz inactivos.

La ventaja de la adaptación de la ganancia es la ausencia de complicaciones en el estado transitorio de la puesta a escala del componente de alta frecuencia a partir del procesamiento de voz activa a voz inactiva. La ganancia de puesta a escala adaptada g_{total} determinada por el módulo de adaptación de ganancia 16 e indicada mediante el número 116, es cuantificada por el módulo de cuantificación de ganancia 18 como un conjunto de parámetros de ganancia cuantificados 118. Dicho conjunto de parámetros de ganancia 118 puede incorporarse al flujo binario codificado para transmitirse a un extremo receptor para su decodificación. Cabe señalar que los parámetros de ganancia cuantificados 118 pueden almacenarse como una tabla de búsquedas de forma que pueda accederse a ellos mediante un índice de ganancia (no mostrado).

Con la ganancia de puesta a escala adaptada g_{total} el ruido aleatorio de alta frecuencia del proceso de decodificación puede ponerse a escala para reducir los estados transitorios en la señal sintetizada durante la transición de los períodos de voz activos a los períodos de voz inactivos. Finalmente, los componentes de alta frecuencia sintetizados se añaden a la señal interpolada sobre-muestreada recibida desde el bucle A-b-S en el codificador. El post-procesamiento con puesta a escala de energía se lleva a cabo independientemente en cada subtrama de 5 ms. Cuando se utilizan libros de código de 4 bits para cuantificar la ganancia del componente aleatorio de alta frecuencia, la tasa de transferencia de bits total es de 0,8 kbits por segundo.

La adaptación de la ganancia entre la ganancia determinada explícitamente (procedente de las capas de mejora de alta frecuencia) y la ganancia calculada implícitamente (procedente tan sólo de la señal de la capa base, o banda inferior) puede llevarse a cabo en el codificador antes de la cuantificación de la ganancia, como se muestra en la figura 3. En dicho caso, los parámetros de ganancia que van a codificarse y transmitirse al extremo receptor es g_{total} de acuerdo con la ecuación 5. Alternativamente, la adaptación de la ganancia puede llevarse a cabo tan sólo en el decodificador durante el período de hangover DTX tras la bandera VAD que indica el comienzo de una señal sin voz. En dicho caso, la cuantificación de los parámetros de ganancia se lleva a cabo en el codificador y la adaptación de la ganancia se lleva a cabo en el decodificador, y los parámetros de ganancia transmitidos al extremo receptor pueden ser simplemente g_{scaled} de acuerdo con la ecuación 4. La ganancia estimada f_{est} puede determinarse en el decodificador utilizando la señal de voz sintetizada. También es posible llevar a cabo la adaptación de la ganancia en el decodificador al comienzo del período de ruido de confort antes de que el decodificador reciba la primera descripción de silencio (SID first). Como en el caso anterior, g_{scaled} se cuantifica en el codificador y se transmite dentro del flujo binario codificado.

En la figura 4 se muestra un diagrama representativo del decodificador 30 de la presente invención. Como se muestra, el decodificador 30 se utiliza para sintetizar una señal de voz 110 procedente de los parámetros codificados 140 que incluye los parámetros LPC, tono y excitación 104 y los parámetros de ganancia 118 (véase la figura 3). A partir de los parámetros codificados 140, un módulo decodificador 32 proporciona un conjunto de parámetros LPC des-cuantificados 142. A partir de los parámetros LPC, tono y excitación recibidos 142 de los componentes de la banda inferior de la señal de voz, el módulo de post-procesamiento 34 genera una señal de voz de banda inferior sintetizada, como en el decodificador de la técnica anterior. A partir de un ruido aleatorio generado a nivel local, el módulo de post-procesamiento 34 genera los componentes de alta frecuencia sintetizados en función de los parámetros de ganancia que incluyen las características de señal de entrada de los componentes de alta frecuencia de la voz.

En la figura 5 se muestra una estructura de post-procesamiento del decodificador 30 generalizada. Como se muestra en la figura 5, los parámetros de ganancia 118 se des-cuantifican mediante un bloque de des-cuantificación de ganancia 38. Si la adaptación de ganancia ya se ha llevado a cabo en el decodificador como se muestra en la figura 3, la función correspondiente de adaptación de ganancia del decodificador consistirá en conmutar la ganancia des-cuantificada 144 (g_{total}, siendo \alpha = 1,0 y \alpha = 0,5) a la ganancia de puesta a escala optimada f_{est} (\alpha = 0) al comienzo del período de ruido de confort, sin necesidad de la señal de decisión VAD 190. No obstante, si la adaptación de la ganancia se lleva a cabo solamente en el decodificador durante el período de hangover DTX después de que la bandera VAD facilitada con la señal 190 indique el comienzo de una señal no de voz, el bloque de adaptación de la ganancia 40 determina el factor de escala g_{total} de acuerdo con la ecuación 5. De este modo, al comienzo de la transmisión discontinua, el bloque de adaptación de la ganancia 40 disipa el estado transitorio utilizando la ganancia de puesta a escala estimada f_{est} señalada con el número 145 cuando no recibe los parámetros de ganancia 118. Por consiguiente, el factor de escala 146 proporcionado por el módulo de adaptación de la ganancia 40 se determina de acuerdo con la ecuación 5.

El filtrado de coloreado y de paso alto del componente de ruido aleatorio de la unidad de post-procesamiento 34, que se muestra en la figura 4, es similar al post-procesamiento del codificador 10, como se muestra en la figura 3. Tal y como se muestra, se utiliza un generador de ruido aleatorio 50 para proporcionar una señal artificial 150 que se colorea mediante un filtro de síntesis LPC 52 en función de los parámetros LPC recibidos 104. La señal artificial coloreada 152 se somete a filtrado paso alto 54. No obstante, la finalidad de proporcionar el ruido aleatorio filtrado paso alto y coloreado 134 al codificador 10 (figura 3) consiste en producir e_{hp} (ecuación 4). En el módulo de post-procesamiento 34 la señal artificial filtrada paso alto y coloreada 154 se utiliza para generar la señal sintetizada de alta frecuencia 160 después de ser escalada mediante un módulo de ajuste de ganancia 56 en función del factor de escala de banda superior adaptado 146 proporcionado por el módulo de adaptación de ganancia 40. Por último, la salida 160 de la capa de mejora de alta frecuencia se añade a la señal sintetizada de 16 kHz recibida desde el decodificador base (no mostrado). La señal sintetizada de 16 kHz es bien conocida en la técnica.

Cabe señalar que la señal sintetizada procedente del codificador está disponible para el cálculo de la inclinación espectral. La unidad de post-procesamiento del decodificador puede utilizarse para calcular el parámetro f_{est} utilizando las ecuaciones 2 y 3. Cuando el decodificador o el canal de transmisión ignoran los parámetros de ganancia de la banda superior por diversas razones, como limitaciones en el ancho de banda del canal, y el decodificador no recibe la ganancia de la banda superior, es posible poner a escala el ruido aleatorio filtrado paso alto y coloreado para proporcionar los componentes de alta frecuencia de la voz sintetizada.

En resumen, la etapa de post-procesamiento para llevar a cabo la codificación de la capa de mejora de alta frecuencia en un codec de voz de banda ancha puede llevarse a cabo en el codificador o en el decodificador.

Cuando esta etapa de post-procesamiento se lleva a cabo en el codificador se obtiene un factor de escala de la señal de la banda superior g_{scaled} a partir de los componentes de alta frecuencia en la banda de frecuencias de 6,0 a 7,0 kHz de la muestra de voz original y del ruido aleatorio filtrado paso alto y coloreado mediante LPC. Además se obtiene un factor de ganancia estimada f_{est} a partir de la inclinación espectral de la señal sintetizada de la banda inferior en el codificador. Se utiliza una señal de decisión VAD para indicar si la señal de entrada es un período de voz activa o un período de voz inactiva. El factor de escala total g_{total} correspondiente a los diferentes períodos de voz se calcula a partir del factor de escala g_{scaled} y del factor de ganancia estimada f_{est}. Los factores de puesta a escala de la señal de la banda superior escalable se cuantifican y transmiten dentro del flujo binario codificado. En el extremo receptor, el factor de escala total g_{total} se extrae del flujo binario codificado recibido (parámetros codificados). Este factor de escala total se utiliza para poner a escala el ruido aleatorio filtrado paso alto y coloreado en el decodificador.

Cuando se lleva a cabo la etapa de post-procesamiento en el decodificador, el factor de ganancia estimada f_{est} puede obtenerse a partir de la voz sintetizada de la banda inferior en el decodificador. Este factor de ganancia estimada puede utilizarse para poner a escala el ruido aleatorio filtrado paso alto y coloreado en el decodificador durante la voz activa.

La figura 6 muestra un diagrama de bloques de una estación móvil 200 de acuerdo con un ejemplo de realización de la invención. La estación móvil incluye componentes típicos del dispositivo, como un micrófono 201, un teclado 207, una pantalla 206, un auricular 214, un conmutador de transmisión/recepción 208, una antena 209 y una unidad de control 205. Además, la figura muestra los bloques de transmisión y recepción 204, 211 típicos de una estación móvil. El bloque de transmisión 204 incluye un codificador 221 para codificar la señal de voz. El codificador 221 incluye la función de post-procesamiento del codificador 10 como se muestra en la figura 3. El bloque de transmisión 204 también incluye las operaciones necesarias para la codificación del canal, descifrado y modulación así como funciones RF que no se han presentado en la figura 5 con fines de aclaración. El bloque de recepción 211 también incluye un bloque decodificador 220 de acuerdo con la invención. El bloque decodificador 220 incluye una unidad de post-procesamiento 222 al igual que el decodificador 34 mostrado en la figura 5. La señal procedente del micrófono 201, amplificada en la etapa de amplificación 202 y digitalizada en el convertidor A/D se lleva al bloque de transmisión 204, normalmente al dispositivo de codificación de voz incluido en el bloque de transmisión. La señal de transmisión procesada, modulada y amplificada por el bloque de transmisión se lleva a través del conmutador de transmisión/recepción 208 a la antena 209. La señal que se recibe se lleva desde la antena a través del conmutador de transmisión/recepción 208 al bloque receptor 211 que demodula la señal recibida y decodifica la codificación de descifrado y de canal. La señal de voz resultante se lleva a través del convertidor D/A 212 a un amplificador 213 y posteriormente a un auricular 214. La unidad de control 205 controla el funcionamiento de la estación móvil 200, lee los comandos de control introducidos por el usuario a través del teclado 207 y entrega los mensajes al usuario mediante la pantalla 206.

La función de post-procesamiento del codificador 10, como se muestra en la figura 3, y el decodificador 34, como se muestra en la figura 5, de acuerdo con la invención, pueden también utilizarse en una red de telecomunicaciones 300, como una red telefónica ordinaria o una red de telefonía móvil, tal como la red GSM. La figura 7 muestra un ejemplo de un diagrama de bloques de este tipo de red de telecomunicaciones. Por ejemplo, la red de telecomunicaciones 300 puede incluir centralitas telefónicas o los correspondientes sistemas de conmutación 360 a los cuales están acoplados los teléfonos ordinarios 370, las estaciones base 340, los controladores de estación base 350 y otros dispositivos centrales 355 de la red de telecomunicaciones. Las estaciones móviles 330 pueden establecer una conexión con la red de telecomunicaciones a través de las estaciones base 340. Un bloque decodificador 320 que incluye una unidad de post-procesamiento 322 similar a la mostrada en la figura 5, puede resultar especialmente ventajoso cuando está situado en la estación base 340, por ejemplo. No obstante, el bloque de decodificación 320 puede también estar situado en el controlador de estación base 350 o en otro dispositivo central o de conmutación 355, por ejemplo. Si el sistema de estación móvil utiliza trans-codificadores independientes, por ejemplo entre las estaciones base y los controladores de estación base para transformar la señal codificada tomada a través del canal de radio en una señal típica de 64 kbits por segundo transferida en un sistema de telecomunicaciones y viceversa, el bloque decodificador 320 puede también estar situado en dicho trans-codificador. En general el bloque decodificador 320, incluyendo la unidad de post-procesamiento 322 puede estar situado en cualquier elemento de la red de telecomunicaciones 300 que transforma el flujo de datos codificado en un flujo de datos no codificado. El bloque decodificador 320 decodifica y filtra la señal de voz codificada procedente de la estación móvil 330, tras lo cual la señal de voz puede transmitirse sin comprimir de la forma normal a través de la red de telecomunicaciones 300.

La figura 8 es un organigrama que muestra el método 500 de codificación de voz de acuerdo con la presente invención. Como se muestra, cuando se recibe la señal de entrada de voz 100 en la etapa 510, el algoritmo de detección de la actividad de voz 98 se utiliza en la etapa 520 para determinar si la señal de entrada 110 del período actual representa voz o ruido. Durante el período de voz, el ruido artificial procesado 152 se pone a escala con un primer factor de escala 114 en la etapa 530. Durante los períodos de ruido o sin voz, la señal artificial procesada 152 se pone a escala con un segundo factor de escala en la etapa 540. El proceso se repite en la etapa 520 para el siguiente período.

A fin de proporcionar los componentes de alta frecuencia de la voz sintetizada, la señal artificial o ruido aleatorio se filtra en una banda de frecuencias de 6,0 a 7,0 kHz. No obstante, la banda de frecuencias filtrada puede ser diferente en función de la tasa de muestreo del codec, por ejemplo.

Claims

1. Método para codificación de voz (500) para codificar y decodificar una señal de entrada (100) con períodos de voz activos y períodos de voz inactivos y para proporcionar una señal de voz sintetizada (110) con componentes de alta frecuencia y componentes de baja frecuencia en el que la señal de entrada se divide en una banda de alta frecuencia y en una banda de baja frecuencia durante los procesos de codificación y de síntesis de voz, y en el que parámetros vocales (104) característicos de la banda de baja frecuencia se utilizan para procesar una señal artificial (150) a fin de proporcionar una señal artificial procesada (152) para proporcionar adicionalmente los componentes de la frecuencia superior (160) de la voz sintetizada, incluyendo dicho método las etapas de:

puesta a escala (530) de la señal artificial procesada (152) mediante un primer factor de escala (114, 144) durante los períodos de voz activos, y

puesta a escala (540) de la señal artificial procesada (152) mediante un segundo factor de escala (114 y 115, 144 y 145) durante los períodos de voz inactivos, en el que dicho primer factor de escala es característico de la banda de alta frecuencia de la señal de entrada, siendo el segundo factor de escala característico de la banda de baja frecuencia de la señal de entrada.

2. Método según la reivindicación 1 en el que la señal artificial procesada (152) se somete a filtrado paso alto para obtener una señal filtrada (154) en una banda de frecuencias característica de los componentes de alta frecuencia de la voz sintetizada.

3. Método según la reivindicación 2 en el que la banda de frecuencias está situada en la banda de 6,4 a 8,0 kHz.

4. Método según la reivindicación 1 en el que la señal de entrada (100) se somete a filtrado paso alto para proporcionar una señal filtrada (112) en una banda de frecuencias característica de los componentes de alta frecuencia de la voz sintetizada y en el que el primer factor de escala (114, 144) se calcula a partir de la señal filtrada (112).

5. Método según la reivindicación 4 en el que los períodos de voz inactivos incluyen períodos de hangover de voz y períodos de ruido de confort, en el que el segundo factor de escala (114 y 115, 144 y 145) para poner a escala la señal artificial procesada (152) durante los períodos de hangover de voz se calcula a partir de la señal filtrada (112).

6. Método según la reivindicación 5 en el que los componentes de baja frecuencia de la voz sintetizada se reconstruyen a partir de la banda de baja frecuencia codificada (106) de la señal de entrada (100) y en el que el segundo factor de escala (114 y 115, 144 y 145) para poner a escala la señal artificial procesada (152) durante los períodos de hangover de voz se calcula también a partir de los componentes de baja frecuencia de la voz sintetizada.

7. Método según la reivindicación 6 en el que el segundo factor de escala (114 y 115, 144 y 145) para poner a escala la señal artificial procesada (152) durante los períodos de ruido confort se calcula a partir de los componentes de baja frecuencia de la voz sintetizada.

8. Método según la reivindicación 6 que incluye adicionalmente la etapa de transmisión de un flujo binario codificado a un extremo receptor para su decodificación, cuyo flujo binario codificado incluye datos (118) indicadores del primer factor de escala (114, 144).

9. Método según la reivindicación 8 en el que el flujo binario codificado incluye datos (118) indicadores del segundo factor de escala (114 y 115) para poner a escala la señal artificial procesada (152) durante los períodos de hangover de voz.

10. Método según la reivindicación 8 en el que el segundo factor de escala (114 y 115, 144 y 145) para poner a escala la señal artificial procesada se proporciona en el extremo receptor (34).

11. Método según la reivindicación 6 en el que el segundo factor de escala (114 y 115, 144 y 145) es indicativo de un factor de inclinación espectral determinado a partir de los componentes de baja frecuencia de la voz sintetizada.

12. Método según la reivindicación 7 en el que el segundo factor de escala (114 y 115, 144 y 145) para poner a escala la señal artificial procesada en los períodos de ruido de confort es indicativo de un factor de inclinación espectral determinado a partir de los componentes de baja frecuencia de la voz sintetizada.

13. Método según la reivindicación 4 en el que el primer factor de escala (114, 144) se calcula adicionalmente a partir de la señal artificial procesada (152).

14. Método según la reivindicación 1 que incluye adicionalmente la etapa de proporcionar información de actividad vocal (190) en función de la señal de entrada (100) para supervisar los períodos de voz activos y los períodos de voz inactivos.

\newpage

15. Método según la reivindicación 1 en el que los parámetros vocales incluyen coeficientes de codificación lineal predictiva característicos de la banda de baja frecuencia de la señal de entrada.

16. Sistema transmisor y receptor de señales de voz para codificar y decodificar una señal de entrada (100) con períodos de voz activos y períodos de voz inactivos y para proporcionar una señal de voz sintetizada (110) con componentes de alta frecuencia y componentes de baja frecuencia en el que la señal de entrada se divide en una banda de alta frecuencia y en una banda de baja frecuencia durante los procesos de codificación y de síntesis vocal, y en el que se utilizan parámetros vocales (118, 104, 140, 145) característicos de la banda de baja frecuencia de la señal de entrada para procesar una señal artificial (150) en el receptor (30), a fin de proporcionar los componentes de la frecuencia superior (160) de la voz sintetizada, incluyendo dicho sistema:

primeros medios (12, 14) en el transmisor, que responden a la señal de entrada (100) para proporcionar un primer factor de escala (114, 144) característico de la banda de alta frecuencia de la señal de entrada;

un decodificador (34) en el receptor para recibir un flujo binario codificado procedente del transmisor, cuyo flujo binario codificado contiene los parámetros vocales incluyendo datos (118) indicativos del primer factor de escala (114, 144); y

segundos medios (40, 56) en el receptor, que responden a los parámetros vocales (118, 145) para proporcionar un segundo factor de escala (144 y 145) y para poner a escala la señal artificial procesada (152) con el segundo factor de escala (144, 145) durante los períodos de voz inactivos y para poner a escala la señal artificial procesada (152) con el primer factor de escala (114, 144) durante los períodos de voz activos, en el que el primer factor de escala es característico de la banda de alta frecuencia de la señal de entrada y el segundo factor de escala es característico de la banda de baja frecuencia de la señal de entrada.

17. Sistema según la reivindicación 16, en el que el primer medio incluye unos medios de filtrado (12) para filtrado paso alto de la señal de entrada y proporcionar una señal de entrada filtrada (112) con un rango de frecuencias correspondiente a los componentes de alta frecuencia de la voz sintetizada y en el que el primer factor de escala (114, 144) se calcula a partir de la señal de entrada filtrada (112).

18. Sistema según la reivindicación 17 en el que la banda de frecuencias se encuentra situada en la banda de 6,4 a 8,0 kHz.

19. Sistema según la reivindicación 17 que incluye adicionalmente terceros medios (16, 24) en el transmisor para proporcionar un ruido aleatorio con filtrado paso alto (134) en la banda de frecuencias correspondiente a los componentes de alta frecuencia de la señal sintetizada y para modificar el primer factor de escala (114, 144) en función del ruido aleatorio con filtrado paso alto.

20. Sistema según la reivindicación 16 que incluye adicionalmente medios (98) que responden a la señal de entrada (100) para supervisar los períodos de voz activos y los períodos de voz inactivos.

21. Sistema según la reivindicación 16 que incluye adicionalmente medios (18) que responden al primer factor de escala (114, 144) para proporcionar un primer factor de escala codificado (118) y para incluir datos indicativos del primer factor de escala codificado en el flujo binario codificado para su transmisión.

22. Sistema según la reivindicación 19, que incluye adicionalmente medios (18) que responden al primer factor de escala (114, 144) para proporcionar un primer factor de escala codificado (118) y para incluir datos indicativos del primer factor de escala codificado en el flujo binario codificado para su transmisión.

23. Codificador (10) para codificar una señal de entrada (100) con períodos de voz activos y períodos de voz inactivos y en el que la señal de entrada se divide en una banda de alta frecuencia y una banda de baja frecuencia y para proporcionar un flujo binario codificado que contenga parámetros vocales (104) característicos de la banda de baja frecuencia de la señal de entrada para permitir que un decodificador (34) utilice los parámetros vocales para procesar una señal artificial (150) para proporcionar los componentes de alta frecuencia (160) de la voz sintetizada y en el que un factor de escala (144 y 145, 144 y 145) basado en la banda de baja frecuencia de la señal de entrada se utiliza para poner a escala la señal artificial procesada (152) durante los períodos de voz inactivos, incluyendo dicho codificador

medios (12) que responden a la señal de entrada (100) para filtrado paso alto de la señal de entrada (100) para proporcionar una señal filtrada paso alto (112) en una banda de frecuencias correspondientes a los componentes de alta frecuencia de la voz sintetizada (110) y para proporcionar adicionalmente un factor de escala adicional (114, 144) basado en la señal filtrada paso alto (112), y

medios (18) que responden al factor de escala adicional (114, 144) para proporcionar una señal codificada (118) indicativa del factor de escala adicional (114, 144) al flujo binario codificado a fin de permitir al decodificador (34) recibir la señal codificada y utilizar el factor de escala adicional (114, 144) para poner a escala la señal artificial procesada (152) durante los períodos de voz activos.

24. Estación móvil (200) configurada para transmitir un flujo binario codificado a un decodificador (34, 220) para proporcionar voz sintetizada (110) con unos componentes de alta frecuencia y componentes de baja frecuencia cuyo flujo binario codificado incluye datos de voz indicativos de una señal de entrada (100) teniendo la señal de entrada períodos de voz activos y períodos de voz inactivos y siendo dividida en una banda de alta frecuencia y en una banda de baja frecuencia, incluyendo los datos de voz parámetros vocales (104) característicos de la banda de baja frecuencia de la señal de entrada para permitir al decodificador (34) proporcionar los componentes de baja frecuencia de la voz sintetizada en función de los parámetros vocales y para colorear una señal artificial (150) en función de los parámetros vocales (104) y para poner a escala la señal artificial coloreada (154) con un factor de escala (144 y 145) en función de los componentes de baja frecuencia de la voz sintetizada a fin de proporcionar los componentes de alta frecuencia (160) de la voz sintetizada durante los períodos de voz inactivos incluyendo dicha estación móvil:

un filtro (12) que responde a la señal de entrada (100) para filtrado paso alto de la señal de entrada en una banda de frecuencias correspondiente a los componentes de alta frecuencia de la voz sintetizada y para proporcionar un factor de escala adicional (114, 144) a partir de la señal de entrada filtrada paso alto (112); y

un módulo de cuantificación (18) que responde al factor de escala adicional (114, 144) para proporcionar una señal codificada (118) indicativa del factor de escala adicional (114, 144) al flujo binario codificado para permitir al decodificador (34) poner a escala la señal artificial coloreada (154) durante los períodos de voz activos en función del factor de escala adicional (114, 144).

25. Elemento (34, 320) de una red de telecomunicaciones (300) configurado para recibir un flujo binario codificado que contiene datos de voz indicativos de una señal de entrada procedente de una estación móvil (330) para proporcionar voz sintetizada con unos componentes de alta frecuencia y unos componentes de baja frecuencia, en el que la señal de entrada tiene períodos de voz activos y períodos de voz inactivos y la señal de entrada se divide en una banda de alta frecuencia y una banda de baja frecuencia, en el que los datos de voz (104, 118, 145, 190) incluyen parámetros vocales (104) característicos de la banda de baja frecuencia de la señal de entrada y parámetros de ganancia (118) característicos de la banda de alta frecuencia de la señal de entrada y en el que se proporcionan los componentes de baja frecuencia de la voz sintetizada en función de los parámetros vocales (104) incluyendo dicho elemento:

un primer mecanismo (38) que responde a los parámetros de ganancia (118) para proporcionar un primer factor de escala (144);

un segundo mecanismo (52, 54) que responde a los parámetros vocales (104) para sintetizar y para filtrado paso alto una señal artificial (150) para proporcionar una señal artificial filtrada paso alto y sintetizada (154);

un tercer mecanismo (40) que responde al primer factor de escala (144) y a los datos de voz (145, 190) para proporcionar un factor de escala combinado (146) que incluye el primer factor de escala (144) característico de la banda de alta frecuencia de la señal de entrada y un segundo factor de escala (144, 145) basado en el primer factor de escala (144) y un parámetro adicional relacionado con la voz (145) característico de los componentes de baja frecuencia de la voz sintetizada; y

un cuarto mecanismo (56) que responde a la señal artificial sintetizada y filtrada paso alto (154) y al factor de escala combinado (146) para poner a escala la señal artificial sintetizada y filtrada paso alto (154) con el primer (144) y el segundo (144 y 145) factores de puesta a escala durante los períodos de voz activos y los períodos de voz inactivos respectivamente.

26. Aparato decodificador (30) para decodificar un flujo binario codificado indicativo de una señal de entrada con períodos de voz activos y períodos de voz inactivos para proporcionar una señal de voz sintetizada (110) teniendo la señal de voz sintetizada (110) componentes de alta frecuencia y componentes de baja frecuencia en el que los componentes de alta frecuencia se sintetizan utilizando una señal artificial (150) y en el que la señal de entrada se divide en una banda de alta frecuencia y una banda de baja frecuencia en los procesos de codificación y síntesis de voz, incluyendo el flujo binario codificado unos primeros datos indicativos de parámetros vocales (114, 144) característicos de la banda de alta frecuencia de la señal de entrada y unos segundos datos (104) característicos de la banda de baja frecuencia de la señal de entrada, incluyendo dicho aparato decodificador (30):

unos medios de procesamiento (52) configurados para procesar la señal artificial (150) en función de los segundos datos (104) para proporcionar una señal artificial procesada (152); y

unos medios de puesta a escala (40, 56) configurados para poner a escala la señal artificial procesada (152) con un primer factor de escala (114, 144) en función de los primeros datos durante los períodos de voz activos y para poner a escala la señal artificial procesada (152) con un segundo factor de escala (114 y 115, 144 y 145) en función de los datos del segundo parámetro durante los períodos de voz inactivos.

27. Aparato decodificador (30) según la reivindicación 26 que incluye adicionalmente:

unos medios de filtrado (54) que responden a la señal artificial procesada (154) para proporcionar una señal filtrada paso alto en una banda de frecuencias característica de los componentes de alta frecuencia (160) de la señal de voz sintetizada (110).

28. Aparato decodificador (30) según la reivindicación 26 en el que los componentes de baja frecuencia de la señal de voz sintetizada se reconstruyen a partir de una banda de baja frecuencia codificada (106) de la señal de entrada (100), y en el que el segundo factor de escala (114 y 115, 144 y 145) para poner a escala la señal artificial procesada (152) se calcula a partir de los componentes de baja frecuencia de la señal de voz sintetizada (110).