ES2265442T3 - Aparato para la expansion del ancho de banda de una señal vocal. - Google Patents

Aparato para la expansion del ancho de banda de una señal vocal. Download PDF

Info

Publication number
ES2265442T3
ES2265442T3 ES01974612T ES01974612T ES2265442T3 ES 2265442 T3 ES2265442 T3 ES 2265442T3 ES 01974612 T ES01974612 T ES 01974612T ES 01974612 T ES01974612 T ES 01974612T ES 2265442 T3 ES2265442 T3 ES 2265442T3
Authority
ES
Spain
Prior art keywords
signal
voice
scale
periods
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES01974612T
Other languages
English (en)
Inventor
Pasi Ojala
Jani Rotola-Pukkila
Janne Vainio
Hannu Mikkola
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Inc
Original Assignee
Nokia Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Inc filed Critical Nokia Inc
Application granted granted Critical
Publication of ES2265442T3 publication Critical patent/ES2265442T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Displays For Variable Information Using Movable Means (AREA)

Abstract

Método para codificación de voz (500) para codificar y decodificar una señal de entrada (100) con períodos de voz activos y períodos de voz inactivos y para proporcionar una señal de voz sintetizada (110) con componentes de alta frecuencia y componentes de baja frecuencia en el que la señal de entrada se divide en una banda de alta frecuencia y en una banda de baja frecuencia durante los procesos de codificación y de síntesis de voz, y en el que parámetros vocales (104) característicos de la banda de baja frecuencia se utilizan para procesar una señal artificial (150) a fin de proporcionar una señal artificial procesada (152) para proporcionar adicionalmente los componentes de la frecuencia superior (160) de la voz sintetizada, incluyendo dicho método las etapas de: puesta a escala (530) de la señal artificial procesada (152) mediante un primer factor de escala (114, 144) durante los períodos de voz activos, y puesta a escala (540) de la señal artificial procesada (152) mediante un segundofactor de escala (114 y 115, 144 y 145) durante los períodos de voz inactivos, en el que dicho primer factor de escala es característico de la banda de alta frecuencia de la señal de entrada, siendo el segundo factor de escala característico de la banda de baja frecuencia de la señal de entrada.

Description

Aparato para la expansión del ancho de banda de una señal vocal.
Ámbito de la invención
La presente invención se refiere, en términos generales, al ámbito de la codificación y decodificación de voz sintetizada, y más concretamente, a un codec (codificador-decodificador) de voz de banda ancha de frecuencias múltiples adaptable.
Antecedentes de la invención
Muchos de los métodos actuales de codificación de voz están basados en la codificación lineal predictiva (LP), que extrae características perceptivamente significativas de una señal de voz directamente desde una forma de onda temporal, en lugar de hacerlo de un espectro de frecuencias de la señal de voz (como lo hace lo que se denomina un "vocoder" de canal o un "vocoder" formador). En la codificación LP, en primer lugar se analiza una forma de onda de voz (análisis LP) para determinar un modelo variable a lo largo del tiempo de la excitación del tracto vocal que ha causado la señal de voz, así como una función de transferencia. A continuación, un decodificador (de un terminal receptor en el caso de que la señal de voz codificada se haya transmitido mediante telecomunicaciones) recrea la señal de voz original utilizando un sintetizador (para llevar a cabo la síntesis LP) que hace pasar la excitación a través de un sistema parametrizado que representa un modelo del tracto local. Los parámetros del modelo de tracto vocal y la excitación del modelo se actualizan periódicamente para adaptarse a los correspondientes cambios que se han producido en el orador, cuando el orador ha generado la señal de voz. No obstante, entre las actualizaciones, es decir, durante cualquier intervalo de especificación, la excitación y los parámetros del sistema se mantienen constantes, por lo que el proceso ejecutado por el modelo, es un proceso lineal invariable a lo largo del tiempo. El sistema general (distribuido) de codificación y decodificación se denomina codec.
En un codec que utiliza la codificación LP para la generación de voz, el decodificador necesita que el codificador proporcione tres entradas: un período de frecuencias audibles o de tono si la excitación se convierte en voz, un factor de ganancia y unos coeficientes de predicción (en ciertos codecs, también se proporciona el carácter de la excitación, es decir, si ha sido o no generada por la voz, pero no suele ser necesario en el caso de un codec ACELP (Predicción Lineal Excitada por Código Algebraico), por ejemplo. La codificación LP es predictiva en el sentido de que utiliza unos parámetros de predicción basados en los segmentos de la entrada real de la forma de onda de voz (durante un intervalo de especificación) a la cual se aplican los parámetros, en un proceso de estimación directa, o basado en eventos anteriores.
Pueden utilizarse la codificación y la decodificación LP básicas para comunicar digitalmente voz con una tasa de transferencia de datos relativamente baja, pero se genera una voz de sonido sintético, debido a que se está utilizando un sistema de excitación muy sencillo. El denominado codec CELP (Predicción Lineal Excitada por Código) es un codec de excitación mejorado. Se basa en la codificación "residual". El modelado del tracto vocal se realiza en función de filtros digitales, cuyos parámetros se codifican en la voz comprimida. Estos filtros son controlados, es decir, "excitados", mediante una señal que representa la vibración de las cuerdas vocales del orador original. El residuo de una señal de voz de audio es la señal de voz de audio (original) menos la señal de voz de audio filtrada digitalmente. Un codeo CELP codifica el residuo y lo utiliza como base para la excitación, en lo que se conoce como "excitación de impulso residual". No obstante, en lugar de codificar las formas de ondas residuales muestra a muestra, el CELP utiliza una plantilla de forma de onda seleccionada a partir de un conjunto predeterminado de plantillas de forma de onda, a fin de que represente un bloque de muestras residuales. El codificador determina una palabra de código y se la facilita al decodificador, que utiliza entonces la palabra de código para seleccionar una secuencia residual que represente las muestras residuales originales.
De acuerdo con el teorema de Nyquist, una señal de voz con una frecuencia de muestreo F_{S} puede representar una banda de frecuencias variable entre 0 y 0,5 F_{S}. En la actualidad, la mayoría de los codeos de voz (codificadores-decodificadores) utilizan una frecuencia de muestreo de 8 kHz. Si la frecuencia de muestreo aumenta a partir de 8 kHz, mejora la naturalidad de la voz, debido a que pueden representarse frecuencias más elevadas. En la actualidad, la frecuencia de muestreo de la señal de voz suele ser de 8 kHz, pero se han desarrollado teléfonos móviles que utilizarán una frecuencia de muestreo de 16 kHz. De acuerdo con el teorema de Nyquist, una frecuencia de muestreo de 16 kHz puede representar voz en la banda de frecuencias de 0-8 kHz. La voz muestreada se codifica a continuación para su comunicación a través de un transmisor, y a continuación se decodifica en un receptor. La codificación de voz de la voz muestreada utilizando una frecuencia de muestreo de 16 kHz se denomina codificación de voz de banda ancha.
Cuando aumenta la frecuencia de muestreo de la voz, también aumenta la complejidad de la codificación. Con algunos algoritmos, a medida que aumenta la frecuencia de muestreo, la complejidad de la codificación puede incluso aumentar exponencialmente. Por lo tanto, la complejidad de la codificación suele ser un factor que limita la determinación de un algoritmo de codificación de voz de banda ancha. Esto es especialmente cierto, por ejemplo, en el caso de los teléfonos móviles, cuyo consumo eléctrico, la potencia de procesamiento disponible y los requisitos de memoria afectan de forma crítica a la aplicabilidad de los algoritmos.
En los codecs de banda ancha de la técnica anterior, mostrados en la figura 1 (véase, por ejemplo, J. Schnitzler, "A 13.0 Kbit/s wideband speech codec based on SB-ACELP", en ICASSP '98), se utiliza una etapa de procesamiento previo para realizar un filtrado paso bajo y una reducción de la frecuencia de muestreo (muestreo descendente) la señal de voz de entrada con respecto a la frecuencia de muestreo original, de 16 kHz a 12,8 kHz. La señal sub-muestreada se diezma de forma que el número de muestras, que es de 320 a lo largo de un período de 20 ms se reduzca a 256. La señal diezmada y sub-muestreada, con un ancho de banda de frecuencia efectivo de 0 a 6,4 kHz se codifica utilizando un bucle de Análisis por Síntesis (A-b-S) para extraer los parámetros de LPC, frecuencias audibles y excitación, que se cuantifican en un flujo binario codificado que se transmite al receptor para su decodificación. En el bucle A-b-S, una señal sintetizada a nivel local se muestrea aumentando la frecuencia de muestreo y se interpola para ajustarse a la frecuencia de muestreo original. Tras el proceso de codificación, la banda de frecuencias de 6,4 kHz a 8,0 kHz queda vacía. El codec de banda ancha genera un ruido aleatorio en esta banda de frecuencias vacía, y colorea el ruido aleatorio con parámetros LPC mediante filtrado de síntesis, como se describe a continuación.
En primer lugar, el ruido aleatorio se pone a escala de acuerdo con:
(1)e_{scaled} = \ sqrt \ [\{exc^{T} (n) \ exc \ (n)\} / \{e^{T} (n) \ e \ (n)\}] \ e \ (n)
Donde e(n) representa el ruido aleatorio y exc(n) representa la excitación LPC. La T del superíndice indica la transpuesta de un vector. El ruido aleatorio puesto a escala se filtra utilizando el filtro de síntesis LPC de coloreado y un filtro paso de banda de 6,0 a 7,0 kHz. Este componente coloreado de alta frecuencia se vuelve a poner a escala utilizando la información sobre la inclinación (tilt) espectral de la señal sintetizada. La inclinación espectral se calcula realizando el cálculo del primer coeficiente de correlación, r, utilizando la siguiente ecuación:
(2)r = {s^{T} (i) s (i-1)}/{s^{T} (i) s(i)}
donde s(i) es la señal de voz sintetizada. Por consiguiente, la ganancia estimada f_{est} se determina a partir de
(3)f_{est} = 1,0-r
con la limitación de 0,2 \leq f_{est} \leq 1,0
En el extremo receptor, con posterioridad al proceso principal de decodificación, la señal sintetizada vuelve a procesarse para generar la salida real mediante sobre-muestreo de la señal para ajustarse a la frecuencia de muestreo de la señal de entrada. Debido a que el nivel de ruido de alta frecuencia se ha calculado en función de los parámetros LPC obtenidos a partir de la banda de frecuencias inferiores y el inclinación espectral de la señal sintetizada, la puesta a escala y el coloreado del ruido aleatorio pueden llevarse a cabo en el extremo del codificador o en el extremo del decodificador.
En los codecs de la técnica anterior, el nivel de ruido de alta frecuencia se calcula en función del nivel de señal de la capa base y de la inclinación espectral. De este modo, los componentes de alta frecuencia de la señal sintetizada se eliminan mediante filtrado. Por ello, el nivel de ruido no se corresponde con las características de la señal de entrada real en la banda de frecuencias 6,4-8,0 kHz. De este modo, el codec de la técnica anterior no proporciona una señal sintetizada de alta calidad.
Resulta ventajoso y deseable proporcionar un método y un sistema capaces de proporcionar una señal sintetizada de alta calidad teniendo en cuenta las características de la señal de entrada real en la banda de altas frecuencias.
Resumen de la invención
Uno de los principales objetivos de la presente invención consiste en mejorar la calidad de la voz sintetizada en un sistema de procesamiento de voz distribuido. Este objetivo puede conseguirse utilizando las características de la señal de entrada de los componentes de alta frecuencia de la señal de voz original en la banda de frecuencias de 6,0 a 7,0 kHz, por ejemplo, para determinar el factor de escala de una señal artificial coloreada con filtrado paso alto al sintetizar los componentes de alta frecuencia de la voz sintetizada a lo largo de períodos de voz activos. Durante los períodos de voz inactivos, el factor de escala puede determinarse mediante los componentes de baja frecuencia de la señal de voz sintetizada.
Por ello, el primer aspecto de la presente invención consiste en un método de codificación de voz para codificar y decodificar una señal de entrada con períodos de voz activos y períodos de voz inactivos, y para proporcionar una señal de voz sintetizada con componentes de alta frecuencia y componentes de baja frecuencia, en el que la señal de entrada se divide en una banda de alta frecuencia y en una banda de baja frecuencia durante los procesos de codificación y síntesis de voz y en el que los parámetros vocales característicos de la banda de baja frecuencia se utilizan para procesar una señal artificial a fin de proporcionar los componentes de alta frecuencia de la señal de voz sintetizada. El método incluye las siguientes etapas:
\newpage
Puesta a escala de la señal artificial procesada mediante un primer factor de escala durante los períodos de voz activos, y
Puesta a escala de la señal artificial procesada mediante un segundo factor de escala durante los períodos de voz inactivos, donde el primer factor de escala es característico de la banda de alta frecuencia de la señal de entrada, y el segundo factor de escala es característico de los componentes de baja frecuencia de la voz sintetizada.
Preferiblemente, la señal de entrada se somete a filtrado paso alto a fin de obtener una señal de entrada situada en una banda de frecuencias característica de los componentes de alta frecuencia de la voz sintetizada, calculándose el primer factor de escala a partir de la señal filtrada y donde en los casos en que los períodos de voz inactivos incluyen períodos de hangover de voz y de ruido de confort, el segundo factor de escala para poner a escala la señal artificial procesada durante los períodos de hangover de voz se calcula a partir de la señal filtrada.
Preferiblemente, el segundo factor de escala para poner a escala la señal artificial procesada durante los períodos de hangover de voz también se calcula a partir de los componentes de baja frecuencia de la voz sintetizada y el segundo factor de escala para poner a escala la señal artificial procesada durante los períodos de ruido de confort se calcula a partir de los componentes de baja frecuencia de la señal de voz sintetizada.
Preferiblemente, el primer factor de escala se codifica y transmite dentro del flujo binario codificado a un extremo receptor y el segundo factor de escala para los períodos de hangover de voz también se incluye en el flujo binario codificado.
Es posible que el segundo factor de escala para los períodos de hangover de voz se determine en el extremo receptor.
Preferiblemente, el segundo factor de escala también se calcula a partir de un factor de inclinación espectral determinado a partir de los componentes de baja frecuencia de la voz sintetizada.
Preferiblemente, el primer factor de escala se calcula a partir de la señal artificial procesada.
El segundo aspecto de la presente invención consiste en un sistema transmisor y receptor de señales de voz para la codificación y decodificación de una señal de entrada con períodos de voz activos y períodos de voz inactivos y para proporcionar una señal de voz sintetizada que tenga componentes de alta frecuencia y componentes de baja frecuencia donde la señal de entrada se divide en una banda de alta frecuencia y en una banda de baja frecuencia en los procesos de codificación y síntesis de voz, en los que los parámetros vocales característicos de la banda de baja frecuencia de la señal de entrada se utilizan para procesar una señal artificial en el receptor para proporcionar los componentes de alta frecuencia de la voz sintetizada. El sistema incluye:
Un decodificador en el receptor para recibir un flujo binario codificado procedente del transmisor, cuyo flujo binario codificado contiene los parámetros vocales;
Un primer módulo en el transmisor, que responde a la señal de entrada para proporcionar un primer factor de escala para poner a escala la señal artificial procesada durante los períodos activos y
Un segundo módulo en el receptor que responde al flujo binario codificado, que proporciona un segundo factor de escala para poner a escala la señal artificial procesada durante los períodos inactivos, en el que el primer factor de escala es característico de la banda de alta frecuencia de la señal de entrada, y el segundo factor de escala es característico de los componentes de baja frecuencia de la voz sintetizada.
Preferiblemente, el primer módulo incluye un filtro paso alto para filtrar la señal de entrada y proporcionar una señal de entrada filtrada cuya gama de frecuencias se corresponda con los componentes de alta frecuencia de la voz sintetizada para permitir el cálculo del primer factor de escala a partir de la señal de entrada filtrada.
Preferiblemente, un tercer módulo del transmisor se utiliza para proporcionar un ruido aleatorio coloreado y con filtrado paso alto en la banda de frecuencias correspondientes a los componentes de alta frecuencia de la señal sintetizada de forma que el primer factor de escala pueda modificarse en función del ruido aleatorio coloreado y con filtrado paso alto.
El tercer aspecto de la presente invención es un codificador para codificar una señal de entrada con períodos de voz activos y períodos de voz inactivos, dividiéndose la señal de entrada en una banda de alta frecuencia y en una banda de baja frecuencia y para proporcionar un flujo binario codificado que contiene parámetros vocales característicos de la banda de baja frecuencia de la señal de entrada para permitir que el codificador reconstruya los componentes de baja frecuencia de la voz sintetizada en función de los parámetros vocales, y para procesar una señal artificial basada en parámetros vocales para proporcionar los componentes de alta frecuencia de la voz sintetizada, utilizándose un factor de escala basado en los componentes de baja frecuencia de la voz sintetizada para poner a escala la señal artificial procesada durante los períodos de voz inactivos. El codificador incluye:
\newpage
Un filtro, que responde a la señal de entrada, para filtrado paso alto de la señal de entrada en una banda de frecuencias correspondiente a los componentes de alta frecuencia de la voz sintetizada, y proporcionar una primera señal indicadora de la señal de entrada filtrada paso alto;
Una serie de medios, que responden a la primera señal, para proporcionar un factor de escala adicional basado en la señal de entrada filtrada paso alto y los componentes de baja frecuencia de la voz sintetizada y para proporcionar una segunda señal indicadora del factor de escala adicional; y
Un módulo de cuantificación, que responde a la segunda señal, para proporcionar una señal codificada indicadora del factor de escala adicional en el flujo binario codificado, para permitir al decodificador poner a escala la señal artificial procesada durante los períodos de voz activos, basándose en el factor de escala adicional.
El cuarto aspecto de la presente invención es una estación móvil configurada para transmitir un flujo binario codificado a un decodificador para proporcionar voz sintetizada con componentes de alta frecuencia y componentes de baja frecuencia, en la que el flujo binario codificado incluye datos de voz indicadores de una señal de entrada con períodos de voz activos y períodos de voz inactivos, y la señal de entrada se divide en una banda de alta frecuencia y en una banda de baja frecuencia, incluyendo los datos de voz parámetros vocales característicos de la banda de baja frecuencia de la señal de entrada para permitir al decodificador proporcionar los componentes de baja frecuencia de la voz sintetizada en función de unos parámetros vocales y colorear una señal artificial en función de los parámetros vocales y poner a escala la señal artificial coloreada con un factor de escala basado en los componentes de baja frecuencia de la voz sintetizada para proporcionar los componentes de alta frecuencia de la voz sintetizada durante los períodos de voz inactivos. La estación móvil incluye:
Un filtro, que responde a la señal de entrada, para filtrado paso alto de la señal de entrada en una banda de frecuencias correspondiente a los componentes de alta frecuencia de la voz sintetizada y para proporcionar un factor de escala adicional en función de la señal de entrada filtrada paso alto; y
Un módulo de cuantificación, que responde al factor de escala y al factor de escala adicional, para proporcionar una señal codificada indicadora del factor de escala adicional en el flujo binario codificado, para permitir al decodificador poner a escala la señal artificial coloreada durante el período de voz activa en función del factor de escala adicional.
El quinto aspecto de la presente invención es un elemento de una red de telecomunicaciones configurado para recibir un flujo binario codificado que contenga datos de voz indicadores de una señal de entrada procedente de una estación móvil para proporcionar una voz sintetizada con componentes de alta frecuencia y componentes de baja frecuencia en el que la señal de entrada con períodos de voz activos y períodos de voz inactivos se divide en una banda de alta frecuencia y una banda de baja frecuencia y los datos de voz incluyen parámetros vocales característicos de la banda de baja frecuencia de la señal de entrada y parámetros de ganancia característicos de la banda de alta frecuencia de la señal de entrada, y en el que los componentes de baja frecuencia de la voz sintetizada se proporcionan en función de los parámetros vocales, incluyendo dicho elemento:
Un primer mecanismo, que responde a los parámetros de ganancia para proporcionar un primer factor de escala;
Un segundo mecanismo, que responde a los parámetros vocales para síntesis y filtrado paso alto de una señal artificial para proporcionar una señal artificial sintetizada y filtrada paso alto;
Un tercer mecanismo, que responde al primer factor de escala y a los datos de voz, para proporcionar un factor de escala combinado incluyendo el primer factor de escala características de la banda de alta frecuencia de la señal de entrada y un segundo factor de escala basado en el primer factor de escala y un parámetro adicional relacionado con la voz característicos de los componentes de baja frecuencia de la voz sintetizada; y
Un cuarto mecanismo, que responde a la señal artificial sintetizada y filtrada paso alto y al factor de escala combinado, para poner a escala la señal artificial sintetizada y filtrada paso alto mediante el primer y el segundo factor de escala durante los períodos de voz activos y los períodos de voz inactivos, respectivamente.
La presente invención se apreciará con mayor claridad leyendo la descripción en conjunción con las figuras 2 a 8.
Breve descripción de las figuras
La figura 1 es un diagrama de bloques que muestra un codec de voz de banda ancha de la técnica anterior.
La figura 2 es un diagrama de bloques que muestra el codec de voz de banda ancha de acuerdo con la presente invención.
La figura 3 es un diagrama de bloques que muestra la función de post-procesamiento del codificador de voz de banda ancha de la presente invención.
La figura 4 es un diagrama de bloques que muestra la estructura del decodificador de voz de banda ancha de la presente invención.
La figura 5 es un diagrama de bloques que muestra la función del post-procesamiento del decodificador de voz de banda ancha.
La figura 6 es un diagrama de bloques que muestra una estación móvil de acuerdo con la presente invención.
La figura 7 es un diagrama de bloques que muestra una red de telecomunicaciones de acuerdo con la presente invención.
La figura 8 es un organigrama que muestra el método de decodificación de voz de acuerdo con la presente invención.
Modo preferido de la realización de la invención
Como se muestra en la figura 2, el codec de voz de banda ancha 1, de acuerdo con la presente invención, incluye un bloque de procesamiento previo 2 para procesamiento previo de la señal de entrada 100. Al igual que en el codec de la técnica anterior, como se describe en los antecedentes, el bloque de procesamiento previo 2 sub-muestrea y diezma la señal de entrada 100 para que pase a ser una señal de voz 102 con un ancho de banda efectivo de 0 a 6,4 kHz. La señal de voz procesada 102 se codifica mediante el bloque de codificación análisis-por-síntesis (Analysis-by-Synthesis) 4 utilizando la tecnología convencional ACELP para extraer una serie de parámetros de codificación predictiva lineal (LPC), frecuencias audibles y parámetros o coeficientes de excitación 104. Pueden utilizarse los mismos parámetros de codificación junto con un módulo de filtrado paso alto para procesar una señal artificial o ruido seudo-aleatorio en un ruido aleatorio filtrado paso alto y coloreado (134, figura 3; 154, figura 5). El bloque de codificación 4 también facilita una señal sintetizada local 106 a un bloque de post-procesamiento 6.
En contraste con el codec de banda ancha de la técnica anterior, la función de post-procesamiento del bloque de post-procesamiento 6 se modifica a fin de incorporar la puesta a escala de ganancia y la cuantificación de ganancia 108 correspondientes a las características de la señal de entrada de los componentes de alta frecuencia de la señal de voz original 100. Más concretamente, los componentes de alta frecuencia de la señal de voz original 100 pueden utilizarse junto con el ruido aleatorio filtrado paso alto y coloreado 134, 154, para determinar un factor de escala de señal de banda superior, como se muestra en la ecuación 4, descrito en conjunción con el codificador de voz como se muestra en la figura 3. La salida del bloque de post-procesamiento 6 es la señal de voz post-procesada 110.
La figura 3 muestra la estructura detallada de la función de post-procesamiento del codificador de voz 10, de acuerdo con la presente invención. Como se muestra, se utiliza un generador de ruido aleatorio 20 para proporcionar una señal artificial de 16 kHz 130. El ruido aleatorio 130 se colorea mediante un filtro de síntesis LPC 22 utilizando los parámetros LPC 104 facilitados en el flujo binario codificado procedente del bloque de codificación análisis-por-síntesis 4 (figura 2) en función de las características de la banda inferior de la señal de voz 100. A partir del ruido aleatorio coloreado 132, un filtro paso alto 24 extrae los componentes de alta frecuencia coloreados 134 en una banda de frecuencias de 6,0 a 7,0 kHz. Los componentes de alta frecuencia 112 de la banda de frecuencias de 6,0 a 7,0 kHz de la muestra de voz original 100 son también extraídos por un filtro paso alto 12. La energía de los componentes de alta frecuencia 112 y 134 se utiliza para determinar un factor puesta a escala de señales de banda alta g_{scaled} mediante un bloque de ecualización de ganancia 14 de acuerdo con:
(4)g_{scaled} = \ sqrt \ \{(s_{hp}{}^{T}s_{hp}) / (e_{hp}{}^{T} e_{hp})\}
donde S_{hp} es la señal de voz original de 6,0 - 7,0 kHz filtrada paso alto 112, y e_{hp} es el ruido aleatorio sintetizado mediante LPC (coloreado) y filtrado paso banda 134. El factor de escala g_{scaled} mostrado mediante el número de referencia 114 puede cuantificarse mediante un módulo de cuantificación de ganancia 18 y transmitirse con el flujo binario codificado de forma que el extremo receptor pueda utilizar el factor de escala para poner a escala el ruido aleatorio a fin de reconstruir la señal de voz.
En los actuales codecs de voz GSM, la transmisión de radio durante los períodos sin voz se suspende mediante una función de transmisión discontinua (DTX). La DTX ayuda a reducir las interferencias entre diferentes células y a aumentar la capacidad del sistema de comunicaciones. La función DTX se basa en un algoritmo de detección de la actividad de voz (VAD) para determinar si la señal de entrada 100 representa voz o ruido, impidiendo que el transmisor se desconecte durante los períodos de voz activos. El algoritmo VAD se muestra mediante el número de referencia 98. Adicionalmente, cuando el transmisor se desconecta durante los períodos de voz inactivos, el receptor proporciona una cantidad mínima de ruido de fondo denominado "ruido de confort" (CN) para eliminar la impresión de que la conexión está inactiva. El algoritmo VAD está diseñado de forma que se permite un período de tiempo determinado conocido como tiempo de hangover o tiempo de holdover después de detectar un período de voz inactiva.
De acuerdo con la presente invención, el factor puesta a escala g_{scaled} durante los períodos de voz activos puede calcularse de acuerdo con la ecuación 4. Sin embargo, tras la transición desde la voz activa a la voz inactiva este parámetro de ganancia no puede transmitirse dentro del flujo binario de ruido de confort debido a la limitación de la tasa de bits y al sistema de transmisión. De este modo, en la voz inactiva, el factor de escala se determina en el extremo receptor sin utilizar la señal de voz original, como se llevaba a acabo en el codec de banda ancha de la técnica anterior. Así, la ganancia se calcula implícitamente a partir de la señal de la capa base durante los períodos de voz inactivos. Por el contrario, se utiliza la cuantificación de ganancia explícita durante los períodos de voz en función de la señal de las capas de mejora de alta frecuencia. Durante la transición desde los períodos de voz activos a los períodos de voz inactivos, la conmutación entre los diferentes factores de puesta a escala puede provocar estados transitorios audibles en la señal sintetizada. Para reducir estos estados transitorios audibles, es posible utilizar un módulo de adaptación de ganancia 16 para cambiar el factor de escala. De acuerdo con la presente invención, la adaptación comienza cuando se inicia el período de hangover del algoritmo de determinación de la actividad de voz (VAD). Con este propósito, se aporta una señal 190 que representa una decisión VAD al módulo de adaptación de ganancia 16. Además, el período de hangover de transmisión discontinua (DTX) se utiliza también para la adaptación de la ganancia. Tras el período de hangover de la DTX, puede utilizarse el factor de escala determinado sin la señal de voz original. La adaptación total de ganancia para el ajuste del factor de escala puede llevarse a cabo de acuerdo con la siguiente ecuación:
G_{total} = \alpha \ g_{scaled} + (1, 0 - \alpha) f_{est}
Donde f_{est} viene determinado por la ecuación 3 y se representa mediante el número 115 y a es un parámetro de adaptación dado por:
(6)\alpha = (recuento de hangover DTX) / 7
De este modo, durante los períodos de voz activos \alpha es igual a 1,0 debido a que el recuento de hangover DTX es igual a 7. Durante un estado transitorio desde un período de voz activa a un período de voz inactiva, el recuento de hangover DTX desciende de 7 a 0. Por ello, durante el estado transitorio, 0< \alpha <1,0. Durante los períodos de voz inactivos o tras la recepción de los primeros parámetros de ruido de confort, \alpha = 0.
A este respecto, la codificación de la capa de mejora, controlada mediante la detección de la actividad de voz y la tasa de transferencia de bits de codificación fuente, es escalable en función de los distintos períodos de señal de entrada. Durante los períodos de voz activos, la cuantificación de la ganancia viene determinada explícitamente desde la capa de mejora que incluye la determinación y la adaptación de los parámetros de ganancia de ruido aleatorio. Durante el período transitorio, la ganancia determinada explícitamente se adapta al valor estimado implícitamente. Durante los períodos de voz inactivos, la ganancia se calcula implícitamente a partir de la señal de la capa base. De este modo, no se transmiten parámetros de la capa de mejora de alta frecuencia al extremo receptor durante los períodos de voz inactivos.
La ventaja de la adaptación de la ganancia es la ausencia de complicaciones en el estado transitorio de la puesta a escala del componente de alta frecuencia a partir del procesamiento de voz activa a voz inactiva. La ganancia de puesta a escala adaptada g_{total} determinada por el módulo de adaptación de ganancia 16 e indicada mediante el número 116, es cuantificada por el módulo de cuantificación de ganancia 18 como un conjunto de parámetros de ganancia cuantificados 118. Dicho conjunto de parámetros de ganancia 118 puede incorporarse al flujo binario codificado para transmitirse a un extremo receptor para su decodificación. Cabe señalar que los parámetros de ganancia cuantificados 118 pueden almacenarse como una tabla de búsquedas de forma que pueda accederse a ellos mediante un índice de ganancia (no mostrado).
Con la ganancia de puesta a escala adaptada g_{total} el ruido aleatorio de alta frecuencia del proceso de decodificación puede ponerse a escala para reducir los estados transitorios en la señal sintetizada durante la transición de los períodos de voz activos a los períodos de voz inactivos. Finalmente, los componentes de alta frecuencia sintetizados se añaden a la señal interpolada sobre-muestreada recibida desde el bucle A-b-S en el codificador. El post-procesamiento con puesta a escala de energía se lleva a cabo independientemente en cada subtrama de 5 ms. Cuando se utilizan libros de código de 4 bits para cuantificar la ganancia del componente aleatorio de alta frecuencia, la tasa de transferencia de bits total es de 0,8 kbits por segundo.
La adaptación de la ganancia entre la ganancia determinada explícitamente (procedente de las capas de mejora de alta frecuencia) y la ganancia calculada implícitamente (procedente tan sólo de la señal de la capa base, o banda inferior) puede llevarse a cabo en el codificador antes de la cuantificación de la ganancia, como se muestra en la figura 3. En dicho caso, los parámetros de ganancia que van a codificarse y transmitirse al extremo receptor es g_{total} de acuerdo con la ecuación 5. Alternativamente, la adaptación de la ganancia puede llevarse a cabo tan sólo en el decodificador durante el período de hangover DTX tras la bandera VAD que indica el comienzo de una señal sin voz. En dicho caso, la cuantificación de los parámetros de ganancia se lleva a cabo en el codificador y la adaptación de la ganancia se lleva a cabo en el decodificador, y los parámetros de ganancia transmitidos al extremo receptor pueden ser simplemente g_{scaled} de acuerdo con la ecuación 4. La ganancia estimada f_{est} puede determinarse en el decodificador utilizando la señal de voz sintetizada. También es posible llevar a cabo la adaptación de la ganancia en el decodificador al comienzo del período de ruido de confort antes de que el decodificador reciba la primera descripción de silencio (SID first). Como en el caso anterior, g_{scaled} se cuantifica en el codificador y se transmite dentro del flujo binario codificado.
En la figura 4 se muestra un diagrama representativo del decodificador 30 de la presente invención. Como se muestra, el decodificador 30 se utiliza para sintetizar una señal de voz 110 procedente de los parámetros codificados 140 que incluye los parámetros LPC, tono y excitación 104 y los parámetros de ganancia 118 (véase la figura 3). A partir de los parámetros codificados 140, un módulo decodificador 32 proporciona un conjunto de parámetros LPC des-cuantificados 142. A partir de los parámetros LPC, tono y excitación recibidos 142 de los componentes de la banda inferior de la señal de voz, el módulo de post-procesamiento 34 genera una señal de voz de banda inferior sintetizada, como en el decodificador de la técnica anterior. A partir de un ruido aleatorio generado a nivel local, el módulo de post-procesamiento 34 genera los componentes de alta frecuencia sintetizados en función de los parámetros de ganancia que incluyen las características de señal de entrada de los componentes de alta frecuencia de la voz.
En la figura 5 se muestra una estructura de post-procesamiento del decodificador 30 generalizada. Como se muestra en la figura 5, los parámetros de ganancia 118 se des-cuantifican mediante un bloque de des-cuantificación de ganancia 38. Si la adaptación de ganancia ya se ha llevado a cabo en el decodificador como se muestra en la figura 3, la función correspondiente de adaptación de ganancia del decodificador consistirá en conmutar la ganancia des-cuantificada 144 (g_{total}, siendo \alpha = 1,0 y \alpha = 0,5) a la ganancia de puesta a escala optimada f_{est} (\alpha = 0) al comienzo del período de ruido de confort, sin necesidad de la señal de decisión VAD 190. No obstante, si la adaptación de la ganancia se lleva a cabo solamente en el decodificador durante el período de hangover DTX después de que la bandera VAD facilitada con la señal 190 indique el comienzo de una señal no de voz, el bloque de adaptación de la ganancia 40 determina el factor de escala g_{total} de acuerdo con la ecuación 5. De este modo, al comienzo de la transmisión discontinua, el bloque de adaptación de la ganancia 40 disipa el estado transitorio utilizando la ganancia de puesta a escala estimada f_{est} señalada con el número 145 cuando no recibe los parámetros de ganancia 118. Por consiguiente, el factor de escala 146 proporcionado por el módulo de adaptación de la ganancia 40 se determina de acuerdo con la ecuación 5.
El filtrado de coloreado y de paso alto del componente de ruido aleatorio de la unidad de post-procesamiento 34, que se muestra en la figura 4, es similar al post-procesamiento del codificador 10, como se muestra en la figura 3. Tal y como se muestra, se utiliza un generador de ruido aleatorio 50 para proporcionar una señal artificial 150 que se colorea mediante un filtro de síntesis LPC 52 en función de los parámetros LPC recibidos 104. La señal artificial coloreada 152 se somete a filtrado paso alto 54. No obstante, la finalidad de proporcionar el ruido aleatorio filtrado paso alto y coloreado 134 al codificador 10 (figura 3) consiste en producir e_{hp} (ecuación 4). En el módulo de post-procesamiento 34 la señal artificial filtrada paso alto y coloreada 154 se utiliza para generar la señal sintetizada de alta frecuencia 160 después de ser escalada mediante un módulo de ajuste de ganancia 56 en función del factor de escala de banda superior adaptado 146 proporcionado por el módulo de adaptación de ganancia 40. Por último, la salida 160 de la capa de mejora de alta frecuencia se añade a la señal sintetizada de 16 kHz recibida desde el decodificador base (no mostrado). La señal sintetizada de 16 kHz es bien conocida en la técnica.
Cabe señalar que la señal sintetizada procedente del codificador está disponible para el cálculo de la inclinación espectral. La unidad de post-procesamiento del decodificador puede utilizarse para calcular el parámetro f_{est} utilizando las ecuaciones 2 y 3. Cuando el decodificador o el canal de transmisión ignoran los parámetros de ganancia de la banda superior por diversas razones, como limitaciones en el ancho de banda del canal, y el decodificador no recibe la ganancia de la banda superior, es posible poner a escala el ruido aleatorio filtrado paso alto y coloreado para proporcionar los componentes de alta frecuencia de la voz sintetizada.
En resumen, la etapa de post-procesamiento para llevar a cabo la codificación de la capa de mejora de alta frecuencia en un codec de voz de banda ancha puede llevarse a cabo en el codificador o en el decodificador.
Cuando esta etapa de post-procesamiento se lleva a cabo en el codificador se obtiene un factor de escala de la señal de la banda superior g_{scaled} a partir de los componentes de alta frecuencia en la banda de frecuencias de 6,0 a 7,0 kHz de la muestra de voz original y del ruido aleatorio filtrado paso alto y coloreado mediante LPC. Además se obtiene un factor de ganancia estimada f_{est} a partir de la inclinación espectral de la señal sintetizada de la banda inferior en el codificador. Se utiliza una señal de decisión VAD para indicar si la señal de entrada es un período de voz activa o un período de voz inactiva. El factor de escala total g_{total} correspondiente a los diferentes períodos de voz se calcula a partir del factor de escala g_{scaled} y del factor de ganancia estimada f_{est}. Los factores de puesta a escala de la señal de la banda superior escalable se cuantifican y transmiten dentro del flujo binario codificado. En el extremo receptor, el factor de escala total g_{total} se extrae del flujo binario codificado recibido (parámetros codificados). Este factor de escala total se utiliza para poner a escala el ruido aleatorio filtrado paso alto y coloreado en el decodificador.
Cuando se lleva a cabo la etapa de post-procesamiento en el decodificador, el factor de ganancia estimada f_{est} puede obtenerse a partir de la voz sintetizada de la banda inferior en el decodificador. Este factor de ganancia estimada puede utilizarse para poner a escala el ruido aleatorio filtrado paso alto y coloreado en el decodificador durante la voz activa.
La figura 6 muestra un diagrama de bloques de una estación móvil 200 de acuerdo con un ejemplo de realización de la invención. La estación móvil incluye componentes típicos del dispositivo, como un micrófono 201, un teclado 207, una pantalla 206, un auricular 214, un conmutador de transmisión/recepción 208, una antena 209 y una unidad de control 205. Además, la figura muestra los bloques de transmisión y recepción 204, 211 típicos de una estación móvil. El bloque de transmisión 204 incluye un codificador 221 para codificar la señal de voz. El codificador 221 incluye la función de post-procesamiento del codificador 10 como se muestra en la figura 3. El bloque de transmisión 204 también incluye las operaciones necesarias para la codificación del canal, descifrado y modulación así como funciones RF que no se han presentado en la figura 5 con fines de aclaración. El bloque de recepción 211 también incluye un bloque decodificador 220 de acuerdo con la invención. El bloque decodificador 220 incluye una unidad de post-procesamiento 222 al igual que el decodificador 34 mostrado en la figura 5. La señal procedente del micrófono 201, amplificada en la etapa de amplificación 202 y digitalizada en el convertidor A/D se lleva al bloque de transmisión 204, normalmente al dispositivo de codificación de voz incluido en el bloque de transmisión. La señal de transmisión procesada, modulada y amplificada por el bloque de transmisión se lleva a través del conmutador de transmisión/recepción 208 a la antena 209. La señal que se recibe se lleva desde la antena a través del conmutador de transmisión/recepción 208 al bloque receptor 211 que demodula la señal recibida y decodifica la codificación de descifrado y de canal. La señal de voz resultante se lleva a través del convertidor D/A 212 a un amplificador 213 y posteriormente a un auricular 214. La unidad de control 205 controla el funcionamiento de la estación móvil 200, lee los comandos de control introducidos por el usuario a través del teclado 207 y entrega los mensajes al usuario mediante la pantalla 206.
La función de post-procesamiento del codificador 10, como se muestra en la figura 3, y el decodificador 34, como se muestra en la figura 5, de acuerdo con la invención, pueden también utilizarse en una red de telecomunicaciones 300, como una red telefónica ordinaria o una red de telefonía móvil, tal como la red GSM. La figura 7 muestra un ejemplo de un diagrama de bloques de este tipo de red de telecomunicaciones. Por ejemplo, la red de telecomunicaciones 300 puede incluir centralitas telefónicas o los correspondientes sistemas de conmutación 360 a los cuales están acoplados los teléfonos ordinarios 370, las estaciones base 340, los controladores de estación base 350 y otros dispositivos centrales 355 de la red de telecomunicaciones. Las estaciones móviles 330 pueden establecer una conexión con la red de telecomunicaciones a través de las estaciones base 340. Un bloque decodificador 320 que incluye una unidad de post-procesamiento 322 similar a la mostrada en la figura 5, puede resultar especialmente ventajoso cuando está situado en la estación base 340, por ejemplo. No obstante, el bloque de decodificación 320 puede también estar situado en el controlador de estación base 350 o en otro dispositivo central o de conmutación 355, por ejemplo. Si el sistema de estación móvil utiliza trans-codificadores independientes, por ejemplo entre las estaciones base y los controladores de estación base para transformar la señal codificada tomada a través del canal de radio en una señal típica de 64 kbits por segundo transferida en un sistema de telecomunicaciones y viceversa, el bloque decodificador 320 puede también estar situado en dicho trans-codificador. En general el bloque decodificador 320, incluyendo la unidad de post-procesamiento 322 puede estar situado en cualquier elemento de la red de telecomunicaciones 300 que transforma el flujo de datos codificado en un flujo de datos no codificado. El bloque decodificador 320 decodifica y filtra la señal de voz codificada procedente de la estación móvil 330, tras lo cual la señal de voz puede transmitirse sin comprimir de la forma normal a través de la red de telecomunicaciones 300.
La figura 8 es un organigrama que muestra el método 500 de codificación de voz de acuerdo con la presente invención. Como se muestra, cuando se recibe la señal de entrada de voz 100 en la etapa 510, el algoritmo de detección de la actividad de voz 98 se utiliza en la etapa 520 para determinar si la señal de entrada 110 del período actual representa voz o ruido. Durante el período de voz, el ruido artificial procesado 152 se pone a escala con un primer factor de escala 114 en la etapa 530. Durante los períodos de ruido o sin voz, la señal artificial procesada 152 se pone a escala con un segundo factor de escala en la etapa 540. El proceso se repite en la etapa 520 para el siguiente período.
A fin de proporcionar los componentes de alta frecuencia de la voz sintetizada, la señal artificial o ruido aleatorio se filtra en una banda de frecuencias de 6,0 a 7,0 kHz. No obstante, la banda de frecuencias filtrada puede ser diferente en función de la tasa de muestreo del codec, por ejemplo.

Claims (28)

1. Método para codificación de voz (500) para codificar y decodificar una señal de entrada (100) con períodos de voz activos y períodos de voz inactivos y para proporcionar una señal de voz sintetizada (110) con componentes de alta frecuencia y componentes de baja frecuencia en el que la señal de entrada se divide en una banda de alta frecuencia y en una banda de baja frecuencia durante los procesos de codificación y de síntesis de voz, y en el que parámetros vocales (104) característicos de la banda de baja frecuencia se utilizan para procesar una señal artificial (150) a fin de proporcionar una señal artificial procesada (152) para proporcionar adicionalmente los componentes de la frecuencia superior (160) de la voz sintetizada, incluyendo dicho método las etapas de:
puesta a escala (530) de la señal artificial procesada (152) mediante un primer factor de escala (114, 144) durante los períodos de voz activos, y
puesta a escala (540) de la señal artificial procesada (152) mediante un segundo factor de escala (114 y 115, 144 y 145) durante los períodos de voz inactivos, en el que dicho primer factor de escala es característico de la banda de alta frecuencia de la señal de entrada, siendo el segundo factor de escala característico de la banda de baja frecuencia de la señal de entrada.
2. Método según la reivindicación 1 en el que la señal artificial procesada (152) se somete a filtrado paso alto para obtener una señal filtrada (154) en una banda de frecuencias característica de los componentes de alta frecuencia de la voz sintetizada.
3. Método según la reivindicación 2 en el que la banda de frecuencias está situada en la banda de 6,4 a 8,0 kHz.
4. Método según la reivindicación 1 en el que la señal de entrada (100) se somete a filtrado paso alto para proporcionar una señal filtrada (112) en una banda de frecuencias característica de los componentes de alta frecuencia de la voz sintetizada y en el que el primer factor de escala (114, 144) se calcula a partir de la señal filtrada (112).
5. Método según la reivindicación 4 en el que los períodos de voz inactivos incluyen períodos de hangover de voz y períodos de ruido de confort, en el que el segundo factor de escala (114 y 115, 144 y 145) para poner a escala la señal artificial procesada (152) durante los períodos de hangover de voz se calcula a partir de la señal filtrada (112).
6. Método según la reivindicación 5 en el que los componentes de baja frecuencia de la voz sintetizada se reconstruyen a partir de la banda de baja frecuencia codificada (106) de la señal de entrada (100) y en el que el segundo factor de escala (114 y 115, 144 y 145) para poner a escala la señal artificial procesada (152) durante los períodos de hangover de voz se calcula también a partir de los componentes de baja frecuencia de la voz sintetizada.
7. Método según la reivindicación 6 en el que el segundo factor de escala (114 y 115, 144 y 145) para poner a escala la señal artificial procesada (152) durante los períodos de ruido confort se calcula a partir de los componentes de baja frecuencia de la voz sintetizada.
8. Método según la reivindicación 6 que incluye adicionalmente la etapa de transmisión de un flujo binario codificado a un extremo receptor para su decodificación, cuyo flujo binario codificado incluye datos (118) indicadores del primer factor de escala (114, 144).
9. Método según la reivindicación 8 en el que el flujo binario codificado incluye datos (118) indicadores del segundo factor de escala (114 y 115) para poner a escala la señal artificial procesada (152) durante los períodos de hangover de voz.
10. Método según la reivindicación 8 en el que el segundo factor de escala (114 y 115, 144 y 145) para poner a escala la señal artificial procesada se proporciona en el extremo receptor (34).
11. Método según la reivindicación 6 en el que el segundo factor de escala (114 y 115, 144 y 145) es indicativo de un factor de inclinación espectral determinado a partir de los componentes de baja frecuencia de la voz sintetizada.
12. Método según la reivindicación 7 en el que el segundo factor de escala (114 y 115, 144 y 145) para poner a escala la señal artificial procesada en los períodos de ruido de confort es indicativo de un factor de inclinación espectral determinado a partir de los componentes de baja frecuencia de la voz sintetizada.
13. Método según la reivindicación 4 en el que el primer factor de escala (114, 144) se calcula adicionalmente a partir de la señal artificial procesada (152).
14. Método según la reivindicación 1 que incluye adicionalmente la etapa de proporcionar información de actividad vocal (190) en función de la señal de entrada (100) para supervisar los períodos de voz activos y los períodos de voz inactivos.
\newpage
15. Método según la reivindicación 1 en el que los parámetros vocales incluyen coeficientes de codificación lineal predictiva característicos de la banda de baja frecuencia de la señal de entrada.
16. Sistema transmisor y receptor de señales de voz para codificar y decodificar una señal de entrada (100) con períodos de voz activos y períodos de voz inactivos y para proporcionar una señal de voz sintetizada (110) con componentes de alta frecuencia y componentes de baja frecuencia en el que la señal de entrada se divide en una banda de alta frecuencia y en una banda de baja frecuencia durante los procesos de codificación y de síntesis vocal, y en el que se utilizan parámetros vocales (118, 104, 140, 145) característicos de la banda de baja frecuencia de la señal de entrada para procesar una señal artificial (150) en el receptor (30), a fin de proporcionar los componentes de la frecuencia superior (160) de la voz sintetizada, incluyendo dicho sistema:
primeros medios (12, 14) en el transmisor, que responden a la señal de entrada (100) para proporcionar un primer factor de escala (114, 144) característico de la banda de alta frecuencia de la señal de entrada;
un decodificador (34) en el receptor para recibir un flujo binario codificado procedente del transmisor, cuyo flujo binario codificado contiene los parámetros vocales incluyendo datos (118) indicativos del primer factor de escala (114, 144); y
segundos medios (40, 56) en el receptor, que responden a los parámetros vocales (118, 145) para proporcionar un segundo factor de escala (144 y 145) y para poner a escala la señal artificial procesada (152) con el segundo factor de escala (144, 145) durante los períodos de voz inactivos y para poner a escala la señal artificial procesada (152) con el primer factor de escala (114, 144) durante los períodos de voz activos, en el que el primer factor de escala es característico de la banda de alta frecuencia de la señal de entrada y el segundo factor de escala es característico de la banda de baja frecuencia de la señal de entrada.
17. Sistema según la reivindicación 16, en el que el primer medio incluye unos medios de filtrado (12) para filtrado paso alto de la señal de entrada y proporcionar una señal de entrada filtrada (112) con un rango de frecuencias correspondiente a los componentes de alta frecuencia de la voz sintetizada y en el que el primer factor de escala (114, 144) se calcula a partir de la señal de entrada filtrada (112).
18. Sistema según la reivindicación 17 en el que la banda de frecuencias se encuentra situada en la banda de 6,4 a 8,0 kHz.
19. Sistema según la reivindicación 17 que incluye adicionalmente terceros medios (16, 24) en el transmisor para proporcionar un ruido aleatorio con filtrado paso alto (134) en la banda de frecuencias correspondiente a los componentes de alta frecuencia de la señal sintetizada y para modificar el primer factor de escala (114, 144) en función del ruido aleatorio con filtrado paso alto.
20. Sistema según la reivindicación 16 que incluye adicionalmente medios (98) que responden a la señal de entrada (100) para supervisar los períodos de voz activos y los períodos de voz inactivos.
21. Sistema según la reivindicación 16 que incluye adicionalmente medios (18) que responden al primer factor de escala (114, 144) para proporcionar un primer factor de escala codificado (118) y para incluir datos indicativos del primer factor de escala codificado en el flujo binario codificado para su transmisión.
22. Sistema según la reivindicación 19, que incluye adicionalmente medios (18) que responden al primer factor de escala (114, 144) para proporcionar un primer factor de escala codificado (118) y para incluir datos indicativos del primer factor de escala codificado en el flujo binario codificado para su transmisión.
23. Codificador (10) para codificar una señal de entrada (100) con períodos de voz activos y períodos de voz inactivos y en el que la señal de entrada se divide en una banda de alta frecuencia y una banda de baja frecuencia y para proporcionar un flujo binario codificado que contenga parámetros vocales (104) característicos de la banda de baja frecuencia de la señal de entrada para permitir que un decodificador (34) utilice los parámetros vocales para procesar una señal artificial (150) para proporcionar los componentes de alta frecuencia (160) de la voz sintetizada y en el que un factor de escala (144 y 145, 144 y 145) basado en la banda de baja frecuencia de la señal de entrada se utiliza para poner a escala la señal artificial procesada (152) durante los períodos de voz inactivos, incluyendo dicho codificador
medios (12) que responden a la señal de entrada (100) para filtrado paso alto de la señal de entrada (100) para proporcionar una señal filtrada paso alto (112) en una banda de frecuencias correspondientes a los componentes de alta frecuencia de la voz sintetizada (110) y para proporcionar adicionalmente un factor de escala adicional (114, 144) basado en la señal filtrada paso alto (112), y
medios (18) que responden al factor de escala adicional (114, 144) para proporcionar una señal codificada (118) indicativa del factor de escala adicional (114, 144) al flujo binario codificado a fin de permitir al decodificador (34) recibir la señal codificada y utilizar el factor de escala adicional (114, 144) para poner a escala la señal artificial procesada (152) durante los períodos de voz activos.
24. Estación móvil (200) configurada para transmitir un flujo binario codificado a un decodificador (34, 220) para proporcionar voz sintetizada (110) con unos componentes de alta frecuencia y componentes de baja frecuencia cuyo flujo binario codificado incluye datos de voz indicativos de una señal de entrada (100) teniendo la señal de entrada períodos de voz activos y períodos de voz inactivos y siendo dividida en una banda de alta frecuencia y en una banda de baja frecuencia, incluyendo los datos de voz parámetros vocales (104) característicos de la banda de baja frecuencia de la señal de entrada para permitir al decodificador (34) proporcionar los componentes de baja frecuencia de la voz sintetizada en función de los parámetros vocales y para colorear una señal artificial (150) en función de los parámetros vocales (104) y para poner a escala la señal artificial coloreada (154) con un factor de escala (144 y 145) en función de los componentes de baja frecuencia de la voz sintetizada a fin de proporcionar los componentes de alta frecuencia (160) de la voz sintetizada durante los períodos de voz inactivos incluyendo dicha estación móvil:
un filtro (12) que responde a la señal de entrada (100) para filtrado paso alto de la señal de entrada en una banda de frecuencias correspondiente a los componentes de alta frecuencia de la voz sintetizada y para proporcionar un factor de escala adicional (114, 144) a partir de la señal de entrada filtrada paso alto (112); y
un módulo de cuantificación (18) que responde al factor de escala adicional (114, 144) para proporcionar una señal codificada (118) indicativa del factor de escala adicional (114, 144) al flujo binario codificado para permitir al decodificador (34) poner a escala la señal artificial coloreada (154) durante los períodos de voz activos en función del factor de escala adicional (114, 144).
25. Elemento (34, 320) de una red de telecomunicaciones (300) configurado para recibir un flujo binario codificado que contiene datos de voz indicativos de una señal de entrada procedente de una estación móvil (330) para proporcionar voz sintetizada con unos componentes de alta frecuencia y unos componentes de baja frecuencia, en el que la señal de entrada tiene períodos de voz activos y períodos de voz inactivos y la señal de entrada se divide en una banda de alta frecuencia y una banda de baja frecuencia, en el que los datos de voz (104, 118, 145, 190) incluyen parámetros vocales (104) característicos de la banda de baja frecuencia de la señal de entrada y parámetros de ganancia (118) característicos de la banda de alta frecuencia de la señal de entrada y en el que se proporcionan los componentes de baja frecuencia de la voz sintetizada en función de los parámetros vocales (104) incluyendo dicho elemento:
un primer mecanismo (38) que responde a los parámetros de ganancia (118) para proporcionar un primer factor de escala (144);
un segundo mecanismo (52, 54) que responde a los parámetros vocales (104) para sintetizar y para filtrado paso alto una señal artificial (150) para proporcionar una señal artificial filtrada paso alto y sintetizada (154);
un tercer mecanismo (40) que responde al primer factor de escala (144) y a los datos de voz (145, 190) para proporcionar un factor de escala combinado (146) que incluye el primer factor de escala (144) característico de la banda de alta frecuencia de la señal de entrada y un segundo factor de escala (144, 145) basado en el primer factor de escala (144) y un parámetro adicional relacionado con la voz (145) característico de los componentes de baja frecuencia de la voz sintetizada; y
un cuarto mecanismo (56) que responde a la señal artificial sintetizada y filtrada paso alto (154) y al factor de escala combinado (146) para poner a escala la señal artificial sintetizada y filtrada paso alto (154) con el primer (144) y el segundo (144 y 145) factores de puesta a escala durante los períodos de voz activos y los períodos de voz inactivos respectivamente.
26. Aparato decodificador (30) para decodificar un flujo binario codificado indicativo de una señal de entrada con períodos de voz activos y períodos de voz inactivos para proporcionar una señal de voz sintetizada (110) teniendo la señal de voz sintetizada (110) componentes de alta frecuencia y componentes de baja frecuencia en el que los componentes de alta frecuencia se sintetizan utilizando una señal artificial (150) y en el que la señal de entrada se divide en una banda de alta frecuencia y una banda de baja frecuencia en los procesos de codificación y síntesis de voz, incluyendo el flujo binario codificado unos primeros datos indicativos de parámetros vocales (114, 144) característicos de la banda de alta frecuencia de la señal de entrada y unos segundos datos (104) característicos de la banda de baja frecuencia de la señal de entrada, incluyendo dicho aparato decodificador (30):
unos medios de procesamiento (52) configurados para procesar la señal artificial (150) en función de los segundos datos (104) para proporcionar una señal artificial procesada (152); y
unos medios de puesta a escala (40, 56) configurados para poner a escala la señal artificial procesada (152) con un primer factor de escala (114, 144) en función de los primeros datos durante los períodos de voz activos y para poner a escala la señal artificial procesada (152) con un segundo factor de escala (114 y 115, 144 y 145) en función de los datos del segundo parámetro durante los períodos de voz inactivos.
27. Aparato decodificador (30) según la reivindicación 26 que incluye adicionalmente:
unos medios de filtrado (54) que responden a la señal artificial procesada (154) para proporcionar una señal filtrada paso alto en una banda de frecuencias característica de los componentes de alta frecuencia (160) de la señal de voz sintetizada (110).
28. Aparato decodificador (30) según la reivindicación 26 en el que los componentes de baja frecuencia de la señal de voz sintetizada se reconstruyen a partir de una banda de baja frecuencia codificada (106) de la señal de entrada (100), y en el que el segundo factor de escala (114 y 115, 144 y 145) para poner a escala la señal artificial procesada (152) se calcula a partir de los componentes de baja frecuencia de la señal de voz sintetizada (110).
ES01974612T 2000-10-18 2001-10-17 Aparato para la expansion del ancho de banda de una señal vocal. Expired - Lifetime ES2265442T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/691,440 US6615169B1 (en) 2000-10-18 2000-10-18 High frequency enhancement layer coding in wideband speech codec
US691440 2000-10-18

Publications (1)

Publication Number Publication Date
ES2265442T3 true ES2265442T3 (es) 2007-02-16

Family

ID=24776540

Family Applications (1)

Application Number Title Priority Date Filing Date
ES01974612T Expired - Lifetime ES2265442T3 (es) 2000-10-18 2001-10-17 Aparato para la expansion del ancho de banda de una señal vocal.

Country Status (14)

Country Link
US (1) US6615169B1 (es)
EP (1) EP1328928B1 (es)
JP (1) JP2004512562A (es)
KR (1) KR100547235B1 (es)
CN (1) CN1244907C (es)
AT (1) ATE330311T1 (es)
AU (1) AU2001294125A1 (es)
BR (1) BR0114669A (es)
CA (1) CA2425926C (es)
DE (1) DE60120734T2 (es)
ES (1) ES2265442T3 (es)
PT (1) PT1328928E (es)
WO (1) WO2002033697A2 (es)
ZA (1) ZA200302468B (es)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7113522B2 (en) * 2001-01-24 2006-09-26 Qualcomm, Incorporated Enhanced conversion of wideband signals to narrowband signals
US7522586B2 (en) * 2002-05-22 2009-04-21 Broadcom Corporation Method and system for tunneling wideband telephony through the PSTN
GB2389217A (en) * 2002-05-27 2003-12-03 Canon Kk Speech recognition system
BRPI0311601B8 (pt) * 2002-07-19 2018-02-14 Matsushita Electric Industrial Co Ltd "aparelho e método decodificador de áudio"
DE10252070B4 (de) * 2002-11-08 2010-07-15 Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür
US7406096B2 (en) * 2002-12-06 2008-07-29 Qualcomm Incorporated Tandem-free intersystem voice communication
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
KR100587953B1 (ko) 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
JP4529492B2 (ja) * 2004-03-11 2010-08-25 株式会社デンソー 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
US8463602B2 (en) * 2004-05-19 2013-06-11 Panasonic Corporation Encoding device, decoding device, and method thereof
WO2006018748A1 (en) * 2004-08-17 2006-02-23 Koninklijke Philips Electronics N.V. Scalable audio coding
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
KR20070070189A (ko) * 2004-10-27 2007-07-03 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
UA94041C2 (ru) * 2005-04-01 2011-04-11 Квелкомм Инкорпорейтед Способ и устройство для фильтрации, устраняющей разреженность
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US8311840B2 (en) * 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
US7991611B2 (en) * 2005-10-14 2011-08-02 Panasonic Corporation Speech encoding apparatus and speech encoding method that encode speech signals in a scalable manner, and speech decoding apparatus and speech decoding method that decode scalable encoded signals
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
WO2008032828A1 (en) * 2006-09-15 2008-03-20 Panasonic Corporation Audio encoding device and audio encoding method
WO2008053970A1 (en) * 2006-11-02 2008-05-08 Panasonic Corporation Voice coding device, voice decoding device and their methods
US20100076755A1 (en) * 2006-11-29 2010-03-25 Panasonic Corporation Decoding apparatus and audio decoding method
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
US7912729B2 (en) 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain
US8195454B2 (en) * 2007-02-26 2012-06-05 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
US20080208575A1 (en) * 2007-02-27 2008-08-28 Nokia Corporation Split-band encoding and decoding of an audio signal
EP2186090B1 (en) 2007-08-27 2016-12-21 Telefonaktiebolaget LM Ericsson (publ) Transient detector and method for supporting encoding of an audio signal
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
CA2699316C (en) * 2008-07-11 2014-03-18 Max Neuendorf Apparatus and method for calculating bandwidth extension data using a spectral tilt controlled framing
CN101751926B (zh) * 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码系统
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8798290B1 (en) * 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
EP3079153B1 (en) * 2010-07-02 2018-08-01 Dolby International AB Audio decoding with selective post filtering
JP5552988B2 (ja) * 2010-09-27 2014-07-16 富士通株式会社 音声帯域拡張装置および音声帯域拡張方法
CN105225669B (zh) 2011-03-04 2018-12-21 瑞典爱立信有限公司 音频编码中的后量化增益校正
JP5596618B2 (ja) * 2011-05-17 2014-09-24 日本電信電話株式会社 擬似広帯域音声信号生成装置、擬似広帯域音声信号生成方法、及びそのプログラム
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
EP2898506B1 (en) 2012-09-21 2018-01-17 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
MY178710A (en) 2012-12-21 2020-10-20 Fraunhofer Ges Forschung Comfort noise addition for modeling background noise at low bit-rates
JP6180544B2 (ja) * 2012-12-21 2017-08-16 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号の不連続伝送における高スペクトル−時間分解能を持つコンフォートノイズの生成
CN103928029B (zh) * 2013-01-11 2017-02-08 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
US9336789B2 (en) * 2013-02-21 2016-05-10 Qualcomm Incorporated Systems and methods for determining an interpolation factor set for synthesizing a speech signal
US9812144B2 (en) * 2013-04-25 2017-11-07 Nokia Solutions And Networks Oy Speech transcoding in packet networks
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
CN111370009B (zh) * 2013-10-18 2023-12-22 弗朗霍夫应用科学研究促进协会 使用语音相关的频谱整形信息编码音频信号和解码音频信号的概念
CA2927722C (en) * 2013-10-18 2018-08-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
EP2980790A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
WO2016123560A1 (en) 2015-01-30 2016-08-04 Knowles Electronics, Llc Contextual switching of microphones

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6011360B2 (ja) * 1981-12-15 1985-03-25 ケイディディ株式会社 音声符号化方式
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
EP0732687B2 (en) * 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
EP0764939B1 (en) * 1995-09-19 2002-05-02 AT&T Corp. Synthesis of speech signals in the absence of coded parameters
KR20000047944A (ko) 1998-12-11 2000-07-25 이데이 노부유끼 수신장치 및 방법과 통신장치 및 방법

Also Published As

Publication number Publication date
CN1244907C (zh) 2006-03-08
AU2001294125A1 (en) 2002-04-29
JP2004512562A (ja) 2004-04-22
ZA200302468B (en) 2004-03-29
DE60120734T2 (de) 2007-06-14
DE60120734D1 (de) 2006-07-27
EP1328928B1 (en) 2006-06-14
CN1470052A (zh) 2004-01-21
US6615169B1 (en) 2003-09-02
CA2425926A1 (en) 2002-04-25
PT1328928E (pt) 2006-09-29
KR20030046510A (ko) 2003-06-12
BR0114669A (pt) 2004-02-17
KR100547235B1 (ko) 2006-01-26
CA2425926C (en) 2009-01-27
WO2002033697A3 (en) 2002-07-11
ATE330311T1 (de) 2006-07-15
WO2002033697A2 (en) 2002-04-25
EP1328928A2 (en) 2003-07-23

Similar Documents

Publication Publication Date Title
ES2265442T3 (es) Aparato para la expansion del ancho de banda de una señal vocal.
ES2287150T3 (es) Metodo y sistema para estimacion artificial de una señal de banda alta en un codificador-decodificador de voz.
JP4927257B2 (ja) 可変レートスピーチ符号化
US5778335A (en) Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
ES2205892T3 (es) Aumento de la periodicidad al descodificar señales de banda ancha.
ES2266003T3 (es) Suavizador de la ganancia en un descodificador de señal de habla y audio de banda ancha.
KR100574031B1 (ko) 음성합성방법및장치그리고음성대역확장방법및장치
JP4824167B2 (ja) 周期的スピーチコーディング
CN1307614C (zh) 合成语音的方法和装置
KR101668401B1 (ko) 오디오 신호를 인코딩하기 위한 방법 및 장치
JPH09503874A (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
JP2007532963A (ja) 音声信号の符号化
EP0255524B1 (en) Method and apparatus for synthesizing speech without voicing or pitch information
KR20000047944A (ko) 수신장치 및 방법과 통신장치 및 방법
JP2002509294A (ja) 暗騒音条件下における音声符号化の方法
US6240383B1 (en) Celp speech coding and decoding system for creating comfort noise dependent on the spectral envelope of the speech signal
JP2002536693A (ja) 可変率音声符号化に基づいた音声合成装置
CN100403401C (zh) 根据窄带语音信号估测宽带语音信号的语音扩展器和方法
Choudhary et al. Study and performance of amr codecs for gsm
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
JP2000206998A (ja) 受信装置及び方法、通信装置及び方法
JP2001094507A (ja) 擬似背景雑音生成方法
JPH11119796A (ja) 音声信号区間検出方法及び装置
JPH08223125A (ja) 音声復号装置