ES2265442T3 - Aparato para la expansion del ancho de banda de una señal vocal. - Google Patents
Aparato para la expansion del ancho de banda de una señal vocal. Download PDFInfo
- Publication number
- ES2265442T3 ES2265442T3 ES01974612T ES01974612T ES2265442T3 ES 2265442 T3 ES2265442 T3 ES 2265442T3 ES 01974612 T ES01974612 T ES 01974612T ES 01974612 T ES01974612 T ES 01974612T ES 2265442 T3 ES2265442 T3 ES 2265442T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- voice
- scale
- periods
- synthesized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000001755 vocal effect Effects 0.000 title claims description 31
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000001914 filtration Methods 0.000 claims abstract description 25
- 238000004040 coloring Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 19
- 206010019133 Hangover Diseases 0.000 claims description 18
- 230000005540 biological transmission Effects 0.000 claims description 18
- 238000003786 synthesis reaction Methods 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 12
- 238000011002 quantification Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 238000012805 post-processing Methods 0.000 description 23
- 230000006978 adaptation Effects 0.000 description 20
- 230000005284 excitation Effects 0.000 description 15
- 238000005070 sampling Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000006872 improvement Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Displays For Variable Information Using Movable Means (AREA)
Abstract
Método para codificación de voz (500) para codificar y decodificar una señal de entrada (100) con períodos de voz activos y períodos de voz inactivos y para proporcionar una señal de voz sintetizada (110) con componentes de alta frecuencia y componentes de baja frecuencia en el que la señal de entrada se divide en una banda de alta frecuencia y en una banda de baja frecuencia durante los procesos de codificación y de síntesis de voz, y en el que parámetros vocales (104) característicos de la banda de baja frecuencia se utilizan para procesar una señal artificial (150) a fin de proporcionar una señal artificial procesada (152) para proporcionar adicionalmente los componentes de la frecuencia superior (160) de la voz sintetizada, incluyendo dicho método las etapas de: puesta a escala (530) de la señal artificial procesada (152) mediante un primer factor de escala (114, 144) durante los períodos de voz activos, y puesta a escala (540) de la señal artificial procesada (152) mediante un segundofactor de escala (114 y 115, 144 y 145) durante los períodos de voz inactivos, en el que dicho primer factor de escala es característico de la banda de alta frecuencia de la señal de entrada, siendo el segundo factor de escala característico de la banda de baja frecuencia de la señal de entrada.
Description
Aparato para la expansión del ancho de banda de
una señal vocal.
La presente invención se refiere, en términos
generales, al ámbito de la codificación y decodificación de voz
sintetizada, y más concretamente, a un codec
(codificador-decodificador) de voz de banda ancha de
frecuencias múltiples adaptable.
Muchos de los métodos actuales de codificación
de voz están basados en la codificación lineal predictiva (LP), que
extrae características perceptivamente significativas de una señal
de voz directamente desde una forma de onda temporal, en lugar de
hacerlo de un espectro de frecuencias de la señal de voz (como lo
hace lo que se denomina un "vocoder" de canal o un
"vocoder" formador). En la codificación LP, en primer lugar se
analiza una forma de onda de voz (análisis LP) para determinar un
modelo variable a lo largo del tiempo de la excitación del tracto
vocal que ha causado la señal de voz, así como una función de
transferencia. A continuación, un decodificador (de un terminal
receptor en el caso de que la señal de voz codificada se haya
transmitido mediante telecomunicaciones) recrea la señal de voz
original utilizando un sintetizador (para llevar a cabo la síntesis
LP) que hace pasar la excitación a través de un sistema
parametrizado que representa un modelo del tracto local. Los
parámetros del modelo de tracto vocal y la excitación del modelo se
actualizan periódicamente para adaptarse a los correspondientes
cambios que se han producido en el orador, cuando el orador ha
generado la señal de voz. No obstante, entre las actualizaciones, es
decir, durante cualquier intervalo de especificación, la excitación
y los parámetros del sistema se mantienen constantes, por lo que el
proceso ejecutado por el modelo, es un proceso lineal invariable a
lo largo del tiempo. El sistema general (distribuido) de
codificación y decodificación se denomina codec.
En un codec que utiliza la codificación LP para
la generación de voz, el decodificador necesita que el codificador
proporcione tres entradas: un período de frecuencias audibles o de
tono si la excitación se convierte en voz, un factor de ganancia y
unos coeficientes de predicción (en ciertos codecs, también se
proporciona el carácter de la excitación, es decir, si ha sido o no
generada por la voz, pero no suele ser necesario en el caso de un
codec ACELP (Predicción Lineal Excitada por Código Algebraico), por
ejemplo. La codificación LP es predictiva en el sentido de que
utiliza unos parámetros de predicción basados en los segmentos de
la entrada real de la forma de onda de voz (durante un intervalo de
especificación) a la cual se aplican los parámetros, en un proceso
de estimación directa, o basado en eventos anteriores.
Pueden utilizarse la codificación y la
decodificación LP básicas para comunicar digitalmente voz con una
tasa de transferencia de datos relativamente baja, pero se genera
una voz de sonido sintético, debido a que se está utilizando un
sistema de excitación muy sencillo. El denominado codec CELP
(Predicción Lineal Excitada por Código) es un codec de excitación
mejorado. Se basa en la codificación "residual". El modelado
del tracto vocal se realiza en función de filtros digitales, cuyos
parámetros se codifican en la voz comprimida. Estos filtros son
controlados, es decir, "excitados", mediante una señal que
representa la vibración de las cuerdas vocales del orador original.
El residuo de una señal de voz de audio es la señal de voz de audio
(original) menos la señal de voz de audio filtrada digitalmente. Un
codeo CELP codifica el residuo y lo utiliza como base para la
excitación, en lo que se conoce como "excitación de impulso
residual". No obstante, en lugar de codificar las formas de
ondas residuales muestra a muestra, el CELP utiliza una plantilla
de forma de onda seleccionada a partir de un conjunto
predeterminado de plantillas de forma de onda, a fin de que
represente un bloque de muestras residuales. El codificador
determina una palabra de código y se la facilita al decodificador,
que utiliza entonces la palabra de código para seleccionar una
secuencia residual que represente las muestras residuales
originales.
De acuerdo con el teorema de Nyquist, una señal
de voz con una frecuencia de muestreo F_{S} puede representar una
banda de frecuencias variable entre 0 y 0,5 F_{S}. En la
actualidad, la mayoría de los codeos de voz
(codificadores-decodificadores) utilizan una
frecuencia de muestreo de 8 kHz. Si la frecuencia de muestreo
aumenta a partir de 8 kHz, mejora la naturalidad de la voz, debido
a que pueden representarse frecuencias más elevadas. En la
actualidad, la frecuencia de muestreo de la señal de voz suele ser
de 8 kHz, pero se han desarrollado teléfonos móviles que utilizarán
una frecuencia de muestreo de 16 kHz. De acuerdo con el teorema de
Nyquist, una frecuencia de muestreo de 16 kHz puede representar voz
en la banda de frecuencias de 0-8 kHz. La voz
muestreada se codifica a continuación para su comunicación a través
de un transmisor, y a continuación se decodifica en un receptor. La
codificación de voz de la voz muestreada utilizando una frecuencia
de muestreo de 16 kHz se denomina codificación de voz de banda
ancha.
Cuando aumenta la frecuencia de muestreo de la
voz, también aumenta la complejidad de la codificación. Con algunos
algoritmos, a medida que aumenta la frecuencia de muestreo, la
complejidad de la codificación puede incluso aumentar
exponencialmente. Por lo tanto, la complejidad de la codificación
suele ser un factor que limita la determinación de un algoritmo de
codificación de voz de banda ancha. Esto es especialmente cierto,
por ejemplo, en el caso de los teléfonos móviles, cuyo consumo
eléctrico, la potencia de procesamiento disponible y los requisitos
de memoria afectan de forma crítica a la aplicabilidad de los
algoritmos.
En los codecs de banda ancha de la técnica
anterior, mostrados en la figura 1 (véase, por ejemplo, J.
Schnitzler, "A 13.0 Kbit/s wideband speech codec based on
SB-ACELP", en ICASSP '98), se utiliza una etapa
de procesamiento previo para realizar un filtrado paso bajo y una
reducción de la frecuencia de muestreo (muestreo descendente) la
señal de voz de entrada con respecto a la frecuencia de muestreo
original, de 16 kHz a 12,8 kHz. La señal
sub-muestreada se diezma de forma que el número de
muestras, que es de 320 a lo largo de un período de 20 ms se
reduzca a 256. La señal diezmada y sub-muestreada,
con un ancho de banda de frecuencia efectivo de 0 a 6,4 kHz se
codifica utilizando un bucle de Análisis por Síntesis
(A-b-S) para extraer los parámetros
de LPC, frecuencias audibles y excitación, que se cuantifican en un
flujo binario codificado que se transmite al receptor para su
decodificación. En el bucle A-b-S,
una señal sintetizada a nivel local se muestrea aumentando la
frecuencia de muestreo y se interpola para ajustarse a la
frecuencia de muestreo original. Tras el proceso de codificación,
la banda de frecuencias de 6,4 kHz a 8,0 kHz queda vacía. El codec
de banda ancha genera un ruido aleatorio en esta banda de
frecuencias vacía, y colorea el ruido aleatorio con parámetros LPC
mediante filtrado de síntesis, como se describe a continuación.
En primer lugar, el ruido aleatorio se pone a
escala de acuerdo con:
(1)e_{scaled}
= \ sqrt \ [\{exc^{T} (n) \ exc \ (n)\} / \{e^{T} (n) \ e \ (n)\}] \
e \
(n)
Donde e(n) representa el ruido aleatorio
y exc(n) representa la excitación LPC. La T del superíndice
indica la transpuesta de un vector. El ruido aleatorio puesto a
escala se filtra utilizando el filtro de síntesis LPC de coloreado
y un filtro paso de banda de 6,0 a 7,0 kHz. Este componente
coloreado de alta frecuencia se vuelve a poner a escala utilizando
la información sobre la inclinación (tilt) espectral de la señal
sintetizada. La inclinación espectral se calcula realizando el
cálculo del primer coeficiente de correlación, r, utilizando la
siguiente ecuación:
(2)r = {s^{T}
(i) s (i-1)}/{s^{T} (i)
s(i)}
donde s(i) es la señal de
voz sintetizada. Por consiguiente, la ganancia estimada f_{est}
se determina a partir
de
(3)f_{est} =
1,0-r
con la limitación de 0,2 \leq
f_{est} \leq
1,0
En el extremo receptor, con posterioridad al
proceso principal de decodificación, la señal sintetizada vuelve a
procesarse para generar la salida real mediante
sobre-muestreo de la señal para ajustarse a la
frecuencia de muestreo de la señal de entrada. Debido a que el
nivel de ruido de alta frecuencia se ha calculado en función de los
parámetros LPC obtenidos a partir de la banda de frecuencias
inferiores y el inclinación espectral de la señal sintetizada, la
puesta a escala y el coloreado del ruido aleatorio pueden llevarse
a cabo en el extremo del codificador o en el extremo del
decodificador.
En los codecs de la técnica anterior, el nivel
de ruido de alta frecuencia se calcula en función del nivel de
señal de la capa base y de la inclinación espectral. De este modo,
los componentes de alta frecuencia de la señal sintetizada se
eliminan mediante filtrado. Por ello, el nivel de ruido no se
corresponde con las características de la señal de entrada real en
la banda de frecuencias 6,4-8,0 kHz. De este modo,
el codec de la técnica anterior no proporciona una señal
sintetizada de alta calidad.
Resulta ventajoso y deseable proporcionar un
método y un sistema capaces de proporcionar una señal sintetizada
de alta calidad teniendo en cuenta las características de la señal
de entrada real en la banda de altas frecuencias.
Uno de los principales objetivos de la presente
invención consiste en mejorar la calidad de la voz sintetizada en
un sistema de procesamiento de voz distribuido. Este objetivo puede
conseguirse utilizando las características de la señal de entrada
de los componentes de alta frecuencia de la señal de voz original
en la banda de frecuencias de 6,0 a 7,0 kHz, por ejemplo, para
determinar el factor de escala de una señal artificial coloreada
con filtrado paso alto al sintetizar los componentes de alta
frecuencia de la voz sintetizada a lo largo de períodos de voz
activos. Durante los períodos de voz inactivos, el factor de escala
puede determinarse mediante los componentes de baja frecuencia de
la señal de voz sintetizada.
Por ello, el primer aspecto de la presente
invención consiste en un método de codificación de voz para
codificar y decodificar una señal de entrada con períodos de voz
activos y períodos de voz inactivos, y para proporcionar una señal
de voz sintetizada con componentes de alta frecuencia y
componentes de baja frecuencia, en el que la señal de entrada se
divide en una banda de alta frecuencia y en una banda de baja
frecuencia durante los procesos de codificación y síntesis de voz y
en el que los parámetros vocales característicos de la banda de
baja frecuencia se utilizan para procesar una señal artificial a
fin de proporcionar los componentes de alta frecuencia de la señal
de voz sintetizada. El método incluye las siguientes etapas:
\newpage
Puesta a escala de la señal artificial procesada
mediante un primer factor de escala durante los períodos de voz
activos, y
Puesta a escala de la señal artificial procesada
mediante un segundo factor de escala durante los períodos de voz
inactivos, donde el primer factor de escala es característico de la
banda de alta frecuencia de la señal de entrada, y el segundo
factor de escala es característico de los componentes de baja
frecuencia de la voz sintetizada.
Preferiblemente, la señal de entrada se somete a
filtrado paso alto a fin de obtener una señal de entrada situada
en una banda de frecuencias característica de los componentes de
alta frecuencia de la voz sintetizada, calculándose el primer
factor de escala a partir de la señal filtrada y donde en los casos
en que los períodos de voz inactivos incluyen períodos de hangover
de voz y de ruido de confort, el segundo factor de escala para
poner a escala la señal artificial procesada durante los períodos
de hangover de voz se calcula a partir de la señal filtrada.
Preferiblemente, el segundo factor de escala
para poner a escala la señal artificial procesada durante los
períodos de hangover de voz también se calcula a partir de los
componentes de baja frecuencia de la voz sintetizada y el segundo
factor de escala para poner a escala la señal artificial procesada
durante los períodos de ruido de confort se calcula a partir de los
componentes de baja frecuencia de la señal de voz sintetizada.
Preferiblemente, el primer factor de escala se
codifica y transmite dentro del flujo binario codificado a un
extremo receptor y el segundo factor de escala para los períodos de
hangover de voz también se incluye en el flujo binario
codificado.
Es posible que el segundo factor de escala para
los períodos de hangover de voz se determine en el extremo
receptor.
Preferiblemente, el segundo factor de escala
también se calcula a partir de un factor de inclinación espectral
determinado a partir de los componentes de baja frecuencia de la
voz sintetizada.
Preferiblemente, el primer factor de escala se
calcula a partir de la señal artificial procesada.
El segundo aspecto de la presente invención
consiste en un sistema transmisor y receptor de señales de voz para
la codificación y decodificación de una señal de entrada con
períodos de voz activos y períodos de voz inactivos y para
proporcionar una señal de voz sintetizada que tenga componentes de
alta frecuencia y componentes de baja frecuencia donde la señal de
entrada se divide en una banda de alta frecuencia y en una banda de
baja frecuencia en los procesos de codificación y síntesis de voz,
en los que los parámetros vocales característicos de la banda de
baja frecuencia de la señal de entrada se utilizan para procesar
una señal artificial en el receptor para proporcionar los
componentes de alta frecuencia de la voz sintetizada. El sistema
incluye:
Un decodificador en el receptor para recibir un
flujo binario codificado procedente del transmisor, cuyo flujo
binario codificado contiene los parámetros vocales;
Un primer módulo en el transmisor, que responde
a la señal de entrada para proporcionar un primer factor de escala
para poner a escala la señal artificial procesada durante los
períodos activos y
Un segundo módulo en el receptor que responde al
flujo binario codificado, que proporciona un segundo factor de
escala para poner a escala la señal artificial procesada durante
los períodos inactivos, en el que el primer factor de escala es
característico de la banda de alta frecuencia de la señal de
entrada, y el segundo factor de escala es característico de los
componentes de baja frecuencia de la voz sintetizada.
Preferiblemente, el primer módulo incluye un
filtro paso alto para filtrar la señal de entrada y proporcionar
una señal de entrada filtrada cuya gama de frecuencias se
corresponda con los componentes de alta frecuencia de la voz
sintetizada para permitir el cálculo del primer factor de escala a
partir de la señal de entrada filtrada.
Preferiblemente, un tercer módulo del transmisor
se utiliza para proporcionar un ruido aleatorio coloreado y con
filtrado paso alto en la banda de frecuencias correspondientes a
los componentes de alta frecuencia de la señal sintetizada de forma
que el primer factor de escala pueda modificarse en función del
ruido aleatorio coloreado y con filtrado paso alto.
El tercer aspecto de la presente invención es un
codificador para codificar una señal de entrada con períodos de
voz activos y períodos de voz inactivos, dividiéndose la señal de
entrada en una banda de alta frecuencia y en una banda de baja
frecuencia y para proporcionar un flujo binario codificado que
contiene parámetros vocales característicos de la banda de baja
frecuencia de la señal de entrada para permitir que el codificador
reconstruya los componentes de baja frecuencia de la voz
sintetizada en función de los parámetros vocales, y para procesar
una señal artificial basada en parámetros vocales para proporcionar
los componentes de alta frecuencia de la voz sintetizada,
utilizándose un factor de escala basado en los componentes de baja
frecuencia de la voz sintetizada para poner a escala la señal
artificial procesada durante los períodos de voz inactivos. El
codificador incluye:
\newpage
Un filtro, que responde a la señal de entrada,
para filtrado paso alto de la señal de entrada en una banda de
frecuencias correspondiente a los componentes de alta frecuencia de
la voz sintetizada, y proporcionar una primera señal indicadora de
la señal de entrada filtrada paso alto;
Una serie de medios, que responden a la primera
señal, para proporcionar un factor de escala adicional basado en la
señal de entrada filtrada paso alto y los componentes de baja
frecuencia de la voz sintetizada y para proporcionar una segunda
señal indicadora del factor de escala adicional; y
Un módulo de cuantificación, que responde a la
segunda señal, para proporcionar una señal codificada indicadora
del factor de escala adicional en el flujo binario codificado,
para permitir al decodificador poner a escala la señal artificial
procesada durante los períodos de voz activos, basándose en el
factor de escala adicional.
El cuarto aspecto de la presente invención es
una estación móvil configurada para transmitir un flujo binario
codificado a un decodificador para proporcionar voz sintetizada con
componentes de alta frecuencia y componentes de baja frecuencia, en
la que el flujo binario codificado incluye datos de voz indicadores
de una señal de entrada con períodos de voz activos y períodos de
voz inactivos, y la señal de entrada se divide en una banda de alta
frecuencia y en una banda de baja frecuencia, incluyendo los datos
de voz parámetros vocales característicos de la banda de baja
frecuencia de la señal de entrada para permitir al decodificador
proporcionar los componentes de baja frecuencia de la voz
sintetizada en función de unos parámetros vocales y colorear una
señal artificial en función de los parámetros vocales y poner a
escala la señal artificial coloreada con un factor de escala basado
en los componentes de baja frecuencia de la voz sintetizada para
proporcionar los componentes de alta frecuencia de la voz
sintetizada durante los períodos de voz inactivos. La estación
móvil incluye:
Un filtro, que responde a la señal de entrada,
para filtrado paso alto de la señal de entrada en una banda de
frecuencias correspondiente a los componentes de alta frecuencia de
la voz sintetizada y para proporcionar un factor de escala
adicional en función de la señal de entrada filtrada paso alto;
y
Un módulo de cuantificación, que responde al
factor de escala y al factor de escala adicional, para proporcionar
una señal codificada indicadora del factor de escala adicional en
el flujo binario codificado, para permitir al decodificador poner a
escala la señal artificial coloreada durante el período de voz
activa en función del factor de escala adicional.
El quinto aspecto de la presente invención es un
elemento de una red de telecomunicaciones configurado para recibir
un flujo binario codificado que contenga datos de voz indicadores
de una señal de entrada procedente de una estación móvil para
proporcionar una voz sintetizada con componentes de alta frecuencia
y componentes de baja frecuencia en el que la señal de entrada con
períodos de voz activos y períodos de voz inactivos se divide en
una banda de alta frecuencia y una banda de baja frecuencia y los
datos de voz incluyen parámetros vocales característicos de la
banda de baja frecuencia de la señal de entrada y parámetros de
ganancia característicos de la banda de alta frecuencia de la señal
de entrada, y en el que los componentes de baja frecuencia de la
voz sintetizada se proporcionan en función de los parámetros
vocales, incluyendo dicho elemento:
Un primer mecanismo, que responde a los
parámetros de ganancia para proporcionar un primer factor de
escala;
Un segundo mecanismo, que responde a los
parámetros vocales para síntesis y filtrado paso alto de una señal
artificial para proporcionar una señal artificial sintetizada y
filtrada paso alto;
Un tercer mecanismo, que responde al primer
factor de escala y a los datos de voz, para proporcionar un factor
de escala combinado incluyendo el primer factor de escala
características de la banda de alta frecuencia de la señal de
entrada y un segundo factor de escala basado en el primer factor de
escala y un parámetro adicional relacionado con la voz
característicos de los componentes de baja frecuencia de la voz
sintetizada; y
Un cuarto mecanismo, que responde a la señal
artificial sintetizada y filtrada paso alto y al factor de escala
combinado, para poner a escala la señal artificial sintetizada y
filtrada paso alto mediante el primer y el segundo factor de escala
durante los períodos de voz activos y los períodos de voz
inactivos, respectivamente.
La presente invención se apreciará con mayor
claridad leyendo la descripción en conjunción con las figuras 2 a
8.
La figura 1 es un diagrama de bloques que
muestra un codec de voz de banda ancha de la técnica anterior.
La figura 2 es un diagrama de bloques que
muestra el codec de voz de banda ancha de acuerdo con la presente
invención.
La figura 3 es un diagrama de bloques que
muestra la función de post-procesamiento del
codificador de voz de banda ancha de la presente invención.
La figura 4 es un diagrama de bloques que
muestra la estructura del decodificador de voz de banda ancha de la
presente invención.
La figura 5 es un diagrama de bloques que
muestra la función del post-procesamiento del
decodificador de voz de banda ancha.
La figura 6 es un diagrama de bloques que
muestra una estación móvil de acuerdo con la presente
invención.
La figura 7 es un diagrama de bloques que
muestra una red de telecomunicaciones de acuerdo con la presente
invención.
La figura 8 es un organigrama que muestra el
método de decodificación de voz de acuerdo con la presente
invención.
Como se muestra en la figura 2, el codec de voz
de banda ancha 1, de acuerdo con la presente invención, incluye un
bloque de procesamiento previo 2 para procesamiento previo de la
señal de entrada 100. Al igual que en el codec de la técnica
anterior, como se describe en los antecedentes, el bloque de
procesamiento previo 2 sub-muestrea y diezma la
señal de entrada 100 para que pase a ser una señal de voz 102 con
un ancho de banda efectivo de 0 a 6,4 kHz. La señal de voz
procesada 102 se codifica mediante el bloque de codificación
análisis-por-síntesis
(Analysis-by-Synthesis) 4
utilizando la tecnología convencional ACELP para extraer una serie
de parámetros de codificación predictiva lineal (LPC), frecuencias
audibles y parámetros o coeficientes de excitación 104. Pueden
utilizarse los mismos parámetros de codificación junto con un módulo
de filtrado paso alto para procesar una señal artificial o ruido
seudo-aleatorio en un ruido aleatorio filtrado paso
alto y coloreado (134, figura 3; 154, figura 5). El bloque de
codificación 4 también facilita una señal sintetizada local 106 a
un bloque de post-procesamiento 6.
En contraste con el codec de banda ancha de la
técnica anterior, la función de post-procesamiento
del bloque de post-procesamiento 6 se modifica a
fin de incorporar la puesta a escala de ganancia y la
cuantificación de ganancia 108 correspondientes a las
características de la señal de entrada de los componentes de alta
frecuencia de la señal de voz original 100. Más concretamente, los
componentes de alta frecuencia de la señal de voz original 100
pueden utilizarse junto con el ruido aleatorio filtrado paso alto y
coloreado 134, 154, para determinar un factor de escala de señal de
banda superior, como se muestra en la ecuación 4, descrito en
conjunción con el codificador de voz como se muestra en la figura
3. La salida del bloque de post-procesamiento 6 es
la señal de voz post-procesada 110.
La figura 3 muestra la estructura detallada de
la función de post-procesamiento del codificador de
voz 10, de acuerdo con la presente invención. Como se muestra, se
utiliza un generador de ruido aleatorio 20 para proporcionar una
señal artificial de 16 kHz 130. El ruido aleatorio 130 se colorea
mediante un filtro de síntesis LPC 22 utilizando los parámetros LPC
104 facilitados en el flujo binario codificado procedente del
bloque de codificación
análisis-por-síntesis 4 (figura 2)
en función de las características de la banda inferior de la señal
de voz 100. A partir del ruido aleatorio coloreado 132, un filtro
paso alto 24 extrae los componentes de alta frecuencia coloreados
134 en una banda de frecuencias de 6,0 a 7,0 kHz. Los componentes
de alta frecuencia 112 de la banda de frecuencias de 6,0 a 7,0 kHz
de la muestra de voz original 100 son también extraídos por un
filtro paso alto 12. La energía de los componentes de alta
frecuencia 112 y 134 se utiliza para determinar un factor puesta a
escala de señales de banda alta g_{scaled} mediante un bloque de
ecualización de ganancia 14 de acuerdo con:
(4)g_{scaled}
= \ sqrt \ \{(s_{hp}{}^{T}s_{hp}) / (e_{hp}{}^{T}
e_{hp})\}
donde S_{hp} es la señal de voz
original de 6,0 - 7,0 kHz filtrada paso alto 112, y e_{hp} es el
ruido aleatorio sintetizado mediante LPC (coloreado) y filtrado
paso banda 134. El factor de escala g_{scaled} mostrado mediante
el número de referencia 114 puede cuantificarse mediante un módulo
de cuantificación de ganancia 18 y transmitirse con el flujo
binario codificado de forma que el extremo receptor pueda utilizar
el factor de escala para poner a escala el ruido aleatorio a fin de
reconstruir la señal de
voz.
En los actuales codecs de voz GSM, la
transmisión de radio durante los períodos sin voz se suspende
mediante una función de transmisión discontinua (DTX). La DTX ayuda
a reducir las interferencias entre diferentes células y a aumentar
la capacidad del sistema de comunicaciones. La función DTX se basa
en un algoritmo de detección de la actividad de voz (VAD) para
determinar si la señal de entrada 100 representa voz o ruido,
impidiendo que el transmisor se desconecte durante los períodos de
voz activos. El algoritmo VAD se muestra mediante el número de
referencia 98. Adicionalmente, cuando el transmisor se desconecta
durante los períodos de voz inactivos, el receptor proporciona una
cantidad mínima de ruido de fondo denominado "ruido de
confort" (CN) para eliminar la impresión de que la conexión está
inactiva. El algoritmo VAD está diseñado de forma que se permite un
período de tiempo determinado conocido como tiempo de hangover o
tiempo de holdover después de detectar un período de voz
inactiva.
De acuerdo con la presente invención, el factor
puesta a escala g_{scaled} durante los períodos de voz activos
puede calcularse de acuerdo con la ecuación 4. Sin embargo, tras la
transición desde la voz activa a la voz inactiva este parámetro de
ganancia no puede transmitirse dentro del flujo binario de ruido de
confort debido a la limitación de la tasa de bits y al sistema de
transmisión. De este modo, en la voz inactiva, el factor de escala
se determina en el extremo receptor sin utilizar la señal de voz
original, como se llevaba a acabo en el codec de banda ancha de la
técnica anterior. Así, la ganancia se calcula implícitamente a
partir de la señal de la capa base durante los períodos de voz
inactivos. Por el contrario, se utiliza la cuantificación de
ganancia explícita durante los períodos de voz en función de la
señal de las capas de mejora de alta frecuencia. Durante la
transición desde los períodos de voz activos a los períodos de voz
inactivos, la conmutación entre los diferentes factores de puesta a
escala puede provocar estados transitorios audibles en la señal
sintetizada. Para reducir estos estados transitorios audibles, es
posible utilizar un módulo de adaptación de ganancia 16 para
cambiar el factor de escala. De acuerdo con la presente invención,
la adaptación comienza cuando se inicia el período de hangover del
algoritmo de determinación de la actividad de voz (VAD). Con este
propósito, se aporta una señal 190 que representa una decisión VAD
al módulo de adaptación de ganancia 16. Además, el período de
hangover de transmisión discontinua (DTX) se utiliza también para
la adaptación de la ganancia. Tras el período de hangover de la
DTX, puede utilizarse el factor de escala determinado sin la señal
de voz original. La adaptación total de ganancia para el ajuste del
factor de escala puede llevarse a cabo de acuerdo con la siguiente
ecuación:
G_{total} =
\alpha \ g_{scaled} + (1, 0 - \alpha)
f_{est}
Donde f_{est} viene determinado por la
ecuación 3 y se representa mediante el número 115 y a es un
parámetro de adaptación dado por:
(6)\alpha =
(recuento de hangover DTX) /
7
De este modo, durante los períodos de voz
activos \alpha es igual a 1,0 debido a que el recuento de
hangover DTX es igual a 7. Durante un estado transitorio desde un
período de voz activa a un período de voz inactiva, el recuento de
hangover DTX desciende de 7 a 0. Por ello, durante el estado
transitorio, 0< \alpha <1,0. Durante los períodos de voz
inactivos o tras la recepción de los primeros parámetros de ruido
de confort, \alpha = 0.
A este respecto, la codificación de la capa de
mejora, controlada mediante la detección de la actividad de voz y
la tasa de transferencia de bits de codificación fuente, es
escalable en función de los distintos períodos de señal de entrada.
Durante los períodos de voz activos, la cuantificación de la
ganancia viene determinada explícitamente desde la capa de mejora
que incluye la determinación y la adaptación de los parámetros de
ganancia de ruido aleatorio. Durante el período transitorio, la
ganancia determinada explícitamente se adapta al valor estimado
implícitamente. Durante los períodos de voz inactivos, la ganancia
se calcula implícitamente a partir de la señal de la capa base. De
este modo, no se transmiten parámetros de la capa de mejora de alta
frecuencia al extremo receptor durante los períodos de voz
inactivos.
La ventaja de la adaptación de la ganancia es la
ausencia de complicaciones en el estado transitorio de la puesta a
escala del componente de alta frecuencia a partir del procesamiento
de voz activa a voz inactiva. La ganancia de puesta a escala
adaptada g_{total} determinada por el módulo de adaptación de
ganancia 16 e indicada mediante el número 116, es cuantificada por
el módulo de cuantificación de ganancia 18 como un conjunto de
parámetros de ganancia cuantificados 118. Dicho conjunto de
parámetros de ganancia 118 puede incorporarse al flujo binario
codificado para transmitirse a un extremo receptor para su
decodificación. Cabe señalar que los parámetros de ganancia
cuantificados 118 pueden almacenarse como una tabla de búsquedas de
forma que pueda accederse a ellos mediante un índice de ganancia
(no mostrado).
Con la ganancia de puesta a escala adaptada
g_{total} el ruido aleatorio de alta frecuencia del proceso de
decodificación puede ponerse a escala para reducir los estados
transitorios en la señal sintetizada durante la transición de los
períodos de voz activos a los períodos de voz inactivos.
Finalmente, los componentes de alta frecuencia sintetizados se
añaden a la señal interpolada sobre-muestreada
recibida desde el bucle A-b-S en el
codificador. El post-procesamiento con puesta a
escala de energía se lleva a cabo independientemente en cada
subtrama de 5 ms. Cuando se utilizan libros de código de 4 bits
para cuantificar la ganancia del componente aleatorio de alta
frecuencia, la tasa de transferencia de bits total es de 0,8 kbits
por segundo.
La adaptación de la ganancia entre la ganancia
determinada explícitamente (procedente de las capas de mejora de
alta frecuencia) y la ganancia calculada implícitamente (procedente
tan sólo de la señal de la capa base, o banda inferior) puede
llevarse a cabo en el codificador antes de la cuantificación de la
ganancia, como se muestra en la figura 3. En dicho caso, los
parámetros de ganancia que van a codificarse y transmitirse al
extremo receptor es g_{total} de acuerdo con la ecuación 5.
Alternativamente, la adaptación de la ganancia puede llevarse a
cabo tan sólo en el decodificador durante el período de hangover
DTX tras la bandera VAD que indica el comienzo de una señal sin
voz. En dicho caso, la cuantificación de los parámetros de ganancia
se lleva a cabo en el codificador y la adaptación de la ganancia
se lleva a cabo en el decodificador, y los parámetros de ganancia
transmitidos al extremo receptor pueden ser simplemente
g_{scaled} de acuerdo con la ecuación 4. La ganancia estimada
f_{est} puede determinarse en el decodificador utilizando la
señal de voz sintetizada. También es posible llevar a cabo la
adaptación de la ganancia en el decodificador al comienzo del
período de ruido de confort antes de que el decodificador reciba la
primera descripción de silencio (SID first). Como en el caso
anterior, g_{scaled} se cuantifica en el codificador y se
transmite dentro del flujo binario codificado.
En la figura 4 se muestra un diagrama
representativo del decodificador 30 de la presente invención. Como
se muestra, el decodificador 30 se utiliza para sintetizar una
señal de voz 110 procedente de los parámetros codificados 140 que
incluye los parámetros LPC, tono y excitación 104 y los parámetros
de ganancia 118 (véase la figura 3). A partir de los parámetros
codificados 140, un módulo decodificador 32 proporciona un conjunto
de parámetros LPC des-cuantificados 142. A partir
de los parámetros LPC, tono y excitación recibidos 142 de los
componentes de la banda inferior de la señal de voz, el módulo de
post-procesamiento 34 genera una señal de voz de
banda inferior sintetizada, como en el decodificador de la técnica
anterior. A partir de un ruido aleatorio generado a nivel local, el
módulo de post-procesamiento 34 genera los
componentes de alta frecuencia sintetizados en función de los
parámetros de ganancia que incluyen las características de señal de
entrada de los componentes de alta frecuencia de la voz.
En la figura 5 se muestra una estructura de
post-procesamiento del decodificador 30
generalizada. Como se muestra en la figura 5, los parámetros de
ganancia 118 se des-cuantifican mediante un bloque
de des-cuantificación de ganancia 38. Si la
adaptación de ganancia ya se ha llevado a cabo en el decodificador
como se muestra en la figura 3, la función correspondiente de
adaptación de ganancia del decodificador consistirá en conmutar la
ganancia des-cuantificada 144 (g_{total}, siendo
\alpha = 1,0 y \alpha = 0,5) a la ganancia de puesta a escala
optimada f_{est} (\alpha = 0) al comienzo del período de ruido
de confort, sin necesidad de la señal de decisión VAD 190. No
obstante, si la adaptación de la ganancia se lleva a cabo solamente
en el decodificador durante el período de hangover DTX después de
que la bandera VAD facilitada con la señal 190 indique el comienzo
de una señal no de voz, el bloque de adaptación de la ganancia 40
determina el factor de escala g_{total} de acuerdo con la
ecuación 5. De este modo, al comienzo de la transmisión
discontinua, el bloque de adaptación de la ganancia 40 disipa el
estado transitorio utilizando la ganancia de puesta a escala
estimada f_{est} señalada con el número 145 cuando no recibe los
parámetros de ganancia 118. Por consiguiente, el factor de escala
146 proporcionado por el módulo de adaptación de la ganancia 40 se
determina de acuerdo con la ecuación 5.
El filtrado de coloreado y de paso alto del
componente de ruido aleatorio de la unidad de
post-procesamiento 34, que se muestra en la figura
4, es similar al post-procesamiento del codificador
10, como se muestra en la figura 3. Tal y como se muestra, se
utiliza un generador de ruido aleatorio 50 para proporcionar una
señal artificial 150 que se colorea mediante un filtro de síntesis
LPC 52 en función de los parámetros LPC recibidos 104. La señal
artificial coloreada 152 se somete a filtrado paso alto 54. No
obstante, la finalidad de proporcionar el ruido aleatorio filtrado
paso alto y coloreado 134 al codificador 10 (figura 3) consiste en
producir e_{hp} (ecuación 4). En el módulo de
post-procesamiento 34 la señal artificial filtrada
paso alto y coloreada 154 se utiliza para generar la señal
sintetizada de alta frecuencia 160 después de ser escalada mediante
un módulo de ajuste de ganancia 56 en función del factor de escala
de banda superior adaptado 146 proporcionado por el módulo de
adaptación de ganancia 40. Por último, la salida 160 de la capa de
mejora de alta frecuencia se añade a la señal sintetizada de 16 kHz
recibida desde el decodificador base (no mostrado). La señal
sintetizada de 16 kHz es bien conocida en la técnica.
Cabe señalar que la señal sintetizada procedente
del codificador está disponible para el cálculo de la inclinación
espectral. La unidad de post-procesamiento del
decodificador puede utilizarse para calcular el parámetro f_{est}
utilizando las ecuaciones 2 y 3. Cuando el decodificador o el canal
de transmisión ignoran los parámetros de ganancia de la banda
superior por diversas razones, como limitaciones en el ancho de
banda del canal, y el decodificador no recibe la ganancia de la
banda superior, es posible poner a escala el ruido aleatorio
filtrado paso alto y coloreado para proporcionar los componentes de
alta frecuencia de la voz sintetizada.
En resumen, la etapa de
post-procesamiento para llevar a cabo la
codificación de la capa de mejora de alta frecuencia en un codec de
voz de banda ancha puede llevarse a cabo en el codificador o en el
decodificador.
Cuando esta etapa de
post-procesamiento se lleva a cabo en el
codificador se obtiene un factor de escala de la señal de la banda
superior g_{scaled} a partir de los componentes de alta frecuencia
en la banda de frecuencias de 6,0 a 7,0 kHz de la muestra de voz
original y del ruido aleatorio filtrado paso alto y coloreado
mediante LPC. Además se obtiene un factor de ganancia estimada
f_{est} a partir de la inclinación espectral de la señal
sintetizada de la banda inferior en el codificador. Se utiliza una
señal de decisión VAD para indicar si la señal de entrada es un
período de voz activa o un período de voz inactiva. El factor de
escala total g_{total} correspondiente a los diferentes períodos
de voz se calcula a partir del factor de escala g_{scaled} y del
factor de ganancia estimada f_{est}. Los factores de puesta a
escala de la señal de la banda superior escalable se cuantifican y
transmiten dentro del flujo binario codificado. En el extremo
receptor, el factor de escala total g_{total} se extrae del flujo
binario codificado recibido (parámetros codificados). Este factor
de escala total se utiliza para poner a escala el ruido aleatorio
filtrado paso alto y coloreado en el decodificador.
Cuando se lleva a cabo la etapa de
post-procesamiento en el decodificador, el factor
de ganancia estimada f_{est} puede obtenerse a partir de la voz
sintetizada de la banda inferior en el decodificador. Este factor
de ganancia estimada puede utilizarse para poner a escala el ruido
aleatorio filtrado paso alto y coloreado en el decodificador
durante la voz activa.
La figura 6 muestra un diagrama de bloques de
una estación móvil 200 de acuerdo con un ejemplo de realización de
la invención. La estación móvil incluye componentes típicos del
dispositivo, como un micrófono 201, un teclado 207, una pantalla
206, un auricular 214, un conmutador de transmisión/recepción 208,
una antena 209 y una unidad de control 205. Además, la figura
muestra los bloques de transmisión y recepción 204, 211 típicos de
una estación móvil. El bloque de transmisión 204 incluye un
codificador 221 para codificar la señal de voz. El codificador 221
incluye la función de post-procesamiento del
codificador 10 como se muestra en la figura 3. El bloque de
transmisión 204 también incluye las operaciones necesarias para la
codificación del canal, descifrado y modulación así como funciones
RF que no se han presentado en la figura 5 con fines de aclaración.
El bloque de recepción 211 también incluye un bloque decodificador
220 de acuerdo con la invención. El bloque decodificador 220
incluye una unidad de post-procesamiento 222 al
igual que el decodificador 34 mostrado en la figura 5. La señal
procedente del micrófono 201, amplificada en la etapa de
amplificación 202 y digitalizada en el convertidor A/D se lleva al
bloque de transmisión 204, normalmente al dispositivo de
codificación de voz incluido en el bloque de transmisión. La señal
de transmisión procesada, modulada y amplificada por el bloque de
transmisión se lleva a través del conmutador de
transmisión/recepción 208 a la antena 209. La señal que se recibe
se lleva desde la antena a través del conmutador de
transmisión/recepción 208 al bloque receptor 211 que demodula la
señal recibida y decodifica la codificación de descifrado y de
canal. La señal de voz resultante se lleva a través del convertidor
D/A 212 a un amplificador 213 y posteriormente a un auricular 214.
La unidad de control 205 controla el funcionamiento de la estación
móvil 200, lee los comandos de control introducidos por el usuario
a través del teclado 207 y entrega los mensajes al usuario mediante
la pantalla 206.
La función de post-procesamiento
del codificador 10, como se muestra en la figura 3, y el
decodificador 34, como se muestra en la figura 5, de acuerdo con la
invención, pueden también utilizarse en una red de
telecomunicaciones 300, como una red telefónica ordinaria o una red
de telefonía móvil, tal como la red GSM. La figura 7 muestra un
ejemplo de un diagrama de bloques de este tipo de red de
telecomunicaciones. Por ejemplo, la red de telecomunicaciones 300
puede incluir centralitas telefónicas o los correspondientes
sistemas de conmutación 360 a los cuales están acoplados los
teléfonos ordinarios 370, las estaciones base 340, los
controladores de estación base 350 y otros dispositivos centrales
355 de la red de telecomunicaciones. Las estaciones móviles 330
pueden establecer una conexión con la red de telecomunicaciones a
través de las estaciones base 340. Un bloque decodificador 320 que
incluye una unidad de post-procesamiento 322
similar a la mostrada en la figura 5, puede resultar especialmente
ventajoso cuando está situado en la estación base 340, por ejemplo.
No obstante, el bloque de decodificación 320 puede también estar
situado en el controlador de estación base 350 o en otro
dispositivo central o de conmutación 355, por ejemplo. Si el
sistema de estación móvil utiliza
trans-codificadores independientes, por ejemplo
entre las estaciones base y los controladores de estación base para
transformar la señal codificada tomada a través del canal de radio
en una señal típica de 64 kbits por segundo transferida en un
sistema de telecomunicaciones y viceversa, el bloque decodificador
320 puede también estar situado en dicho
trans-codificador. En general el bloque
decodificador 320, incluyendo la unidad de
post-procesamiento 322 puede estar situado en
cualquier elemento de la red de telecomunicaciones 300 que
transforma el flujo de datos codificado en un flujo de datos no
codificado. El bloque decodificador 320 decodifica y filtra la
señal de voz codificada procedente de la estación móvil 330, tras
lo cual la señal de voz puede transmitirse sin comprimir de la
forma normal a través de la red de telecomunicaciones 300.
La figura 8 es un organigrama que muestra el
método 500 de codificación de voz de acuerdo con la presente
invención. Como se muestra, cuando se recibe la señal de entrada de
voz 100 en la etapa 510, el algoritmo de detección de la actividad
de voz 98 se utiliza en la etapa 520 para determinar si la señal de
entrada 110 del período actual representa voz o ruido. Durante el
período de voz, el ruido artificial procesado 152 se pone a escala
con un primer factor de escala 114 en la etapa 530. Durante los
períodos de ruido o sin voz, la señal artificial procesada 152 se
pone a escala con un segundo factor de escala en la etapa 540. El
proceso se repite en la etapa 520 para el siguiente período.
A fin de proporcionar los componentes de alta
frecuencia de la voz sintetizada, la señal artificial o ruido
aleatorio se filtra en una banda de frecuencias de 6,0 a 7,0 kHz.
No obstante, la banda de frecuencias filtrada puede ser diferente
en función de la tasa de muestreo del codec, por ejemplo.
Claims (28)
1. Método para codificación de voz (500) para
codificar y decodificar una señal de entrada (100) con períodos de
voz activos y períodos de voz inactivos y para proporcionar una
señal de voz sintetizada (110) con componentes de alta frecuencia y
componentes de baja frecuencia en el que la señal de entrada se
divide en una banda de alta frecuencia y en una banda de baja
frecuencia durante los procesos de codificación y de síntesis de
voz, y en el que parámetros vocales (104) característicos de la
banda de baja frecuencia se utilizan para procesar una señal
artificial (150) a fin de proporcionar una señal artificial
procesada (152) para proporcionar adicionalmente los componentes de
la frecuencia superior (160) de la voz sintetizada, incluyendo
dicho método las etapas de:
puesta a escala (530) de la señal artificial
procesada (152) mediante un primer factor de escala (114, 144)
durante los períodos de voz activos, y
puesta a escala (540) de la señal artificial
procesada (152) mediante un segundo factor de escala (114 y 115,
144 y 145) durante los períodos de voz inactivos, en el que dicho
primer factor de escala es característico de la banda de alta
frecuencia de la señal de entrada, siendo el segundo factor de
escala característico de la banda de baja frecuencia de la señal de
entrada.
2. Método según la reivindicación 1 en el que la
señal artificial procesada (152) se somete a filtrado paso alto
para obtener una señal filtrada (154) en una banda de frecuencias
característica de los componentes de alta frecuencia de la voz
sintetizada.
3. Método según la reivindicación 2 en el que la
banda de frecuencias está situada en la banda de 6,4 a 8,0 kHz.
4. Método según la reivindicación 1 en el que la
señal de entrada (100) se somete a filtrado paso alto para
proporcionar una señal filtrada (112) en una banda de frecuencias
característica de los componentes de alta frecuencia de la voz
sintetizada y en el que el primer factor de escala (114, 144) se
calcula a partir de la señal filtrada (112).
5. Método según la reivindicación 4 en el que
los períodos de voz inactivos incluyen períodos de hangover de voz
y períodos de ruido de confort, en el que el segundo factor de
escala (114 y 115, 144 y 145) para poner a escala la señal
artificial procesada (152) durante los períodos de hangover de voz
se calcula a partir de la señal filtrada (112).
6. Método según la reivindicación 5 en el que
los componentes de baja frecuencia de la voz sintetizada se
reconstruyen a partir de la banda de baja frecuencia codificada
(106) de la señal de entrada (100) y en el que el segundo factor de
escala (114 y 115, 144 y 145) para poner a escala la señal
artificial procesada (152) durante los períodos de hangover de voz
se calcula también a partir de los componentes de baja frecuencia
de la voz sintetizada.
7. Método según la reivindicación 6 en el que el
segundo factor de escala (114 y 115, 144 y 145) para poner a
escala la señal artificial procesada (152) durante los períodos de
ruido confort se calcula a partir de los componentes de baja
frecuencia de la voz sintetizada.
8. Método según la reivindicación 6 que incluye
adicionalmente la etapa de transmisión de un flujo binario
codificado a un extremo receptor para su decodificación, cuyo flujo
binario codificado incluye datos (118) indicadores del primer
factor de escala (114, 144).
9. Método según la reivindicación 8 en el que el
flujo binario codificado incluye datos (118) indicadores del
segundo factor de escala (114 y 115) para poner a escala la señal
artificial procesada (152) durante los períodos de hangover de
voz.
10. Método según la reivindicación 8 en el que
el segundo factor de escala (114 y 115, 144 y 145) para poner a
escala la señal artificial procesada se proporciona en el extremo
receptor (34).
11. Método según la reivindicación 6 en el que
el segundo factor de escala (114 y 115, 144 y 145) es indicativo
de un factor de inclinación espectral determinado a partir de los
componentes de baja frecuencia de la voz sintetizada.
12. Método según la reivindicación 7 en el que
el segundo factor de escala (114 y 115, 144 y 145) para poner a
escala la señal artificial procesada en los períodos de ruido de
confort es indicativo de un factor de inclinación espectral
determinado a partir de los componentes de baja frecuencia de la
voz sintetizada.
13. Método según la reivindicación 4 en el que
el primer factor de escala (114, 144) se calcula adicionalmente a
partir de la señal artificial procesada (152).
14. Método según la reivindicación 1 que incluye
adicionalmente la etapa de proporcionar información de actividad
vocal (190) en función de la señal de entrada (100) para supervisar
los períodos de voz activos y los períodos de voz inactivos.
\newpage
15. Método según la reivindicación 1 en el que
los parámetros vocales incluyen coeficientes de codificación
lineal predictiva característicos de la banda de baja frecuencia de
la señal de entrada.
16. Sistema transmisor y receptor de señales de
voz para codificar y decodificar una señal de entrada (100) con
períodos de voz activos y períodos de voz inactivos y para
proporcionar una señal de voz sintetizada (110) con componentes de
alta frecuencia y componentes de baja frecuencia en el que la señal
de entrada se divide en una banda de alta frecuencia y en una banda
de baja frecuencia durante los procesos de codificación y de
síntesis vocal, y en el que se utilizan parámetros vocales (118,
104, 140, 145) característicos de la banda de baja frecuencia de la
señal de entrada para procesar una señal artificial (150) en el
receptor (30), a fin de proporcionar los componentes de la
frecuencia superior (160) de la voz sintetizada, incluyendo dicho
sistema:
primeros medios (12, 14) en el transmisor, que
responden a la señal de entrada (100) para proporcionar un primer
factor de escala (114, 144) característico de la banda de alta
frecuencia de la señal de entrada;
un decodificador (34) en el receptor para
recibir un flujo binario codificado procedente del transmisor, cuyo
flujo binario codificado contiene los parámetros vocales
incluyendo datos (118) indicativos del primer factor de escala
(114, 144); y
segundos medios (40, 56) en el receptor, que
responden a los parámetros vocales (118, 145) para proporcionar un
segundo factor de escala (144 y 145) y para poner a escala la señal
artificial procesada (152) con el segundo factor de escala (144,
145) durante los períodos de voz inactivos y para poner a escala la
señal artificial procesada (152) con el primer factor de escala
(114, 144) durante los períodos de voz activos, en el que el primer
factor de escala es característico de la banda de alta frecuencia
de la señal de entrada y el segundo factor de escala es
característico de la banda de baja frecuencia de la señal de
entrada.
17. Sistema según la reivindicación 16, en el
que el primer medio incluye unos medios de filtrado (12) para
filtrado paso alto de la señal de entrada y proporcionar una señal
de entrada filtrada (112) con un rango de frecuencias
correspondiente a los componentes de alta frecuencia de la voz
sintetizada y en el que el primer factor de escala (114, 144) se
calcula a partir de la señal de entrada filtrada (112).
18. Sistema según la reivindicación 17 en el que
la banda de frecuencias se encuentra situada en la banda de 6,4 a
8,0 kHz.
19. Sistema según la reivindicación 17 que
incluye adicionalmente terceros medios (16, 24) en el transmisor
para proporcionar un ruido aleatorio con filtrado paso alto (134)
en la banda de frecuencias correspondiente a los componentes de
alta frecuencia de la señal sintetizada y para modificar el primer
factor de escala (114, 144) en función del ruido aleatorio con
filtrado paso alto.
20. Sistema según la reivindicación 16 que
incluye adicionalmente medios (98) que responden a la señal de
entrada (100) para supervisar los períodos de voz activos y los
períodos de voz inactivos.
21. Sistema según la reivindicación 16 que
incluye adicionalmente medios (18) que responden al primer factor
de escala (114, 144) para proporcionar un primer factor de escala
codificado (118) y para incluir datos indicativos del primer factor
de escala codificado en el flujo binario codificado para su
transmisión.
22. Sistema según la reivindicación 19, que
incluye adicionalmente medios (18) que responden al primer factor
de escala (114, 144) para proporcionar un primer factor de escala
codificado (118) y para incluir datos indicativos del primer factor
de escala codificado en el flujo binario codificado para su
transmisión.
23. Codificador (10) para codificar una señal de
entrada (100) con períodos de voz activos y períodos de voz
inactivos y en el que la señal de entrada se divide en una banda de
alta frecuencia y una banda de baja frecuencia y para proporcionar
un flujo binario codificado que contenga parámetros vocales (104)
característicos de la banda de baja frecuencia de la señal de
entrada para permitir que un decodificador (34) utilice los
parámetros vocales para procesar una señal artificial (150) para
proporcionar los componentes de alta frecuencia (160) de la voz
sintetizada y en el que un factor de escala (144 y 145, 144 y 145)
basado en la banda de baja frecuencia de la señal de entrada se
utiliza para poner a escala la señal artificial procesada (152)
durante los períodos de voz inactivos, incluyendo dicho
codificador
medios (12) que responden a la señal de entrada
(100) para filtrado paso alto de la señal de entrada (100) para
proporcionar una señal filtrada paso alto (112) en una banda de
frecuencias correspondientes a los componentes de alta frecuencia
de la voz sintetizada (110) y para proporcionar adicionalmente un
factor de escala adicional (114, 144) basado en la señal filtrada
paso alto (112), y
medios (18) que responden al factor de escala
adicional (114, 144) para proporcionar una señal codificada (118)
indicativa del factor de escala adicional (114, 144) al flujo
binario codificado a fin de permitir al decodificador (34) recibir
la señal codificada y utilizar el factor de escala adicional (114,
144) para poner a escala la señal artificial procesada (152)
durante los períodos de voz activos.
24. Estación móvil (200) configurada para
transmitir un flujo binario codificado a un decodificador (34, 220)
para proporcionar voz sintetizada (110) con unos componentes de
alta frecuencia y componentes de baja frecuencia cuyo flujo binario
codificado incluye datos de voz indicativos de una señal de entrada
(100) teniendo la señal de entrada períodos de voz activos y
períodos de voz inactivos y siendo dividida en una banda de alta
frecuencia y en una banda de baja frecuencia, incluyendo los datos
de voz parámetros vocales (104) característicos de la banda de baja
frecuencia de la señal de entrada para permitir al decodificador
(34) proporcionar los componentes de baja frecuencia de la voz
sintetizada en función de los parámetros vocales y para colorear
una señal artificial (150) en función de los parámetros vocales
(104) y para poner a escala la señal artificial coloreada (154) con
un factor de escala (144 y 145) en función de los componentes de
baja frecuencia de la voz sintetizada a fin de proporcionar los
componentes de alta frecuencia (160) de la voz sintetizada durante
los períodos de voz inactivos incluyendo dicha estación móvil:
un filtro (12) que responde a la señal de
entrada (100) para filtrado paso alto de la señal de entrada en una
banda de frecuencias correspondiente a los componentes de alta
frecuencia de la voz sintetizada y para proporcionar un factor de
escala adicional (114, 144) a partir de la señal de entrada
filtrada paso alto (112); y
un módulo de cuantificación (18) que responde al
factor de escala adicional (114, 144) para proporcionar una señal
codificada (118) indicativa del factor de escala adicional (114,
144) al flujo binario codificado para permitir al decodificador
(34) poner a escala la señal artificial coloreada (154) durante los
períodos de voz activos en función del factor de escala adicional
(114, 144).
25. Elemento (34, 320) de una red de
telecomunicaciones (300) configurado para recibir un flujo binario
codificado que contiene datos de voz indicativos de una señal de
entrada procedente de una estación móvil (330) para proporcionar
voz sintetizada con unos componentes de alta frecuencia y unos
componentes de baja frecuencia, en el que la señal de entrada tiene
períodos de voz activos y períodos de voz inactivos y la señal de
entrada se divide en una banda de alta frecuencia y una banda de
baja frecuencia, en el que los datos de voz (104, 118, 145, 190)
incluyen parámetros vocales (104) característicos de la banda de
baja frecuencia de la señal de entrada y parámetros de ganancia
(118) característicos de la banda de alta frecuencia de la señal de
entrada y en el que se proporcionan los componentes de baja
frecuencia de la voz sintetizada en función de los parámetros
vocales (104) incluyendo dicho elemento:
un primer mecanismo (38) que responde a los
parámetros de ganancia (118) para proporcionar un primer factor de
escala (144);
un segundo mecanismo (52, 54) que responde a los
parámetros vocales (104) para sintetizar y para filtrado paso alto
una señal artificial (150) para proporcionar una señal artificial
filtrada paso alto y sintetizada (154);
un tercer mecanismo (40) que responde al primer
factor de escala (144) y a los datos de voz (145, 190) para
proporcionar un factor de escala combinado (146) que incluye el
primer factor de escala (144) característico de la banda de alta
frecuencia de la señal de entrada y un segundo factor de escala
(144, 145) basado en el primer factor de escala (144) y un
parámetro adicional relacionado con la voz (145) característico de
los componentes de baja frecuencia de la voz sintetizada; y
un cuarto mecanismo (56) que responde a la señal
artificial sintetizada y filtrada paso alto (154) y al factor de
escala combinado (146) para poner a escala la señal artificial
sintetizada y filtrada paso alto (154) con el primer (144) y el
segundo (144 y 145) factores de puesta a escala durante los
períodos de voz activos y los períodos de voz inactivos
respectivamente.
26. Aparato decodificador (30) para decodificar
un flujo binario codificado indicativo de una señal de entrada con
períodos de voz activos y períodos de voz inactivos para
proporcionar una señal de voz sintetizada (110) teniendo la señal
de voz sintetizada (110) componentes de alta frecuencia y
componentes de baja frecuencia en el que los componentes de alta
frecuencia se sintetizan utilizando una señal artificial (150) y en
el que la señal de entrada se divide en una banda de alta
frecuencia y una banda de baja frecuencia en los procesos de
codificación y síntesis de voz, incluyendo el flujo binario
codificado unos primeros datos indicativos de parámetros vocales
(114, 144) característicos de la banda de alta frecuencia de la
señal de entrada y unos segundos datos (104) característicos de la
banda de baja frecuencia de la señal de entrada, incluyendo dicho
aparato decodificador (30):
unos medios de procesamiento (52) configurados
para procesar la señal artificial (150) en función de los segundos
datos (104) para proporcionar una señal artificial procesada (152);
y
unos medios de puesta a escala (40, 56)
configurados para poner a escala la señal artificial procesada
(152) con un primer factor de escala (114, 144) en función de los
primeros datos durante los períodos de voz activos y para poner a
escala la señal artificial procesada (152) con un segundo factor de
escala (114 y 115, 144 y 145) en función de los datos del segundo
parámetro durante los períodos de voz inactivos.
27. Aparato decodificador (30) según la
reivindicación 26 que incluye adicionalmente:
unos medios de filtrado (54) que responden a la
señal artificial procesada (154) para proporcionar una señal
filtrada paso alto en una banda de frecuencias característica de
los componentes de alta frecuencia (160) de la señal de voz
sintetizada (110).
28. Aparato decodificador (30) según la
reivindicación 26 en el que los componentes de baja frecuencia de
la señal de voz sintetizada se reconstruyen a partir de una banda
de baja frecuencia codificada (106) de la señal de entrada (100),
y en el que el segundo factor de escala (114 y 115, 144 y 145) para
poner a escala la señal artificial procesada (152) se calcula a
partir de los componentes de baja frecuencia de la señal de voz
sintetizada (110).
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US09/691,440 US6615169B1 (en) | 2000-10-18 | 2000-10-18 | High frequency enhancement layer coding in wideband speech codec |
| US691440 | 2000-10-18 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2265442T3 true ES2265442T3 (es) | 2007-02-16 |
Family
ID=24776540
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES01974612T Expired - Lifetime ES2265442T3 (es) | 2000-10-18 | 2001-10-17 | Aparato para la expansion del ancho de banda de una señal vocal. |
Country Status (14)
| Country | Link |
|---|---|
| US (1) | US6615169B1 (es) |
| EP (1) | EP1328928B1 (es) |
| JP (1) | JP2004512562A (es) |
| KR (1) | KR100547235B1 (es) |
| CN (1) | CN1244907C (es) |
| AT (1) | ATE330311T1 (es) |
| AU (1) | AU2001294125A1 (es) |
| BR (1) | BR0114669A (es) |
| CA (1) | CA2425926C (es) |
| DE (1) | DE60120734T2 (es) |
| ES (1) | ES2265442T3 (es) |
| PT (1) | PT1328928E (es) |
| WO (1) | WO2002033697A2 (es) |
| ZA (1) | ZA200302468B (es) |
Families Citing this family (53)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7113522B2 (en) * | 2001-01-24 | 2006-09-26 | Qualcomm, Incorporated | Enhanced conversion of wideband signals to narrowband signals |
| US7522586B2 (en) * | 2002-05-22 | 2009-04-21 | Broadcom Corporation | Method and system for tunneling wideband telephony through the PSTN |
| GB2389217A (en) * | 2002-05-27 | 2003-12-03 | Canon Kk | Speech recognition system |
| BRPI0311601B8 (pt) * | 2002-07-19 | 2018-02-14 | Matsushita Electric Industrial Co Ltd | "aparelho e método decodificador de áudio" |
| DE10252070B4 (de) * | 2002-11-08 | 2010-07-15 | Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale | Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür |
| US7406096B2 (en) * | 2002-12-06 | 2008-07-29 | Qualcomm Incorporated | Tandem-free intersystem voice communication |
| FR2867649A1 (fr) * | 2003-12-10 | 2005-09-16 | France Telecom | Procede de codage multiple optimise |
| KR100587953B1 (ko) | 2003-12-26 | 2006-06-08 | 한국전자통신연구원 | 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템 |
| FI118834B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Audiosignaalien luokittelu |
| JP4529492B2 (ja) * | 2004-03-11 | 2010-08-25 | 株式会社デンソー | 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム |
| FI119533B (fi) * | 2004-04-15 | 2008-12-15 | Nokia Corp | Audiosignaalien koodaus |
| US8463602B2 (en) * | 2004-05-19 | 2013-06-11 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
| WO2006018748A1 (en) * | 2004-08-17 | 2006-02-23 | Koninklijke Philips Electronics N.V. | Scalable audio coding |
| JP4771674B2 (ja) * | 2004-09-02 | 2011-09-14 | パナソニック株式会社 | 音声符号化装置、音声復号化装置及びこれらの方法 |
| KR20070070189A (ko) * | 2004-10-27 | 2007-07-03 | 마츠시타 덴끼 산교 가부시키가이샤 | 음성 부호화 장치 및 음성 부호화 방법 |
| US7386445B2 (en) * | 2005-01-18 | 2008-06-10 | Nokia Corporation | Compensation of transient effects in transform coding |
| UA94041C2 (ru) * | 2005-04-01 | 2011-04-11 | Квелкомм Инкорпорейтед | Способ и устройство для фильтрации, устраняющей разреженность |
| US7813931B2 (en) * | 2005-04-20 | 2010-10-12 | QNX Software Systems, Co. | System for improving speech quality and intelligibility with bandwidth compression/expansion |
| US8249861B2 (en) * | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
| US8086451B2 (en) | 2005-04-20 | 2011-12-27 | Qnx Software Systems Co. | System for improving speech intelligibility through high frequency compression |
| US8311840B2 (en) * | 2005-06-28 | 2012-11-13 | Qnx Software Systems Limited | Frequency extension of harmonic signals |
| US7991611B2 (en) * | 2005-10-14 | 2011-08-02 | Panasonic Corporation | Speech encoding apparatus and speech encoding method that encode speech signals in a scalable manner, and speech decoding apparatus and speech decoding method that decode scalable encoded signals |
| US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
| WO2008032828A1 (en) * | 2006-09-15 | 2008-03-20 | Panasonic Corporation | Audio encoding device and audio encoding method |
| WO2008053970A1 (en) * | 2006-11-02 | 2008-05-08 | Panasonic Corporation | Voice coding device, voice decoding device and their methods |
| US20100076755A1 (en) * | 2006-11-29 | 2010-03-25 | Panasonic Corporation | Decoding apparatus and audio decoding method |
| CN101246688B (zh) * | 2007-02-14 | 2011-01-12 | 华为技术有限公司 | 一种对背景噪声信号进行编解码的方法、系统和装置 |
| US7912729B2 (en) | 2007-02-23 | 2011-03-22 | Qnx Software Systems Co. | High-frequency bandwidth extension in the time domain |
| US8195454B2 (en) * | 2007-02-26 | 2012-06-05 | Dolby Laboratories Licensing Corporation | Speech enhancement in entertainment audio |
| US20080208575A1 (en) * | 2007-02-27 | 2008-08-28 | Nokia Corporation | Split-band encoding and decoding of an audio signal |
| EP2186090B1 (en) | 2007-08-27 | 2016-12-21 | Telefonaktiebolaget LM Ericsson (publ) | Transient detector and method for supporting encoding of an audio signal |
| CN101483495B (zh) * | 2008-03-20 | 2012-02-15 | 华为技术有限公司 | 一种背景噪声生成方法以及噪声处理装置 |
| CA2699316C (en) * | 2008-07-11 | 2014-03-18 | Max Neuendorf | Apparatus and method for calculating bandwidth extension data using a spectral tilt controlled framing |
| CN101751926B (zh) * | 2008-12-10 | 2012-07-04 | 华为技术有限公司 | 信号编码、解码方法及装置、编解码系统 |
| US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
| US8798290B1 (en) * | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
| EP3079153B1 (en) * | 2010-07-02 | 2018-08-01 | Dolby International AB | Audio decoding with selective post filtering |
| JP5552988B2 (ja) * | 2010-09-27 | 2014-07-16 | 富士通株式会社 | 音声帯域拡張装置および音声帯域拡張方法 |
| CN105225669B (zh) | 2011-03-04 | 2018-12-21 | 瑞典爱立信有限公司 | 音频编码中的后量化增益校正 |
| JP5596618B2 (ja) * | 2011-05-17 | 2014-09-24 | 日本電信電話株式会社 | 擬似広帯域音声信号生成装置、擬似広帯域音声信号生成方法、及びそのプログラム |
| CN102800317B (zh) * | 2011-05-25 | 2014-09-17 | 华为技术有限公司 | 信号分类方法及设备、编解码方法及设备 |
| CN103187065B (zh) | 2011-12-30 | 2015-12-16 | 华为技术有限公司 | 音频数据的处理方法、装置和系统 |
| EP2898506B1 (en) | 2012-09-21 | 2018-01-17 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
| MY178710A (en) | 2012-12-21 | 2020-10-20 | Fraunhofer Ges Forschung | Comfort noise addition for modeling background noise at low bit-rates |
| JP6180544B2 (ja) * | 2012-12-21 | 2017-08-16 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオ信号の不連続伝送における高スペクトル−時間分解能を持つコンフォートノイズの生成 |
| CN103928029B (zh) * | 2013-01-11 | 2017-02-08 | 华为技术有限公司 | 音频信号编码和解码方法、音频信号编码和解码装置 |
| US9336789B2 (en) * | 2013-02-21 | 2016-05-10 | Qualcomm Incorporated | Systems and methods for determining an interpolation factor set for synthesizing a speech signal |
| US9812144B2 (en) * | 2013-04-25 | 2017-11-07 | Nokia Solutions And Networks Oy | Speech transcoding in packet networks |
| US9570093B2 (en) * | 2013-09-09 | 2017-02-14 | Huawei Technologies Co., Ltd. | Unvoiced/voiced decision for speech processing |
| CN111370009B (zh) * | 2013-10-18 | 2023-12-22 | 弗朗霍夫应用科学研究促进协会 | 使用语音相关的频谱整形信息编码音频信号和解码音频信号的概念 |
| CA2927722C (en) * | 2013-10-18 | 2018-08-07 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
| EP2980790A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for comfort noise generation mode selection |
| WO2016123560A1 (en) | 2015-01-30 | 2016-08-04 | Knowles Electronics, Llc | Contextual switching of microphones |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6011360B2 (ja) * | 1981-12-15 | 1985-03-25 | ケイディディ株式会社 | 音声符号化方式 |
| JP2779886B2 (ja) * | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
| EP0732687B2 (en) * | 1995-03-13 | 2005-10-12 | Matsushita Electric Industrial Co., Ltd. | Apparatus for expanding speech bandwidth |
| EP0764939B1 (en) * | 1995-09-19 | 2002-05-02 | AT&T Corp. | Synthesis of speech signals in the absence of coded parameters |
| KR20000047944A (ko) | 1998-12-11 | 2000-07-25 | 이데이 노부유끼 | 수신장치 및 방법과 통신장치 및 방법 |
-
2000
- 2000-10-18 US US09/691,440 patent/US6615169B1/en not_active Expired - Lifetime
-
2001
- 2001-10-17 KR KR1020037005299A patent/KR100547235B1/ko not_active Expired - Lifetime
- 2001-10-17 CN CNB018175996A patent/CN1244907C/zh not_active Expired - Lifetime
- 2001-10-17 WO PCT/IB2001/001947 patent/WO2002033697A2/en not_active Ceased
- 2001-10-17 AT AT01974612T patent/ATE330311T1/de not_active IP Right Cessation
- 2001-10-17 AU AU2001294125A patent/AU2001294125A1/en not_active Abandoned
- 2001-10-17 BR BR0114669-6A patent/BR0114669A/pt active IP Right Grant
- 2001-10-17 DE DE60120734T patent/DE60120734T2/de not_active Expired - Lifetime
- 2001-10-17 CA CA002425926A patent/CA2425926C/en not_active Expired - Lifetime
- 2001-10-17 EP EP01974612A patent/EP1328928B1/en not_active Expired - Lifetime
- 2001-10-17 JP JP2002537004A patent/JP2004512562A/ja active Pending
- 2001-10-17 PT PT01974612T patent/PT1328928E/pt unknown
- 2001-10-17 ES ES01974612T patent/ES2265442T3/es not_active Expired - Lifetime
-
2003
- 2003-03-28 ZA ZA200302468A patent/ZA200302468B/en unknown
Also Published As
| Publication number | Publication date |
|---|---|
| CN1244907C (zh) | 2006-03-08 |
| AU2001294125A1 (en) | 2002-04-29 |
| JP2004512562A (ja) | 2004-04-22 |
| ZA200302468B (en) | 2004-03-29 |
| DE60120734T2 (de) | 2007-06-14 |
| DE60120734D1 (de) | 2006-07-27 |
| EP1328928B1 (en) | 2006-06-14 |
| CN1470052A (zh) | 2004-01-21 |
| US6615169B1 (en) | 2003-09-02 |
| CA2425926A1 (en) | 2002-04-25 |
| PT1328928E (pt) | 2006-09-29 |
| KR20030046510A (ko) | 2003-06-12 |
| BR0114669A (pt) | 2004-02-17 |
| KR100547235B1 (ko) | 2006-01-26 |
| CA2425926C (en) | 2009-01-27 |
| WO2002033697A3 (en) | 2002-07-11 |
| ATE330311T1 (de) | 2006-07-15 |
| WO2002033697A2 (en) | 2002-04-25 |
| EP1328928A2 (en) | 2003-07-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2265442T3 (es) | Aparato para la expansion del ancho de banda de una señal vocal. | |
| ES2287150T3 (es) | Metodo y sistema para estimacion artificial de una señal de banda alta en un codificador-decodificador de voz. | |
| JP4927257B2 (ja) | 可変レートスピーチ符号化 | |
| US5778335A (en) | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding | |
| ES2205892T3 (es) | Aumento de la periodicidad al descodificar señales de banda ancha. | |
| ES2266003T3 (es) | Suavizador de la ganancia en un descodificador de señal de habla y audio de banda ancha. | |
| KR100574031B1 (ko) | 음성합성방법및장치그리고음성대역확장방법및장치 | |
| JP4824167B2 (ja) | 周期的スピーチコーディング | |
| CN1307614C (zh) | 合成语音的方法和装置 | |
| KR101668401B1 (ko) | 오디오 신호를 인코딩하기 위한 방법 및 장치 | |
| JPH09503874A (ja) | 減少レート、可変レートの音声分析合成を実行する方法及び装置 | |
| JP2007532963A (ja) | 音声信号の符号化 | |
| EP0255524B1 (en) | Method and apparatus for synthesizing speech without voicing or pitch information | |
| KR20000047944A (ko) | 수신장치 및 방법과 통신장치 및 방법 | |
| JP2002509294A (ja) | 暗騒音条件下における音声符号化の方法 | |
| US6240383B1 (en) | Celp speech coding and decoding system for creating comfort noise dependent on the spectral envelope of the speech signal | |
| JP2002536693A (ja) | 可変率音声符号化に基づいた音声合成装置 | |
| CN100403401C (zh) | 根据窄带语音信号估测宽带语音信号的语音扩展器和方法 | |
| Choudhary et al. | Study and performance of amr codecs for gsm | |
| JP4230550B2 (ja) | 音声符号化方法及び装置、並びに音声復号化方法及び装置 | |
| JP2000206998A (ja) | 受信装置及び方法、通信装置及び方法 | |
| JP2001094507A (ja) | 擬似背景雑音生成方法 | |
| JPH11119796A (ja) | 音声信号区間検出方法及び装置 | |
| JPH08223125A (ja) | 音声復号装置 |