ES2329060T3 - Sistema y procedimiento para la expansion artificial mejorada del ancho de banda. - Google Patents
Sistema y procedimiento para la expansion artificial mejorada del ancho de banda. Download PDFInfo
- Publication number
- ES2329060T3 ES2329060T3 ES05742453T ES05742453T ES2329060T3 ES 2329060 T3 ES2329060 T3 ES 2329060T3 ES 05742453 T ES05742453 T ES 05742453T ES 05742453 T ES05742453 T ES 05742453T ES 2329060 T3 ES2329060 T3 ES 2329060T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- noise
- information
- ratio
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000004891 communication Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 description 16
- 208000037656 Respiratory Sounds Diseases 0.000 description 15
- 206010047924 Wheezing Diseases 0.000 description 15
- 230000000694 effects Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000002360 explosive Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 229940055355 control rx Drugs 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
- Telephonic Communication Services (AREA)
- Prostheses (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
Un procedimiento para expandir las señales de voz de banda estrecha a señales de voz de banda ancha, comprendiendo el procedimiento: determinar la información del tipo de señal a partir de una señal, en donde la información del tipo de señal se determina sobre la base de una razón entre señal y ruido del entorno lejano de la señal, y de una razón entre señal y ruido del entorno cercano de la señal; obtener características para formar una señal de banda superior, utilizando la información determinada del tipo de señal; determinar la información de ruido de la señal; utilizar la información determinada del ruido de la señal para modificar las características obtenidas, a fin de formar la señal de banda superior; y formar la señal de banda superior utilizando las características modificadas.
Description
Sistema y procedimiento para la expansión
artificial mejorada del ancho de banda.
La presente invención se refiere a sistemas y
procedimientos para la mejora de la calidad en una señal de voz
reproducida eléctricamente. Más específicamente, la presente
invención se refiere a un sistema y procedimiento para la expansión
artificial y mejorada del ancho de banda, para la mejora de la
calidad de la señal.
Las señales de voz se transmiten usualmente con
un ancho de banda limitado en sistemas de telecomunicación, tal
como una red del GSM (Sistema Global para las Comunicaciones
Móviles). El ancho de banda tradicional para las señales de voz en
tales sistemas es de menos de 4 kHz (0,3 a 3,4 kHz) aunque la voz
contiene componentes de frecuencia de hasta 10 kHz. El ancho de
banda limitado da como resultado malas prestaciones tanto en la
calidad como en la inteligibilidad. Los seres humanos perciben mejor
calidad e inteligibilidad si la banda de frecuencia de la señal de
voz es de banda ancha, es decir, de hasta 8 kHz.
Las características del ruido pueden variar
mucho. El ruido puede ser, por ejemplo, ruido leve de oficina,
ruido alto de coche, ruido de calle o ruido de murmullo (murmullo de
voces, tintineo de platos, etc.). Además de las distintas
características, el ruido puede estar presente bien alrededor del
usuario del teléfono móvil en el entorno cercano
(ruido-tx, de transmisor) o alrededor del
interlocutor en la conversación, en el entorno lejano
(ruido-rx, de receptor). El ruido-rx
corrompe la señal de voz y, por lo tanto, el ruido también se
expande hacia la banda alta, junto con la voz. En situaciones con un
alto nivel de ruido-rx, esto es un problema, pues
el ruido comienza a ser molesto, debido a los componentes de alta
frecuencia generados artificialmente. El ruido-tx
degrada la inteligibilidad enmascarando la señal de voz
recibida.
Las soluciones de expansión artificial del ancho
de banda (ABE) de la técnica anterior adolecen de malas prestaciones
en situaciones ruidosas. Una solución anterior de ABE se describe
en la Solicitud de Patente Estadounidense de Nº de Serie
10/341.332, titulada "Method and Apparatus for Artificial
Bandwidth Expansion in Speech Processing" ["Procedimiento y
Aparato para la Expansión Artificial del Ancho de Banda en el
Procesamiento de la Voz"], transferida al mismo cesionario de la
presente solicitud, e incorporada aquí por referencia en su
totalidad. Una ventaja de este algoritmo de ABE anteriormente
desarrollado es que es considerablemente más robusto con voz
ruidosa y codificada. Sin embargo, hay problemas con este algoritmo,
incluyendo la presencia de efectos que degradan la naturalidad
general de la calidad percibida. Los cambios bruscos en la banda
alta de la voz expandida pueden causar efectos audibles. Además,
este algoritmo anterior incluye un ancho de banda de frecuencias de
0 a 4 kHz.
Los componentes de frecuencia ausentes son
especialmente importantes para sonidos de la voz como las fricativas
(por ejemplo /s/ y /z/) porque una parte considerable de los
componentes de frecuencia se sitúan por encima de los 4 kHz. La
inteligibilidad de las explosivas (/t/, /p/, etc.) padece también de
la falta de frecuencias altas, incluso aunque la información
principal de estos sonidos esté en las frecuencias más bajas. Para
sonidos vocálicos, la falta de frecuencias da como resultado,
principalmente, una naturalidad percibida como degradada. Debido a
que la importancia de los componentes de alta frecuencia difiere
entre los sonidos de la voz, la generación de la banda alta de una
señal expandida debería realizarse de forma distinta para cada grupo
de fonemas.
De tal manera, hay una necesidad de un
procedimiento informático robusto para la clasificación de los
distintos grupos de fonemas. Además, hay una necesidad de un
procedimiento mejorado que impida las clasificaciones erróneas, y
por ello, los efectos audibles aún presentes en los algoritmos
anteriores. Más aún, hay una necesidad de un sistema y
procedimiento mejorados para la expansión mejorada artificial del
ancho de banda, para la mejora de la calidad de la señal. El
documento EP 1.008.984 describe un procedimiento de realización de
la síntesis de la voz en banda ancha a partir de una señal de voz
de banda estrecha. En un componente receptor, un expansor de ancho
de banda produce, a partir de un código de parámetro de sonido de
voz, concebido para la producción de una señal de sonido de voz con
una frecuencia de voz incluida en una primera banda B1 de 300 a
3.400 Hz, un parámetro de sonido de voz para una segunda banda B2
de 3.400 a 6.000 Hz, para sintetizar una LPC (Codificación Lineal
Predictiva) de banda ancha por medio de un circuito de síntesis de
LPC. A continuación, un componente de banda de baja frecuencia (300
a 3.400 Hz) de un sonido de voz original es reemplazado por una
señal resultante del muestreo aumentado del sonido de voz original.
Es decir, el sonido de voz es suministrado a un filtro de paso alto
para mantener sólo un componente de banda de alta frecuencia (3.400
a 6.000 Hz) del sonido de voz. Se suprime un componente de alta
frecuencia de la banda de alta frecuencia, y se ajusta la ganancia,
y luego el sonido de voz original (300 a 3.400 Hz) se suma al
obtenido por muestreo aumentado (de la segunda tasa fs2 de
muestreo) en un sumador. El documento "On Artificial Bandwidth
Extension of Telephone Speech" ["Sobre la extensión artificial
del ancho de banda de la voz por teléfono"] (Peter Jax, Peter
Vary) expone un algoritmo de procesamiento de señales para
convertir señales de voz con calidad de "telefonía estándar"
en voz de banda ancha de 7kHz. Se utiliza un enfoque estadístico
basado en un modelo de Markov oculto (MMO), que tiene en cuenta
varias características de la voz de banda limitada.
La presente invención, como se estipula en las
reivindicaciones independientes, se refiere a un procedimiento,
dispositivo, sistema y producto de programa de ordenador para
expandir el ancho de banda de una señal de voz, insertando
componentes de frecuencia que no han sido transmitidos con la señal.
El sistema incluye la dependencia del ruido de un algoritmo de
expansión artificial del ancho de banda. Esta característica tiene
en cuenta las condiciones del ruido y ajusta el algoritmo
automáticamente de forma tal que se maximice la inteligibilidad de
la voz, preservando a la vez una buena calidad percibida. Las
realizaciones preferidas se exponen en las reivindicaciones
subordinadas.
Las características y ventajas principales de la
invención se harán evidentes para aquellos versados en la técnica,
al examinar los siguientes dibujos, la descripción detallada y las
reivindicaciones adjuntas.
Las realizaciones ejemplares se describirán a
continuación con referencia a los dibujos adjuntos.
La Fig. 1 es un diagrama que ilustra la división
del ruido según una realización ejemplar.
La Fig. 2 es un diagrama que ilustra las
operaciones en un procedimiento de clasificación de tramas según una
realización ejemplar.
La Fig. 3 es un gráfico que ilustra la
influencia de la estimación de rx-SNR (razón entre
señal y ruido del entorno lejano) sobre el coeficiente vocalizado
que controla el procesamiento de los sonidos de la voz.
La Fig. 4 es un gráfico que ilustra la
influencia de la estimación de tx_SNR (razón entre señal y ruido del
entorno cercano) sobre el coeficiente vocalizado después de que se
ha tenido en cuenta la influencia de rx-SNR.
La Fig. 5 es un gráfico que ilustra la
definición de la atenuación constante para tramas sibilantes después
de que se ha definido el coeficiente vocalizado.
La Fig. 6 es un diagrama que ilustra la
expansión artificial del ancho de banda aplicada en la red según una
realización ejemplar.
La Fig. 7 es un diagrama que ilustra la
expansión artificial del ancho de banda aplicada a un terminal de
banda ancha según una realización ejemplar.
La Fig. 1 ilustra una división ejemplar del
ruido de una trama 12 de una señal de comunicación, en ruido 14 de
murmullo y ruido estable 17, según un algoritmo de clasificación de
tramas. El ruido 14 de murmullo puede dividirse en tramas 15 de voz
y consonantes terminales 16. El ruido estable 17 puede dividirse en
tramas 18 de voz, consonantes terminales 19 y tramas sibilantes 20.
La detección del ruido de murmullo se basa en rasgos que reflejan
la distribución espectral de los componentes de frecuencia y, así,
marcan una diferencia entre el ruido de baja frecuencia y el ruido
de murmullo que tiene más componentes de alta frecuencia.
El tener en cuenta las condiciones de ruido
puede mejorar la inteligibilidad de la voz, preservando a la vez la
calidad percibida. La dependencia del ruido puede dividirse en
dependencia del ruido-rx (entorno lejano) y
dependencia del ruido-tx (entorno cercano). La
dependencia del ruido-rx hace posible aumentar la
calidad del audio evitando la creación de ruido molesto en la banda
alta durante el ruido de murmullo y el ruido estable alto. La
calidad del audio se aumenta ajustando el algoritmo sobre la base de
la modalidad del ruido y la estimación del nivel de
ruido-rx. La dependencia del
ruido-tx, por otra parte, hace posible afinar el
algoritmo de forma tal que pueda maximizarse la inteligibilidad. En
un entorno de alto ruido-tx, el algoritmo puede ser
muy agresivo, porque el ruido enmascara los posibles efectos. En un
entorno de ruido-tx silencioso, la calidad del audio
se maximiza minimizando la cantidad de efectos.
La Fig. 2 ilustra las operaciones en un
procedimiento ejemplar de clasificación de tramas, mostrando qué
rasgos se utilizan para identificar distintos grupos de fonemas. En
una realización ejemplar, el algoritmo ejemplar de clasificación de
tramas, que clasifica tramas en distintos grupos de fonemas, incluye
siete rasgos para asistir en la precisión de la clasificación y,
por lo tanto, en el aumento de la calidad percibida del audio.
Estos siete rasgos se refieren a una mejor detección de las
sibilantes y, especialmente, a una mejor exclusión de las
consonantes terminales de las tramas sibilantes.
Un procedimiento de clasificación de tramas toma
una decisión de clasificación sobre la base de este vector de
rasgos. En una realización ejemplar, hay valores predefinidos de
umbral para cada rasgo, y la decisión se toma comprobando qué
condición se satisface. Los siete rasgos pueden incluir (1) el
índice del gradiente, (2) la estimación del nivel de
ruido-rx de fondo, (3) la estimación de
rx-SNR, (4) el nivel general de los índices de
gradiente, (4) la pendiente del espectro de banda estrecha (pbe),
(5) la razón de las energías de tramas consecutivas, (6) la
información sobre cómo fue procesada la trama anterior y (7) la
modalidad de ruido en la que funciona el algoritmo.
El índice del gradiente es una medida de la suma
de las magnitudes del gradiente de la señal de voz en cada cambio
de dirección. Se emplea en la detección de sibilantes porque las
ondas de las sibilantes cambian de dirección más a menudo y más
abruptamente que las ondas de sonidos periódicos de voz. A modo de
ejemplo, para una trama sibilante, el valor del índice del
gradiente debería ser mayor que un umbral.
El índice del gradiente puede definirse
como:
donde
es el signo del
gradiente
La estimación del nivel de
ruido-rx de fondo puede basarse sobre un
procedimiento llamado de estadísticas mínimas. Las estadísticas
mínimas implican filtrar la energía de la señal y buscar su mínimo
en subtramas cortas. La estimación del nivel de ruido de fondo para
cada trama se selecciona como el valor mínimo de cuatro subtramas
precedentes. Este procedimiento de estimación garantiza que, incluso
si alguien está hablando, hay sin embargo algunas breves pausas
entre las palabras y las sílabas, que contienen sólo ruido de fondo.
Por tanto, buscando los valores mínimos de la energía de la señal,
pueden hallarse esos instantes de pausas. Las señales con un alto
nivel de ruido de fondo se procesan como sonidos de voz, porque la
amplificación de la banda alta afectaría también al ruido, haciendo
que fuera molesto.
La estimación de rx-SNR puede
calcularse a partir de la energía media de trama y la estimación del
nivel de ruido de fondo:
Se necesita un rasgo que presente el nivel
general de los índices de gradiente para impedir detecciones
incorrectas de sibilantes durante los periodos de silencio. Si el
nivel general de los índices de gradiente es alto, p. ej., más del
75%, o bien las 20 tramas anteriores tienen un índice de gradiente
mayor que 0,6, se considera que la trama contiene sólo ruido de
fondo característico de paso alto, y no se realiza ninguna detección
de sibilantes. La motivación detrás de este rasgo es que la voz no
contiene tales fricativas muy a menudo.
La pendiente del espectro de amplitud de banda
estrecha es positiva durante las sibilantes, mientras que es
negativa para los sonidos vocálicos. El rasgo, la pendiente de banda
estrecha, se define aquí como una diferencia en espectro de amplitud
a las frecuencias de 0,3 y 3,0 kHz.
La razón de energía se define como la energía de
la trama actual dividida entre la energía de la trama anterior. Una
detección de sibilante requiere que la trama actual y las dos tramas
anteriores no tengan una razón de energía demasiado grande. Por
otra parte, en el caso de una explosiva, la razón de energía es
grande porque una explosiva consiste, habitualmente, de una fase de
silencio seguida por una ráfaga y una aspiración.
\newpage
El parámetro llamado última_trama
contiene información sobre cómo se procesó la trama anterior. Esto
es necesario porque las tramas primera y segunda que se consideran
como tramas sibilantes se procesan de manera distinta a la del
resto de las tramas. La transición desde un sonido vocálico a una
sibilante debería ser suave. Por otra parte, no es seguro que las
primeras dos tramas detectadas sean sibilantes, por lo que puede
ser importante procesarlas cuidadosamente a fin de evitar efectos
audibles. La duración de una fricativa es habitualmente mayor que
la duración de otras consonantes. Para ser aún más preciso, la
duración de otras fricativas es a menudo menor que la de las
sibilantes.
El parámetro modalidad_de_ruido contiene
información con respecto a en qué modalidad de ruido funciona el
algoritmo. Preferiblemente, hay dos modalidades de ruido, las
modalidades de ruido estático y de murmullo, según lo descrito con
referencia a la Fig. 1.
La magnitud de la máxima atenuación de la
función de modificación de las tramas de voz, generalmente, debería
limitarse sólo a una gama de 2 dB entre tramas adyacentes. Esta
condición garantiza cambios suaves en la banda alta y reduce así
los efectos audibles. La velocidad cambiante de la banda alta
sibilante también está controlada. La primera trama que se
considera como una sibilante tiene una atenuación extra de 15 dB, y
la segunda trama tiene una atenuación extra de 10 dB. Estas
atenuaciones extra garantizan una transición suave desde un fonema
vocálico a uno sibilante.
Con referencia específica a la Fig. 2, se
ilustra un proceso ejemplar de un procedimiento de clasificación de
tramas según una realización de la invención, utilizando sentencias
y bloques para las determinaciones, sobre la base de las
determinaciones if-then
(si-entonces). Si la razón de energía es cero, se
determina que la señal de voz es una consonante terminal (bloque
22). En caso contrario, la señal de voz es una trama vocálica
(bloque 24). Una vez que se ha hecho la comprobación de la razón de
energía, puede hacerse una comprobación del ruido y del índice del
gradiente, con respecto a los límites prefijados. Por ejemplo, si
rx-bgnoise (ruido de fondo lejano) es mayor que un
límite predeterminado, el índice del gradiente es mayor que un
límite predeterminado, la razón de energía es cero, el gradiente
total es menor que un límite predeterminado, y la pendiente de banda
estrecha (nb_slope) es mayor que un límite predeterminado, la señal
de voz se considera una sibilante suave (bloque 25) y al parámetro
última_trama se fija en cero. En caso contrario, última_trama se
fija en uno y se comprueba nuevamente la razón de energía.
Pueden utilizarse otras sentencias
if-then para determinar si la señal de voz se
considera una sibilante suave (bloque 26), una sibilante (bloque
27), o una sibilante (bloque 28), y el parámetro última_trama se
cambia para reflejar cómo fue procesada la trama anterior.
Como se ha mencionado anteriormente, el ruido
puede dividirse en ruido estable y ruido de murmullo. La detección
del ruido de murmullo se basa en tres rasgos: un rasgo basado en el
índice del gradiente, un rasgo basado en la información de energía y
una estimación del nivel del ruido de fondo. La información de
energía, E_{i}, puede definirse como
donde s(n) es la
señal del dominio temporal, E[s''_{nb}] es la
energía de la segunda derivada de la señal y
E[s_{nb}] es la energía de la señal. Para la
detección del ruido de murmullo, la información esencial no es el
valor exacto de E_{i}, sino con qué frecuencia su valor es
considerablemente alto. En consecuencia, el rasgo efectivo
utilizado en la detección del ruido de murmullo no es
E_{i}, sino con qué frecuencia supera un cierto umbral.
Además, debido a que la tendencia a largo plazo tiene interés, se
filtra la información acerca de si el valor de E_{i} es
grande o no. Esto se implementa de forma tal que, si el valor de la
información de energía es mayor que un valor de umbral, entonces la
entrada al filtro IIR es uno, en caso contrario es cero. El filtro
IIR puede expresarse
como:
donde a es la constante de
ataque o liberación, según la dirección del cambio de la información
de
energía.
\vskip1.000000\baselineskip
La información de energía también puede tener
valores altos cuando el sonido de voz actual tiene rasgos de paso
alto, tal como, por ejemplo, /s/. A fin de excluir estos casos de la
entrada del filtro IIR, el rasgo de la información de energía
filtrada por IIR se actualiza sólo cuando la trama no se considera
como una posible sibilante (es decir, el índice del gradiente es
menor que un umbral predefinido).
\newpage
El índice del gradiente es otro rasgo utilizado
en la detección del ruido de murmullo. En la detección del ruido de
murmullo, el índice del gradiente puede filtrarse por IIR con la
misma clase de filtro que se utilizó para el rasgo de la
información de energía. Las constantes de ataque y liberación
también pueden ser las mismas. La estimación del ruido de fondo
puede basarse en un procedimiento llamado de estadísticas mínimas,
anteriormente descrito.
Si los tres rasgos (información de energía
filtrada por IIR, índice de gradiente filtrado por IIR y estimación
del nivel del ruido de fondo) superan ciertos umbrales, entonces se
considera que la trama contiene ruido de murmullo. En al menos una
realización, a fin de hacer más robusto el algoritmo de detección
del ruido de murmullo, se utilizan quince tramas estables
consecutivas para tomar la decisión final de que el algoritmo
funcione en la modalidad de ruido estable. La transición desde la
modalidad de ruido estacionario a la modalidad de ruido de murmullo,
por otra parte, requiere sólo una trama.
Para la dependencia del ruido, pueden emplearse
tres parámetros. Estos parámetros incluyen la decisión de modalidad
de ruido-rx, la razón entre señal y ruido rx
(rx-SNR) y la razón entre señal y ruido tx
(tx-SNR). Las estimaciones de los niveles del ruido
de fondo pueden calcularse utilizando el procedimiento de
estadísticas mínimas. Los valores de SNR pueden estimarse a partir
de las estimaciones del nivel del ruido de fondo y la energía media
de la señal de la trama:
Para evitar saltos bruscos en las estimaciones
de la SNR, pueden ser filtradas por IIR, con filtros similares a
aquellos utilizados en la detección del ruido de murmullo, pero con
distintas constantes de ataque y liberación.
Para una trama vocálica, puede definirse un
nuevo parámetro const_vocal. El parámetro puede incluir una ganancia
constante extra, en decibelios, para una trama vocálica y, así,
determina la magnitud en la que se modifica la señal de banda
estrecha. Un mayor valor negativo indica mayor atenuación y una
señal más moderada de expansión artificial del ancho de banda
(ABE). El valor del parámetro const_vocal puede depender de
rx-SNR y de tx-SNR. En primer
lugar, el valor de const_vocal puede calcularse según el gráfico
ilustrado en la Fig. 3 y, después de eso, puede añadírsele el
efecto de tx-SNR y factor-tx (Fig.
4). El parámetro factor-tx obtiene valores
positivos cuando está presente el ruido-tx y, por lo
tanto, reduce la magnitud de atenuación y hace que el algoritmo sea
más agresivo.
A fin de proporcionar medios para la afinación
sencilla del algoritmo, el cálculo de const_vocal y, por ello, las
prestaciones totales del algoritmo, pueden controlarse con estos
otros tres parámetros nuevos: control_abe, control_rx y control_tx.
El efecto que tiene cada uno de ellos se describe a
continuación.
El parámetro control_abe cambia el valor general
de la curva const_vocal y, por ello, la moderación/agresividad
general del algoritmo. Un valor máximo (1) indica una actuación muy
agresiva. Un valor mínimo (0), por otra parte, indica la actuación
más moderada. La gama de valores es [0,1] y el valor por omisión es
0,5 en ambas modalidades de ruido, según se muestra en la Fig.
3.
El parámetro control-rx cambia
la pendiente de la curva const_vocal. Un valor máximo (1) indica que
el nivel de ruido-rx no afecta al algoritmo. Un
valor mínimo (0), por otra parte, indica la mayor dependencia. La
gama de valores es [0,1], y el valor por omisión es 0,5 en ambas
modalidades de ruido, como se muestra en la Fig. 3.
El parámetro control-tx cambia
el tamaño de las etapas del factor-tx. Un valor
máximo (1) indica la mayor dependencia. Un valor mínimo (0), por
otra parte, indica que el nivel de ruido-tx no
afecta al algoritmo. La gama de valores es [0,1] y el valor por
omisión es 0,5 en la modalidad de ruido estable y 0,4 en la
modalidad de ruido de murmullo, según se muestra en la Fig. 4.
El procesamiento de las sibilantes también puede
depender de la modalidad de ruido y las estimaciones de la SNR. En
la modalidad de ruido de murmullo, todas las tramas se procesan como
tramas vocálicas, por lo que no se realizan detecciones de
sibilantes, porque durante el ruido de murmullo la detección podría
generar falsas detecciones de sibilantes, debido a que el ruido de
fondo contiene tramas similares a las sibilantes.
En la modalidad de ruido estable, las señales
con alto nivel de ruido de fondo también pueden procesarse como
sonidos vocálicos, porque la amplificación de la banda alta afecta
también al ruido, haciéndolo molesto. En el caso de las señales con
un ruido estable de bajo nivel, por otra parte, las sibilantes
pueden detectarse, y la función de modificación para las sibilantes
se controla con un parámetro const_ate. Este parámetro es una
ganancia constante extra para las sibilantes, de forma tal que, si
las tramas vocálicas están sumamente atenuadas, las sibilantes
también tienen una mayor atenuación constante extra. En otras
palabras, el valor de const_ate depende del valor de const_vocal,
como ilustra la Fig. 5.
A fin de proporcionar medios para la afinación
sencilla del algoritmo, también hay un parámetro afinable para las
tramas sibilantes, que controla el procesamiento general de las
sibilantes. El parámetro const_sibilante cambia el nivel general de
la curva de la constante de atenuación. Un valor máximo (1) indica
sibilantes muy agresivas. Un valor mínimo (0), por otra parte,
indica la actuación más moderada. La gama de valores es [0,1] y el
valor por omisión es 0,5, según se muestra en la Fig. 5.
La Fig. 6 ilustra cómo puede aplicarse la
expansión artificial de banda ancha (ABE) en una red. Según se
aplica en la red, la ABE puede implementarse en redes que emplean
códecs de banda tanto estrecha como ancha. La Fig. 7 ilustra cómo
puede aplicarse la expansión artificial de banda ancha (ABE) en un
terminal. Según se aplica en el terminal, la ABE está situada en el
terminal y recibe comunicaciones de banda estrecha desde la red. La
ABE expande la comunicación a una banda ancha para el terminal. El
algoritmo de la ABE puede implementarse con un procesador de señales
digitales (DSP) en el terminal.
El algoritmo descrito reduce el número de
efectos causados por la mala clasificación de las tramas. Además,
la dependencia del ruido-rx y el
ruido-tx hace posible afinar el algoritmo de manera
distinta en distintas situaciones de ruido, de forma tal que la
calidad y la inteligibilidad del audio se maximicen en toda
situación. Otras ventajas de la ABE descrita incluyen que no se
necesita ninguna información adicional transmitida a fin de mejorar
la naturalidad de la calidad de la voz. No se requiere ningún
almacenamiento de guías de códigos. Además, la ABE puede
implementarse en tiempo real con un coste informático razonable. El
ajuste de los componentes de frecuencia dotados de alias se calcula
utilizando un robusto procedimiento de dominios de frecuencia. Esto
reduce el riesgo del deterioro de la calidad, debido a la atenuación
insuficiente de los componentes de frecuencia superior.
Esta descripción detallada esboza realizaciones
ejemplares de un procedimiento, dispositivo y sistema para una
expansión artificial mejorada del ancho de banda, para la mejora de
la calidad de la señal. En la descripción precedente, con fines
explicativos, se estipulan numerosos detalles específicos a fin de
proporcionar una comprensión exhaustiva de la presente invención.
Es evidente, sin embargo, para alguien versado en la tecnología,
que las realizaciones ejemplares pueden ponerse en práctica sin
estos detalles específicos. En otros ejemplos, se muestran
estructuras y dispositivos en diagramas de bloques, a fin de
facilitar la descripción de las realizaciones ejemplares.
Si bien se prefieren actualmente las
realizaciones ejemplares ilustradas en las Figuras y descritas
anteriormente, debería entenderse que estas realizaciones se
ofrecen sólo a modo de ejemplo. Otras realizaciones pueden incluir,
por ejemplo, distintas técnicas para realizar las mismas
operaciones. El ámbito de protección está definido por las
reivindicaciones adjuntas.
Claims (20)
1. Un procedimiento para expandir las señales de
voz de banda estrecha a señales de voz de banda ancha, comprendiendo
el procedimiento:
determinar la información del tipo de señal a
partir de una señal, en donde la información del tipo de señal se
determina sobre la base de una razón entre señal y ruido del entorno
lejano de la señal, y de una razón entre señal y ruido del entorno
cercano de la señal;
obtener características para formar una señal de
banda superior, utilizando la información determinada del tipo de
señal;
determinar la información de ruido de la
señal;
utilizar la información determinada del ruido de
la señal para modificar las características obtenidas, a fin de
formar la señal de banda superior; y
formar la señal de banda superior utilizando las
características modificadas.
2. El procedimiento de la reivindicación 1, en
el cual la determinación de la información de ruido de la señal
comprende estimar una razón entre señal y ruido del entorno lejano,
utilizando información sobre la energía de una porción de la señal y
una estimación del nivel del ruido de fondo.
3. El procedimiento de la reivindicación 2, en
el cual la determinación de la información de ruido de la señal
comprende estimar una razón entre señal y ruido del entorno
cercano.
4. El procedimiento de la reivindicación 1, en
el cual la información del tipo de señal también se determina sobre
la base de un índice de gradiente de señal.
5. El procedimiento de la reivindicación 4, que
comprende adicionalmente clasificar la señal en distintos grupos de
fonemas, sobre la base del índice de gradiente de señal y la razón
entre señal y ruido del entorno lejano.
6. El procedimiento de la reivindicación 1, que
comprende adicionalmente detectar el ruido de murmullo en la
señal.
7. El procedimiento de la reivindicación 6, en
el cual el ruido de murmullo se detecta sobre la base del índice de
gradiente de la señal, la información de energía de la señal y una
estimación del nivel de ruido.
8. El procedimiento de la reivindicación 6, en
el cual la información de energía de la señal se obtiene a partir de
la razón entre un valor de expectativa de la segunda derivada de la
señal y un valor de expectativa de la señal.
9. Un dispositivo de comunicación configurado
para recibir señales de banda ancha, comprendiendo el
dispositivo:
una interfaz que está configurada para
comunicarse con una red inalámbrica; y
instrucciones programadas almacenadas en una
memoria y configuradas para expandir las señales de banda estrecha
recibidas en señales de banda ancha, ajustando un algoritmo de
expansión artificial de ancho de banda sobre la base de las
condiciones de ruido, en donde las condiciones de ruido comprenden
una razón entre señal y ruido del entorno lejano y una razón entre
señal y ruido del entorno cercano.
10. El dispositivo de la reivindicación 9, en el
cual las instrucciones programadas se configuran adicionalmente para
detectar el ruido de murmullo sobre la base de un índice de
gradiente de señal, la información de energía de la señal y una
estimación del nivel de ruido.
11. El dispositivo de la reivindicación 9, en el
cual las instrucciones programadas se implementan con un procesador
de señales digitales (DSP).
12. Un dispositivo en una red de comunicación
que está configurado para expandir las señales de voz de banda
estrecha en señales de voz de banda ancha, comprendiendo el
dispositivo:
un códec de banda estrecha que está configurado
para recibir señales de voz de banda estrecha en una red;
un códec de banda ancha que está configurado
para comunicar señales de voz de banda ancha a terminales de banda
ancha en comunicación con la red; e
instrucciones programadas que están configuradas
para expandir las señales de voz de banda estrecha en señales de voz
de banda ancha, ajustando un algoritmo de expansión artificial de
ancho de banda sobre la base de las condiciones de ruido, en donde
las condiciones de ruido comprenden una razón entre señal y ruido
del entorno lejano y una razón entre señal y ruido del entorno
cercano.
13. El dispositivo de la reivindicación 12, en
el cual las instrucciones programadas están adicionalmente
configuradas para detectar el ruido de murmullo sobre la base de un
índice de gradiente de señal, la información de energía de la señal
y una estimación del nivel de ruido.
14. Un sistema para expandir señales de voz de
banda estrecha en señales de voz de banda ancha, comprendiendo el
sistema:
medios para determinar la información del tipo
de señal a partir de una señal, en donde la información del tipo de
señal se determina sobre la base de una razón entre señal y ruido
del entorno lejano de la señal y una razón entre señal y ruido del
entorno cercano de la señal;
medios para obtener características a fin de
formar una señal de banda superior, utilizando la información
determinada del tipo de señal;
medios para determinar la información de ruido
de la señal;
medios para utilizar la información determinada
del ruido de la señal para modificar las características obtenidas,
a fin de formar la señal de banda superior; y
medios para formar la señal de banda superior
utilizando las características modificadas.
15. El sistema de la reivindicación 14, en el
cual la información del tipo de señal también se determina sobre la
base de un índice de gradiente de señal.
16. El sistema de la reivindicación 14, que
comprende adicionalmente detectar el ruido de murmullo en la
señal.
17. Un producto de programa de ordenador
adaptado para expandir señales de voz de banda estrecha a señales de
voz de banda ancha, comprendiendo el producto de programa de
ordenador:
código de ordenador adaptado para:
determinar la información del tipo de señal a
partir de una señal, en donde la información del tipo de señal se
determina sobre la base de una razón entre señal y ruido del entorno
lejano de la señal, y una razón entre señal y ruido del entorno
cercano de la señal;
obtener características para formar una señal de
banda superior utilizando la información determinada del tipo de
señal;
determinar la información de ruido de la
señal;
utilizar la información determinada del ruido de
la señal para modificar las características obtenidas, a fin de
formar la señal de banda superior; y
formar la señal de banda superior utilizando las
características modificadas.
18. El producto de programa de ordenador de la
reivindicación 17, en el cual el código de ordenador también está
adicionalmente adaptado para expandir la señal desde una señal de
banda estrecha a una señal de banda ancha, sobre la base del índice
de gradiente de la señal.
19. El producto de programa de ordenador de la
reivindicación 17, en el cual el código de ordenador está
adicionalmente adaptado para detectar ruido de murmullo en la
señal.
20. El producto de programa de ordenador de la
reivindicación 17, en el cual el código de ordenador está
adicionalmente adaptado para estimar una razón entre señal y ruido
de un entorno cercano.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US853820 | 2004-05-25 | ||
| US10/853,820 US8712768B2 (en) | 2004-05-25 | 2004-05-25 | System and method for enhanced artificial bandwidth expansion |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2329060T3 true ES2329060T3 (es) | 2009-11-20 |
Family
ID=35426530
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES05742453T Expired - Lifetime ES2329060T3 (es) | 2004-05-25 | 2005-05-25 | Sistema y procedimiento para la expansion artificial mejorada del ancho de banda. |
Country Status (9)
| Country | Link |
|---|---|
| US (1) | US8712768B2 (es) |
| EP (1) | EP1766615B1 (es) |
| KR (1) | KR100909679B1 (es) |
| CN (1) | CN1985304B (es) |
| AT (1) | ATE437432T1 (es) |
| BR (1) | BRPI0512160A (es) |
| DE (1) | DE602005015588D1 (es) |
| ES (1) | ES2329060T3 (es) |
| WO (1) | WO2005115077A2 (es) |
Families Citing this family (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100723409B1 (ko) * | 2005-07-27 | 2007-05-30 | 삼성전자주식회사 | 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치 |
| US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
| KR100905585B1 (ko) * | 2007-03-02 | 2009-07-02 | 삼성전자주식회사 | 음성신호의 대역폭 확장 제어 방법 및 장치 |
| JP5126145B2 (ja) * | 2009-03-30 | 2013-01-23 | 沖電気工業株式会社 | 帯域拡張装置、方法及びプログラム、並びに、電話端末 |
| WO2010146711A1 (ja) * | 2009-06-19 | 2010-12-23 | 富士通株式会社 | 音声信号処理装置及び音声信号処理方法 |
| JP5493655B2 (ja) * | 2009-09-29 | 2014-05-14 | 沖電気工業株式会社 | 音声帯域拡張装置および音声帯域拡張プログラム |
| EP2495721B1 (en) * | 2009-10-26 | 2018-05-30 | III Holdings 12, LLC | Tone determination device and method |
| CN101763859A (zh) * | 2009-12-16 | 2010-06-30 | 深圳华为通信技术有限公司 | 音频数据处理方法、装置和多点控制单元 |
| US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
| US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
| US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
| US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
| US9245538B1 (en) * | 2010-05-20 | 2016-01-26 | Audience, Inc. | Bandwidth enhancement of speech signals assisted by noise reduction |
| KR101461774B1 (ko) * | 2010-05-25 | 2014-12-02 | 노키아 코포레이션 | 대역폭 확장기 |
| US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
| JP5589631B2 (ja) * | 2010-07-15 | 2014-09-17 | 富士通株式会社 | 音声処理装置、音声処理方法および電話装置 |
| KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
| CN102436820B (zh) | 2010-09-29 | 2013-08-28 | 华为技术有限公司 | 高频带信号编码方法及装置、高频带信号解码方法及装置 |
| CN102610231B (zh) | 2011-01-24 | 2013-10-09 | 华为技术有限公司 | 一种带宽扩展方法及装置 |
| US20140226842A1 (en) * | 2011-05-23 | 2014-08-14 | Nokia Corporation | Spatial audio processing apparatus |
| EP4336501A3 (en) * | 2013-01-29 | 2024-05-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, method and computer program using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates |
| KR101864122B1 (ko) | 2014-02-20 | 2018-06-05 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
| KR102318763B1 (ko) | 2014-08-28 | 2021-10-28 | 삼성전자주식회사 | 기능 제어 방법 및 이를 지원하는 전자 장치 |
| KR102372188B1 (ko) * | 2015-05-28 | 2022-03-08 | 삼성전자주식회사 | 오디오 신호의 잡음을 제거하기 위한 방법 및 그 전자 장치 |
Family Cites Families (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
| US6219642B1 (en) * | 1998-10-05 | 2001-04-17 | Legerity, Inc. | Quantization using frequency and mean compensated frequency input data for robust speech recognition |
| KR20010101422A (ko) * | 1999-11-10 | 2001-11-14 | 요트.게.아. 롤페즈 | 매핑 매트릭스에 의한 광대역 음성 합성 |
| FI119576B (fi) | 2000-03-07 | 2008-12-31 | Nokia Corp | Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin |
| US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
| DE10041512B4 (de) * | 2000-08-24 | 2005-05-04 | Infineon Technologies Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
| US20020128839A1 (en) * | 2001-01-12 | 2002-09-12 | Ulf Lindgren | Speech bandwidth extension |
| US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
| US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
| JP4433668B2 (ja) * | 2002-10-31 | 2010-03-17 | 日本電気株式会社 | 帯域拡張装置及び方法 |
| US20040138876A1 (en) * | 2003-01-10 | 2004-07-15 | Nokia Corporation | Method and apparatus for artificial bandwidth expansion in speech processing |
| DE602004025089D1 (de) * | 2003-02-27 | 2010-03-04 | Ericsson Telefon Ab L M | Hörbarkeitsverbesserung |
-
2004
- 2004-05-25 US US10/853,820 patent/US8712768B2/en active Active
-
2005
- 2005-05-25 AT AT05742453T patent/ATE437432T1/de not_active IP Right Cessation
- 2005-05-25 KR KR1020067026786A patent/KR100909679B1/ko not_active Expired - Fee Related
- 2005-05-25 WO PCT/IB2005/001416 patent/WO2005115077A2/en not_active Ceased
- 2005-05-25 CN CN2005800234287A patent/CN1985304B/zh not_active Expired - Lifetime
- 2005-05-25 DE DE602005015588T patent/DE602005015588D1/de not_active Expired - Lifetime
- 2005-05-25 ES ES05742453T patent/ES2329060T3/es not_active Expired - Lifetime
- 2005-05-25 BR BRPI0512160-4A patent/BRPI0512160A/pt not_active IP Right Cessation
- 2005-05-25 EP EP05742453A patent/EP1766615B1/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| CN1985304A (zh) | 2007-06-20 |
| BRPI0512160A (pt) | 2008-02-12 |
| DE602005015588D1 (de) | 2009-09-03 |
| KR100909679B1 (ko) | 2009-07-29 |
| KR20070022338A (ko) | 2007-02-26 |
| EP1766615B1 (en) | 2009-07-22 |
| CN1985304B (zh) | 2011-06-22 |
| WO2005115077A2 (en) | 2005-12-08 |
| ATE437432T1 (de) | 2009-08-15 |
| US8712768B2 (en) | 2014-04-29 |
| EP1766615A2 (en) | 2007-03-28 |
| US20050267741A1 (en) | 2005-12-01 |
| WO2005115077A3 (en) | 2006-03-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2329060T3 (es) | Sistema y procedimiento para la expansion artificial mejorada del ancho de banda. | |
| US7171246B2 (en) | Noise suppression | |
| ES2343948T3 (es) | Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable. | |
| US8063809B2 (en) | Transient signal encoding method and device, decoding method and device, and processing system | |
| ES2624190T3 (es) | Dispositivo de control y método de control de dispositivo de nivelación de volumen | |
| JP4299888B2 (ja) | 通信システムにおけるレート決定装置および方法 | |
| EP0993670B1 (en) | Method and apparatus for speech enhancement in a speech communication system | |
| US7912729B2 (en) | High-frequency bandwidth extension in the time domain | |
| KR100905585B1 (ko) | 음성신호의 대역폭 확장 제어 방법 및 장치 | |
| ES2687249T3 (es) | Decisión no sonora/sonora para el procesamiento de la voz | |
| CN101010722A (zh) | 音频信号中话音活动的检测 | |
| US20080312916A1 (en) | Receiver Intelligibility Enhancement System | |
| US9530430B2 (en) | Voice emphasis device | |
| WO2001086633A1 (en) | Voice activity detection and end-point detection | |
| US8423357B2 (en) | System and method for biometric acoustic noise reduction | |
| ES2394515T3 (es) | Métodos y adaptaciones en una red de telecomunicaciones | |
| Laaksonen et al. | Artificial bandwidth expansion method to improve intelligibility and quality of AMR-coded narrowband speech | |
| JP4509413B2 (ja) | 電子機器 | |
| KR100294920B1 (ko) | 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치 | |
| KR20150014607A (ko) | 통신 시스템에서 오류 은닉 방법 및 장치 | |
| JP2011071806A (ja) | 電子機器、及び電子機器の音量制御プログラム | |
| JPH0870285A (ja) | 音声復号装置 | |
| Chen | Adaptive variable bit-rate speech coder for wireless applications |