ES2329060T3 - Sistema y procedimiento para la expansion artificial mejorada del ancho de banda. - Google Patents

Sistema y procedimiento para la expansion artificial mejorada del ancho de banda. Download PDF

Info

Publication number
ES2329060T3
ES2329060T3 ES05742453T ES05742453T ES2329060T3 ES 2329060 T3 ES2329060 T3 ES 2329060T3 ES 05742453 T ES05742453 T ES 05742453T ES 05742453 T ES05742453 T ES 05742453T ES 2329060 T3 ES2329060 T3 ES 2329060T3
Authority
ES
Spain
Prior art keywords
signal
noise
information
ratio
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES05742453T
Other languages
English (en)
Inventor
Laura Laaksonen
Paivi Valve
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Inc
Original Assignee
Nokia Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Inc filed Critical Nokia Inc
Application granted granted Critical
Publication of ES2329060T3 publication Critical patent/ES2329060T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)
  • Prostheses (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

Un procedimiento para expandir las señales de voz de banda estrecha a señales de voz de banda ancha, comprendiendo el procedimiento: determinar la información del tipo de señal a partir de una señal, en donde la información del tipo de señal se determina sobre la base de una razón entre señal y ruido del entorno lejano de la señal, y de una razón entre señal y ruido del entorno cercano de la señal; obtener características para formar una señal de banda superior, utilizando la información determinada del tipo de señal; determinar la información de ruido de la señal; utilizar la información determinada del ruido de la señal para modificar las características obtenidas, a fin de formar la señal de banda superior; y formar la señal de banda superior utilizando las características modificadas.

Description

Sistema y procedimiento para la expansión artificial mejorada del ancho de banda.
Campo de la invención
La presente invención se refiere a sistemas y procedimientos para la mejora de la calidad en una señal de voz reproducida eléctricamente. Más específicamente, la presente invención se refiere a un sistema y procedimiento para la expansión artificial y mejorada del ancho de banda, para la mejora de la calidad de la señal.
Antecedentes de la invención
Las señales de voz se transmiten usualmente con un ancho de banda limitado en sistemas de telecomunicación, tal como una red del GSM (Sistema Global para las Comunicaciones Móviles). El ancho de banda tradicional para las señales de voz en tales sistemas es de menos de 4 kHz (0,3 a 3,4 kHz) aunque la voz contiene componentes de frecuencia de hasta 10 kHz. El ancho de banda limitado da como resultado malas prestaciones tanto en la calidad como en la inteligibilidad. Los seres humanos perciben mejor calidad e inteligibilidad si la banda de frecuencia de la señal de voz es de banda ancha, es decir, de hasta 8 kHz.
Las características del ruido pueden variar mucho. El ruido puede ser, por ejemplo, ruido leve de oficina, ruido alto de coche, ruido de calle o ruido de murmullo (murmullo de voces, tintineo de platos, etc.). Además de las distintas características, el ruido puede estar presente bien alrededor del usuario del teléfono móvil en el entorno cercano (ruido-tx, de transmisor) o alrededor del interlocutor en la conversación, en el entorno lejano (ruido-rx, de receptor). El ruido-rx corrompe la señal de voz y, por lo tanto, el ruido también se expande hacia la banda alta, junto con la voz. En situaciones con un alto nivel de ruido-rx, esto es un problema, pues el ruido comienza a ser molesto, debido a los componentes de alta frecuencia generados artificialmente. El ruido-tx degrada la inteligibilidad enmascarando la señal de voz recibida.
Las soluciones de expansión artificial del ancho de banda (ABE) de la técnica anterior adolecen de malas prestaciones en situaciones ruidosas. Una solución anterior de ABE se describe en la Solicitud de Patente Estadounidense de Nº de Serie 10/341.332, titulada "Method and Apparatus for Artificial Bandwidth Expansion in Speech Processing" ["Procedimiento y Aparato para la Expansión Artificial del Ancho de Banda en el Procesamiento de la Voz"], transferida al mismo cesionario de la presente solicitud, e incorporada aquí por referencia en su totalidad. Una ventaja de este algoritmo de ABE anteriormente desarrollado es que es considerablemente más robusto con voz ruidosa y codificada. Sin embargo, hay problemas con este algoritmo, incluyendo la presencia de efectos que degradan la naturalidad general de la calidad percibida. Los cambios bruscos en la banda alta de la voz expandida pueden causar efectos audibles. Además, este algoritmo anterior incluye un ancho de banda de frecuencias de 0 a 4 kHz.
Los componentes de frecuencia ausentes son especialmente importantes para sonidos de la voz como las fricativas (por ejemplo /s/ y /z/) porque una parte considerable de los componentes de frecuencia se sitúan por encima de los 4 kHz. La inteligibilidad de las explosivas (/t/, /p/, etc.) padece también de la falta de frecuencias altas, incluso aunque la información principal de estos sonidos esté en las frecuencias más bajas. Para sonidos vocálicos, la falta de frecuencias da como resultado, principalmente, una naturalidad percibida como degradada. Debido a que la importancia de los componentes de alta frecuencia difiere entre los sonidos de la voz, la generación de la banda alta de una señal expandida debería realizarse de forma distinta para cada grupo de fonemas.
De tal manera, hay una necesidad de un procedimiento informático robusto para la clasificación de los distintos grupos de fonemas. Además, hay una necesidad de un procedimiento mejorado que impida las clasificaciones erróneas, y por ello, los efectos audibles aún presentes en los algoritmos anteriores. Más aún, hay una necesidad de un sistema y procedimiento mejorados para la expansión mejorada artificial del ancho de banda, para la mejora de la calidad de la señal. El documento EP 1.008.984 describe un procedimiento de realización de la síntesis de la voz en banda ancha a partir de una señal de voz de banda estrecha. En un componente receptor, un expansor de ancho de banda produce, a partir de un código de parámetro de sonido de voz, concebido para la producción de una señal de sonido de voz con una frecuencia de voz incluida en una primera banda B1 de 300 a 3.400 Hz, un parámetro de sonido de voz para una segunda banda B2 de 3.400 a 6.000 Hz, para sintetizar una LPC (Codificación Lineal Predictiva) de banda ancha por medio de un circuito de síntesis de LPC. A continuación, un componente de banda de baja frecuencia (300 a 3.400 Hz) de un sonido de voz original es reemplazado por una señal resultante del muestreo aumentado del sonido de voz original. Es decir, el sonido de voz es suministrado a un filtro de paso alto para mantener sólo un componente de banda de alta frecuencia (3.400 a 6.000 Hz) del sonido de voz. Se suprime un componente de alta frecuencia de la banda de alta frecuencia, y se ajusta la ganancia, y luego el sonido de voz original (300 a 3.400 Hz) se suma al obtenido por muestreo aumentado (de la segunda tasa fs2 de muestreo) en un sumador. El documento "On Artificial Bandwidth Extension of Telephone Speech" ["Sobre la extensión artificial del ancho de banda de la voz por teléfono"] (Peter Jax, Peter Vary) expone un algoritmo de procesamiento de señales para convertir señales de voz con calidad de "telefonía estándar" en voz de banda ancha de 7kHz. Se utiliza un enfoque estadístico basado en un modelo de Markov oculto (MMO), que tiene en cuenta varias características de la voz de banda limitada.
Resumen de la invención
La presente invención, como se estipula en las reivindicaciones independientes, se refiere a un procedimiento, dispositivo, sistema y producto de programa de ordenador para expandir el ancho de banda de una señal de voz, insertando componentes de frecuencia que no han sido transmitidos con la señal. El sistema incluye la dependencia del ruido de un algoritmo de expansión artificial del ancho de banda. Esta característica tiene en cuenta las condiciones del ruido y ajusta el algoritmo automáticamente de forma tal que se maximice la inteligibilidad de la voz, preservando a la vez una buena calidad percibida. Las realizaciones preferidas se exponen en las reivindicaciones subordinadas.
Las características y ventajas principales de la invención se harán evidentes para aquellos versados en la técnica, al examinar los siguientes dibujos, la descripción detallada y las reivindicaciones adjuntas.
Breve descripción de los dibujos
Las realizaciones ejemplares se describirán a continuación con referencia a los dibujos adjuntos.
La Fig. 1 es un diagrama que ilustra la división del ruido según una realización ejemplar.
La Fig. 2 es un diagrama que ilustra las operaciones en un procedimiento de clasificación de tramas según una realización ejemplar.
La Fig. 3 es un gráfico que ilustra la influencia de la estimación de rx-SNR (razón entre señal y ruido del entorno lejano) sobre el coeficiente vocalizado que controla el procesamiento de los sonidos de la voz.
La Fig. 4 es un gráfico que ilustra la influencia de la estimación de tx_SNR (razón entre señal y ruido del entorno cercano) sobre el coeficiente vocalizado después de que se ha tenido en cuenta la influencia de rx-SNR.
La Fig. 5 es un gráfico que ilustra la definición de la atenuación constante para tramas sibilantes después de que se ha definido el coeficiente vocalizado.
La Fig. 6 es un diagrama que ilustra la expansión artificial del ancho de banda aplicada en la red según una realización ejemplar.
La Fig. 7 es un diagrama que ilustra la expansión artificial del ancho de banda aplicada a un terminal de banda ancha según una realización ejemplar.
Descripción detallada de realizaciones ejemplares
La Fig. 1 ilustra una división ejemplar del ruido de una trama 12 de una señal de comunicación, en ruido 14 de murmullo y ruido estable 17, según un algoritmo de clasificación de tramas. El ruido 14 de murmullo puede dividirse en tramas 15 de voz y consonantes terminales 16. El ruido estable 17 puede dividirse en tramas 18 de voz, consonantes terminales 19 y tramas sibilantes 20. La detección del ruido de murmullo se basa en rasgos que reflejan la distribución espectral de los componentes de frecuencia y, así, marcan una diferencia entre el ruido de baja frecuencia y el ruido de murmullo que tiene más componentes de alta frecuencia.
El tener en cuenta las condiciones de ruido puede mejorar la inteligibilidad de la voz, preservando a la vez la calidad percibida. La dependencia del ruido puede dividirse en dependencia del ruido-rx (entorno lejano) y dependencia del ruido-tx (entorno cercano). La dependencia del ruido-rx hace posible aumentar la calidad del audio evitando la creación de ruido molesto en la banda alta durante el ruido de murmullo y el ruido estable alto. La calidad del audio se aumenta ajustando el algoritmo sobre la base de la modalidad del ruido y la estimación del nivel de ruido-rx. La dependencia del ruido-tx, por otra parte, hace posible afinar el algoritmo de forma tal que pueda maximizarse la inteligibilidad. En un entorno de alto ruido-tx, el algoritmo puede ser muy agresivo, porque el ruido enmascara los posibles efectos. En un entorno de ruido-tx silencioso, la calidad del audio se maximiza minimizando la cantidad de efectos.
La Fig. 2 ilustra las operaciones en un procedimiento ejemplar de clasificación de tramas, mostrando qué rasgos se utilizan para identificar distintos grupos de fonemas. En una realización ejemplar, el algoritmo ejemplar de clasificación de tramas, que clasifica tramas en distintos grupos de fonemas, incluye siete rasgos para asistir en la precisión de la clasificación y, por lo tanto, en el aumento de la calidad percibida del audio. Estos siete rasgos se refieren a una mejor detección de las sibilantes y, especialmente, a una mejor exclusión de las consonantes terminales de las tramas sibilantes.
Un procedimiento de clasificación de tramas toma una decisión de clasificación sobre la base de este vector de rasgos. En una realización ejemplar, hay valores predefinidos de umbral para cada rasgo, y la decisión se toma comprobando qué condición se satisface. Los siete rasgos pueden incluir (1) el índice del gradiente, (2) la estimación del nivel de ruido-rx de fondo, (3) la estimación de rx-SNR, (4) el nivel general de los índices de gradiente, (4) la pendiente del espectro de banda estrecha (pbe), (5) la razón de las energías de tramas consecutivas, (6) la información sobre cómo fue procesada la trama anterior y (7) la modalidad de ruido en la que funciona el algoritmo.
El índice del gradiente es una medida de la suma de las magnitudes del gradiente de la señal de voz en cada cambio de dirección. Se emplea en la detección de sibilantes porque las ondas de las sibilantes cambian de dirección más a menudo y más abruptamente que las ondas de sonidos periódicos de voz. A modo de ejemplo, para una trama sibilante, el valor del índice del gradiente debería ser mayor que un umbral.
El índice del gradiente puede definirse como:
1
donde
2
es el signo del gradiente
3
La estimación del nivel de ruido-rx de fondo puede basarse sobre un procedimiento llamado de estadísticas mínimas. Las estadísticas mínimas implican filtrar la energía de la señal y buscar su mínimo en subtramas cortas. La estimación del nivel de ruido de fondo para cada trama se selecciona como el valor mínimo de cuatro subtramas precedentes. Este procedimiento de estimación garantiza que, incluso si alguien está hablando, hay sin embargo algunas breves pausas entre las palabras y las sílabas, que contienen sólo ruido de fondo. Por tanto, buscando los valores mínimos de la energía de la señal, pueden hallarse esos instantes de pausas. Las señales con un alto nivel de ruido de fondo se procesan como sonidos de voz, porque la amplificación de la banda alta afectaría también al ruido, haciendo que fuera molesto.
La estimación de rx-SNR puede calcularse a partir de la energía media de trama y la estimación del nivel de ruido de fondo:
4
Se necesita un rasgo que presente el nivel general de los índices de gradiente para impedir detecciones incorrectas de sibilantes durante los periodos de silencio. Si el nivel general de los índices de gradiente es alto, p. ej., más del 75%, o bien las 20 tramas anteriores tienen un índice de gradiente mayor que 0,6, se considera que la trama contiene sólo ruido de fondo característico de paso alto, y no se realiza ninguna detección de sibilantes. La motivación detrás de este rasgo es que la voz no contiene tales fricativas muy a menudo.
La pendiente del espectro de amplitud de banda estrecha es positiva durante las sibilantes, mientras que es negativa para los sonidos vocálicos. El rasgo, la pendiente de banda estrecha, se define aquí como una diferencia en espectro de amplitud a las frecuencias de 0,3 y 3,0 kHz.
La razón de energía se define como la energía de la trama actual dividida entre la energía de la trama anterior. Una detección de sibilante requiere que la trama actual y las dos tramas anteriores no tengan una razón de energía demasiado grande. Por otra parte, en el caso de una explosiva, la razón de energía es grande porque una explosiva consiste, habitualmente, de una fase de silencio seguida por una ráfaga y una aspiración.
\newpage
El parámetro llamado última_trama contiene información sobre cómo se procesó la trama anterior. Esto es necesario porque las tramas primera y segunda que se consideran como tramas sibilantes se procesan de manera distinta a la del resto de las tramas. La transición desde un sonido vocálico a una sibilante debería ser suave. Por otra parte, no es seguro que las primeras dos tramas detectadas sean sibilantes, por lo que puede ser importante procesarlas cuidadosamente a fin de evitar efectos audibles. La duración de una fricativa es habitualmente mayor que la duración de otras consonantes. Para ser aún más preciso, la duración de otras fricativas es a menudo menor que la de las sibilantes.
El parámetro modalidad_de_ruido contiene información con respecto a en qué modalidad de ruido funciona el algoritmo. Preferiblemente, hay dos modalidades de ruido, las modalidades de ruido estático y de murmullo, según lo descrito con referencia a la Fig. 1.
La magnitud de la máxima atenuación de la función de modificación de las tramas de voz, generalmente, debería limitarse sólo a una gama de 2 dB entre tramas adyacentes. Esta condición garantiza cambios suaves en la banda alta y reduce así los efectos audibles. La velocidad cambiante de la banda alta sibilante también está controlada. La primera trama que se considera como una sibilante tiene una atenuación extra de 15 dB, y la segunda trama tiene una atenuación extra de 10 dB. Estas atenuaciones extra garantizan una transición suave desde un fonema vocálico a uno sibilante.
Con referencia específica a la Fig. 2, se ilustra un proceso ejemplar de un procedimiento de clasificación de tramas según una realización de la invención, utilizando sentencias y bloques para las determinaciones, sobre la base de las determinaciones if-then (si-entonces). Si la razón de energía es cero, se determina que la señal de voz es una consonante terminal (bloque 22). En caso contrario, la señal de voz es una trama vocálica (bloque 24). Una vez que se ha hecho la comprobación de la razón de energía, puede hacerse una comprobación del ruido y del índice del gradiente, con respecto a los límites prefijados. Por ejemplo, si rx-bgnoise (ruido de fondo lejano) es mayor que un límite predeterminado, el índice del gradiente es mayor que un límite predeterminado, la razón de energía es cero, el gradiente total es menor que un límite predeterminado, y la pendiente de banda estrecha (nb_slope) es mayor que un límite predeterminado, la señal de voz se considera una sibilante suave (bloque 25) y al parámetro última_trama se fija en cero. En caso contrario, última_trama se fija en uno y se comprueba nuevamente la razón de energía.
Pueden utilizarse otras sentencias if-then para determinar si la señal de voz se considera una sibilante suave (bloque 26), una sibilante (bloque 27), o una sibilante (bloque 28), y el parámetro última_trama se cambia para reflejar cómo fue procesada la trama anterior.
Como se ha mencionado anteriormente, el ruido puede dividirse en ruido estable y ruido de murmullo. La detección del ruido de murmullo se basa en tres rasgos: un rasgo basado en el índice del gradiente, un rasgo basado en la información de energía y una estimación del nivel del ruido de fondo. La información de energía, E_{i}, puede definirse como
5
donde s(n) es la señal del dominio temporal, E[s''_{nb}] es la energía de la segunda derivada de la señal y E[s_{nb}] es la energía de la señal. Para la detección del ruido de murmullo, la información esencial no es el valor exacto de E_{i}, sino con qué frecuencia su valor es considerablemente alto. En consecuencia, el rasgo efectivo utilizado en la detección del ruido de murmullo no es E_{i}, sino con qué frecuencia supera un cierto umbral. Además, debido a que la tendencia a largo plazo tiene interés, se filtra la información acerca de si el valor de E_{i} es grande o no. Esto se implementa de forma tal que, si el valor de la información de energía es mayor que un valor de umbral, entonces la entrada al filtro IIR es uno, en caso contrario es cero. El filtro IIR puede expresarse como:
6
donde a es la constante de ataque o liberación, según la dirección del cambio de la información de energía.
\vskip1.000000\baselineskip
La información de energía también puede tener valores altos cuando el sonido de voz actual tiene rasgos de paso alto, tal como, por ejemplo, /s/. A fin de excluir estos casos de la entrada del filtro IIR, el rasgo de la información de energía filtrada por IIR se actualiza sólo cuando la trama no se considera como una posible sibilante (es decir, el índice del gradiente es menor que un umbral predefinido).
\newpage
El índice del gradiente es otro rasgo utilizado en la detección del ruido de murmullo. En la detección del ruido de murmullo, el índice del gradiente puede filtrarse por IIR con la misma clase de filtro que se utilizó para el rasgo de la información de energía. Las constantes de ataque y liberación también pueden ser las mismas. La estimación del ruido de fondo puede basarse en un procedimiento llamado de estadísticas mínimas, anteriormente descrito.
Si los tres rasgos (información de energía filtrada por IIR, índice de gradiente filtrado por IIR y estimación del nivel del ruido de fondo) superan ciertos umbrales, entonces se considera que la trama contiene ruido de murmullo. En al menos una realización, a fin de hacer más robusto el algoritmo de detección del ruido de murmullo, se utilizan quince tramas estables consecutivas para tomar la decisión final de que el algoritmo funcione en la modalidad de ruido estable. La transición desde la modalidad de ruido estacionario a la modalidad de ruido de murmullo, por otra parte, requiere sólo una trama.
Para la dependencia del ruido, pueden emplearse tres parámetros. Estos parámetros incluyen la decisión de modalidad de ruido-rx, la razón entre señal y ruido rx (rx-SNR) y la razón entre señal y ruido tx (tx-SNR). Las estimaciones de los niveles del ruido de fondo pueden calcularse utilizando el procedimiento de estadísticas mínimas. Los valores de SNR pueden estimarse a partir de las estimaciones del nivel del ruido de fondo y la energía media de la señal de la trama:
7
Para evitar saltos bruscos en las estimaciones de la SNR, pueden ser filtradas por IIR, con filtros similares a aquellos utilizados en la detección del ruido de murmullo, pero con distintas constantes de ataque y liberación.
Para una trama vocálica, puede definirse un nuevo parámetro const_vocal. El parámetro puede incluir una ganancia constante extra, en decibelios, para una trama vocálica y, así, determina la magnitud en la que se modifica la señal de banda estrecha. Un mayor valor negativo indica mayor atenuación y una señal más moderada de expansión artificial del ancho de banda (ABE). El valor del parámetro const_vocal puede depender de rx-SNR y de tx-SNR. En primer lugar, el valor de const_vocal puede calcularse según el gráfico ilustrado en la Fig. 3 y, después de eso, puede añadírsele el efecto de tx-SNR y factor-tx (Fig. 4). El parámetro factor-tx obtiene valores positivos cuando está presente el ruido-tx y, por lo tanto, reduce la magnitud de atenuación y hace que el algoritmo sea más agresivo.
A fin de proporcionar medios para la afinación sencilla del algoritmo, el cálculo de const_vocal y, por ello, las prestaciones totales del algoritmo, pueden controlarse con estos otros tres parámetros nuevos: control_abe, control_rx y control_tx. El efecto que tiene cada uno de ellos se describe a continuación.
El parámetro control_abe cambia el valor general de la curva const_vocal y, por ello, la moderación/agresividad general del algoritmo. Un valor máximo (1) indica una actuación muy agresiva. Un valor mínimo (0), por otra parte, indica la actuación más moderada. La gama de valores es [0,1] y el valor por omisión es 0,5 en ambas modalidades de ruido, según se muestra en la Fig. 3.
El parámetro control-rx cambia la pendiente de la curva const_vocal. Un valor máximo (1) indica que el nivel de ruido-rx no afecta al algoritmo. Un valor mínimo (0), por otra parte, indica la mayor dependencia. La gama de valores es [0,1], y el valor por omisión es 0,5 en ambas modalidades de ruido, como se muestra en la Fig. 3.
El parámetro control-tx cambia el tamaño de las etapas del factor-tx. Un valor máximo (1) indica la mayor dependencia. Un valor mínimo (0), por otra parte, indica que el nivel de ruido-tx no afecta al algoritmo. La gama de valores es [0,1] y el valor por omisión es 0,5 en la modalidad de ruido estable y 0,4 en la modalidad de ruido de murmullo, según se muestra en la Fig. 4.
El procesamiento de las sibilantes también puede depender de la modalidad de ruido y las estimaciones de la SNR. En la modalidad de ruido de murmullo, todas las tramas se procesan como tramas vocálicas, por lo que no se realizan detecciones de sibilantes, porque durante el ruido de murmullo la detección podría generar falsas detecciones de sibilantes, debido a que el ruido de fondo contiene tramas similares a las sibilantes.
En la modalidad de ruido estable, las señales con alto nivel de ruido de fondo también pueden procesarse como sonidos vocálicos, porque la amplificación de la banda alta afecta también al ruido, haciéndolo molesto. En el caso de las señales con un ruido estable de bajo nivel, por otra parte, las sibilantes pueden detectarse, y la función de modificación para las sibilantes se controla con un parámetro const_ate. Este parámetro es una ganancia constante extra para las sibilantes, de forma tal que, si las tramas vocálicas están sumamente atenuadas, las sibilantes también tienen una mayor atenuación constante extra. En otras palabras, el valor de const_ate depende del valor de const_vocal, como ilustra la Fig. 5.
A fin de proporcionar medios para la afinación sencilla del algoritmo, también hay un parámetro afinable para las tramas sibilantes, que controla el procesamiento general de las sibilantes. El parámetro const_sibilante cambia el nivel general de la curva de la constante de atenuación. Un valor máximo (1) indica sibilantes muy agresivas. Un valor mínimo (0), por otra parte, indica la actuación más moderada. La gama de valores es [0,1] y el valor por omisión es 0,5, según se muestra en la Fig. 5.
La Fig. 6 ilustra cómo puede aplicarse la expansión artificial de banda ancha (ABE) en una red. Según se aplica en la red, la ABE puede implementarse en redes que emplean códecs de banda tanto estrecha como ancha. La Fig. 7 ilustra cómo puede aplicarse la expansión artificial de banda ancha (ABE) en un terminal. Según se aplica en el terminal, la ABE está situada en el terminal y recibe comunicaciones de banda estrecha desde la red. La ABE expande la comunicación a una banda ancha para el terminal. El algoritmo de la ABE puede implementarse con un procesador de señales digitales (DSP) en el terminal.
El algoritmo descrito reduce el número de efectos causados por la mala clasificación de las tramas. Además, la dependencia del ruido-rx y el ruido-tx hace posible afinar el algoritmo de manera distinta en distintas situaciones de ruido, de forma tal que la calidad y la inteligibilidad del audio se maximicen en toda situación. Otras ventajas de la ABE descrita incluyen que no se necesita ninguna información adicional transmitida a fin de mejorar la naturalidad de la calidad de la voz. No se requiere ningún almacenamiento de guías de códigos. Además, la ABE puede implementarse en tiempo real con un coste informático razonable. El ajuste de los componentes de frecuencia dotados de alias se calcula utilizando un robusto procedimiento de dominios de frecuencia. Esto reduce el riesgo del deterioro de la calidad, debido a la atenuación insuficiente de los componentes de frecuencia superior.
Esta descripción detallada esboza realizaciones ejemplares de un procedimiento, dispositivo y sistema para una expansión artificial mejorada del ancho de banda, para la mejora de la calidad de la señal. En la descripción precedente, con fines explicativos, se estipulan numerosos detalles específicos a fin de proporcionar una comprensión exhaustiva de la presente invención. Es evidente, sin embargo, para alguien versado en la tecnología, que las realizaciones ejemplares pueden ponerse en práctica sin estos detalles específicos. En otros ejemplos, se muestran estructuras y dispositivos en diagramas de bloques, a fin de facilitar la descripción de las realizaciones ejemplares.
Si bien se prefieren actualmente las realizaciones ejemplares ilustradas en las Figuras y descritas anteriormente, debería entenderse que estas realizaciones se ofrecen sólo a modo de ejemplo. Otras realizaciones pueden incluir, por ejemplo, distintas técnicas para realizar las mismas operaciones. El ámbito de protección está definido por las reivindicaciones adjuntas.

Claims (20)

1. Un procedimiento para expandir las señales de voz de banda estrecha a señales de voz de banda ancha, comprendiendo el procedimiento:
determinar la información del tipo de señal a partir de una señal, en donde la información del tipo de señal se determina sobre la base de una razón entre señal y ruido del entorno lejano de la señal, y de una razón entre señal y ruido del entorno cercano de la señal;
obtener características para formar una señal de banda superior, utilizando la información determinada del tipo de señal;
determinar la información de ruido de la señal;
utilizar la información determinada del ruido de la señal para modificar las características obtenidas, a fin de formar la señal de banda superior; y
formar la señal de banda superior utilizando las características modificadas.
2. El procedimiento de la reivindicación 1, en el cual la determinación de la información de ruido de la señal comprende estimar una razón entre señal y ruido del entorno lejano, utilizando información sobre la energía de una porción de la señal y una estimación del nivel del ruido de fondo.
3. El procedimiento de la reivindicación 2, en el cual la determinación de la información de ruido de la señal comprende estimar una razón entre señal y ruido del entorno cercano.
4. El procedimiento de la reivindicación 1, en el cual la información del tipo de señal también se determina sobre la base de un índice de gradiente de señal.
5. El procedimiento de la reivindicación 4, que comprende adicionalmente clasificar la señal en distintos grupos de fonemas, sobre la base del índice de gradiente de señal y la razón entre señal y ruido del entorno lejano.
6. El procedimiento de la reivindicación 1, que comprende adicionalmente detectar el ruido de murmullo en la señal.
7. El procedimiento de la reivindicación 6, en el cual el ruido de murmullo se detecta sobre la base del índice de gradiente de la señal, la información de energía de la señal y una estimación del nivel de ruido.
8. El procedimiento de la reivindicación 6, en el cual la información de energía de la señal se obtiene a partir de la razón entre un valor de expectativa de la segunda derivada de la señal y un valor de expectativa de la señal.
9. Un dispositivo de comunicación configurado para recibir señales de banda ancha, comprendiendo el dispositivo:
una interfaz que está configurada para comunicarse con una red inalámbrica; y
instrucciones programadas almacenadas en una memoria y configuradas para expandir las señales de banda estrecha recibidas en señales de banda ancha, ajustando un algoritmo de expansión artificial de ancho de banda sobre la base de las condiciones de ruido, en donde las condiciones de ruido comprenden una razón entre señal y ruido del entorno lejano y una razón entre señal y ruido del entorno cercano.
10. El dispositivo de la reivindicación 9, en el cual las instrucciones programadas se configuran adicionalmente para detectar el ruido de murmullo sobre la base de un índice de gradiente de señal, la información de energía de la señal y una estimación del nivel de ruido.
11. El dispositivo de la reivindicación 9, en el cual las instrucciones programadas se implementan con un procesador de señales digitales (DSP).
12. Un dispositivo en una red de comunicación que está configurado para expandir las señales de voz de banda estrecha en señales de voz de banda ancha, comprendiendo el dispositivo:
un códec de banda estrecha que está configurado para recibir señales de voz de banda estrecha en una red;
un códec de banda ancha que está configurado para comunicar señales de voz de banda ancha a terminales de banda ancha en comunicación con la red; e
instrucciones programadas que están configuradas para expandir las señales de voz de banda estrecha en señales de voz de banda ancha, ajustando un algoritmo de expansión artificial de ancho de banda sobre la base de las condiciones de ruido, en donde las condiciones de ruido comprenden una razón entre señal y ruido del entorno lejano y una razón entre señal y ruido del entorno cercano.
13. El dispositivo de la reivindicación 12, en el cual las instrucciones programadas están adicionalmente configuradas para detectar el ruido de murmullo sobre la base de un índice de gradiente de señal, la información de energía de la señal y una estimación del nivel de ruido.
14. Un sistema para expandir señales de voz de banda estrecha en señales de voz de banda ancha, comprendiendo el sistema:
medios para determinar la información del tipo de señal a partir de una señal, en donde la información del tipo de señal se determina sobre la base de una razón entre señal y ruido del entorno lejano de la señal y una razón entre señal y ruido del entorno cercano de la señal;
medios para obtener características a fin de formar una señal de banda superior, utilizando la información determinada del tipo de señal;
medios para determinar la información de ruido de la señal;
medios para utilizar la información determinada del ruido de la señal para modificar las características obtenidas, a fin de formar la señal de banda superior; y
medios para formar la señal de banda superior utilizando las características modificadas.
15. El sistema de la reivindicación 14, en el cual la información del tipo de señal también se determina sobre la base de un índice de gradiente de señal.
16. El sistema de la reivindicación 14, que comprende adicionalmente detectar el ruido de murmullo en la señal.
17. Un producto de programa de ordenador adaptado para expandir señales de voz de banda estrecha a señales de voz de banda ancha, comprendiendo el producto de programa de ordenador:
código de ordenador adaptado para:
determinar la información del tipo de señal a partir de una señal, en donde la información del tipo de señal se determina sobre la base de una razón entre señal y ruido del entorno lejano de la señal, y una razón entre señal y ruido del entorno cercano de la señal;
obtener características para formar una señal de banda superior utilizando la información determinada del tipo de señal;
determinar la información de ruido de la señal;
utilizar la información determinada del ruido de la señal para modificar las características obtenidas, a fin de formar la señal de banda superior; y
formar la señal de banda superior utilizando las características modificadas.
18. El producto de programa de ordenador de la reivindicación 17, en el cual el código de ordenador también está adicionalmente adaptado para expandir la señal desde una señal de banda estrecha a una señal de banda ancha, sobre la base del índice de gradiente de la señal.
19. El producto de programa de ordenador de la reivindicación 17, en el cual el código de ordenador está adicionalmente adaptado para detectar ruido de murmullo en la señal.
20. El producto de programa de ordenador de la reivindicación 17, en el cual el código de ordenador está adicionalmente adaptado para estimar una razón entre señal y ruido de un entorno cercano.
ES05742453T 2004-05-25 2005-05-25 Sistema y procedimiento para la expansion artificial mejorada del ancho de banda. Expired - Lifetime ES2329060T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US853820 2004-05-25
US10/853,820 US8712768B2 (en) 2004-05-25 2004-05-25 System and method for enhanced artificial bandwidth expansion

Publications (1)

Publication Number Publication Date
ES2329060T3 true ES2329060T3 (es) 2009-11-20

Family

ID=35426530

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05742453T Expired - Lifetime ES2329060T3 (es) 2004-05-25 2005-05-25 Sistema y procedimiento para la expansion artificial mejorada del ancho de banda.

Country Status (9)

Country Link
US (1) US8712768B2 (es)
EP (1) EP1766615B1 (es)
KR (1) KR100909679B1 (es)
CN (1) CN1985304B (es)
AT (1) ATE437432T1 (es)
BR (1) BRPI0512160A (es)
DE (1) DE602005015588D1 (es)
ES (1) ES2329060T3 (es)
WO (1) WO2005115077A2 (es)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100723409B1 (ko) * 2005-07-27 2007-05-30 삼성전자주식회사 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
KR100905585B1 (ko) * 2007-03-02 2009-07-02 삼성전자주식회사 음성신호의 대역폭 확장 제어 방법 및 장치
JP5126145B2 (ja) * 2009-03-30 2013-01-23 沖電気工業株式会社 帯域拡張装置、方法及びプログラム、並びに、電話端末
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
JP5493655B2 (ja) * 2009-09-29 2014-05-14 沖電気工業株式会社 音声帯域拡張装置および音声帯域拡張プログラム
EP2495721B1 (en) * 2009-10-26 2018-05-30 III Holdings 12, LLC Tone determination device and method
CN101763859A (zh) * 2009-12-16 2010-06-30 深圳华为通信技术有限公司 音频数据处理方法、装置和多点控制单元
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9245538B1 (en) * 2010-05-20 2016-01-26 Audience, Inc. Bandwidth enhancement of speech signals assisted by noise reduction
KR101461774B1 (ko) * 2010-05-25 2014-12-02 노키아 코포레이션 대역폭 확장기
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
JP5589631B2 (ja) * 2010-07-15 2014-09-17 富士通株式会社 音声処理装置、音声処理方法および電話装置
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CN102436820B (zh) 2010-09-29 2013-08-28 华为技术有限公司 高频带信号编码方法及装置、高频带信号解码方法及装置
CN102610231B (zh) 2011-01-24 2013-10-09 华为技术有限公司 一种带宽扩展方法及装置
US20140226842A1 (en) * 2011-05-23 2014-08-14 Nokia Corporation Spatial audio processing apparatus
EP4336501A3 (en) * 2013-01-29 2024-05-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method and computer program using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates
KR101864122B1 (ko) 2014-02-20 2018-06-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR102318763B1 (ko) 2014-08-28 2021-10-28 삼성전자주식회사 기능 제어 방법 및 이를 지원하는 전자 장치
KR102372188B1 (ko) * 2015-05-28 2022-03-08 삼성전자주식회사 오디오 신호의 잡음을 제거하기 위한 방법 및 그 전자 장치

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US6219642B1 (en) * 1998-10-05 2001-04-17 Legerity, Inc. Quantization using frequency and mean compensated frequency input data for robust speech recognition
KR20010101422A (ko) * 1999-11-10 2001-11-14 요트.게.아. 롤페즈 매핑 매트릭스에 의한 광대역 음성 합성
FI119576B (fi) 2000-03-07 2008-12-31 Nokia Corp Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP4433668B2 (ja) * 2002-10-31 2010-03-17 日本電気株式会社 帯域拡張装置及び方法
US20040138876A1 (en) * 2003-01-10 2004-07-15 Nokia Corporation Method and apparatus for artificial bandwidth expansion in speech processing
DE602004025089D1 (de) * 2003-02-27 2010-03-04 Ericsson Telefon Ab L M Hörbarkeitsverbesserung

Also Published As

Publication number Publication date
CN1985304A (zh) 2007-06-20
BRPI0512160A (pt) 2008-02-12
DE602005015588D1 (de) 2009-09-03
KR100909679B1 (ko) 2009-07-29
KR20070022338A (ko) 2007-02-26
EP1766615B1 (en) 2009-07-22
CN1985304B (zh) 2011-06-22
WO2005115077A2 (en) 2005-12-08
ATE437432T1 (de) 2009-08-15
US8712768B2 (en) 2014-04-29
EP1766615A2 (en) 2007-03-28
US20050267741A1 (en) 2005-12-01
WO2005115077A3 (en) 2006-03-16

Similar Documents

Publication Publication Date Title
ES2329060T3 (es) Sistema y procedimiento para la expansion artificial mejorada del ancho de banda.
US7171246B2 (en) Noise suppression
ES2343948T3 (es) Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable.
US8063809B2 (en) Transient signal encoding method and device, decoding method and device, and processing system
ES2624190T3 (es) Dispositivo de control y método de control de dispositivo de nivelación de volumen
JP4299888B2 (ja) 通信システムにおけるレート決定装置および方法
EP0993670B1 (en) Method and apparatus for speech enhancement in a speech communication system
US7912729B2 (en) High-frequency bandwidth extension in the time domain
KR100905585B1 (ko) 음성신호의 대역폭 확장 제어 방법 및 장치
ES2687249T3 (es) Decisión no sonora/sonora para el procesamiento de la voz
CN101010722A (zh) 音频信号中话音活动的检测
US20080312916A1 (en) Receiver Intelligibility Enhancement System
US9530430B2 (en) Voice emphasis device
WO2001086633A1 (en) Voice activity detection and end-point detection
US8423357B2 (en) System and method for biometric acoustic noise reduction
ES2394515T3 (es) Métodos y adaptaciones en una red de telecomunicaciones
Laaksonen et al. Artificial bandwidth expansion method to improve intelligibility and quality of AMR-coded narrowband speech
JP4509413B2 (ja) 電子機器
KR100294920B1 (ko) 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치
KR20150014607A (ko) 통신 시스템에서 오류 은닉 방법 및 장치
JP2011071806A (ja) 電子機器、及び電子機器の音量制御プログラム
JPH0870285A (ja) 音声復号装置
Chen Adaptive variable bit-rate speech coder for wireless applications