ES2684604T3

ES2684604T3 - Procedimiento de detección de la voz

Info

Publication number: ES2684604T3
Application number: ES14814978.4T
Authority: ES
Inventors: Karim Maouche
Original assignee: Adeunis RF SA
Current assignee: Adeunis RF SA
Priority date: 2013-12-02
Filing date: 2014-11-27
Publication date: 2018-10-03
Anticipated expiration: 2034-11-27
Also published as: FR3014237B1; FR3014237A1; CA2932449A1; CN105900172A; US20160284364A1; WO2015082807A1; EP3078027B1; US9905250B2; EP3078027A1

Abstract

Procedimiento de detección de la voz que permite detectar la presencia de señales de habla en una señal acústica x(t) ruidosa procedente de un micrófono, que comprende las etapas sucesivas siguientes: - una etapa previa de muestreo que comprende una segmentación de la señal acústica x(t) en una señal acústica discreta ξ compuesta por una secuencia de vectores asociados a unas tramas i temporales de longitud N, correspondiendo N al número de puntos de muestreo, en donde cada vector traduce el contenido acústico de la trama i asociada y está compuesto por N muestras x(i-1)N+1, x(i-1)N+2,...,xiN-1, xiN, siendo i un entero positivo; - una etapa de cálculo de una función de detección FD(τ ) basada en el cálculo de una función diferencia D(τ ) que varía en función del desplazamiento τ sobre una ventana de integración de longitud W que comienza en el tiempo t0, con:**Fórmula** en donde 0 <= τ <= max(τ ); en donde esta etapa de cálculo de la función de detección FD(τ ) consiste en un cálculo de una función de detección discreta FDi(τ ) asociada a las tramas i; - una etapa de búsqueda del mínimo de la función de detección FD(τ ) y comparación de este mínimo con un umbral, variando τ dentro de un intervalo de tiempo determinado, denominado intervalo en curso, para detectar la presencia o no de una frecuencia fundamental F0 característica de una señal de habla en dicho intervalo en curso, en donde esta etapa de búsqueda del mínimo de la función de detección FD(τ ) y la comparación de este mínimo con un umbral se realizan buscando, en cada trama i, el mínimo rr(i) de la función de detección discreta FDi(τ ); estando dicho procedimiento caracterizado por que comprende: - una etapa de adaptación del umbral en dicho intervalo en curso, en función de valores calculados a partir de la señal acústica x(t) establecidos en dicho intervalo en curso, en el que esta etapa de adaptación del umbral consiste en, para cada trama i, adaptar un umbral Ωi propio de la trama i en función de valores de referencia calculados a partir de los valores de las muestras de la señal acústica discreta ξ en dicha trama i; en el que dicha etapa de búsqueda del mínimo de la función de detección FD(τ ) y la comparación de este mínimo con un umbral se realizan comparando, en cada trama i, el mínimo rr(i) de la función de detección discreta FDi(τ ) con un umbral Ωi propio de la trama i; y, en el que, la etapa de adaptación de los umbrales Ωi para cada trama i comprende las etapas siguientes: a)- se subdivide la trama i que comprende N puntos de muestreo en T subtramas de longitud L, donde N es un múltiplo de T con el fin de que la longitud L>=N/T sea un entero, y de manera que las muestras de la señal acústica discreta ξ dentro de una subtrama de índice j de la trama i comprendan las L muestras siguientes: x(i-1)N+(j-1)L + 1, x(i-1)N+(j-1)L+2, ..., x(i-1)N+jL, siendo j un entero positivo comprendido entre 1 y T; b)- se calculan los valores máximos mi,j de la señal acústica discreta ξ en cada subtrama de índice j de la trama i, con: c)- se calcula por lo menos un valor de referencia Refi,j, MRefi,j propio de la subtrama j de la trama i, siendo el valor o cada valor de referencia Refi,j, MRefi,j, por cada subtrama j calculado a partir del valor máximo mi,j en la subtrama j de la trama i; d)- se establece el valor del umbral Ωi propio de la trama i en función de todos los valores de referencia Refi,j, MRefi,j calculados en las subtramas j de la trama i; y en el que, en la etapa c), se realizan las siguientes subetapas sobre cada trama i:

Description

5

10

15

20

25

30

35

40

45

50

55

60

65

DESCRIPCION

Procedimiento de detección de la voz.

La presente invención se refiere a un procedimiento de detección de la voz que permite detectar la presencia de señales de habla en una señal acústica ruidosa procedente de un micrófono.

Se refiere, más particularmente, a un procedimiento de detección de la voz utilizado en un sistema de comunicación de audio inalámbrico, mono-sensor.

La invención se sitúa en el campo específico de la detección de actividad de la voz, denominado generalmente “VAD” por Voice Activity Detection, que consiste en detectar el habla, dicho de otra manera, señales de habla, en una señal acústica procedente de un micrófono.

La invención encuentra una aplicación privilegiada, aunque no limitativa, con un sistema de comunicación de audio inalámbrico multi-usuario, del tipo sistema de comunicación por multiplexado temporal o full-duplex, entre diversos terminales de comunicación autónomos, es decir sin conexión a una base de transmisión o a una red, y de utilización sencilla, es decir, sin intervención de un técnico para establecer la comunicación.

Un sistema de comunicación de este tipo, conocido en particular a partir de los documentos WO 10149864 A1, WO 10149875 A1 y EP 1 843 326 A1, se utiliza típicamente en un entorno ruidoso, incluso muy ruidoso, por ejemplo, en el medio marino, dentro del marco de un espectáculo o de un acontecimiento deportivo en interiores o en exteriores, en una obra, etc.

En general, la detección de actividad de la voz consiste en delimitar por medio de criterios cuantificables, los principios y finales de palabras y/o de frases en una señal acústica ruidosa, dicho de otra manera, en un flujo de audio dado. Una detección de este tipo encuentra aplicaciones en campos tales como la codificación del habla, la reducción de ruido o, incluso, el reconocimiento del habla.

La realización de un procedimiento de detección de la voz en la cadena de tratamiento de un sistema de comunicación de audio permite, en particular, no transmitir ninguna señal acústica o de audio durante los periodos de silencio. Por ello, durante estos periodos no se transmitirá el ruido circundante, con el fin de mejorar la reproducción de audio de la comunicación o para reducir el caudal de transmisión. Por ejemplo, en el marco de la codificación del habla, se conoce la utilización de la detección de actividad de la voz para codificar la señal de audio de manera completa solamente cuando el procedimiento “VAD” indica actividad. Por ello, cuando no se produce habla y se está en un periodo de silencio, el caudal de codificación baja significativamente, lo cual, por término medio, en toda la señal, permite lograr unos caudales más reducidos.

Existen, por tanto, muchos procedimientos de detección de actividad de la voz pero estos últimos presentan unos rendimientos mediocres o no funcionan en absoluto en el marco de un entorno ruidoso, incluso muy ruidoso, tal como en un entorno de un encuentro deportivo (en exteriores o en interiores) con árbitros que deben comunicarse por audio y de forma inalámbrica. En efecto, los procedimientos conocidos de detección de actividad de la voz proporcionan resultados erróneos cuando la señal de habla está contaminada con ruido.

Entre los procedimientos conocidos de detección de actividad de la voz, algunos ponen en práctica una detección de la frecuencia fundamental característica de una señal de habla, tal como se da a conocer en particular en el documento FR 2 988 894. En el caso de una señal de habla, denominada señal o sonido sonoro, la señal presenta, en efecto, una frecuencia denominada fundamental, llamada de manera general “pitch”, que corresponde a la frecuencia de vibración de las cuerdas vocales de la persona que habla, y que se extiende generalmente entre 70 y 400 Hertz. La evolución de esta frecuencia fundamental determina la melodía del habla y su rango depende del hablante, de sus hábitos aunque, también, de su estado físico y mental.

Así, para lograr la detección de una señal de habla, se sabe que se parte del principio por el cual una señal de habla del tipo mencionado es cuasi periódica y que, por ello, una correlación o una diferencia con la propia señal, aunque desplazada, presentará máximos o mínimos en las proximidades de la frecuencia fundamental y de sus múltiplos.

El documento “YIN, a fundamental frequency estimator for speech and music”, de Alain De Cheveigne y Hideki Kawahara, Journal of the Acoustical Society of America, vol. 111, n.° 4, págs. 1917 a 1930, abril de 2002, propone y desarrolla un método basado en la diferencia entre la señal y la misma señal desplazada temporalmente.

Diversos métodos descritos a continuación se basan en la detección de la frecuencia fundamental de la señal de habla o pitch dentro de una señal acústica x(t) ruidosa.

5

10

15

20

25

30

35

40

45

50

55

Un primer método de detección de la frecuencia fundamental utiliza la búsqueda del máximo de la función de autocorrelación R(t) definida por la siguiente relación:

N-l-t

R(t) = — / x(n)x(n +x) , 0 < t < max(x) .

N Z_í

n=0

Sin embargo, este primer método, al utilizar la función de autocorrelación, no ofrece un resultado satisfactorio en cuanto hay presencia de ruido relativamente importante. Además, la función de autocorrelación padece la presencia de máximos que no corresponden a la frecuencia fundamental o con sus múltiplos, sino a submúltiplos de la misma.

Un segundo método de detección de la frecuencia fundamental utiliza la búsqueda del mínimo de la función diferencia D(t) definida por la siguiente relación:

J N-l-r

O(r) = — ^ |x(n)-x(n + r)| , 0<r<max(T),,

(1=0

donde | | es el operador valor absoluto, siendo mínima esta función diferencia en las proximidades de la frecuencia fundamental y de sus múltiplos, y a continuación la comparación de este mínimo con un umbral para deducir la decisión de presencia o no de voz.

Con respecto a la función de autocorrelación R(t), la función diferencia D(t) tiene la ventaja de ofrecer una carga de cálculo más reducida, consiguiendo así que este segundo método sea más interesante para aplicaciones en tiempo real. No obstante, este segundo método tampoco es completamente satisfactorio en cuanto hay presencia de ruido.

Un tercer método de detección de la frecuencia fundamental utiliza el cálculo, considerando una ventana de tratamiento de longitud H en la que H<N, de la función diferencia al cuadrado dt(i) definida por la relación:

imagen1

A continuación, se prosigue con la búsqueda del mínimo de la función diferencia al cuadrado dt(i), siendo mínima esta función diferencia al cuadrado en las proximidades de la frecuencia fundamental y de sus múltiplos, y, finalmente, la comparación de este mínimo con un umbral para deducir la decisión de presencia o no de voz.

Una mejora conocida de este tercer método consiste en normalizar la función diferencia al cuadrado dt(i) calculando una función diferencia al cuadrado normalizada d't(i) que responde a la siguiente relación:

f 1, sít = 0 d'At) = ] si no___^-----------

i

Este tercer método, aunque presenta una mejor inmunidad al ruido y ofrece, en este escenario, mejores resultados de detección, presenta unos límites en términos de detección de voz, en particular dentro de las zonas de ruido con características de RSB (Relación Señal/Ruido) reducida de un entorno ruidoso.

El estado de la técnica también se puede ilustrar con las enseñanzas de la solicitud de patente FR 2 825 505, que utiliza el tercer método de detección de la frecuencia fundamental citado previamente, para la extracción de esta frecuencia fundamental. En esta solicitud de patente, la función diferencia al cuadrado normalizada d't(x) se puede comparar con un umbral para determinar esta frecuencia fundamental -pudiendo este umbral ser fijo o pudiendo variar en función del desplazamiento temporal t- y este método adolece de los inconvenientes antes citados, asociados a este tercer método.

Se conoce también la utilización de un procedimiento de detección de la voz que utiliza la detección de una frecuencia fundamental, a partir del documento “Pitch detection with average magnitude difference function using adaptive threshold algorithm for estimating shimmer and jitter”, de Hae Young Kim et al., Engineeringin Medicine And Biology Society, 1998, Proceedings of the 2Úh Annual International Conference of the IEEE, vol. 6, 29 de octubre de 1998, páginas 3162 a 6164, XP010320717. En este documento se describe un procedimiento que consiste en buscar el mínimo de una función de autocorrelación, utilizando una comparación con un umbral adaptativo que es función de valores mínimos y máximos de la señal en la trama en curso. Esta adaptación del

5

10

15

20

25

30

35

40

45

50

55

60

umbral es sin embargo muy limitada. En efecto, en una situación de una señal de audio con diferentes valores de la relación señal/ruido pero con la misma amplitud de señal, el umbral sería el mismo para todas las situaciones sin que este último cambie en función del nivel de ruido, lo cual, de este modo, puede provocar cortes en el principio de la frase, incluso no detecciones de la voz, cuando la señal a detectar es una voz, en particular en un contexto en el que el ruido es un ruido de espectadores difuso de tal manera que no se asemeja en absoluto a una señal de habla.

La presente invención tiene como objetivo proponer un procedimiento de detección de la voz que ofrece una detección de las señales de habla contenidas en una señal acústica ruidosa, en particular en entornos ruidosos, incluso muy ruidoso.

Propone, más particularmente, un procedimiento de detección de la voz que está muy adaptado para la comunicación (en particular entre árbitros) en el interior de un estadio en donde el ruido es de nivel relativamente muy alto y es considerablemente no estacionario, con etapas de detección que evitan en particular las detecciones erróneas o falsas (denominadas, en general, “tonches”) debidas a los cánticos de los espectadores, instrumentos de viento, tambores, músicas y silbidos.

Con este fin, propone un procedimiento de detección de la voz que permite detectar la presencia de señales de habla en una señal acústica x(t) ruidosa, procedente de un micrófono, y que comprende las etapas sucesivas siguientes:

- una etapa previa de muestreo que comprende una segmentación de la señal acústica x(t) en una señal acústica discreta {x¡} compuesta por una secuencia de vectores asociados a tramas i temporales de longitud N, correspondiéndose N con el número de puntos de muestreo, en donde cada vector refleja el contenido acústico de la trama i asociada y está compuesto por N muestras x(¡-1)N+1, x(i-1)N+2, ..., xín-1, xín, siendo i un entero positivo;

- una etapa de cálculo de una función de detección FD(t) basada en el cálculo de una función diferencia D(t) que varía en función del desplazamiento t sobre una ventana de integración de longitud W que comienza en el tiempo t0, con:

°(t)=zsanxGo - x(n+x)i en donde o < T < max(T);

en donde esta etapa de cálculo de la función de detección FD(t) consiste en un cálculo de una función de detección discreta FD¡(t) asociada a las tramas i;

- una etapa de adaptación del umbral dentro de dicho intervalo en curso, en función de valores calculados a partir de la señal acústica x(t) establecidos en dicho intervalo en curso, y en particular valores máximos de dicha señal acústica x(t),

en donde esta etapa de adaptación del umbral consiste en, para cada trama i, adaptar un umbral Q¡ propio de la trama i en función de valores de referencia calculados a partir de los valores de las muestras de la señal acústica discreta {x¡} en dicha trama i;

- una etapa de búsqueda del mínimo de la función de detección FD(t) y comparación de este mínimo con un umbral, variando t dentro de un intervalo de tiempo determinado, que se denomina intervalo en curso, para detectar la presencia o no de una frecuencia fundamental Fo característica de una señal de habla en dicho intervalo en curso;

en donde esta etapa de búsqueda del mínimo de la función de detección FD(t) y la comparación de este mínimo con un umbral se realizan buscando, en cada trama i, el mínimo rr(¡) de la función de detección discreta FD¡(t) y comparando este mínimo rr(¡) con un umbral Q¡ propio de la trama i;

y, en el que, la etapa de adaptación de los umbrales Q¡ para cada trama i comprende las siguientes etapas:

a) - la trama i que comprende N puntos de muestreo se subdivide en T subtramas de longitud L, donde N es

un múltiplo de T con el fin de que la longitud L = N/T sea un entero, y de manera que las muestras de la señal acústica discreta {x¡} dentro de una subtrama de índice j de la trama i comprendan las siguientes L muestras:

x(¡-i)N+(j-i)L + 1, x(¡-i)N+(j-i)L+2, ..., x(¡-i)N+jL, siendo j un entero positivo comprendido entre 1 y T;

b) - se calculan los valores máximos m¡,j de la señal acústica discreta {x¡} dentro de cada subtrama de índice j

de la trama i, con:

5

10

15

20

25

30

35

40

45

50

55

m¡,j - max {X(i-i)N+(j-i)L + i, X(¡-i)n+ci-i)l+2, ..., X(¡-i)n+jl};

c) - se calcula por lo menos un valor de referencia Ref¡j, MRef¡,j propio de la subtrama j de la trama i,

calculándose el valor o cada valor de referencia Ref¡,j, MRef¡,j, por cada subtrama j, a partir del valor máximo m¡,j dentro de la subtrama j de la trama i;

d) - se establece el valor del umbral Q¡ propio de la trama i en función de todos los valores de referencia Ref¡j,

MRefi j calculados en las subtramas j de la trama i.

Así, este procedimiento se basa en el principio de un umbral adaptativo, el cual será relativamente bajo durante los periodos de ruido o de silencio y relativamente alto durante los periodos de habla. De este modo, las detecciones falsas se minimizarán y el habla se detectará correctamente con un mínimo de cortes en el principio y el final de las palabras. Con el procedimiento según la invención, para tomar la decisión (voz o ausencia de voz) sobre la trama i completa se consideran los valores máximos m¡,j establecidos dentro de las subtramas j.

Según una primera posibilidad, la función de detección FD(t) corresponde a la función diferencia D(t).

De acuerdo con una segunda posibilidad, la función de detección FD(t) corresponde a la función diferencia normalizada DN(t) calculada a partir de la función diferencia D(t) de la manera siguiente:

imagen2

en donde el cálculo de la función diferencia normalizada DN(t) consiste en un cálculo de una función diferencia normalizada discreta DN¡(t) asociada a las tramas i, en donde:

imagen3

En una forma de realización particular, la función diferencia discreta D¡(t) relativa a la trama i se calcula de la manera siguiente:

- la trama i se subdivide en K subtramas de longitud H, con, por ejemplo, K= |N~™xWj, en donde l J

representa el operador de redondeo a la parte entera, de manera que las muestras de la señal acústica discreta {x¡} dentro de una subtrama de índice p de la trama i comprenden las H muestras:

X(¡-i)N+(p-i)H + i, X(¡-i)N+(p-i)H+2,..., X(¡-i)N+pH, siendo p un entero positivo comprendido entre 1 y K;

para cada subtrama de índice p, se calcula la función diferencia ddp(-r) siguiente:

dd (Y) = y(|-1>N+PH

uupw -nisu-fn-i

=(l—l)N+(p—l)H+llX) XÍ+t|

- se calcula la función diferencia discreta D¡(t) relativa a la trama i como la suma de las funciones diferencia ddp(i) de las subtramas de índice p de la trama i, es decir:

D¡(t) = Zp=1 ddp(x) .

Además, el procedimiento según la invención destaca por que en la etapa c), se realizan las siguientes subetapas sobre cada trama i:

ci)- se calculan las envolventes suavizadas de los máximos m¡j en cada subtrama de índice j de la trama i, con:

nij i = A m¡ + (1 — A)m¡j ^ donde A es un coeficiente predefinido comprendido entre 0 y 1; c2)- se calculan las señales de variación A¡j en cada subtrama de índice j de la trama i, con:

5

10

15

20

25

30

35

40

45

50

55

60

Ai.i = ni¡ j - m,,, = X (m¡, - nij,,.!) ;

y en donde por lo menos un valor de referencia denominado principal Ref¡,j por cada subtrama j se calcula a partir de la señal de variación Ay en la subtrama j de la trama i.

Así, para tomar la decisión (voz o ausencia de voz) sobre la trama i completa, se consideran las señales de variación Ay de las envolventes suavizadas establecidas en las subtramas j, fiabilizando la detección del habla (o voz).

Según otra característica, en la etapa c) y a continuación de la subetapa c2), se realizan las siguientes subetapas sobre cada trama i:

c3)- se calculan los máximos de variación sy en cada subtrama de índice j de la trama i, en donde sy corresponde al máximo de la señal de variación Ay calculado sobre una ventana deslizante de longitud Lm anterior a dicha subtrama j, siendo variable dicha longitud Lm según que la subtrama j de la trama i corresponda a un periodo de silencio o de presencia de habla.

c4)- se calculan las desviaciones de variación 5y en cada subtrama de índice j de la trama i, con:

imagen4

y en donde, para cada subtrama j de la trama i, se calculan dos valores de referencia principales Refy a partir, respectivamente, de la señal de variación Ay y de la desviación de variación 5y.

Así, se consideran conjuntamente las señales de variación Ay y las desviaciones de variación 5y establecidas en las subtramas j para elegir el valor del umbral Q¡ adaptativo y, así, tomar la decisión (voz o ausencia de voz) sobre la trama i completa, reforzando la detección del habla. Dicho de otra manera, se estudia el par (Ay, 5y) para determinar el valor del umbral Qi adaptativo.

Ventajosamente, en la etapa c) y a continuación de la subetapa c4), se realiza una subetapa c5) de cálculo de las señales de variación normalizadas A'y y de las desviaciones de variación normalizadas 5'y en cada subtrama de índice j de la trama i, de la manera siguiente:

_ mU mi.i .

my mtj ’

o/ _ si.j _ mu~ ™t.j~su .

í -- -- J

,J mt.i mi.¡

y en donde, para cada subtrama j de una trama i, la señal de variación normalizada A'y y la desviación de variación normalizada 5'y constituyen, cada una de ellas, un valor de referencia principal Refy de manera que, en la etapa d), se establece el valor del umbral Qi propio de la trama i en función del par (A'y, 5'y) de las señales de variación normalizadas A'y y de las desviaciones de variación normalizadas 5'y en las subtramas j de la trama i.

De esta manera, la variación del umbral Qi se puede tratar independientemente de los niveles de las señales Ay y 5i,j normalizándolas con el cálculo de las señales normalizadas A'y y 5'y. Así, los umbrales Qi elegidos a partir de estas señales normalizadas A'y y 5'y serán independientes del nivel de la señal acústica discreta {x¡}. Dicho de otra manera, para determinar el valor del umbral Q¡ adaptativo se estudia el par (A'¡j, 5'¡,j).

De forma ventajosa, en la etapa d), el valor del umbral Q¡ propio de la trama i se establece dividiendo el espacio definido por el valor del par (A'y, 5'¡,j), y examinando el valor del par (A'y, 5'¡,j) sobre una o varias (por ejemplo, entre una y tres) subtramas sucesivas según la zona de valor del par (A'¡j, 5'¡,j).

Así, el proceso de cálculo del umbral Q¡ se basa en una partición experimental del espacio definido por el valor del par (A'y, 5'¡,j). A ello se le añade un mecanismo de decisión que escudriña el valor del par (A'y, 5'¡,j) sobre una, dos o más subtramas sucesivas según la zona de valor del par. Las condiciones de las pruebas de posicionamiento del valor del par (A'i,j, 5'i,j) dependen en particular de la detección del habla durante la trama precedente, y el mecanismo de escudriñamiento sobre dichas una, dos o más subtramas sucesivas utiliza también una división en particiones experimental.

Según una característica, en la subetapa c3), la longitud Lm de la ventana deslizante responde a las siguientes ecuaciones:

5

10

15

20

25

30

35

40

45

50

55

- Lm = L0 si la subtrama j de la trama i corresponde a un periodo de silencio;

- Lm = L1 si la subtrama j de la trama i corresponde a un periodo de presencia de habla;

con L1 < L0, y en particular con L1=k1 ■ L y L0=k0L, siendo L la longitud de las subtramas de índice j y siendo k0, k1 enteros positivos.

Según otra característica, en la subetapa c3), para cada cálculo del máximo de variación sy en la subtrama j de la trama i, la ventana deslizante de longitud Lm está retardada Mm tramas de longitud N con respecto a dicha subtrama j.

Según otra característica, se realizan los siguientes perfeccionamientos:

- en la subetapa c3), se calculan también los máximos de variación normalizados s'y en cada subtrama de índice j de la trama i, en donde s'y corresponde al máximo de la señal de variación normalizado A'y calculado sobre una ventana deslizante de longitud Lm anterior a dicha subtrama j, en donde:

imagen5

y en donde cada máximo de variación normalizado s'y se calcula según un método de minimización que comprende las siguientes etapas iterativas:

- cálculo de s'y = max{s'i,j_1; A'i_Mmj} y s'íj = max{s'ij_1;A'i_MmJ}

- si rem(i, Lm) = 0, donde rem es el operador resto de la división entera de dos enteros, entonces:

s'íj = max {?,;_!; }.

s i,j - A i-Mm,j

con s'01 = 0 y s'01 = 0; y

- en la etapa c4), se calculan las desviaciones de variación normalizadas 5y en cada subtrama de índice j de la trama i, de la manera siguiente:

S'íj - A'¡ j — s'|] .

De manera ventajosa, en la etapa c), se realiza una subetapa c6) en la que se calculan los máximos del qy máximo en cada subtrama de índice j de la trama i, en donde qy corresponde al máximo del valor máximo my calculado sobre una ventana deslizante de longitud fija Lq anterior a dicha subtrama j, en donde la ventana deslizante de longitud Lq está retardada Mq tramas de longitud N con respecto a dicha subtrama j, y en donde otro valor de referencia denominado secundario MRefy por cada subtrama j corresponde a dicho máximo del qy máximo dentro de la subtrama j de la trama i.

Así, para evitar provechosamente las detecciones falsas, resulta ventajoso tener en cuenta también esta señal qy (valor de referencia secundario MRefy = qy) que se calcula de una manera similar al cálculo de la señal sy citada previamente, pero que actúa sobre los valores máximos my en lugar de actuar sobre las señales de variación Ay

0 sobre las señales de variación normalizadas Ay.

En un modo de realización particular, en la etapa d), el umbral Qi propio de la trama i se segmenta en varios subumbrales Qy propios de cada subtrama j de la trama i, y el valor de cada subumbral Qy se establece por lo menos en función del valor o valores de referencia Refy, MRefy calculados en la subtrama j de la trama i correspondiente.

Así, se tiene Qi = {Q¡,i ; Q^ ; ...; Q¡,t}, que refleja la segmentación del umbral Qi en varios subumbrales Qy propios de las subtramas j, aportando una resolución suplementaria en el establecimiento del umbral Qi adaptativo.

De manera ventajosa, en la etapa d), se establece el valor de cada umbral Qi,j propio de la subtrama j de la trama

1 comparando los valores del par (Ay, 5y) con varios pares de umbrales fijos, seleccionándose el valor de cada umbral Qy entre varios valores fijos en función de las comparaciones del par (Ay, 5y) con dichos pares de umbrales fijos.

5

10

15

20

25

30

35

40

45

50

55

60

Estos pares de umbrales fijos se determinan, por ejemplo, experimentalmente mediante una repartición del espacio de los valores (A'¡j, ¿y) en zonas de decisiones.

De manera complementaria, se establece el valor de cada umbral Q¡,j propio de la subtrama j de la trama i también llevando a cabo una comparación del par (A'y, 5'y) en una o varias subtramas sucesivas según la zona inicial del par (A'y, 5'y).

Las condiciones de las pruebas de posicionamiento del valor del par (A'y, 5'y) dependen de la detección del habla durante la trama precedente, y el mecanismo de comparación en la subtrama o subtramas sucesivas utiliza también una división en particiones experimental.

Evidentemente, también es previsible establecer el valor de cada umbral Qy propio de la subtrama j de la trama i comparando:

- los valores del par (A'y, 5'y) (los valores de referencia principales Refy) con varios pares de umbrales fijos;

- los valores de qy (el valor de referencia secundario MRefy) con otros diversos umbrales fijos.

Así, el mecanismo de decisión basado en la comparación del par (A'y, 5'y) con pares de umbrales fijos, se completa mediante otro mecanismo de decisión basado en la comparación de qy con otros umbrales fijos.

Ventajosamente, en la etapa d), se realiza un proceso denominado de decisión, que comprende las siguientes subetapas, para cada trama i:

- para cada subtrama j de la trama i, se establece un índice de decisión DEC¡(j) que ocupa o bien un estado “1” de detección de una señal de habla o bien un estado “0” de no detección de una señal de habla;

- se establece una decisión temporal VAD(i) basada en la comparación de los índices de decisión DECi(j) con operadores “O” lógicos, de manera que la decisión temporal VAD(i) ocupa un estado “1” de detección de una señal de habla si por lo menos uno de dichos índices de decisión DECi(j) ocupa este estado “1” de detección de una señal de habla.

Así, para evitar las detecciones tardías (cortes de palabras en el principio de la detección), la decisión final (voz o ausencia de voz) se toma a continuación de este proceso de decisión basándose en la decisión temporal VAD(i) que, a su vez, se toma sobre la trama i completa, con la aplicación de un operador “O” lógico sobre las decisiones tomadas en las subtramas j, y, preferentemente, en subtramas j sucesivas con un horizonte corto y finito a partir del principio de la trama i.

Durante este proceso de decisión, se pueden realizar las siguientes subetapas, para cada trama i:

- se memoriza un valor máximo de umbral Lastmax que corresponde al valor variable de un umbral de comparación para la amplitud de la señal acústica discreta {x¡} por debajo del cual se considera que la señal acústica no comprende ninguna señal de habla, determinándose este valor variable durante la última trama de índice k que precede a dicha trama i y en la que la decisión temporal VAD(k) ocupaba un estado “1” de detección de una señal de habla;

- se memoriza un valor máximo medio A¡,j que corresponde al valor máximo medio de la señal acústica discreta {x¡} en la subtrama j de la trama i, calculado de la manera siguiente:

Aj j = 0 A¡ j_j + (1 — 0)a¡,j

en donde a¡,j corresponde al máximo de la señal acústica discreta {x¡} contenido en una trama k formada por la subtrama j de la trama i y por lo menos por una o varias subtramas sucesivas que preceden a dicha subtrama j; y

es un coeficiente predefinido comprendido entre 0 y 1, con 0 < A

- se establece el valor de cada subumbral Q¡,j en función de la comparación entre dicho valor máximo de umbral Lastmax y valores máximos medios A¡,j y A¡,j-1 considerados sobre dos subtramas j y j-1 sucesivas.

En muchos casos, las falsas detecciones llegan con una amplitud inferior a la de la señal de habla (al estar situado el micrófono al lado de la boca de la persona que se está comunicando). Así, este proceso de decisión pretende eliminar todavía más las detecciones erróneas memorizando el valor máximo de umbral Lastmax de la señal de habla actualizado de nuevo en el último periodo de activación y los valores máximos medios A¡,j y A¡,j-1 que corresponden al valor máximo medio de la señal acústica discreta {x¡} en las subtramas j y j-1 de la trama i.

5

10

15

20

25

30

35

40

45

50

55

60

65

Teniendo en cuenta estos valores (Lastmax, Ai,j, y Aij-1), se vuelve a añadir una condición en el nivel del establecimiento del umbral Oí adaptativo.

Es importante que el valor de 0 se seleccione de manera que sea inferior al coeficiente A para ralentizar las fluctuaciones de Ay.

En el proceso de decisión mencionado anteriormente, se actualiza de nuevo el valor máximo de umbral Lastmax cada vez que el procedimiento ha considerado que una subtrama p de una trama k contiene una señal de habla, poniendo en práctica el proceso siguiente:

- la detección de una señal de habla en la subtrama p de la trama k sucede a un periodo de ausencia de habla, y, en este caso, Lastmax adopta el valor actualizado [a (Ak,p + LastMax)], en donde a es un coeficiente predefinido, comprendido entre 0 y 1, y, por ejemplo, comprendido entre 0,2 y 0,7;

- la detección de una señal de habla en la subtrama p de la trama k sucede a un periodo de presencia de habla, y, en este caso, Lastmax adopta el valor actualizado Ak,p si Ak,p > Lastmax.

Así, la actualización del valor Lastmax se realiza únicamente durante los periodos de activación del procedimiento (dicho de otra manera, los periodos de detección de la voz). En una situación de detección de habla, el valor Lastmax valdrá Ak,p > cuando se tenga Ak,p > LastMax. Sin embargo, es importante que esta actualización se realice de la manera siguiente durante la activación de la primera subtrama p que sucede a una zona de silencio: el valor Lastmax valdrá [a (Ak,p + LastMax)].

Este mecanismo de actualización del valor máximo de umbral Lastmax permite que el procedimiento detecte la voz del usuario incluso si este último ha reducido la intensidad de su voz (dicho de otra manera, habla menos fuerte) con respecto a la última vez en la que el procedimiento ha detectado que él había hablado.

Dicho de otra manera, para mejorar todavía más la eliminación de las falsas detecciones, se realiza un tratamiento sutil en el que el valor máximo de umbral Lastmax es variable y se compara con los valores máximos medios Ay y A,j-i de la señal acústica discreta.

Efectivamente, con el procedimiento se podrían captar voces lejanas, ya que dichas voces presentan frecuencias fundamentales susceptibles de ser detectadas, igual que la voz del usuario. Para garantizar que las voces lejanas, que pueden ser molestas en varios casos prácticos, no sean tenidas en cuenta por el procedimiento, se considera un tratamiento en el transcurso del cual el valor máximo medio de la señal (sobre dos tramas sucesivas), en este caso Ay y Aij-i, se compara con Lastmax que constituye un umbral variable según la amplitud de la voz del usuario medida en la última activación. Así, el valor del umbral Oí se fija a un valor mínimo muy bajo, cuando la señal esté por debajo del umbral.

Esta condición para establecer el valor del umbral Oí en función del valor máximo de umbral Lastmax se basa ventajosamente en la comparación entre:

- el valor máximo de umbral Lastmax; y

- los valores [Kp Aj] y [Kp- Aj-i], en donde Kp es un coeficiente fijo de ponderación comprendido entre 1 y 2.

De esta manera, el valor máximo de umbral Lastmax se compara con los valores máximos medios de la señal acústica discreta {xj en las subtramas j y j-1 (Ay y Ay.i) ponderados con un coeficiente de ponderación Kp comprendido entre 1 y 2, para reforzar la detección. Esta comparación se realiza únicamente cuando la trama precedente no ha dado lugar a una detección de voz.

De manera ventajosa, el procedimiento comprende además una fase denominada de bloqueo, que comprende una etapa de conmutación de un estado de no detección de una señal de habla a un estado de detección de una señal de habla después de haber detectado la presencia de una señal de habla sobre Np tramas i temporales sucesivas.

Así, el procedimiento pone en práctica una etapa del tipo hangover configurada de tal manera que la transición de una situación sin voz a una situación con presencia de voz se realiza únicamente después de Np tramas sucesivas con presencia de voz.

Asimismo, el procedimiento consta además de una fase denominada de bloqueo que comprende una etapa de conmutación de un estado de detección de una señal de habla a un estado de no detección de una señal de habla después de no haber detectado ninguna presencia de una señal sonora sobre Na tramas i temporales sucesivas.

5

10

15

20

25

30

35

40

45

50

55

60

Así, el procedimiento pone en práctica una etapa del tipo hangover configurada de tal manera que la transición de una situación con presencia de voz a una situación sin voz se realiza únicamente después de Na tramas sucesivas sin voz.

Sin estas etapas de conmutación, el procedimiento corre el riesgo de cortar ocasionalmente la señal acústica durante las frases o incluso en mitad de las palabras pronunciadas. Para remediar esto, estas etapas de conmutación ponen en práctica una etapa de bloqueo o de hangover sobre una serie dada de tramas.

Según una posibilidad de la invención, el procedimiento comprende una etapa de interrupción de la fase de bloqueo en zonas de decisión que intervienen al final de palabras y en una situación sin ruido, detectándose dichas zonas de decisión al analizar el mínimo rr(i) de la función de detección discreta FD¡(t).

Así, la fase de bloqueo se interrumpe al final de una frase o palabra durante una detección particular en el espacio de decisión. Esta interrupción sobreviene únicamente en una situación ruidosa inexistente o reducida. Por ello, el procedimiento prevé el aislamiento de una zona de decisión particular que sobreviene únicamente al final de palabras y en una situación sin ruido. Para reforzar la decisión de detección de esta zona, el procedimiento utiliza también el mínimo rr(i) de la función de detección discreta FD¡(t), en donde la función de detección discreta FD¡(t) corresponde o bien a la función de diferencia discreta D¡(t) o bien a la función de diferencia normalizada discreta DN¡(t). Por ello, la voz se cortará más rápidamente al final del habla, confiriendo así al sistema una mejor calidad de audio.

La invención tiene también como objetivo un programa de ordenador que comprende instrucciones de código aptas para controlar la ejecución de las etapas del procedimiento de detección de la voz tal como se ha definido anteriormente cuando el mismo es ejecutado por un procesador.

La invención tiene también como objetivo un soporte de grabación de datos de grabación en el que se almacena un programa de ordenador según se ha definido anteriormente en la presente.

La invención tiene como objetivo adicional poner a disposición un programa de ordenador según se ha definido anteriormente en la presente en una red de telecomunicación con vistas a su descarga.

Otras características y ventajas de la presente invención se pondrán de manifiesto al leer la descripción detallada que se ofrece posteriormente, de un ejemplo de puesta en práctica, no limitativo, y realizada en referencia a las figuras adjuntas en las que:

- la figura 1 es un esquema sinóptico del procedimiento de acuerdo con la invención;

- la figura 2 es una vista esquemática de un bucle de limitación puesto en práctica por una etapa de bloqueo de decisión denominada etapa del tipo hangover,

- la figura 3 ilustra el resultado de un procedimiento de detección de la voz que utiliza un umbral fijo con, en la parte superior, una representación de la curva del mínimo rr(i) de la función de detección y de la línea de umbral fijo Ofijo y, en la parte inferior, una representación de la señal acústica discreta {x¡} y de la señal de salida dF¡;

- la figura 4 ilustra el resultado de un procedimiento de detección de la voz de acuerdo con la invención utilizando un umbral adaptativo con, en la parte superior, una representación de la curva del mínimo rr(i) de la función de detección y de la línea de umbral adaptativo Oi y, en la parte inferior, una representación de la señal acústica discreta {x¡} y de la señal de salida DF¡.

La descripción del procedimiento de detección de la voz se realiza en referencia a la figura 1 que ilustra esquemáticamente la sucesión de las diferentes etapas necesarias para la detección de la presencia de señales de habla (o de voz) en una señal acústica ruidosa x(t) procedente de un micrófono único que está funcionando en un medio ruidoso.

El procedimiento comienza por una etapa 101 previa de muestreo que comprende una segmentación de la señal acústica x(t) en una señal acústica discreta {x¡} compuesta por una secuencia de vectores asociados a tramas i temporales de longitud N, correspondiéndose N con el número de puntos de muestreo, en donde cada vector refleja el contenido acústico de la trama i asociada y está compuesto por N muestras X(¡-1)n+1, X(¡-1)n+2,...,x¡n-1, x¡n, siendo i un entero positivo:

A título de ejemplo, la señal acústica ruidosa x(t) se segmenta en tramas de 240 o 256 muestras, lo cual, a una frecuencia de muestreo Fe de 8 kHz, corresponde a unas tramas temporales de 30 o 32 milisegundos.

5

10

15

20

25

30

35

40

45

50

55

El procedimiento prosigue con una etapa 102 de cálculo de una función diferencia discreta D¡(t) relativa a la trama i que se calcula de la manera siguiente:

- cada trama i se subdivide en K subtramas de longitud H, con la siguiente relación:

K = pLEpMJ en donde l J representa el operador de redondeo a la parte entera,

de manera que las muestras de la señal acústica discreta {x¡} dentro de una subtrama de índice p de la trama i comprenden las H muestras siguientes:

x(i-1)N+(p-1)H + 1, x(i-1)N+(p-1)H+2, ..., x(i-1)N+pH, siendo p un entero positivo comprendido entre 1 y K; a continuación

- para cada subtrama de índice p, se calcula la función diferencia ddp(-r) siguiente:

dd (Y) = y(|-1)N+PH |x. _ x. I

uupv.iy ¿j=(¡—i)N+(p—i)H+ilxj x)+t| 1

imagen6

Es también posible que la etapa 102 comprenda asimismo el cálculo de una función diferencia normalizada discreta DN¡(t) a partir de la función diferencia discreta D¡(t), de la manera siguiente:

imagen7

El procedimiento prosigue con una etapa 103 en la que, para cada trama i:

- la trama i que comprende N puntos de muestreo se subdivide en T subtramas de longitud L, donde N es un múltiplo de T con el fin de que la longitud L=N/T sea un entero, y de manera que las muestras de la señal acústica discreta {x¡} dentro de una subtrama de índice j de la trama i comprendan las siguientes L muestras:

X(i-1)N+(j-1)L + 1, X(i-1)N+(j-1)L+2, ..., X(i-1)N+jL, siendo j un entero positivo comprendido entre 1 y T;

b)- se calculan los valores máximos m¡,j de la señal acústica discreta {x¡} dentro de cada subtrama de índice j de la trama i, con:

m¡,j = max {X(¡-1)N+(j-1)L + 1, X(¡-1)n+ci-1)l+2, ..., X(¡-1)n+jl};

A título de ejemplo, cada trama i de longitud 240 (es decir, N=240) se subdivide en cuatro subtramas j de longitudes 60 (es decir, T=4, y L=60).

A continuación, en una etapa 104, se calculan las envolventes suavizadas de los máximos m¡j en cada subtrama de índice j de la trama i, definidos por:

mi,j = ^ mi,j-i "*■ (1 — , donde A es un coeficiente predefinido comprendido entre 0 y 1.

A continuación, en una etapa 105, se calculan las señales de variación A¡j en cada subtrama de índice j de la trama i, definidas por:

Ai,) = ni¡ ( — nijj = X (m¡j —

A continuación, en una etapa 106, se calculan las señales de variación normalizadas A'¡,j definidas por:

5

10

15

20

25

30

35

40

45

50

. > _ ¿i.j _ mtr mu

l’í ™i.j ™i,j ‘

A continuación, en una etapa 107, se calculan los máximos de variación s¡,j en cada subtrama de índice j de la trama i, en donde s¡,j corresponde al máximo de la señal de variación A¡j calculada sobre una ventana deslizante de longitud Lm anterior a dicha subtrama j. Durante esta etapa 106, la longitud Lm es variable según que la subtrama j de la trama i corresponda a un periodo de silencio o de presencia de habla, con:

- Lm = L0 si la subtrama j de la trama i corresponde a un periodo de silencio;

con L1 < L0. A título de ejemplo, L1=k1 L y L0=k0L, siendo L, a título recordatorio, la longitud de las subtramas

de índice j y siendo k0, k1 enteros positivos con k1<k0. Además, la ventana deslizante de longitud Lm está

retrasada Mm tramas de longitud N con respecto a dicha subtrama j.

Durante esta etapa 106, se calculan también los máximos de variación normalizados s'y en cada subtrama de índice j de la trama i, en donde:

imagen8

Se puede prever el cálculo de los máximos de variación normalizados s'i j según un método de minimización que comprende las siguientes etapas iterativas:

- cálculo de s'¡j = max{s'i,j_1; A'i_Mmj} y s'ij = max{s'ij_1;A'i_Mmj}

s'ij = max {sT'jj.!; A'¡_Mnvj },

S ¡Ó = ^ Í-Mmj

- fin del si

con s'01 = 0 y s'01 = 0.

A continuación, en una etapa 108, se calculan las desviaciones de variación 5y en cada subtrama de índice j de la trama i, definidas por:

En esta misma etapa 108, se calculan las desviaciones de variación normalizadas S'ij en cada subtrama de índice j de la trama i, definidas por:

£/ _ _£u _ mij~ l‘í mu mu,

A continuación, en una etapa 109, se calculan los máximos del qy máximo en cada subtrama de índice j de la trama i, en donde qy corresponde al máximo del valor máximo my calculado sobre una ventana deslizante de longitud fija Lq anterior a dicha subtrama j, en donde la ventana deslizante de longitud Lq está retardada Mq tramas de longitud N con respecto a dicha subtrama j. Ventajosamente, Lq > L0, y en especial Lq=kqL, siendo kq un entero positivo y kq > k0. Además, se tiene Mq > Mm.

Durante esta etapa 109, se puede prever el cálculo de los máximos del qy máximo según un método de minimización que comprende las siguientes etapas iterativas:

- cálcul° de q¡j = max{qiJ_1; mi_Mqj) y qi,j = max{q¡,j-i; mi—Mqj)

- si rem(i, Lq) = 0, en donde rem es el operador resto de la división entera de dos enteros, entonces:

q¡j = max {q¡ j-i; m,_MqJ }, q¡j = m¡_Mmj

5

10

15

20

25

30

35

40

45

50

55

60

65

- fin del si

con qo,i = 0y qo,i = 0.

A continuación, en una etapa 110, se establecen los valores de umbrales Oí propios de cada trama i, entre varios valores fijos 0a, 0b, 0c, etc. De forma más precisa, se establecen los valores de los subumbrales 0¡,j propios de cada subtrama j de la trama i, segmentándose el umbral 0¡ en varios subumbrales 0¡,j. A título de ejemplo, cada umbral 0¡ o subumbral 0¡,j adopta un valor fijo escogido entre seis valores fijos Oa, Ob, Oc, Od, Oe, Of, estando comprendidos estos valores fijos, por ejemplo, entre 0,05 y 1, y, en especial, entre 0,1 y 0,7.

Cada umbral 0¡ o subumbral 0¡,j se fija a un valor fijo Oa, Ob, Oc, Od, Oe, Of, mediante la puesta en práctica de dos análisis:

- primer análisis: la comparación de los valores del par (A’¡j, 5'¡,j) en la subtrama de índice j de la trama i con varios pares de umbrales fijos;

- segundo análisis: la comparación de los máximos del máximo q¡,j en la subtrama de índice j de la trama i con umbrales fijos.

A continuación de estos dos análisis, un proceso denominado de decisión aportará la decisión final sobre la presencia de la voz en la trama i. Este proceso de decisión comprende las siguientes subetapas, para cada trama i:

- se establece una decisión temporal VAD(i) basada en la comparación de los índices de decisión DEC¡(j) con operadores “O” lógicos, de manera que la decisión temporal VAD(i) ocupa un estado “1” de detección de una señal de habla si por lo menos uno de dichos índices de decisión DEC¡(j) ocupa este estado “1” de detección de una señal de habla, dicho de otra manera se tiene la siguiente relación:

VAD(i) = DEC¡(1) + DEC¡(2) + ... + DEC¡(T), en donde “+” es el operador “O”.

Así, en función de las comparaciones realizadas durante el primer y el segundo análisis, y en función del estado de la decisión temporal VAD(i), el umbral 0¡ se fija a uno de los valores fijos Oa, Ob, Oc, 0d, Oe, Of y se deduce la decisión final comparando el mínimo rr(¡) con el umbral 0¡ fijado a uno de sus valores fijos (consúltese la descripción más adelante).

En muchos casos, las falsas detecciones (o tonches) llegan con una amplitud inferior a la de la señal de habla, al estar situado el micrófono al lado de la boca del usuario. Teniendo en cuenta este hecho, es previsible eliminar todavía más las falsas detecciones memorizando el valor máximo de umbral Lastmax deducido a partir de la señal de habla en el último periodo de activación del “VAD” y añadiendo una condición en el procedimiento basada en este valor máximo de umbral Lastmax.

Así, en la etapa 109 descrita anteriormente, se añade la memorización del valor máximo de umbral Lastmax que corresponde al valor variable (o actualizado) de un umbral de comparación para la amplitud de la señal acústica discreta {x¡} por debajo del cual se considera que la señal acústica no comprende ninguna señal de habla, determinándose este valor variable durante la última trama de índice k que precede a dicha trama i y en la cual la decisión temporal VAD(k) ocupaba un estado “1” de detección de una señal de habla.

En esta etapa 109, se memoriza también un valor máximo medio A¡,j que corresponde al valor máximo medio de la señal acústica discreta {x¡} en la subtrama j de la trama i, calculado de la manera siguiente:

Aj j = 9 Aj j_x + (1 — 9)a¡j

en donde a¡,j corresponde al máximo de la señal acústica discreta {x¡} contenido en la trama teórica k formada por la subtrama j de la trama i y por lo menos por una o más subtramas sucesivas que preceden a dicha subtrama j; y

0 es un coeficiente predefinido comprendido entre 0 y 1, con 0 < A.

En esta etapa 109, se actualiza de nuevo el valor máximo de umbral Lastmax cada vez que el procedimiento ha considerado que una subtrama p de una trama k contiene una señal de habla, poniendo en práctica el proceso siguiente:

5

10

15

20

25

30

35

40

45

50

55

60

65

A continuación, en la etapa 110 descrita anteriormente, se añade una condición basada en el valor máximo de umbral Lastmax para fijar el umbral Q¡.

Para cada trama i, esta condición se basa en la comparación entre:

- el valor máximo de umbral Lastmax; y

- los valores [KpAj y [Kp- Aj-i], en donde Kp es un coeficiente fijo de ponderación comprendido entre 1 y 2.

Se puede prever también la disminución del valor máximo de umbral Lastmax después de un periodo de temporización dado (por ejemplo, fijado entre varios segundos y varias decenas de segundos) entre la trama i y la última trama de índice k citada previamente, con el fin de evitar la no detección del habla si el usuario/hablante disminuye la amplitud de su voz de forma significativa.

A continuación, en una etapa 111, se calcula, para cada trama en curso i, el mínimo rr(i) de una función de detección discreta FDi(i), en donde la función de detección discreta FDi(i) corresponde o bien a la función diferencia discreta D¡(t) o bien a la función de diferencia normalizada discreta DN¡(t).

Finalmente, en una última etapa 112, se compara, para cada trama en curso i, este mínimo rr(i) con el umbral Q¡ propio de la trama i, para detectar la presencia o no de una señal de habla (o señal sonora), con:

- si rr(i) < Q¡, entonces la trama i se considera que presenta una señal de habla y el procedimiento entrega una señal de salida DF¡ que adopta el valor “1” (dicho de otra manera, la decisión final para la trama i es “presencia de voz en la trama i”);

- si rr(i) > Q¡, entonces se considera que la trama i no presenta ninguna señal de habla y el procedimiento entrega una señal de salida DF¡ que adopta el valor “0” (dicho de otra manera, la decisión final para la trama i es “ausencia de voz en la trama i”).

En referencia a las figuras 1 y 2, se puede prever la aportación de un perfeccionamiento al procedimiento, introduciendo una etapa suplementaria 113 de bloqueo de decisión (o etapa de hangover), para evitar los cortes de sonido en una frase y durante la pronunciación de las palabras, teniendo como objetivo esta etapa 113 de bloqueo de decisión reforzar la decisión de presencia/ausencia de voz mediante la puesta en práctica de las dos etapas siguientes:

- conmutación de un estado de no detección de una señal de habla a un estado de detección de una señal de habla después de haber detectado la presencia de una señal de habla sobre Np tramas i temporales sucesivas;

- conmutación de un estado de detección de una señal de habla a un estado de no detección de una señal de habla después de no haber detectado ninguna presencia de una señal sonora sobre Na tramas i temporales sucesivas.

Así, esta etapa 113 de bloqueo permite entregar en la salida una señal de decisión de la detección de la voz Dv que adopta el valor “1” correspondiente a una decisión de la detección de la voz y el valor “0” correspondiente a una decisión de la no detección de la voz, en donde:

- la señal de decisión de la detección de la voz Dv conmuta de un estado “1” a un estado “0” si y solo si la señal de salida DF¡ adopta el valor “0” en Na tramas i temporales sucesivas; y

- la señal de decisión de la detección de la voz Dv conmuta de un estado “0” a un estado “1” si y solo si la señal de salida DF¡ adopta el valor “1” en Np tramas i temporales sucesivas.

En referencia a la figura 2, si se supone que se parte de un estado “Dv=1”, se conmuta a un estado “Dv=0” si la señal de salida DF¡ adopta el valor “0” en Na tramas sucesivas, si no, el estado permanece en “Dv=1” (representando Ni el número de la trama en el inicio de la serie). Asimismo, si se supone que se parte de un estado “Dv=0”, se conmuta a un estado “Dv=1” si la señal de salida DF¡ adopta el valor “1” en Np tramas sucesivas, si no, el estado permanece en “Dv=0”.

5

10

15

20

25

30

35

La decisión final se aplica a las primeras H muestras de la trama tratada. Preferentemente, Na es superior a Np, con, por ejemplo, Na=100 y Np=3, ya que es mejor correr el riesgo de detectar silencio antes de cortar una conversación.

La descripción trata a continuación sobre dos resultados de detección de voz obtenidos con un procedimiento típico que utiliza un umbral fijo (Figura 3) y con el procedimiento de acuerdo con la invención que utiliza un umbral adaptativo (Figura 4).

En las figuras 3 y 4 (parte inferior), se observa que los dos procedimientos actúan sobre la misma señal acústica discreta {x¡}, con la amplitud en las ordenadas y las muestras en la abscisa. Esta señal acústica discreta {x¡} presenta una sola zona de presencia de habla “PAR”, y numerosas zonas de presencia de ruidos parásitos tales como música, tambores, gritos de un gentío y silbidos. Esta señal acústica discreta {x¡} refleja un entorno representativo de una comunicación entre personas (tales como árbitros) en el interior de un estado o de un gimnasio en donde el ruido es relativamente muy fuerte en cuanto a nivel y es notablemente no estacionario.

En las figuras 3 y 4 (parte superior), se observa que los dos procedimientos aprovechan la misma función rr(i) correspondiente, a título recordatorio, al mínimo de la función de detección discreta FD¡[t] seleccionada.

En la figura 3 (en la parte superior), la función mínima rr(i) se compara con un umbral fijo Ofijo seleccionado de manera óptima para garantizar la detección de la voz. En la figura 3 (parte inferior), se observa la forma de la señal de salida DF¡ que ocupa un estado “1” si rr(i) < Ofijo y un estado “0” si rr(i) > Ofijo.

En la figura 4 (parte superior), la función mínima rr(i) se compara con un umbral adaptativo O¡ calculado según las etapas descritas anteriormente en referencia a la figura 1. En la figura 4 (parte inferior), se observa la forma de la señal de salida DF¡ que ocupa un estado “1” si rr(i) < O¡ y un estado “0” si rr(i) > O¡.

En la figura 3 se observa que el procedimiento de acuerdo con la invención permite una detección de la voz en la zona de presencia de habla “PAR” con la señal de salida DF¡ que ocupa un estado “1”, y que esta misma señal de salida DF¡ ocupa varias veces un estado “1” en las otras zonas en las que el habla, sin embargo, está ausente, lo cual corresponde a unas falsas detecciones no deseadas con el procedimiento clásico.

Por el contrario, en la figura 4 se observa que el procedimiento de acuerdo con la invención permite una detección óptima de la voz en la zona de presencia de habla “PAR” con la señal de salida DF¡ que ocupa un estado “1”, y que esta misma señal de salida DF¡ ocupa un estado “0” en las otras zonas en las que el habla está ausente. Así, el procedimiento de acuerdo con la invención garantiza una detección de la voz con una fuerte reducción del número de falsas detecciones.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

REIVINDICACIONES

1. Procedimiento de detección de la voz que permite detectar la presencia de señales de habla en una señal acústica x(t) ruidosa procedente de un micrófono, que comprende las etapas sucesivas siguientes:

- una etapa previa de muestreo que comprende una segmentación de la señal acústica x(t) en una señal acústica discreta {x¡} compuesta por una secuencia de vectores asociados a unas tramas i temporales de longitud N, correspondiendo N al número de puntos de muestreo, en donde cada vector traduce el contenido acústico de la trama i asociada y está compuesto por N muestras x(¡-1)N+1, x(í-1)n+2,...,xín-1, xín, siendo i un entero positivo;

- una etapa de cálculo de una función de detección FD(t) basada en el cálculo de una función diferencia D(t) que varía en función del desplazamiento t sobre una ventana de integración de longitud W que comienza en el tiempo t0, con:

D(t) = En°=to/ 1lx(n) — x(n + t)I en donde 0 < i < max(x);

en donde esta etapa de cálculo de la función de detección FD(t) consiste en un cálculo de una función de detección discreta FD¡(t) asociada a las tramas i;

- una etapa de búsqueda del mínimo de la función de detección FD(t) y comparación de este mínimo con un umbral, variando t dentro de un intervalo de tiempo determinado, denominado intervalo en curso, para detectar la presencia o no de una frecuencia fundamental Fo característica de una señal de habla en dicho intervalo en curso, en donde esta etapa de búsqueda del mínimo de la función de detección FD(t) y la comparación de este mínimo con un umbral se realizan buscando, en cada trama i, el mínimo rr(¡) de la función de detección discreta FD¡(t);

estando dicho procedimiento caracterizado por que comprende:

- una etapa de adaptación del umbral en dicho intervalo en curso, en función de valores calculados a partir de la señal acústica x(t) establecidos en dicho intervalo en curso,

en el que esta etapa de adaptación del umbral consiste en, para cada trama i, adaptar un umbral Q¡ propio de la trama i en función de valores de referencia calculados a partir de los valores de las muestras de la señal acústica discreta {x¡} en dicha trama i;

en el que dicha etapa de búsqueda del mínimo de la función de detección FD(t) y la comparación de este mínimo con un umbral se realizan comparando, en cada trama i, el mínimo rr(¡) de la función de detección discreta FD¡(t) con un umbral Q¡ propio de la trama i;

y, en el que, la etapa de adaptación de los umbrales Q¡ para cada trama i comprende las etapas siguientes:

a) - se subdivide la trama i que comprende N puntos de muestreo en T subtramas de longitud L, donde N es

un múltiplo de T con el fin de que la longitud L=N/T sea un entero, y de manera que las muestras de la señal acústica discreta {x¡} dentro de una subtrama de índice j de la trama i comprendan las L muestras siguientes:

x(¡-i)n+(]-i)l + i, x(¡.i)n+(]-i)l+2, ..., x(¡-i)N+jL, siendo j un entero positivo comprendido entre 1 y T;

b) - se calculan los valores máximos m¡,j de la señal acústica discreta {x¡} en cada subtrama de índice j de la

trama i, con:

m¡,j = max {X(¡-i)n+(j-i)l + 1, X(¡-i)n+g-i)l+2, ■■■, X(¡-i)n+jl};

c) - se calcula por lo menos un valor de referencia Ref¡,j, MRef¡,j propio de la subtrama j de la trama i, siendo el

valor o cada valor de referencia Ref¡,j, MRef¡,j, por cada subtrama j calculado a partir del valor máximo m¡,j en la subtrama j de la trama i;

d) - se establece el valor del umbral Q¡ propio de la trama i en función de todos los valores de referencia Ref¡,j,

MRefi j calculados en las subtramas j de la trama i;

y en el que, en la etapa c), se realizan las siguientes subetapas sobre cada trama i:

5

10

15

20

25

30

35

40

45

50

55

c1)- se calculan las envolventes suavizadas de los máximos m¡j en cada subtrama de índice j de la trama i, con:

mi.j = ^ + (1 — A)mi,j en donc|e A es un coeficiente predefinido comprendido entre 0 y 1;

c2)- se calculan las señales de variación A¡j en cada subtrama de índice j de la trama i, con:

A|.j = m¡j - m¡, = A (m¡j - tñy-j);

y en el que se calcula por lo menos un valor de referencia denominado principal Refy por cada subtrama j a partir de la señal de variación Ay en la subtrama j de la trama i.
2. Procedimiento según la reivindicación 1, en el que, en la etapa c) y a continuación de la subetapa c2), se realizan las siguientes subetapas sobre cada trama i:

c3)- se calculan los máximos de variación sy en cada subtrama de índice j de la trama i, en donde sy corresponde al máximo de la señal de variación Ay calculado sobre una ventana deslizante de longitud Lm anterior a dicha subtrama j, siendo dicha longitud Lm variable según que la subtrama j de la trama i corresponda a un periodo de silencio o de presencia de habla;

c4)- se calculan las desviaciones de variación 5y en cada subtrama de índice j de la trama i, con:

imagen1

y en el que, para cada subtrama j de la trama i, se calculan dos valores de referencia principales Refy a partir respectivamente de la señal de variación Ay y de la desviación de variación 5y.
3. Procedimiento según la reivindicación 2, en el que, en la etapa c) y a continuación de la subetapa c4), se realiza una subetapa c5) de cálculo de las señales de variación normalizadas A'y y de las desviaciones de variación normalizadas 5'y en cada subtrama de índice j de la trama i, de la manera siguiente:

&i,j rriij- mu¡ _

"*<,/ rñ(j ’

su _ mu-mursu .

™i.i ™i.i ’

y en el que, para cada subtrama j de una trama i, la señal de variación normalizada A'y y la desviación de variación normalizada 5'y constituyen, cada una de ellas, un valor de referencia principal Refy de manera que, en la etapa d), se establece el valor del umbral Qi propio de la trama i en función del par (A'y, 5'y) de las señales de variación normalizadas A'y y de las desviaciones de variación normalizadas 5'y en las subtramas j de la trama i.
4. Procedimiento según la reivindicación 3, en el que, en la etapa d), el valor del umbral Qi propio de la trama i se establece dividiendo el espacio definido por el valor del par (A'y, 5'y), y examinando el valor del par (A'y, 5'y) sobre una o varias subtramas sucesivas según la zona de valor del par (A'y, 5'y).
5. Procedimiento según cualquiera de las reivindicaciones 2 a 4, en el que, en la subetapa c3), la longitud Lm de la ventana deslizante responde a las ecuaciones siguientes:

- Lm = L0 si la subtrama j de la trama i corresponde a un periodo de silencio;

- Lm = L1 si la subtrama j de la trama i corresponde a un periodo de presencia de habla;

con L1 < L0, y en particular con L1=k1 L y L0=k0L, siendo L la longitud de las subtramas de índice j y siendo k0, k1 unos enteros positivos.
6. Procedimiento según la reivindicación 2, en el que, en la subetapa c3), para cada cálculo del máximo de variación sy en la subtrama j de la trama i, la ventana deslizante de longitud Lm está retardada Mm tramas de longitud N con respecto a dicha subtrama j.
7. Procedimiento según las reivindicaciones 3 y 6, en el que, en la subetapa c3), se calculan también los máximos de variación normalizados s'y en cada subtrama de índice j de la trama i, en donde s'y corresponde al máximo de la señal de variación normalizado A'y calculado sobre una ventana deslizante de longitud Lm anterior a dicha subtrama j, en donde:

imagen2

5

10

15

20

25

30

35

40

45

50

55

imagen3

y en donde cada máximo de variación normalizado s'¡,j se calcula según un método de minimización que comprende las etapas iterativas siguientes:

- cálculo de s'¡,j = max{s'i,j_1; A'i_Mmj} y s'íj = max{s'ij_1;A'i_MmJ}

- si rem(i, Lm) = 0, donde rem es el operador resto de la división entera de dos enteros, entonces:

s'íj = max {s'¡ }.

S i.j = A i-Mmj

con s'01 = 0 y s'01 = 0;

y en el que, en la etapa c4), se calculan las desviaciones de variación normalizadas 5'y en cada subtrama de índice j de la trama i, de la manera siguiente:

«Vi - A'¡j - s'ij.
8. Procedimiento según cualquiera de las reivindicaciones 1 a 7, en el que, en la etapa c), se realiza una subetapa c6) en la que se calculan los máximos del q¡,j máximo en cada subtrama de índice j de la trama i, en donde q¡,j corresponde al máximo del valor máximo my calculado sobre una ventana deslizante de longitud fija Lq anterior a dicha subtrama j, en donde la ventana deslizante de longitud Lq está retardada Mq tramas de longitud N con respecto a dicha subtrama j, y en donde otro valor de referencia denominado secundario MRefy por cada subtrama j corresponde a dicho máximo del qy máximo en la subtrama j de la trama i.
9. Procedimiento según cualquiera de las reivindicaciones 1 a 8, en el que, en la etapa d), el umbral Q¡ propio de la trama i se segmenta en varios subumbrales Qy propios de cada subtrama j de la trama i, y el valor de cada subumbral Qy se establece por lo menos en función del o de los valores de referencia Refy, MRefy calculados en la subtrama j de la trama i correspondiente.
10. Procedimiento según las reivindicaciones 3 y 9, en el que, en la etapa d), se establece el valor de cada umbral Qy propio de la subtrama j de la trama i comparando los valores del par (Ay, 5'y) con varios pares de umbrales fijos, siendo el valor de cada umbral Qy seleccionado de entre varios valores fijos en función de las comparaciones del par (Ay, 5'y) con dichos pares de umbrales fijos.
11. Procedimiento según cualquiera de las reivindicaciones 1 a 10, en el que, en la etapa d), se realiza un proceso denominado de decisión, que comprende las siguientes subetapas, para cada trama i:

- para cada subtrama j de la trama i, se establece un índice de decisión DECi(j) que ocupa o bien un estado “1” de detección de una señal de habla, o bien un estado “0” de no detección de una señal de habla;

- se establece una decisión temporal VAD(i) basada en la comparación de los índices de decisión DECi(j) con unos operadores “O” lógicos, de manera que la decisión temporal VAD(i) ocupa un estado “1” de detección de una señal de habla si por lo menos uno de dichos índices de decisión DECi(j) ocupa este estado “1” de detección de una señal de habla.
12. Procedimiento según las reivindicaciones 9 y 11, en el que, en el proceso de decisión, se realizan las siguientes subetapas, para cada trama i:

- se memoriza un valor máximo de umbral Lastmax que corresponde al valor variable de un umbral de comparación para la amplitud de la señal acústica discreta {x¡} por debajo del cual se considera que la señal acústica no comprende ninguna señal de habla, siendo este valor variable determinado durante la última trama de índice k que precede a dicha trama i y en la que la decisión temporal VAD(k) ocupaba un estado “1” de detección de una señal de habla;

- se memoriza un valor máximo medio A¡,j que corresponde al valor máximo medio de la señal acústica discreta {x¡} en la subtrama j de la trama i, calculado de la manera siguiente:

Ajj = 9 A¡ j_x + (1 — 9)a¡ j

5

10

15

20

25

en donde ai,j corresponde al máximo de la señal acústica discreta {xi} contenido en una trama formada por la subtrama j de la trama i y por lo menos una o varias subtramas sucesivas que preceden a dicha subtrama j; y

0 es un coeficiente predefinido comprendido entre 0 y 1, con 0 < A;

- se establece el valor de cada subumbral Qy en función de la comparación entre dicho valor máximo de umbral Lastmax y unos valores máximos medios Ay y Ay_i considerados sobre dos subtramas j y j-1 sucesivas.
13. Procedimiento según la reivindicación 12, en el que, en el proceso de decisión, se actualiza de nuevo el valor máximo de umbral Lastmax cada vez que el procedimiento ha considerado que una subtrama p de una trama k contiene una señal de habla, poniendo en práctica el siguiente proceso:

- la detección de una señal de habla en la subtrama p de la trama k sucede a un periodo de ausencia de habla, y, en este caso, Lastmax adopta el valor actualizado [a(Ak,p + LastMax)], en donde a es un coeficiente predefinido comprendido entre 0 y 1, y, por ejemplo, comprendido entre 0,2 y 0,7;

- la detección de una señal de habla en la subtrama p de la trama k sucede a un periodo de presencia de habla, y, en este caso, Lastmax adopta el valor actualizado Ak,p si Ak,p > Lastmax.
14. Procedimiento según las reivindicaciones 12 o 13, en el que se establece el valor del umbral Qi en función de dicho valor máximo Lastmax basándose en la comparación entre:

- el valor máximo de umbral Lastmax; y

- los valores [Kp.Ay] y [Kp.Ay-1], en donde Kp es un coeficiente fijo de ponderación comprendido entre 1 y 2.