ES2294143T3

ES2294143T3 - Procedimiento mejorado para determinar la calidad de una señal de habla.

Info

Publication number: ES2294143T3
Application number: ES02743062T
Authority: ES
Inventors: John Gerard Beerends
Original assignee: Koninklijke KPN NV
Current assignee: Koninklijke KPN NV
Priority date: 2001-06-08
Filing date: 2002-05-21
Publication date: 2008-04-01
Anticipated expiration: 2022-05-21
Also published as: ATE374992T1; EP1399916A1; EP1298646B1; US20040138875A1; EP1399916B1; US7315812B2; CN1514996A; CN1252677C; DE60116559D1; CA2442317C; JP2004529398A; DE60222770D1; WO2002101721A1; CA2442317A1; DE60222770T2; EP1298646A1; ATE315820T1

Abstract

Procedimiento para determinar, según una técnica de medición de habla objetiva, la calidad (Q) de una señal (Y(t)) de salida de un sistema de tratamiento de señales de habla con respecto a una señal (X(t)) de referencia, comprendiendo dicho procedimiento una etapa de compensación de diferencias de potencia de las señales de salida y referencia en el dominio de frecuencias, realizándose la etapa de compensación aplicando un factor (CF) de compensación calculado a partir de una relación (FR(f)) de valores de señal de dichas señales de salida y de referencia, caracterizado por utilizar un valor de limitación determinado por una función (33; 34; 43; 44; 53; 54) al menos parcialmente dependiente de la frecuencia.

Description

Procedimiento mejorado para determinar la calidad de una señal de habla.

A. Antecedentes de la invención

La invención se sitúa en el área de medición de la calidad de señales de sonido, tales como las señales de audio, habla y voz. Más concretamente, se refiere a un procedimiento y a un dispositivo para determinar, de acuerdo con una técnica de medición objetiva, la calidad del habla de una señal de salida tal como es recibida de un sistema de tratamiento de señales de habla, en relación con una señal de referencia. Se conocen de forma general procedimientos y dispositivos de este tipo. Más concretamente, en este tipo se incluyen procedimientos y dispositivos correspondientes que siguen la recomendación ITU-T P.862 recientemente aceptada (véase la referencia [1]). Según la técnica conocida actualmente, una señal de salida procedente de un sistema de tratamiento de señales de habla y/o sistema de transporte, por ejemplo, sistemas de telecomunicaciones inalámbricas, sistemas de transmisión de voz sobre protocolo de Internet, y codificadores-descodificadores de habla, la cual normalmente es una señal degradada cuya calidad de señal ha de determinarse, y una señal de referencia se representan en señales de representación de acuerdo con un modelo de percepción psico-físico del oído humano. Como señal de referencia puede utilizarse una señal de entrada del sistema aplicada con la señal de salida obtenida, al igual que en las referencias citadas. Posteriormente, se determina una señal diferencial a partir de dichas señales de representación, que, de acuerdo con el modelo de percepción utilizado, es representativa de una perturbación mantenida en el sistema presente en la señal de salida. La señal diferencial o de perturbación constituye una expresión de la medida, según el modelo de representación, de la desviación de la señal de salida respecto de la señal de referencia. Entonces, se trata la señal de perturbación de acuerdo con un modelo cognitivo en el que se han modelado ciertas propiedades de las personas analizadas para obtener una señal con una calidad independiente del tiempo, que constituye una medida de la calidad de la percepción auditiva de la señal de salida.

Sin embargo, la técnica conocida tiene la desventaja de que, en caso de graves diferencias de timbre entre la señal de referencia y la señal degradada, la calidad de habla predicha de la señal degradada no es correcta, o al menos no es fiable.

B. Sumario de la invención

Un objeto de la presente invención es proporcionar un procedimiento mejorado y un dispositivo mejorado para determinar la calidad de una señal de habla que no presente esta desventaja.

Entre otras cosas, la presente invención se ha basado en la siguiente observación. De las características básicas de la percepción humana se sabe que el sistema auditivo humano sigue la regla de constancia en la percepción, por ejemplo, constancia de tamaño, tono, timbre, etc. Esto significa que, en principio, el sistema auditivo humano compensa en cierta medida diferencias de tamaño, tono, o timbre, etc.

Un modelo perceptual de un tipo tal como, por ejemplo, el utilizado en los procedimientos y dispositivos conocidos de la referencia [1] tiene en cuenta una compensación parcial de ciertos efectos severos por medio de una compensación parcial de la densidad de potencia de tono de la señal original (en este caso, la señal de referencia). Esta compensación se realiza multiplicando, en el dominio de frecuencias, por un factor de compensación. Para esto, el factor de compensación se calcula a partir de la relación del espectro de potencia (valor medio en el tiempo) de las densidades de potencia de tono de las señales original y degradada. El factor de compensación nunca es superior a (es decir, está limitado a) un determinado valor constante predeterminado, en este caso, 20 dB. Sin embargo, en caso de severas diferencias de timbre (por ejemplo, > 20 dB de densidad de potencia), se considera que una compensación de este tipo, que utiliza un factor de compensación parcial entre determinados valores límite constantes predeterminados, da como resultado predicciones poco fiables de la calidad de la señal de habla. Entonces, se percibió que, por ejemplo, en relación con el timbre, el sistema auditivo humano compensa las diferencias graves de un modo dependiente de la frecuencia. De forma más concreta, a menudo las bajas frecuencias se compensan más que las altas frecuencias, por ejemplo, en lugares de escucha normales, debido a la exposición a coloración de baja frecuencia, dando lugar, por consiguiente, a la baja correlación antes mencionada entre las calidades de habla predichas de forma objetiva y las experimentadas de forma subjetiva. Un objetivo de la presente invención es mejorar un modelado perceptual del sistema auditivo humano en este sentido.

Según un aspecto de la invención, un procedimiento del tipo anterior comprende una etapa de compensación de las diferencias de potencia de las señales de salida y de referencia en el dominio de frecuencias. La etapa de compensación se lleva a cabo aplicando un factor de compensación calculado a partir de una relación de valores de señal de dichas señales de salida y de referencia con ayuda de un valor de limitación determinado mediante una función dependiente de la frecuencia. La función dependiente de la frecuencia es preferiblemente una función monótona que, además, preferiblemente es proporcional a una potencia de la frecuencia, más concretamente, a la frecuencia elevada al
cubo.

Según un aspecto adicional de la invención, un dispositivo del tipo anterior comprende medios de compensación para compensar diferencias de potencia de las señales de salida y de referencia en el dominio de frecuencias. Los medios de compensación incluyen medios para calcular un factor de compensación a partir de una relación de valores de señal de dichas señales de salida y de referencia dispuestos para utilizar una función de limitación al menos parcialmente dependiente de la frecuencia.

C. Referencia

[1] Recomendación ITU-T P.862 (02/2001), serie P: calidad de transmisiones telefónicas, instalaciones telefónicas, redes por cable locales; procedimientos para la valoración objetiva y subjetiva de calidad - Evaluación percepctual de la calidad del habla (PESQ, Perceptual Evaluation of Speech Quality), un procedimiento objetivo para la valoración global de la calidad de habla de redes telefónicas de banda estrecha y codificadores - decodificadores de habla.

La referencia [|] se incorpora a modo de referencia en la presente solicitud.

D. Breve descripción del dibujo

La invención se explicará adicionalmente por medio de la descripción de realizaciones ilustrativas haciendo referencia a un dibujo que comprende las siguientes figuras:

la fig. 1 muestra esquemáticamente un sistema conocido configurado de modo que incluye un dispositivo para determinar la calidad de una señal de habla;

la fig. 2 muestra un diagrama de bloques, más concretamente, una parte del dispositivo incluido en el sistema mostrado en la figura 1, en el que se lleva a cabo una operación de compensación;

la fig. 3 muestra un diagrama gráfico para ilustrar una diferencia esencial en la determinación de un factor de compensación para una operación de compensación entre la técnica anterior, que utiliza valores de limitación superior e inferior constantes, y la presente invención, que utiliza un primer conjunto de valores de limitación superiores e inferiores dependientes de la frecuencia;

la fig. 4 muestra un diagrama gráfico que ilustra un segundo conjunto de valores de limitación superiores e inferiores dependientes de la frecuencia;

la fig. 5 muestra un diagrama gráfico que ilustra un tercer conjunto de valores de limitación superiores e inferiores dependientes de la frecuencia.

E. Descripción de realizaciones ilustrativas

La figura 1 muestra de forma esquemática una configuración conocida de una aplicación de una técnica de medición objetiva que se basa en un modelo de percepción y cognición auditiva humana y que sigue, por ejemplo, la recomendación ITU-T P.862 para estimar la calidad perceptual de las conexiones de habla o codificadores-decodificadores. Comprende un sistema 10 o red de telecomunicaciones a examen, denominado en lo sucesivo para mayor brevedad "sistema 10", y un dispositivo 11 de medición de la calidad para el análisis perceptual de señales de habla proporcionadas. Una señal X_{0}(t) de habla se utiliza, por una parte, como señal de entrada del sistema 10 y, por otra parte, como una primera señal X(t) de entrada del dispositivo 11. Una señal Y(t) de salida del sistema 10, que, en realidad, es la señal X_{0}(t) de habla afectada por el sistema 10, se utiliza como segunda señal de entrada del dispositivo 11. Una señal Q de salida del dispositivo 11 representa una estimación de la calidad perceptual de la conexión de habla a través del sistema 10. Dado que el extremo de entrada y el extremo de salida de una conexión de habla, especialmente en el caso de que discurra a través de una red de telecomunicaciones, son remotos, para las señales de entrada del dispositivo de medición de la calidad se hace uso en la mayoría de los casos de señales X(t) de habla almacenadas en bases de datos. Aquí, de forma convencional, se entiende por "señal de habla" cualquier sonido básicamente perceptible por el oído humano, tales como, habla y tonos. Naturalmente, el sistema a examen también puede ser un sistema de simulación que simula, por ejemplo, una red de telecomunicaciones o determinadas partes de una red de este tipo. El dispositivo 11 implementa una etapa de tratamiento principal, que comprende, de forma sucesiva, en una sección 11.1 de tratamiento previo, una etapa de tratamiento previo realizada por medios 12 de tratamiento previo, en una sección 11.2 de tratamiento, una etapa de tratamiento adicional realizada por primeros y segundos medios 13 y 14 de tratamiento de señales, y, en una sección 11.3 de combinación de señales, una etapa de tratamiento de señales combinada realizada por diferentes medios 15 de diferenciación de señales y medios 16 de modelado. En la etapa de tratamiento previo, las señales X(t) e Y(t) se preparan para la etapa de tratamiento adicional en los medios 13 y 14, incluyendo el tratamiento previo las operaciones de escalar el nivel de potencia y alineación en el tiempo, emitiendo así señales X_{p}(t) e Y_{p}(t) tratadas previamente, que son, por ejemplo, versiones escaladas de las señales de referencia y salida. La etapa de tratamiento adicional implica la representación de la señal Y(t) de salida (degradada) y la señal
X(t) de referencia en señales R(Y) y R(X) de representación de acuerdo con un modelo de percepción psico-físico del sistema auditivo humano. Durante la etapa de tratamiento de señales combinada, se determina una señal D de perturbación o diferencial mediante los medios 15 de diferenciación a partir de dichas señales de representación. La señal D diferencial se trata entonces mediante medios 16 de modelado de acuerdo con un modelo en el que se han modelado determinadas propiedades de las personas examinadas, por ejemplo, propiedades cognitivas, para obtener la señal Q de calidad.

\newpage

Recientemente se ha experimentado que las actuales técnicas de medición objetivas pueden tener un serio inconveniente en el hecho de que, en caso de importantes diferencias de timbre entre la señal de referencia y la señal degradada, no puede predecirse de forma correcta la calidad de habla de la señal degradada. Por consiguiente, las señales Q de calidad obtenidas de forma objetiva para estos casos tienen escasas correlaciones con las mediciones de calidad determinadas de forma subjetiva, tales como las puntuaciones medias de opinión (MOS, Mean Opinión Store) de las personas examinadas. Este tipo de severas diferencias de timbre pueden producirse como una consecuencia de la técnica utilizada para grabar la señal de habla original. -Una técnica de grabación validada es, por ejemplo, la técnica conocida como "close miking bass boost" (acentuación de graves en la disposición con micrófono próximo a fuente), que implica un filtrado considerable en el intervalo de baja frecuencia. Una causa adicional de severas diferencias de timbre puede estar en las diferentes condiciones, tales como, en relación con la reverberación entre el espacio o área en el que se generó la señal de habla original y el espacio o área en el que se valoró la señal de habla degradada. Sin embargo, las funciones de transferencia de espacio muestran, especialmente en el dominio de baja frecuencia, mayores irregularidades en la función de respuesta de frecuencia que en las frecuencias altas y medias. No obstante, los seres humanos perciben las perturbaciones ocasionadas por estas irregularidades de forma menos perturbadora de lo que predicen los actuales modelos objetivos.

De las características básicas de la percepción humana se sabe que el sistema auditivo humano sigue la regla de la constancia en la percepción, por ejemplo, constancia de tamaño, tono, timbre, etc. Esto significa que, en principio, el sistema auditivo humano puede compensar en cierta medida las diferencias de tamaño, tono, timbre, etc.

Los modelos perceptuales actuales tienen en cuenta una compensación parcial de algunos efectos graves por medio de una compensación parcial de la densidad de potencia de tono de la señal original (en este caso, la señal de referencia). Esta compensación se lleva a cabo multiplicando, en el dominio de frecuencias, la densidad de potencia de tono de la señal original por un factor (CF) de compensación. La figura 2 muestra en un diagrama de bloques de forma más detallada la parte del dispositivo 11 tal como se muestra en la figura 1, en este caso, la sección 11.2 de tratamiento, en la que se lleva a cabo la compensación. El tratamiento de señal del primer medio 13 de tratamiento de señales incluye, en una primera fase, medios 21 de transformación en los que la señal Y_{p}(t) degradada tratada previamente se transforma de una señal en el dominio temporal en una señal Y(f,t) de salida dependiente del tiempo y la frecuencia en el dominio tiempo - frecuencia, por ejemplo, por medio de una transformada rápida de Fourier (FFT) y, en una segunda fase, medios 22 de compresión en los que se somete a la señal Y(f,t) transformada de esta manera a una compresión de señal que da como resultado la señal R(Y) de representación. En una forma similar, el tratamiento de señales del segundo medio 14 de tratamiento de señales incluye, en una primera fase, medios 23 de transformación en los que se transforma la señal X_{p}(t) original tratada previamente en una señal X(f,t) de salida dependiente del tiempo y la frecuencia y, en una segunda fase, medios 24 de compresión en los que se somete a la señal X(f,t) transformada de esta manera a una compresión de señal para obtener la señal R(X) de representación. Entre las dos fases 23 y 24 anteriores a la compresión de señal, la señal X(f,t) transformada se somete a una operación de compensación mediante medios 25 de compensación, operación que da como resultado una señal X_{c}(f,t) transformada compensada.

La transformación de las señales de referencia y degradada tratadas previamente va seguida preferiblemente, como es habitual, de una denominada "función de alineamiento" que transforma una escala de frecuencia en hertzios a una escala de frecuencias en Bark (también conocida como "escala de densidad de potencia de tono").

La operación de compensación se lleva a cabo por medio de una multiplicación por un factor CF de compensación, que, en una operación de cálculo llevada a cabo por medios 26 de cálculo, se calcula a partir de una respuesta FR(f) de frecuencia de las señales Y(f,t) y X(f,t) dependientes de tiempo y frecuencia, es decir, la relación del espectro de potencia (valor medio en el tiempo) de las densidades de potencia de tono de las dos señales. Las respuesta FR(f) de frecuencia puede expresarse mediante la siguiente fórmula:

\hskip4cm100

Entonces, se calcula el factor CF de compensación a partir de esta relación, de tal modo que:

101

donde CL^{-} y CL^{+}, denominados respectivamente valores límite inferior y superior, son ciertos valores constantes predeterminados en los que se limita la respuesta de frecuencia para obtener el factor CF de compensación para la compensación parcial indicada anteriormente. Este tipo de valores de limitación se predeterminan, por ejemplo, durante una fase de inicialización de la técnica de medición. Para procedimientos de acuerdo con la referencia [1], estos valores CL^{-} y CL^{+} de limitación predeterminados son 0,01 (-20 dB) y 100 (+20 dB), respectivamente. Sin embargo, en caso de severas diferencias de timbre (por ejemplo, > 20 dB de densidad de potencia), se considera que este tipo de compensación parcial, que utiliza un factor de compensación que está limitado a ciertos valores constantes predeterminados, da como resultado predicciones poco fiables de la calidad de la señal de habla. Entonces, se consideró que podía conseguirse una mejora del modelo perceptual del sistema auditivo humano llevando a cabo la compensación con ayuda de un factor de compensación que ya no está limitado a valores constantes, sino a valores dependientes de la frecuencia, al menos en parte, preferiblemente en la parte inferior, del intervalo de frecuencias del sistema auditivo. Este tipo de valores de limitación dependientes de la frecuencia se indican en lo sucesivo mediante funciones cl^{-}(f) y cl^{+}(f) dependientes de la frecuencia, denominadas función de limitación inferior y superior, respectivamente.

El factor CF de compensación se calcula nuevamente a partir de la respuesta de frecuencia según la fórmula (1), pero se limita utilizando las funciones de limitación inferior y superior dependientes de la frecuencia de modo que:

102

En principio, las funciones de limitación inferior y superior pueden elegirse independientes entre sí. Sin embargo, como consecuencia del carácter recíproco de la función de respuesta de frecuencia, la función cl^{+}(f) de limitación superior se elige preferiblemente igual, al menos de forma aproximada (véase más abajo), a la inversa (recíproca) de la función cl^{-}(f) de limitación inferior, o viceversa.

Una función de limitación, por ejemplo, la función cl^{-}(f) de limitación inferior es preferiblemente monótona, al menos en la parte o partes dependientes de la frecuencia, ya sea creciente o monótona decreciente con frecuencia creciente, mientras que, de forma correspondiente, la otra función de limitación es monótona creciente o decreciente. Las funciones de limitación se predeterminan preferiblemente, por ejemplo, durante una fase de inicialización del sistema de medición.

Por medio de una elección adecuada de las funciones de limitación superior e inferior, la compensación parcial puede hacerse más armoniosa con la regla anteriormente mencionada de constancia en la percepción. De forma experimental, sucede que una función monótona creciente que es proporcional a la potencia p de la frecuencia, en este caso, f^{p} (donde p \neq 0), especialmente en el intervalo de baja frecuencia, es una opción adecuada de este tipo para la función de limitación inferior. Preferiblemente, p = 3. A continuación, se ilustra en relación con la figura 3 la diferencia en la elección de estas funciones de limitación dependientes de la frecuencia, cl^{-}(f) y cl^{+}(f), en lugar de valores CL^{-} y CL^{+} de limitación constantes.

La figura 3 muestra en un diagrama gráfico a modo de ejemplo la función de respuesta de frecuencia para una primera y una segunda señales de habla diferentes entre sí indicadas mediante FR_{1}(f) y FR_{2}(f), respectivamente, disponiéndose los valores de respuesta de frecuencia (en dB) en el eje vertical como una función de la frecuencia (en Bark), dispuesta a lo largo del eje horizontal. Las líneas 31 y 32 discontinuas horizontales a -20 dB y +20 dB indican los valores CL^{-} y CL^{+} de limitación constantes, respectivamente. Las líneas 33 y 34 curvas indican las funciones
cl^{-}(f) y cl^{+}(f) de limitación superior e inferior dependientes de la frecuencia, respectivamente. Las funciones FR_{1}(f) y FR_{2}(f) de respuesta de frecuencia no tienen valores significativos para frecuencias superiores a una cierta f_{máx}, que es de aproximadamente 30 Bark para el sistema auditivo humano.

A modo de ejemplo, las funciones de limitación inferior y superior trazadas, indicadas mediante las líneas 33 y 34 curvas, se eligen como:

103

donde \Delta es un número pequeño (por ejemplo, 0,015) para evitar valores demasiado grandes para cl^{+}(f) en casos donde cl^{-}(f)\approx0 para cualquier valor de f.

En este ejemplo, la función FR_{1}(f) de respuesta de frecuencia se sitúa completamente entre los valores CL^{-} y CL^{+} de limitación constantes y las funciones de limitación. Sin embargo, la función FR_{2}(f), además de puntos entre los valores CL^{-} y CL^{+} constantes, tiene un primer saliente 35 en la dirección ascendente, que entre los puntos A y D aumenta por encima de la línea 32 horizontal y entre los puntos B y C aumenta incluso por encima de la línea curva 34. Además, tiene un segundo saliente 36 en la dirección descendente, que entre los puntos E y F desciende por debajo de la línea 31 horizontal.

Para señales de habla que tienen una función de respuesta de frecuencia que se dispone totalmente entre el conjunto de valores de limitación y el conjunto de funciones de limitación, tales como la función FR_{1}(f), no existirá diferencia en la determinación del factor CF de compensación ya que no existe necesidad de limitación. Para señales de habla que tienen una función de respuesta de frecuencia que se dispone parcialmente entre el conjunto de valores de limitación y que tiene uno o varios salientes, tales como la función FR_{1}(f), existirá una diferencia considerable en la determinación del factor CF de compensación. Para calcular el factor CF de compensación según el procedimiento de la técnica anterior, los valores de la función FR_{2}(f) de respuesta de frecuencia entre los puntos A y D se limitan al valor CL^{+} de limitación superior, mientras que, según el nuevo procedimiento, sólo los valores de la función FR_{2}(f) de respuesta de frecuencia se limitan entre los puntos B y C, no sólo a los valores localmente mucho mayores según la función
cl^{+}(f) de limitación superior, sino además en una forma dependiente de la frecuencia. De forma similar, los valores de la función FR_{2}(f) de respuesta de frecuencia entre los puntos E y F se limitan al valor CL^{-} de limitación inferior, mientras que, según el nuevo procedimiento, los valores de la función FR_{2}(f) de respuesta de frecuencia entre los puntos E y F no se limitan en absoluto.

Otra elección para cl^{-}(f) podría ser:

104

f_{c} es una frecuencia central (es decir, f_{máx}/2 \approx 15 Bark) del intervalo de frecuencias del sistema auditivo humano. Esta elección para cl^{-}(f) con cl^{+}(f) correspondiente se ilustra en la figura 4. Las funciones de limitación inferior y superior se indican mediante los números 43 y 44, respectivamente, cada una con una parte 43.1 (44.1) dependiente de la frecuencia y una parte 43.2 (44.2) de valor constante. En concreto, esta opción mostró de forma experimental, en señales de habla con grandes diferencias de timbre, un aumento de correlación de más del 5% entre la calidad predicha y la calidad medida subjetivamente.

De forma más general, la función de limitación inferior puede ser una concatenación de partes dependientes de la frecuencia en intervalos de frecuencias sucesivos en la dirección de frecuencia creciente, siendo cada una de las partes una función monótona creciente que tiene una dependencia de frecuencia aún menor en los intervalos de frecuencias sucesivos. Por ejemplo, las partes son funciones proporcionales a una potencia de la frecuencia, potencia que disminuye en cada intervalo de frecuencias sucesivo en la dirección de la frecuencia creciente. Por ejemplo, una primera parte proporcional a la función f^{3} ya mencionada en el intervalo de frecuencia inferior, seguida de una segunda parte proporcional f^{2} en un segundo intervalo de frecuencias siguiente, seguida de una tercera parte proporcional a f^{2/3} en un tercer intervalo siguiente, etc.

Otra opción tiene en cuenta la simetría en el espectro de frecuencias del sistema auditivo:

105

Esta opción para cl^{-}(f) con cl^{+}(f) correspondiente se ilustra en la figura 5. Las funciones de limitación inferior y superior se indican mediante los números 53 y 54, respectivamente, cada una con una primera parte 43.1 (44.1) dependiente de la frecuencia en el intervalo de baja frecuencia, una parte 43.2 (44.2) de valor constante intermedia, y una segunda parte 43.3 (44.3) dependiente de la frecuencia en el intervalo de alta frecuencia, sucesivamente.

En lugar de la señal X(f,t) transformada, puede someterse a la señal X(f,t) transformada a la operación de compensación, calculándose el factor de compensación a partir de una función de respuesta de frecuencia que es recíproca a la respuesta FR(f) de frecuencia tal como se expresa mediante la fórmula {1}.

Claims

1. Procedimiento para determinar, según una técnica de medición de habla objetiva, la calidad (Q) de una señal
(Y(t)) de salida de un sistema de tratamiento de señales de habla con respecto a una señal (X(t)) de referencia, comprendiendo dicho procedimiento una etapa de compensación de diferencias de potencia de las señales de salida y referencia en el dominio de frecuencias, realizándose la etapa de compensación aplicando un factor (CF) de compensación calculado a partir de una relación (FR(f)) de valores de señal de dichas señales de salida y de referencia, caracterizado por utilizar un valor de limitación determinado por una función (33; 34; 43; 44; 53; 54) al menos parcialmente dependiente de la frecuencia.

2. Procedimiento según la reivindicación 1, en el que el factor de compensación se obtiene utilizando un valor de limitación superior e inferior, determinándose los dos valores de limitación inferior y superior mediante una función (33, 34, 43, 44; 53, 54) al menos parcialmente dependiente de la frecuencia.

3. Procedimiento según la reivindicación 1 ó 2, en el que el valor dependiente de la frecuencia para al menos uno de dichos valores de limitación en un intervalo de bajas frecuencias respecto a una frecuencia (fc) central del intervalo de frecuencias (0 \leq f \leq f_{máx}) del sistema auditivo humano se calcula a partir de una función (43.1; 44.1; 53.1; 54.1) monótona creciente dependiente de la frecuencia.

4. Procedimiento según la reivindicación 3, caracterizado porque la función monótona creciente dependiente de la frecuencia es proporcional a una potencia de la frecuencia (43.1; 44.1; 53.1; 54.1).

5. Procedimiento según la reivindicación 4, caracterizado porque la función monótona creciente dependiente de la frecuencia es proporcional a la frecuencia elevada al cubo, (43.1; 44.1; 53.1; 54.1).

6. Procedimiento según la reivindicación 3 ó 4, caracterizado porque la función monótona creciente dependiente de la frecuencia es proporcional a una potencia de la relación de la frecuencia y la frecuencia central.

7. Procedimiento según cualquiera de las reivindicaciones 2 a 6, caracterizado porque al menos uno de dichos valores (53; 54) de limitación, calculado a partir de dicha función dependiente de la frecuencia, muestra una simetría respecto a una frecuencia central del intervalo de frecuencias del sistema auditivo humano.

8. Procedimiento según la reivindicación 1, caracterizado porque, respecto a una frecuencia central del intervalo de frecuencias del sistema auditivo humano, la medición de la dependencia de la frecuencia de la función dependiente de la frecuencia es mayor para frecuencias bajas que para altas frecuencias.

9. Dispositivo para determinar, según una técnica de medición de habla objetiva, la calidad (Q) de una señal (Y(t)) de salida de un sistema de tratamiento de señales de habla con respecto a una señal (X(t)) de referencia, comprendiendo dicho dispositivo medios de compensación (25, 26), para compensar diferencias de potencia de las señales de salida y de referencia en el dominio de frecuencias, incluyendo los medios de compensación medios (26) para calcular un factor (CF) de compensación a partir de una relación de valores de señal de dichas señales de salida y de referencia, caracterizado por utilizar una función (33, 34, 43, 44; 53, 54) de limitación al menos parcialmente dependiente de la frecuencia.

10. Dispositivo según la reivindicación 9, en el que los medios (26) para calcular el factor de compensación se han dispuesto para utilizar funciones (33, 34, 43, 44; 53, 54) de limitación inferior y superior dependientes de la frecuencia.