ES2294143T3 - Procedimiento mejorado para determinar la calidad de una señal de habla. - Google Patents

Procedimiento mejorado para determinar la calidad de una señal de habla. Download PDF

Info

Publication number
ES2294143T3
ES2294143T3 ES02743062T ES02743062T ES2294143T3 ES 2294143 T3 ES2294143 T3 ES 2294143T3 ES 02743062 T ES02743062 T ES 02743062T ES 02743062 T ES02743062 T ES 02743062T ES 2294143 T3 ES2294143 T3 ES 2294143T3
Authority
ES
Spain
Prior art keywords
frequency
signal
function
compensation
dependent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES02743062T
Other languages
English (en)
Inventor
John Gerard Beerends
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke KPN NV
Original Assignee
Koninklijke KPN NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke KPN NV filed Critical Koninklijke KPN NV
Application granted granted Critical
Publication of ES2294143T3 publication Critical patent/ES2294143T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Tests Of Electronic Circuits (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)

Abstract

Procedimiento para determinar, según una técnica de medición de habla objetiva, la calidad (Q) de una señal (Y(t)) de salida de un sistema de tratamiento de señales de habla con respecto a una señal (X(t)) de referencia, comprendiendo dicho procedimiento una etapa de compensación de diferencias de potencia de las señales de salida y referencia en el dominio de frecuencias, realizándose la etapa de compensación aplicando un factor (CF) de compensación calculado a partir de una relación (FR(f)) de valores de señal de dichas señales de salida y de referencia, caracterizado por utilizar un valor de limitación determinado por una función (33; 34; 43; 44; 53; 54) al menos parcialmente dependiente de la frecuencia.

Description

Procedimiento mejorado para determinar la calidad de una señal de habla.
A. Antecedentes de la invención
La invención se sitúa en el área de medición de la calidad de señales de sonido, tales como las señales de audio, habla y voz. Más concretamente, se refiere a un procedimiento y a un dispositivo para determinar, de acuerdo con una técnica de medición objetiva, la calidad del habla de una señal de salida tal como es recibida de un sistema de tratamiento de señales de habla, en relación con una señal de referencia. Se conocen de forma general procedimientos y dispositivos de este tipo. Más concretamente, en este tipo se incluyen procedimientos y dispositivos correspondientes que siguen la recomendación ITU-T P.862 recientemente aceptada (véase la referencia [1]). Según la técnica conocida actualmente, una señal de salida procedente de un sistema de tratamiento de señales de habla y/o sistema de transporte, por ejemplo, sistemas de telecomunicaciones inalámbricas, sistemas de transmisión de voz sobre protocolo de Internet, y codificadores-descodificadores de habla, la cual normalmente es una señal degradada cuya calidad de señal ha de determinarse, y una señal de referencia se representan en señales de representación de acuerdo con un modelo de percepción psico-físico del oído humano. Como señal de referencia puede utilizarse una señal de entrada del sistema aplicada con la señal de salida obtenida, al igual que en las referencias citadas. Posteriormente, se determina una señal diferencial a partir de dichas señales de representación, que, de acuerdo con el modelo de percepción utilizado, es representativa de una perturbación mantenida en el sistema presente en la señal de salida. La señal diferencial o de perturbación constituye una expresión de la medida, según el modelo de representación, de la desviación de la señal de salida respecto de la señal de referencia. Entonces, se trata la señal de perturbación de acuerdo con un modelo cognitivo en el que se han modelado ciertas propiedades de las personas analizadas para obtener una señal con una calidad independiente del tiempo, que constituye una medida de la calidad de la percepción auditiva de la señal de salida.
Sin embargo, la técnica conocida tiene la desventaja de que, en caso de graves diferencias de timbre entre la señal de referencia y la señal degradada, la calidad de habla predicha de la señal degradada no es correcta, o al menos no es fiable.
B. Sumario de la invención
Un objeto de la presente invención es proporcionar un procedimiento mejorado y un dispositivo mejorado para determinar la calidad de una señal de habla que no presente esta desventaja.
Entre otras cosas, la presente invención se ha basado en la siguiente observación. De las características básicas de la percepción humana se sabe que el sistema auditivo humano sigue la regla de constancia en la percepción, por ejemplo, constancia de tamaño, tono, timbre, etc. Esto significa que, en principio, el sistema auditivo humano compensa en cierta medida diferencias de tamaño, tono, o timbre, etc.
Un modelo perceptual de un tipo tal como, por ejemplo, el utilizado en los procedimientos y dispositivos conocidos de la referencia [1] tiene en cuenta una compensación parcial de ciertos efectos severos por medio de una compensación parcial de la densidad de potencia de tono de la señal original (en este caso, la señal de referencia). Esta compensación se realiza multiplicando, en el dominio de frecuencias, por un factor de compensación. Para esto, el factor de compensación se calcula a partir de la relación del espectro de potencia (valor medio en el tiempo) de las densidades de potencia de tono de las señales original y degradada. El factor de compensación nunca es superior a (es decir, está limitado a) un determinado valor constante predeterminado, en este caso, 20 dB. Sin embargo, en caso de severas diferencias de timbre (por ejemplo, > 20 dB de densidad de potencia), se considera que una compensación de este tipo, que utiliza un factor de compensación parcial entre determinados valores límite constantes predeterminados, da como resultado predicciones poco fiables de la calidad de la señal de habla. Entonces, se percibió que, por ejemplo, en relación con el timbre, el sistema auditivo humano compensa las diferencias graves de un modo dependiente de la frecuencia. De forma más concreta, a menudo las bajas frecuencias se compensan más que las altas frecuencias, por ejemplo, en lugares de escucha normales, debido a la exposición a coloración de baja frecuencia, dando lugar, por consiguiente, a la baja correlación antes mencionada entre las calidades de habla predichas de forma objetiva y las experimentadas de forma subjetiva. Un objetivo de la presente invención es mejorar un modelado perceptual del sistema auditivo humano en este sentido.
Según un aspecto de la invención, un procedimiento del tipo anterior comprende una etapa de compensación de las diferencias de potencia de las señales de salida y de referencia en el dominio de frecuencias. La etapa de compensación se lleva a cabo aplicando un factor de compensación calculado a partir de una relación de valores de señal de dichas señales de salida y de referencia con ayuda de un valor de limitación determinado mediante una función dependiente de la frecuencia. La función dependiente de la frecuencia es preferiblemente una función monótona que, además, preferiblemente es proporcional a una potencia de la frecuencia, más concretamente, a la frecuencia elevada al
cubo.
Según un aspecto adicional de la invención, un dispositivo del tipo anterior comprende medios de compensación para compensar diferencias de potencia de las señales de salida y de referencia en el dominio de frecuencias. Los medios de compensación incluyen medios para calcular un factor de compensación a partir de una relación de valores de señal de dichas señales de salida y de referencia dispuestos para utilizar una función de limitación al menos parcialmente dependiente de la frecuencia.
C. Referencia
[1] Recomendación ITU-T P.862 (02/2001), serie P: calidad de transmisiones telefónicas, instalaciones telefónicas, redes por cable locales; procedimientos para la valoración objetiva y subjetiva de calidad - Evaluación percepctual de la calidad del habla (PESQ, Perceptual Evaluation of Speech Quality), un procedimiento objetivo para la valoración global de la calidad de habla de redes telefónicas de banda estrecha y codificadores - decodificadores de habla.
La referencia [|] se incorpora a modo de referencia en la presente solicitud.
D. Breve descripción del dibujo
La invención se explicará adicionalmente por medio de la descripción de realizaciones ilustrativas haciendo referencia a un dibujo que comprende las siguientes figuras:
la fig. 1 muestra esquemáticamente un sistema conocido configurado de modo que incluye un dispositivo para determinar la calidad de una señal de habla;
la fig. 2 muestra un diagrama de bloques, más concretamente, una parte del dispositivo incluido en el sistema mostrado en la figura 1, en el que se lleva a cabo una operación de compensación;
la fig. 3 muestra un diagrama gráfico para ilustrar una diferencia esencial en la determinación de un factor de compensación para una operación de compensación entre la técnica anterior, que utiliza valores de limitación superior e inferior constantes, y la presente invención, que utiliza un primer conjunto de valores de limitación superiores e inferiores dependientes de la frecuencia;
la fig. 4 muestra un diagrama gráfico que ilustra un segundo conjunto de valores de limitación superiores e inferiores dependientes de la frecuencia;
la fig. 5 muestra un diagrama gráfico que ilustra un tercer conjunto de valores de limitación superiores e inferiores dependientes de la frecuencia.
E. Descripción de realizaciones ilustrativas
La figura 1 muestra de forma esquemática una configuración conocida de una aplicación de una técnica de medición objetiva que se basa en un modelo de percepción y cognición auditiva humana y que sigue, por ejemplo, la recomendación ITU-T P.862 para estimar la calidad perceptual de las conexiones de habla o codificadores-decodificadores. Comprende un sistema 10 o red de telecomunicaciones a examen, denominado en lo sucesivo para mayor brevedad "sistema 10", y un dispositivo 11 de medición de la calidad para el análisis perceptual de señales de habla proporcionadas. Una señal X_{0}(t) de habla se utiliza, por una parte, como señal de entrada del sistema 10 y, por otra parte, como una primera señal X(t) de entrada del dispositivo 11. Una señal Y(t) de salida del sistema 10, que, en realidad, es la señal X_{0}(t) de habla afectada por el sistema 10, se utiliza como segunda señal de entrada del dispositivo 11. Una señal Q de salida del dispositivo 11 representa una estimación de la calidad perceptual de la conexión de habla a través del sistema 10. Dado que el extremo de entrada y el extremo de salida de una conexión de habla, especialmente en el caso de que discurra a través de una red de telecomunicaciones, son remotos, para las señales de entrada del dispositivo de medición de la calidad se hace uso en la mayoría de los casos de señales X(t) de habla almacenadas en bases de datos. Aquí, de forma convencional, se entiende por "señal de habla" cualquier sonido básicamente perceptible por el oído humano, tales como, habla y tonos. Naturalmente, el sistema a examen también puede ser un sistema de simulación que simula, por ejemplo, una red de telecomunicaciones o determinadas partes de una red de este tipo. El dispositivo 11 implementa una etapa de tratamiento principal, que comprende, de forma sucesiva, en una sección 11.1 de tratamiento previo, una etapa de tratamiento previo realizada por medios 12 de tratamiento previo, en una sección 11.2 de tratamiento, una etapa de tratamiento adicional realizada por primeros y segundos medios 13 y 14 de tratamiento de señales, y, en una sección 11.3 de combinación de señales, una etapa de tratamiento de señales combinada realizada por diferentes medios 15 de diferenciación de señales y medios 16 de modelado. En la etapa de tratamiento previo, las señales X(t) e Y(t) se preparan para la etapa de tratamiento adicional en los medios 13 y 14, incluyendo el tratamiento previo las operaciones de escalar el nivel de potencia y alineación en el tiempo, emitiendo así señales X_{p}(t) e Y_{p}(t) tratadas previamente, que son, por ejemplo, versiones escaladas de las señales de referencia y salida. La etapa de tratamiento adicional implica la representación de la señal Y(t) de salida (degradada) y la señal
X(t) de referencia en señales R(Y) y R(X) de representación de acuerdo con un modelo de percepción psico-físico del sistema auditivo humano. Durante la etapa de tratamiento de señales combinada, se determina una señal D de perturbación o diferencial mediante los medios 15 de diferenciación a partir de dichas señales de representación. La señal D diferencial se trata entonces mediante medios 16 de modelado de acuerdo con un modelo en el que se han modelado determinadas propiedades de las personas examinadas, por ejemplo, propiedades cognitivas, para obtener la señal Q de calidad.
\newpage
Recientemente se ha experimentado que las actuales técnicas de medición objetivas pueden tener un serio inconveniente en el hecho de que, en caso de importantes diferencias de timbre entre la señal de referencia y la señal degradada, no puede predecirse de forma correcta la calidad de habla de la señal degradada. Por consiguiente, las señales Q de calidad obtenidas de forma objetiva para estos casos tienen escasas correlaciones con las mediciones de calidad determinadas de forma subjetiva, tales como las puntuaciones medias de opinión (MOS, Mean Opinión Store) de las personas examinadas. Este tipo de severas diferencias de timbre pueden producirse como una consecuencia de la técnica utilizada para grabar la señal de habla original. -Una técnica de grabación validada es, por ejemplo, la técnica conocida como "close miking bass boost" (acentuación de graves en la disposición con micrófono próximo a fuente), que implica un filtrado considerable en el intervalo de baja frecuencia. Una causa adicional de severas diferencias de timbre puede estar en las diferentes condiciones, tales como, en relación con la reverberación entre el espacio o área en el que se generó la señal de habla original y el espacio o área en el que se valoró la señal de habla degradada. Sin embargo, las funciones de transferencia de espacio muestran, especialmente en el dominio de baja frecuencia, mayores irregularidades en la función de respuesta de frecuencia que en las frecuencias altas y medias. No obstante, los seres humanos perciben las perturbaciones ocasionadas por estas irregularidades de forma menos perturbadora de lo que predicen los actuales modelos objetivos.
De las características básicas de la percepción humana se sabe que el sistema auditivo humano sigue la regla de la constancia en la percepción, por ejemplo, constancia de tamaño, tono, timbre, etc. Esto significa que, en principio, el sistema auditivo humano puede compensar en cierta medida las diferencias de tamaño, tono, timbre, etc.
Los modelos perceptuales actuales tienen en cuenta una compensación parcial de algunos efectos graves por medio de una compensación parcial de la densidad de potencia de tono de la señal original (en este caso, la señal de referencia). Esta compensación se lleva a cabo multiplicando, en el dominio de frecuencias, la densidad de potencia de tono de la señal original por un factor (CF) de compensación. La figura 2 muestra en un diagrama de bloques de forma más detallada la parte del dispositivo 11 tal como se muestra en la figura 1, en este caso, la sección 11.2 de tratamiento, en la que se lleva a cabo la compensación. El tratamiento de señal del primer medio 13 de tratamiento de señales incluye, en una primera fase, medios 21 de transformación en los que la señal Y_{p}(t) degradada tratada previamente se transforma de una señal en el dominio temporal en una señal Y(f,t) de salida dependiente del tiempo y la frecuencia en el dominio tiempo - frecuencia, por ejemplo, por medio de una transformada rápida de Fourier (FFT) y, en una segunda fase, medios 22 de compresión en los que se somete a la señal Y(f,t) transformada de esta manera a una compresión de señal que da como resultado la señal R(Y) de representación. En una forma similar, el tratamiento de señales del segundo medio 14 de tratamiento de señales incluye, en una primera fase, medios 23 de transformación en los que se transforma la señal X_{p}(t) original tratada previamente en una señal X(f,t) de salida dependiente del tiempo y la frecuencia y, en una segunda fase, medios 24 de compresión en los que se somete a la señal X(f,t) transformada de esta manera a una compresión de señal para obtener la señal R(X) de representación. Entre las dos fases 23 y 24 anteriores a la compresión de señal, la señal X(f,t) transformada se somete a una operación de compensación mediante medios 25 de compensación, operación que da como resultado una señal X_{c}(f,t) transformada compensada.
La transformación de las señales de referencia y degradada tratadas previamente va seguida preferiblemente, como es habitual, de una denominada "función de alineamiento" que transforma una escala de frecuencia en hertzios a una escala de frecuencias en Bark (también conocida como "escala de densidad de potencia de tono").
La operación de compensación se lleva a cabo por medio de una multiplicación por un factor CF de compensación, que, en una operación de cálculo llevada a cabo por medios 26 de cálculo, se calcula a partir de una respuesta FR(f) de frecuencia de las señales Y(f,t) y X(f,t) dependientes de tiempo y frecuencia, es decir, la relación del espectro de potencia (valor medio en el tiempo) de las densidades de potencia de tono de las dos señales. Las respuesta FR(f) de frecuencia puede expresarse mediante la siguiente fórmula:
\hskip4cm100
Entonces, se calcula el factor CF de compensación a partir de esta relación, de tal modo que:
101
donde CL^{-} y CL^{+}, denominados respectivamente valores límite inferior y superior, son ciertos valores constantes predeterminados en los que se limita la respuesta de frecuencia para obtener el factor CF de compensación para la compensación parcial indicada anteriormente. Este tipo de valores de limitación se predeterminan, por ejemplo, durante una fase de inicialización de la técnica de medición. Para procedimientos de acuerdo con la referencia [1], estos valores CL^{-} y CL^{+} de limitación predeterminados son 0,01 (-20 dB) y 100 (+20 dB), respectivamente. Sin embargo, en caso de severas diferencias de timbre (por ejemplo, > 20 dB de densidad de potencia), se considera que este tipo de compensación parcial, que utiliza un factor de compensación que está limitado a ciertos valores constantes predeterminados, da como resultado predicciones poco fiables de la calidad de la señal de habla. Entonces, se consideró que podía conseguirse una mejora del modelo perceptual del sistema auditivo humano llevando a cabo la compensación con ayuda de un factor de compensación que ya no está limitado a valores constantes, sino a valores dependientes de la frecuencia, al menos en parte, preferiblemente en la parte inferior, del intervalo de frecuencias del sistema auditivo. Este tipo de valores de limitación dependientes de la frecuencia se indican en lo sucesivo mediante funciones cl^{-}(f) y cl^{+}(f) dependientes de la frecuencia, denominadas función de limitación inferior y superior, respectivamente.
El factor CF de compensación se calcula nuevamente a partir de la respuesta de frecuencia según la fórmula (1), pero se limita utilizando las funciones de limitación inferior y superior dependientes de la frecuencia de modo que:
102
En principio, las funciones de limitación inferior y superior pueden elegirse independientes entre sí. Sin embargo, como consecuencia del carácter recíproco de la función de respuesta de frecuencia, la función cl^{+}(f) de limitación superior se elige preferiblemente igual, al menos de forma aproximada (véase más abajo), a la inversa (recíproca) de la función cl^{-}(f) de limitación inferior, o viceversa.
Una función de limitación, por ejemplo, la función cl^{-}(f) de limitación inferior es preferiblemente monótona, al menos en la parte o partes dependientes de la frecuencia, ya sea creciente o monótona decreciente con frecuencia creciente, mientras que, de forma correspondiente, la otra función de limitación es monótona creciente o decreciente. Las funciones de limitación se predeterminan preferiblemente, por ejemplo, durante una fase de inicialización del sistema de medición.
Por medio de una elección adecuada de las funciones de limitación superior e inferior, la compensación parcial puede hacerse más armoniosa con la regla anteriormente mencionada de constancia en la percepción. De forma experimental, sucede que una función monótona creciente que es proporcional a la potencia p de la frecuencia, en este caso, f^{p} (donde p \neq 0), especialmente en el intervalo de baja frecuencia, es una opción adecuada de este tipo para la función de limitación inferior. Preferiblemente, p = 3. A continuación, se ilustra en relación con la figura 3 la diferencia en la elección de estas funciones de limitación dependientes de la frecuencia, cl^{-}(f) y cl^{+}(f), en lugar de valores CL^{-} y CL^{+} de limitación constantes.
La figura 3 muestra en un diagrama gráfico a modo de ejemplo la función de respuesta de frecuencia para una primera y una segunda señales de habla diferentes entre sí indicadas mediante FR_{1}(f) y FR_{2}(f), respectivamente, disponiéndose los valores de respuesta de frecuencia (en dB) en el eje vertical como una función de la frecuencia (en Bark), dispuesta a lo largo del eje horizontal. Las líneas 31 y 32 discontinuas horizontales a -20 dB y +20 dB indican los valores CL^{-} y CL^{+} de limitación constantes, respectivamente. Las líneas 33 y 34 curvas indican las funciones
cl^{-}(f) y cl^{+}(f) de limitación superior e inferior dependientes de la frecuencia, respectivamente. Las funciones FR_{1}(f) y FR_{2}(f) de respuesta de frecuencia no tienen valores significativos para frecuencias superiores a una cierta f_{máx}, que es de aproximadamente 30 Bark para el sistema auditivo humano.
A modo de ejemplo, las funciones de limitación inferior y superior trazadas, indicadas mediante las líneas 33 y 34 curvas, se eligen como:
103
donde \Delta es un número pequeño (por ejemplo, 0,015) para evitar valores demasiado grandes para cl^{+}(f) en casos donde cl^{-}(f)\approx0 para cualquier valor de f.
En este ejemplo, la función FR_{1}(f) de respuesta de frecuencia se sitúa completamente entre los valores CL^{-} y CL^{+} de limitación constantes y las funciones de limitación. Sin embargo, la función FR_{2}(f), además de puntos entre los valores CL^{-} y CL^{+} constantes, tiene un primer saliente 35 en la dirección ascendente, que entre los puntos A y D aumenta por encima de la línea 32 horizontal y entre los puntos B y C aumenta incluso por encima de la línea curva 34. Además, tiene un segundo saliente 36 en la dirección descendente, que entre los puntos E y F desciende por debajo de la línea 31 horizontal.
Para señales de habla que tienen una función de respuesta de frecuencia que se dispone totalmente entre el conjunto de valores de limitación y el conjunto de funciones de limitación, tales como la función FR_{1}(f), no existirá diferencia en la determinación del factor CF de compensación ya que no existe necesidad de limitación. Para señales de habla que tienen una función de respuesta de frecuencia que se dispone parcialmente entre el conjunto de valores de limitación y que tiene uno o varios salientes, tales como la función FR_{1}(f), existirá una diferencia considerable en la determinación del factor CF de compensación. Para calcular el factor CF de compensación según el procedimiento de la técnica anterior, los valores de la función FR_{2}(f) de respuesta de frecuencia entre los puntos A y D se limitan al valor CL^{+} de limitación superior, mientras que, según el nuevo procedimiento, sólo los valores de la función FR_{2}(f) de respuesta de frecuencia se limitan entre los puntos B y C, no sólo a los valores localmente mucho mayores según la función
cl^{+}(f) de limitación superior, sino además en una forma dependiente de la frecuencia. De forma similar, los valores de la función FR_{2}(f) de respuesta de frecuencia entre los puntos E y F se limitan al valor CL^{-} de limitación inferior, mientras que, según el nuevo procedimiento, los valores de la función FR_{2}(f) de respuesta de frecuencia entre los puntos E y F no se limitan en absoluto.
Otra elección para cl^{-}(f) podría ser:
104
f_{c} es una frecuencia central (es decir, f_{máx}/2 \approx 15 Bark) del intervalo de frecuencias del sistema auditivo humano. Esta elección para cl^{-}(f) con cl^{+}(f) correspondiente se ilustra en la figura 4. Las funciones de limitación inferior y superior se indican mediante los números 43 y 44, respectivamente, cada una con una parte 43.1 (44.1) dependiente de la frecuencia y una parte 43.2 (44.2) de valor constante. En concreto, esta opción mostró de forma experimental, en señales de habla con grandes diferencias de timbre, un aumento de correlación de más del 5% entre la calidad predicha y la calidad medida subjetivamente.
De forma más general, la función de limitación inferior puede ser una concatenación de partes dependientes de la frecuencia en intervalos de frecuencias sucesivos en la dirección de frecuencia creciente, siendo cada una de las partes una función monótona creciente que tiene una dependencia de frecuencia aún menor en los intervalos de frecuencias sucesivos. Por ejemplo, las partes son funciones proporcionales a una potencia de la frecuencia, potencia que disminuye en cada intervalo de frecuencias sucesivo en la dirección de la frecuencia creciente. Por ejemplo, una primera parte proporcional a la función f^{3} ya mencionada en el intervalo de frecuencia inferior, seguida de una segunda parte proporcional f^{2} en un segundo intervalo de frecuencias siguiente, seguida de una tercera parte proporcional a f^{2/3} en un tercer intervalo siguiente, etc.
Otra opción tiene en cuenta la simetría en el espectro de frecuencias del sistema auditivo:
105
Esta opción para cl^{-}(f) con cl^{+}(f) correspondiente se ilustra en la figura 5. Las funciones de limitación inferior y superior se indican mediante los números 53 y 54, respectivamente, cada una con una primera parte 43.1 (44.1) dependiente de la frecuencia en el intervalo de baja frecuencia, una parte 43.2 (44.2) de valor constante intermedia, y una segunda parte 43.3 (44.3) dependiente de la frecuencia en el intervalo de alta frecuencia, sucesivamente.
En lugar de la señal X(f,t) transformada, puede someterse a la señal X(f,t) transformada a la operación de compensación, calculándose el factor de compensación a partir de una función de respuesta de frecuencia que es recíproca a la respuesta FR(f) de frecuencia tal como se expresa mediante la fórmula {1}.

Claims (10)

1. Procedimiento para determinar, según una técnica de medición de habla objetiva, la calidad (Q) de una señal
(Y(t)) de salida de un sistema de tratamiento de señales de habla con respecto a una señal (X(t)) de referencia, comprendiendo dicho procedimiento una etapa de compensación de diferencias de potencia de las señales de salida y referencia en el dominio de frecuencias, realizándose la etapa de compensación aplicando un factor (CF) de compensación calculado a partir de una relación (FR(f)) de valores de señal de dichas señales de salida y de referencia, caracterizado por utilizar un valor de limitación determinado por una función (33; 34; 43; 44; 53; 54) al menos parcialmente dependiente de la frecuencia.
2. Procedimiento según la reivindicación 1, en el que el factor de compensación se obtiene utilizando un valor de limitación superior e inferior, determinándose los dos valores de limitación inferior y superior mediante una función (33, 34, 43, 44; 53, 54) al menos parcialmente dependiente de la frecuencia.
3. Procedimiento según la reivindicación 1 ó 2, en el que el valor dependiente de la frecuencia para al menos uno de dichos valores de limitación en un intervalo de bajas frecuencias respecto a una frecuencia (fc) central del intervalo de frecuencias (0 \leq f \leq f_{máx}) del sistema auditivo humano se calcula a partir de una función (43.1; 44.1; 53.1; 54.1) monótona creciente dependiente de la frecuencia.
4. Procedimiento según la reivindicación 3, caracterizado porque la función monótona creciente dependiente de la frecuencia es proporcional a una potencia de la frecuencia (43.1; 44.1; 53.1; 54.1).
5. Procedimiento según la reivindicación 4, caracterizado porque la función monótona creciente dependiente de la frecuencia es proporcional a la frecuencia elevada al cubo, (43.1; 44.1; 53.1; 54.1).
6. Procedimiento según la reivindicación 3 ó 4, caracterizado porque la función monótona creciente dependiente de la frecuencia es proporcional a una potencia de la relación de la frecuencia y la frecuencia central.
7. Procedimiento según cualquiera de las reivindicaciones 2 a 6, caracterizado porque al menos uno de dichos valores (53; 54) de limitación, calculado a partir de dicha función dependiente de la frecuencia, muestra una simetría respecto a una frecuencia central del intervalo de frecuencias del sistema auditivo humano.
8. Procedimiento según la reivindicación 1, caracterizado porque, respecto a una frecuencia central del intervalo de frecuencias del sistema auditivo humano, la medición de la dependencia de la frecuencia de la función dependiente de la frecuencia es mayor para frecuencias bajas que para altas frecuencias.
9. Dispositivo para determinar, según una técnica de medición de habla objetiva, la calidad (Q) de una señal (Y(t)) de salida de un sistema de tratamiento de señales de habla con respecto a una señal (X(t)) de referencia, comprendiendo dicho dispositivo medios de compensación (25, 26), para compensar diferencias de potencia de las señales de salida y de referencia en el dominio de frecuencias, incluyendo los medios de compensación medios (26) para calcular un factor (CF) de compensación a partir de una relación de valores de señal de dichas señales de salida y de referencia, caracterizado por utilizar una función (33, 34, 43, 44; 53, 54) de limitación al menos parcialmente dependiente de la frecuencia.
10. Dispositivo según la reivindicación 9, en el que los medios (26) para calcular el factor de compensación se han dispuesto para utilizar funciones (33, 34, 43, 44; 53, 54) de limitación inferior y superior dependientes de la frecuencia.
ES02743062T 2001-06-08 2002-05-21 Procedimiento mejorado para determinar la calidad de una señal de habla. Expired - Lifetime ES2294143T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US29711301P 2001-06-08 2001-06-08
US297113P 2001-06-08
EP01203699A EP1298646B1 (en) 2001-10-01 2001-10-01 Improved method for determining the quality of a speech signal
EP01203699 2001-10-01

Publications (1)

Publication Number Publication Date
ES2294143T3 true ES2294143T3 (es) 2008-04-01

Family

ID=8180990

Family Applications (1)

Application Number Title Priority Date Filing Date
ES02743062T Expired - Lifetime ES2294143T3 (es) 2001-06-08 2002-05-21 Procedimiento mejorado para determinar la calidad de una señal de habla.

Country Status (9)

Country Link
US (1) US7315812B2 (es)
EP (2) EP1298646B1 (es)
JP (1) JP2004529398A (es)
CN (1) CN1252677C (es)
AT (2) ATE315820T1 (es)
CA (1) CA2442317C (es)
DE (2) DE60116559D1 (es)
ES (1) ES2294143T3 (es)
WO (1) WO2002101721A1 (es)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040167774A1 (en) * 2002-11-27 2004-08-26 University Of Florida Audio-based method, system, and apparatus for measurement of voice quality
ES2313413T3 (es) * 2004-09-20 2009-03-01 Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno Compensacion en frecuencia para el analisis de precepcion de habla.
BRPI0707343B1 (pt) * 2006-01-31 2020-09-08 Telefonaktiebolaget Lm Ericsson (Publ) Método e aparelho de avaliação de qualidade de sinal não intrusivo
US8767566B2 (en) * 2006-12-15 2014-07-01 Tellabs Vienna, Inc. Method and apparatus for verifying signaling and bearer channels in a packet switched network
US20080162150A1 (en) * 2006-12-28 2008-07-03 Vianix Delaware, Llc System and Method for a High Performance Audio Codec
US8140325B2 (en) * 2007-01-04 2012-03-20 International Business Machines Corporation Systems and methods for intelligent control of microphones for speech recognition applications
EP1975924A1 (en) * 2007-03-29 2008-10-01 Koninklijke KPN N.V. Method and system for speech quality prediction of the impact of time localized distortions of an audio transmission system
JP5542206B2 (ja) 2009-08-14 2014-07-09 コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ オーディオ・システムの知覚品質を判定する方法およびシステム
ES2526126T3 (es) 2009-08-14 2015-01-07 Koninklijke Kpn N.V. Método, producto de programa informático y sistema para determinar una calidad percibida de un sistema de audio
US9548067B2 (en) 2014-09-30 2017-01-17 Knuedge Incorporated Estimating pitch using symmetry characteristics
US9396740B1 (en) * 2014-09-30 2016-07-19 Knuedge Incorporated Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
EP3223279B1 (en) 2016-03-21 2019-01-09 Nxp B.V. A speech signal processing circuit

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL9500512A (nl) * 1995-03-15 1996-10-01 Nederland Ptt Inrichting voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal, alsmede werkwijze voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal.
EP0764939B1 (en) * 1995-09-19 2002-05-02 AT&T Corp. Synthesis of speech signals in the absence of coded parameters
CA2273239C (en) * 1996-12-13 2003-06-10 John Gerard Beerends Device and method for signal quality determination
US6594365B1 (en) * 1998-11-18 2003-07-15 Tenneco Automotive Operating Company Inc. Acoustic system identification using acoustic masking
US6985559B2 (en) * 1998-12-24 2006-01-10 Mci, Inc. Method and apparatus for estimating quality in a telephonic voice connection
NL1014075C2 (nl) * 2000-01-13 2001-07-16 Koninkl Kpn Nv Methode en inrichting voor het bepalen van de kwaliteit van een signaal.
EP1187100A1 (en) * 2000-09-06 2002-03-13 Koninklijke KPN N.V. A method and a device for objective speech quality assessment without reference signal

Also Published As

Publication number Publication date
ATE374992T1 (de) 2007-10-15
EP1399916A1 (en) 2004-03-24
EP1298646B1 (en) 2006-01-11
US20040138875A1 (en) 2004-07-15
EP1399916B1 (en) 2007-10-03
US7315812B2 (en) 2008-01-01
CN1514996A (zh) 2004-07-21
CN1252677C (zh) 2006-04-19
DE60116559D1 (de) 2006-04-06
CA2442317C (en) 2008-09-02
JP2004529398A (ja) 2004-09-24
DE60222770D1 (de) 2007-11-15
WO2002101721A1 (en) 2002-12-19
CA2442317A1 (en) 2002-12-19
DE60222770T2 (de) 2008-07-17
EP1298646A1 (en) 2003-04-02
ATE315820T1 (de) 2006-02-15

Similar Documents

Publication Publication Date Title
ES2294143T3 (es) Procedimiento mejorado para determinar la calidad de una señal de habla.
Elhilali et al. A spectro-temporal modulation index (STMI) for assessment of speech intelligibility
Steeneken et al. Mutual dependence of the octave-band weights in predicting speech intelligibility
CN102576535B (zh) 用于确定音频系统的感知质量的方法和系统
Zhang et al. Effects of telephone transmission on the performance of formant-trajectory-based forensic voice comparison–female voices
EP2037449B1 (en) Method and system for the integral and diagnostic assessment of listening speech quality
ES2313413T3 (es) Compensacion en frecuencia para el analisis de precepcion de habla.
Rix et al. Models of human perception
RU2312405C2 (ru) Способ осуществления машинной оценки качества звуковых сигналов
Gully et al. The Lombard effect in MRI noise
Kondo Speech quality
Tahvanainen et al. Studies on the perception of bass in four concert halls.
Parsa et al. Interactions between speech coders and disordered speech
Brachmański Estimation of logatom intelligibility with the STI method for polish speech transmitted via communication channels
Gierlich et al. Advances in perceptual modeling of speech quality in telecommunications
Kitawaki et al. Objective quality assessment of wideband speech coding
Rajmic et al. A MATLAB toolbox for computation of Speech Transmission Index (STI)
Voran Estimation of speech intelligibility and quality
Ghimire Speech intelligibility measurement on the basis of ITU-T recommendation P. 863
Kuşcu An Investigation of Performance Indicators for Stage Acoustics in Music Halls
Pulkki An Introduction to Sound, Hearing and Perception
Mapp Speech Intelligibility
Pohlmann Subjective Methods for Evaluating Sound Quality
Côté et al. An intrusive super-wideband speech quality model: DIAL.
Möller Quality of Voice and Audio Transmission Systems