ES2294143T3 - Procedimiento mejorado para determinar la calidad de una señal de habla. - Google Patents
Procedimiento mejorado para determinar la calidad de una señal de habla. Download PDFInfo
- Publication number
- ES2294143T3 ES2294143T3 ES02743062T ES02743062T ES2294143T3 ES 2294143 T3 ES2294143 T3 ES 2294143T3 ES 02743062 T ES02743062 T ES 02743062T ES 02743062 T ES02743062 T ES 02743062T ES 2294143 T3 ES2294143 T3 ES 2294143T3
- Authority
- ES
- Spain
- Prior art keywords
- frequency
- signal
- function
- compensation
- dependent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000000691 measurement method Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 47
- 230000001419 dependent effect Effects 0.000 claims description 32
- 238000005259 measurement Methods 0.000 claims description 4
- 230000036961 partial effect Effects 0.000 abstract description 9
- 230000006872 improvement Effects 0.000 abstract description 2
- 230000008447 perception Effects 0.000 description 10
- 238000005316 response function Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Tests Of Electronic Circuits (AREA)
- Circuit For Audible Band Transducer (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
Abstract
Procedimiento para determinar, según una técnica de medición de habla objetiva, la calidad (Q) de una señal (Y(t)) de salida de un sistema de tratamiento de señales de habla con respecto a una señal (X(t)) de referencia, comprendiendo dicho procedimiento una etapa de compensación de diferencias de potencia de las señales de salida y referencia en el dominio de frecuencias, realizándose la etapa de compensación aplicando un factor (CF) de compensación calculado a partir de una relación (FR(f)) de valores de señal de dichas señales de salida y de referencia, caracterizado por utilizar un valor de limitación determinado por una función (33; 34; 43; 44; 53; 54) al menos parcialmente dependiente de la frecuencia.
Description
Procedimiento mejorado para determinar la
calidad de una señal de habla.
La invención se sitúa en el área de medición de
la calidad de señales de sonido, tales como las señales de audio,
habla y voz. Más concretamente, se refiere a un procedimiento y a un
dispositivo para determinar, de acuerdo con una técnica de medición
objetiva, la calidad del habla de una señal de salida tal como es
recibida de un sistema de tratamiento de señales de habla, en
relación con una señal de referencia. Se conocen de forma general
procedimientos y dispositivos de este tipo. Más concretamente, en
este tipo se incluyen procedimientos y dispositivos
correspondientes que siguen la recomendación ITU-T
P.862 recientemente aceptada (véase la referencia [1]). Según la
técnica conocida actualmente, una señal de salida procedente de un
sistema de tratamiento de señales de habla y/o sistema de
transporte, por ejemplo, sistemas de telecomunicaciones
inalámbricas, sistemas de transmisión de voz sobre protocolo de
Internet, y codificadores-descodificadores de habla,
la cual normalmente es una señal degradada cuya calidad de señal ha
de determinarse, y una señal de referencia se representan en señales
de representación de acuerdo con un modelo de percepción
psico-físico del oído humano. Como señal de
referencia puede utilizarse una señal de entrada del sistema
aplicada con la señal de salida obtenida, al igual que en las
referencias citadas. Posteriormente, se determina una señal
diferencial a partir de dichas señales de representación, que, de
acuerdo con el modelo de percepción utilizado, es representativa de
una perturbación mantenida en el sistema presente en la señal de
salida. La señal diferencial o de perturbación constituye una
expresión de la medida, según el modelo de representación, de la
desviación de la señal de salida respecto de la señal de
referencia. Entonces, se trata la señal de perturbación de acuerdo
con un modelo cognitivo en el que se han modelado ciertas
propiedades de las personas analizadas para obtener una señal con
una calidad independiente del tiempo, que constituye una medida de
la calidad de la percepción auditiva de la señal de salida.
Sin embargo, la técnica conocida tiene la
desventaja de que, en caso de graves diferencias de timbre entre la
señal de referencia y la señal degradada, la calidad de habla
predicha de la señal degradada no es correcta, o al menos no es
fiable.
Un objeto de la presente invención es
proporcionar un procedimiento mejorado y un dispositivo mejorado
para determinar la calidad de una señal de habla que no presente
esta desventaja.
Entre otras cosas, la presente invención se ha
basado en la siguiente observación. De las características básicas
de la percepción humana se sabe que el sistema auditivo humano sigue
la regla de constancia en la percepción, por ejemplo, constancia de
tamaño, tono, timbre, etc. Esto significa que, en principio, el
sistema auditivo humano compensa en cierta medida diferencias de
tamaño, tono, o timbre, etc.
Un modelo perceptual de un tipo tal como, por
ejemplo, el utilizado en los procedimientos y dispositivos conocidos
de la referencia [1] tiene en cuenta una compensación parcial de
ciertos efectos severos por medio de una compensación parcial de la
densidad de potencia de tono de la señal original (en este caso, la
señal de referencia). Esta compensación se realiza multiplicando,
en el dominio de frecuencias, por un factor de compensación. Para
esto, el factor de compensación se calcula a partir de la relación
del espectro de potencia (valor medio en el tiempo) de las
densidades de potencia de tono de las señales original y degradada.
El factor de compensación nunca es superior a (es decir, está
limitado a) un determinado valor constante predeterminado, en este
caso, 20 dB. Sin embargo, en caso de severas diferencias de timbre
(por ejemplo, > 20 dB de densidad de potencia), se considera que
una compensación de este tipo, que utiliza un factor de compensación
parcial entre determinados valores límite constantes
predeterminados, da como resultado predicciones poco fiables de la
calidad de la señal de habla. Entonces, se percibió que, por
ejemplo, en relación con el timbre, el sistema auditivo humano
compensa las diferencias graves de un modo dependiente de la
frecuencia. De forma más concreta, a menudo las bajas frecuencias
se compensan más que las altas frecuencias, por ejemplo, en lugares
de escucha normales, debido a la exposición a coloración de baja
frecuencia, dando lugar, por consiguiente, a la baja correlación
antes mencionada entre las calidades de habla predichas de forma
objetiva y las experimentadas de forma subjetiva. Un objetivo de la
presente invención es mejorar un modelado perceptual del sistema
auditivo humano en este sentido.
Según un aspecto de la invención, un
procedimiento del tipo anterior comprende una etapa de compensación
de las diferencias de potencia de las señales de salida y de
referencia en el dominio de frecuencias. La etapa de compensación
se lleva a cabo aplicando un factor de compensación calculado a
partir de una relación de valores de señal de dichas señales de
salida y de referencia con ayuda de un valor de limitación
determinado mediante una función dependiente de la frecuencia. La
función dependiente de la frecuencia es preferiblemente una función
monótona que, además, preferiblemente es proporcional a una potencia
de la frecuencia, más concretamente, a la frecuencia elevada
al
cubo.
cubo.
Según un aspecto adicional de la invención, un
dispositivo del tipo anterior comprende medios de compensación para
compensar diferencias de potencia de las señales de salida y de
referencia en el dominio de frecuencias. Los medios de compensación
incluyen medios para calcular un factor de compensación a partir de
una relación de valores de señal de dichas señales de salida y de
referencia dispuestos para utilizar una función de limitación al
menos parcialmente dependiente de la frecuencia.
[1] Recomendación ITU-T P.862
(02/2001), serie P: calidad de transmisiones telefónicas,
instalaciones telefónicas, redes por cable locales; procedimientos
para la valoración objetiva y subjetiva de calidad - Evaluación
percepctual de la calidad del habla (PESQ, Perceptual Evaluation of
Speech Quality), un procedimiento objetivo para la valoración
global de la calidad de habla de redes telefónicas de banda estrecha
y codificadores - decodificadores de habla.
La referencia [|] se incorpora a modo de
referencia en la presente solicitud.
La invención se explicará adicionalmente por
medio de la descripción de realizaciones ilustrativas haciendo
referencia a un dibujo que comprende las siguientes figuras:
la fig. 1 muestra esquemáticamente un sistema
conocido configurado de modo que incluye un dispositivo para
determinar la calidad de una señal de habla;
la fig. 2 muestra un diagrama de bloques, más
concretamente, una parte del dispositivo incluido en el sistema
mostrado en la figura 1, en el que se lleva a cabo una operación de
compensación;
la fig. 3 muestra un diagrama gráfico para
ilustrar una diferencia esencial en la determinación de un factor
de compensación para una operación de compensación entre la técnica
anterior, que utiliza valores de limitación superior e inferior
constantes, y la presente invención, que utiliza un primer conjunto
de valores de limitación superiores e inferiores dependientes de la
frecuencia;
la fig. 4 muestra un diagrama gráfico que
ilustra un segundo conjunto de valores de limitación superiores e
inferiores dependientes de la frecuencia;
la fig. 5 muestra un diagrama gráfico que
ilustra un tercer conjunto de valores de limitación superiores e
inferiores dependientes de la frecuencia.
La figura 1 muestra de forma esquemática una
configuración conocida de una aplicación de una técnica de medición
objetiva que se basa en un modelo de percepción y cognición auditiva
humana y que sigue, por ejemplo, la recomendación
ITU-T P.862 para estimar la calidad perceptual de
las conexiones de habla o
codificadores-decodificadores. Comprende un sistema
10 o red de telecomunicaciones a examen, denominado en lo sucesivo
para mayor brevedad "sistema 10", y un dispositivo 11 de
medición de la calidad para el análisis perceptual de señales de
habla proporcionadas. Una señal X_{0}(t) de habla se
utiliza, por una parte, como señal de entrada del sistema 10 y, por
otra parte, como una primera señal X(t) de entrada del
dispositivo 11. Una señal Y(t) de salida del sistema 10,
que, en realidad, es la señal X_{0}(t) de habla afectada
por el sistema 10, se utiliza como segunda señal de entrada del
dispositivo 11. Una señal Q de salida del dispositivo 11 representa
una estimación de la calidad perceptual de la conexión de habla a
través del sistema 10. Dado que el extremo de entrada y el extremo
de salida de una conexión de habla, especialmente en el caso de que
discurra a través de una red de telecomunicaciones, son remotos,
para las señales de entrada del dispositivo de medición de la
calidad se hace uso en la mayoría de los casos de señales
X(t) de habla almacenadas en bases de datos. Aquí, de forma
convencional, se entiende por "señal de habla" cualquier sonido
básicamente perceptible por el oído humano, tales como, habla y
tonos. Naturalmente, el sistema a examen también puede ser un
sistema de simulación que simula, por ejemplo, una red de
telecomunicaciones o determinadas partes de una red de este tipo. El
dispositivo 11 implementa una etapa de tratamiento principal, que
comprende, de forma sucesiva, en una sección 11.1 de tratamiento
previo, una etapa de tratamiento previo realizada por medios 12 de
tratamiento previo, en una sección 11.2 de tratamiento, una etapa
de tratamiento adicional realizada por primeros y segundos medios 13
y 14 de tratamiento de señales, y, en una sección 11.3 de
combinación de señales, una etapa de tratamiento de señales
combinada realizada por diferentes medios 15 de diferenciación de
señales y medios 16 de modelado. En la etapa de tratamiento previo,
las señales X(t) e Y(t) se preparan para la etapa de
tratamiento adicional en los medios 13 y 14, incluyendo el
tratamiento previo las operaciones de escalar el nivel de potencia y
alineación en el tiempo, emitiendo así señales X_{p}(t) e
Y_{p}(t) tratadas previamente, que son, por ejemplo,
versiones escaladas de las señales de referencia y salida. La etapa
de tratamiento adicional implica la representación de la señal
Y(t) de salida (degradada) y la señal
X(t) de referencia en señales R(Y) y R(X) de representación de acuerdo con un modelo de percepción psico-físico del sistema auditivo humano. Durante la etapa de tratamiento de señales combinada, se determina una señal D de perturbación o diferencial mediante los medios 15 de diferenciación a partir de dichas señales de representación. La señal D diferencial se trata entonces mediante medios 16 de modelado de acuerdo con un modelo en el que se han modelado determinadas propiedades de las personas examinadas, por ejemplo, propiedades cognitivas, para obtener la señal Q de calidad.
X(t) de referencia en señales R(Y) y R(X) de representación de acuerdo con un modelo de percepción psico-físico del sistema auditivo humano. Durante la etapa de tratamiento de señales combinada, se determina una señal D de perturbación o diferencial mediante los medios 15 de diferenciación a partir de dichas señales de representación. La señal D diferencial se trata entonces mediante medios 16 de modelado de acuerdo con un modelo en el que se han modelado determinadas propiedades de las personas examinadas, por ejemplo, propiedades cognitivas, para obtener la señal Q de calidad.
\newpage
Recientemente se ha experimentado que las
actuales técnicas de medición objetivas pueden tener un serio
inconveniente en el hecho de que, en caso de importantes
diferencias de timbre entre la señal de referencia y la señal
degradada, no puede predecirse de forma correcta la calidad de
habla de la señal degradada. Por consiguiente, las señales Q de
calidad obtenidas de forma objetiva para estos casos tienen escasas
correlaciones con las mediciones de calidad determinadas de forma
subjetiva, tales como las puntuaciones medias de opinión (MOS, Mean
Opinión Store) de las personas examinadas. Este tipo de severas
diferencias de timbre pueden producirse como una consecuencia de la
técnica utilizada para grabar la señal de habla original. -Una
técnica de grabación validada es, por ejemplo, la técnica conocida
como "close miking bass boost" (acentuación de graves en la
disposición con micrófono próximo a fuente), que implica un
filtrado considerable en el intervalo de baja frecuencia. Una causa
adicional de severas diferencias de timbre puede estar en las
diferentes condiciones, tales como, en relación con la
reverberación entre el espacio o área en el que se generó la señal
de habla original y el espacio o área en el que se valoró la señal
de habla degradada. Sin embargo, las funciones de transferencia de
espacio muestran, especialmente en el dominio de baja frecuencia,
mayores irregularidades en la función de respuesta de frecuencia
que en las frecuencias altas y medias. No obstante, los seres
humanos perciben las perturbaciones ocasionadas por estas
irregularidades de forma menos perturbadora de lo que predicen los
actuales modelos objetivos.
De las características básicas de la percepción
humana se sabe que el sistema auditivo humano sigue la regla de la
constancia en la percepción, por ejemplo, constancia de tamaño,
tono, timbre, etc. Esto significa que, en principio, el sistema
auditivo humano puede compensar en cierta medida las diferencias de
tamaño, tono, timbre, etc.
Los modelos perceptuales actuales tienen en
cuenta una compensación parcial de algunos efectos graves por medio
de una compensación parcial de la densidad de potencia de tono de la
señal original (en este caso, la señal de referencia). Esta
compensación se lleva a cabo multiplicando, en el dominio de
frecuencias, la densidad de potencia de tono de la señal original
por un factor (CF) de compensación. La figura 2 muestra en un
diagrama de bloques de forma más detallada la parte del dispositivo
11 tal como se muestra en la figura 1, en este caso, la sección
11.2 de tratamiento, en la que se lleva a cabo la compensación. El
tratamiento de señal del primer medio 13 de tratamiento de señales
incluye, en una primera fase, medios 21 de transformación en los
que la señal Y_{p}(t) degradada tratada previamente se
transforma de una señal en el dominio temporal en una señal
Y(f,t) de salida dependiente del tiempo y la frecuencia en el
dominio tiempo - frecuencia, por ejemplo, por medio de una
transformada rápida de Fourier (FFT) y, en una segunda fase, medios
22 de compresión en los que se somete a la señal Y(f,t)
transformada de esta manera a una compresión de señal que da como
resultado la señal R(Y) de representación. En una forma
similar, el tratamiento de señales del segundo medio 14 de
tratamiento de señales incluye, en una primera fase, medios 23 de
transformación en los que se transforma la señal X_{p}(t)
original tratada previamente en una señal X(f,t) de salida
dependiente del tiempo y la frecuencia y, en una segunda fase,
medios 24 de compresión en los que se somete a la señal
X(f,t) transformada de esta manera a una compresión de señal
para obtener la señal R(X) de representación. Entre las dos
fases 23 y 24 anteriores a la compresión de señal, la señal
X(f,t) transformada se somete a una operación de compensación
mediante medios 25 de compensación, operación que da como resultado
una señal X_{c}(f,t) transformada compensada.
La transformación de las señales de referencia y
degradada tratadas previamente va seguida preferiblemente, como es
habitual, de una denominada "función de alineamiento" que
transforma una escala de frecuencia en hertzios a una escala de
frecuencias en Bark (también conocida como "escala de densidad de
potencia de tono").
La operación de compensación se lleva a cabo por
medio de una multiplicación por un factor CF de compensación, que,
en una operación de cálculo llevada a cabo por medios 26 de cálculo,
se calcula a partir de una respuesta FR(f) de frecuencia de
las señales Y(f,t) y X(f,t) dependientes de tiempo y
frecuencia, es decir, la relación del espectro de potencia (valor
medio en el tiempo) de las densidades de potencia de tono de las dos
señales. Las respuesta FR(f) de frecuencia puede expresarse
mediante la siguiente fórmula:
\hskip4cm100
Entonces, se calcula el factor CF de
compensación a partir de esta relación, de tal modo que:
donde CL^{-} y CL^{+},
denominados respectivamente valores límite inferior y superior, son
ciertos valores constantes predeterminados en los que se limita la
respuesta de frecuencia para obtener el factor CF de compensación
para la compensación parcial indicada anteriormente. Este tipo de
valores de limitación se predeterminan, por ejemplo, durante una
fase de inicialización de la técnica de medición. Para
procedimientos de acuerdo con la referencia [1], estos valores
CL^{-} y CL^{+} de limitación predeterminados son 0,01 (-20 dB)
y 100 (+20 dB), respectivamente. Sin embargo, en caso de severas
diferencias de timbre (por ejemplo, > 20 dB de densidad de
potencia), se considera que este tipo de compensación parcial, que
utiliza un factor de compensación que está limitado a ciertos
valores constantes predeterminados, da como resultado predicciones
poco fiables de la calidad de la señal de habla. Entonces, se
consideró que podía conseguirse una mejora del modelo perceptual
del sistema auditivo humano llevando a cabo la compensación con
ayuda de un factor de compensación que ya no está limitado a
valores constantes, sino a valores dependientes de la frecuencia,
al menos en parte, preferiblemente en la parte inferior, del
intervalo de frecuencias del sistema auditivo. Este tipo de valores
de limitación dependientes de la frecuencia se indican en lo
sucesivo mediante funciones cl^{-}(f) y
cl^{+}(f) dependientes de la frecuencia, denominadas
función de limitación inferior y superior,
respectivamente.
El factor CF de compensación se calcula
nuevamente a partir de la respuesta de frecuencia según la fórmula
(1), pero se limita utilizando las funciones de limitación inferior
y superior dependientes de la frecuencia de modo que:
En principio, las funciones de limitación
inferior y superior pueden elegirse independientes entre sí. Sin
embargo, como consecuencia del carácter recíproco de la función de
respuesta de frecuencia, la función cl^{+}(f) de limitación
superior se elige preferiblemente igual, al menos de forma
aproximada (véase más abajo), a la inversa (recíproca) de la función
cl^{-}(f) de limitación inferior, o viceversa.
Una función de limitación, por ejemplo, la
función cl^{-}(f) de limitación inferior es preferiblemente
monótona, al menos en la parte o partes dependientes de la
frecuencia, ya sea creciente o monótona decreciente con frecuencia
creciente, mientras que, de forma correspondiente, la otra función
de limitación es monótona creciente o decreciente. Las funciones de
limitación se predeterminan preferiblemente, por ejemplo, durante
una fase de inicialización del sistema de medición.
Por medio de una elección adecuada de las
funciones de limitación superior e inferior, la compensación parcial
puede hacerse más armoniosa con la regla anteriormente mencionada
de constancia en la percepción. De forma experimental, sucede que
una función monótona creciente que es proporcional a la potencia p
de la frecuencia, en este caso, f^{p} (donde p \neq 0),
especialmente en el intervalo de baja frecuencia, es una opción
adecuada de este tipo para la función de limitación inferior.
Preferiblemente, p = 3. A continuación, se ilustra en relación con
la figura 3 la diferencia en la elección de estas funciones de
limitación dependientes de la frecuencia, cl^{-}(f) y
cl^{+}(f), en lugar de valores CL^{-} y CL^{+} de
limitación constantes.
La figura 3 muestra en un diagrama gráfico a
modo de ejemplo la función de respuesta de frecuencia para una
primera y una segunda señales de habla diferentes entre sí indicadas
mediante FR_{1}(f) y FR_{2}(f), respectivamente,
disponiéndose los valores de respuesta de frecuencia (en dB) en el
eje vertical como una función de la frecuencia (en Bark), dispuesta
a lo largo del eje horizontal. Las líneas 31 y 32 discontinuas
horizontales a -20 dB y +20 dB indican los valores CL^{-} y
CL^{+} de limitación constantes, respectivamente. Las líneas 33 y
34 curvas indican las funciones
cl^{-}(f) y cl^{+}(f) de limitación superior e inferior dependientes de la frecuencia, respectivamente. Las funciones FR_{1}(f) y FR_{2}(f) de respuesta de frecuencia no tienen valores significativos para frecuencias superiores a una cierta f_{máx}, que es de aproximadamente 30 Bark para el sistema auditivo humano.
cl^{-}(f) y cl^{+}(f) de limitación superior e inferior dependientes de la frecuencia, respectivamente. Las funciones FR_{1}(f) y FR_{2}(f) de respuesta de frecuencia no tienen valores significativos para frecuencias superiores a una cierta f_{máx}, que es de aproximadamente 30 Bark para el sistema auditivo humano.
A modo de ejemplo, las funciones de limitación
inferior y superior trazadas, indicadas mediante las líneas 33 y 34
curvas, se eligen como:
donde \Delta es un número pequeño
(por ejemplo, 0,015) para evitar valores demasiado grandes para
cl^{+}(f) en casos donde
cl^{-}(f)\approx0 para cualquier valor de
f.
En este ejemplo, la función FR_{1}(f)
de respuesta de frecuencia se sitúa completamente entre los valores
CL^{-} y CL^{+} de limitación constantes y las funciones de
limitación. Sin embargo, la función FR_{2}(f), además de
puntos entre los valores CL^{-} y CL^{+} constantes, tiene un
primer saliente 35 en la dirección ascendente, que entre los puntos
A y D aumenta por encima de la línea 32 horizontal y entre los
puntos B y C aumenta incluso por encima de la línea curva 34.
Además, tiene un segundo saliente 36 en la dirección descendente,
que entre los puntos E y F desciende por debajo de la línea 31
horizontal.
Para señales de habla que tienen una función de
respuesta de frecuencia que se dispone totalmente entre el conjunto
de valores de limitación y el conjunto de funciones de limitación,
tales como la función FR_{1}(f), no existirá diferencia en
la determinación del factor CF de compensación ya que no existe
necesidad de limitación. Para señales de habla que tienen una
función de respuesta de frecuencia que se dispone parcialmente entre
el conjunto de valores de limitación y que tiene uno o varios
salientes, tales como la función FR_{1}(f), existirá una
diferencia considerable en la determinación del factor CF de
compensación. Para calcular el factor CF de compensación según el
procedimiento de la técnica anterior, los valores de la función
FR_{2}(f) de respuesta de frecuencia entre los puntos A y
D se limitan al valor CL^{+} de limitación superior, mientras que,
según el nuevo procedimiento, sólo los valores de la función
FR_{2}(f) de respuesta de frecuencia se limitan entre los
puntos B y C, no sólo a los valores localmente mucho mayores según
la función
cl^{+}(f) de limitación superior, sino además en una forma dependiente de la frecuencia. De forma similar, los valores de la función FR_{2}(f) de respuesta de frecuencia entre los puntos E y F se limitan al valor CL^{-} de limitación inferior, mientras que, según el nuevo procedimiento, los valores de la función FR_{2}(f) de respuesta de frecuencia entre los puntos E y F no se limitan en absoluto.
cl^{+}(f) de limitación superior, sino además en una forma dependiente de la frecuencia. De forma similar, los valores de la función FR_{2}(f) de respuesta de frecuencia entre los puntos E y F se limitan al valor CL^{-} de limitación inferior, mientras que, según el nuevo procedimiento, los valores de la función FR_{2}(f) de respuesta de frecuencia entre los puntos E y F no se limitan en absoluto.
Otra elección para cl^{-}(f) podría
ser:
f_{c} es una frecuencia central
(es decir, f_{máx}/2 \approx 15 Bark) del intervalo de
frecuencias del sistema auditivo humano. Esta elección para
cl^{-}(f) con cl^{+}(f) correspondiente se ilustra
en la figura 4. Las funciones de limitación inferior y superior se
indican mediante los números 43 y 44, respectivamente, cada una con
una parte 43.1 (44.1) dependiente de la frecuencia y una parte 43.2
(44.2) de valor constante. En concreto, esta opción mostró de forma
experimental, en señales de habla con grandes diferencias de timbre,
un aumento de correlación de más del 5% entre la calidad predicha y
la calidad medida
subjetivamente.
De forma más general, la función de limitación
inferior puede ser una concatenación de partes dependientes de la
frecuencia en intervalos de frecuencias sucesivos en la dirección de
frecuencia creciente, siendo cada una de las partes una función
monótona creciente que tiene una dependencia de frecuencia aún menor
en los intervalos de frecuencias sucesivos. Por ejemplo, las partes
son funciones proporcionales a una potencia de la frecuencia,
potencia que disminuye en cada intervalo de frecuencias sucesivo en
la dirección de la frecuencia creciente. Por ejemplo, una primera
parte proporcional a la función f^{3} ya mencionada en el
intervalo de frecuencia inferior, seguida de una segunda parte
proporcional f^{2} en un segundo intervalo de frecuencias
siguiente, seguida de una tercera parte proporcional a f^{2/3} en
un tercer intervalo siguiente, etc.
Otra opción tiene en cuenta la simetría en el
espectro de frecuencias del sistema auditivo:
Esta opción para cl^{-}(f) con
cl^{+}(f) correspondiente se ilustra en la figura 5. Las
funciones de limitación inferior y superior se indican mediante los
números 53 y 54, respectivamente, cada una con una primera parte
43.1 (44.1) dependiente de la frecuencia en el intervalo de baja
frecuencia, una parte 43.2 (44.2) de valor constante intermedia, y
una segunda parte 43.3 (44.3) dependiente de la frecuencia en el
intervalo de alta frecuencia, sucesivamente.
En lugar de la señal X(f,t) transformada,
puede someterse a la señal X(f,t) transformada a la operación
de compensación, calculándose el factor de compensación a partir de
una función de respuesta de frecuencia que es recíproca a la
respuesta FR(f) de frecuencia tal como se expresa mediante la
fórmula {1}.
Claims (10)
1. Procedimiento para determinar, según una
técnica de medición de habla objetiva, la calidad (Q) de una
señal
(Y(t)) de salida de un sistema de tratamiento de señales de habla con respecto a una señal (X(t)) de referencia, comprendiendo dicho procedimiento una etapa de compensación de diferencias de potencia de las señales de salida y referencia en el dominio de frecuencias, realizándose la etapa de compensación aplicando un factor (CF) de compensación calculado a partir de una relación (FR(f)) de valores de señal de dichas señales de salida y de referencia, caracterizado por utilizar un valor de limitación determinado por una función (33; 34; 43; 44; 53; 54) al menos parcialmente dependiente de la frecuencia.
(Y(t)) de salida de un sistema de tratamiento de señales de habla con respecto a una señal (X(t)) de referencia, comprendiendo dicho procedimiento una etapa de compensación de diferencias de potencia de las señales de salida y referencia en el dominio de frecuencias, realizándose la etapa de compensación aplicando un factor (CF) de compensación calculado a partir de una relación (FR(f)) de valores de señal de dichas señales de salida y de referencia, caracterizado por utilizar un valor de limitación determinado por una función (33; 34; 43; 44; 53; 54) al menos parcialmente dependiente de la frecuencia.
2. Procedimiento según la reivindicación 1, en
el que el factor de compensación se obtiene utilizando un valor de
limitación superior e inferior, determinándose los dos valores de
limitación inferior y superior mediante una función (33, 34, 43, 44;
53, 54) al menos parcialmente dependiente de la frecuencia.
3. Procedimiento según la reivindicación 1 ó 2,
en el que el valor dependiente de la frecuencia para al menos uno
de dichos valores de limitación en un intervalo de bajas frecuencias
respecto a una frecuencia (fc) central del intervalo de frecuencias
(0 \leq f \leq f_{máx}) del sistema auditivo humano se calcula
a partir de una función (43.1; 44.1; 53.1; 54.1) monótona creciente
dependiente de la frecuencia.
4. Procedimiento según la reivindicación 3,
caracterizado porque la función monótona creciente
dependiente de la frecuencia es proporcional a una potencia de la
frecuencia (43.1; 44.1; 53.1; 54.1).
5. Procedimiento según la reivindicación 4,
caracterizado porque la función monótona creciente
dependiente de la frecuencia es proporcional a la frecuencia
elevada al cubo, (43.1; 44.1; 53.1; 54.1).
6. Procedimiento según la reivindicación 3 ó 4,
caracterizado porque la función monótona creciente
dependiente de la frecuencia es proporcional a una potencia de la
relación de la frecuencia y la frecuencia central.
7. Procedimiento según cualquiera de las
reivindicaciones 2 a 6, caracterizado porque al menos uno de
dichos valores (53; 54) de limitación, calculado a partir de dicha
función dependiente de la frecuencia, muestra una simetría respecto
a una frecuencia central del intervalo de frecuencias del sistema
auditivo humano.
8. Procedimiento según la reivindicación 1,
caracterizado porque, respecto a una frecuencia central del
intervalo de frecuencias del sistema auditivo humano, la medición
de la dependencia de la frecuencia de la función dependiente de la
frecuencia es mayor para frecuencias bajas que para altas
frecuencias.
9. Dispositivo para determinar, según una
técnica de medición de habla objetiva, la calidad (Q) de una señal
(Y(t)) de salida de un sistema de tratamiento de señales de
habla con respecto a una señal (X(t)) de referencia,
comprendiendo dicho dispositivo medios de compensación (25, 26),
para compensar diferencias de potencia de las señales de salida y
de referencia en el dominio de frecuencias, incluyendo los medios de
compensación medios (26) para calcular un factor (CF) de
compensación a partir de una relación de valores de señal de dichas
señales de salida y de referencia, caracterizado por utilizar
una función (33, 34, 43, 44; 53, 54) de limitación al menos
parcialmente dependiente de la frecuencia.
10. Dispositivo según la reivindicación 9, en el
que los medios (26) para calcular el factor de compensación se han
dispuesto para utilizar funciones (33, 34, 43, 44; 53, 54) de
limitación inferior y superior dependientes de la frecuencia.
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US29711301P | 2001-06-08 | 2001-06-08 | |
| US297113P | 2001-06-08 | ||
| EP01203699A EP1298646B1 (en) | 2001-10-01 | 2001-10-01 | Improved method for determining the quality of a speech signal |
| EP01203699 | 2001-10-01 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2294143T3 true ES2294143T3 (es) | 2008-04-01 |
Family
ID=8180990
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES02743062T Expired - Lifetime ES2294143T3 (es) | 2001-06-08 | 2002-05-21 | Procedimiento mejorado para determinar la calidad de una señal de habla. |
Country Status (9)
| Country | Link |
|---|---|
| US (1) | US7315812B2 (es) |
| EP (2) | EP1298646B1 (es) |
| JP (1) | JP2004529398A (es) |
| CN (1) | CN1252677C (es) |
| AT (2) | ATE315820T1 (es) |
| CA (1) | CA2442317C (es) |
| DE (2) | DE60116559D1 (es) |
| ES (1) | ES2294143T3 (es) |
| WO (1) | WO2002101721A1 (es) |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20040167774A1 (en) * | 2002-11-27 | 2004-08-26 | University Of Florida | Audio-based method, system, and apparatus for measurement of voice quality |
| ES2313413T3 (es) * | 2004-09-20 | 2009-03-01 | Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno | Compensacion en frecuencia para el analisis de precepcion de habla. |
| BRPI0707343B1 (pt) * | 2006-01-31 | 2020-09-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Método e aparelho de avaliação de qualidade de sinal não intrusivo |
| US8767566B2 (en) * | 2006-12-15 | 2014-07-01 | Tellabs Vienna, Inc. | Method and apparatus for verifying signaling and bearer channels in a packet switched network |
| US20080162150A1 (en) * | 2006-12-28 | 2008-07-03 | Vianix Delaware, Llc | System and Method for a High Performance Audio Codec |
| US8140325B2 (en) * | 2007-01-04 | 2012-03-20 | International Business Machines Corporation | Systems and methods for intelligent control of microphones for speech recognition applications |
| EP1975924A1 (en) * | 2007-03-29 | 2008-10-01 | Koninklijke KPN N.V. | Method and system for speech quality prediction of the impact of time localized distortions of an audio transmission system |
| JP5542206B2 (ja) | 2009-08-14 | 2014-07-09 | コニンクリーケ・ケイピーエヌ・ナムローゼ・フェンノートシャップ | オーディオ・システムの知覚品質を判定する方法およびシステム |
| ES2526126T3 (es) | 2009-08-14 | 2015-01-07 | Koninklijke Kpn N.V. | Método, producto de programa informático y sistema para determinar una calidad percibida de un sistema de audio |
| US9548067B2 (en) | 2014-09-30 | 2017-01-17 | Knuedge Incorporated | Estimating pitch using symmetry characteristics |
| US9396740B1 (en) * | 2014-09-30 | 2016-07-19 | Knuedge Incorporated | Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes |
| US9870785B2 (en) | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
| US9842611B2 (en) | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
| US9922668B2 (en) | 2015-02-06 | 2018-03-20 | Knuedge Incorporated | Estimating fractional chirp rate with multiple frequency representations |
| EP3223279B1 (en) | 2016-03-21 | 2019-01-09 | Nxp B.V. | A speech signal processing circuit |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| NL9500512A (nl) * | 1995-03-15 | 1996-10-01 | Nederland Ptt | Inrichting voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal, alsmede werkwijze voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal. |
| EP0764939B1 (en) * | 1995-09-19 | 2002-05-02 | AT&T Corp. | Synthesis of speech signals in the absence of coded parameters |
| CA2273239C (en) * | 1996-12-13 | 2003-06-10 | John Gerard Beerends | Device and method for signal quality determination |
| US6594365B1 (en) * | 1998-11-18 | 2003-07-15 | Tenneco Automotive Operating Company Inc. | Acoustic system identification using acoustic masking |
| US6985559B2 (en) * | 1998-12-24 | 2006-01-10 | Mci, Inc. | Method and apparatus for estimating quality in a telephonic voice connection |
| NL1014075C2 (nl) * | 2000-01-13 | 2001-07-16 | Koninkl Kpn Nv | Methode en inrichting voor het bepalen van de kwaliteit van een signaal. |
| EP1187100A1 (en) * | 2000-09-06 | 2002-03-13 | Koninklijke KPN N.V. | A method and a device for objective speech quality assessment without reference signal |
-
2001
- 2001-10-01 EP EP01203699A patent/EP1298646B1/en not_active Expired - Lifetime
- 2001-10-01 AT AT01203699T patent/ATE315820T1/de not_active IP Right Cessation
- 2001-10-01 DE DE60116559T patent/DE60116559D1/de not_active Expired - Lifetime
-
2002
- 2002-05-21 AT AT02743062T patent/ATE374992T1/de not_active IP Right Cessation
- 2002-05-21 JP JP2003504386A patent/JP2004529398A/ja active Pending
- 2002-05-21 CN CNB028115112A patent/CN1252677C/zh not_active Expired - Fee Related
- 2002-05-21 DE DE60222770T patent/DE60222770T2/de not_active Expired - Lifetime
- 2002-05-21 US US10/471,510 patent/US7315812B2/en not_active Expired - Fee Related
- 2002-05-21 ES ES02743062T patent/ES2294143T3/es not_active Expired - Lifetime
- 2002-05-21 WO PCT/EP2002/005556 patent/WO2002101721A1/en not_active Ceased
- 2002-05-21 EP EP02743062A patent/EP1399916B1/en not_active Expired - Lifetime
- 2002-05-21 CA CA002442317A patent/CA2442317C/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| ATE374992T1 (de) | 2007-10-15 |
| EP1399916A1 (en) | 2004-03-24 |
| EP1298646B1 (en) | 2006-01-11 |
| US20040138875A1 (en) | 2004-07-15 |
| EP1399916B1 (en) | 2007-10-03 |
| US7315812B2 (en) | 2008-01-01 |
| CN1514996A (zh) | 2004-07-21 |
| CN1252677C (zh) | 2006-04-19 |
| DE60116559D1 (de) | 2006-04-06 |
| CA2442317C (en) | 2008-09-02 |
| JP2004529398A (ja) | 2004-09-24 |
| DE60222770D1 (de) | 2007-11-15 |
| WO2002101721A1 (en) | 2002-12-19 |
| CA2442317A1 (en) | 2002-12-19 |
| DE60222770T2 (de) | 2008-07-17 |
| EP1298646A1 (en) | 2003-04-02 |
| ATE315820T1 (de) | 2006-02-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2294143T3 (es) | Procedimiento mejorado para determinar la calidad de una señal de habla. | |
| Elhilali et al. | A spectro-temporal modulation index (STMI) for assessment of speech intelligibility | |
| Steeneken et al. | Mutual dependence of the octave-band weights in predicting speech intelligibility | |
| CN102576535B (zh) | 用于确定音频系统的感知质量的方法和系统 | |
| Zhang et al. | Effects of telephone transmission on the performance of formant-trajectory-based forensic voice comparison–female voices | |
| EP2037449B1 (en) | Method and system for the integral and diagnostic assessment of listening speech quality | |
| ES2313413T3 (es) | Compensacion en frecuencia para el analisis de precepcion de habla. | |
| Rix et al. | Models of human perception | |
| RU2312405C2 (ru) | Способ осуществления машинной оценки качества звуковых сигналов | |
| Gully et al. | The Lombard effect in MRI noise | |
| Kondo | Speech quality | |
| Tahvanainen et al. | Studies on the perception of bass in four concert halls. | |
| Parsa et al. | Interactions between speech coders and disordered speech | |
| Brachmański | Estimation of logatom intelligibility with the STI method for polish speech transmitted via communication channels | |
| Gierlich et al. | Advances in perceptual modeling of speech quality in telecommunications | |
| Kitawaki et al. | Objective quality assessment of wideband speech coding | |
| Rajmic et al. | A MATLAB toolbox for computation of Speech Transmission Index (STI) | |
| Voran | Estimation of speech intelligibility and quality | |
| Ghimire | Speech intelligibility measurement on the basis of ITU-T recommendation P. 863 | |
| Kuşcu | An Investigation of Performance Indicators for Stage Acoustics in Music Halls | |
| Pulkki | An Introduction to Sound, Hearing and Perception | |
| Mapp | Speech Intelligibility | |
| Pohlmann | Subjective Methods for Evaluating Sound Quality | |
| Côté et al. | An intrusive super-wideband speech quality model: DIAL. | |
| Möller | Quality of Voice and Audio Transmission Systems |