ES2556587T3 - Método y aparato para evaluar la inteligibilidad de una señal de voz degradada - Google Patents

Método y aparato para evaluar la inteligibilidad de una señal de voz degradada Download PDF

Info

Publication number
ES2556587T3
ES2556587T3 ES12791582.5T ES12791582T ES2556587T3 ES 2556587 T3 ES2556587 T3 ES 2556587T3 ES 12791582 T ES12791582 T ES 12791582T ES 2556587 T3 ES2556587 T3 ES 2556587T3
Authority
ES
Spain
Prior art keywords
loudness
value
degraded
signal
reference signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12791582.5T
Other languages
English (en)
Inventor
John Gerard Beerends
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Original Assignee
Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO filed Critical Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Application granted granted Critical
Publication of ES2556587T3 publication Critical patent/ES2556587T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Método para evaluar la inteligibilidad de una señal de voz degradada recibida de un sistema de transmisión de audio, al transportar a través de dicho sistema de transmisión de audio una señal de voz de referencia tal como para suministrar dicha señal de voz degradada, en donde el metodo comprende: -muestrear dicha señal de voz de referencia en una pluralidad de marcos de señal de referencia y determinar para cada marco una representación de señal de referencia; -muestrear dicha señal de voz degradada en una pluralidad de marcos de señal degradados y determinar para cada marco una representación de señal degradada; -formar pares de marco al asociar dichos marcos de señal de referencia y dichos marcos de señal degradada el uno con el otro, y suministrar para cada par de marcos una función de diferencia que representa una diferencia entre dicho marco de señal degradada y dicho marco de señal de referencia asociado; el método se caracteriza por: -compensar dicha función de diferencia para uno o más tipos de perturbación tal como suministrar para cada par de marcos una función de densidad de perturbación que se adapta a un modelo de percepción de auditorio humano; -derivar desde dichas funciones de densidad de perturbación de una pluralidad de pares de marco un parámetro de calidad total, dicho parámetro de calidad es al menos significativo de dicha inteligibilidad de dicha señal de voz degradada; -en donde, dicho método comprende además las etapas de: determinar el valor de sonoridad para cada uno de dichos marcos de señal de referencia; y -determinar el valor de ponderación dependiente de dicho valor de sonoridad de dicho marco de señal de referencia; donde dicha etapa de compensar dicha función de diferencia comprende una etapa de ponderar dicha función de diferencia utilizando dicho valor de ponderación dependiente de sonoridad, para incorporar un impacto de perturbación sobre dicha inteligibilidad de dicha señal de voz degradada en dicha evaluación.

Description

5
10
15
20
25
30
35
40
45
50
55
60
DESCRIPCION
Metodo y aparato para evaluar la inteligibilidad de una senal de voz degradada Campo de la Invencion
La presente invencion se relaciona con un metodo para evaluar la inteligibilidad de una senal de voz degradada recibida de un sistema de transmision de audio, al transportar a traves de dicho sistema de transmision de audio una senal de voz de referencia tal como suministrar dicha senal de voz degradada, en donde el metodo comprende: muestrear dicha senal de voz de referencia en una pluralidad de marcos de senal de referencia y determinar para cada marco una representacion de senal de referencia; muestrear dicha senal de voz degradada en una pluralidad de marcos de senal degradados y determinar para cada marco una representacion de senal degradada; formar pares de marco al asociar cada marco de senal de referencia con un marco de senal degradado correspondiente, y suministrar para cada par de marcos una funcion de diferencia que representa una diferencia entre dicho marco de senal degradado y dicho marco de senal de referencia asociado.
La presente invencion se relaciona ademas con un aparato para efectuar un metodo como se describio anteriormente, y con un producto de programa de ordenador.
Antecedentes
Durante las pasadas decadas los metodos de medicion de calidad objetiva de voz se han desarrollado y desplegado utilizando una aproximacion de medicion perceptiva. En esta aproximacion un algoritmo basado en la percepcion simula el comportamiento de un sujeto que califica la calidad de un fragmento de audio en una prueba de escucha. Para la calidad de voz se utiliza principalmente la as! llamada prueba de escucha absoluta con calificacion de categorla, donde los sujetos juzgan la calidad del fragmento de voz degradado sin tener acceso a un fragmento de voz limpio de referencia. Las pruebas de escucha llevadas a cabo en la Union de Telecomunicaciones Internacional (ITU) principalmente utilizan una calificacion de categorla absoluta (ACR) de escala de opinion de 5 puntos, que es consecuentemente tambien utilizada en los metodos de medicion de calidad de voz objetiva que fueron estandarizados por el ITU, Medicion de Calidad Perceptiva de la Voz. (PSQM (ITU - T Rec. P. 861, 1996)), y su Evaluacion Perceptiva de Seguimiento de la Calidad de Voz (PESQ (ITU - T Rec. P. 862, 2000)). El enfoque de estos estandares de medicion esta en la calidad de voz de banda estrecha (ancho de banda de audio 100-3500 Hz), aunque la extension del ancho de banda (50 - 7000 Hz) fue ideado en el 2005. El PESQ suministra unas muy buenas correlaciones con las pruebas de escucha subjetivas en los datos de voz de banda estrecha y correlaciones aceptables para datos de banda ancha.
Unos nuevos servicios de voz de ancho de banda estan siendo desarrollados por la industria de telecomunicaciones, la necesidad surgio de un estandar de medicion avanzado de desempeno verificado, y capaz de mayores anchos de banda de audio. Por lo tanto el Grupo 12 de Estudio ITU - T (ITU -sector Telecom) inicio la estandarizacion de un nuevo algoritmo de evaluacion de calidad de voz como una actualizacion de tecnologla del PESQ. El nuevo estandar de medicion, de tercera generacion, POLQA (Evaluacion de Calidad de Escucha Perceptivo Objetivo), soluciona los inconvenientes del estandar PESQ P. 862 tal como la evaluacion incorrecta del impacto de las distorsiones de respuesta de frecuencia lineal, la compresion estiramiento del tiempo como se encuentra en Voz sobre IP, cierto tipo de distorsiones de codec y reverberaciones.
La solicitud de patente europea EP 2048657A1 describe un metodo y sistema para la medicion de la inteligibilidad de la voz de un sistema de transmision de audio adaptado para obtener una funcion de densidad de perturbacion de una entrada de referencia y una entrada degradada. La funcion de densidad de perturbacion se multiplica por una funcion de correccion derivada de un calculo de correlacion de las densidades de potencia de altura tonal compensadas asociadas con la senal de entrada y un marco previo independiente. La funcion de la densidad de perturbacion corregida se agrega sobre la frecuencia y el tiempo para obtener una medicion de la inteligibilidad de la voz.
Aunque el POLQA (p. 863) suministra un numero de mejoras sobre los algoritmos de evaluacion de calidad anterior PSQM (P. 861) y pEsQ (P. 862), las presentes versiones del POLQA, como el PSQM y el PESQ, no manejan una condicion de calidad perceptiva subjetiva elemental, a saber la inteligibilidad. A pesar tambien de ser dependiente de un numero de parametros de calidad de audio, la inteligibilidad esta mas cercanamente relacionada con la calidad de transferencia de informacion que con la calidad del sonido. En terminos de algoritmos de evaluacion de calidad, la naturaleza de la inteligibilidad opuesta a la calidad de sonido hace que los algoritmos produzcan una calificacion de evaluacion que desajusta la calificacion que se habrla asignado si la senal de voz hubiera sido evaluada por una persona o una audiencia. Sin perder de vista el objetivo de compartir informacion, un ser humano valorara una senal de voz inteligible por encima de una senal que sea menos inteligible, pero que sea similar en terminos de calidad de sonido. Los algoritmos actualmente conocidos no han sido capaces de abordar correctamente esto al grado requerido.
Resumen de la Invencion
5
10
15
20
25
30
35
40
45
50
55
60
65
Es un objeto de la presente invencion buscar una solucion para la desventaja anteriormente mencionada de la tecnica anterior, y suministrar un algoritmo de evaluacion de calidad para la evaluation de las senales de voz (degradada) que se adaptan para tener en cuenta la inteligibilidad de la senal de voz para la evaluacion de la misma.
La presente invencion logra esto y otros objetos porque se suministra un metodo para evaluar la inteligibilidad de la senal de voz degradada recibida de un sistema de transmision de audio, al transportar a traves de un sistema de transmision de audio una senal de voz de referencia tal como suministrar dicha senal de voz degradada, en donde el metodo comprende: muestrear dicha senal de voz de referencia en una pluralidad de marcos de senal de referencia y determinar para cada marco una representation de senal de referencia, muestrear dicha senal de voz degradada en una pluralidad de marcos de senal degradado y determinar para cada marco una representacion de senal degradada; formar pares de marco al asociar cada marco de senal de referencia con un marco de senal degradado correspondiente, y suministrar para cada par de marco una funcion de diferencia que representa una diferencia entre dicho marco de senal degradado y dicho marco de senal de referencia asociado; compensar dicha funcion de diferencia para uno o mas tipos de perturbation tal como suministrar para cada par de marcos una funcion de densidad de perturbation que se adapta a un modelo de perception auditiva humana; derivar de dichas funciones de densidad de perturbacion de una pluralidad de pares marco un parametro de calidad total, dicho parametro de calidad es al menos indicativo de dicha inteligibilidad de dicha senal de voz degradada; en donde, dicho metodo comprende ademas las etapas de: determinar el valor de sonoridad para cada uno de dichos marcos de senal de referencia ; y determinar un valor de ponderacion dependiente sobre dicho valor de sonoridad y dicho marco de senal de referencia; en donde dicha etapa de compensar dicha funcion de diferencia comprende una etapa de ponderar dicha funcion de diferencia utilizando dicho valor de ponderacion dependiente de la sonoridad, para incorporar un impacto de perturbacion sobre dicha inteligibilidad de dicha senal de voz degradada en dicha evaluacion.
La presente invencion maneja la inteligibilidad al reconocer que el ruido y otras perturbaciones son mas destructivas para la comunicacion cuando la information esta particularmente siendo transmitida. En las comunicaciones de voz, esto es durante el tiempo cuando la senal de voz real lleva palabras habladas. Mas aun, la invencion de manera correcta tiene en cuenta la modulation y la naturaleza variable del lenguaje hablado, y suministra una manera de incorporar la naturaleza destructiva de las perturbaciones y su dependencia de esta modulacion y de la naturaleza variable del lenguaje hablado. Al incluir un valor de ponderacion dependiente del valor de sonoridad de la senal de referencia, el metodo de la presente invencion permite ponderar la cantidad de perturbacion dependiente de si o no la informacion esta siendo realmente transportada en la senal de voz degradada.
De acuerdo con una realization de la invencion, para determinar el valor de ponderacion dependiente de la sonoridad, el metodo comprende una etapa de comparar dicho valor de sonoridad con un umbral, y hacer dicho valor de ponderacion dependiente de si el valor de sonoridad excede dicho umbral. Como se apreciara, comparando el valor de sonoridad con un umbral se permite utilizar una aproximacion diferente para la evaluacion del ruido y las perturbaciones durante las pausas de la voz y durante las palabras habladas. El impacto de las perturbaciones sera diferente durante las palabras habladas que durante los periodos silentes, y se puede tratar de manera diferente cuando se hace uso de un umbral.
De acuerdo con una realizacion adicional, el valor de ponderacion se fija a un valor maximo cuando dicho valor de sonoridad para dicho marco de senal de referencia excede dicho umbral. Por ejemplo, por encima del umbral, el metodo de la presente invencion puede simplemente aplicar un valor de ponderacion de 1.0 para incluir completamente todas las perturbaciones durante las palabras habladas.
De acuerdo con una realizacion adicional, el valor de ponderacion es una funcion que es dependiente del valor de sonoridad, por ejemplo cuando dicho valor de sonoridad para dicho marco de senal de referencia es mas pequeno que dicho umbral. Tal funcion puede ser una dependencia lineal, u otra dependencia adecuada sobre el valor de sonoridad. De acuerdo con una realizacion especlfica y de acuerdo con los experimentos suministra buen valor el valor de ponderacion puede ser igual al valor de sonoridad cuando el valor de sonoridad para el marco de senal de referencia es mas pequeno que dicho umbral.
De acuerdo con una realizacion adicional, ademas de comparar el valor de sonoridad con un primer umbral, para determinar dicho valor de ponderacion dependiente de la sonoridad, el metodo comprende la etapa de comparar el valor de sonoridad con un segundo umbral, en donde el valor de ponderacion es mas pequeno que el valor maximo cuando el valor de sonoridad para el marco de senal de referencia excede el segundo umbral. El segundo umbral en esta realizacion es mas grande que el primer umbral, y adicionalmente permite ponderar la perturbacion de manera diferente dependiendo de si la perturbacion se encuentra durante la pronunciation de una vocal o una consonante en la senal de voz. Se ha observado que la perturbacion durante la pronunciacion de una consonante se experimenta como mas molesto para un receptor que la perturbacion durante una vocal. De acuerdo con una realizacion particular, cuando dicho valor de sonoridad para dicho marco de senal de referencia excede el segundo umbral, el valor de ponderacion se hace inversamente dependiente de una cantidad con la cual el valor de sonoridad excede el segundo umbral.
El valor de sonoridad se puede determinar como un valor unico para el marco completo, o se puede determinar de una manera dependiente de la frecuencia. En este ultimo caso, el valor de ponderacion se hace dependiente de dicho valor de sonoridad dependiente de la frecuencia. La sonoridad es un valor dependiente de la frecuencia, en la medida en que es un parametro que indica que tan “fuerte” se percibe un sonido por el oldo humano, y el oldo humano se puede
5
10
15
20
25
30
35
40
45
50
55
60
65
considerar como un sensor de audio dependiente de la frecuencia. Eso tambien revela que las perturbaciones pueden afectar la inteligibilidad dependiendo de la frecuencia de tales perturbaciones.
La presente invencion se puede aplicar a algoritmos de evaluacion de calidad tales como el POLQA o el PESQ, o su predecesor PSQM. Estos algoritmos son particularmente desarrollados para evaluar las senales de voz degradadas. Dentro del POLQA (algoritmo de avaluacion de calidad de escucha objetivo perceptivo), el ultimo algoritmo de evaluacion de calidad que esta actualmente bajo desarrollo, la senal de voz de referencia y la senal de voz degradada estan ambos representados al menos en terminos de la altura tonal y la sonoridad. Determinar el valor de sonoridad de un marco es por lo tanto directo en POLQA, haciendo la aplicacion de la presente invencion en particular util para este algoritmo (P. 863).
De acuerdo con un segundo aspecto, la invencion esta dirigida a un producto de programa de ordenador que comprende un codigo ejecutable de ordenador para efectuar un metodo tal como se describio anteriormente cuando se ejecuta por un ordenador.
De acuerdo con un tercer aspecto, la invencion esta dirigida a un aparato para efectuar un metodo como se describio anteriormente, para evaluar la inteligibilidad de una senal de voz degradada, que comprende: una unidad de recepcion para recibir dicha senal de voz degradada de un sistema de transmision de audio que transporta una senal de voz de referencia, y para recibir dicha senal de voz de referencia; una unidad de muestreo para muestrear dicha senal de voz de referencia en una pluralidad de marcos de senal de referencia, y para muestrear dicha senal de voz degradada en una pluralidad de marcos de senal degradados; una unidad de procesamiento para determinar para cada marco de senal de referencia una representacion de senal de referencia, y para determinar para cada marco de senal degradado una representacion de senal degradada; una unidad de comparacion para formar pares marco al asociar cada marco de senal de referencia con un correspondiente marco de senal degradado, y para suministrar para cada par de marco una funcion de diferencia que representa una diferencia entre dicho marco de senal degradado y dicho marco de senal de referencia; una unidad compensadora para compensar dicha funcion de diferencia para uno o mas tipos de perturbacion tales como suministrar para cada par de marco una funcion de densidad de perturbacion que se adapta a un modelo de percepcion del auditorio humano; y dicha unidad de procesamiento esta ademas dispuesta para derivar de dichas funciones de densidad de perturbacion de una pluralidad de pares marco un parametro de calidad total que es al menos indicativo de dicha inteligibilidad de dicha senal de voz degradada; en donde, dicha unidad de procesamiento esta ademas dispuesta para: determinar un valor de sonoridad para cada uno de dichos marcos de senal de referencia; y para determinar un valor de ponderacion dependiente de dicho valor de sonoridad de dicho marco de senal de referencia; en donde dicha unidad compensadora se conecta a dicha unidad de procesamiento, y esta ademas dispuesta para ponderar dicha funcion de diferencia utilizando el valor de ponderacion dependiente de la sonoridad recibida de dicha unidad de procesamiento.
Breve descripcion de los dibujos
La presente invencion se explica adicionalmente por medio de las realizaciones especlficas, con referencia a los dibujos incluidos, en donde:
La Figura 1 suministra una revision de una primera parte del modelo perceptivo POLQA en una realization de acuerdo con la invencion;
La Figura 2 suministra una revision ilustrativa del alineamiento de frecuencia utilizado en el modelo perceptivo POLQA en una realizacion de acuerdo con la invencion;
La Figura 3 suministra una revision de una segunda parte del modelo perceptivo POLQA que sigue la primera parte ilustrada en la Figura 1, en una realizacion de acuerdo con la invencion;
La Figura 4 es una revision de una tercera parte del modelo perceptivo POLQA en una realizacion de acuerdo con la invencion;
La Figura 5 es una revision esquematica de una aproximacion de enmascaramiento utilizada en el modelo POLQA en una realizacion de acuerdo con la invencion;
La Figura 6 es una ilustracion esquematica de la ponderacion dependiente de la sonoridad de la perturbacion de acuerdo con la invencion;
La Figura 7 es una ilustracion esquematica de una realizacion adicional de la ponderacion dependiente de la sonoridad de la perturbacion de acuerdo con la invencion.
Descripcion detallada
Modelo Perceptivo POLQA
5
10
15
20
25
30
35
40
45
50
55
60
65
La aproximacion basica del POLQA (ITU - T rec. P. 863) es la misma que se utilizo en el PESQ (ITU - T rec. P. 862), es decir, una senal de entrada de referencia y una senal de voz de salida degradada son mapeadas en una representacion interna utilizando un modelo de percepcion humana. La diferencia entre dos representaciones internas se utiliza por un modelo cognitivo para predecir la calidad de voz percibida de la senal degradada. Una importante nueva idea ejecutada en el POLQA es la aproximacion de idealizacion que retira los niveles bajos de ruido en la senal de entrada de referencia y optimiza el timbre. Cambios principales adicionales en el modelo perceptivo incluyen el modelamiento del impacto del nivel de reproduccion sobre la calidad percibida y una division principal en el procesamiento de los niveles bajo y alto de distorsion.
Una revision del modelo perceptivo utilizado en el POLQA es dado en la Fig. 1 a 4. La Fig. 1 suministra una primera parte del modelo perceptivo utilizado en el calculo de la representacion interna de la senal de entrada de referencia X(t) 3 y la senal Y(t) 5 de salida degradada. Ambos son escalados 17, 46 y las representaciones internas 13, 14 en terminos del tiempo de sonoridad de la altura tonal se calculan en el numero de etapas descritas adelante, despues de lo cual se calcula la funcion 12 de diferencia, indicada en la Fig. 1 con el operador 7 de calculo de diferencia. Se calculan dos diferentes sabores de la funcion de diferencia perceptiva, uno para la perturbacion total introducida por el sistema que utiliza los operadores 7 y 8 bajo prueba y uno para las partes agregadas de la perturbacion que utiliza los operadores 9 y 10. Este modela la asimetrla en impacto entre las degradaciones causadas por los componentes tiempo - frecuencia de omision de la senal de referencia comparada con las degradaciones originadas por la introduction de nuevos componentes de tiempo - frecuencia. En el POLQA ambos sabores se calculan en dos diferentes aproximaciones, una enfocada en el rango normal de degradaciones y una enfocada en las degradaciones fuertes que resultan en cuatro calculos de funcion de diferencia 7, 8, 9, y 10 indicados en la Fig. 1.
Para las senales de salida degradadas con alabeo 49 de dominio de frecuencia se utiliza un algoritmo 52 de alineacion dado en la Fig. 2. El procesamiento final para conseguir las calificaciones MOS - LQO se dan en la Fig. 3 y en la Fig. 4
El POLQA inicia con el calculo de algunas configuraciones constantes basicas despues de lo cual las densidades de potencia de altura tonal (potencia como funcion del tiempo y frecuencia) de referencia y degradada se derivan del tiempo y de las senales de tiempo alineadas con frecuencia. De las densidades de potencia de la altura tonal se derivan las representaciones internas de la referencia y degradadas en un numero de etapas. Adicionalmente estas densidades tambien se utilizan para derivar 40 los primeros tres indicadores de calidad POLQA para las distorsiones 41 de respuesta de frecuencia (FREQ), ruido 42 aditivo (RUIDO) y reverberaciones 43 ambientales (REVERB). Estos tres indicadores 41, 42 y 43 de calidad se calculan de manera separada del indicador de perturbacion principal con el fin de permitir un analisis de impacto balanceado en un amplio rango de diferentes tipos de distorsion. Estos indicadores tambien se pueden utilizar para un analisis mas detallado del tipo de degradaciones que fueron encontrados en la senal de voz que utiliza una aproximacion de descomposicion de la degradation.
Como se establecio cuatro diferentes variantes de las representaciones internas de las representaciones de referencia y degradadas se calculan en 7, 8, 9 y 10; dos variantes enfocadas en las perturbaciones para las distorsiones normales y grandes, y dos enfocadas en las perturbaciones agregadas para las distorsiones normales y grandes. Estas cuatro diferentes variantes 7, 8, 9 y 10 son las entradas para el calculo de las densidades de perturbacion final.
Las representaciones internas de la referencia 3 se denominan como representaciones ideales por que los niveles bajos de ruido en la referencia son retirados (etapa 33) y las distorsiones de timbre como se encuentran en la senal degradada que pueden haber resultado de un timbre no optimo de la referencia original de las grabaciones de la referencia original son parcialmente compensadas (etapa 35).
Las cuatro diferentes variantes de las representaciones ideal e interna degradada calculadas utilizando los operadores 7, 8, 9 y 10 se utilizan para calcular dos densidades 142 y 143, de perturbacion final, una que representa la perturbacion 142 final como una funcion del tiempo y la frecuencia enfocada en la degradacion total y una que representa la perturbacion 143 final como una funcion del tiempo y la frecuencia pero enfocadas en el procesamiento de la degradacion agregada.
La Fig. 4 da una revision del calculo del MOS- LQO, la calificacion MOS objetiva, de las dos densidades 142 y 143 de perturbacion final y los indicadores FREC. 41, RUIDO 42, REVERB 43.
Precomputo de las configuraciones constantes
Tamano de la Ventana FFT que Depende de la Frecuencia de la Muestra.
El POLQA opera sobre tres diferentes velocidades 8, 16 y 48 kHz de muestra diferentes que muestrea para cual tamano W de ventana se ajusta a respectivamente 256, 512 y 2048 muestras con el fin de hacer coincidir la ventana de analisis de tiempo del sistema de auditorio humano. El traslapo entre marcos sucesivos es el 50% utilizando una ventana Hann. El espectro de potencia, la suma de las partes reales cuadradas e imaginarias cuadradas de los componentes FFT complejos - se almacenan en disposiciones valoradas reales separadas para ambos, la senal de referencia y la degradada. La information de fase dentro del marco unico es descartada en POLQA y todos los calculos se basan en las representaciones de potencia, solamente.
5
10
15
20
25
30
35
40
45
50
55
60
65
Calculo del punto de partida parada.
En pruebas subjetivas, el ruido usualmente inicia antes de comenzar la actividad de voz en la senal de referencia. Sin embargo uno puede esperar que el ruido de estado constante llder en una prueba subjetiva disminuye el impacto del ruido de estado constante mientras que en mediciones objetivas que tienen en cuenta el ruido llder se incrementara el impacto; por lo tanto se espera que la omision de los ruidos llder y rezagado es la aproximacion perceptiva correcta. Por lo tanto, despues de haber verificado la expectativa en los datos de entrenamiento disponible, los puntos de partida y parada en el procesamiento POLQA se calculan desde el inicio y final del archivo de referencia. La suma de cinco valores de muestra absoluto sucesivos (utilizando el rango PCM de 16 bits normal +32.000) debe exceder 500 desde el inicio y el final del archivo de voz original con el fin de que esa posicion sea designada como partida o final. El intervalo entre esta partida y final se define como el intervalo de procesamiento activo. Las distorsiones por fuera de este intervalo se ignoran en el procesamiento POLQA.
El Factor de escalamiento de potencia y sonoridad SP y SL
Para calibracion del tiempo FFT a frecuencia se genera la transformacion de una onda sinusoidal con una frecuencia de 1000 Hz y una amplitud de 40 dB SPL, utilizando una calibracion de senal X (t) de referencia hacia 73 dB SPL. Esta onda sinusoidal es transformada al dominio de frecuencia utilizando una FFT con ventana en las etapas 18 y 49 con una longitud determinada por la frecuencia de muestra para X(t) y Y(t) respectivamente. Despues de convertir el eje de frecuencia a la escala Bark en 21 y 54 la amplitud pico de la densidad de potencia de la altura tonal resultante es luego normalizada a un valor de potencia de 104 por la multiplication con un factor de escalamiento de potencia SP 20 y 55 para X(t) y Y(t) respectivamente.
El mismo tono de referencia de 40 dB SPL se utiliza para calibrar la escala de sonoridad Sicoacustica (Sone). Despues de alabear el eje de intensidad a una escala de sonoridad que utiliza la ley de Zwicker la integral de la densidad de la sonoridad sobre la escala de frecuencia Bark se normaliza en 30 y 58 a 1 Sone utilizando el factor de escalamiento de sonoridad SL 31 y 59 para X(t) y Y(t) respectivamente.
Escalamiento y calculo de las densidades de potencia de altura tonal.
La senal Y(t) 5 degradada se multiplica por 46 mediante el factor C 47 de calibracion, que tiene en cuenta el mapeo de la sobrecarga dB en el dominio digital a dB SPL en el dominio acustico, y luego es transformado 49 al dominio de tiempo - frecuencia con 50% de marcos FFT traslapantes. La senal X(t) 3 de referencia es escalada 17 hacia el nivel optimo fijo predefinido de aproximadamente 73 dB SPL equivalente antes de que esta se transforme 18 al dominio de tiempo - frecuencia. Este procedimiento de calibracion es fundamentalmente diferente de aquel utilizado en PESQ donde tanto la degradada como la referencia son escaladas hacia un nivel optimo fijo predefinido. El PESQ presupone que todo desempeno llevado a cabo al mismo nivel de reproduction optima mientras que en el POLQA se utilizan niveles de pruebas subjetivas entre 20 dB a + 6 con relation al nivel optimo. En el modelo perceptivo POLQA uno puede as! no utilizar un escalamiento hacia un nivel optimo fijo predefinido.
Despues del nivel de escalamiento se transforman 18, 49 la senal de referencia y degradada al dominio de tiempo - frecuencia utilizando la aproximacion FFT con ventana. Para archivos donde el eje de la frecuencia de la senal degradada es alabeado cuando se compara con la senal de referencia un desalabeo en el dominio de frecuencia se lleva a cabo sobre los marcos FFT. En la primera etapa de este desalabeo tanto los espectros de potencia FFT de
referencia como el degradado se preprocesan para reducir la influencia de ambas distorsiones de respuesta de
frecuencia muy estrecha, as! como tambien las diferencias en forma espectral total sobre los siguientes calculos. El preprocesamiento 77 consiste en efectuar un promedio de ventana deslizante en 78 sobre ambos espectros de
potencia, tomando el algoritmo 79, y efectuando una normalization de la ventana de deslizamiento en 80. Luego las
alturas tonales de la referencia corriente y el marco degradado se computan utilizando un algoritmo de altura tonal subarmonico estocastico. La proportion 74 de la proportion de referencia de altura tonal degradada es luego utilizada para determinar (en la etapa 84) un rango de posibles factores de alabeo. Si es posible, este rango de busqueda se extiende al utilizar las proporciones de altura tonal para el par de marcos precedente y sucesivo.
El algoritmo de alineacion de frecuencia entonces se itera a traves del rango de busqueda y los alabeos 85 el espectro de potencia degradado con un factor de alabeo de la iteration corriente, y los procesos 88 del espectro de potencia alabeado tal como se describio anteriormente. La correlation de la referencia procesada y el espectro degradado alabeado procesado es luego computada (en la etapa 89) para receptaculos por debajo de 1500 Hz. Despues de completar la iteracion a traves del rango de busqueda, el “mejor” (es decir aquel que resulte en la correlacion mas alta) factor de alabeo es recuperado en la etapa 90. La correlacion de la referencia procesada y el mejor espectro degradado alabeado es luego comparada contra la correlacion de la referencia procesada original y el espectro degradado. El “mejor” factor de alabeo es luego mantenido 97 si la correlacion se incrementa un umbral establecido. Si es necesario, el factor de alabeo se limita en 98 a un cambio relativo maximo al factor de alabeo determinado para el par de marcos previos.
5
10
15
20
25
30
35
40
45
50
55
60
65
Despues del desalabeo que puede ser necesario para alinear el eje de frecuencia de referenda y degradado, la escala de frecuencia en Hz es alabeada en las etapas 21 y 54 hacia una escala de altura tonal en Bark que refleje que a bajas frecuencias, el sistema auditivo humano tiene una resolucion de frecuencia mas fina que a altas frecuencias. Esto se implementa al discretizar las bandas FFT y sumar las correspondientes potencias de las bandas FFT con una normalization de las partes sumadas. La funcion de alabeo que mapea la escala de frecuencia Hertz a la escala de altura tonal en Bark aproxima los valores dados en la literatura para este proposito, y que es conocida por el lector medianamente versado. La referencia resultante de las senales degradadas es conocida como las densidades de potencia de altura tonal PPX (f)n (no indicadas en la Fig. 1) y PPY(f)n 56 con f la frecuencia en Bark y el Indice n que representa el Indice de marco.
Computo de los marcos activo, silente y super silente de voz (etapa 25)
El POLQA opera en tres clases de marcos, que se distinguen en la etapa 25:
los marcos activos de voz donde el nivel de marco de la senal de referencia esta por encima de un nivel que es de aproximadamente 20 dB por debajo del promedio,
los marcos silentes donde el nivel de marco de la senal de referencia esta por debajo del nivel que es aproximadamente 20 dB por debajo del promedio y
los marcos super silente donde el nivel de marco de la senal de referencia esta por debajo del nivel que es de aproximadamente 35 dB por debajo del nivel promedio.
Calculo de los indicadores de frecuencia, ruido y reverberation.
El impacto global de las distorsiones de respuesta de frecuencia, ruido y reverberaciones ambientales se cuantifica separadamente en la etapa 40. Para el impacto de las distorsiones de respuesta de frecuencia global, se calcula un indicador 41 del espectro promedio de referencia y de las senales degradadas. Con el fin de hacer la estimation del impacto para las distorsiones de respuesta de frecuencia independientes del ruido aditivo, la densidad del espectro del ruido promedio del degradado sobre los marcos silentes de la senal de referencia se sustraen de la densidad de sonoridad de la altura tonal de la senal degradada. La densidad de la sonoridad de la altura tonal resultante de la densidad degradada y de la sonoridad de la altura tonal de la referencia son entonces promediados en cada banda Bark sobre todos los marcos activos de voz para el archivo de referencia y degradado. La diferencia en la densidad de sonoridad de la altura tonal entre estas dos densidades luego degradado sobre la altura tonal para derivar el indicador 41 para cuantificar el impacto de las distorsiones (FREC) de respuesta de frecuencia.
Para el impacto del ruido aditivo, se calcula un indicador 42 del espectro promedio de la senal degradada sobre los marcos silentes de la senal de referencia. La diferencia entre la densidad de sonoridad de la altura tonal promedio de los marcos degradados sobre los silentes y la densidad de sonoridad de la altura tonal de referencia cero determinan una funcion de la densidad de sonoridad de ruido que cuantifica el impacto del ruido aditivo. La funcion de densidad de sonoridad de ruido es luego integrada sobre la altura tonal para derivar un indicador 42 (RUIDO) de impacto de ruido promedio. Este indicador 42 es as! calculado de un silencio ideal de tal manera que una cadena trasparente que se mide utilizando una senal de referencia de ruido no suministrara la maxima calificacion MOS en las mediciones de calidad de voz de extremo a extremo POLQA finales.
Para el impacto de las reverberaciones ambientales, se calcula la funcion de energla sobre tiempo (ETC) proveniente de la serie de tiempo de referencia y degradadas. El ETC representa la cubierta de la respuesta de impulso. En una primera etapa la reflexion mas ruidosa se calcula al simplemente determinar el valor maximo de la curva ETC despues del sonido directo. En el sonido directo el modelo POLQA se define como los sonidos que llegan dentro de 60 ms. Luego una segunda reflexion mas ruidosa se determina sobre el intervalo sin el sonido directo y sin tener en cuenta las reflexiones que llegan dentro de los 100 ms desde la reflexion mas fuerte. Luego se determina la tercera reflexion mas fuerte sobre el intervalo sin el sonido directo y sin tener en cuenta las reflexiones que llegan dentro de los 100 ms desde la reflexion mas fuerte y la segunda mas fuerte. La energla de las tres reflexiones mas fuertes se combina entonces en un indicador 43 de reverberacion unica (REVERB).
Escalamiento global y local de la senal de referencia hacia la senal (etapa 26) degradada.
La senal de referencia esta ahora de acuerdo con la etapa 17 en el nivel ideal interno, es decir equivalente a aproximadamente 73 dB SPL, mientras que la senal degradada se representa a un nivel que coincide con el nivel de reproduction como resultado de 46. Antes de que se haga la comparacion entre la senal de referencia y la degradada las diferencias de nivel global se compensan en la etapa 26. Adicionalmente, pequenos cambios en el nivel local son parcialmente compensados para contar el hecho de que variaciones de nivel suficientemente pequenas no sean notorias a sujetos en una situation de solo escuchar. El igualamiento 26 de nivel global se lleva a cabo sobre la base de la potencia promedio de referencia y la senal degradada utilizando los componentes de frecuencia entre 400 y 3500 Hz. La senal de referencia es escalada globalmente hacia la senal degradada el impacto de la diferencia de nivel de reproduccion global es mantenida as! en este rango de procesamiento. De manera similar, para variar lentamente las
5
10
15
20
25
30
35
40
45
50
55
60
distorsiones de la ganancia se lleva a cabo un escalamiento local para cambios de nivel hasta de aproximadamente 3 dB utilizando el ancho de banda completo tanto del archivo de voz de referencia como el degradado.
Compensacion parcial de la densidad de potencia de la altura tonal original para las distorsiones (etapa 27) de respuesta de frecuencia lineal
Con el fin de modelar correctamente el impacto de las distorsiones de respuesta de la frecuencia lineal, inducidas por el filtrado del sistema bajo prueba, una aproximacion de compensacion parcial se utiliza en la etapa 27. Para modelar la imperceptibilidad de las distorsiones de respuesta de frecuencia lineal moderadas en las pruebas subjetivas, la senal de referencia es parcialmente filtrada con las caracterlsticas de transferencia del sistema bajo prueba. Esto se lleva a cabo al calcular el espectro de potencia promedio de las densidades de potencia de altura tonal original y degradada sobre todos los marcos activos de voz. Por receptaculo Bark, se calcula 27 un factor de compensacion parcial de la relacion del espectro degradado al espectro original.
Modelamiento de los efectos de enmascaramiento, calculo de la excitacion de densidad de la sonoridad de la altura tonal
El enmascaramiento es modelado en las etapas 30 y 58 al calcular una representacion remanente de las densidades de potencia de altura tonal. Tanto la remanencia del tiempo como el dominio de frecuencia son tomadas en cuenta de acuerdo con los principios ilustrados en la Fig. 5a a 5c. La remanencia del dominio de tiempo - frecuencia utiliza la aproximacion de convolucion. Para esta representacion remanente, las representaciones de la referencia y la densidad de potencia de altura tonal degradada se recalculan suprimiendo los componentes de tiempo - frecuencia de baja amplitud, que son parcialmente enmascarados por los componentes ruidosos en la vecindad en el plano de tiempo - frecuencia. Esta supresion se ejecuta de dos diferentes maneras, una sustraccion de la representacion remanente de la representacion no remanente y una division de la representacion no remanente por la presentacion remanente. Las representaciones resultantes claras de la densidad de potencia de la altura tonal son entonces transformadas a representaciones de densidad de sonoridad de altura tonal que utiliza una version modificada de la ley de potencia de Zwicker:
imagen1
f
0.5 + 0.5
k
pmj%
imagen2
Con SL el factor de escalamiento de sonoridad, P0(f) el umbral de escucha absoluto, fB y Pfn una correccion dependiente de la frecuencia y el nivel definido por
fB = -0.03* f + 1.06 para f <2.0 Bark
fB = 1.0 para 2.0 < f < 2.0 Bark
fB = -0.2* (f - 22.0) + 1.0 para > 22.0 Bark
Pfn = (PPX(f)n + 600)0008
Con f representando la frecuencia en Bark, PPX(f)n la densidad de potencia de altura tonal en la celda de tiempo de frecuencia f, n. Los dos arreglos dimensionales resultantes LX(f)n y LY(f)n son denominados densidades de sonoridad de altura tonal, en la salida de la etapa 30 para la senal X(t) de referencia y la etapa 58 de la senal Y(t) degradada respectivamente.
Supresion de ruido a nivel bajo global en las senales de referencia y degradadas.
Los niveles bajos de ruido en la senal de referencia, que no se afectan por el sistema bajo ensayo (por ejemplo un sistema transparente) se atribuiran al sistema bajo ensayo por los sujetos debido al procedimiento de prueba de calificacion de categorla absoluta. Estos niveles bajo de ruido tienen as! que ser suprimidos en el calculo de la representacion interna de la senal de referencia. Este “proceso de idealizacion” se lleva a cabo en la etapa 33 al calcular la densidad de sonoridad de ruido de estado constante promedio de la senal LX(f)n de referencia sobre los marcos super silentes como una funcion de la altura tonal. Esta densidad de sonoridad de ruido promedio es luego parcialmente sustralda de todos los marcos de densidad de sonoridad de altura tonal de la senal de referencia. El resultado es una representacion interna idealizada de la senal de referencia, a la salida de la etapa 33.
El ruido de estado estable que es audible en la senal degradada tiene un menor impacto que el ruido de estado no estable. Este mantiene todos los niveles de ruido y el impacto de este efecto se puede modelar al retirar parcialmente el ruido de estado estable proveniente de la senal degradada. Esto se lleva a cabo en la etapa 60 al calcular la densidad de sonoridad de ruido de estado estable promedio de los marcos de la senal LY(f)n degradada para los cuales los correspondientes marcos de la senal de referencia se clasifican como super silentes, como una funcion de la altura tonal. Esta densidad de sonoridad de ruido promedio es luego parcialmente sustralda de todos los marcos de densidad de sonoridad de altura tonal de la senal degradada. La compensacion parcial utiliza una estrategia diferente para bajos y altos niveles de ruido. Para los bajos niveles de ruido la compensacion es solamente marginal mientras que la supresion
5
10
15
20
25
30
35
40
45
50
55
60
65
que se utiliza se vuelve mas agresiva para el ruido aditivo fuerte. El resultado es una representacion 61 interna de la senal degradada con un ruido auditivo que se adapta al impacto subjetivo tal como se observa en las pruebas de escucha utilizando una representacion libre de ruido idealizada de la senal de referencia.
En la presente realizacion, en la etapa 33 anterior, ademas de efectuar la supresion de ruido a nivel bajo global, tambien el indicador 32 VOLUMEN se determina para cada uno de los marcos de senal de referencia, de acuerdo con la presente invencion. El indicador VOLUMEN o el valor VOLUMEN se utilizara para determinar un factor ponderado dependiente de la sonoridad para ponderar tipos especlficos de distorsiones. La ponderacion misma se puede implementar en las etapas 125 y 125' para cuatro representaciones de distorsiones suministradas por los operadores 7, 8, 9 y 10, luego de suministrar las densidades 142 y 143 de perturbacion final.
Aqul, el indicador de nivel de sonoridad se ha determinado en la etapa 33, pero uno puede apreciar que el indicador de nivel de sonoridad se puede determinar para cada marco de senal de referencia en otra parte del metodo. En la etapa 33 determinar el indicador de nivel de sonoridad es posible debido al hecho de que ya la densidad fuerte de ruido de estado estable promedio se determino para la senal LX(f)n de referencia de los marcos super silentes, que son entonces utilizados en la construccion de la senal de referencia libre de ruido para todos los marcos de referencia. Sin embargo, aunque es posible ejecutar este en la etapa 33, no es la manera mas preferida de ejecucion.
De manera alternativa, el indicador de nivel de sonoridad (VOLUMEN) se puede tomar de la senal de referencia en una etapa adicional que sigue a la etapa 35. Esta etapa adicional tambien se indica en la Figura 1 como una casilla 35' punteada con una salida 32' (VOLUMEN) de llnea punteada. Si se ejecuta all! en la etapa 35', ya no es necesario tomar el indicador de nivel de sonoridad de la etapa 33, como una persona medianamente versada lo pudiera apreciar.
Escalamiento local de la densidad de sonoridad de la altura tonal distorsionada para ganancia con variacion de tiempo entre la senal degradada y la de referencia (etapas 34 y 63)
Variaciones lentas en la ganancia son inaudibles y los pequenos cambios ya estan compensados para el calculo en la representacion de senal de referencia. La compensacion restante necesaria antes de que se pueda calcular la representacion interna correcta se lleva a cabo en dos etapas; primero la referencia es compensada en la etapa 34 para los niveles de senal donde la sonoridad de senal degradada es menor que la sonoridad de la senal de referencia, y segundo la degradada se compensa en la etapa 63 para los niveles de senal donde la sonoridad de la senal de referencia es menor que la sonoridad de la senal degradada.
La primera compensacion 34 escala la senal de referencia hacia un nivel inferior para las partes de la senal donde el degradado muestra una perdida severa de senal tal como en situaciones de recorte de tiempo. El escalamiento es tal que la diferencia restante entre la referencia y la degradada representa el impacto del recorte de tiempo en la calidad de voz percibida local. Las partes donde la sonoridad de la senal de referencia es menor que la sonoridad de la senal degradada no estan compensadas y as! el ruido aditivo y el recorte de ruido no se compensan en esta primera etapa.
La segunda compensacion 63 escala la senal degradada hacia un nivel inferior para las partes de la senal donde la senal degradada muestra pulsaciones y para las partes de la senal donde no existe ruido en los intervalos silentes. El escalamiento es tal que la diferencia restante entre la referencia y la degradada representa el impacto de las pulsaciones y cambia lentamente el ruido aditivo sobre la calidad de voz percibida local. Mientras que las pulsaciones son compensadas tanto en las partes activas silentes como de voz, el ruido es compensado solamente en las partes silentes.
Compensacion parcial de la densidad de sonoridad de la altura tonal original para distorsiones de respuesta de frecuencia lineal (etapa 35)
Las distorsiones de la respuesta de frecuencia lineal imperceptibles ya fueron compensadas al filtrar parcialmente la senal de referencia en el dominio de densidad de potencia de altura tonal en la etapa 27. Con el fin de corregir adicionalmente el hecho de que las distorsiones lineales son menos inaceptables que las distorsiones no lineales, la senal de referencia es ahora parcialmente filtrada en la etapa 35 en el dominio de sonoridad de altura tonal. Esto se lleva a cabo al calcular el espectro de sonoridad promedio en las densidades original y de sonoridad de altura tonal degradadas sobre todos los marcos activos de voz. Para el receptaculo Bark, se calcula un factor de compensacion parcial de la relacion del espectro de sonoridad degradado al espectro de sonoridad original. Este factor de compensacion parcial se utiliza para filtrar la senal de referencia con una version suavizada, de menor amplitud de la respuesta de frecuencia del sistema bajo ensayo. Despues de este filtrado, la diferencia entre las densidades de sonoridad de altura tonal de referencia y degradada que resultan de las distorsiones de respuesta de frecuencia lineal se disminuye a un nivel que representa el impacto de las distorsiones de la respuesta de frecuencia lineal sobre la calidad de voz percibida.
Escalamiento final y supresion de ruido de la densidad de sonoridad de altura tonal
Hasta este punto todos los calculos sobre las senales son llevados a cabo a nivel de reproduccion como se utiliza en el experimento subjetivo. Para los niveles bajos de reproduccion, este dara como resultado una diferencia baja entre las
5
10
15
20
25
30
35
40
45
50
55
60
65
densidades de sonoridad de altura tonal de referenda y degradadas y en general en una estimacion demasiado optimista de la calidad de voz que se escucha. Con el fin de compensar este efecto la senal degradada es ahora escalada hacia un nivel interno fijo “virtual” en la etapa 64. Despues de este escalamiento, la senal de referencia es escalada en la etapa 36 hacia el nivel de senal degradado y tanto la senal de referencia como la degradada estan listas para una operacion de supresion de ruido final entre 37 y 65 respectivamente. Esta supresion de ruido tiene cuidado de las ultimas partes de los niveles de ruido de estado atable en el dominio de sonoridad que aun tiene gran impacto en el calculo de la calidad de voz. Las senales 13 y 14 resultantes son ahora un dominio de representacion interna relevante perceptivo y de la altura tonal - sonoridad - tiempo ideal LXideal(f)n 13 y de la altura tonal - sonoridad - tiempo LYdeg(f)n degradado 14 se pueden calcular las densidades 142 y 143 de perturbacion. Cuatro diferentes variantes de las funciones de altura tonal - sonoridad - tiempo ideal y degradada se calculan en 7, 8, 9 y 10, dos variantes, (7 y 8) enfocadas en las perturbaciones para las distorsiones normales y grandes, y dos (9 y 10) enfocadas en las perturbaciones agregadas para las distorsiones normales y grandes.
Calculo de las densidades de perturbacion final
Se calculan dos diferentes sabores de las densidades 142 y 143 de perturbacion. La primera, la densidad de perturbacion normal, se deriva en 7 y 8 de la diferencia entre la funcion de altura tonal - sonoridad - tiempo LXideal(f)n ideal y la funcion de altura tonal - sonoridad - tiempo degradado LYdeg(f)n . La segunda se deriva en 9 y 10 de la funcion de altura tonal - sonoridad - tiempo ideal y altura tonal- sonoridad - tiempo degradado utilizando versiones que se optimizan con relacion a las degradaciones introducidas y que se denominan perturbaciones agregadas. En este calculo de la perturbacion agregada, las partes de senal donde la densidad de potencia degradada es mayor que la densidad de potencia de referencia son ponderadas con un factor dependiente de la proportion o de la relacion de potencia en cada celda de altura tonal - tiempo, el factor de asimetrla.
Para poder tratar con un rango grande de distorsiones se llevan a cabo dos diferentes versiones de procesamiento, una enfocada en distorsiones pequenas a medias basadas en 7 y 9 y una enfocada en distorsiones medias a grandes basadas en 8 y 10. La conmutacion entre las dos se lleva a cabo sobre la base de una primera estimacion de la perturbacion enfocada en un nivel pequeno a medio de las distorsiones. Esta aproximacion de procesamiento conduce a la necesidad de calcular cuatro diferentes funciones de altura tonal - sonoridad - tiempo ideales y cuatro diferentes funciones de altura tonal - sonoridad - tiempo degradadas con el fin de poder calcular una perturbacion unica y una funcion de perturbacion agregada unica (ver Fig. 3) que son entonces compensadas por un numero de diferentes tipos de cantidades severas de distorsiones especlficas.
Las desviaciones severas del nivel de escucha optimo estan cuantificadas en 127 y 127' por un indicador directamente derivado del nivel de senal de la senal degradada. Este indicador (LEVEL) global tambien se utiliza en el calculo de MOS - LQO.
Las distorsiones severas introducidas por las repeticiones de los marcos se cuantifican 128 y 128' mediante un indicador derivado de una comparacion de la correlation de los marcos consecutivos de la senal de referencia con la correlation de los marcos consecutivos de la senal degradada.
Las desviaciones severas del timbre “ideal” optimo de la senal degradada se cuantifican 129 y 129' por un indicador derivado de la proporcion de la sonoridad de la banda de frecuencia superior y la sonoridad de la banda de frecuencia inferior. Las compensaciones se llevan a cabo por marco y a nivel global. Esta compensation calcula la potencia en las bandas Bark inferior y superior (por debajo de 12 y por encima de 7 Bark, es decir, utilizando un traslapo de 5 Bark) de la senal degradada y “castiga” cualquier desbalance severo sin importar el hecho de que este pudiera ser el resultado de un timbre de voz incorrecto del archivo de voz de referencia. Notese que una cadena transparente que utiliza senales de referencia pobremente registradas, que contienen demasiado ruido y/o un timbre de voz incorrecto, no suministraran as! la calificacion MOS maxima en una medicion de calidad de voz extremo a extremo POLQA. Esta compensacion tambien tiene un impacto cuando se mide la calidad de los dispositivos que son transparentes. Cuando se utilizan senales de referencia que muestran una desviacion significativa del timbre “ideal” optimo del sistema bajo ensayo se juzgaran como no transparentes aun si el sistema no introduce ninguna degradation en la senal de referencia.
El impacto de los picos severos en la perturbacion se cuantifica en 130 y 130' en el indicador APLANADO que tambien se utiliza en el calculo del MOS- LQO.
Las variaciones de nivel de ruido severas que enfocan la atencion de los sujetos hacia el ruido se cuantifican en 131 y 131' mediante un indicador de contraste de ruido derivado de las partes silentes de la senal de referencia.
En las etapas 133 y 133', de acuerdo con la invention, se efectua una operacion de ponderacion para ponderar las perturbaciones dependientes de si ellas coinciden o no con la voz hablada real. Con el fin de evaluar la inteligibilidad de la senal degradada, las perturbaciones que son percibidas durante periodos silentes no se consideran como de detrimento en la medida en que las perturbaciones son percibidas durante la voz hablada real. Por lo tanto, de acuerdo con la invencion, con base en el indicador VOLUMEN determinado en la etapa 33 (o en la etapa 35' en la realization alternativa) proveniente de la senal de referencia, se determina un valor de ponderacion para ponderar cualquier perturbacion. El valor de ponderacion se utiliza para ponderar la funcion de diferencia (es decir perturbaciones) para
5
10
15
20
25
30
35
40
45
50
55
incorporar el impacto de las perturbaciones sobre la inteligibilidad de la senal de voz degradada en la evaluacion. En particular, en razon a que el valor de ponderacion se determina con base en el indicador de VOLUMEN, el valor de ponderacion se puede representar mediante una funcion dependiente de la sonoridad. En la presente realizacion, el valor de ponderacion dependiente de la sonoridad se determina al comparar el valor de ponderacion a un umbral. Si el indicador de sonoridad excede el umbral las perturbaciones percibidas son tomadas completamente en consideracion cuando se efectua la evaluacion. De otro lado, si el valor de sonoridad es mas pequeno que el umbral, el valor de ponderacion se hace dependiente del indicador del nivel de sonoridad; es decir, en la realizacion presente el valor de ponderacion es igual a el indicador del nivel de sonoridad (en el regimen donde VOLUMEN esta por debajo del umbral). La ventaja es que para las partes debiles de la senal de voz, por ejemplo, en los extremos de las palabras habladas justo antes de una pausa o silencio, las perturbaciones son tomadas parcialmente en cuenta por tener efectos de detrimentos sobre la inteligibilidad. Como un ejemplo, uno puede apreciar que una cierta cantidad de ruido percibido mientras se pronuncia la letra “f” al final de una palabra, puede originar que el receptor perciba esto como la letra “s”. Esto puede ir en detrimento de la inteligibilidad. De otro lado, las personas expertas pueden apreciar que tambien es posible (en una diferente realizacion) simplemente no tener en cuenta cualquier ruido durante el silencio o pausas, al cambiar el valor de ponderacion a cero cuando el valor de sonoridad esta por debajo del umbral anteriormente mencionado. El metodo de ponderar la perturbacion de una manera dependiente de la sonoridad esta ademas descrito adelante en relacion con la Figura 6.
Adicionalmente a lo anterior el metodo propuesto puede ademas ser extendido para tener en cuenta el hecho de que las perturbaciones que son percibidas durante la pronunciacion de las vocales en una senal de voz no tienen efecto de detrimento en la medida en que las perturbaciones que no tienen detrimento como las perturbaciones que son percibidas durante las consonantes. El analisis de la cubierta de potencia de la senal de voz revela que generalmente, la sonoridad de la senal durante la pronunciacion de las vocales representa un maximo local, mientras que durante la pronunciacion de las consonantes la sonoridad esta usualmente a un nivel intermedio. Las perturbaciones durante la pronunciacion de una consonante tienen mas impacto sobre la inteligibilidad de la voz que las perturbaciones durante las vocales donde la potencia de senal es suficientemente fuerte para que el observador identifique la vocal. Por lo tanto, como una mejora adicional, el valor de sonoridad se puede comparar con dos umbrales. La comparacion de la sonoridad con el primer umbral hara que el sistema opere como se indico anteriormente; es decir, la sonoridad esta por debajo del primer umbral haciendo mas pequeno el valor de ponderacion que un valor maximo y dependiente de la sonoridad, mientras que exceder el primer umbral origina que el valor de ponderacion se establezca al maximo (por ejemplo 1.0 para tener en cuenta completamente la perturbacion). La comparacion de la sonoridad con el segundo umbral hara que el sistema opere como sigue. Si la sonoridad esta por debajo del segundo umbral, el valor de ponderacion sera mas pequeno que el valor maximo y dependiente de la sonoridad. Si la sonoridad excede el primer umbral, el valor de ponderacion se ajusta a un valor maximo. Esta realizacion del metodo de ponderar la perturbacion se ilustra en la Figura 7.
Procediendo de nuevo con la Figura 3, se detectan severos saltos en el alineamiento y el impacto se cuantifica en las etapas 136 y 136' mediante un factor de compensacion.
Finalmente, la perturbacion y las densidades de perturbacion agregadas son recortadas en 137 y 137' a un nivel maximo y la varianza de la perturbacion 138 y 138' y el impacto de los saltos 140 y 140' en la sonoridad de la senal de referencia se utilizan para compensar las estructuras de tiempo especlfica de las perturbaciones.
Esto produce la densidad de perturbacion final de D(f)n 142 para la perturbacion regular y la densidad DA(f)n 143 de perturbacion final para la perturbacion agregada.
Agregacion de la perturbacion sobre la altura tonal, los acelerones y el tiempo, mapeando la calificacion MOS intermedia
La perturbacion final D(f)n 142 y las densidades de perturbacion DA(f)n agregadas 143 son integradas por marco sobre el eje de altura tonal que resulta en dos diferentes perturbaciones por marco, una derivada de la perturbacion y una derivada de la perturbacion agregada, utilizando la integracion 153 y 159 L1 (ver Fig. 4):
’l, = V «(./•),.. I w,
f=l,...Nwnero de bandaz Bark
DA„ = 2 I
f= l.—Nwnero de bandas Bark
Con Wf una serie de constantes proporcionales al ancho de los receptaculos Bark.
Luego estas dos perturbaciones por marco son promediadas sobre los acelerones de voz de seis marcos consecutivos con un L4 155 y un L1 160 ponderado para la perturbacion y para la perturbacion agregada, respectivamente.
5
10
15
20
25
30
35
40
45
50
imagen3
Finalmente, la perturbacion y la perturbacion agregada se calculan por archivo del L2 156 y 161 promediando durante el tiempo
imagen4
La perturbacion agregada se compensa en la etapa 161 para reverberaciones fuertes y ruido auditivo fuerte utilizando los indicadores REVERB 42 y RUIDO 43. Las dos perturbaciones son entonces combinadas 170 con un indicador 41 (FREC) de frecuencia para derivar un indicador interno que esta linealizado con el tercer orden de regresion polinomial para conseguir un MOS como el indicador 171 intermedio.
Computacion del POLQA MOS- LQO Final
La calificacion POLQA bruta se deriva del MOS como un indicador intermedio que utiliza cuatro diferentes compensaciones todas en la etapa 175:
Dos compensaciones para las caracterlsticas de tiempo- frecuencia especlficas de la perturbacion, una calculada con una agregacion L511 sobre la frecuencia 148, acelerones 149 y tiempo 150, y uno calculado con una agregacion L313 sobre la frecuencia 145, acelerones 146 y el tiempo 147.
Una compensacion para niveles de representacion muy bajo que utilizan el indicador de NIVEL. una compensacion para distorsiones de timbre grandes utilizando el indicador de APLANADO
El entrenamiento de este mapeo se lleva a cabo en un conjunto grande de degradaciones, que incluye las degradaciones que no fueron parte del punto de referencia POLQA. Estas calificaciones MOS brutas 176 son en la mayor parte ya linealizadas por el tercer mapeo polinomial de orden utilizado en el calculo del MOS como el indicador 171 intermedio.
Finalmente las calificaciones 176 POLQA MOS brutas se mapean en 180 hacia las calificaciones 181 MOS- LQO utilizando un tercer orden polinomial que se optimiza para las 62 bases de datos como estaban disponibles al final de la etapa de la estandarizacion POLQA. En el modo de banda estrecha la maxima calificacion POLQA MOS- LQO es 4.5 mientras que en el modo de super ancho de banda este punto es de 4.75. Una consecuencia importante del proceso de idealizacion es que bajo algunas circunstancias, cuando la senal de referencia contiene ruido o cuando el timbre de voz se distorsiona severamente, una cadena transparente no suministrara la calificacion MOS maxima de 4.5 en el modo de ancho de banda de 4,75 en el modo super ancho de banda.
La Fig. 6 ilustra una revision de un metodo de ponderacion de la perturbacion o ruido con respecto al valor de sonoridad de acuerdo con la presente invencion. Aunque el metodo como se ilustro en la Figura 6 solo se enfoca en las partes relevantes que se relacionan con determinar el valor de sonoridad y efectuar la ponderacion de las perturbaciones, se apreciara que este metodo se puede incorporar como parte de un metodo de evaluacion como se describio en este documento, o una alternativa de este.
En la etapa 222, se determina un valor de sonoridad para cada marco de la senal 220 de referencia. Esta etapa se puede implementar en la etapa 33 de la Figura 1, o como se describio anteriormente en la etapa 35' tambien descrita en la Figura 1 como una alternativa preferida. La persona experta puede apreciar que el valor de sonoridad se puede determinar de alguna otra manera en el metodo, siempre y cuando el valor de sonoridad este disponible a tiempo al efectuar la ponderacion.
En la etapa 225, el valor de sonoridad determinado en la etapa 222 se compara con un umbral 226. El resultado de esta comparacion puede ser que el valor de sonoridad sea mayor que el umbral 226, en cuyo caso el metodo por via de 228;
5
10
15
20
25
30
35
40
45
50
55
60
65
o que el valor de sonoridad puede ser mas pequeno que el umbral 226, en cuyo caso el metodo continua hasta la senda 231.
Si el valor de sonoridad es mayor que el umbral (senda 228) en la etapa 230 se determina el factor de ponderacion dependiente de la sonoridad. En la presente realizacion, el factor de ponderacion se ajusta a 1.0 con el fin de tener completamente en cuenta la perturbacion y la senal degradada. La persona experta apreciara que la situacion donde el valor de sonoridad es mayor que el umbral corresponde a la senal de voz que lleva information en el tiempo presente (el marco de senal de referencia coincide con las palabras reales que son habladas). La invention no esta limitada al factor de ponderacion de 1.0 en la situacion anteriormente mencionada; la persona experta puede optar por utilizar cualquier otro valor o dependencia considerada adecuada para una situacion dada. La invencion primariamente se enfoca en hacer una distincion entre las perturbaciones encontradas durante el habla y las perturbaciones encontradas durante (casi) los periodos silentes, al tratar las perturbaciones de manera diferente en ambos reglmenes.
En el caso en que el valor de la sonoridad sea menor que el umbral y el metodo continua a la senda 231, en la etapa 233 el valor de ponderacion se determina al establecer el factor de ponderacion por ser dependiente sobre el valor de sonoridad. Se han experimentado buenos resultados al utilizar directamente el valor de sonoridad como un factor de ponderacion. Sin embargo se puede aplicar cualquier dependencia adecuada, es decir, lineal, cuadratica, una polinomial o cualquier orden adecuado, u otra dependencia. El factor de ponderacion debe ser mas pequeno de 1.0 como se apreciara.
Como una alternativa al factor de ponderacion dependiente de la sonoridad descrita, tambien es posible incluir una dependencia de frecuencia de la sonoridad en el metodo de la presente invencion. En ese caso, el factor de ponderacion no solo sera dependiente de la sonoridad, sino tambien de la frecuencia de la perturbacion en la senal de voz.
El factor de ponderacion determinado en una de las etapas 230 y 233 se utiliza como un valor 235 de entrada para ponderar la importancia de las perturbaciones en la etapa 240 como una funcion de si o no la senal degradada lleva de hecho voz hablada en el presente marco. En la etapa 240, la senal 238 de diferencia es recibida y se aplica el factor 235 de ponderacion para suministrar la salida deseada (OUT).
La Fig. 7 ilustra una revision de una realizacion adicional de un metodo de ponderar la perturbacion o ruido con respecto al valor de sonoridad de acuerdo con la presente invencion. En vista de las similitudes entre las Figuras 6 y 7, en la Figura 7 se han utilizado los mismos signos de referencia que en la Figura 6 para los elementos y etapas del metodo que son similares o equivalentes al metodo descrito en la Figura 6. De nuevo, el metodo como se ilustra en la Figura 7 solo se enfoca en las partes relevantes que se relacionan con determinar el valor de la sonoridad y efectuar la ponderacion de las perturbaciones, pero se apreciara que este metodo se puede incorporar como parte de un metodo de evaluation como se describio en este documento, o una alternativa de este.
En la etapa 222, el valor de sonoridad se determina para cada marco de la senal 220 de referencia. Esta etapa se puede ejecutar en la etapa 33 de la Figura 1, o como se describio anteriormente en la etapa 35' tambien descrita en la Figura 1 como una alternativa preferida. La persona experta puede apreciar que el valor de sonoridad se puede determinar en alguna otra parte en el metodo, siempre y cuando el valor de sonoridad este disponible a tiempo al efectuar la ponderacion.
En la etapa 225, el valor de sonoridad determinado en la etapa 222 se compara con un primer umbral 226. El resultado de esta comparacion puede ser que el valor de sonoridad sea mayor que el primer umbral 226, en cuyo caso el metodo continuado por via del 228; o que el valor de sonoridad sea mas pequeno que el primer umbral 226, en cuyo caso el metodo continua a traves de la senda 231.
Si el valor de sonoridad es mayor que el primer umbral (senda 228), en la etapa 242, el valor de sonoridad se compara con un segundo umbral 243, el segundo umbral 243 es mayor que el primer umbral 226. El resultado de esta comparacion puede ser que el valor de sonoridad sea mayor que el segundo umbral 243, en cuyo caso el metodo continua por via de 245; o que el valor de sonoridad pueda ser mas pequeno que el umbral 243, en cuyo caso el metodo continua a la senda 248.
Si el valor de sonoridad es mas pequeno que el segundo umbral 243 (senda 248), en la etapa 249 se determina el factor de ponderacion dependiente de la sonoridad. En la presente realizacion, el factor de ponderacion se ajusta a 1.0 (un valor maximo) con el fin de tomar en cuenta completamente la perturbacion en la senal degradada. La persona experta apreciara que la situacion donde el valor de sonoridad es mayor que el umbral corresponde a la senal de voz durante la pronunciation de una vocal; es decir, un maximo local en la envoltura de potencia. La invencion esta limitada al factor de ponderacion de 1.0 en la situacion anteriormente mencionada; la persona experta puede optar por utilizar cualquier otro valor o dependencia considerada adecuada para una situacion dada. En esta realizacion, la invencion se enfoca en hacer una distincion entre las perturbaciones encontradas durante la voz y las perturbaciones encontradas durante (casi) los periodos silentes. Mas aun, cuando la perturbacion es encontrada durante la voz, esta realizacion se enfoca ademas en hacer una distincion entre la perturbacion encontrada durante la pronunciacion de las vocales y las
5
10
15
20
25
30
35
40
45
50
55
60
65
perturbaciones encontradas durante la pronunciacion de las consonantes. Las perturbaciones son tratadas de manera diferente en cada uno de estos reglmenes.
En caso de que el valor de sonoridad sea mayor que el segundo umbral 243 y el metodo continua hasta la senda 245, la etapa 246 se determina el valor de ponderacion al ajustar el factor de ponderacion como siendo dependiente del valor de sonoridad. Se han experimentado buenos resultados al hacer el factor de ponderacion dependiente de la siguiente manera:
Valor de ponderacion = (sonoridad -segundo umbral + 1.0)'1+*q
En donde el factor q de potencia se puede igualar a cualquier valor deseado. Se obtuvieron buenos resultados con q = 0,3
En lugar de la relacion anterior, cualquier dependencia adecuada se puede aplicar, es decir, lineal, cuadratica, polinomial o cualquier orden adecuado, u otra dependencia. El factor de ponderacion puede ser mas pequeno que el valor maximo 1.0 como se apreciara.
Como una alternativa al factor de ponderacion dependiente de la sonoridad descrito anteriormente, tambien es posible incluir la dependencia de la frecuencia de la sonoridad en el metodo de la presente invencion. En ese caso, el factor de ponderacion no sera dependiente de la sonoridad, sino tambien de la frecuencia de la perturbacion en la senal de voz.
El factor de ponderacion determinado en una de las etapas 233, 246 o 249 se utiliza como un valor 235 de entrada para ponderar la importancia de las perturbaciones en la etapa 240 como una funcion de si o no la senal degradada realmente lleva voz hablada en el presente marco. En la etapa 240, se recibe la senal 238 de diferencia y se aplica el factor 235 de ponderacion para suministrar la salida (OUT) deseada. La invencion se puede practicar de manera diferente que la especlficamente descrita aqul, y el alcance de la invencion esta limitado a las realizaciones especificas descritas anteriormente y a los dibujos anexos, sino que puede variar dentro del alcance como se define en las reivindicaciones anexas.
Signos de referencia
3 senal X(t) referencia 5 senal Y(t) degradada, amplitud-tiempo
7 calculo de diferencia
8 primer variante de calculo de diferencia
9 segunda variante de calculo de diferencia
10 tercer variante de calculo de diferencia
12 senal de diferencia
13 altura tonal-sonoridad-tiempo LXideal(f)n ideal interna
14 altura tonal-sonoridad-tiempo LYdeg(f)n degradado interno
17 escalamiento global hacia el nivel fijo
18 FFT de ventana
20 factor de escalamiento SP
21 alabeo a Bark
25 detecciones de marco (super) silente
26 escalamiento global & local a nivel degradado
27 compensacion de frecuencia parcial
30 excitacion y alabeo a sone
31 factor SL de escalamiento de umbral absoluto
32 VOLUMEN
32' VOLUMEN (determinado de acuerdo a la etapa 35' alternativa)
33 supresion de ruido a nivel bajo global
34 escalamiento local si Y<X
35 compensacion de frecuencia parcial 35' (alternativa) determinar sonoridad
36 escalamientos hacia nivel degradado
37 supresion de ruido a nivel bajo global
40 indicadores FREC RUIDO REVERB
41 indicador FREC
42 indicador RUIDO
43 indicador REVERB
44 indicador PW_Rtotal (relacion de potencia audio total entre senal de grad. Y senal de ref.)
45 indicador PW_Rmarco (por relacion de potencia de audio de marco entre la senal de grad. y ref.)
46 escalamientos a nivel de reproduccion
47 factor C de calibracion 49 FFT de ventana
5
10
15
20
25
30
35
40
45
50
55
60
65
52 alineacion de frecuencia
54 alabeo a Bark
55 factor SP de escalamiento
56 altura tonal-potencia-tiempo PPY(f)n de senal degradada
58 excitacion y alabeo a sone
59 factor SL de escalamiento de umbral absoluto
60 supresion de ruido a nivel alto global
61 altura tonal-sonoridad-tiempo de senal degradada
63 escalamiento local si Y>X
64 escalamiento hacia el nivel interno fijo
65 supresion de ruido a nivel alto global 70 espectro de referencia
72 espectro degradado
74 relacion de altura tonal de ref. y deg. del marco corriente y +/-1 circundante
77 preprocesamiento
78 picos y caldos estrechas alisadas en el espectro FFT
79 tomar log del espectro, aplicar umbral para intensidad minima
80 forma del espectro log total aplanado utilizando ventana de deslizamiento 83 ciclo de optimizacion
84 rango de factores de alabeo: relacion de altura tonal min < = 1 < = relacion altura tonal max
85 espectro degradado de alabeo
88 aplicar preprocesamiento
89 computar correlation del espectro para receptaculos < 1500Hz
90 seguir el mejor factor de alabeo
93 espectro degradado de alabeo
94 aplicar preprocesamiento
95 computar correlacion para espectro para receptaculo < 3000Hz
97 mantener el espectro degradado alabeado si la correlacion es suficiente para reestablecer el original de otra manera
98 limitar el cambio del factor de alabeo de un marco al siguiente
100 regular ideal
101 regular degradado
104 distorsiones grandes ideales
105 distorsiones grandes degradadas
108 agregado ideal
109 agregado degradado
112 distorsiones grandes agregadas ideales
113 distorsiones grandes agregadas degradadas
116 selection regular de densidad de perturbation
117 seleccion de distorsiones grandes de densidad de perturbacion
119 seleccion de densidad de perturbacion agregada
120 seleccion de distorsiones grandes de densidad de perturbacion agregada
121 entrada de PW_Rtotal a la funcion 123 de conmutacion
122 entradas PW_Rmarco a funcion 123 de conmutacion
123 decision de distorsion grande (conmutacion)
125 factores de correction para cantidades severas de distorsiones especlficas 125' factores de correccion para cantidades severas de distorsiones especificas
127 nivel 127'nivel
128 repetition de marco 128'repeticion de marco
129 timbre 129' timbre
130 aplanado espectral 130’ aplanado espectral
131 contraste de ruido en periodo silente 131’ contraste de ruido en periodo silente
133 ponderacion de perturbacion de pendiente de sonoridad 133’ ponderacion de perturbacion de pendiente de sonoridad
134 sonoridad de la senal de referencia 134’ sonoridad de la senal de referencia
136 alinear saltos 136’ alinear saltos
137 recorte a degradation maxima 137’ recorte a degradacion maxima
138 varianza de perturbacion 138’ varianza de perturbacion 140 saltos de sonoridad
5
10
15
20
25
30
35
40
45
50
140' saltos de sonoridad
142 densidad de D(f)n de perturbacion final
143 densidad de DA(f)n de perturbacion agregada final
145 integration de frecuencia L3
146 integracion de aceleron L1
147 integracion de tiempo L3
148 integracion de frecuencia L5
149 integracion de aceleron L1
150 integracion de tiempo L1 153 integracion de frecuencia L1
155 integracion de aceleron L4
156 integracion de tiempo L2
159 integracion de frecuencia L1
160 integracion de aceleron L1
161 integracion de tiempo L2
170 mapeo a calificacion MOS intermedia
171 MOS como indicador intermedio
175 compensaciones de escala MOS
176 calificaciones MOS bruta
180 mapeo a MOS-LQO
181 MOS LQO
185 intensidad sobre el tiempo para un tono sinusoidal corto
187 tono sinusoidal corto
188 umbral de enmascaramiento para un segundo tono sinusoidal corto 195 intensidad sobre frecuencia para tono sinusoidal corto
198 tono sinusoidal corto
199 hacer umbral para un segundo tono sinusoidal corto 205 intensidad sobre frecuencia y tiempo en grafica 3D
211 umbral de enmascaramiento utilizado como resistencia a la supresion que conduce a una representation interna aguda
220 marcos de senal de referencia 222 determinar VOLUMEN
225 comparar VOLUMEN con UMBRAL
226 (PRIMER) UMBRAL 228 VOLUMEN > UMBRAL
230 FACTOR DE PONDERACION = 1,0
231 VOLUMEN < UMBRAL
233 FACTOR DE PONDERACION lineal dependiente de VOLUMEN 235 determinar valor para VALOR DE PONDERACION 238 senal de diferencia perturbacion 240 etapa de ponderacion de perturbacion
242 comparar VOLUMEN con SEGUNDO UMBRAL
243 SEGUNDO UMBRAL
245 VOLUMEN > SEGUNDO UMBRAL
246 FACTOR DE PONDERACION lineal dependiente de VOLUMEN, por ejemplo:
VALOR DE PONDERACION = (VOLUMEN-20. UMBRAL+1.0)-1Q
Donde q puede ser igual a 0,3.
248 VOLUMEN < SEGUNDO UMBRAL
249 FACTOR DE PONDERACION = 1,0

Claims (15)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    Reivindicaciones
    1. Metodo para evaluar la inteligibilidad de una senal de voz degradada recibida de un sistema de transmision de audio, al transportar a traves de dicho sistema de transmision de audio una senal de voz de referencia tal como para suministrar dicha senal de voz degradada, en donde el metodo comprende:
    -muestrear dicha senal de voz de referencia en una pluralidad de marcos de senal de referencia y determinar para cada marco una representacion de senal de referencia;
    -muestrear dicha senal de voz degradada en una pluralidad de marcos de senal degradados y determinar para cada marco una representacion de senal degradada;
    -formar pares de marco al asociar dichos marcos de senal de referencia y dichos marcos de senal degradada el uno con el otro, y suministrar para cada par de marcos una funcion de diferencia que representa una diferencia entre dicho marco de senal degradada y dicho marco de senal de referencia asociado;
    el metodo se caracteriza por:
    -compensar dicha funcion de diferencia para uno o mas tipos de perturbacion tal como suministrar para cada par de marcos una funcion de densidad de perturbacion que se adapta a un modelo de percepcion de auditorio humano;
    -derivar desde dichas funciones de densidad de perturbacion de una pluralidad de pares de marco un parametro de calidad total, dicho parametro de calidad es al menos significativo de dicha inteligibilidad de dicha senal de voz degradada;
    -en donde, dicho metodo comprende ademas las etapas de:
    determinar el valor de sonoridad para cada uno de dichos marcos de senal de referencia; y
    -determinar el valor de ponderacion dependiente de dicho valor de sonoridad de dicho marco de senal de referencia; donde dicha etapa de compensar dicha funcion de diferencia comprende una etapa de ponderar
    dicha funcion de diferencia utilizando dicho valor de ponderacion dependiente de sonoridad, para incorporar un impacto de perturbacion sobre dicha inteligibilidad de dicha senal de voz degradada en dicha evaluacion.
  2. 2. Metodo de acuerdo a la reivindicacion 1, en donde para determinar dicho valor de ponderacion dependientes de sonoridad, dicho metodo comprende la etapa de comparar dicho valor de sonoridad con un primer umbral, y hacer dicho valor de ponderacion dependiente si el valor de sonoridad excede dicho primer umbral.
  3. 3. Metodo de acuerdo a la reivindicacion 2, que comprende ademas fijar dicho valor de ponderacion a un valor maximo cuando dicho valor de sonoridad para dicho marco de senal de referencia excede dicho primer umbral.
  4. 4. Metodo de acuerdo a cualquiera de las reivindicaciones 2 o 3, en donde dicho valor de ponderacion se hace mas pequeno que un valor maximo y dependiente de dicho valor de sonoridad cuando dicho valor de sonoridad para dicho marco de senal de referencia es mas pequeno que dicho primer umbral.
  5. 5. Metodo de acuerdo a la reivindicacion 4, en donde dicho valor de ponderacion se hace igual a dicho valor de sonoridad cuando dicho valor de sonoridad para dicho marco de senal de referencia es mas pequeno que dicho primer umbral.
  6. 6. Metodo de acuerdo a una cualquiera de las reivindicaciones previas, en donde para determinar dicho valor de ponderacion dependiente de sonoridad, el metodo comprende una etapa de comparar el valor de sonoridad con un segundo umbral, y en donde el valor de ponderacion se hace mas pequeno que un valor maximo cuando el valor de sonoridad para el marco de senal de referencia excede el segundo umbral.
  7. 7. Metodo de acuerdo a la reivindicacion 6, en donde dicho valor de sonoridad para dicho marco de senal de referencia excede el segundo umbral, el valor de ponderacion se hace inversamente dependiente de una cantidad con la cual el valor de sonoridad excede el segundo umbral.
  8. 8. Metodo de acuerdo a una cualquiera de las reivindicaciones previas, en donde dicho valor de sonoridad se determina de una manera dependiente de frecuencia, y en donde dicho valor de ponderacion se hace dependiente de dicho valor de sonoridad dependiente de frecuencia.
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
  9. 9. Metodo de acuerdo a una cualquiera de las reivindicaciones previas, en donde dicho metodo para evaluar la inteligibilidad de dicha senal de voz degradada se basa en un algoritmo de evaluation de calidad de escucha objetivo perceptivo (POLQA).
  10. 10. Producto de programa de ordenador que comprende un codigo ejecutable de ordenador para efectuar un metodo de acuerdo a una cualquiera de las reivindicaciones previas cuando se ejecuta mediante un ordenador.
  11. 11. Aparato para efectuar un metodo de acuerdo a una cualquiera de las reivindicaciones 1-9, para evaluar la inteligibilidad de una senal de voz degradada, que comprende:
    -una unidad de reception para recibir dicha senal de voz degradada de un sistema de transmision de audio que transporta una senal de voz de referencia, y para recibir dicha senal de voz de referencia;
    -una unidad de muestreo para muestrear dicha senal de voz de referencia en una pluralidad de marcos de senal de referencia, y para muestrear dicha senal de voz degradada en una pluralidad de marcos de senal degradados;
    -una unidad de procesamiento para determinar para cada marco de senal de referencia una representation de senal de referencia, y para determinar para cada marco de senal degradado una representacion de senal degradada;
    -una unidad de comparacion para formar pares de marco al asociar dichos marcos de senal de referencia y dichos marcos de senal degradados el uno con el otro, y
    -para suministrar para cada par de marcos una funcion de diferencia que representa una diferencia entre dicho marco de senal degradado y de referencia;
    el aparato se caracteriza por
    -una unidad compensadora para compensar dicha funcion de diferencia para uno o mas tipos de perturbation tal como suministrar para cada par de marcos una funcion de densidad de perturbacion que se adapta al modelo de perception de auditorio humano; y
    -dicha unidad y procesamiento esta dispuesta ademas para derivar de dichas funciones de densidad de perturbacion de una pluralidad de pares de marco un parametro de calidad total que es al menos indicativo de dicha inteligibilidad de dicha senal de voz degradada;
    en donde, dicha unidad de procesamiento esta ademas dispuesta para:
    -determinar el valor de sonoridad para cada uno de dichos marcos de senal de referencia; y para
    -determinar un valor de ponderacion dependiente de dicho valor de sonoridad de dicho marco de senal de referencia; en donde dicha unidad compensadora se conecta a dicha unidad de procesamiento, y esta ademas dispuesta para ponderar dicha funcion de diferencia utilizando dicho valor de ponderacion dependiente de sonoridad recibido de dicha unidad de procesamiento.
  12. 12. Aparato de acuerdo a la reivindicacion 11, en donde dicha unidad de procesamiento se dispone ademas para comparar dicho valor de sonoridad con un primer umbral, y hacer dicho valor de ponderacion dependiente de si dicho valor de sonoridad excede dicho primer umbral.
  13. 13. Aparato de acuerdo con la reivindicacion 12, en donde dicha unidad de procesamiento se dispone ademas para fijar dicho valor de ponderacion a un valor maximo cuando dicho valor de sonoridad de dicho marco de senal de referencia excede dicho primer umbral.
  14. 14. Aparato de acuerdo a la reivindicacion 12 o 13, en donde dicha unidad de procesamiento esta dispuesta ademas para hacer dicho valor de ponderacion igual a dicho valor de sonoridad cuando dicho valor de sonoridad para dicho marco de senal de referencia es mas pequeno que dicho primer umbral.
  15. 15. Aparato de acuerdo a cualquiera de las reivindicaciones 11- 14, en donde la unidad de procesamiento esta dispuesta ademas para comparar dicho valor de sonoridad con un segundo umbral, y hacer el valor de ponderacion mas pequeno que un valor maximo cuando el valor de sonoridad para el marco de senal de referencia excede el segundo umbral.
ES12791582.5T 2011-11-17 2012-11-15 Método y aparato para evaluar la inteligibilidad de una señal de voz degradada Active ES2556587T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP11189598 2011-11-17
EP11189598.3A EP2595146A1 (en) 2011-11-17 2011-11-17 Method of and apparatus for evaluating intelligibility of a degraded speech signal
PCT/NL2012/050808 WO2013073944A1 (en) 2011-11-17 2012-11-15 Method of and apparatus for evaluating intelligibility of a degraded speech signal

Publications (1)

Publication Number Publication Date
ES2556587T3 true ES2556587T3 (es) 2016-01-19

Family

ID=47228013

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12791582.5T Active ES2556587T3 (es) 2011-11-17 2012-11-15 Método y aparato para evaluar la inteligibilidad de una señal de voz degradada

Country Status (5)

Country Link
US (1) US9659565B2 (es)
EP (2) EP2595146A1 (es)
ES (1) ES2556587T3 (es)
PT (1) PT2780910E (es)
WO (1) WO2013073944A1 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102238979B1 (ko) * 2013-11-15 2021-04-12 현대모비스 주식회사 음성 인식을 위한 전처리 장치 및 그 방법
EP2922058A1 (en) 2014-03-20 2015-09-23 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating quality of a degraded speech signal
EP3944240A1 (en) * 2020-07-20 2022-01-26 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk Onderzoek TNO Method of determining a perceptual impact of reverberation on a perceived quality of a signal, as well as computer program product
US12531077B2 (en) * 2021-02-22 2026-01-20 Tencent America LLC Method and apparatus in audio processing

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4472832A (en) * 1981-12-01 1984-09-18 At&T Bell Laboratories Digital speech coder
US5729658A (en) * 1994-06-17 1998-03-17 Massachusetts Eye And Ear Infirmary Evaluating intelligibility of speech reproduction and transmission across multiple listening conditions
AU2003212285A1 (en) * 2002-03-08 2003-09-22 Koninklijke Kpn N.V. Method and system for measuring a system's transmission quality
FR2894707A1 (fr) * 2005-12-09 2007-06-15 France Telecom Procede de mesure de la qualite percue d'un signal audio degrade par la presence de bruit
BRPI0707343B1 (pt) * 2006-01-31 2020-09-08 Telefonaktiebolaget Lm Ericsson (Publ) Método e aparelho de avaliação de qualidade de sinal não intrusivo
ATE470931T1 (de) * 2007-10-11 2010-06-15 Koninkl Kpn Nv Verfahren und system zur messung der sprachverständlichkeit eines tonübertragungssystems
US8949114B2 (en) * 2009-06-04 2015-02-03 Optis Wireless Technology, Llc Method and arrangement for estimating the quality degradation of a processed signal
EP2372700A1 (en) 2010-03-11 2011-10-05 Oticon A/S A speech intelligibility predictor and applications thereof
JP5606764B2 (ja) * 2010-03-31 2014-10-15 クラリオン株式会社 音質評価装置およびそのためのプログラム
US9524733B2 (en) * 2012-05-10 2016-12-20 Google Inc. Objective speech quality metric
EP2922058A1 (en) * 2014-03-20 2015-09-23 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating quality of a degraded speech signal

Also Published As

Publication number Publication date
EP2780910A1 (en) 2014-09-24
PT2780910E (pt) 2016-01-13
EP2595146A1 (en) 2013-05-22
WO2013073944A1 (en) 2013-05-23
US20140324419A1 (en) 2014-10-30
EP2780910B1 (en) 2015-09-16
US9659565B2 (en) 2017-05-23

Similar Documents

Publication Publication Date Title
Takahashi et al. PhaseNet: Discretized Phase Modeling with Deep Neural Networks for Audio Source Separation.
AU2013345546B2 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal
ES2526126T3 (es) Método, producto de programa informático y sistema para determinar una calidad percibida de un sistema de audio
EP3120356B1 (en) Method of and apparatus for evaluating quality of a degraded speech signal
EP2780909B1 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal
BRPI1008520B1 (pt) método e dispositivo de extensão de largura de banda
WO2009046949A1 (en) Method and system for speech intelligibility measurement of an audio transmission system
JP4263620B2 (ja) システムの伝送品質を測定する方法及びシステム
ES2556587T3 (es) Método y aparato para evaluar la inteligibilidad de una señal de voz degradada
US12475907B2 (en) Method of determining a perceptual impact of reverberation on a perceived quality of a signal, as well as computer program product
Khurshid et al. A temporal-analysis-based pitch estimation system for noisy speech with a comparative study of performance of recent systems
RU2445719C2 (ru) Способ улучшения восприятия синтезированной речи при реализации процедуры анализа через синтез в вокодерах с линейным предсказанием
McDonald Objective Evaluation of Tracheoesophageal Speech Quality