ES2257344T3

ES2257344T3 - Reconocimiento de voz con un modelo complementario de lenguaje para errores tipicos del dialogo hablado.

Info

Publication number: ES2257344T3
Application number: ES00985352T
Authority: ES
Inventors: Frederic Thomson Multimedia Soufflet; Christophe Thomson Multimedia Delaunay; Nour-Eddine Thomson Multimedia Tazine
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 1999-12-02
Filing date: 2000-11-29
Publication date: 2006-08-01
Anticipated expiration: 2020-11-29
Also published as: WO2001041125A1; AU2180001A; EP1236198B1; CN1224954C; KR100726875B1; CN1402867A; DE60026366D1; JP2003515777A; EP1236198A1; DE60026366T2; KR20020060978A; US20030105633A1; MXPA02005466A

Abstract

Dispositivo para reconocimiento de voz (1) que comprende un procesador de audio (2) para la adquisición de una señal de audio y un decodificador lingüístico (6) para determinar una secuencia de palabras correspondiente a la señal de audio, incluyendo el decodificador un modelo de lenguaje (8), caracterizado porque dicho modelo de lenguaje (8) viene determinado por un primer conjunto de, al menos, un bloque sintáctico rígido y un segundo conjunto de, al menos, un bloque sintáctico flexible, estando definido el primer conjunto de, al menos, un bloque sintáctico rígido por una gramática de tipo BNF, estando definido el segundo conjunto de, al menos, un bloque sintáctico flexible por una o varias redes n- grama, estando incorporado cada bloque flexible a la gramática BNF como un símbolo particular y conteniendo una palabra específica de salida que autoriza a salir del bloque.

Description

Reconocimiento de voz con un modelo complementario de lenguaje para errores típicos del diálogo hablado.

La presente invención hace referencia a un dispositivo para reconocimiento de voz que comprende un modelo de lenguaje definido con ayuda de bloques sintácticos de naturaleza diferente, denominados bloques rígidos y bloques flexibles.

Los sistemas informáticos o de control utilizan cada vez más a menudo un interfaz de voz para interactuar con el usuario de forma rápida e intuitiva. Al ser dichos sistemas cada vez más complejos, los estilos de diálogo soportados son cada vez más ricos y nos introducimos en el ámbito del reconocimiento de voz continuo con un vocabulario muy amplio.

Es sabido que la concepción de un sistema de reconocimiento de voz continuo con un vocabulario amplio representa crear un Modelo de Lenguaje que define la probabilidad de que una palabra dada del vocabulario de la aplicación siga a otra palabra o grupo de palabras, en el orden cronológico de la frase.

Este modelo de lenguaje debe reproducir el estilo de locución normalmente empleado por un usuario del sistema: vacilaciones, falsos inicios, cambios de opinión, etc.

La calidad del modelo de lenguaje utilizado influye enormemente en la fiabilidad del reconocimiento de voz. Dicha calidad se mide cada vez con mayor frecuencia mediante un índice denominado perplejidad del modelo de lenguaje y que representa esquemáticamente el número de elecciones que debe efectuar el sistema para cada palabra decodificada. Cuanto más baja sea dicha perplejidad, mayor será la calidad.

El modelo de lenguaje es necesario para traducir la señal de voz en una sucesión textual de palabras, una etapa que a menudo es utilizada por los sistemas de diálogo. Por tanto, es necesario construir una lógica de comprensión que permita comprender la solicitud formulada verbalmente para responder a la misma.

Existen dos métodos estándar para generar modelos de lenguaje de amplio vocabulario:

(1) El método estadístico denominado N-grama, normalmente en bigrama o trigrama, que consiste en suponer que la probabilidad de aparición de una palabra en la frase depende únicamente de las N palabras que la preceden, independientemente de su contexto en la frase.

Si se toma el ejemplo del trigrama para un vocabulario de 1000 palabras, dado que existen 1000^{3} grupos posibles de tres elementos, sería preciso definir 1000^{3} probabilidades para definir el modelo de lenguaje, lo que ocupa un considerable volumen de memoria y requiere una gran potencia de cálculo. Para resolver este problema, las palabras se agrupan en conjuntos que bien son definidos explícitamente por el diseñador del modelo o bien son deducidos mediante métodos auto-organizativos.

Este modelo de lenguaje se construye automáticamente a partir de un cuerpo de texto.

(2) El segundo método consiste en describir la sintaxis por medio de una gramática probabilística, normalmente una gramática no contextual definida en virtud de una serie de reglas descritas en la llamada Notación de Backus Naur o notación BNF.

Las reglas que describen gramáticas suelen estar manuscritas, pero también pueden deducirse automáticamente. A este respecto puede hacerse referencia al siguiente documento:

"Basic methods of probabilistic context-free grammars", de F. Jelinek, J. D. Lafferty y R L Mercer serie NATO ASI Vo. 75 pág. 345-359, 1992.

Los modelos descritos anteriormente plantean problemas específicos cuando se aplican a interfaces de sistemas de lenguaje natural:

Los modelos de lenguaje tipo N-grama (1) no modelan correctamente las dependencias entre varias subestructuras gramaticales distantes presentes en la oración. Para una oración pronunciada correctamente desde el punto de vista sintáctico, no hay nada que garantice el cumplimiento de dichas subestructuras a lo largo del reconocimiento y, por tanto, resulta difícil determinar si la oración implica un sentido y qué sentido, que normalmente se apoya en una o más estructuras sintácticas específicas.

Estos modelos son adecuados para el dictado continuo, pero su aplicación en sistemas de diálogo adolece de los defectos mencionados.

Por el contrario, en un modelo de tipo N-grama es posible tener en cuenta las vacilaciones y repeticiones, definiendo unos conjuntos de palabras que reagrupen las palabras que se han pronunciado efectivamente recientemente.

Los modelos basados en gramáticas (2) hacen posible modelar correctamente las dependencias remotas de una oración, así como cumplir unas subestructuras sintácticas específicas. La perplejidad del lenguaje obtenido suele ser peor para una aplicación dada que para los modelos de tipo N-grama.

Por el contrario, no resultan útiles para la descripción de un estilo de lenguaje hablado teniendo en cuenta las vacilaciones, los falsos inicios, etc. En efecto, estos fenómenos vinculados al lenguaje oral no pueden predecirse, pareciendo por tanto difícil concebir unas gramáticas que, por su propia naturaleza, se basen en unas reglas de lenguaje.

Además, el número de reglas necesarias para cubrir una aplicación es tan grande que hace difícil tener en cuenta nuevas frases a añadir al diálogo previsto sin modificar las reglas existentes.

El documento ``Reliable utterance segment recognition by integrating a grammar with statistical language constraints, Tsukada y otros, Speech Communication, volumen 26 nº 4, diciembre de 1998, páginas 299 a 309, divulga dos modelos de lenguaje: ambos modelos funcionan simultáneamente y buscan frases que satisfagan a los dos a la vez. Esta solución, al utilizar dos modelos de lenguaje en paralelo, necesita una gran potencia de cálculo.

El documento "Integrated grammar/bigram language model using parch scores", Lloyd-Thomas y otros, Detroit, 9 a 12 de mayo de 1995, Speech, Nueva York, IEEE, EE.UU, páginas 173 a 176, trata un modelo de lenguaje formado a la vez por datos estadísticos y reglas gramaticales. El modelo de lenguaje descrito necesita la utilización de un algoritmo de reconocimiento especialmente concebido para obtener el mejor partido del modelo de lenguaje.

El motor semántico descrito en el documento "Modeling disfluency and background events in ASR for a natural language understanding task", Phoenix, Arizona, 15 a 19 de marzo 1999, Nueva York, IEEE, EE.UU, páginas 341 a 344, está formado, por una parte, por un modelo acústico (en este caso un HMM) y, por otra parte, por un modelo de lenguaje (en este caso, un modelo basado en n-gramas) de tal forma que un procesador de señales que utilice el modelo acústico producido y un motor de reconocimiento que utilice el modelo de lenguaje producido puedan trabajar conjuntamente para obtener un mejor resultado. Este documento presenta técnicas de automatización de la producción del modelo acústico y del modelo de lenguaje, permitiendo que funcionen juntos correctamente.

La invención tiene por objeto un dispositivo para reconocimiento de voz como el reivindicado en la reivindicación 1.

La asociación de los dos tipos de bloques sintácticos permite resolver fácilmente los problemas vinculados al lenguaje oral, beneficiándose del modelado de las dependencias entre los elementos de una frase, modelo que puede procesarse con facilidad con ayuda de un bloque sintáctico rígido.

De acuerdo con una particularidad, las redes n-grama contenidas en los segundos bloques flexibles, incluyen datos que permiten reconocer los siguientes fenómenos del lenguaje oral: la vacilación o titubeo simple, la repetición simple, el intercambio simple, el cambio de opinión y el balbuceo.

El modelo de lenguaje acorde con la invención permite la combinación de las ventajas de los dos sistemas, definiendo dos tipos de entidades que se combinan para formar el modelo de lenguaje final.

Para ciertas entidades se conserva una sintaxis rígida y se les asocia un analizador sintáctico, mientras que otras se describen mediante una red de tipo n-grama.

Además, de acuerdo con una variante de realización, se definen unos bloques libres "activados" por bloques de uno de los tipos anteriores.

Otras características y ventajas de la invención se apreciarán mediante la descripción de una realización específica no limitativa, explicada con la ayuda de las figuras adjuntas, en las cuales:

- La figura 1 es un diagrama de un sistema de reconocimiento de voz.

- La figura 2 es un diagrama OMT que define un bloque sintáctico de acuerdo con la invención.

La figura 1 es un diagrama de bloques de un ejemplo de dispositivo 1 para el reconocimiento de voz. Este dispositivo incluye un procesador 2 de la señal de audio que realiza la digitalización de una señal de audio originada en un micrófono 3 mediante un circuito de adquisición de señales 4. El procesador también convierte las muestras digitales en símbolos acústicos seleccionados a partir de un alfabeto predeterminado. Para este propósito, incluye un decodificador fonético-acústico 5. Un decodificador lingüístico 6 procesa estos símbolos para determinar, para una secuencia A de símbolos, la secuencia de palabras W más probable, teniendo en cuenta la secuencia A.

El decodificador lingüístico utiliza un modelo acústico 7 y un modelo de lenguaje 8 implementado mediante un algoritmo de búsqueda basado en hipótesis 9. El modelo acústico es, por ejemplo, un modelo de los denominados modelo de Markov oculto (o HMM). El modelo de lenguaje implementado en el presente ejemplo de realización está basado en una gramática descrita con la ayuda de las reglas de sintaxis de la notación Backus Naur. El modelo de lenguaje se utiliza para someter las hipótesis al algoritmo de búsqueda. Este último, que es el motor de reconocimiento propiamente dicho, es, en relación con el presente ejemplo, un algoritmo de búsqueda basado en un algoritmo de tipo Viterbi y al que se denomina "n-best [n mejores]". El algoritmo de tipo n-best determina en cada fase del análisis de una oración las n secuencias de palabras más probables. Al final de la oración, se selecciona la solución más probable de entre las n candidatas.

Los conceptos del párrafo anterior son bien conocidos por sí mismos para aquellas personas versadas en la materia, pero se ofrece información relativa en particular al algoritmo n-best en el trabajo:

"Statistical methods for speech recognition", de F. Jelinek, MIT Press 1999 ISBN 0-262-10066-5, páginas 79 a 84. También pueden implementarse otros algoritmos, concretamente otros algoritmos del tipo "Beam Search [búsqueda de haz]", de los cuales el algoritmo "n-best" constituye un ejemplo.

El modelo de lenguaje de la invención utiliza unos bloques sintácticos que pueden ser de uno de los dos tipos mostrados en la figura 2: bloque de tipo rígido o bloque de tipo flexible.

Los bloques sintácticos rígidos se definen mediante una sintaxis del tipo BNF, con cinco reglas de escritura:

(a) <símbolo A> = <símbolo B> | <símbolo C> (Símbolo o)

(b) <símbolo A> = <símbolo B> <símbolo C> (símbolo y)

(c) <símbolo A> = <símbolo B>? (símbolo opcional)

(d) <símbolo A> = "palabra léxica" (atribución léxica)

(e) <símbolo A> = P{<símbolo B>, <símbolo C>, ... <símbolo X>} (símbolo B > <símbolo C>)

(....)

(símbolo I > <símbolo J>)

(todas las permutaciones sin repetición de los símbolos citados, sin limitaciones: el símbolo B debe aparecer antes que el símbolo C, el símbolo I antes que el símbolo J ...)

La implementación de la regla (e) se explica más detalladamente en la solicitud de patente francesa nº 9915083, titulada "Dispositivo para reconocimiento de voz que implementa una regla sintáctica de permutación", presentada en nombre de Thomson Multimedia el 30 de noviembre de 1999.

Los bloques flexibles se definen bien mediante la misma sintaxis BNF definida anteriormente, bien como una lista de porciones de frase, bien mediante una lista de vocabulario y las correspondientes redes n-grama, o bien mediante la combinación de las tres. Pero estas informaciones se convierten sistemáticamente en una red n-grama, y si la definición se ha efectuado mediante un archivo BNF, no se garantiza que puedan generarse solamente las frases sintácticamente correctas de acuerdo con esta gramática.

Un bloque flexible se define por tanto mediante una probabilidad P(S) de aparición de la sucesión S de n palabras w_{i} con la siguiente forma (en el caso de un trigrama):

P(S) = \Pi_{1,n} \ P(w_{i})

Dónde P(w_{i}) = P (w_{i}|w_{i-1}, w_{i-2})

Para cada bloque flexible existe una palabra especial de salida de bloque que aparece en la red n-grama de la misma forma que una palabra normal, pero que no tiene traza fonética y que autoriza a salir del bloque.

Una vez que se han definido estos bloques sintácticos (de tipo n-grama o de tipo BNF), pueden utilizarse de nuevo como átomos para construcciones de orden superior.

En el caso de un bloque BF, pueden utilizarse los bloques inferiores en lugar de la atribución léxica así como en las otras reglas.

En el caso de un bloque del tipo n-grama, los bloques de nivel inferior se utilizan en lugar de las palabras w_{i} por lo que pueden encadenarse varios bloques con una probabilidad dada.

Una vez definida la red n-grama, se incorpora a la gramática BNF descrita anteriormente como un símbolo particular. Pueden incorporarse tantas redes n-grama como sean necesarias a la gramática BNF. Las permutaciones utilizadas para la definición de un bloque para definir un bloque de tipo BNF son procesadas en el algoritmo de búsqueda del motor de reconocimiento mediante unas variables de tipo booleano utilizadas para dirigir la búsqueda al efectuar el recorte que normalmente se efectúa en este tipo de situación.

Puede apreciarse que el símbolo de salida del bloque flexible puede también interpretarse como un símbolo de subida al bloque superior, que también puede ser un bloque flexible o un bloque rígido.

\bullet Implementación de desencadenantes

La fórmula que antecede no basta aún para describir el modelo de lenguaje de una aplicación de diálogo hombre-máquina con un vocabulario amplio. De acuerdo con una variante de realización, se añade un mecanismo de desencadenamiento o "trigger". El desencadenante permite dar sentido a una palabra o bloque a fin de asociarlo a determinados elementos. Por ejemplo, supongamos que la palabra "documental" se reconoce en contexto de una guía electrónica de programas audiovisuales. A esta palabra se le puede asociar una lista de palabras como ``de animales, deportivo, turístico, ...). Estas palabras tienen sentido para "documental" y puede esperarse que se le asocie una de ellas.

Para ello, llamaremos <bloque> a un bloque anteriormente descrito y ::<bloque> a la realización de dicho bloque mediante una de sus instancias en el curso del algoritmo de reconocimiento, es decir su presencia en la cadena actualmente decodificada en el algoritmo de búsqueda "n-best search".

Por ejemplo, podríamos tener:

<deseo> = me gustaría ir a | quiero ir a.

<ciudad> = Lión | París | Londres | Rennes.

Por tanto :: <deseo> será: "me gustaría ir a" para la parte de las vías prevista por el algoritmo de Viterbi para las posibilidades:

Me gustaría ir a Lión

Me gustaría ir a París

Me gustaría ir a Londres

Me gustaría ir a Rennes

Y equivaldría a "quiero ir a" en el caso de las otras.

Los desencadenantes del modelo de lenguaje se definen por tanto de la forma siguiente:

Si <símbolo>:: pertenece a un sub-grupo dado de las posibles realizaciones del símbolo en cuestión, entonces otro símbolo <T(símbolo)>, que es el símbolo objetivo del símbolo actual, bien se reduce a una sub-parte de su ámbito de extensión normal, es decir a su ámbito de extensión si el desencadenante no está presente en la cadena de decodificación, (desencadenante reductor), bien es activado y está disponibles, con un factor de conexión no nulo a la salida de cada bloque sintáctico perteneciente al grupo denominado de los "candidatos activadores" (desencadenante activador).

Observemos que:

No es necesario que todos los bloques describan un proceso de desencadenamiento.

El objetivo de un símbolo puede ser el propio símbolo, si se utiliza de forma múltiple en el modelo de lenguaje.

Para un bloque, sólo puede existir una sub-parte de su conjunto de realización que sea uno de los componentes de un mecanismo de desencadenamiento, no siendo el complementario por sí mismo un desencadenante.

El objetivo de un desencadenante activador puede ser un símbolo opcional.

Los mecanismos de desencadenamiento reductores permiten procesar, en nuestro modelo de lenguaje de bloques, las repeticiones coherentes de temas. Pueden encontrarse informaciones suplementarias sobre la noción de desencadenante en el documento de referencia citado anteriormente, concretamente en las páginas 245 a 253.

Los mecanismos de desencadenamiento activadores permiten modelar ciertos grupos sintácticos libres, en idiomas que sean muy flexivos.

\newpage

Cabe señalar que los desencadenantes, sus objetivos y la restricción relativa a los objetivos pueden determinarse manualmente u obtenerse mediante un proceso automático, por ejemplo mediante un método de máxima entropía.

\bullet Consideración del lenguaje hablado

La construcción descrita anteriormente define la sintaxis del modelo de lenguaje, sin tener en cuenta las vacilaciones, las repeticiones, los falsos inicios, los cambios de opinión, etc., que serían de esperar en un estilo hablado. Los fenómenos vinculados al lenguaje hablado son difícilmente reconocibles por una gramática, debido al hecho de su naturaleza impredecible. Las redes n-grama están más adaptadas para reconocer este tipo de fenómenos.

Estos fenómenos vinculados al lenguaje hablado puede clasificarse en cinco categorías:

Vacilación simple: me gustaría (eeeeehh ... silencio) ir a Lión.

La repetición simple, en la que una parte de la frase (a menudo los determinantes y los artículos, pero en ciertas ocasiones trozos enteros de oración), se repiten pura y simplemente: me gustaría ir a (a a a) Lión.

El intercambio simple, en el curso del cual se sustituye una fórmula, sobre la marcha, por una forma con el mismo sentido, pero sintácticamente diferente: me gustaría ir (eeeehhh viajar) a Lión.

El cambio de opinión: una parte de la frase se corrige, con un sentido diferente, en el transcurso del enunciado: quería ir a Lión (eeeehhh a París).

El balbuceo: me gustaría ir a (Praris eeehh) París.

Los dos primeros fenómenos son los más frecuentes: aproximadamente un 80% de las vacilaciones se clasifican en uno de estos grupos.

El modelo de lenguaje de la invención trata estos fenómenos de la forma siguiente:

Vacilación simple

La vacilación simple se trata mediante la creación de palabras asociadas a las trazas geométricas que marcan la vacilación en el idioma en cuestión y que se tratan de la misma forma que las otras en relación con el modelo de lenguaje (probabilidad de aparición, de ir seguida por un silencio, etc.), y en los modelos fonéticos (co-articulación, etc.).

Se ha destacado el hecho de que las vacilaciones simples se producen en lugares concretos de una frase, por ejemplo: entre el primer verbo y el segundo verbo. Para tratarlas, un ejemplo de regla de escritura, de acuerdo con la presente invención, consiste en:

Repetición simple

La repetición simple se trata mediante una técnica de caché que contiene la frase analizada actualmente en esta etapa de decodificación. En el modelo de lenguaje existe una probabilidad fija de que haya conexión en la caché. La salida de la caché está conectada al modelo de lenguaje por bloques, recuperando el estado alcanzado con anterioridad a la activación de la caché.

La caché contiene de hecho el último bloque del trozo de frase en curso, pudiendo repetirse dicho bloque. Por el contrario, si se trata del bloque que va antes del último, no puede ser tratado por una caché de este tipo, siendo entonces preciso revisar por completo la frase.

Cuando se trata de una repetición de los artículos, en el caso de aquellos idiomas en los que pueda darse esta posibilidad, la caché incluye el artículo y sus formas apropiadas, cambiando el número y el género.

En francés, por ejemplo, la caché correspondiente a "de" contiene "du" y "des". Efectivamente, la modificación de género y número suele ser frecuente.

Intercambio simple y cambio de opinión

El intercambio simple se trata mediante la creación de grupos de bloques asociados entre los cuales es posible un intercambio simple, es decir que existe una probabilidad de que exista salida de bloque y conexión al principio de uno de los otros bloques del grupo.

\newpage

Para el intercambio simple, la salida de bloque está acoplada con un desencadenamiento, en los bloques asociados al mismo grupo, de sub-partes con el mismo sentido.

Para el cambio de opinión, bien no existe desencadenamiento o bien existe desencadenamiento de las sub-partes con un sentido diferente.

También es posible no poder recurrir al desencadenamiento y clasificar la vacilación mediante análisis a posteriori.

Balbuceo

Se trata como una repetición simple.

La ventaja de este modo de tratamiento de las vacilaciones (salvo en el caso de la vacilación simple) es que la creación de los grupos asociados aumenta el índice de reconocimiento en comparación con una frase sin vacilación, a causa de la redundancia de información semántica presente. Por el contrario, la carga de cálculo es mayor.

Referencias

(1) Self-Organized language modeling for speach recognition. F. Jelinek. Readings in speech recognition. P 450-506, Morgan Kaufman Publishers, 1990

(2) Basic methods of probabilistic context-free grammars, de F. Jelinek, J. D. Lafferty y R L Mercer serie NATO ASI Vo. 75 pág. 345-359, 1992.

(3) Trigger-based language models: a maximum entropy approach. R Lau, R Rosenfeld, S Roukos. Proceedings IEEE ICASSP, 1993.

(4) Statistical methods for speech recognition, de F. Jelinek, MIT Press ISBN 0-262-10066-5, pág. 245-253.

Claims

1. Dispositivo para reconocimiento de voz (1) que comprende un procesador de audio (2) para la adquisición de una señal de audio y un decodificador lingüístico (6) para determinar una secuencia de palabras correspondiente a la señal de audio, incluyendo el decodificador un modelo de lenguaje (8), caracterizado porque dicho modelo de lenguaje (8) viene determinado por un primer conjunto de, al menos, un bloque sintáctico rígido y un segundo conjunto de, al menos, un bloque sintáctico flexible, estando definido el primer conjunto de, al menos, un bloque sintáctico rígido por una gramática de tipo BNF, estando definido el segundo conjunto de, al menos, un bloque sintáctico flexible por una o varias redes n-grama, estando incorporado cada bloque flexible a la gramática BNF como un símbolo particular y conteniendo una palabra específica de salida que autoriza a salir del bloque.

2. Dispositivo de acuerdo con la reivindicación 1 caracterizado porque los datos de las redes n-grama se generan con ayuda de una gramática o de una lista de porciones de frase.

3. Dispositivo de acuerdo con la reivindicación 1 o 2 caracterizado porque la red n-grama contiene datos que corresponden a uno o varios de los siguientes fenómenos: la vacilación simple, la repetición simple, el intercambio simple, el cambio de opinión y el balbuceo.