ES2257344T3 - Reconocimiento de voz con un modelo complementario de lenguaje para errores tipicos del dialogo hablado. - Google Patents

Reconocimiento de voz con un modelo complementario de lenguaje para errores tipicos del dialogo hablado.

Info

Publication number
ES2257344T3
ES2257344T3 ES00985352T ES00985352T ES2257344T3 ES 2257344 T3 ES2257344 T3 ES 2257344T3 ES 00985352 T ES00985352 T ES 00985352T ES 00985352 T ES00985352 T ES 00985352T ES 2257344 T3 ES2257344 T3 ES 2257344T3
Authority
ES
Spain
Prior art keywords
block
language
language model
symbol
flexible
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00985352T
Other languages
English (en)
Inventor
Frederic Thomson Multimedia Soufflet
Christophe Thomson Multimedia Delaunay
Nour-Eddine Thomson Multimedia Tazine
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Application granted granted Critical
Publication of ES2257344T3 publication Critical patent/ES2257344T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

Dispositivo para reconocimiento de voz (1) que comprende un procesador de audio (2) para la adquisición de una señal de audio y un decodificador lingüístico (6) para determinar una secuencia de palabras correspondiente a la señal de audio, incluyendo el decodificador un modelo de lenguaje (8), caracterizado porque dicho modelo de lenguaje (8) viene determinado por un primer conjunto de, al menos, un bloque sintáctico rígido y un segundo conjunto de, al menos, un bloque sintáctico flexible, estando definido el primer conjunto de, al menos, un bloque sintáctico rígido por una gramática de tipo BNF, estando definido el segundo conjunto de, al menos, un bloque sintáctico flexible por una o varias redes n- grama, estando incorporado cada bloque flexible a la gramática BNF como un símbolo particular y conteniendo una palabra específica de salida que autoriza a salir del bloque.

Description

Reconocimiento de voz con un modelo complementario de lenguaje para errores típicos del diálogo hablado.
La presente invención hace referencia a un dispositivo para reconocimiento de voz que comprende un modelo de lenguaje definido con ayuda de bloques sintácticos de naturaleza diferente, denominados bloques rígidos y bloques flexibles.
Los sistemas informáticos o de control utilizan cada vez más a menudo un interfaz de voz para interactuar con el usuario de forma rápida e intuitiva. Al ser dichos sistemas cada vez más complejos, los estilos de diálogo soportados son cada vez más ricos y nos introducimos en el ámbito del reconocimiento de voz continuo con un vocabulario muy amplio.
Es sabido que la concepción de un sistema de reconocimiento de voz continuo con un vocabulario amplio representa crear un Modelo de Lenguaje que define la probabilidad de que una palabra dada del vocabulario de la aplicación siga a otra palabra o grupo de palabras, en el orden cronológico de la frase.
Este modelo de lenguaje debe reproducir el estilo de locución normalmente empleado por un usuario del sistema: vacilaciones, falsos inicios, cambios de opinión, etc.
La calidad del modelo de lenguaje utilizado influye enormemente en la fiabilidad del reconocimiento de voz. Dicha calidad se mide cada vez con mayor frecuencia mediante un índice denominado perplejidad del modelo de lenguaje y que representa esquemáticamente el número de elecciones que debe efectuar el sistema para cada palabra decodificada. Cuanto más baja sea dicha perplejidad, mayor será la calidad.
El modelo de lenguaje es necesario para traducir la señal de voz en una sucesión textual de palabras, una etapa que a menudo es utilizada por los sistemas de diálogo. Por tanto, es necesario construir una lógica de comprensión que permita comprender la solicitud formulada verbalmente para responder a la misma.
Existen dos métodos estándar para generar modelos de lenguaje de amplio vocabulario:
(1) El método estadístico denominado N-grama, normalmente en bigrama o trigrama, que consiste en suponer que la probabilidad de aparición de una palabra en la frase depende únicamente de las N palabras que la preceden, independientemente de su contexto en la frase.
Si se toma el ejemplo del trigrama para un vocabulario de 1000 palabras, dado que existen 1000^{3} grupos posibles de tres elementos, sería preciso definir 1000^{3} probabilidades para definir el modelo de lenguaje, lo que ocupa un considerable volumen de memoria y requiere una gran potencia de cálculo. Para resolver este problema, las palabras se agrupan en conjuntos que bien son definidos explícitamente por el diseñador del modelo o bien son deducidos mediante métodos auto-organizativos.
Este modelo de lenguaje se construye automáticamente a partir de un cuerpo de texto.
(2) El segundo método consiste en describir la sintaxis por medio de una gramática probabilística, normalmente una gramática no contextual definida en virtud de una serie de reglas descritas en la llamada Notación de Backus Naur o notación BNF.
Las reglas que describen gramáticas suelen estar manuscritas, pero también pueden deducirse automáticamente. A este respecto puede hacerse referencia al siguiente documento:
"Basic methods of probabilistic context-free grammars", de F. Jelinek, J. D. Lafferty y R L Mercer serie NATO ASI Vo. 75 pág. 345-359, 1992.
Los modelos descritos anteriormente plantean problemas específicos cuando se aplican a interfaces de sistemas de lenguaje natural:
Los modelos de lenguaje tipo N-grama (1) no modelan correctamente las dependencias entre varias subestructuras gramaticales distantes presentes en la oración. Para una oración pronunciada correctamente desde el punto de vista sintáctico, no hay nada que garantice el cumplimiento de dichas subestructuras a lo largo del reconocimiento y, por tanto, resulta difícil determinar si la oración implica un sentido y qué sentido, que normalmente se apoya en una o más estructuras sintácticas específicas.
Estos modelos son adecuados para el dictado continuo, pero su aplicación en sistemas de diálogo adolece de los defectos mencionados.
Por el contrario, en un modelo de tipo N-grama es posible tener en cuenta las vacilaciones y repeticiones, definiendo unos conjuntos de palabras que reagrupen las palabras que se han pronunciado efectivamente recientemente.
Los modelos basados en gramáticas (2) hacen posible modelar correctamente las dependencias remotas de una oración, así como cumplir unas subestructuras sintácticas específicas. La perplejidad del lenguaje obtenido suele ser peor para una aplicación dada que para los modelos de tipo N-grama.
Por el contrario, no resultan útiles para la descripción de un estilo de lenguaje hablado teniendo en cuenta las vacilaciones, los falsos inicios, etc. En efecto, estos fenómenos vinculados al lenguaje oral no pueden predecirse, pareciendo por tanto difícil concebir unas gramáticas que, por su propia naturaleza, se basen en unas reglas de lenguaje.
Además, el número de reglas necesarias para cubrir una aplicación es tan grande que hace difícil tener en cuenta nuevas frases a añadir al diálogo previsto sin modificar las reglas existentes.
El documento ``Reliable utterance segment recognition by integrating a grammar with statistical language constraints, Tsukada y otros, Speech Communication, volumen 26 nº 4, diciembre de 1998, páginas 299 a 309, divulga dos modelos de lenguaje: ambos modelos funcionan simultáneamente y buscan frases que satisfagan a los dos a la vez. Esta solución, al utilizar dos modelos de lenguaje en paralelo, necesita una gran potencia de cálculo.
El documento "Integrated grammar/bigram language model using parch scores", Lloyd-Thomas y otros, Detroit, 9 a 12 de mayo de 1995, Speech, Nueva York, IEEE, EE.UU, páginas 173 a 176, trata un modelo de lenguaje formado a la vez por datos estadísticos y reglas gramaticales. El modelo de lenguaje descrito necesita la utilización de un algoritmo de reconocimiento especialmente concebido para obtener el mejor partido del modelo de lenguaje.
El motor semántico descrito en el documento "Modeling disfluency and background events in ASR for a natural language understanding task", Phoenix, Arizona, 15 a 19 de marzo 1999, Nueva York, IEEE, EE.UU, páginas 341 a 344, está formado, por una parte, por un modelo acústico (en este caso un HMM) y, por otra parte, por un modelo de lenguaje (en este caso, un modelo basado en n-gramas) de tal forma que un procesador de señales que utilice el modelo acústico producido y un motor de reconocimiento que utilice el modelo de lenguaje producido puedan trabajar conjuntamente para obtener un mejor resultado. Este documento presenta técnicas de automatización de la producción del modelo acústico y del modelo de lenguaje, permitiendo que funcionen juntos correctamente.
La invención tiene por objeto un dispositivo para reconocimiento de voz como el reivindicado en la reivindicación 1.
La asociación de los dos tipos de bloques sintácticos permite resolver fácilmente los problemas vinculados al lenguaje oral, beneficiándose del modelado de las dependencias entre los elementos de una frase, modelo que puede procesarse con facilidad con ayuda de un bloque sintáctico rígido.
De acuerdo con una particularidad, las redes n-grama contenidas en los segundos bloques flexibles, incluyen datos que permiten reconocer los siguientes fenómenos del lenguaje oral: la vacilación o titubeo simple, la repetición simple, el intercambio simple, el cambio de opinión y el balbuceo.
El modelo de lenguaje acorde con la invención permite la combinación de las ventajas de los dos sistemas, definiendo dos tipos de entidades que se combinan para formar el modelo de lenguaje final.
Para ciertas entidades se conserva una sintaxis rígida y se les asocia un analizador sintáctico, mientras que otras se describen mediante una red de tipo n-grama.
Además, de acuerdo con una variante de realización, se definen unos bloques libres "activados" por bloques de uno de los tipos anteriores.
Otras características y ventajas de la invención se apreciarán mediante la descripción de una realización específica no limitativa, explicada con la ayuda de las figuras adjuntas, en las cuales:
- La figura 1 es un diagrama de un sistema de reconocimiento de voz.
- La figura 2 es un diagrama OMT que define un bloque sintáctico de acuerdo con la invención.
La figura 1 es un diagrama de bloques de un ejemplo de dispositivo 1 para el reconocimiento de voz. Este dispositivo incluye un procesador 2 de la señal de audio que realiza la digitalización de una señal de audio originada en un micrófono 3 mediante un circuito de adquisición de señales 4. El procesador también convierte las muestras digitales en símbolos acústicos seleccionados a partir de un alfabeto predeterminado. Para este propósito, incluye un decodificador fonético-acústico 5. Un decodificador lingüístico 6 procesa estos símbolos para determinar, para una secuencia A de símbolos, la secuencia de palabras W más probable, teniendo en cuenta la secuencia A.
El decodificador lingüístico utiliza un modelo acústico 7 y un modelo de lenguaje 8 implementado mediante un algoritmo de búsqueda basado en hipótesis 9. El modelo acústico es, por ejemplo, un modelo de los denominados modelo de Markov oculto (o HMM). El modelo de lenguaje implementado en el presente ejemplo de realización está basado en una gramática descrita con la ayuda de las reglas de sintaxis de la notación Backus Naur. El modelo de lenguaje se utiliza para someter las hipótesis al algoritmo de búsqueda. Este último, que es el motor de reconocimiento propiamente dicho, es, en relación con el presente ejemplo, un algoritmo de búsqueda basado en un algoritmo de tipo Viterbi y al que se denomina "n-best [n mejores]". El algoritmo de tipo n-best determina en cada fase del análisis de una oración las n secuencias de palabras más probables. Al final de la oración, se selecciona la solución más probable de entre las n candidatas.
Los conceptos del párrafo anterior son bien conocidos por sí mismos para aquellas personas versadas en la materia, pero se ofrece información relativa en particular al algoritmo n-best en el trabajo:
"Statistical methods for speech recognition", de F. Jelinek, MIT Press 1999 ISBN 0-262-10066-5, páginas 79 a 84. También pueden implementarse otros algoritmos, concretamente otros algoritmos del tipo "Beam Search [búsqueda de haz]", de los cuales el algoritmo "n-best" constituye un ejemplo.
El modelo de lenguaje de la invención utiliza unos bloques sintácticos que pueden ser de uno de los dos tipos mostrados en la figura 2: bloque de tipo rígido o bloque de tipo flexible.
Los bloques sintácticos rígidos se definen mediante una sintaxis del tipo BNF, con cinco reglas de escritura:
(a) <símbolo A> = <símbolo B> | <símbolo C> (Símbolo o)
(b) <símbolo A> = <símbolo B> <símbolo C> (símbolo y)
(c) <símbolo A> = <símbolo B>? (símbolo opcional)
(d) <símbolo A> = "palabra léxica" (atribución léxica)
(e) <símbolo A> = P{<símbolo B>, <símbolo C>, ... <símbolo X>} (símbolo B > <símbolo C>)
(....)
(símbolo I > <símbolo J>)
(todas las permutaciones sin repetición de los símbolos citados, sin limitaciones: el símbolo B debe aparecer antes que el símbolo C, el símbolo I antes que el símbolo J ...)
La implementación de la regla (e) se explica más detalladamente en la solicitud de patente francesa nº 9915083, titulada "Dispositivo para reconocimiento de voz que implementa una regla sintáctica de permutación", presentada en nombre de Thomson Multimedia el 30 de noviembre de 1999.
Los bloques flexibles se definen bien mediante la misma sintaxis BNF definida anteriormente, bien como una lista de porciones de frase, bien mediante una lista de vocabulario y las correspondientes redes n-grama, o bien mediante la combinación de las tres. Pero estas informaciones se convierten sistemáticamente en una red n-grama, y si la definición se ha efectuado mediante un archivo BNF, no se garantiza que puedan generarse solamente las frases sintácticamente correctas de acuerdo con esta gramática.
Un bloque flexible se define por tanto mediante una probabilidad P(S) de aparición de la sucesión S de n palabras w_{i} con la siguiente forma (en el caso de un trigrama):
P(S) = \Pi_{1,n} \ P(w_{i})
Dónde P(w_{i}) = P (w_{i}|w_{i-1}, w_{i-2})
Para cada bloque flexible existe una palabra especial de salida de bloque que aparece en la red n-grama de la misma forma que una palabra normal, pero que no tiene traza fonética y que autoriza a salir del bloque.
Una vez que se han definido estos bloques sintácticos (de tipo n-grama o de tipo BNF), pueden utilizarse de nuevo como átomos para construcciones de orden superior.
En el caso de un bloque BF, pueden utilizarse los bloques inferiores en lugar de la atribución léxica así como en las otras reglas.
En el caso de un bloque del tipo n-grama, los bloques de nivel inferior se utilizan en lugar de las palabras w_{i} por lo que pueden encadenarse varios bloques con una probabilidad dada.
Una vez definida la red n-grama, se incorpora a la gramática BNF descrita anteriormente como un símbolo particular. Pueden incorporarse tantas redes n-grama como sean necesarias a la gramática BNF. Las permutaciones utilizadas para la definición de un bloque para definir un bloque de tipo BNF son procesadas en el algoritmo de búsqueda del motor de reconocimiento mediante unas variables de tipo booleano utilizadas para dirigir la búsqueda al efectuar el recorte que normalmente se efectúa en este tipo de situación.
Puede apreciarse que el símbolo de salida del bloque flexible puede también interpretarse como un símbolo de subida al bloque superior, que también puede ser un bloque flexible o un bloque rígido.
\bullet Implementación de desencadenantes
La fórmula que antecede no basta aún para describir el modelo de lenguaje de una aplicación de diálogo hombre-máquina con un vocabulario amplio. De acuerdo con una variante de realización, se añade un mecanismo de desencadenamiento o "trigger". El desencadenante permite dar sentido a una palabra o bloque a fin de asociarlo a determinados elementos. Por ejemplo, supongamos que la palabra "documental" se reconoce en contexto de una guía electrónica de programas audiovisuales. A esta palabra se le puede asociar una lista de palabras como ``de animales, deportivo, turístico, ...). Estas palabras tienen sentido para "documental" y puede esperarse que se le asocie una de ellas.
Para ello, llamaremos <bloque> a un bloque anteriormente descrito y ::<bloque> a la realización de dicho bloque mediante una de sus instancias en el curso del algoritmo de reconocimiento, es decir su presencia en la cadena actualmente decodificada en el algoritmo de búsqueda "n-best search".
Por ejemplo, podríamos tener:
<deseo> = me gustaría ir a | quiero ir a.
<ciudad> = Lión | París | Londres | Rennes.
<frase> = <deseo> <ciudad>
Por tanto :: <deseo> será: "me gustaría ir a" para la parte de las vías prevista por el algoritmo de Viterbi para las posibilidades:
Me gustaría ir a Lión
Me gustaría ir a París
Me gustaría ir a Londres
Me gustaría ir a Rennes
Y equivaldría a "quiero ir a" en el caso de las otras.
Los desencadenantes del modelo de lenguaje se definen por tanto de la forma siguiente:
Si <símbolo>:: pertenece a un sub-grupo dado de las posibles realizaciones del símbolo en cuestión, entonces otro símbolo <T(símbolo)>, que es el símbolo objetivo del símbolo actual, bien se reduce a una sub-parte de su ámbito de extensión normal, es decir a su ámbito de extensión si el desencadenante no está presente en la cadena de decodificación, (desencadenante reductor), bien es activado y está disponibles, con un factor de conexión no nulo a la salida de cada bloque sintáctico perteneciente al grupo denominado de los "candidatos activadores" (desencadenante activador).
Observemos que:
No es necesario que todos los bloques describan un proceso de desencadenamiento.
El objetivo de un símbolo puede ser el propio símbolo, si se utiliza de forma múltiple en el modelo de lenguaje.
Para un bloque, sólo puede existir una sub-parte de su conjunto de realización que sea uno de los componentes de un mecanismo de desencadenamiento, no siendo el complementario por sí mismo un desencadenante.
El objetivo de un desencadenante activador puede ser un símbolo opcional.
Los mecanismos de desencadenamiento reductores permiten procesar, en nuestro modelo de lenguaje de bloques, las repeticiones coherentes de temas. Pueden encontrarse informaciones suplementarias sobre la noción de desencadenante en el documento de referencia citado anteriormente, concretamente en las páginas 245 a 253.
Los mecanismos de desencadenamiento activadores permiten modelar ciertos grupos sintácticos libres, en idiomas que sean muy flexivos.
\newpage
Cabe señalar que los desencadenantes, sus objetivos y la restricción relativa a los objetivos pueden determinarse manualmente u obtenerse mediante un proceso automático, por ejemplo mediante un método de máxima entropía.
\bullet Consideración del lenguaje hablado
La construcción descrita anteriormente define la sintaxis del modelo de lenguaje, sin tener en cuenta las vacilaciones, las repeticiones, los falsos inicios, los cambios de opinión, etc., que serían de esperar en un estilo hablado. Los fenómenos vinculados al lenguaje hablado son difícilmente reconocibles por una gramática, debido al hecho de su naturaleza impredecible. Las redes n-grama están más adaptadas para reconocer este tipo de fenómenos.
Estos fenómenos vinculados al lenguaje hablado puede clasificarse en cinco categorías:
Vacilación simple: me gustaría (eeeeehh ... silencio) ir a Lión.
La repetición simple, en la que una parte de la frase (a menudo los determinantes y los artículos, pero en ciertas ocasiones trozos enteros de oración), se repiten pura y simplemente: me gustaría ir a (a a a) Lión.
El intercambio simple, en el curso del cual se sustituye una fórmula, sobre la marcha, por una forma con el mismo sentido, pero sintácticamente diferente: me gustaría ir (eeeehhh viajar) a Lión.
El cambio de opinión: una parte de la frase se corrige, con un sentido diferente, en el transcurso del enunciado: quería ir a Lión (eeeehhh a París).
El balbuceo: me gustaría ir a (Praris eeehh) París.
Los dos primeros fenómenos son los más frecuentes: aproximadamente un 80% de las vacilaciones se clasifican en uno de estos grupos.
El modelo de lenguaje de la invención trata estos fenómenos de la forma siguiente:
Vacilación simple
La vacilación simple se trata mediante la creación de palabras asociadas a las trazas geométricas que marcan la vacilación en el idioma en cuestión y que se tratan de la misma forma que las otras en relación con el modelo de lenguaje (probabilidad de aparición, de ir seguida por un silencio, etc.), y en los modelos fonéticos (co-articulación, etc.).
Se ha destacado el hecho de que las vacilaciones simples se producen en lugares concretos de una frase, por ejemplo: entre el primer verbo y el segundo verbo. Para tratarlas, un ejemplo de regla de escritura, de acuerdo con la presente invención, consiste en:
<Grupo verbal> = <primer verbo> <red n-grama> <segundo verbo>
Repetición simple
La repetición simple se trata mediante una técnica de caché que contiene la frase analizada actualmente en esta etapa de decodificación. En el modelo de lenguaje existe una probabilidad fija de que haya conexión en la caché. La salida de la caché está conectada al modelo de lenguaje por bloques, recuperando el estado alcanzado con anterioridad a la activación de la caché.
La caché contiene de hecho el último bloque del trozo de frase en curso, pudiendo repetirse dicho bloque. Por el contrario, si se trata del bloque que va antes del último, no puede ser tratado por una caché de este tipo, siendo entonces preciso revisar por completo la frase.
Cuando se trata de una repetición de los artículos, en el caso de aquellos idiomas en los que pueda darse esta posibilidad, la caché incluye el artículo y sus formas apropiadas, cambiando el número y el género.
En francés, por ejemplo, la caché correspondiente a "de" contiene "du" y "des". Efectivamente, la modificación de género y número suele ser frecuente.
Intercambio simple y cambio de opinión
El intercambio simple se trata mediante la creación de grupos de bloques asociados entre los cuales es posible un intercambio simple, es decir que existe una probabilidad de que exista salida de bloque y conexión al principio de uno de los otros bloques del grupo.
\newpage
Para el intercambio simple, la salida de bloque está acoplada con un desencadenamiento, en los bloques asociados al mismo grupo, de sub-partes con el mismo sentido.
Para el cambio de opinión, bien no existe desencadenamiento o bien existe desencadenamiento de las sub-partes con un sentido diferente.
También es posible no poder recurrir al desencadenamiento y clasificar la vacilación mediante análisis a posteriori.
Balbuceo
Se trata como una repetición simple.
La ventaja de este modo de tratamiento de las vacilaciones (salvo en el caso de la vacilación simple) es que la creación de los grupos asociados aumenta el índice de reconocimiento en comparación con una frase sin vacilación, a causa de la redundancia de información semántica presente. Por el contrario, la carga de cálculo es mayor.
Referencias
(1) Self-Organized language modeling for speach recognition. F. Jelinek. Readings in speech recognition. P 450-506, Morgan Kaufman Publishers, 1990
(2) Basic methods of probabilistic context-free grammars, de F. Jelinek, J. D. Lafferty y R L Mercer serie NATO ASI Vo. 75 pág. 345-359, 1992.
(3) Trigger-based language models: a maximum entropy approach. R Lau, R Rosenfeld, S Roukos. Proceedings IEEE ICASSP, 1993.
(4) Statistical methods for speech recognition, de F. Jelinek, MIT Press ISBN 0-262-10066-5, pág. 245-253.

Claims (3)

1. Dispositivo para reconocimiento de voz (1) que comprende un procesador de audio (2) para la adquisición de una señal de audio y un decodificador lingüístico (6) para determinar una secuencia de palabras correspondiente a la señal de audio, incluyendo el decodificador un modelo de lenguaje (8), caracterizado porque dicho modelo de lenguaje (8) viene determinado por un primer conjunto de, al menos, un bloque sintáctico rígido y un segundo conjunto de, al menos, un bloque sintáctico flexible, estando definido el primer conjunto de, al menos, un bloque sintáctico rígido por una gramática de tipo BNF, estando definido el segundo conjunto de, al menos, un bloque sintáctico flexible por una o varias redes n-grama, estando incorporado cada bloque flexible a la gramática BNF como un símbolo particular y conteniendo una palabra específica de salida que autoriza a salir del bloque.
2. Dispositivo de acuerdo con la reivindicación 1 caracterizado porque los datos de las redes n-grama se generan con ayuda de una gramática o de una lista de porciones de frase.
3. Dispositivo de acuerdo con la reivindicación 1 o 2 caracterizado porque la red n-grama contiene datos que corresponden a uno o varios de los siguientes fenómenos: la vacilación simple, la repetición simple, el intercambio simple, el cambio de opinión y el balbuceo.
ES00985352T 1999-12-02 2000-11-29 Reconocimiento de voz con un modelo complementario de lenguaje para errores tipicos del dialogo hablado. Expired - Lifetime ES2257344T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9915190 1999-12-02
FR9915190 1999-12-02

Publications (1)

Publication Number Publication Date
ES2257344T3 true ES2257344T3 (es) 2006-08-01

Family

ID=9552794

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00985352T Expired - Lifetime ES2257344T3 (es) 1999-12-02 2000-11-29 Reconocimiento de voz con un modelo complementario de lenguaje para errores tipicos del dialogo hablado.

Country Status (10)

Country Link
US (1) US20030105633A1 (es)
EP (1) EP1236198B1 (es)
JP (1) JP2003515777A (es)
KR (1) KR100726875B1 (es)
CN (1) CN1224954C (es)
AU (1) AU2180001A (es)
DE (1) DE60026366T2 (es)
ES (1) ES2257344T3 (es)
MX (1) MXPA02005466A (es)
WO (1) WO2001041125A1 (es)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
DE10120513C1 (de) 2001-04-26 2003-01-09 Siemens Ag Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache
DE10211777A1 (de) * 2002-03-14 2003-10-02 Philips Intellectual Property Erzeugung von Nachrichtentexten
US7937396B1 (en) * 2005-03-23 2011-05-03 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
US7937265B1 (en) 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
CN102237087B (zh) * 2010-04-27 2014-01-01 中兴通讯股份有限公司 语音控制方法和语音控制装置
KR101122591B1 (ko) 2011-07-29 2012-03-16 (주)지앤넷 핵심어 인식에 의한 음성 인식 장치 및 방법
KR102026967B1 (ko) * 2014-02-06 2019-09-30 한국전자통신연구원 n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법
CN109841210B (zh) * 2017-11-27 2024-02-20 西安中兴新软件有限责任公司 一种智能操控实现方法及装置、计算机可读存储介质
CN110111779B (zh) * 2018-01-29 2023-12-26 阿里巴巴集团控股有限公司 语法模型生成方法及装置、语音识别方法及装置
CN110827802A (zh) * 2019-10-31 2020-02-21 苏州思必驰信息科技有限公司 语音识别训练和解码方法及装置
US20210158803A1 (en) * 2019-11-21 2021-05-27 Lenovo (Singapore) Pte. Ltd. Determining wake word strength
CN111415655B (zh) * 2020-02-12 2024-04-12 北京声智科技有限公司 语言模型构建方法、装置及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
US5675706A (en) * 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
KR19990015131A (ko) * 1997-08-02 1999-03-05 윤종용 영한 자동번역 시스템의 숙어 번역 방법
FR2801716B1 (fr) * 1999-11-30 2002-01-04 Thomson Multimedia Sa Dispositif de reconnaissance vocale mettant en oeuvre une regle syntaxique de permutation

Also Published As

Publication number Publication date
WO2001041125A1 (fr) 2001-06-07
AU2180001A (en) 2001-06-12
EP1236198B1 (fr) 2006-03-01
CN1224954C (zh) 2005-10-26
KR100726875B1 (ko) 2007-06-14
CN1402867A (zh) 2003-03-12
DE60026366D1 (de) 2006-04-27
JP2003515777A (ja) 2003-05-07
EP1236198A1 (fr) 2002-09-04
DE60026366T2 (de) 2006-11-16
KR20020060978A (ko) 2002-07-19
US20030105633A1 (en) 2003-06-05
MXPA02005466A (es) 2002-12-16

Similar Documents

Publication Publication Date Title
Czech A System for Recognizing Natural Spelling of English Words
Ney et al. Progress in dynamic programming search for LVCSR
Jelinek et al. Design of a linguistic statistical decoder for the recognition of continuous speech
ES2257344T3 (es) Reconocimiento de voz con un modelo complementario de lenguaje para errores tipicos del dialogo hablado.
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US6067514A (en) Method for automatically punctuating a speech utterance in a continuous speech recognition system
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
Elshafei et al. Statistical methods for automatic diacritization of Arabic text
JPH0855122A (ja) 文脈タガー
Renals et al. Start-synchronous search for large vocabulary continuous speech recognition
ES2254118T3 (es) Dispositivo para reconocimiento de voz que lleva a cabo una regla de permutacion sintactica.
Buchsbaum et al. Algorithmic aspects in speech recognition: An introduction
ES2283414T3 (es) Analisis sintactico y semantico de comandos vocales.
JP6001944B2 (ja) 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム
Wang et al. Exploring lexicon-free modeling units for end-to-end korean and korean-english code-switching speech recognition
Maučec et al. Modelling highly inflected Slovenian language
JPH1097535A (ja) 音声言語解析装置
Lau Subword lexical modelling for speech recognition
Büler et al. Using language modelling to integrate speech recognition with a flat semantic analysis
MAUČEC et al. Using data-driven subword units in language model of highly inflective Slovenian language
Caseiro et al. A decoder for finite-state structured search spaces
KR20010077041A (ko) 트리구조의 언어모델을 갖는 연속 음성 인식 장치
Kibkalo et al. The Russian Speaker Independent Consecutive Speech Decoder
Yun et al. Stochastic Pronunciation Lexicon Modeling for Large Vocabulary Continous Speech Recognition
Rotovnik et al. Slovenian large vocabulary speech recognition with data-driven models of inflectional morphology