ES2257344T3 - Reconocimiento de voz con un modelo complementario de lenguaje para errores tipicos del dialogo hablado. - Google Patents
Reconocimiento de voz con un modelo complementario de lenguaje para errores tipicos del dialogo hablado.Info
- Publication number
- ES2257344T3 ES2257344T3 ES00985352T ES00985352T ES2257344T3 ES 2257344 T3 ES2257344 T3 ES 2257344T3 ES 00985352 T ES00985352 T ES 00985352T ES 00985352 T ES00985352 T ES 00985352T ES 2257344 T3 ES2257344 T3 ES 2257344T3
- Authority
- ES
- Spain
- Prior art keywords
- block
- language
- language model
- symbol
- flexible
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000000295 complement effect Effects 0.000 title description 3
- 230000005236 sound signal Effects 0.000 claims abstract description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 208000027765 speech disease Diseases 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 241000282320 Panthera leo Species 0.000 description 2
- 239000012190 activator Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 241000233805 Phoenix Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
Dispositivo para reconocimiento de voz (1) que comprende un procesador de audio (2) para la adquisición de una señal de audio y un decodificador lingüístico (6) para determinar una secuencia de palabras correspondiente a la señal de audio, incluyendo el decodificador un modelo de lenguaje (8), caracterizado porque dicho modelo de lenguaje (8) viene determinado por un primer conjunto de, al menos, un bloque sintáctico rígido y un segundo conjunto de, al menos, un bloque sintáctico flexible, estando definido el primer conjunto de, al menos, un bloque sintáctico rígido por una gramática de tipo BNF, estando definido el segundo conjunto de, al menos, un bloque sintáctico flexible por una o varias redes n- grama, estando incorporado cada bloque flexible a la gramática BNF como un símbolo particular y conteniendo una palabra específica de salida que autoriza a salir del bloque.
Description
Reconocimiento de voz con un modelo
complementario de lenguaje para errores típicos del diálogo
hablado.
La presente invención hace referencia a un
dispositivo para reconocimiento de voz que comprende un modelo de
lenguaje definido con ayuda de bloques sintácticos de naturaleza
diferente, denominados bloques rígidos y bloques flexibles.
Los sistemas informáticos o de control utilizan
cada vez más a menudo un interfaz de voz para interactuar con el
usuario de forma rápida e intuitiva. Al ser dichos sistemas cada
vez más complejos, los estilos de diálogo soportados son cada vez
más ricos y nos introducimos en el ámbito del reconocimiento de voz
continuo con un vocabulario muy amplio.
Es sabido que la concepción de un sistema de
reconocimiento de voz continuo con un vocabulario amplio representa
crear un Modelo de Lenguaje que define la probabilidad de que una
palabra dada del vocabulario de la aplicación siga a otra palabra o
grupo de palabras, en el orden cronológico de la frase.
Este modelo de lenguaje debe reproducir el estilo
de locución normalmente empleado por un usuario del sistema:
vacilaciones, falsos inicios, cambios de opinión, etc.
La calidad del modelo de lenguaje utilizado
influye enormemente en la fiabilidad del reconocimiento de voz.
Dicha calidad se mide cada vez con mayor frecuencia mediante un
índice denominado perplejidad del modelo de lenguaje y que
representa esquemáticamente el número de elecciones que debe
efectuar el sistema para cada palabra decodificada. Cuanto más baja
sea dicha perplejidad, mayor será la calidad.
El modelo de lenguaje es necesario para traducir
la señal de voz en una sucesión textual de palabras, una etapa que
a menudo es utilizada por los sistemas de diálogo. Por tanto, es
necesario construir una lógica de comprensión que permita
comprender la solicitud formulada verbalmente para responder a la
misma.
Existen dos métodos estándar para generar modelos
de lenguaje de amplio vocabulario:
(1) El método estadístico denominado
N-grama, normalmente en bigrama o trigrama, que
consiste en suponer que la probabilidad de aparición de una palabra
en la frase depende únicamente de las N palabras que la preceden,
independientemente de su contexto en la frase.
Si se toma el ejemplo del trigrama para un
vocabulario de 1000 palabras, dado que existen 1000^{3} grupos
posibles de tres elementos, sería preciso definir 1000^{3}
probabilidades para definir el modelo de lenguaje, lo que ocupa un
considerable volumen de memoria y requiere una gran potencia de
cálculo. Para resolver este problema, las palabras se agrupan en
conjuntos que bien son definidos explícitamente por el diseñador
del modelo o bien son deducidos mediante métodos
auto-organizativos.
Este modelo de lenguaje se construye
automáticamente a partir de un cuerpo de texto.
(2) El segundo método consiste en describir la
sintaxis por medio de una gramática probabilística, normalmente una
gramática no contextual definida en virtud de una serie de reglas
descritas en la llamada Notación de Backus Naur o notación BNF.
Las reglas que describen gramáticas suelen estar
manuscritas, pero también pueden deducirse automáticamente. A este
respecto puede hacerse referencia al siguiente documento:
"Basic methods of probabilistic
context-free grammars", de F. Jelinek, J. D.
Lafferty y R L Mercer serie NATO ASI Vo. 75 pág.
345-359, 1992.
Los modelos descritos anteriormente plantean
problemas específicos cuando se aplican a interfaces de sistemas de
lenguaje natural:
Los modelos de lenguaje tipo
N-grama (1) no modelan correctamente las
dependencias entre varias subestructuras gramaticales distantes
presentes en la oración. Para una oración pronunciada correctamente
desde el punto de vista sintáctico, no hay nada que garantice el
cumplimiento de dichas subestructuras a lo largo del reconocimiento
y, por tanto, resulta difícil determinar si la oración implica un
sentido y qué sentido, que normalmente se apoya en una o más
estructuras sintácticas específicas.
Estos modelos son adecuados para el dictado
continuo, pero su aplicación en sistemas de diálogo adolece de los
defectos mencionados.
Por el contrario, en un modelo de tipo
N-grama es posible tener en cuenta las vacilaciones
y repeticiones, definiendo unos conjuntos de palabras que reagrupen
las palabras que se han pronunciado efectivamente recientemente.
Los modelos basados en gramáticas (2) hacen
posible modelar correctamente las dependencias remotas de una
oración, así como cumplir unas subestructuras sintácticas
específicas. La perplejidad del lenguaje obtenido suele ser peor
para una aplicación dada que para los modelos de tipo
N-grama.
Por el contrario, no resultan útiles para la
descripción de un estilo de lenguaje hablado teniendo en cuenta las
vacilaciones, los falsos inicios, etc. En efecto, estos fenómenos
vinculados al lenguaje oral no pueden predecirse, pareciendo por
tanto difícil concebir unas gramáticas que, por su propia
naturaleza, se basen en unas reglas de lenguaje.
Además, el número de reglas necesarias para
cubrir una aplicación es tan grande que hace difícil tener en
cuenta nuevas frases a añadir al diálogo previsto sin modificar las
reglas existentes.
El documento ``Reliable utterance segment
recognition by integrating a grammar with statistical language
constraints, Tsukada y otros, Speech Communication, volumen 26 nº
4, diciembre de 1998, páginas 299 a 309, divulga dos modelos de
lenguaje: ambos modelos funcionan simultáneamente y buscan frases
que satisfagan a los dos a la vez. Esta solución, al utilizar dos
modelos de lenguaje en paralelo, necesita una gran potencia de
cálculo.
El documento "Integrated grammar/bigram
language model using parch scores", Lloyd-Thomas
y otros, Detroit, 9 a 12 de mayo de 1995, Speech, Nueva York,
IEEE, EE.UU, páginas 173 a 176, trata un modelo de lenguaje formado
a la vez por datos estadísticos y reglas gramaticales. El modelo de
lenguaje descrito necesita la utilización de un algoritmo de
reconocimiento especialmente concebido para obtener el mejor
partido del modelo de lenguaje.
El motor semántico descrito en el documento
"Modeling disfluency and background events in ASR for a natural
language understanding task", Phoenix, Arizona, 15 a 19 de marzo
1999, Nueva York, IEEE, EE.UU, páginas 341 a 344, está formado, por
una parte, por un modelo acústico (en este caso un HMM) y, por otra
parte, por un modelo de lenguaje (en este caso, un modelo basado en
n-gramas) de tal forma que un procesador de señales
que utilice el modelo acústico producido y un motor de
reconocimiento que utilice el modelo de lenguaje producido puedan
trabajar conjuntamente para obtener un mejor resultado. Este
documento presenta técnicas de automatización de la producción del
modelo acústico y del modelo de lenguaje, permitiendo que funcionen
juntos correctamente.
La invención tiene por objeto un dispositivo para
reconocimiento de voz como el reivindicado en la reivindicación
1.
La asociación de los dos tipos de bloques
sintácticos permite resolver fácilmente los problemas vinculados al
lenguaje oral, beneficiándose del modelado de las dependencias
entre los elementos de una frase, modelo que puede procesarse con
facilidad con ayuda de un bloque sintáctico rígido.
De acuerdo con una particularidad, las redes
n-grama contenidas en los segundos bloques
flexibles, incluyen datos que permiten reconocer los siguientes
fenómenos del lenguaje oral: la vacilación o titubeo simple, la
repetición simple, el intercambio simple, el cambio de opinión y el
balbuceo.
El modelo de lenguaje acorde con la invención
permite la combinación de las ventajas de los dos sistemas,
definiendo dos tipos de entidades que se combinan para formar el
modelo de lenguaje final.
Para ciertas entidades se conserva una sintaxis
rígida y se les asocia un analizador sintáctico, mientras que otras
se describen mediante una red de tipo n-grama.
Además, de acuerdo con una variante de
realización, se definen unos bloques libres "activados" por
bloques de uno de los tipos anteriores.
Otras características y ventajas de la invención
se apreciarán mediante la descripción de una realización específica
no limitativa, explicada con la ayuda de las figuras adjuntas, en
las cuales:
- La figura 1 es un diagrama de un sistema de
reconocimiento de voz.
- La figura 2 es un diagrama OMT que define un
bloque sintáctico de acuerdo con la invención.
La figura 1 es un diagrama de bloques de un
ejemplo de dispositivo 1 para el reconocimiento de voz. Este
dispositivo incluye un procesador 2 de la señal de audio que
realiza la digitalización de una señal de audio originada en un
micrófono 3 mediante un circuito de adquisición de señales 4. El
procesador también convierte las muestras digitales en símbolos
acústicos seleccionados a partir de un alfabeto predeterminado.
Para este propósito, incluye un decodificador
fonético-acústico 5. Un decodificador lingüístico 6
procesa estos símbolos para determinar, para una secuencia A de
símbolos, la secuencia de palabras W más probable, teniendo en
cuenta la secuencia A.
El decodificador lingüístico utiliza un modelo
acústico 7 y un modelo de lenguaje 8 implementado mediante un
algoritmo de búsqueda basado en hipótesis 9. El modelo acústico es,
por ejemplo, un modelo de los denominados modelo de Markov oculto
(o HMM). El modelo de lenguaje implementado en el presente ejemplo
de realización está basado en una gramática descrita con la ayuda de
las reglas de sintaxis de la notación Backus Naur. El modelo de
lenguaje se utiliza para someter las hipótesis al algoritmo de
búsqueda. Este último, que es el motor de reconocimiento
propiamente dicho, es, en relación con el presente ejemplo, un
algoritmo de búsqueda basado en un algoritmo de tipo Viterbi y al
que se denomina "n-best [n mejores]". El
algoritmo de tipo n-best determina en cada fase del
análisis de una oración las n secuencias de palabras más probables.
Al final de la oración, se selecciona la solución más probable de
entre las n candidatas.
Los conceptos del párrafo anterior son bien
conocidos por sí mismos para aquellas personas versadas en la
materia, pero se ofrece información relativa en particular al
algoritmo n-best en el trabajo:
"Statistical methods for speech
recognition", de F. Jelinek, MIT Press 1999 ISBN
0-262-10066-5,
páginas 79 a 84. También pueden implementarse otros algoritmos,
concretamente otros algoritmos del tipo "Beam Search [búsqueda de
haz]", de los cuales el algoritmo "n-best"
constituye un ejemplo.
El modelo de lenguaje de la invención utiliza
unos bloques sintácticos que pueden ser de uno de los dos tipos
mostrados en la figura 2: bloque de tipo rígido o bloque de tipo
flexible.
Los bloques sintácticos rígidos se definen
mediante una sintaxis del tipo BNF, con cinco reglas de
escritura:
(a) <símbolo A> = <símbolo B> |
<símbolo C> (Símbolo o)
(b) <símbolo A> = <símbolo B>
<símbolo C> (símbolo y)
(c) <símbolo A> = <símbolo B>?
(símbolo opcional)
(d) <símbolo A> = "palabra léxica"
(atribución léxica)
(e) <símbolo A> = P{<símbolo B>,
<símbolo C>, ... <símbolo X>} (símbolo B >
<símbolo C>)
(....)
(símbolo I > <símbolo J>)
(todas las permutaciones sin repetición de los
símbolos citados, sin limitaciones: el símbolo B debe aparecer
antes que el símbolo C, el símbolo I antes que el símbolo J
...)
La implementación de la regla (e) se explica más
detalladamente en la solicitud de patente francesa nº 9915083,
titulada "Dispositivo para reconocimiento de voz que implementa
una regla sintáctica de permutación", presentada en nombre de
Thomson Multimedia el 30 de noviembre de 1999.
Los bloques flexibles se definen bien mediante la
misma sintaxis BNF definida anteriormente, bien como una lista de
porciones de frase, bien mediante una lista de vocabulario y las
correspondientes redes n-grama, o bien mediante la
combinación de las tres. Pero estas informaciones se convierten
sistemáticamente en una red n-grama, y si la
definición se ha efectuado mediante un archivo BNF, no se garantiza
que puedan generarse solamente las frases sintácticamente correctas
de acuerdo con esta gramática.
Un bloque flexible se define por tanto mediante
una probabilidad P(S) de aparición de la sucesión S de n
palabras w_{i} con la siguiente forma (en el caso de un
trigrama):
P(S) =
\Pi_{1,n} \
P(w_{i})
Dónde P(w_{i}) = P
(w_{i}|w_{i-1}, w_{i-2})
Para cada bloque flexible existe una palabra
especial de salida de bloque que aparece en la red
n-grama de la misma forma que una palabra normal,
pero que no tiene traza fonética y que autoriza a salir del
bloque.
Una vez que se han definido estos bloques
sintácticos (de tipo n-grama o de tipo BNF), pueden
utilizarse de nuevo como átomos para construcciones de orden
superior.
En el caso de un bloque BF, pueden utilizarse los
bloques inferiores en lugar de la atribución léxica así como en las
otras reglas.
En el caso de un bloque del tipo
n-grama, los bloques de nivel inferior se utilizan
en lugar de las palabras w_{i} por lo que pueden encadenarse
varios bloques con una probabilidad dada.
Una vez definida la red n-grama,
se incorpora a la gramática BNF descrita anteriormente como un
símbolo particular. Pueden incorporarse tantas redes
n-grama como sean necesarias a la gramática BNF. Las
permutaciones utilizadas para la definición de un bloque para
definir un bloque de tipo BNF son procesadas en el algoritmo de
búsqueda del motor de reconocimiento mediante unas variables de
tipo booleano utilizadas para dirigir la búsqueda al efectuar el
recorte que normalmente se efectúa en este tipo de situación.
Puede apreciarse que el símbolo de salida del
bloque flexible puede también interpretarse como un símbolo de
subida al bloque superior, que también puede ser un bloque flexible
o un bloque rígido.
La fórmula que antecede no basta aún para
describir el modelo de lenguaje de una aplicación de diálogo
hombre-máquina con un vocabulario amplio. De acuerdo
con una variante de realización, se añade un mecanismo de
desencadenamiento o "trigger". El desencadenante permite dar
sentido a una palabra o bloque a fin de asociarlo a determinados
elementos. Por ejemplo, supongamos que la palabra "documental"
se reconoce en contexto de una guía electrónica de programas
audiovisuales. A esta palabra se le puede asociar una lista de
palabras como ``de animales, deportivo, turístico, ...). Estas
palabras tienen sentido para "documental" y puede esperarse
que se le asocie una de ellas.
Para ello, llamaremos <bloque> a un bloque
anteriormente descrito y ::<bloque> a la realización de dicho
bloque mediante una de sus instancias en el curso del algoritmo de
reconocimiento, es decir su presencia en la cadena actualmente
decodificada en el algoritmo de búsqueda "n-best
search".
Por ejemplo, podríamos tener:
<deseo> = me gustaría ir a | quiero ir
a.
<ciudad> = Lión | París | Londres |
Rennes.
<frase> = <deseo> <ciudad>
Por tanto :: <deseo> será: "me gustaría
ir a" para la parte de las vías prevista por el algoritmo de
Viterbi para las posibilidades:
Me gustaría ir a Lión
Me gustaría ir a París
Me gustaría ir a Londres
Me gustaría ir a Rennes
Y equivaldría a "quiero ir a" en el caso de
las otras.
Los desencadenantes del modelo de lenguaje se
definen por tanto de la forma siguiente:
Si <símbolo>:: pertenece a un
sub-grupo dado de las posibles realizaciones del
símbolo en cuestión, entonces otro símbolo
<T(símbolo)>, que es el símbolo objetivo del símbolo
actual, bien se reduce a una sub-parte de su ámbito
de extensión normal, es decir a su ámbito de extensión si el
desencadenante no está presente en la cadena de decodificación,
(desencadenante reductor), bien es activado y está disponibles, con
un factor de conexión no nulo a la salida de cada bloque sintáctico
perteneciente al grupo denominado de los "candidatos
activadores" (desencadenante activador).
Observemos que:
No es necesario que todos los bloques describan
un proceso de desencadenamiento.
El objetivo de un símbolo puede ser el propio
símbolo, si se utiliza de forma múltiple en el modelo de
lenguaje.
Para un bloque, sólo puede existir una
sub-parte de su conjunto de realización que sea uno
de los componentes de un mecanismo de desencadenamiento, no siendo
el complementario por sí mismo un desencadenante.
El objetivo de un desencadenante activador puede
ser un símbolo opcional.
Los mecanismos de desencadenamiento reductores
permiten procesar, en nuestro modelo de lenguaje de bloques, las
repeticiones coherentes de temas. Pueden encontrarse informaciones
suplementarias sobre la noción de desencadenante en el documento de
referencia citado anteriormente, concretamente en las páginas 245 a
253.
Los mecanismos de desencadenamiento activadores
permiten modelar ciertos grupos sintácticos libres, en idiomas que
sean muy flexivos.
\newpage
Cabe señalar que los desencadenantes, sus
objetivos y la restricción relativa a los objetivos pueden
determinarse manualmente u obtenerse mediante un proceso
automático, por ejemplo mediante un método de máxima entropía.
La construcción descrita anteriormente define la
sintaxis del modelo de lenguaje, sin tener en cuenta las
vacilaciones, las repeticiones, los falsos inicios, los cambios de
opinión, etc., que serían de esperar en un estilo hablado. Los
fenómenos vinculados al lenguaje hablado son difícilmente
reconocibles por una gramática, debido al hecho de su naturaleza
impredecible. Las redes n-grama están más adaptadas
para reconocer este tipo de fenómenos.
Estos fenómenos vinculados al lenguaje hablado
puede clasificarse en cinco categorías:
Vacilación simple: me gustaría (eeeeehh
... silencio) ir a Lión.
La repetición simple, en la que una parte
de la frase (a menudo los determinantes y los artículos, pero en
ciertas ocasiones trozos enteros de oración), se repiten pura y
simplemente: me gustaría ir a (a a a) Lión.
El intercambio simple, en el curso del
cual se sustituye una fórmula, sobre la marcha, por una forma con
el mismo sentido, pero sintácticamente diferente: me gustaría ir
(eeeehhh viajar) a Lión.
El cambio de opinión: una parte de la
frase se corrige, con un sentido diferente, en el transcurso del
enunciado: quería ir a Lión (eeeehhh a París).
El balbuceo: me gustaría ir a (Praris
eeehh) París.
Los dos primeros fenómenos son los más
frecuentes: aproximadamente un 80% de las vacilaciones se
clasifican en uno de estos grupos.
El modelo de lenguaje de la invención trata estos
fenómenos de la forma siguiente:
La vacilación simple se trata mediante la
creación de palabras asociadas a las trazas geométricas que marcan
la vacilación en el idioma en cuestión y que se tratan de la misma
forma que las otras en relación con el modelo de lenguaje
(probabilidad de aparición, de ir seguida por un silencio, etc.), y
en los modelos fonéticos (co-articulación,
etc.).
Se ha destacado el hecho de que las vacilaciones
simples se producen en lugares concretos de una frase, por ejemplo:
entre el primer verbo y el segundo verbo. Para tratarlas, un
ejemplo de regla de escritura, de acuerdo con la presente
invención, consiste en:
<Grupo
verbal> = <primer verbo> <red
n-grama> <segundo
verbo>
La repetición simple se trata mediante una
técnica de caché que contiene la frase analizada actualmente en
esta etapa de decodificación. En el modelo de lenguaje existe una
probabilidad fija de que haya conexión en la caché. La salida de la
caché está conectada al modelo de lenguaje por bloques, recuperando
el estado alcanzado con anterioridad a la activación de la
caché.
La caché contiene de hecho el último bloque del
trozo de frase en curso, pudiendo repetirse dicho bloque. Por el
contrario, si se trata del bloque que va antes del último, no puede
ser tratado por una caché de este tipo, siendo entonces preciso
revisar por completo la frase.
Cuando se trata de una repetición de los
artículos, en el caso de aquellos idiomas en los que pueda darse
esta posibilidad, la caché incluye el artículo y sus formas
apropiadas, cambiando el número y el género.
En francés, por ejemplo, la caché correspondiente
a "de" contiene "du" y "des".
Efectivamente, la modificación de género y número suele ser
frecuente.
El intercambio simple se trata mediante la
creación de grupos de bloques asociados entre los cuales es posible
un intercambio simple, es decir que existe una probabilidad de que
exista salida de bloque y conexión al principio de uno de los otros
bloques del grupo.
\newpage
Para el intercambio simple, la salida de bloque
está acoplada con un desencadenamiento, en los bloques asociados al
mismo grupo, de sub-partes con el mismo
sentido.
Para el cambio de opinión, bien no existe
desencadenamiento o bien existe desencadenamiento de las
sub-partes con un sentido diferente.
También es posible no poder recurrir al
desencadenamiento y clasificar la vacilación mediante análisis a
posteriori.
Se trata como una repetición simple.
La ventaja de este modo de tratamiento de las
vacilaciones (salvo en el caso de la vacilación simple) es que la
creación de los grupos asociados aumenta el índice de
reconocimiento en comparación con una frase sin vacilación, a causa
de la redundancia de información semántica presente. Por el
contrario, la carga de cálculo es mayor.
(1) Self-Organized language
modeling for speach recognition. F. Jelinek. Readings in
speech recognition. P 450-506, Morgan Kaufman
Publishers, 1990
(2) Basic methods of probabilistic
context-free grammars, de F. Jelinek, J. D.
Lafferty y R L Mercer serie NATO ASI Vo. 75 pág.
345-359, 1992.
(3) Trigger-based language
models: a maximum entropy approach. R Lau, R
Rosenfeld, S Roukos. Proceedings IEEE ICASSP,
1993.
(4) Statistical methods for speech recognition,
de F. Jelinek, MIT Press ISBN
0-262-10066-5, pág.
245-253.
Claims (3)
1. Dispositivo para reconocimiento de voz (1) que
comprende un procesador de audio (2) para la adquisición de una
señal de audio y un decodificador lingüístico (6) para determinar
una secuencia de palabras correspondiente a la señal de audio,
incluyendo el decodificador un modelo de lenguaje (8),
caracterizado porque dicho modelo de lenguaje (8) viene
determinado por un primer conjunto de, al menos, un bloque
sintáctico rígido y un segundo conjunto de, al menos, un bloque
sintáctico flexible, estando definido el primer conjunto de, al
menos, un bloque sintáctico rígido por una gramática de tipo BNF,
estando definido el segundo conjunto de, al menos, un bloque
sintáctico flexible por una o varias redes n-grama,
estando incorporado cada bloque flexible a la gramática BNF como un
símbolo particular y conteniendo una palabra específica de salida
que autoriza a salir del bloque.
2. Dispositivo de acuerdo con la reivindicación 1
caracterizado porque los datos de las redes
n-grama se generan con ayuda de una gramática o de
una lista de porciones de frase.
3. Dispositivo de acuerdo con la reivindicación 1
o 2 caracterizado porque la red n-grama
contiene datos que corresponden a uno o varios de los siguientes
fenómenos: la vacilación simple, la repetición simple, el
intercambio simple, el cambio de opinión y el balbuceo.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR9915190 | 1999-12-02 | ||
| FR9915190 | 1999-12-02 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2257344T3 true ES2257344T3 (es) | 2006-08-01 |
Family
ID=9552794
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES00985352T Expired - Lifetime ES2257344T3 (es) | 1999-12-02 | 2000-11-29 | Reconocimiento de voz con un modelo complementario de lenguaje para errores tipicos del dialogo hablado. |
Country Status (10)
| Country | Link |
|---|---|
| US (1) | US20030105633A1 (es) |
| EP (1) | EP1236198B1 (es) |
| JP (1) | JP2003515777A (es) |
| KR (1) | KR100726875B1 (es) |
| CN (1) | CN1224954C (es) |
| AU (1) | AU2180001A (es) |
| DE (1) | DE60026366T2 (es) |
| ES (1) | ES2257344T3 (es) |
| MX (1) | MXPA02005466A (es) |
| WO (1) | WO2001041125A1 (es) |
Families Citing this family (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7249018B2 (en) * | 2001-01-12 | 2007-07-24 | International Business Machines Corporation | System and method for relating syntax and semantics for a conversational speech application |
| DE10120513C1 (de) | 2001-04-26 | 2003-01-09 | Siemens Ag | Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache |
| DE10211777A1 (de) * | 2002-03-14 | 2003-10-02 | Philips Intellectual Property | Erzeugung von Nachrichtentexten |
| US7937396B1 (en) * | 2005-03-23 | 2011-05-03 | Google Inc. | Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments |
| US7937265B1 (en) | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
| US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
| CN102237087B (zh) * | 2010-04-27 | 2014-01-01 | 中兴通讯股份有限公司 | 语音控制方法和语音控制装置 |
| KR101122591B1 (ko) | 2011-07-29 | 2012-03-16 | (주)지앤넷 | 핵심어 인식에 의한 음성 인식 장치 및 방법 |
| KR102026967B1 (ko) * | 2014-02-06 | 2019-09-30 | 한국전자통신연구원 | n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법 |
| CN109841210B (zh) * | 2017-11-27 | 2024-02-20 | 西安中兴新软件有限责任公司 | 一种智能操控实现方法及装置、计算机可读存储介质 |
| CN110111779B (zh) * | 2018-01-29 | 2023-12-26 | 阿里巴巴集团控股有限公司 | 语法模型生成方法及装置、语音识别方法及装置 |
| CN110827802A (zh) * | 2019-10-31 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别训练和解码方法及装置 |
| US20210158803A1 (en) * | 2019-11-21 | 2021-05-27 | Lenovo (Singapore) Pte. Ltd. | Determining wake word strength |
| CN111415655B (zh) * | 2020-02-12 | 2024-04-12 | 北京声智科技有限公司 | 语言模型构建方法、装置及存储介质 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2818362B2 (ja) * | 1992-09-21 | 1998-10-30 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声認識装置のコンテキスト切換えシステムおよび方法 |
| US5675706A (en) * | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
| US6601027B1 (en) * | 1995-11-13 | 2003-07-29 | Scansoft, Inc. | Position manipulation in speech recognition |
| KR19990015131A (ko) * | 1997-08-02 | 1999-03-05 | 윤종용 | 영한 자동번역 시스템의 숙어 번역 방법 |
| FR2801716B1 (fr) * | 1999-11-30 | 2002-01-04 | Thomson Multimedia Sa | Dispositif de reconnaissance vocale mettant en oeuvre une regle syntaxique de permutation |
-
2000
- 2000-11-29 ES ES00985352T patent/ES2257344T3/es not_active Expired - Lifetime
- 2000-11-29 AU AU21800/01A patent/AU2180001A/en not_active Abandoned
- 2000-11-29 KR KR1020027006796A patent/KR100726875B1/ko not_active Expired - Fee Related
- 2000-11-29 CN CNB008165661A patent/CN1224954C/zh not_active Expired - Fee Related
- 2000-11-29 DE DE60026366T patent/DE60026366T2/de not_active Expired - Lifetime
- 2000-11-29 EP EP00985352A patent/EP1236198B1/fr not_active Expired - Lifetime
- 2000-11-29 US US10/148,297 patent/US20030105633A1/en not_active Abandoned
- 2000-11-29 WO PCT/FR2000/003329 patent/WO2001041125A1/fr not_active Ceased
- 2000-11-29 JP JP2001542099A patent/JP2003515777A/ja active Pending
- 2000-11-29 MX MXPA02005466A patent/MXPA02005466A/es active IP Right Grant
Also Published As
| Publication number | Publication date |
|---|---|
| WO2001041125A1 (fr) | 2001-06-07 |
| AU2180001A (en) | 2001-06-12 |
| EP1236198B1 (fr) | 2006-03-01 |
| CN1224954C (zh) | 2005-10-26 |
| KR100726875B1 (ko) | 2007-06-14 |
| CN1402867A (zh) | 2003-03-12 |
| DE60026366D1 (de) | 2006-04-27 |
| JP2003515777A (ja) | 2003-05-07 |
| EP1236198A1 (fr) | 2002-09-04 |
| DE60026366T2 (de) | 2006-11-16 |
| KR20020060978A (ko) | 2002-07-19 |
| US20030105633A1 (en) | 2003-06-05 |
| MXPA02005466A (es) | 2002-12-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Czech | A System for Recognizing Natural Spelling of English Words | |
| Ney et al. | Progress in dynamic programming search for LVCSR | |
| Jelinek et al. | Design of a linguistic statistical decoder for the recognition of continuous speech | |
| ES2257344T3 (es) | Reconocimiento de voz con un modelo complementario de lenguaje para errores tipicos del dialogo hablado. | |
| KR100486733B1 (ko) | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 | |
| US6067514A (en) | Method for automatically punctuating a speech utterance in a continuous speech recognition system | |
| EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
| Elshafei et al. | Statistical methods for automatic diacritization of Arabic text | |
| JPH0855122A (ja) | 文脈タガー | |
| Renals et al. | Start-synchronous search for large vocabulary continuous speech recognition | |
| ES2254118T3 (es) | Dispositivo para reconocimiento de voz que lleva a cabo una regla de permutacion sintactica. | |
| Buchsbaum et al. | Algorithmic aspects in speech recognition: An introduction | |
| ES2283414T3 (es) | Analisis sintactico y semantico de comandos vocales. | |
| JP6001944B2 (ja) | 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム | |
| Wang et al. | Exploring lexicon-free modeling units for end-to-end korean and korean-english code-switching speech recognition | |
| Maučec et al. | Modelling highly inflected Slovenian language | |
| JPH1097535A (ja) | 音声言語解析装置 | |
| Lau | Subword lexical modelling for speech recognition | |
| Büler et al. | Using language modelling to integrate speech recognition with a flat semantic analysis | |
| MAUČEC et al. | Using data-driven subword units in language model of highly inflective Slovenian language | |
| Caseiro et al. | A decoder for finite-state structured search spaces | |
| KR20010077041A (ko) | 트리구조의 언어모델을 갖는 연속 음성 인식 장치 | |
| Kibkalo et al. | The Russian Speaker Independent Consecutive Speech Decoder | |
| Yun et al. | Stochastic Pronunciation Lexicon Modeling for Large Vocabulary Continous Speech Recognition | |
| Rotovnik et al. | Slovenian large vocabulary speech recognition with data-driven models of inflectional morphology |