ES3035010T3

ES3035010T3 - Decoding network construction method, voice recognition method, device and apparatus, and storage medium

Info

Publication number: ES3035010T3
Application number: ES19949233T
Authority: ES
Inventors: Jianqing Gao; Zhiguo Wang; Guoping Hu
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-10-16
Filing date: 2019-12-12
Publication date: 2025-08-27
Anticipated expiration: 2039-12-12
Also published as: EP4047597A1; KR20220062349A; US12223947B2; EP4047597A4; CN110610700A; EP4047597C0; EP4047597B1; JP2022548718A; JP7278477B2; US20220375459A1; CN110610700B; KR102576505B1; WO2021072955A1

Abstract

Un método de construcción de red de decodificación, un método, dispositivo y aparato de reconocimiento de voz, y un medio de almacenamiento. El método de construcción de red de decodificación comprende: adquirir un modelo lingüístico universal, un modelo lingüístico de dominio y una red de decodificación universal generada según el modelo lingüístico universal (S101); generar una red de decodificación de dominio según el modelo lingüístico universal y el modelo lingüístico de dominio (S102); e integrar la red de decodificación de dominio en la red de decodificación universal para obtener una red de decodificación objetivo (S103). El método de reconocimiento de voz comprende: utilizar una red de decodificación objetivo para decodificar los datos de voz a reconocer, con el fin de obtener una ruta de decodificación de los datos de voz a reconocer (S501); y, según la ruta de decodificación de los datos de voz a reconocer, determinar un resultado de reconocimiento de voz de los datos de voz a reconocer (S502). La presente invención puede mejorar la precisión del reconocimiento de voz de palabras profesionales en un campo específico. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Método de construcción de red de decodificación, método de reconocimiento de voz, dispositivo y aparato, y medio de almacenamiento

Esta solicitud reivindica prioridad a la Solicitud de Patente China No. 201910983196.3, titulada "DECODING NETWORK CONSTRUCTION METHOD, VOICE RECOGNITION METHOD, DEVICE AND APPARATUS, AND STORAGE MEDIUM", presentada el 16 de octubre de 2019 ante la Administración Nacional de Propiedad Intelectual de China.

Campo

La presente divulgación se relaciona con el campo técnico del reconocimiento de conversación, y en particular con un método para construir una red de decodificación, un método de reconocimiento de conversación, un dispositivo del mismo, un aparato del mismo y un medio de almacenamiento.

Antecedentes

El reconocimiento de conversación se realiza con base en un modelo de lenguaje, y la mayoría de los esquemas de reconocimiento de conversación existentes se basan en un modelo de lenguaje universal. En un esquema de reconocimiento basado en el modelo de lenguaje universal, el modelo de lenguaje universal se convierte primero en una red de decodificación general, y la conversación que va a ser reconocida se decodifica aplicando la red de decodificación general.

El esquema de reconocimiento basado en un modelo de lenguaje universal puede reconocer con precisión una palabra general, pero es posible reconocer un término relacionado con dominio como una palabra general que tiene una pronunciación similar con la palabra profesional. En otras palabras, el esquema de reconocimiento convencional basado en un modelo de lenguaje universal tiene una baja precisión en el reconocimiento de un término relacionado con dominio. El documento WO2014117577A1 proporciona un método y un sistema para el reconocimiento automático de conversación. El método incluye generar una red de decodificación que incluye una subred primaria y una subred de clasificación. La subred principal incluye un nodo de clasificación que corresponde a la subred de clasificación. La subred de clasificación corresponde a un grupo de palabras poco comunes. La entrada de conversación se recibe y decodifica creando una instancia de una contraseña en la subred principal y pasando la contraseña a través de la red principal. Cuando la contraseña llega al nodo de clasificación, el método incluye transferir la contraseña a la subred de clasificación y pasar la contraseña a través de la subred de clasificación. Cuando la contraseña llega a un nodo de aceptación de la subred de clasificación, el método incluye retornar un resultado de la contraseña que pasa a través de la subred de clasificación hasta la subred principal. El resultado incluye una o más palabras en el grupo de palabras poco comunes. Se emite una cadena que corresponde a la entrada de conversación que incluye la una o más palabras.

Resumen

La invención es como se define en el conjunto anexo de reivindicaciones.

Breve descripción de los dibujos

La figura 1 es un diagrama de flujo esquemático que muestra un método para construir una red de decodificación de acuerdo con una realización de la presente divulgación;

La figura 2 es un diagrama de flujo esquemático que muestra un proceso de generación de una red de decodificación de dominio basado en un modelo de lenguaje universal y un modelo de lenguaje de dominio en el método para construir una red de decodificación de acuerdo con una realización de la presente divulgación;

La figura 3 es un diagrama de flujo esquemático que muestra un proceso de conexión en cascada de una red de decodificación de dominio y una red de decodificación general en el método para construir una red de decodificación de acuerdo con una realización de la presente divulgación;

La figura 4 es un diagrama esquemático que muestra un ejemplo de una red de decodificación de destino obtenida al conectar en cascada una red de decodificación de dominio y una red de decodificación general de acuerdo con una realización de la presente divulgación;

La figura 5 es un diagrama de flujo esquemático que muestra un método de reconocimiento de conversación de acuerdo con una realización de la presente divulgación;

La figura 6 es un diagrama estructural esquemático que muestra un dispositivo para construir una red de decodificación de acuerdo con una realización de la presente divulgación;

La figura 7 es un diagrama estructural esquemático que muestra un dispositivo de reconocimiento de conversación de acuerdo con una realización de la presente divulgación;

La figura 8 es un diagrama estructural esquemático que muestra un aparato para construir una red de decodificación de acuerdo con una realización de la presente divulgación; y

La figura 9 es un diagrama estructural esquemático que muestra un aparato de reconocimiento de conversación de acuerdo con una realización de la presente divulgación.

Descripción detallada

Las soluciones técnicas en las realizaciones de la presente divulgación se describen clara y completamente a continuación con referencia a los dibujos acompañantes en las realizaciones de la presente divulgación. Aparentemente, las realizaciones descritas en este documento son solo una parte en lugar de todas las realizaciones de la presente divulgación. Cualquier otra realización obtenida por aquellos expertos en la técnica con base en las realizaciones en la presente divulgación sin ningún trabajo creativo cae dentro del alcance de protección de la presente divulgación.

La presente divulgación se relaciona en general con un sistema de reconocimiento de conversación para el reconocimiento de conversación. El sistema de reconocimiento de conversación puede recibir una conversación ingresada por un usuario, y reconocer, usando una red de decodificación, la conversación ingresada por el usuario como un texto y emitir el texto. En una posible implementación, el sistema de reconocimiento de conversación puede implementarse en un dispositivo terminal. En una configuración básica, el dispositivo terminal tiene un elemento de entrada (tal como un micrófono, un sensor, una pantalla táctil, un botón) y un elemento de salida (tal como una pantalla de visualización, un altavoz). El dispositivo terminal puede ser un dispositivo informático adecuado para el reconocimiento de conversación, tal como un teléfono inteligente, un ordenador tipo tableta, un ordenador portátil, un ordenador personal, un reloj inteligente, un dispositivo de uso personal, un TV y un dispositivo de juegos. Una conversación es ingresada por un usuario a través del elemento de entrada (tal como un micrófono) del dispositivo terminal. La conversación ingresada por el usuario es reconocida por el dispositivo terminal usando una red de decodificación y un resultado obtenido del reconocimiento de conversación se emite a través del elemento de salida. Además del elemento de entrada y del elemento de salida, el dispositivo terminal incluye además un procesador y una memoria que se comunican entre sí a través de un bus de comunicación. El procesador puede ser una unidad central de procesamiento CPU y/o unidad de procesamiento de gráficos GPU, un procesador de propósito general, un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), un arreglo de puertas programables en campo (FPGA) o cualquier otro dispositivo lógico programable, dispositivo lógico de puerta discreta o transistor. El procesador general puede ser un microprocesador o cualquier procesador convencional. La memoria puede incluir un medio de almacenamiento de ordenador en una forma de memoria volátil y/o no volátil, tal como una memoria de solo lectura (ROM), una memoria de acceso aleatorio (RAM). La memoria tiene un programa almacenado en la misma, que puede ser invocado por el procesador.

En otra posible implementación, el sistema de reconocimiento de conversación puede implementarse en un único servidor, y el servidor puede recibir datos proporcionados desde el dispositivo terminal a través de una red, y puede proporcionar además datos al dispositivo terminal a través de la red. El sistema de reconocimiento de conversación también puede implementarse en múltiples servidores, y similar a lo anterior, los servidores pueden recibir datos proporcionados desde el dispositivo terminal a través de la red y proporcionar datos al dispositivo terminal a través de la red. La red puede ser, pero no está limitada a, una red de área local (LAN), una red de área amplia (WAN) y similares. En un caso donde el sistema de reconocimiento de conversación se implementa en el servidor, el dispositivo terminal obtiene la conversación ingresada por el usuario a través de un dispositivo de entrada del dispositivo terminal y transmite la conversación al servidor a través de la red; el servidor reconoce, usando una red de decodificación, la conversación recibida desde el dispositivo terminal para obtener un resultado de reconocimiento de conversación y emite el resultado de reconocimiento de conversación al dispositivo terminal a través de la red; y el dispositivo terminal emite el resultado de reconocimiento de conversación a través del elemento de salida. El servidor puede incluir un procesador y una memoria, que se comunican entre sí a través de un bus de comunicación. El procesador puede ser una unidad central de procesamiento CPU y/o unidad de procesamiento de gráficos GPU, un procesador de propósito general, un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), un arreglo de puertas programables en campo (FPGA) o cualquier otro dispositivo lógico programable, dispositivo lógico de puerta discreta o transistor, componente de hardware discreto. El procesador de propósito general puede ser un microprocesador o cualquier procesador convencional. La memoria puede incluir un medio de almacenamiento de ordenador en una forma de memoria volátil y/o no volátil, tal como una memoria de solo lectura (ROM), una memoria de acceso aleatorio (RAM). La memoria tiene un programa almacenado en la misma, que puede ser invocado por el procesador.

Considerando que el sistema de reconocimiento de conversación puede obtener un efecto de reconocimiento bajo al reconocer una conversación que contiene una palabra profesional en un dominio usando una red de decodificación general, el inventor ha llevado a cabo una investigación como la siguiente con el fin de mejorar la precisión en el reconocimiento de un término relacionado con dominio. Con base en un concepto inicial, se realiza un entrenamiento con un corpus de un dominio específico para obtener un modelo de lenguaje de dominio, el modelo de dominio entrenado luego se interpola en un modelo de lenguaje universal, y el modelo de lenguaje universal después de la interpolación se convierte en una red de decodificación de destino. Alternativamente, el modelo de lenguaje universal después de la interpolación puede convertirse en una máquina de estados finitos ponderada (WFST), que se usa como la red de decodificación de destino. Después de obtener la red de decodificación de destino, se puede realizar un reconocimiento de conversación usando la red de decodificación de destino.

Debe anotarse que el modelo de lenguaje universal puede usarse ampliamente y es adecuado para diversas situaciones comunes, y el modelo de lenguaje de dominio es un modelo de lenguaje que se obtiene mediante entrenamiento con palabras que son comunes en un campo específico pero no comunes en otros campos. La interpolación del modelo de lenguaje de dominio en el modelo de lenguaje universal no solo puede mantener el conocimiento original del modelo de lenguaje universal, sino que también aumenta una probabilidad de aparición de una palabra profesional que nunca aparece en el modelo de lenguaje universal. Por lo tanto, al interpolar el modelo de lenguaje de dominio en el modelo de lenguaje universal, se puede obtener un modelo de lenguaje adecuado para un dominio específico, y la red de decodificación de destino obtenida al convertir tal modelo de lenguaje, cuando se usa para reconocimiento de conversación, puede llevar a una mayor precisión de reconocimiento.

El inventor se dio cuenta de que aunque la solución anterior puede mejorar la precisión del reconocimiento de un término relacionado con dominio, hay los siguientes problemas. Después de interpolar el modelo de lenguaje de dominio en el modelo de lenguaje universal, es necesario regenerar una red de decodificación, tal como WFST, basada en el modelo de lenguaje universal después de la interpolación. Dado que el modelo de lenguaje universal después de la interpolación tiene una gran escala, se requiere mucho tiempo (más de unas pocas horas) y muchos recursos de almacenamiento para generar la red de decodificación, por lo tanto la solución es difícil que se aplique a un sistema industrial.

Con el fin de solucionar los problemas, el inventor continuó estudiando y propuso otra solución. De acuerdo con el concepto de esta solución, una red de decodificación generada con base en un modelo de lenguaje universal se usa como una red de decodificación general; un modelo de lenguaje de dominio se obtiene mediante entrenamiento con un corpus de un dominio específico, y una red de decodificación generada con base en el modelo de lenguaje de dominio se usa como una red de decodificación de dominio; y se realiza una búsqueda en la red de decodificación general de cualquier trayectoria que exista en la red de decodificación de dominio, y se modifica un peso de tal trayectoria.

Sin embargo, en la solución anterior, la búsqueda requiere mucho tiempo ya que la trayectoria en la red de decodificación general es demasiado grande. En otras palabras, aunque esta solución evita el problema de consumir muchos recursos para regenerar la red de decodificación, todavía toma mucho tiempo.

Después de un estudio adicional, el inventor finalmente propuso una solución que resuelve perfectamente los problemas mencionados anteriormente en la investigación y desarrollo. La solución proporcionada en la presente divulgación se describe a través de las siguientes realizaciones.

Se proporciona un método para construir una red de decodificación de acuerdo con una realización de la presente divulgación. Con referencia a la figura 1, que muestra un diagrama de flujo esquemático del método para construir una red de decodificación, el método puede incluir las etapas S101 a S103.

En la etapa S101, se obtienen un modelo de lenguaje universal, un modelo de lenguaje de dominio y una red de decodificación general generada con base en el modelo de lenguaje universal.

El modelo de lenguaje de dominio se obtiene mediante entrenamiento con un corpus de un dominio específico, y la red de decodificación general se obtiene realizando una conversión binaria en el modelo de lenguaje universal.

En la etapa S102, se genera una red de decodificación de dominio basada en el modelo de lenguaje universal y el modelo de lenguaje de dominio.

Debe anotarse que un proceso de decodificación en un sistema de reconocimiento de conversación es esencialmente una comparación de puntuaciones para las trayectorias de decodificación. Con base en esto, de acuerdo con la presente divulgación, la red de decodificación de dominio se genera realizando una interpolación en el modelo de lenguaje universal y el modelo de lenguaje de dominio. Aunque es necesario que se genere la red de decodificación de dominio, el tiempo y los recursos de almacenamiento consumidos para generar la red de decodificación de dominio se reducen significativamente en comparación con el tiempo y los recursos de almacenamiento consumidos por la antes mencionada "regeneración de la red de decodificación basada en el modelo de lenguaje universal después de la interpolación".

Un proceso de generación de la red de decodificación de dominio basado en el modelo de lenguaje universal y el modelo de lenguaje de dominio puede referirse a la descripción subsecuente de las realizaciones.

En la etapa S103, la red de decodificación de dominio se integra con la red de decodificación general para obtener una red de decodificación de destino.

En el método para construir una red de decodificación proporcionado por las realizaciones de la presente divulgación, se puede generar una red de decodificación de dominio con base en un modelo de lenguaje universal y un modelo de lenguaje de dominio, y la red de decodificación de dominio se integra en la red de decodificación general, de tal manera que se obtiene una red de decodificación de destino capaz de decodificar datos de conversación que van a ser reconocidos. Con el método para construir una red de decodificación proporcionado por las realizaciones de la presente divulgación, la red de decodificación de destino obtenida al integrar la red de decodificación de dominio con la red de decodificación general puede reconocer con precisión tanto una palabra general como un término relacionado con dominio. En comparación con la red de decodificación general, la red de decodificación de destino construida en las realizaciones de la presente divulgación puede mejorar la precisión del reconocimiento de conversación para un término relacionado con dominio. Además, el tiempo y los recursos de almacenamiento consumidos en la generación de la red de decodificación de dominio se reducen significativamente en comparación con el tiempo y los recursos de almacenamiento consumidos en la regeneración de la red de decodificación general.

A continuación se describe la etapa S102 de generar una red de decodificación de dominio basada en el modelo de lenguaje universal y el modelo de lenguaje de dominio en la realización anterior.

Con referencia a la figura 2, que muestra un diagrama de flujo esquemático de un proceso de generación de una red de decodificación de dominio basado en un modelo de lenguaje universal y un modelo de lenguaje de dominio, el proceso puede incluir las etapas S201 a S202.

En la etapa S201, se realiza la interpolación en el modelo de lenguaje universal y el modelo de lenguaje de dominio.

Una parte en la cual se realiza la interpolación incluye todas las partes en el modelo de lenguaje de dominio y una parte en el modelo de lenguaje universal que también aparece en el modelo de lenguaje de dominio.

En una realización, el modelo de lenguaje universal y el modelo de lenguaje de dominio pueden ser cada uno un modelo de n-gramas. Con base en esto, cuando se realiza la interpolación en el modelo de lenguaje de dominio y el modelo de lenguaje universal en esta realización, la parte en la cual se realiza la interpolación incluye todas las entradas de n-gramas en el modelo de lenguaje de dominio y una entrada de n-gramas en el modelo de lenguaje universal que también aparece en el modelo de lenguaje de dominio. En otras palabras, la parte en la cual se realiza la interpolación incluye solo la entrada de n-gramas que aparece en el modelo de lenguaje de dominio y no incluye ninguna entrada de n-gramas que nunca aparezca en el modelo de lenguaje de dominio.

Debe anotarse que la interpolación en la entrada de n-gramas en el modelo de lenguaje de dominio y la entrada de n-gramas que está en el modelo de lenguaje universal y también aparece en el modelo de lenguaje de dominio es esencialmente una interpolación probabilística en estas entradas de n-gramas. Suponiendo que el modelo de lenguaje de dominio y el modelo de lenguaje universal son ambos modelos de lenguaje de tercer orden, una fórmula de interpolación probabilística de trigramas se expresa de la siguiente manera:

donde p(Wn|Wn-2Wn-i) representa una probabilidad de ocurrencia de Un bajo ocurrencia de Wn-2 y Un-i, pb representa una probabilidad de una entrada de n-gramas que está en el modelo de lenguaje universal y también aparece en el modelo de lenguaje de dominio, pantiguo representa una probabilidad de la entrada de n-gramas en el modelo de lenguaje de dominio, y pnuevo representa una probabilidad de la entrada de n-gramas después de que se realiza la interpolación en la entrada de n-gramas en el modelo de lenguaje de dominio y la entrada de n-gramas en el modelo de lenguaje universal que también aparece en el modelo de lenguaje de dominio, y a representa un coeficiente de interpolación.

En la etapa S202, se genera una red de decodificación de dominio con base en la parte en la cual se realiza la interpolación.

En una realización, la red de decodificación de dominio se obtiene realizando una conversión binaria en la parte en la cual se realiza la interpolación.

Dado que el número de entradas de n-gramas en la parte en la cual se realiza la interpolación (es decir, las entradas de n-gramas que solo aparecen en el modelo de lenguaje de dominio) es pequeño, generar la red de decodificación de dominio basada en la parte en la cual se realiza la interpolación consume poco tiempo y pocos recursos de almacenamiento.

A continuación se describe la etapa S103 de integrar la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino en la realización anterior.

Hay diversas formas de integrar la red de decodificación de dominio con la red de decodificación general.

En una posible implementación, la red de decodificación de destino puede obtenerse conectando la red de decodificación de dominio y la red de decodificación general en paralelo.

En un caso de decodificación de datos de conversación que van a ser reconocidos usando la red de destino obtenida al conectar la red de decodificación de dominio y la red de decodificación general en paralelo, los datos de conversación que van a ser reconocidos se ingresan en la red de decodificación de dominio y la red de decodificación general respectivamente, para la decodificación, para obtener una trayectoria de decodificación en la red de decodificación general y una trayectoria de decodificación en la red de decodificación de dominio. Se compara una puntuación para la trayectoria de decodificación en la red de decodificación general con una puntuación para la trayectoria de decodificación en la red de decodificación de dominio, y la trayectoria de decodificación con una puntuación más alta se determina como una trayectoria de decodificación final. En otras palabras, la trayectoria de decodificación final es ya sea la trayectoria de decodificación en la red de decodificación de dominio o la trayectoria de decodificación en la red de decodificación general. Finalmente, se genera un resultado de decodificación basado en la trayectoria de decodificación final.

El inventor encontró después de un estudio que la red de decodificación de destino obtenida al conectar la red de decodificación de dominio y la red de decodificación general en paralelo puede reconocer con precisión una conversación que contiene solo una palabra general o solo un término relacionado con dominio, pero la precisión de reconocimiento no es buena para una conversación que contiene tanto una palabra general como un término relacionado con dominio. Es entendible que, en algunos casos, la conversación que va a ser reconocida pueda ser una conversación continua que contenga un gran número de palabras, que usualmente incluyan tanto palabras generales como palabras profesionales. Por lo tanto, la red de decodificación obtenida al conectar la red de decodificación de dominio y la red de decodificación general en paralelo no es adecuada para reconocer una conversación continua que contiene un gran número de palabras.

En vista de los problemas mencionados anteriormente, en la presente divulgación se proporciona otra implementación para integrar la red de decodificación de dominio con la red de decodificación general. Una idea básica de tal implementación es conectar en cascada la red de decodificación de dominio y la red de decodificación general, de tal manera que una red de decodificación de destino obtenida al conectar en cascada la red de decodificación de dominio y la red de decodificación general pueda reconocer con precisión una conversación que contenga tanto una palabra general como una palabra profesional, y sea adecuada para reconocer una conversación continua que contenga un gran número de palabras.

Con referencia a la figura 3, que muestra un diagrama de flujo esquemático de un proceso de conexión en cascada de la red de decodificación de dominio y la red de decodificación general, el proceso puede incluir las etapas S301 a S302.

En la etapa S301, se agregan nodos virtuales para cada una de la red de decodificación general y la red de decodificación de dominio.

Los nodos virtuales incluyen un nodo de inicio y un nodo final.

En la etapa S302, la red de decodificación general y la red de decodificación de dominio se conectan en cascada por medio del nodo de inicio y el nodo final.

En una realización, un proceso de conexión en cascada de la red de decodificación general y la red de decodificación de dominio por medio del nodo de inicio y el nodo final incluye: conectar el nodo final para la red de decodificación general y el nodo de inicio para la red de decodificación de dominio en una dirección desde el nodo final para la red de decodificación general hasta el nodo de inicio para la red de decodificación de dominio; y conectar el nodo final para la red de decodificación de dominio y el nodo de inicio para la red de decodificación general en una dirección desde el nodo final para la red de decodificación de dominio hasta el nodo de inicio para la red de decodificación general.

Se hace referencia a la figura 4, que muestra un diagrama esquemático de una red de decodificación de destino obtenida al conectar en cascada la red de decodificación de dominio y la red de decodificación general. Como se muestra en la figura 4, la red de decodificación general incluye el nodo 1, nodo 2 y nodo 3, y la red de decodificación de dominio incluye el nodo 4, nodo 5 y nodo 6.

Con el fin de conectar en cascada la red de decodificación de dominio y la red de decodificación general, se crean un nodo de inicio virtual y un nodo final virtual para la red de decodificación de dominio, y se crean un nodo de inicio virtual y un nodo final virtual para la red de decodificación general. El nodo de inicio creado para la red de decodificación general y el nodo 1 en la red de decodificación general están conectados en una dirección desde el nodo de inicio al nodo 1; el nodo 3 en la red de decodificación general y el nodo final creado para la red de decodificación general están conectados en una dirección desde el nodo 3 al nodo final; el nodo final creado para la red de decodificación general y el nodo de inicio creado para la red de decodificación general están conectados en una dirección desde el nodo final al nodo de inicio; el nodo de inicio creado para la red de decodificación de dominio y el nodo 4 en la red de decodificación de dominio están conectados en una dirección desde el nodo de inicio al nodo 4; el nodo 6 en la red de decodificación de dominio y el nodo final creado para la red de decodificación de dominio están conectados en una dirección desde el nodo 6 al nodo final; el nodo final creado para la red de decodificación de dominio y el nodo de inicio creado para la red de decodificación de dominio están conectados en una dirección desde el nodo final al nodo de inicio; el nodo final creado para la red de decodificación general y el nodo de inicio creado para la red de decodificación de dominio están conectados en una dirección desde el nodo final hasta el nodo de inicio; y el nodo final creado para la red de decodificación de dominio y el nodo de inicio creado para la red de decodificación general están conectados en una dirección desde el nodo final hasta el nodo de inicio.

Al decodificar una conversación que va a ser reconocida usando la red de decodificación de destino obtenida al conectar en cascada la red de decodificación de dominio y la red de decodificación general, si los datos de conversación que van a ser reconocidos incluyen tanto una palabra general como una palabra profesional, una trayectoria de decodificación final se compone de una trayectoria de decodificación en la red de decodificación general y una trayectoria de decodificación en la red de decodificación de dominio. Por ejemplo, los datos de conversación que van a ser reconocidos son "Vamos a empezar el reconocimiento de conversación", en los cuales la trayectoria de decodificación que corresponde a "Vamos a empezar" existe en la red de decodificación general y la trayectoria de decodificación que corresponde a "reconocimiento de conversación" existe en la red de decodificación de dominio, luego la trayectoria de decodificación final se compone de la trayectoria de decodificación que corresponde a "Vamos a empezar" y la trayectoria de decodificación que corresponde a "reconocimiento de conversación". Debe anotarse que la trayectoria de decodificación en la red de decodificación general y la trayectoria de decodificación en la red de decodificación de dominio están concatenadas por un nodo final.

Se debe anotar que el nodo de inicio y el nodo final agregados en la red de decodificación de dominio y la red de decodificación general pueden configurarse como silenciosos (anotados como "sil"). El nodo de inicio y el nodo final no afectan el resultado de decodificación. Al decodificar los datos de conversación que van a ser reconocidos usando la red de decodificación de destino, los marcos de conversación de los datos de conversación que van a ser reconocidos pasan a través de los dos nodos de inicio e ingresan a la red de decodificación de dominio y a la red de decodificación general respectivamente para la decodificación. Como se muestra en la figura 4, los marcos de conversación de los datos de conversación que van a ser reconocidos ingresan a la red de decodificación a través de un carácter de partida "<s>", saltan a los dos nodos de inicio e ingresan a la red de decodificación general y a la red de decodificación de dominio respectivamente para la decodificación. En un caso donde una trayectoria candidata en la red de decodificación general o la red de decodificación de dominio incluye un nodo final, el proceso de decodificación salta desde el nodo final a al menos un nodo de inicio para continuar la decodificación en la red de decodificación general y/o la red de decodificación de dominio hasta el final de los marcos de conversación, luego se emite un carácter final "<s>" de tal manera que se complete un proceso de decodificación en serie.

Sobre la base de las realizaciones anteriores, se proporciona además un método de reconocimiento de conversación de acuerdo con una realización de la presente divulgación. Con referencia a la figura 5, que muestra un diagrama de flujo esquemático del método de reconocimiento de conversación, el método puede incluir las etapas S501 a S502.

En la etapa S501, los datos de conversación que van a ser reconocidos se decodifican usando una red de decodificación de destino para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos.

La red de decodificación de destino se construye usando el método para construir una red de decodificación proporcionado en la realización anterior.

En una posible implementación, las trayectorias de decodificación de la red de decodificación de destino pueden presentarse en una red. Debe anotarse que una red es un gráfico no dirigido ponderado, donde cada nodo en la red representa una unidad acústica y cada arco contiene dos pesos, es decir, peso acústico y peso de lenguaje. Cualquier trayectoria de izquierda a derecha en la red constituye un resultado de reconocimiento de conversación. Una puntuación de una trayectoria completa se calcula como una suma de los pesos acústicos de todos los bordes en la trayectoria y el peso de lenguaje que corresponde a la trayectoria.

Específicamente, un proceso de decodificación de los datos de conversación que van a ser reconocidos usando la red de decodificación de destino para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos puede incluir: ingresar marcos de conversación de los datos de conversación que van a ser reconocidos en la red de decodificación de destino de manera secuencial para decodificación, para obtener la trayectoria de decodificación para los datos de conversación que van a ser reconocidos. Los marcos de conversación de los datos de conversación que van a ser reconocidos ingresan, respectivamente a través de dos nodos de inicio virtuales en la red de decodificación de destino, la red de decodificación general y la red de decodificación de dominio en la red de decodificación de destino para la decodificación. En un caso donde una trayectoria de decodificación candidata en la red de decodificación general o la red de decodificación de dominio incluye un nodo final, el proceso salta desde el nodo final a al menos un nodo de inicio conectado al nodo final, se ingresa a la red de decodificación general y/o a la red de decodificación de dominio para continuar la decodificación hasta un final de los marcos de conversación.

Se debe anotar que en un caso donde una trayectoria de decodificación candidata incluye un nodo final, si una puntuación para una trayectoria que ingresa a la red de decodificación general y una puntuación para una trayectoria que ingresa a la red de decodificación de dominio son ambas mayores que o iguales a un umbral de puntuación de trayectoria preestablecido, el proceso de decodificación salta del nodo final a los dos nodos de inicio conectados al nodo final e ingresa a la red de decodificación general y a la red de decodificación de dominio para decodificación; si la puntuación para la trayectoria que ingresa a la red de decodificación general es mayor que o igual al umbral de puntuación de trayectoria, y la puntuación para la trayectoria que ingresa a la red de decodificación de dominio es menor que el umbral de puntuación de trayectoria, el proceso de decodificación salta del nodo final al nodo de inicio creado para la red de decodificación general para ingresar a la red de decodificación general para decodificación; y si la puntuación de la trayectoria que ingresa a la red de decodificación de dominio es mayor que o igual al umbral de puntuación de trayectoria, y la puntuación de la trayectoria que ingresa a la red de decodificación general es menor que el umbral de puntuación de trayectoria, el proceso de decodificación salta del nodo final al nodo de inicio creado para que la red de decodificación de dominio ingrese a la red de decodificación de dominio para la decodificación.

En la etapa S502, se determina un resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos.

El proceso de determinación del resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos se puede implementar de diversas maneras.

En una posible implementación, los resultados de reconocimiento de conversación candidatos y las puntuaciones de los resultados de reconocimiento de conversación candidatos se pueden obtener con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos, y un resultado de reconocimiento de conversación candidato con la puntuación más alta se determina como el resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos.

En otra posible implementación, el resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos se puede determinar a través de un modelo de lenguaje de alto orden obtenido de antemano y la trayectoria de decodificación para los datos de conversación que van a ser reconocidos. Específicamente, la trayectoria de decodificación para los datos de conversación que van a ser reconocidos se puede ingresar en el modelo de lenguaje de alto orden obtenido de antemano para obtener el resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos. Debe anotarse que el modelo de lenguaje de alto orden se obtiene realizando una interpolación en el modelo de lenguaje universal usando el modelo de lenguaje de dominio. El modelo de lenguaje de alto orden es capaz de seleccionar el mejor resultado de reconocimiento a partir de múltiples resultados de reconocimiento candidatos, como el resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos.

En el método de reconocimiento de conversación proporcionado en las realizaciones de la presente divulgación, dado que la red de decodificación de destino se obtiene integrando la red de decodificación de dominio con la red de decodificación general, la conversación que va a ser reconocida que contiene un término relacionado con dominio puede reconocerse con precisión usando la red de decodificación de destino.

A continuación se describe un dispositivo para construir una red de decodificación de acuerdo con una realización de la presente divulgación. El dispositivo para construir una red de decodificación y el método para construir una red de decodificación pueden hacer referencia entre sí. Con referencia a la figura 6, que muestra un diagrama estructural esquemático de un dispositivo para construir una red de decodificación de acuerdo con una realización de la presente divulgación, el dispositivo para construir una red de decodificación puede incluir: un módulo de adquisición de modelo de lenguaje y red de decodificación general 601, un módulo de generación de red de decodificación de dominio 602 y un módulo de integración de red de decodificación 603. El módulo de adquisición de modelo de lenguaje y red de decodificación general 601 está configurado para adquirir un modelo de lenguaje universal, un modelo de lenguaje de dominio y una red de decodificación general generada con base en el modelo de lenguaje universal. El módulo de generación de red de decodificación de dominio 602 está configurado para generar una red de decodificación de dominio basada en el modelo de lenguaje universal y el modelo de lenguaje de dominio. El módulo de integración de red de decodificación 603 está configurado para integrar la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino.

Con el dispositivo para construir una red de decodificación proporcionado en la realización de la presente divulgación, la red de decodificación de destino obtenida al interpretar la red de decodificación de dominio con la red de decodificación general puede reconocer con precisión no solo una palabra general sino también un término relacionado con dominio. En comparación con la red de decodificación general, la red de decodificación de destino construida en la realización de la presente divulgación puede mejorar la precisión del reconocimiento de conversación que contiene un término relacionado con dominio. Además, el tiempo y recursos de almacenamiento consumidos por la red de decodificación de dominio se reducen significativamente en comparación con el tiempo y recursos de almacenamiento consumidos al regenerar la red de decodificación general.

En una posible implementación, el módulo de generación de red de decodificación de dominio 602 en el dispositivo para contrastar una red de decodificación proporcionado en la realización anterior puede incluir un submódulo de interpolación y un submódulo de generación de red de decodificación de dominio. El submódulo de interpolación está configurado para realizar la interpolación en el modelo de lenguaje universal y el modelo de lenguaje de dominio, donde una parte en la cual se realiza la interpolación incluye todas las partes en el modelo de lenguaje de dominio y una parte en el modelo de lenguaje universal que también aparece en el modelo de lenguaje de dominio. El submódulo de generación de red de decodificación de dominio está configurado para generar la red de decodificación de dominio con base en la parte en la cual se realiza la interpolación.

En una posible implementación, el módulo de integración de red de decodificación 603 en el dispositivo para construir una red de decodificación proporcionado en la realización anterior está configurado específicamente para conectar en cascada la red de decodificación de dominio y la red de decodificación general para obtener la red de decodificación de destino.

En una posible implementación, el módulo de integración de red de decodificación 603 en el dispositivo para construir una red de decodificación proporcionado en la realización anterior incluye: un submódulo de adición de nodos y un submódulo de conexión en cascada. El submódulo de adición de nodos está configurado para agregar nodos virtuales para cada una de la red de decodificación general y la red de decodificación de dominio, donde los nodos virtuales incluyen un nodo de inicio y un nodo final. El submódulo de conexión en cascada está configurado para conectar en cascada la red de decodificación general y la red de decodificación de dominio por medio del nodo de inicio y el nodo final.

En una posible implementación, el submódulo de conexión en cascada está configurado específicamente para conectar el nodo final de la red de decodificación general y el nodo de inicio de la red de decodificación de dominio en una dirección desde el nodo final de la red de decodificación general hasta el nodo de inicio de la red de decodificación de dominio; y conectar el nodo final de la red de decodificación de dominio y el nodo de inicio de la red de decodificación general en una dirección desde el nodo final de la red de decodificación de dominio hasta el nodo de inicio de la red de decodificación general.

En correspondencia con el método de reconocimiento de conversación, se proporciona además un dispositivo de reconocimiento de conversación de acuerdo con una realización de la presente divulgación. Con referencia a la figura 7, que muestra un diagrama estructural esquemático del dispositivo de reconocimiento de conversación, el dispositivo de reconocimiento de conversación puede incluir un módulo de decodificación 701 y un módulo de determinación de resultado de reconocimiento de conversación 702. El módulo de decodificación 701 está configurado para decodificar datos de conversación que van a ser reconocidos usando la red de decodificación de destino construida por el dispositivo para construir una red de decodificación proporcionada en la realización anterior, para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos. El módulo de determinación de resultado de reconocimiento de conversación 702 está configurado para determinar un resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación de los datos de conversación que van a ser reconocidos.

De acuerdo con el método de reconocimiento de conversación proporcionado en la realización de la presente divulgación, la red de decodificación de destino se obtiene integrando la red de decodificación de dominio con la red de decodificación general, la red de decodificación de destino por lo tanto puede reconocer con precisión la conversación que va a ser reconocida que contiene un término relacionado con dominio.

En una posible implementación, el módulo de decodificación 701 en el dispositivo de reconocimiento de conversación proporcionado en la realización anterior está configurado específicamente para determinar el resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en un modelo de lenguaje de alto orden obtenido de antemano y la trayectoria de decodificación para los datos de conversación que van a ser reconocidos, donde el modelo de lenguaje de alto orden se obtiene realizando una interpolación en el modelo de lenguaje universal usando el modelo de lenguaje de dominio.

En una posible implementación, el módulo de decodificación 701 en el dispositivo de reconocimiento de conversación proporcionado en la realización anterior está configurado específicamente para ingresar marcos de conversación de los datos de conversación que van a ser reconocidos en la red de decodificación de destino de manera secuencial para la decodificación, para obtener la trayectoria de decodificación para los datos de conversación que van a ser reconocidos. Los marcos de conversación de los datos de conversación que van a ser reconocidos ingresan, respectivamente a través de dos nodos de inicio en la red de decodificación de destino, la red de decodificación general y la red de decodificación de dominio en la red de decodificación de destino para la decodificación. En un caso donde una trayectoria de decodificación candidata en la red de decodificación general o la red de decodificación de dominio incluye un nodo final, el proceso salta desde el nodo final a al menos un nodo de inicio conectado al nodo final, se ingresa a la red de decodificación general y/o a la red de decodificación de dominio para continuar la decodificación hasta el final de los marcos de conversación.

Se proporciona además un aparato para construir una red de decodificación de acuerdo con una realización de la presente divulgación. Con referencia a la figura 8, que muestra un diagrama estructural esquemático del aparato para construir una red de decodificación, el aparato para construir una red de decodificación puede incluir: al menos un procesador 801, al menos una interfaz de comunicación 802, al menos una memoria 803 y al menos un bus de comunicación 804. En la realización de la presente divulgación, el número del procesador 801, la interfaz de comunicación 802, la memoria 803 y el bus de comunicación 804 es al menos uno, y el procesador 801, la interfaz de comunicación 802 y la memoria 803 se comunican entre sí a través del bus de comunicación 804. El procesador 801 puede ser una unidad central de procesamiento CPU, un Circuito Integrado de Aplicación Específica (ASIC), uno o más circuitos integrados configurados para implementar las realizaciones de la presente divulgación, o similares. La memoria 803 puede incluir una memoria RAM de alta velocidad y puede incluir además una memoria no volátil tal como al menos una memoria de disco. La memoria almacena un programa y el programa almacenado en la memoria se puede llamar mediante el procesador. El programa se usa para: adquirir un modelo de lenguaje universal, un modelo de lenguaje de dominio y una red de decodificación general generada con base en el modelo de lenguaje universal; generar una red de decodificación de dominio con base en el modelo de lenguaje de dominio y el modelo de lenguaje universal; e integrar la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino.

En realizaciones alternativas, las funciones detalladas y las funciones ampliadas del programa pueden referirse en la descripción anterior.

Se proporciona además un medio de almacenamiento legible de acuerdo con una realización de la presente divulgación. El medio de almacenamiento legible puede almacenar un programa adecuado para ejecución por un procesador, y el programa se usa para: adquirir un modelo de lenguaje universal, un modelo de lenguaje de dominio y una red de decodificación general generada con base en el modelo de lenguaje universal; generar una red de decodificación de dominio con base en el modelo de lenguaje de dominio y el modelo de lenguaje universal; e integrar la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino.

Se proporciona además un aparato de reconocimiento de conversación de acuerdo con una realización de la presente divulgación. Con referencia a la figura 9, que muestra un diagrama estructural esquemático del aparato de reconocimiento de conversación, el aparato de reconocimiento de conversación puede incluir: al menos un procesador 901, al menos una interfaz de comunicación 902, al menos una memoria 903 y al menos un bus de comunicación 904. En la realización de la presente divulgación, el número del procesador 901, la interfaz de comunicación 902, la memoria 903 y el bus de comunicación 904 es al menos uno, y el procesador 901, la interfaz de comunicación 902 y la memoria 903 se comunican entre sí a través del bus de comunicación 904. El procesador 901 puede ser una unidad central de procesamiento CPU, un Circuito Integrado de Aplicación Específica (ASIC), uno o más circuitos integrados configurados para implementar las realizaciones de la presente divulgación, o similares. La memoria 903 puede incluir una memoria RAM de alta velocidad y puede incluir además una memoria no volátil tal como al menos una memoria de disco magnético. La memoria almacena un programa y el programa almacenado en la memoria se puede llamar mediante el procesador. El programa se usa para: decodificar datos de conversación que van a ser reconocidos usando una red de decodificación de destino construida usando el método para construir una red de decodificación de acuerdo con las realizaciones anteriores, para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos; y determinar un resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos.

En realizaciones alternativas, las funciones detalladas y las funciones ampliadas del programa pueden referirse a la descripción anterior.

Se proporciona además un medio de almacenamiento legible de acuerdo con una realización de la presente divulgación. El medio de almacenamiento legible puede almacenar un programa adecuado para ejecución por un procesador, y el programa se usa para: decodificar datos de conversación que van a ser reconocidos usando una red de decodificación de destino construida usando el método para construir una red de decodificación de acuerdo con las realizaciones anteriores, para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos; y determinar un resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos.

Por último, debe anotarse que los términos de relación tales como "primero", "segundo" y similares se usan en este documento simplemente para distinguir una entidad u operación de otra, en lugar de necesitar o implicar la existencia de la relación u orden real de las entidades u operaciones. Además, los términos "incluir", "comprender" o cualquier otra variante de los mismos se consideran como no exclusivos. Por lo tanto, un proceso, método, artículo o dispositivo que incluye una serie de elementos incluye no solo estos elementos sino también elementos que no están enumerados o elementos que son inherentes al proceso, método, artículo o dispositivo. A menos que se limite expresamente otra cosa, un proceso, método, artículo o dispositivo limitado por "que comprende/que incluye un(uno, una) ..." no excluye la existencia de otro elemento idéntico en tal proceso, método, artículo o dispositivo.

Las realizaciones en esta especificación se describen de una manera progresiva. Cada realización se centra en cualquier diferencia a partir de las otras, y las partes iguales o similares entre las realizaciones pueden referenciarse entre sí.

Los expertos en la técnica pueden implementar o practicar la presente divulgación con base en la descripción anterior de las realizaciones divulgadas. Diversas modificaciones a estas realizaciones son obvias para los expertos en la técnica. Los principios generales definidos en la presente divulgación pueden implementarse en otras realizaciones sin apartarse del alcance de la presente divulgación. Por lo tanto, la presente divulgación no debe limitarse a las realizaciones divulgadas en este documento, sino que se ajusta al alcance más amplio consistente con el principio y las características novedosas divulgadas en la especificación.

Claims

REIVINDICACIONES

1. Un método para construir una red de decodificación, comprendiendo el método:

adquirir un modelo de lenguaje universal, un modelo de lenguaje de dominio y una red de decodificación general generada con base en el modelo de lenguaje universal;

generar una red de decodificación de dominio basada en el modelo de lenguaje de dominio y el modelo de lenguaje universal; e

integrar la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino,

en donde el método está caracterizado porque:

la generación de una red de decodificación de dominio basada en el modelo de lenguaje de dominio y el modelo de lenguaje universal comprende:

realizar interpolación en el modelo de lenguaje universal y el modelo de lenguaje de dominio, en donde una parte en la cual se realiza la interpolación comprende todas las partes en el modelo de lenguaje de dominio y una parte en el modelo de lenguaje universal que también aparece en el modelo de lenguaje de dominio; y generar la red de decodificación de dominio con base en la parte en la cual se realiza la interpolación.

2. El método para construir una red de decodificación de acuerdo con la reivindicación 1, en donde la integración de la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino comprende:

conectar en cascada la red de decodificación de dominio y la red de decodificación general para obtener la red de decodificación de destino.

3. El método para construir una red de decodificación de acuerdo con la reivindicación 2, en donde la conexión en cascada de la red de decodificación de dominio y la red de decodificación general comprende: agregar nodos virtuales para cada una de la red de decodificación general y la red de decodificación de dominio, en donde los nodos virtuales comprenden un nodo de inicio y un nodo final; y

conectar en cascada la red de decodificación general y la red de decodificación de dominio por medio del nodo de inicio y el nodo final.

4. El método para construir una red de decodificación de acuerdo con la reivindicación 3, en donde la conexión en cascada de la red de decodificación general y la red de decodificación de dominio por medio del nodo de inicio y el nodo final comprende:

conectar el nodo final de la red de decodificación general y el nodo de inicio de la red de decodificación de dominio en una dirección desde el nodo final de la red de decodificación general hasta el nodo de inicio de la red de decodificación de dominio; y

conectar el nodo final de la red de decodificación de dominio y el nodo de inicio de la red de decodificación general en una dirección desde el nodo final de la red de decodificación de dominio hasta el nodo de inicio de la red de decodificación general.

5. Un método de reconocimiento de conversación, que comprende:

decodificar datos de conversación que van a ser reconocidos usando una red de decodificación de destino para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos, en donde la red de decodificación de destino se construye usando el método para construir una red de decodificación de acuerdo con una cualquiera de las reivindicaciones 1 a 4; y

determinar un resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos.

6. El método de reconocimiento de conversación de acuerdo con la reivindicación 5, en donde un proceso de decodificación de datos de conversación que van a ser reconocidos usando una red de decodificación de destino para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos comprende:

ingresar marcos de conversación de los datos de conversación que van a ser reconocidos en la red de decodificación de destino de manera secuencial para la decodificación, para obtener la trayectoria de decodificación para los datos de conversación que van a ser reconocidos, en donde

los marcos de conversación de los datos de conversación que van a ser reconocidos entran, respectivamente a través de dos nodos de inicio en la red de decodificación de destino, la red de decodificación general y la red de decodificación de dominio en la red de decodificación de destino para la decodificación, y

en un caso donde una trayectoria de decodificación candidata en la red de decodificación general o la red de decodificación de dominio comprende un nodo final, el proceso salta desde el nodo final a al menos un nodo de inicio conectado al nodo final, se ingresa a la red de decodificación general y/o a la red de decodificación de dominio para continuar la decodificación hasta un final de los marcos de conversación.

7. Un dispositivo para construir una red de decodificación, comprendiendo el dispositivo:

un módulo de adquisición de modelo de lenguaje y red de decodificación general configurado para adquirir un modelo de lenguaje universal, un modelo de lenguaje de dominio y una red de decodificación general generada con base en el modelo de lenguaje universal;

un módulo de generación de red de decodificación de dominio configurado para generar una red de decodificación de dominio basada en el modelo de lenguaje universal y el modelo de lenguaje de dominio; y un módulo de integración de red de decodificación configurado para integrar la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino,

en donde el dispositivo está caracterizado porque

el módulo de generación de red de decodificación de dominio comprende:

un submódulo de interpolación configurado para realizar la interpolación en el modelo de lenguaje universal y el modelo de lenguaje de dominio, en donde una parte en la cual se realiza la interpolación comprende todas las partes en el modelo de lenguaje de dominio y una parte en el modelo de lenguaje universal que también aparece en el modelo de lenguaje de dominio; y

un submódulo de generación de red de decodificación de dominio configurado para generar la red de decodificación de dominio con base en la parte en la cual se realiza la interpolación.

8. Un dispositivo de reconocimiento de conversación, que comprende:

un módulo de decodificación configurado para decodificar datos de conversación que van a ser reconocidos usando una red de decodificación de destino para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos, en donde la red de decodificación de destino es construida por el dispositivo para construir una red de decodificación de acuerdo con la reivindicación 7; y

un módulo de determinación de resultado de reconocimiento de conversación configurado para determinar un resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos.

9. Un aparato para construir una red de decodificación, comprendiendo el aparato:

una memoria configurada para almacenar un programa; y

un procesador configurado para ejecutar el programa para realizar el método para construir una red de decodificación de acuerdo con una cualquiera de las reivindicaciones 1 a 4.

10. Un medio de almacenamiento legible que almacena un programa de ordenador, en donde el programa de ordenador, cuando es ejecutado por un procesador, hace que el procesador realice el método para construir una red de decodificación de acuerdo con una cualquiera de las reivindicaciones 1 a 4.

11. Un aparato de reconocimiento de conversación, que comprende:

una memoria configurada para almacenar un programa; y

un procesador configurado para ejecutar el programa para realizar el método de reconocimiento de conversación de acuerdo con una cualquiera de las reivindicaciones 5 a 6.

12. Un medio de almacenamiento legible que almacena un programa de ordenador, en donde el programa de ordenador, cuando es ejecutado por un procesador, hace que el procesador realice el método de reconocimiento de conversación de acuerdo con una cualquiera de las reivindicaciones 5 a 6.