ES3035010T3 - Decoding network construction method, voice recognition method, device and apparatus, and storage medium - Google Patents

Decoding network construction method, voice recognition method, device and apparatus, and storage medium

Info

Publication number
ES3035010T3
ES3035010T3 ES19949233T ES19949233T ES3035010T3 ES 3035010 T3 ES3035010 T3 ES 3035010T3 ES 19949233 T ES19949233 T ES 19949233T ES 19949233 T ES19949233 T ES 19949233T ES 3035010 T3 ES3035010 T3 ES 3035010T3
Authority
ES
Spain
Prior art keywords
decoding network
domain
decoding
language model
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19949233T
Other languages
English (en)
Inventor
Jianqing Gao
Zhiguo Wang
Guoping Hu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Application granted granted Critical
Publication of ES3035010T3 publication Critical patent/ES3035010T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

Un método de construcción de red de decodificación, un método, dispositivo y aparato de reconocimiento de voz, y un medio de almacenamiento. El método de construcción de red de decodificación comprende: adquirir un modelo lingüístico universal, un modelo lingüístico de dominio y una red de decodificación universal generada según el modelo lingüístico universal (S101); generar una red de decodificación de dominio según el modelo lingüístico universal y el modelo lingüístico de dominio (S102); e integrar la red de decodificación de dominio en la red de decodificación universal para obtener una red de decodificación objetivo (S103). El método de reconocimiento de voz comprende: utilizar una red de decodificación objetivo para decodificar los datos de voz a reconocer, con el fin de obtener una ruta de decodificación de los datos de voz a reconocer (S501); y, según la ruta de decodificación de los datos de voz a reconocer, determinar un resultado de reconocimiento de voz de los datos de voz a reconocer (S502). La presente invención puede mejorar la precisión del reconocimiento de voz de palabras profesionales en un campo específico. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Método de construcción de red de decodificación, método de reconocimiento de voz, dispositivo y aparato, y medio de almacenamiento
Esta solicitud reivindica prioridad a la Solicitud de Patente China No. 201910983196.3, titulada "DECODING NETWORK CONSTRUCTION METHOD, VOICE RECOGNITION METHOD, DEVICE AND APPARATUS, AND STORAGE MEDIUM", presentada el 16 de octubre de 2019 ante la Administración Nacional de Propiedad Intelectual de China.
Campo
La presente divulgación se relaciona con el campo técnico del reconocimiento de conversación, y en particular con un método para construir una red de decodificación, un método de reconocimiento de conversación, un dispositivo del mismo, un aparato del mismo y un medio de almacenamiento.
Antecedentes
El reconocimiento de conversación se realiza con base en un modelo de lenguaje, y la mayoría de los esquemas de reconocimiento de conversación existentes se basan en un modelo de lenguaje universal. En un esquema de reconocimiento basado en el modelo de lenguaje universal, el modelo de lenguaje universal se convierte primero en una red de decodificación general, y la conversación que va a ser reconocida se decodifica aplicando la red de decodificación general.
El esquema de reconocimiento basado en un modelo de lenguaje universal puede reconocer con precisión una palabra general, pero es posible reconocer un término relacionado con dominio como una palabra general que tiene una pronunciación similar con la palabra profesional. En otras palabras, el esquema de reconocimiento convencional basado en un modelo de lenguaje universal tiene una baja precisión en el reconocimiento de un término relacionado con dominio. El documento WO2014117577A1 proporciona un método y un sistema para el reconocimiento automático de conversación. El método incluye generar una red de decodificación que incluye una subred primaria y una subred de clasificación. La subred principal incluye un nodo de clasificación que corresponde a la subred de clasificación. La subred de clasificación corresponde a un grupo de palabras poco comunes. La entrada de conversación se recibe y decodifica creando una instancia de una contraseña en la subred principal y pasando la contraseña a través de la red principal. Cuando la contraseña llega al nodo de clasificación, el método incluye transferir la contraseña a la subred de clasificación y pasar la contraseña a través de la subred de clasificación. Cuando la contraseña llega a un nodo de aceptación de la subred de clasificación, el método incluye retornar un resultado de la contraseña que pasa a través de la subred de clasificación hasta la subred principal. El resultado incluye una o más palabras en el grupo de palabras poco comunes. Se emite una cadena que corresponde a la entrada de conversación que incluye la una o más palabras.
Resumen
La invención es como se define en el conjunto anexo de reivindicaciones.
Breve descripción de los dibujos
La figura 1 es un diagrama de flujo esquemático que muestra un método para construir una red de decodificación de acuerdo con una realización de la presente divulgación;
La figura 2 es un diagrama de flujo esquemático que muestra un proceso de generación de una red de decodificación de dominio basado en un modelo de lenguaje universal y un modelo de lenguaje de dominio en el método para construir una red de decodificación de acuerdo con una realización de la presente divulgación;
La figura 3 es un diagrama de flujo esquemático que muestra un proceso de conexión en cascada de una red de decodificación de dominio y una red de decodificación general en el método para construir una red de decodificación de acuerdo con una realización de la presente divulgación;
La figura 4 es un diagrama esquemático que muestra un ejemplo de una red de decodificación de destino obtenida al conectar en cascada una red de decodificación de dominio y una red de decodificación general de acuerdo con una realización de la presente divulgación;
La figura 5 es un diagrama de flujo esquemático que muestra un método de reconocimiento de conversación de acuerdo con una realización de la presente divulgación;
La figura 6 es un diagrama estructural esquemático que muestra un dispositivo para construir una red de decodificación de acuerdo con una realización de la presente divulgación;
La figura 7 es un diagrama estructural esquemático que muestra un dispositivo de reconocimiento de conversación de acuerdo con una realización de la presente divulgación;
La figura 8 es un diagrama estructural esquemático que muestra un aparato para construir una red de decodificación de acuerdo con una realización de la presente divulgación; y
La figura 9 es un diagrama estructural esquemático que muestra un aparato de reconocimiento de conversación de acuerdo con una realización de la presente divulgación.
Descripción detallada
Las soluciones técnicas en las realizaciones de la presente divulgación se describen clara y completamente a continuación con referencia a los dibujos acompañantes en las realizaciones de la presente divulgación. Aparentemente, las realizaciones descritas en este documento son solo una parte en lugar de todas las realizaciones de la presente divulgación. Cualquier otra realización obtenida por aquellos expertos en la técnica con base en las realizaciones en la presente divulgación sin ningún trabajo creativo cae dentro del alcance de protección de la presente divulgación.
La presente divulgación se relaciona en general con un sistema de reconocimiento de conversación para el reconocimiento de conversación. El sistema de reconocimiento de conversación puede recibir una conversación ingresada por un usuario, y reconocer, usando una red de decodificación, la conversación ingresada por el usuario como un texto y emitir el texto. En una posible implementación, el sistema de reconocimiento de conversación puede implementarse en un dispositivo terminal. En una configuración básica, el dispositivo terminal tiene un elemento de entrada (tal como un micrófono, un sensor, una pantalla táctil, un botón) y un elemento de salida (tal como una pantalla de visualización, un altavoz). El dispositivo terminal puede ser un dispositivo informático adecuado para el reconocimiento de conversación, tal como un teléfono inteligente, un ordenador tipo tableta, un ordenador portátil, un ordenador personal, un reloj inteligente, un dispositivo de uso personal, un TV y un dispositivo de juegos. Una conversación es ingresada por un usuario a través del elemento de entrada (tal como un micrófono) del dispositivo terminal. La conversación ingresada por el usuario es reconocida por el dispositivo terminal usando una red de decodificación y un resultado obtenido del reconocimiento de conversación se emite a través del elemento de salida. Además del elemento de entrada y del elemento de salida, el dispositivo terminal incluye además un procesador y una memoria que se comunican entre sí a través de un bus de comunicación. El procesador puede ser una unidad central de procesamiento CPU y/o unidad de procesamiento de gráficos GPU, un procesador de propósito general, un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), un arreglo de puertas programables en campo (FPGA) o cualquier otro dispositivo lógico programable, dispositivo lógico de puerta discreta o transistor. El procesador general puede ser un microprocesador o cualquier procesador convencional. La memoria puede incluir un medio de almacenamiento de ordenador en una forma de memoria volátil y/o no volátil, tal como una memoria de solo lectura (ROM), una memoria de acceso aleatorio (RAM). La memoria tiene un programa almacenado en la misma, que puede ser invocado por el procesador.
En otra posible implementación, el sistema de reconocimiento de conversación puede implementarse en un único servidor, y el servidor puede recibir datos proporcionados desde el dispositivo terminal a través de una red, y puede proporcionar además datos al dispositivo terminal a través de la red. El sistema de reconocimiento de conversación también puede implementarse en múltiples servidores, y similar a lo anterior, los servidores pueden recibir datos proporcionados desde el dispositivo terminal a través de la red y proporcionar datos al dispositivo terminal a través de la red. La red puede ser, pero no está limitada a, una red de área local (LAN), una red de área amplia (WAN) y similares. En un caso donde el sistema de reconocimiento de conversación se implementa en el servidor, el dispositivo terminal obtiene la conversación ingresada por el usuario a través de un dispositivo de entrada del dispositivo terminal y transmite la conversación al servidor a través de la red; el servidor reconoce, usando una red de decodificación, la conversación recibida desde el dispositivo terminal para obtener un resultado de reconocimiento de conversación y emite el resultado de reconocimiento de conversación al dispositivo terminal a través de la red; y el dispositivo terminal emite el resultado de reconocimiento de conversación a través del elemento de salida. El servidor puede incluir un procesador y una memoria, que se comunican entre sí a través de un bus de comunicación. El procesador puede ser una unidad central de procesamiento CPU y/o unidad de procesamiento de gráficos GPU, un procesador de propósito general, un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), un arreglo de puertas programables en campo (FPGA) o cualquier otro dispositivo lógico programable, dispositivo lógico de puerta discreta o transistor, componente de hardware discreto. El procesador de propósito general puede ser un microprocesador o cualquier procesador convencional. La memoria puede incluir un medio de almacenamiento de ordenador en una forma de memoria volátil y/o no volátil, tal como una memoria de solo lectura (ROM), una memoria de acceso aleatorio (RAM). La memoria tiene un programa almacenado en la misma, que puede ser invocado por el procesador.
Considerando que el sistema de reconocimiento de conversación puede obtener un efecto de reconocimiento bajo al reconocer una conversación que contiene una palabra profesional en un dominio usando una red de decodificación general, el inventor ha llevado a cabo una investigación como la siguiente con el fin de mejorar la precisión en el reconocimiento de un término relacionado con dominio. Con base en un concepto inicial, se realiza un entrenamiento con un corpus de un dominio específico para obtener un modelo de lenguaje de dominio, el modelo de dominio entrenado luego se interpola en un modelo de lenguaje universal, y el modelo de lenguaje universal después de la interpolación se convierte en una red de decodificación de destino. Alternativamente, el modelo de lenguaje universal después de la interpolación puede convertirse en una máquina de estados finitos ponderada (WFST), que se usa como la red de decodificación de destino. Después de obtener la red de decodificación de destino, se puede realizar un reconocimiento de conversación usando la red de decodificación de destino.
Debe anotarse que el modelo de lenguaje universal puede usarse ampliamente y es adecuado para diversas situaciones comunes, y el modelo de lenguaje de dominio es un modelo de lenguaje que se obtiene mediante entrenamiento con palabras que son comunes en un campo específico pero no comunes en otros campos. La interpolación del modelo de lenguaje de dominio en el modelo de lenguaje universal no solo puede mantener el conocimiento original del modelo de lenguaje universal, sino que también aumenta una probabilidad de aparición de una palabra profesional que nunca aparece en el modelo de lenguaje universal. Por lo tanto, al interpolar el modelo de lenguaje de dominio en el modelo de lenguaje universal, se puede obtener un modelo de lenguaje adecuado para un dominio específico, y la red de decodificación de destino obtenida al convertir tal modelo de lenguaje, cuando se usa para reconocimiento de conversación, puede llevar a una mayor precisión de reconocimiento.
El inventor se dio cuenta de que aunque la solución anterior puede mejorar la precisión del reconocimiento de un término relacionado con dominio, hay los siguientes problemas. Después de interpolar el modelo de lenguaje de dominio en el modelo de lenguaje universal, es necesario regenerar una red de decodificación, tal como WFST, basada en el modelo de lenguaje universal después de la interpolación. Dado que el modelo de lenguaje universal después de la interpolación tiene una gran escala, se requiere mucho tiempo (más de unas pocas horas) y muchos recursos de almacenamiento para generar la red de decodificación, por lo tanto la solución es difícil que se aplique a un sistema industrial.
Con el fin de solucionar los problemas, el inventor continuó estudiando y propuso otra solución. De acuerdo con el concepto de esta solución, una red de decodificación generada con base en un modelo de lenguaje universal se usa como una red de decodificación general; un modelo de lenguaje de dominio se obtiene mediante entrenamiento con un corpus de un dominio específico, y una red de decodificación generada con base en el modelo de lenguaje de dominio se usa como una red de decodificación de dominio; y se realiza una búsqueda en la red de decodificación general de cualquier trayectoria que exista en la red de decodificación de dominio, y se modifica un peso de tal trayectoria.
Sin embargo, en la solución anterior, la búsqueda requiere mucho tiempo ya que la trayectoria en la red de decodificación general es demasiado grande. En otras palabras, aunque esta solución evita el problema de consumir muchos recursos para regenerar la red de decodificación, todavía toma mucho tiempo.
Después de un estudio adicional, el inventor finalmente propuso una solución que resuelve perfectamente los problemas mencionados anteriormente en la investigación y desarrollo. La solución proporcionada en la presente divulgación se describe a través de las siguientes realizaciones.
Se proporciona un método para construir una red de decodificación de acuerdo con una realización de la presente divulgación. Con referencia a la figura 1, que muestra un diagrama de flujo esquemático del método para construir una red de decodificación, el método puede incluir las etapas S101 a S103.
En la etapa S101, se obtienen un modelo de lenguaje universal, un modelo de lenguaje de dominio y una red de decodificación general generada con base en el modelo de lenguaje universal.
El modelo de lenguaje de dominio se obtiene mediante entrenamiento con un corpus de un dominio específico, y la red de decodificación general se obtiene realizando una conversión binaria en el modelo de lenguaje universal.
En la etapa S102, se genera una red de decodificación de dominio basada en el modelo de lenguaje universal y el modelo de lenguaje de dominio.
Debe anotarse que un proceso de decodificación en un sistema de reconocimiento de conversación es esencialmente una comparación de puntuaciones para las trayectorias de decodificación. Con base en esto, de acuerdo con la presente divulgación, la red de decodificación de dominio se genera realizando una interpolación en el modelo de lenguaje universal y el modelo de lenguaje de dominio. Aunque es necesario que se genere la red de decodificación de dominio, el tiempo y los recursos de almacenamiento consumidos para generar la red de decodificación de dominio se reducen significativamente en comparación con el tiempo y los recursos de almacenamiento consumidos por la antes mencionada "regeneración de la red de decodificación basada en el modelo de lenguaje universal después de la interpolación".
Un proceso de generación de la red de decodificación de dominio basado en el modelo de lenguaje universal y el modelo de lenguaje de dominio puede referirse a la descripción subsecuente de las realizaciones.
En la etapa S103, la red de decodificación de dominio se integra con la red de decodificación general para obtener una red de decodificación de destino.
En el método para construir una red de decodificación proporcionado por las realizaciones de la presente divulgación, se puede generar una red de decodificación de dominio con base en un modelo de lenguaje universal y un modelo de lenguaje de dominio, y la red de decodificación de dominio se integra en la red de decodificación general, de tal manera que se obtiene una red de decodificación de destino capaz de decodificar datos de conversación que van a ser reconocidos. Con el método para construir una red de decodificación proporcionado por las realizaciones de la presente divulgación, la red de decodificación de destino obtenida al integrar la red de decodificación de dominio con la red de decodificación general puede reconocer con precisión tanto una palabra general como un término relacionado con dominio. En comparación con la red de decodificación general, la red de decodificación de destino construida en las realizaciones de la presente divulgación puede mejorar la precisión del reconocimiento de conversación para un término relacionado con dominio. Además, el tiempo y los recursos de almacenamiento consumidos en la generación de la red de decodificación de dominio se reducen significativamente en comparación con el tiempo y los recursos de almacenamiento consumidos en la regeneración de la red de decodificación general.
A continuación se describe la etapa S102 de generar una red de decodificación de dominio basada en el modelo de lenguaje universal y el modelo de lenguaje de dominio en la realización anterior.
Con referencia a la figura 2, que muestra un diagrama de flujo esquemático de un proceso de generación de una red de decodificación de dominio basado en un modelo de lenguaje universal y un modelo de lenguaje de dominio, el proceso puede incluir las etapas S201 a S202.
En la etapa S201, se realiza la interpolación en el modelo de lenguaje universal y el modelo de lenguaje de dominio.
Una parte en la cual se realiza la interpolación incluye todas las partes en el modelo de lenguaje de dominio y una parte en el modelo de lenguaje universal que también aparece en el modelo de lenguaje de dominio.
En una realización, el modelo de lenguaje universal y el modelo de lenguaje de dominio pueden ser cada uno un modelo de n-gramas. Con base en esto, cuando se realiza la interpolación en el modelo de lenguaje de dominio y el modelo de lenguaje universal en esta realización, la parte en la cual se realiza la interpolación incluye todas las entradas de n-gramas en el modelo de lenguaje de dominio y una entrada de n-gramas en el modelo de lenguaje universal que también aparece en el modelo de lenguaje de dominio. En otras palabras, la parte en la cual se realiza la interpolación incluye solo la entrada de n-gramas que aparece en el modelo de lenguaje de dominio y no incluye ninguna entrada de n-gramas que nunca aparezca en el modelo de lenguaje de dominio.
Debe anotarse que la interpolación en la entrada de n-gramas en el modelo de lenguaje de dominio y la entrada de n-gramas que está en el modelo de lenguaje universal y también aparece en el modelo de lenguaje de dominio es esencialmente una interpolación probabilística en estas entradas de n-gramas. Suponiendo que el modelo de lenguaje de dominio y el modelo de lenguaje universal son ambos modelos de lenguaje de tercer orden, una fórmula de interpolación probabilística de trigramas se expresa de la siguiente manera:
donde p(Wn|Wn-2Wn-i) representa una probabilidad de ocurrencia de Un bajo ocurrencia de Wn-2 y Un-i, pb representa una probabilidad de una entrada de n-gramas que está en el modelo de lenguaje universal y también aparece en el modelo de lenguaje de dominio, pantiguo representa una probabilidad de la entrada de n-gramas en el modelo de lenguaje de dominio, y pnuevo representa una probabilidad de la entrada de n-gramas después de que se realiza la interpolación en la entrada de n-gramas en el modelo de lenguaje de dominio y la entrada de n-gramas en el modelo de lenguaje universal que también aparece en el modelo de lenguaje de dominio, y a representa un coeficiente de interpolación.
En la etapa S202, se genera una red de decodificación de dominio con base en la parte en la cual se realiza la interpolación.
En una realización, la red de decodificación de dominio se obtiene realizando una conversión binaria en la parte en la cual se realiza la interpolación.
Dado que el número de entradas de n-gramas en la parte en la cual se realiza la interpolación (es decir, las entradas de n-gramas que solo aparecen en el modelo de lenguaje de dominio) es pequeño, generar la red de decodificación de dominio basada en la parte en la cual se realiza la interpolación consume poco tiempo y pocos recursos de almacenamiento.
A continuación se describe la etapa S103 de integrar la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino en la realización anterior.
Hay diversas formas de integrar la red de decodificación de dominio con la red de decodificación general.
En una posible implementación, la red de decodificación de destino puede obtenerse conectando la red de decodificación de dominio y la red de decodificación general en paralelo.
En un caso de decodificación de datos de conversación que van a ser reconocidos usando la red de destino obtenida al conectar la red de decodificación de dominio y la red de decodificación general en paralelo, los datos de conversación que van a ser reconocidos se ingresan en la red de decodificación de dominio y la red de decodificación general respectivamente, para la decodificación, para obtener una trayectoria de decodificación en la red de decodificación general y una trayectoria de decodificación en la red de decodificación de dominio. Se compara una puntuación para la trayectoria de decodificación en la red de decodificación general con una puntuación para la trayectoria de decodificación en la red de decodificación de dominio, y la trayectoria de decodificación con una puntuación más alta se determina como una trayectoria de decodificación final. En otras palabras, la trayectoria de decodificación final es ya sea la trayectoria de decodificación en la red de decodificación de dominio o la trayectoria de decodificación en la red de decodificación general. Finalmente, se genera un resultado de decodificación basado en la trayectoria de decodificación final.
El inventor encontró después de un estudio que la red de decodificación de destino obtenida al conectar la red de decodificación de dominio y la red de decodificación general en paralelo puede reconocer con precisión una conversación que contiene solo una palabra general o solo un término relacionado con dominio, pero la precisión de reconocimiento no es buena para una conversación que contiene tanto una palabra general como un término relacionado con dominio. Es entendible que, en algunos casos, la conversación que va a ser reconocida pueda ser una conversación continua que contenga un gran número de palabras, que usualmente incluyan tanto palabras generales como palabras profesionales. Por lo tanto, la red de decodificación obtenida al conectar la red de decodificación de dominio y la red de decodificación general en paralelo no es adecuada para reconocer una conversación continua que contiene un gran número de palabras.
En vista de los problemas mencionados anteriormente, en la presente divulgación se proporciona otra implementación para integrar la red de decodificación de dominio con la red de decodificación general. Una idea básica de tal implementación es conectar en cascada la red de decodificación de dominio y la red de decodificación general, de tal manera que una red de decodificación de destino obtenida al conectar en cascada la red de decodificación de dominio y la red de decodificación general pueda reconocer con precisión una conversación que contenga tanto una palabra general como una palabra profesional, y sea adecuada para reconocer una conversación continua que contenga un gran número de palabras.
Con referencia a la figura 3, que muestra un diagrama de flujo esquemático de un proceso de conexión en cascada de la red de decodificación de dominio y la red de decodificación general, el proceso puede incluir las etapas S301 a S302.
En la etapa S301, se agregan nodos virtuales para cada una de la red de decodificación general y la red de decodificación de dominio.
Los nodos virtuales incluyen un nodo de inicio y un nodo final.
En la etapa S302, la red de decodificación general y la red de decodificación de dominio se conectan en cascada por medio del nodo de inicio y el nodo final.
En una realización, un proceso de conexión en cascada de la red de decodificación general y la red de decodificación de dominio por medio del nodo de inicio y el nodo final incluye: conectar el nodo final para la red de decodificación general y el nodo de inicio para la red de decodificación de dominio en una dirección desde el nodo final para la red de decodificación general hasta el nodo de inicio para la red de decodificación de dominio; y conectar el nodo final para la red de decodificación de dominio y el nodo de inicio para la red de decodificación general en una dirección desde el nodo final para la red de decodificación de dominio hasta el nodo de inicio para la red de decodificación general.
Se hace referencia a la figura 4, que muestra un diagrama esquemático de una red de decodificación de destino obtenida al conectar en cascada la red de decodificación de dominio y la red de decodificación general. Como se muestra en la figura 4, la red de decodificación general incluye el nodo 1, nodo 2 y nodo 3, y la red de decodificación de dominio incluye el nodo 4, nodo 5 y nodo 6.
Con el fin de conectar en cascada la red de decodificación de dominio y la red de decodificación general, se crean un nodo de inicio virtual y un nodo final virtual para la red de decodificación de dominio, y se crean un nodo de inicio virtual y un nodo final virtual para la red de decodificación general. El nodo de inicio creado para la red de decodificación general y el nodo 1 en la red de decodificación general están conectados en una dirección desde el nodo de inicio al nodo 1; el nodo 3 en la red de decodificación general y el nodo final creado para la red de decodificación general están conectados en una dirección desde el nodo 3 al nodo final; el nodo final creado para la red de decodificación general y el nodo de inicio creado para la red de decodificación general están conectados en una dirección desde el nodo final al nodo de inicio; el nodo de inicio creado para la red de decodificación de dominio y el nodo 4 en la red de decodificación de dominio están conectados en una dirección desde el nodo de inicio al nodo 4; el nodo 6 en la red de decodificación de dominio y el nodo final creado para la red de decodificación de dominio están conectados en una dirección desde el nodo 6 al nodo final; el nodo final creado para la red de decodificación de dominio y el nodo de inicio creado para la red de decodificación de dominio están conectados en una dirección desde el nodo final al nodo de inicio; el nodo final creado para la red de decodificación general y el nodo de inicio creado para la red de decodificación de dominio están conectados en una dirección desde el nodo final hasta el nodo de inicio; y el nodo final creado para la red de decodificación de dominio y el nodo de inicio creado para la red de decodificación general están conectados en una dirección desde el nodo final hasta el nodo de inicio.
Al decodificar una conversación que va a ser reconocida usando la red de decodificación de destino obtenida al conectar en cascada la red de decodificación de dominio y la red de decodificación general, si los datos de conversación que van a ser reconocidos incluyen tanto una palabra general como una palabra profesional, una trayectoria de decodificación final se compone de una trayectoria de decodificación en la red de decodificación general y una trayectoria de decodificación en la red de decodificación de dominio. Por ejemplo, los datos de conversación que van a ser reconocidos son "Vamos a empezar el reconocimiento de conversación", en los cuales la trayectoria de decodificación que corresponde a "Vamos a empezar" existe en la red de decodificación general y la trayectoria de decodificación que corresponde a "reconocimiento de conversación" existe en la red de decodificación de dominio, luego la trayectoria de decodificación final se compone de la trayectoria de decodificación que corresponde a "Vamos a empezar" y la trayectoria de decodificación que corresponde a "reconocimiento de conversación". Debe anotarse que la trayectoria de decodificación en la red de decodificación general y la trayectoria de decodificación en la red de decodificación de dominio están concatenadas por un nodo final.
Se debe anotar que el nodo de inicio y el nodo final agregados en la red de decodificación de dominio y la red de decodificación general pueden configurarse como silenciosos (anotados como "sil"). El nodo de inicio y el nodo final no afectan el resultado de decodificación. Al decodificar los datos de conversación que van a ser reconocidos usando la red de decodificación de destino, los marcos de conversación de los datos de conversación que van a ser reconocidos pasan a través de los dos nodos de inicio e ingresan a la red de decodificación de dominio y a la red de decodificación general respectivamente para la decodificación. Como se muestra en la figura 4, los marcos de conversación de los datos de conversación que van a ser reconocidos ingresan a la red de decodificación a través de un carácter de partida "<s>", saltan a los dos nodos de inicio e ingresan a la red de decodificación general y a la red de decodificación de dominio respectivamente para la decodificación. En un caso donde una trayectoria candidata en la red de decodificación general o la red de decodificación de dominio incluye un nodo final, el proceso de decodificación salta desde el nodo final a al menos un nodo de inicio para continuar la decodificación en la red de decodificación general y/o la red de decodificación de dominio hasta el final de los marcos de conversación, luego se emite un carácter final "<s>" de tal manera que se complete un proceso de decodificación en serie.
Sobre la base de las realizaciones anteriores, se proporciona además un método de reconocimiento de conversación de acuerdo con una realización de la presente divulgación. Con referencia a la figura 5, que muestra un diagrama de flujo esquemático del método de reconocimiento de conversación, el método puede incluir las etapas S501 a S502.
En la etapa S501, los datos de conversación que van a ser reconocidos se decodifican usando una red de decodificación de destino para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos.
La red de decodificación de destino se construye usando el método para construir una red de decodificación proporcionado en la realización anterior.
En una posible implementación, las trayectorias de decodificación de la red de decodificación de destino pueden presentarse en una red. Debe anotarse que una red es un gráfico no dirigido ponderado, donde cada nodo en la red representa una unidad acústica y cada arco contiene dos pesos, es decir, peso acústico y peso de lenguaje. Cualquier trayectoria de izquierda a derecha en la red constituye un resultado de reconocimiento de conversación. Una puntuación de una trayectoria completa se calcula como una suma de los pesos acústicos de todos los bordes en la trayectoria y el peso de lenguaje que corresponde a la trayectoria.
Específicamente, un proceso de decodificación de los datos de conversación que van a ser reconocidos usando la red de decodificación de destino para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos puede incluir: ingresar marcos de conversación de los datos de conversación que van a ser reconocidos en la red de decodificación de destino de manera secuencial para decodificación, para obtener la trayectoria de decodificación para los datos de conversación que van a ser reconocidos. Los marcos de conversación de los datos de conversación que van a ser reconocidos ingresan, respectivamente a través de dos nodos de inicio virtuales en la red de decodificación de destino, la red de decodificación general y la red de decodificación de dominio en la red de decodificación de destino para la decodificación. En un caso donde una trayectoria de decodificación candidata en la red de decodificación general o la red de decodificación de dominio incluye un nodo final, el proceso salta desde el nodo final a al menos un nodo de inicio conectado al nodo final, se ingresa a la red de decodificación general y/o a la red de decodificación de dominio para continuar la decodificación hasta un final de los marcos de conversación.
Se debe anotar que en un caso donde una trayectoria de decodificación candidata incluye un nodo final, si una puntuación para una trayectoria que ingresa a la red de decodificación general y una puntuación para una trayectoria que ingresa a la red de decodificación de dominio son ambas mayores que o iguales a un umbral de puntuación de trayectoria preestablecido, el proceso de decodificación salta del nodo final a los dos nodos de inicio conectados al nodo final e ingresa a la red de decodificación general y a la red de decodificación de dominio para decodificación; si la puntuación para la trayectoria que ingresa a la red de decodificación general es mayor que o igual al umbral de puntuación de trayectoria, y la puntuación para la trayectoria que ingresa a la red de decodificación de dominio es menor que el umbral de puntuación de trayectoria, el proceso de decodificación salta del nodo final al nodo de inicio creado para la red de decodificación general para ingresar a la red de decodificación general para decodificación; y si la puntuación de la trayectoria que ingresa a la red de decodificación de dominio es mayor que o igual al umbral de puntuación de trayectoria, y la puntuación de la trayectoria que ingresa a la red de decodificación general es menor que el umbral de puntuación de trayectoria, el proceso de decodificación salta del nodo final al nodo de inicio creado para que la red de decodificación de dominio ingrese a la red de decodificación de dominio para la decodificación.
En la etapa S502, se determina un resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos.
El proceso de determinación del resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos se puede implementar de diversas maneras.
En una posible implementación, los resultados de reconocimiento de conversación candidatos y las puntuaciones de los resultados de reconocimiento de conversación candidatos se pueden obtener con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos, y un resultado de reconocimiento de conversación candidato con la puntuación más alta se determina como el resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos.
En otra posible implementación, el resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos se puede determinar a través de un modelo de lenguaje de alto orden obtenido de antemano y la trayectoria de decodificación para los datos de conversación que van a ser reconocidos. Específicamente, la trayectoria de decodificación para los datos de conversación que van a ser reconocidos se puede ingresar en el modelo de lenguaje de alto orden obtenido de antemano para obtener el resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos. Debe anotarse que el modelo de lenguaje de alto orden se obtiene realizando una interpolación en el modelo de lenguaje universal usando el modelo de lenguaje de dominio. El modelo de lenguaje de alto orden es capaz de seleccionar el mejor resultado de reconocimiento a partir de múltiples resultados de reconocimiento candidatos, como el resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos.
En el método de reconocimiento de conversación proporcionado en las realizaciones de la presente divulgación, dado que la red de decodificación de destino se obtiene integrando la red de decodificación de dominio con la red de decodificación general, la conversación que va a ser reconocida que contiene un término relacionado con dominio puede reconocerse con precisión usando la red de decodificación de destino.
A continuación se describe un dispositivo para construir una red de decodificación de acuerdo con una realización de la presente divulgación. El dispositivo para construir una red de decodificación y el método para construir una red de decodificación pueden hacer referencia entre sí. Con referencia a la figura 6, que muestra un diagrama estructural esquemático de un dispositivo para construir una red de decodificación de acuerdo con una realización de la presente divulgación, el dispositivo para construir una red de decodificación puede incluir: un módulo de adquisición de modelo de lenguaje y red de decodificación general 601, un módulo de generación de red de decodificación de dominio 602 y un módulo de integración de red de decodificación 603. El módulo de adquisición de modelo de lenguaje y red de decodificación general 601 está configurado para adquirir un modelo de lenguaje universal, un modelo de lenguaje de dominio y una red de decodificación general generada con base en el modelo de lenguaje universal. El módulo de generación de red de decodificación de dominio 602 está configurado para generar una red de decodificación de dominio basada en el modelo de lenguaje universal y el modelo de lenguaje de dominio. El módulo de integración de red de decodificación 603 está configurado para integrar la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino.
Con el dispositivo para construir una red de decodificación proporcionado en la realización de la presente divulgación, la red de decodificación de destino obtenida al interpretar la red de decodificación de dominio con la red de decodificación general puede reconocer con precisión no solo una palabra general sino también un término relacionado con dominio. En comparación con la red de decodificación general, la red de decodificación de destino construida en la realización de la presente divulgación puede mejorar la precisión del reconocimiento de conversación que contiene un término relacionado con dominio. Además, el tiempo y recursos de almacenamiento consumidos por la red de decodificación de dominio se reducen significativamente en comparación con el tiempo y recursos de almacenamiento consumidos al regenerar la red de decodificación general.
En una posible implementación, el módulo de generación de red de decodificación de dominio 602 en el dispositivo para contrastar una red de decodificación proporcionado en la realización anterior puede incluir un submódulo de interpolación y un submódulo de generación de red de decodificación de dominio. El submódulo de interpolación está configurado para realizar la interpolación en el modelo de lenguaje universal y el modelo de lenguaje de dominio, donde una parte en la cual se realiza la interpolación incluye todas las partes en el modelo de lenguaje de dominio y una parte en el modelo de lenguaje universal que también aparece en el modelo de lenguaje de dominio. El submódulo de generación de red de decodificación de dominio está configurado para generar la red de decodificación de dominio con base en la parte en la cual se realiza la interpolación.
En una posible implementación, el módulo de integración de red de decodificación 603 en el dispositivo para construir una red de decodificación proporcionado en la realización anterior está configurado específicamente para conectar en cascada la red de decodificación de dominio y la red de decodificación general para obtener la red de decodificación de destino.
En una posible implementación, el módulo de integración de red de decodificación 603 en el dispositivo para construir una red de decodificación proporcionado en la realización anterior incluye: un submódulo de adición de nodos y un submódulo de conexión en cascada. El submódulo de adición de nodos está configurado para agregar nodos virtuales para cada una de la red de decodificación general y la red de decodificación de dominio, donde los nodos virtuales incluyen un nodo de inicio y un nodo final. El submódulo de conexión en cascada está configurado para conectar en cascada la red de decodificación general y la red de decodificación de dominio por medio del nodo de inicio y el nodo final.
En una posible implementación, el submódulo de conexión en cascada está configurado específicamente para conectar el nodo final de la red de decodificación general y el nodo de inicio de la red de decodificación de dominio en una dirección desde el nodo final de la red de decodificación general hasta el nodo de inicio de la red de decodificación de dominio; y conectar el nodo final de la red de decodificación de dominio y el nodo de inicio de la red de decodificación general en una dirección desde el nodo final de la red de decodificación de dominio hasta el nodo de inicio de la red de decodificación general.
En correspondencia con el método de reconocimiento de conversación, se proporciona además un dispositivo de reconocimiento de conversación de acuerdo con una realización de la presente divulgación. Con referencia a la figura 7, que muestra un diagrama estructural esquemático del dispositivo de reconocimiento de conversación, el dispositivo de reconocimiento de conversación puede incluir un módulo de decodificación 701 y un módulo de determinación de resultado de reconocimiento de conversación 702. El módulo de decodificación 701 está configurado para decodificar datos de conversación que van a ser reconocidos usando la red de decodificación de destino construida por el dispositivo para construir una red de decodificación proporcionada en la realización anterior, para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos. El módulo de determinación de resultado de reconocimiento de conversación 702 está configurado para determinar un resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación de los datos de conversación que van a ser reconocidos.
De acuerdo con el método de reconocimiento de conversación proporcionado en la realización de la presente divulgación, la red de decodificación de destino se obtiene integrando la red de decodificación de dominio con la red de decodificación general, la red de decodificación de destino por lo tanto puede reconocer con precisión la conversación que va a ser reconocida que contiene un término relacionado con dominio.
En una posible implementación, el módulo de decodificación 701 en el dispositivo de reconocimiento de conversación proporcionado en la realización anterior está configurado específicamente para determinar el resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en un modelo de lenguaje de alto orden obtenido de antemano y la trayectoria de decodificación para los datos de conversación que van a ser reconocidos, donde el modelo de lenguaje de alto orden se obtiene realizando una interpolación en el modelo de lenguaje universal usando el modelo de lenguaje de dominio.
En una posible implementación, el módulo de decodificación 701 en el dispositivo de reconocimiento de conversación proporcionado en la realización anterior está configurado específicamente para ingresar marcos de conversación de los datos de conversación que van a ser reconocidos en la red de decodificación de destino de manera secuencial para la decodificación, para obtener la trayectoria de decodificación para los datos de conversación que van a ser reconocidos. Los marcos de conversación de los datos de conversación que van a ser reconocidos ingresan, respectivamente a través de dos nodos de inicio en la red de decodificación de destino, la red de decodificación general y la red de decodificación de dominio en la red de decodificación de destino para la decodificación. En un caso donde una trayectoria de decodificación candidata en la red de decodificación general o la red de decodificación de dominio incluye un nodo final, el proceso salta desde el nodo final a al menos un nodo de inicio conectado al nodo final, se ingresa a la red de decodificación general y/o a la red de decodificación de dominio para continuar la decodificación hasta el final de los marcos de conversación.
Se proporciona además un aparato para construir una red de decodificación de acuerdo con una realización de la presente divulgación. Con referencia a la figura 8, que muestra un diagrama estructural esquemático del aparato para construir una red de decodificación, el aparato para construir una red de decodificación puede incluir: al menos un procesador 801, al menos una interfaz de comunicación 802, al menos una memoria 803 y al menos un bus de comunicación 804. En la realización de la presente divulgación, el número del procesador 801, la interfaz de comunicación 802, la memoria 803 y el bus de comunicación 804 es al menos uno, y el procesador 801, la interfaz de comunicación 802 y la memoria 803 se comunican entre sí a través del bus de comunicación 804. El procesador 801 puede ser una unidad central de procesamiento CPU, un Circuito Integrado de Aplicación Específica (ASIC), uno o más circuitos integrados configurados para implementar las realizaciones de la presente divulgación, o similares. La memoria 803 puede incluir una memoria RAM de alta velocidad y puede incluir además una memoria no volátil tal como al menos una memoria de disco. La memoria almacena un programa y el programa almacenado en la memoria se puede llamar mediante el procesador. El programa se usa para: adquirir un modelo de lenguaje universal, un modelo de lenguaje de dominio y una red de decodificación general generada con base en el modelo de lenguaje universal; generar una red de decodificación de dominio con base en el modelo de lenguaje de dominio y el modelo de lenguaje universal; e integrar la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino.
En realizaciones alternativas, las funciones detalladas y las funciones ampliadas del programa pueden referirse en la descripción anterior.
Se proporciona además un medio de almacenamiento legible de acuerdo con una realización de la presente divulgación. El medio de almacenamiento legible puede almacenar un programa adecuado para ejecución por un procesador, y el programa se usa para: adquirir un modelo de lenguaje universal, un modelo de lenguaje de dominio y una red de decodificación general generada con base en el modelo de lenguaje universal; generar una red de decodificación de dominio con base en el modelo de lenguaje de dominio y el modelo de lenguaje universal; e integrar la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino.
Se proporciona además un aparato de reconocimiento de conversación de acuerdo con una realización de la presente divulgación. Con referencia a la figura 9, que muestra un diagrama estructural esquemático del aparato de reconocimiento de conversación, el aparato de reconocimiento de conversación puede incluir: al menos un procesador 901, al menos una interfaz de comunicación 902, al menos una memoria 903 y al menos un bus de comunicación 904. En la realización de la presente divulgación, el número del procesador 901, la interfaz de comunicación 902, la memoria 903 y el bus de comunicación 904 es al menos uno, y el procesador 901, la interfaz de comunicación 902 y la memoria 903 se comunican entre sí a través del bus de comunicación 904. El procesador 901 puede ser una unidad central de procesamiento CPU, un Circuito Integrado de Aplicación Específica (ASIC), uno o más circuitos integrados configurados para implementar las realizaciones de la presente divulgación, o similares. La memoria 903 puede incluir una memoria RAM de alta velocidad y puede incluir además una memoria no volátil tal como al menos una memoria de disco magnético. La memoria almacena un programa y el programa almacenado en la memoria se puede llamar mediante el procesador. El programa se usa para: decodificar datos de conversación que van a ser reconocidos usando una red de decodificación de destino construida usando el método para construir una red de decodificación de acuerdo con las realizaciones anteriores, para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos; y determinar un resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos.
En realizaciones alternativas, las funciones detalladas y las funciones ampliadas del programa pueden referirse a la descripción anterior.
Se proporciona además un medio de almacenamiento legible de acuerdo con una realización de la presente divulgación. El medio de almacenamiento legible puede almacenar un programa adecuado para ejecución por un procesador, y el programa se usa para: decodificar datos de conversación que van a ser reconocidos usando una red de decodificación de destino construida usando el método para construir una red de decodificación de acuerdo con las realizaciones anteriores, para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos; y determinar un resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos.
Por último, debe anotarse que los términos de relación tales como "primero", "segundo" y similares se usan en este documento simplemente para distinguir una entidad u operación de otra, en lugar de necesitar o implicar la existencia de la relación u orden real de las entidades u operaciones. Además, los términos "incluir", "comprender" o cualquier otra variante de los mismos se consideran como no exclusivos. Por lo tanto, un proceso, método, artículo o dispositivo que incluye una serie de elementos incluye no solo estos elementos sino también elementos que no están enumerados o elementos que son inherentes al proceso, método, artículo o dispositivo. A menos que se limite expresamente otra cosa, un proceso, método, artículo o dispositivo limitado por "que comprende/que incluye un(uno, una) ..." no excluye la existencia de otro elemento idéntico en tal proceso, método, artículo o dispositivo.
Las realizaciones en esta especificación se describen de una manera progresiva. Cada realización se centra en cualquier diferencia a partir de las otras, y las partes iguales o similares entre las realizaciones pueden referenciarse entre sí.
Los expertos en la técnica pueden implementar o practicar la presente divulgación con base en la descripción anterior de las realizaciones divulgadas. Diversas modificaciones a estas realizaciones son obvias para los expertos en la técnica. Los principios generales definidos en la presente divulgación pueden implementarse en otras realizaciones sin apartarse del alcance de la presente divulgación. Por lo tanto, la presente divulgación no debe limitarse a las realizaciones divulgadas en este documento, sino que se ajusta al alcance más amplio consistente con el principio y las características novedosas divulgadas en la especificación.

Claims (12)

REIVINDICACIONES
1. Un método para construir una red de decodificación, comprendiendo el método:
adquirir un modelo de lenguaje universal, un modelo de lenguaje de dominio y una red de decodificación general generada con base en el modelo de lenguaje universal;
generar una red de decodificación de dominio basada en el modelo de lenguaje de dominio y el modelo de lenguaje universal; e
integrar la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino,
en donde el método está caracterizado porque:
la generación de una red de decodificación de dominio basada en el modelo de lenguaje de dominio y el modelo de lenguaje universal comprende:
realizar interpolación en el modelo de lenguaje universal y el modelo de lenguaje de dominio, en donde una parte en la cual se realiza la interpolación comprende todas las partes en el modelo de lenguaje de dominio y una parte en el modelo de lenguaje universal que también aparece en el modelo de lenguaje de dominio; y generar la red de decodificación de dominio con base en la parte en la cual se realiza la interpolación.
2. El método para construir una red de decodificación de acuerdo con la reivindicación 1, en donde la integración de la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino comprende:
conectar en cascada la red de decodificación de dominio y la red de decodificación general para obtener la red de decodificación de destino.
3. El método para construir una red de decodificación de acuerdo con la reivindicación 2, en donde la conexión en cascada de la red de decodificación de dominio y la red de decodificación general comprende: agregar nodos virtuales para cada una de la red de decodificación general y la red de decodificación de dominio, en donde los nodos virtuales comprenden un nodo de inicio y un nodo final; y
conectar en cascada la red de decodificación general y la red de decodificación de dominio por medio del nodo de inicio y el nodo final.
4. El método para construir una red de decodificación de acuerdo con la reivindicación 3, en donde la conexión en cascada de la red de decodificación general y la red de decodificación de dominio por medio del nodo de inicio y el nodo final comprende:
conectar el nodo final de la red de decodificación general y el nodo de inicio de la red de decodificación de dominio en una dirección desde el nodo final de la red de decodificación general hasta el nodo de inicio de la red de decodificación de dominio; y
conectar el nodo final de la red de decodificación de dominio y el nodo de inicio de la red de decodificación general en una dirección desde el nodo final de la red de decodificación de dominio hasta el nodo de inicio de la red de decodificación general.
5. Un método de reconocimiento de conversación, que comprende:
decodificar datos de conversación que van a ser reconocidos usando una red de decodificación de destino para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos, en donde la red de decodificación de destino se construye usando el método para construir una red de decodificación de acuerdo con una cualquiera de las reivindicaciones 1 a 4; y
determinar un resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos.
6. El método de reconocimiento de conversación de acuerdo con la reivindicación 5, en donde un proceso de decodificación de datos de conversación que van a ser reconocidos usando una red de decodificación de destino para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos comprende:
ingresar marcos de conversación de los datos de conversación que van a ser reconocidos en la red de decodificación de destino de manera secuencial para la decodificación, para obtener la trayectoria de decodificación para los datos de conversación que van a ser reconocidos, en donde
los marcos de conversación de los datos de conversación que van a ser reconocidos entran, respectivamente a través de dos nodos de inicio en la red de decodificación de destino, la red de decodificación general y la red de decodificación de dominio en la red de decodificación de destino para la decodificación, y
en un caso donde una trayectoria de decodificación candidata en la red de decodificación general o la red de decodificación de dominio comprende un nodo final, el proceso salta desde el nodo final a al menos un nodo de inicio conectado al nodo final, se ingresa a la red de decodificación general y/o a la red de decodificación de dominio para continuar la decodificación hasta un final de los marcos de conversación.
7. Un dispositivo para construir una red de decodificación, comprendiendo el dispositivo:
un módulo de adquisición de modelo de lenguaje y red de decodificación general configurado para adquirir un modelo de lenguaje universal, un modelo de lenguaje de dominio y una red de decodificación general generada con base en el modelo de lenguaje universal;
un módulo de generación de red de decodificación de dominio configurado para generar una red de decodificación de dominio basada en el modelo de lenguaje universal y el modelo de lenguaje de dominio; y un módulo de integración de red de decodificación configurado para integrar la red de decodificación de dominio con la red de decodificación general para obtener una red de decodificación de destino,
en donde el dispositivo está caracterizado porque
el módulo de generación de red de decodificación de dominio comprende:
un submódulo de interpolación configurado para realizar la interpolación en el modelo de lenguaje universal y el modelo de lenguaje de dominio, en donde una parte en la cual se realiza la interpolación comprende todas las partes en el modelo de lenguaje de dominio y una parte en el modelo de lenguaje universal que también aparece en el modelo de lenguaje de dominio; y
un submódulo de generación de red de decodificación de dominio configurado para generar la red de decodificación de dominio con base en la parte en la cual se realiza la interpolación.
8. Un dispositivo de reconocimiento de conversación, que comprende:
un módulo de decodificación configurado para decodificar datos de conversación que van a ser reconocidos usando una red de decodificación de destino para obtener una trayectoria de decodificación para los datos de conversación que van a ser reconocidos, en donde la red de decodificación de destino es construida por el dispositivo para construir una red de decodificación de acuerdo con la reivindicación 7; y
un módulo de determinación de resultado de reconocimiento de conversación configurado para determinar un resultado de reconocimiento de conversación para los datos de conversación que van a ser reconocidos con base en la trayectoria de decodificación para los datos de conversación que van a ser reconocidos.
9. Un aparato para construir una red de decodificación, comprendiendo el aparato:
una memoria configurada para almacenar un programa; y
un procesador configurado para ejecutar el programa para realizar el método para construir una red de decodificación de acuerdo con una cualquiera de las reivindicaciones 1 a 4.
10. Un medio de almacenamiento legible que almacena un programa de ordenador, en donde el programa de ordenador, cuando es ejecutado por un procesador, hace que el procesador realice el método para construir una red de decodificación de acuerdo con una cualquiera de las reivindicaciones 1 a 4.
11. Un aparato de reconocimiento de conversación, que comprende:
una memoria configurada para almacenar un programa; y
un procesador configurado para ejecutar el programa para realizar el método de reconocimiento de conversación de acuerdo con una cualquiera de las reivindicaciones 5 a 6.
12. Un medio de almacenamiento legible que almacena un programa de ordenador, en donde el programa de ordenador, cuando es ejecutado por un procesador, hace que el procesador realice el método de reconocimiento de conversación de acuerdo con una cualquiera de las reivindicaciones 5 a 6.
ES19949233T 2019-10-16 2019-12-12 Decoding network construction method, voice recognition method, device and apparatus, and storage medium Active ES3035010T3 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910983196.3A CN110610700B (zh) 2019-10-16 2019-10-16 解码网络构建方法、语音识别方法、装置、设备及存储介质
PCT/CN2019/124790 WO2021072955A1 (zh) 2019-10-16 2019-12-12 解码网络构建方法、语音识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
ES3035010T3 true ES3035010T3 (en) 2025-08-27

Family

ID=68894690

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19949233T Active ES3035010T3 (en) 2019-10-16 2019-12-12 Decoding network construction method, voice recognition method, device and apparatus, and storage medium

Country Status (7)

Country Link
US (1) US12223947B2 (es)
EP (1) EP4047597B1 (es)
JP (1) JP7278477B2 (es)
KR (1) KR102576505B1 (es)
CN (1) CN110610700B (es)
ES (1) ES3035010T3 (es)
WO (1) WO2021072955A1 (es)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402864A (zh) * 2020-03-19 2020-07-10 北京声智科技有限公司 语音处理方法及电子设备
CN111508478B (zh) * 2020-04-08 2023-04-11 北京字节跳动网络技术有限公司 语音识别方法和装置
CN111951788A (zh) * 2020-08-10 2020-11-17 百度在线网络技术(北京)有限公司 一种语言模型的优化方法、装置、电子设备及存储介质
CN111933118B (zh) * 2020-08-17 2022-11-15 思必驰科技股份有限公司 进行语音识别优化的方法、装置及应用其的智能语音对话系统
CN112820277B (zh) * 2021-01-06 2023-08-25 网易(杭州)网络有限公司 语音识别服务定制方法、介质、装置和计算设备
CN112951237B (zh) * 2021-03-18 2022-03-04 深圳奇实科技有限公司 一种基于人工智能的自动语音识别方法及系统
CN113113024B (zh) * 2021-04-29 2024-08-23 中国科学技术大学 语音识别方法、装置、电子设备和存储介质
CN113299280A (zh) * 2021-05-12 2021-08-24 山东浪潮科学研究院有限公司 基于Kaldi的专业词汇语音识别方法
CN113779972B (zh) * 2021-09-10 2023-09-15 平安科技(深圳)有限公司 语音识别纠错方法、系统、装置及存储介质
CN113782001B (zh) * 2021-11-12 2022-03-08 深圳市北科瑞声科技股份有限公司 一种特定领域语音识别方法、装置、电子设备及存储介质
CN114299945B (zh) * 2021-12-15 2025-05-20 北京声智科技有限公司 语音信号的识别方法、装置、电子设备、存储介质及产品
CN114299972B (zh) * 2021-12-30 2025-06-17 北京字跳网络技术有限公司 音频处理方法、装置、设备及存储介质
WO2024096641A1 (ko) * 2022-11-02 2024-05-10 삼성전자 주식회사 전자 장치 및 전자 장치의 음성 인식 방법

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7027979B2 (en) 2003-01-14 2006-04-11 Motorola, Inc. Method and apparatus for speech reconstruction within a distributed speech recognition system
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US9424246B2 (en) * 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
JP5199985B2 (ja) * 2009-11-30 2013-05-15 日本電信電話株式会社 重み付き有限状態トランスデューサ作成装置、作成方法及びプログラム
US8532994B2 (en) 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model
CN103077708B (zh) * 2012-12-27 2015-04-01 安徽科大讯飞信息科技股份有限公司 一种语音识别系统中拒识能力提升方法
CN103065630B (zh) * 2012-12-28 2015-01-07 科大讯飞股份有限公司 用户个性化信息语音识别方法及系统
CN103971675B (zh) * 2013-01-29 2016-03-02 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN103971686B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN104157285B (zh) * 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
US9460088B1 (en) * 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition
CN104282301A (zh) * 2013-07-09 2015-01-14 安徽科大讯飞信息科技股份有限公司 一种语音命令处理方法以及系统
CN103700369B (zh) * 2013-11-26 2016-08-31 科大讯飞股份有限公司 语音导航方法及系统
CN104064184B (zh) * 2014-06-24 2017-03-08 科大讯飞股份有限公司 异构解码网络的构建方法及系统、语音识别方法及系统
JP6358744B2 (ja) * 2014-08-25 2018-07-18 日本放送協会 音声認識誤り修正装置
CN106294460B (zh) * 2015-05-29 2019-10-22 中国科学院声学研究所 一种基于字和词混合语言模型的汉语语音关键词检索方法
US9858923B2 (en) 2015-09-24 2018-01-02 Intel Corporation Dynamic adaptation of language models and semantic tracking for automatic speech recognition
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN105869624B (zh) 2016-03-29 2019-05-10 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置
US10115393B1 (en) * 2016-10-31 2018-10-30 Microsoft Technology Licensing, Llc Reduced size computerized speech model speaker adaptation
KR102339716B1 (ko) * 2017-06-30 2021-12-14 삼성에스디에스 주식회사 음성 인식 방법 및 그 장치
US10796686B2 (en) * 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
CN108932944B (zh) * 2017-10-23 2021-07-30 北京猎户星空科技有限公司 解码方法及装置
AU2018365166A1 (en) * 2017-11-13 2020-06-04 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US10490183B2 (en) * 2017-11-22 2019-11-26 Amazon Technologies, Inc. Fully managed and continuously trained automatic speech recognition service
KR102424514B1 (ko) * 2017-12-04 2022-07-25 삼성전자주식회사 언어 처리 방법 및 장치
US10672388B2 (en) * 2017-12-15 2020-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for open-vocabulary end-to-end speech recognition
CN110364171B (zh) * 2018-01-09 2023-01-06 深圳市腾讯计算机系统有限公司 一种语音识别方法、语音识别系统及存储介质
CN108538285B (zh) * 2018-03-05 2021-05-04 清华大学 一种基于多任务神经网络的多样例关键词检测方法
CN108428446B (zh) * 2018-03-06 2020-12-25 北京百度网讯科技有限公司 语音识别方法和装置
US11106868B2 (en) * 2018-03-06 2021-08-31 Samsung Electronics Co., Ltd. System and method for language model personalization
US10811000B2 (en) * 2018-04-13 2020-10-20 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for recognizing simultaneous speech by multiple speakers
US10679610B2 (en) * 2018-07-16 2020-06-09 Microsoft Technology Licensing, Llc Eyes-off training for automatic speech recognition
JP6578049B2 (ja) * 2018-09-18 2019-09-18 日本放送協会 学習データ生成装置及びそのプログラム
US11257481B2 (en) * 2018-10-24 2022-02-22 Tencent America LLC Multi-task training architecture and strategy for attention-based speech recognition system
CN110428819B (zh) * 2019-05-21 2020-11-24 腾讯科技(深圳)有限公司 解码网络生成方法、语音识别方法、装置、设备及介质
CN110120221A (zh) * 2019-06-06 2019-08-13 上海蔚来汽车有限公司 用于车机系统的用户个性化离线语音识别方法及其系统
CN110322884B (zh) * 2019-07-09 2021-12-07 科大讯飞股份有限公司 一种解码网络的插词方法、装置、设备及存储介质

Also Published As

Publication number Publication date
EP4047597A1 (en) 2022-08-24
KR20220062349A (ko) 2022-05-16
US12223947B2 (en) 2025-02-11
EP4047597A4 (en) 2023-11-15
CN110610700A (zh) 2019-12-24
EP4047597C0 (en) 2025-06-04
EP4047597B1 (en) 2025-06-04
JP2022548718A (ja) 2022-11-21
JP7278477B2 (ja) 2023-05-19
US20220375459A1 (en) 2022-11-24
CN110610700B (zh) 2022-01-14
KR102576505B1 (ko) 2023-09-08
WO2021072955A1 (zh) 2021-04-22

Similar Documents

Publication Publication Date Title
ES3035010T3 (en) Decoding network construction method, voice recognition method, device and apparatus, and storage medium
US10127902B2 (en) Optimizations to decoding of WFST models for automatic speech recognition
CN105869629B (zh) 语音识别方法及装置
US20200349175A1 (en) Address Search Method and Device
CN109614499B (zh) 一种词典生成方法、新词发现方法、装置及电子设备
WO2018018867A1 (zh) 语音识别结果纠错方法和装置
CN105843811B (zh) 转换文本的方法和设备
JP2005258439A (ja) 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成
WO2022142823A1 (zh) 人机对话方法、装置、计算机设备及可读存储介质
CN112149417A (zh) 词性标注方法和装置、存储介质和电子设备
JP6261669B2 (ja) クエリ校正システムおよび方法
CN113838456A (zh) 音素提取方法、语音识别方法、装置、设备及存储介质
JP2015069359A (ja) 翻訳装置及び翻訳プログラム
JP6193726B2 (ja) 音声認識用wfst作成装置と音声認識装置とそれらの方法とプログラムと記録媒体
CN109274460B (zh) 一种多比特并行结构串行抵消译码方法和装置
WO2019098185A1 (ja) 発話文生成システム及び発話文生成プログラム
CN108962271A (zh) 多加权有限状态转换器合并方法、装置、设备及存储介质
JP4845523B2 (ja) 文字処理装置、方法、プログラムおよび記録媒体
CN110333787A (zh) 输入字符的方法和装置
CN112784575B (zh) 语句的处理方法及装置
EP3206135A1 (en) Sentence retrieval method and sentence retrieval system
JP2019016162A (ja) 形態素解析プログラム、形態素解析装置、および形態素解析方法
CN114722815A (zh) 词缀确定方法、装置、电子设备及存储介质
CN115312059A (zh) 基于自动机的前缀树处理语音信号的方法、装置和设备
CN116089667A (zh) 一种语音转写中的清屏方法、装置以及设备