ES2331698T3 - Sistema de reconocimiento de voz distribuido. - Google Patents

Sistema de reconocimiento de voz distribuido. Download PDF

Info

Publication number
ES2331698T3
ES2331698T3 ES04718324T ES04718324T ES2331698T3 ES 2331698 T3 ES2331698 T3 ES 2331698T3 ES 04718324 T ES04718324 T ES 04718324T ES 04718324 T ES04718324 T ES 04718324T ES 2331698 T3 ES2331698 T3 ES 2331698T3
Authority
ES
Spain
Prior art keywords
signal
parameters
recognition
server
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES04718324T
Other languages
English (en)
Inventor
Jean Monne
Jean-Pierre Petit
Patrick Brisard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Application granted granted Critical
Publication of ES2331698T3 publication Critical patent/ES2331698T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Circuits Of Receivers In General (AREA)
  • Computer And Data Communications (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

Sistema de reconocimiento de voz distribuido, que comprende al menos un terminal de usuario y al menos un servidor adecuados para comunicarse entre sí por medio de una red de telecomunicaciones, en el que el terminal de usuario comprende: - medios de obtención de una señal de audio a reconocer, - primeros medios de cálculo de parámetros de modelización de la señal de audio, y - primeros medios de control para seleccionar al menos una señal a emitir con destino al servidor entre la señal de audio a reconocer y una señal que indica los parámetros de modelización calculados, en función del contexto de la aplicación del terminal; y en el que el servidor comprende: - medios de recepción de la señal seleccionada procedente del terminal de usuario, - segundos medios de cálculo de parámetros de modelización de una señal de entrada, - medios de reconocimiento para asociar al menos una forma memorizada a parámetros de entrada, y - segundos medios de control para controlar los segundos medios de cálculo y los medios de reconocimiento para: - cuando la señal seleccionada recibida por los medios de recepción es de tipo audio, activar los segundos medios de cálculo de parámetros remitiéndoles la señal seleccionada como señal de entrada y remitir los parámetros calculados por los segundos medios de cálculo a los medios de reconocimiento como parámetros de entrada, y - cuando la señal seleccionada recibida por los medios de recepción indica parámetros de modelización, remitir dichos parámetros indicados a los medios de reconocimiento como parámetros de entrada.

Description

Sistema de reconocimiento de voz distribuido.
La presente invención se refiere al campo del control vocal de aplicaciones, ejercido sobre terminales de usuario, gracias al empleo de medios de reconocimiento de la voz. Los terminales de usuario considerados son todos los dispositivos dotados de un medio de captura de la voz, habitualmente un micrófono, que posee capacidades de tratamiento de este sonido y conectados a uno o más servidores mediante un canal de transmisión. Se trata, por ejemplo, de aparatos de control, de control a distancia utilizados en aplicaciones domésticas, en automóviles (control de auto-radio o de otras funciones del vehículo), en PC o en terminales de teléfono. El campo de las aplicaciones concernidas es esencialmente aquel en el que el usuario ordena una acción, solicita una información o quiere interactuar a distancia utilizando una orden de voz. La utilización de órdenes de voz no excluye la existencia en el terminal de usuario de otros medios de acción (sistema multi-modal), y el retorno de informaciones, de estados o de respuestas también se puede realizar de forma combinada visual, sonora, olfativa y mediante cualquier otro medio perceptible por el ser humano.
De manera general, los medios para la realización del reconocimiento de voz comprenden medios de obtención de una señal de audio, medios de análisis acústico que extraen parámetros de modelización y finalmente medios de reconocimiento que comparan estos parámetros de modelización calculados con modelos y proponen la forma memorizada en los modelos que puede estar asociada a la señal de la forma más probable. Opcionalmente se pueden utilizar medios de detección de actividad vocal VAD ("Voice Activation Detection"). Estos aseguran la detección de secuencias correspondientes a la voz y que deben ser reconocidas. Estos extraen de la señal de audio entrante, fuera de periodos de inactividad vocal, segmentos de voz que a continuación serán tratados mediante los medios de cálculo de los parámetros de modelización.
Más particularmente, la invención se refiere a las interacciones entre los tres modos de reconocimiento de voz llamados embarcado, centralizado y distribuido.
En un modo de reconocimiento de voz embarcado, el conjunto de los medios para realizar el reconocimiento de voz se encuentra al nivel del terminal de usuario. Las limitaciones de este modo de reconocimiento están, por lo tanto, vinculadas a la potencia de los procesadores embarcados y a la memoria disponible para almacenar los modelos de reconocimiento de voz. Como contrapartida, este modo permite un funcionamiento autónomo, sin conexión a un servidor y como tal es susceptible a un fuerte desarrollo vinculado a la reducción del coste de la capacidad de tratamiento.
En un modo de reconocimiento de voz centralizado, todo el procedimiento de voz y los modelos de reconocimiento se encuentran y se ejecutan en una máquina, llamada generalmente servidor vocal, accesible a través del terminal de usuario. El terminal transmite simplemente al servidor una señal de voz. Este método se utiliza particularmente en las aplicaciones ofrecidas por los operadores de telecomunicaciones. De este modo, un terminal básico puede acceder a terminales evolucionados, activados mediante la voz. Muchos tipos de reconocimiento de voz (robusto, flexible, vocabulario muy amplio, vocabulario dinámico, voz continua, mono- o multi-locutor, varios idiomas, etc.) se pueden implementar en un servidor de reconocimiento de voz. En efecto, las máquinas centralizadas tienen capacidades de almacenamiento de modelos, tamaños de memoria de trabajo y potencias de cálculo grandes y crecientes.
En un modo de reconocimiento de voz distribuido, los medios de análisis acústico están embarcados en el terminal de usuario, estando los medios de reconocimiento a nivel del servidor. En este modo distribuido, una función de eliminación de ruido asociada a los medios de cálculo de los parámetros de modelización se puede realizar ventajosamente en la fuente. Solamente se transmiten los parámetros de modelización, lo que permite un aumento sustancial del caudal de transmisión, particularmente interesante para las aplicaciones multimodales. Además, la señal a reconocer puede estar mejor protegida contra los errores de transmisión. Opcionalmente, también se puede embarcar la detección de actividad vocal (VAD) para transmitir los parámetros de modelización solamente durante las secuencias de voz, lo que tiene la ventaja de reducir de manera importante el periodo de transmisión activa. El reconocimiento de voz distribuido permite además transmitir por el mismo canal de transmisión señales de voz y de datos, particularmente texto, imágenes o videos. La red de transmisión puede ser por ejemplo de tipo IP, GPRS, WLAN o Ethernet. Este modo también permite beneficiarse de procedimientos de protección y de corrección contra las pérdidas de paquetes que constituyen la señal transmitida con destino al servidor. Sin embargo, requiere la disponibilidad de canales de transmisión de datos, con un protocolo estricto de transmisión.
La invención propone un sistema de reconocimiento de voz que comprende terminales de usuario y servidores que combinan las diferentes funciones ofrecidas por los medios de reconocimiento de voz embarcado, centralizado y distribuido, para ofrecer la máxima eficacia, comodidad y ergonomía a los usuarios de servicios multi-modales en los que se utiliza el control vocal.
La patente US 6487534 B1 describe un sistema de reconocimiento de voz distribuido que comprende un terminal de usuario que dispone de medios de detección de actividad vocal, medios de cálculo de los parámetros de modelización y medios de reconocimiento. Este sistema comprende además un servidor que también dispone de medios de reconocimiento. El principio descrito es la realización de al menos una primera fase de reconocimiento a nivel del terminal de usuario. En una segunda fase opcional, los parámetros de modelización calculados a nivel del terminal se envían con destino al servidor, para determinar particularmente, esta vez gracias a los medios de reconocimiento del servidor, una forma memorizada en los modelos de éste y asociada a la señal enviada.
El objeto pretendido por el sistema descrito en el documento mencionado es reducir la carga a nivel del servidor. Sin embargo, de esto se deriva que el terminal debe realizar el cálculo de los parámetros de modelización de forma local antes de transmitirlos eventualmente con destino al servidor. Ahora bien, existen circunstancias en las que, por razones de gestión de carga o por razones de aplicación, es preferible realizar este cálculo a nivel del servidor.
De esto se deriva también que los canales utilizados para la transmisión de los parámetros de modelización a reconocer, en un sistema de acuerdo con el documento mencionado, deben ser imperativamente canales adecuados para transmitir este tipo de datos. Ahora bien, dichos canales de protocolo muy estricto no están disponibles forzosamente de forma permanente en la red de transmisión. Es por ello que es interesante poder utilizar canales clásicos de transmisión de señales de audio, para no retardar o bloquear el proceso de reconocimiento iniciado a nivel del terminal.
Un objeto de la presente invención, tal como se define mediante las reivindicaciones 1, 7 y 11, es proponer un sistema distribuido que resulte menos afectado por las limitaciones mencionadas anteriormente.
De este modo, según un primer aspecto, la invención propone un sistema de reconocimiento de voz distribuido, que comprende al menos un terminal de usuario y al menos un servidor adecuados para comunicarse entre sí por medio de una red de telecomunicaciones, en el que el terminal de usuario comprende:
- medios de obtención de una señal de audio a reconocer,
- primeros medios de cálculo de parámetros de modelización de la señal de audio, y
- primeros medios de control para seleccionar al menos una señal a emitir con destino al servidor entre la señal de audio a reconocer y una señal que indica los parámetros de modelización calculados;
y en el que el servidor comprende:
- medios de recepción de la señal seleccionada procedente del terminal de usuario,
- segundos medios de cálculo de parámetros de modelización de una señal de entrada,
medios de reconocimiento para asociar al menos una forma memorizada a parámetros de entrada, y
- segundos medios de control para controlar los segundos medios de cálculo y los medios de reconocimiento para:
\bullet
cuando la señal seleccionada recibida por los medios de recepción es de tipo audio, activar los segundos medios de cálculo de parámetros remitiéndoles la señal seleccionada como señal de entrada y remitir los parámetros calculados por los segundos medios de cálculo a los medios de reconocimiento como parámetros de entrada, y
\bullet
cuando la señal seleccionada recibida por los medios de recepción indica parámetros de modelización, remitir dichos parámetros indicados a los medios de reconocimiento como parámetros de entrada.
De este modo, el sistema de acuerdo con la invención permite transmitir desde la terminal de usuario con destino al servidor ya sea la señal de audio (comprimida o no) ya sea la señal emitida por los medios de cálculo de los parámetros de modelización del terminal. La elección de la señal transmitida se puede definir o bien por el tipo de aplicación en curso, o bien por el estado de la red, o bien según una coordinación entre los medios de control respectivos del terminal y del servidor.
Un sistema de acuerdo con la invención dota de capacidad al terminal de usuario para realizar, en función por ejemplo de parámetros de entrada de los que disponen los medios de control en un momento dado, el cálculo de los parámetros de modelización a nivel del terminal o a nivel del servidor. Este cálculo también se puede realizar en paralelo a nivel del terminal y a nivel del servidor.
Un sistema de acuerdo con la invención permite realizar el reconocimiento de voz desde terminales de diferentes tipos que coexisten en una misma red, por ejemplo:
- terminales que no disponen de ningún medio de reconocimiento local (o cuyo medio de reconocimiento local está inactivo), en cuyo caso la señal de audio es enviada para su reconocimiento con destino al servidor,
- terminales que disponen de medios de detección de actividad vocal sin medios de cálculo de parámetros de modelización, ni medios de reconocimiento (o cuyos medios de cálculo de parámetros y los medios de reconocimiento están inactivos) y que transmiten al servidor para su reconocimiento una señal de audio de origen o una señal de audio representativa de segmentos de voz extraídos de la señal de audio fuera de periodos de inactividad vocal, y
- servidores que disponen por ejemplo únicamente de medios de reconocimiento, sin medios de cálculo de parámetros de modelización.
Ventajosamente, los medios de obtención de la señal de audio del terminal de usuario pueden comprender además medios de detección de actividad vocal para extraer de la señal de audio de origen, fuera de periodos de inactividad vocal, segmentos de voz. Los medios de control del terminal seleccionan entonces al menos una señal a emitir con destino al servidor, entre una señal de audio representativa de los segmentos de voz y la señal que indica los parámetros de modelización calculados.
Ventajosamente, los medios de control del terminal son adecuados para seleccionar al menos una señal a emitir con destino al servidor entre al menos la señal de audio de origen, la señal de audio que indica los segmentos de voz extraídos de la señal de audio de origen y la señal que indica parámetros de modelización calculados. A nivel del servidor, los medios de control son adecuados para controlar los medios de cálculo y los medios de reconocimiento para, cuando la señal seleccionada recibida por los medios de recepción es representativa de los segmentos de voz extraídos por los medios de detección de actividad vocal del terminal, activar los medios de cálculo de parámetros del servidor remitiéndoles la señal seleccionada como señal de entrada y remitir los parámetros calculados por estos medios de cálculo a los medios de reconocimiento como parámetros de entrada.
En una realización preferida, el servidor comprende además medios de detección de actividad vocal para extraer de una señal recibida de tipo audio, fuera de los periodos de inactividad vocal, segmentos de voz. En este caso, a nivel del servidor, los medios de control son adecuados para controlar los medios de cálculo y los medios de reconocimiento para:
- cuando la señal seleccionada recibida por los medios de recepción es de tipo audio:
\bullet
si la señal recibida de tipo audio es representativa de segmentos de voz después de la detección de actividad vocal, activar los segundos medios de cálculo de parámetros remitiéndoles la señal seleccionada como señal de entrada y después remitir los parámetros calculados por los segundos medios de cálculo de parámetros a los medios de reconocimiento como parámetros de entrada;
\bullet
de lo contrario, activar los medios de detección de actividad vocal del servidor remitiéndoles la señal seleccionada como señal de entrada y después remitir los segmentos extraídos por los medios de detección de actividad vocal a los segundos medios de cálculo de parámetros como parámetros de entrada y después remitir los parámetros calculados por los segundos medios de cálculo de parámetros a los medios de reconocimiento como parámetros de entrada;
- cuando la señal seleccionada recibida por los medios de recepción indica parámetros de modelización, remitir dichos parámetros indicados a los medios de reconocimiento como parámetros de entrada.
Ventajosamente, el terminal de usuario comprende además medios de reconocimiento para asociar al menos una forma memorizada a parámetros de entrada.
En este último caso, los medios de control del terminal pueden ser adecuados para seleccionar una señal a emitir con destino al servidor en función del resultado proporcionado por los medios de reconocimiento del terminal. Y el terminal de usuario puede comprender además medios de almacenamiento adecuados para almacenar una señal a nivel del terminal, para poder, en el caso en que el resultado del reconocimiento local en el terminal no sea satisfactorio, enviar la señal para el reconocimiento por parte del servidor.
Ventajosamente, los medios de control del terminal pueden ser adecuados para seleccionar una señal a emitir con destino al servidor independientemente del resultado proporcionado por los primeros medios de reconocimiento.
Es preciso observar que los medios de control de un terminal pueden pasar de uno a otro de los dos modos descritos en los dos párrafos anteriores, en función por ejemplo del contexto de la aplicación o del estado de la red.
Preferiblemente, los medios de control del servidor cooperan con los medios de control del terminal. De este modo, el terminal puede evitar enviar con destino al servidor por ejemplo una señal de audio si ya hay una carga importante a nivel de los medios de cálculo de parámetros del servidor. En una posible realización, los medios de control del servidor están configurados para cooperar con los medios del terminal para adaptar el tipo de señales enviadas por el terminal en función de las capacidades respectivas de la red, del servidor y del terminal.
Los medios de cálculo y de reconocimiento del terminal pueden ser normalizados o privados.
En una realización preferida, al menos algunos de entre los medios de reconocimiento y de cálculo de parámetros a nivel del terminal, se le proporcionan mediante descarga, en forma de código ejecutable por el procesador del terminal, por ejemplo desde el servidor.
De acuerdo con un segundo aspecto, la invención propone un terminal de usuario para implementar un sistema de reconocimiento de voz distribuido de acuerdo con la invención.
De acuerdo con un tercer aspecto, la invención propone un servidor para implementar un sistema de reconocimiento de voz distribuido de acuerdo con la invención.
Otras características y ventajas de la invención surgirán también con la lectura de la siguiente descripción. Ésta es puramente ilustrativa y se debe leer teniendo en cuenta los dibujos adjuntos, en los que:
- la figura única es un esquema que representa un sistema en una realización de la presente invención.
El sistema representado en la figura única comprende un servidor 1 y un terminal de usuario 2, que comunican entre sí por medio de una red (no representada) que dispone de canales para la transmisión de señales de voz y de canales para la transmisión de señales de datos.
El terminal 2 comprende un micrófono 4, que recibe la voz a reconocer de un usuario en forma de una señal de audio. El terminal 2 también comprende un módulo de cálculo de parámetros de modelización 6, que realiza de forma conocida por sí misma un análisis acústico que permite extraer los parámetros pertinentes de la señal de audio y que eventualmente puede realizar ventajosamente una función de eliminación de ruidos. El terminal 2 comprende un controlador 8, que selecciona una señal entre la señal de audio y una señal indicativa de los parámetros calculados por el módulo de cálculo de parámetros 6. El terminal comprende además una interfaz 10 para la emisión en la red de la señal seleccionada, con destino al servidor.
El servidor 1 comprende una interfaz de red 12 para recibir las señales que le son remitidas, un controlador 14 que analiza la señal recibida y la dirige a continuación selectivamente hacia un módulo de tratamiento entre varios módulos 16, 18, 20. El módulo 16 es un detector de actividad vocal, que asegura la detección de los segmentos que corresponden a la voz y que deben ser reconocidos. El módulo 18 asegura el cálculo de parámetros de modelización de forma semejante al módulo de cálculo 6 del terminal. Sin embargo, el modelo de cálculo puede ser diferente. El módulo 20 ejecuta un algoritmo de reconocimiento de tipo conocido, por ejemplo a base de modelos de Markov ocultos con un vocabulario por ejemplo superior a 100.000 palabras. Este motor de reconocimiento 20 compara los parámetros de entrada con modelos de voz que representan palabras o frases y determina la mejor forma asociada, teniendo en cuenta modelos sintácticos que describen las sucesiones de palabras esperadas, modelos léxicos que precisan las diferentes pronunciaciones de las palabras y modelos acústicos representativos de los sonidos pronunciados. Estos modelos son por ejemplo multi-locutores, capaces de reconocer con buena fiabilidad, la voz, independientemente del
locutor.
El controlador 14 controla el módulo de VAD 16, el módulo de cálculo de parámetros 18 y el motor de reconocimiento 20 para:
a) cuando la señal recibida por la interfaz de recepción 12 es de tipo audio y no indica segmentos de voz obtenidos mediante detección de actividad vocal, activar el módulo de VAD 16 remitiéndole la señal recibida como señal de entrada y después remitir los segmentos de voz extraídos por el módulo de VAD 16 al módulo de cálculo de parámetros 18 como parámetros de entrada y después remitir los parámetros calculados por estos medios de cálculo de parámetros 18 al motor de reconocimiento 20 como parámetros de entrada,
b) cuando la señal recibida por la interfaz de recepción 12 es de tipo audio e indica segmentos de voz después de la detección de actividad vocal, activar el módulo de cálculo de parámetros 18 remitiéndole la señal recibida como señal de entrada y después remitir los parámetros calculados por este módulo de cálculo de parámetros 18 al motor de reconocimiento 20 como parámetros de entrada,
c) cuando la señal recibida por la interfaz de recepción 12 indica parámetros de modelización, remitir dichos parámetros indicados al motor de reconocimiento 20 como parámetros de entrada.
Por ejemplo, en el caso en que el usuario del terminal 1 utilice una aplicación que permita solicitar informaciones sobre la bolsa y dice "cotización al cierre de los tres últimos días del valor Lambda", la señal de audio correspondiente es capturada por el micrófono 4. En la realización del sistema de acuerdo con la invención, esta señal es tratada a continuación, por defecto, por el módulo de cálculo de parámetros 6 y después se envía una señal, que indica los parámetros de modelización calculados, hacia el servidor 1.
Cuando surgen, por ejemplo, problemas de disponibilidad de canales de datos o del módulo de cálculo 6, es la señal de audio a la salida del micrófono 4 la que selecciona el controlador 8 para transmitirla con destino al
servidor 1.
El controlador también puede ser adecuado para enviar sistemáticamente una señal que indica los parámetros de modelización.
El servidor recibe la señal con la interfaz de recepción 12 y después realiza, para efectuar el reconocimiento de voz en la señal recibida, el tratamiento indicado en a) o b) si la señal enviada por el terminal 1 es de tipo audio o el tratamiento indicado en c) si la señal enviada por el terminal 1 indica parámetros de modelización.
El servidor de acuerdo con la invención también es adecuado para realizar el reconocimiento de voz en una señal transmitida por un terminal que no dispone de medios de cálculo de parámetros de modelización, ni de medios de reconocimiento y que dispone eventualmente de medios de detección de actividad vocal.
Ventajosamente, en una realización de la invención, el sistema puede comprender además un terminal de usuario 22, que comprende un micrófono 24 similar al del terminal 2, un módulo 26 de detección de actividad vocal. La función del módulo 26 es semejante a la del módulo de detección de actividad vocal 16 del servidor 1. Sin embargo, el modelo de detección puede ser diferente. El terminal 22 comprende un módulo de cálculo de parámetros de modelización 28, un motor de reconocimiento 30 y un controlador 32. El terminal comprende una interfaz 10 para la emisión en la red, con destino al servidor, de la señal seleccionada por el controlador 32.
El motor de reconocimiento 30 del terminal puede tratar por ejemplo un vocabulario de menos de 10 palabras. Este motor puede funcionar en modo mono-locutor y no necesita una fase de aprendizaje previa a partir de la voz del usuario.
El reconocimiento de voz se puede realizar de diferentes maneras:
- exclusivamente a nivel del terminal, o
- exclusivamente a nivel del servidor, o
- parcial o totalmente a nivel del terminal e igualmente, de manera alternativa o simultánea, parcial o totalmente a nivel del servidor.
Cuando se debe realizar la elección de la forma finalmente conservada, entre una forma asociada proporcionada por el módulo de reconocimiento del servidor y una forma asociada proporcionada por los del terminal, se puede realizar en base a diferentes criterios, que pueden variar de un terminal al otro, pero también de una aplicación a otra o de un contexto dado a otro. Estos criterios pueden dar por ejemplo prioridad al reconocimiento realizado a nivel del terminal o a la forma asociada que presente la mayor tasa de probabilidad o también a la forma que se determine más rápidamente.
La forma en la que se realiza este reconocimiento se puede fijar a nivel del terminal en un modo dado. O puede variar en función particularmente de criterios vinculados a la aplicación en cuestión, a problemáticas de carga de los diferentes medios a nivel del terminal y del servidor o también a problemáticas de disponibilidad de canales de transmisión de voz o de datos. Los controladores 32 y 14 situados respectivamente a nivel del terminal y del servidor traducen la forma en la que se debe realizar el reconocimiento.
El controlador 32 del terminal es adecuado para seleccionar una señal entre la señal de audio de origen a la salida del micrófono 24, una señal de audio representativa de segmentos de voz extraídos por el módulo de VAD 26 y una señal que indica parámetros de modelización 28. Según el caso, el tratamiento a nivel del terminal continuará o no más allá de la etapa de tratamiento del terminal que suministra la señal a emitir.
Por ejemplo, se puede considerar una realización en la que el módulo de VAD 26 del terminal está diseñado por ejemplo para detectar rápidamente palabras de mando y el módulo de VAD 16 del servidor puede ser más lento, pero está diseñado para detectar frases completas. Una aplicación, en la que el terminal 22 realiza un reconocimiento local y de forma simultánea conlleva la realización de un reconocimiento por parte del servidor a partir de la señal de audio transmitida, permite particularmente sumar las ventajas de cada módulo de detección vocal.
Consideraremos ahora una aplicación en la que el reconocimiento se realiza exclusivamente de forma local (terminal) o exclusivamente a distancia (servidor centralizado) en base a palabras clave que permitan la conmutación:
El reconocimiento en curso es en primer lugar local: el usuario dice "llamar a Antoine", figurando Antoine en el directorio local. A continuación dice "mensajería", palabra clave que es reconocida de forma local y que hace bascular a reconocimiento por parte del servidor. El reconocimiento es ahora a distancia. Dice "buscar el mensaje de Josiane". Cuando dicho mensaje se ha escuchado, dice "terminado", palabra clave que hace bascular de nuevo a la aplicación a reconocimiento local.
La señal transmitida al servidor, para realizar allí el reconocimiento, era de tipo señal de audio. En otra realización, ésta podría indicar los parámetros de modelización calculados en el terminal.
Consideraremos ahora una aplicación en la cual el reconocimiento a nivel del terminal y el reconocimiento a nivel del servidor son alternos. El reconocimiento se realiza en primer lugar a nivel del terminal 22 y la señal después de la detección vocal se almacena. Si la respuesta es consistente, es decir si no hay rechazo del módulo de reconocimiento 30 y si la señal reconocida es válida desde el punto de vista de la aplicación, la aplicación local en el terminal pasa a la siguiente fase de la aplicación. En caso contrario, la señal almacenada es enviada al servidor para realizar el reconocimiento en una señal que indica segmentos de voz después de la detección de actividad vocal en la señal de audio (en otra realización, son los parámetros de modelización los que podrían almacenarse).
De este modo, el usuario dice "llamar a Antoine"; el conjunto del tratamiento a nivel del terminal 22 se realiza con almacenamiento de la señal. La señal es reconocida con éxito de forma local. Dice entonces "buscar el mensaje de Josiane"; el reconocimiento a nivel del terminal fracasa; la señal almacenada se transmite entonces al servidor. La señal es reconocida correctamente y el mensaje solicitado se reproduce.
En otra aplicación, el reconocimiento se realiza simultáneamente a nivel del terminal y también, y esto independientemente del resultado del reconocimiento local, a nivel del servidor. El usuario dice "llamar a Antoine". El reconocimiento se desarrolla a los dos niveles. Como el tratamiento local interpreta la orden, el resultado a distancia no es tenido en cuenta. Después el usuario dice "buscar el mensaje de Josiane" que genera un fracaso de forma local y que es reconocido correctamente a nivel del servidor.
En una realización, el motor de reconocimiento 30 del terminal 22 es un programa ejecutable descargado desde el servidor mediante medios clásicos de transferencia de datos.
Ventajosamente, para una aplicación dada del terminal 22, pueden descargarse o actualizarse modelos de reconocimiento del terminal, durante una sesión de la aplicación conectada a la red.
Otros recursos lógicos útiles para el reconocimiento de voz también se pueden descargar desde el servidor 1, como el módulo 6, 28 de cálculo de parámetros de modelización o el detector de actividad vocal 26.
Se podrían describir otros ejemplos, que emplean por ejemplo aplicaciones vinculadas a coches, a electrodomésticos o multimedia.
Como se presenta en los ejemplos de realización descritos anteriormente, un sistema de acuerdo con la invención permite utilizar de forma optimizada los diferentes recursos necesarios para el tratamiento del reconocimiento de voz y presentes a nivel del terminal y del servidor.

Claims (14)

1. Sistema de reconocimiento de voz distribuido, que comprende al menos un terminal de usuario y al menos un servidor adecuados para comunicarse entre sí por medio de una red de telecomunicaciones, en el que el terminal de usuario comprende:
- medios de obtención de una señal de audio a reconocer,
- primeros medios de cálculo de parámetros de modelización de la señal de audio, y
- primeros medios de control para seleccionar al menos una señal a emitir con destino al servidor entre la señal de audio a reconocer y una señal que indica los parámetros de modelización calculados, en función del contexto de la aplicación del terminal;
y en el que el servidor comprende:
- medios de recepción de la señal seleccionada procedente del terminal de usuario,
- segundos medios de cálculo de parámetros de modelización de una señal de entrada,
- medios de reconocimiento para asociar al menos una forma memorizada a parámetros de entrada, y
- segundos medios de control para controlar los segundos medios de cálculo y los medios de reconocimiento para:
\bullet
cuando la señal seleccionada recibida por los medios de recepción es de tipo audio, activar los segundos medios de cálculo de parámetros remitiéndoles la señal seleccionada como señal de entrada y remitir los parámetros calculados por los segundos medios de cálculo a los medios de reconocimiento como parámetros de entrada, y
\bullet
cuando la señal seleccionada recibida por los medios de recepción indica parámetros de modelización, remitir dichos parámetros indicados a los medios de reconocimiento como parámetros de entrada.
2. Sistema de acuerdo con la reivindicación 1, en el que los primeros medios de control seleccionan una señal a emitir en función, además, del estado de la red y/o según una coordinación entre los medios de control respectivos del terminal y del servidor.
3. Sistema de acuerdo con la reivindicación 1, en el que los medios de obtención de la señal de audio a reconocer comprenden medios de detección de actividad vocal para producir la señal a reconocer en forma de extractos de una señal de audio de origen, fuera de periodos de inactividad vocal.
4. Sistema de acuerdo con la reivindicación 3, en el que los primeros medios de control son adecuados para seleccionar la señal a emitir con destino al servidor entre al menos la señal de audio de origen, la señal de audio a reconocer en forma de segmentos extraídos por los medios de detección de actividad vocal y la señal que indica parámetros de modelización calculados por los primeros medios de cálculo de parámetros.
5. Sistema de acuerdo con una cualquiera de las reivindicaciones anteriores, en el que:
- el servidor comprende además medios de detección de actividad vocal para extraer de una señal de tipo audio, fuera de periodos de inactividad vocal, segmentos de voz, y
- los segundos medios de control son adecuados para controlar los segundos medios de cálculo y los medios de reconocimiento cuando la señal seleccionada recibida por los medios de recepción es de tipo audio, para:
si la señal de tipo audio es representativa de segmentos de voz después de la detección de actividad vocal, activar los segundos medios de cálculo de parámetros remitiéndoles la señal seleccionada como señal de entrada y después remitir los parámetros calculados por los segundos medios de cálculo de parámetros a los medios de reconocimiento como parámetros de entrada;
de lo contrario, activar los medios de detección de actividad vocal del servidor remitiéndoles la señal recibida como señal de entrada y después remitir los segmentos extraídos por los medios de detección de actividad vocal a los segundos medios de cálculo de parámetros como señal de entrada y después remitir los parámetros calculados por los segundos medios de cálculo de parámetros a los medios de reconocimiento, como parámetros de entrada.
6. Sistema de acuerdo con una cualquiera de las reivindicaciones anteriores, en el que el terminal de usuario comprende además medios de almacenamiento adecuados para almacenar la señal de audio reconocer o los parámetros de modelización calculados por los primeros medios de cálculo de parámetros.
7. Terminal de usuario para implementar un sistema de reconocimiento de voz distribuido de acuerdo con una de las reivindicaciones 1 a 6, que comprende:
- medios de obtención de una señal de audio a reconocer,
- medios de cálculo de parámetros de modelización de la señal de audio, y
- primeros medios de control para seleccionar al menos una señal a emitir con destino al servidor entre la señal de audio a reconocer y una señal que indica los parámetros de modelización calculados, en función del contexto de la aplicación del terminal.
8. Terminal de usuario de acuerdo con la reivindicación 7, en el que los primeros medios de control seleccionan una señal a emitir en función, además, del estado de la red y/o según una coordinación entre los medios de control respectivos del terminal y del servidor.
9. Terminal de usuario de acuerdo con la reivindicación 7 u 8, en el que al menos una parte de los medios de cálculo de parámetros se descarga desde el servidor.
10. Terminal de usuario de acuerdo con la reivindicación 7 u 8, en el que al menos una parte de los medios de reconocimiento se descarga desde el servidor.
11. Servidor para implementar un sistema de reconocimiento de voz distribuido de acuerdo con una de las reivindicaciones 1 a 6, que comprende:
- medios de recepción, procedente de un terminal de usuario, de una señal seleccionada en dicho terminal,
- medios de cálculo de parámetros de modelización de una señal de entrada,
- medios de reconocimiento para asociar al menos una forma memorizada a parámetros de entrada, y
- medios de control para controlar los segundos medios de cálculo y los medios de reconocimiento para:
\bullet
cuando la señal seleccionada recibida por los medios de recepción es de tipo audio, activar los medios de cálculo de parámetros remitiéndoles la señal seleccionada como señal de entrada y remitir los parámetros calculados por los medios de cálculo a los medios de reconocimiento como parámetros de entrada, y
\bullet
cuando la señal seleccionada recibida por los medios de recepción indica parámetros de modelización, remitir dichos parámetros indicados a los medios de reconocimiento como parámetros de entrada.
12. Servidor de acuerdo con la reivindicación 11, que comprende medios para descargar por medio de la red de telecomunicaciones, con destino a un terminal, al menos una parte de los primeros medios de cálculo de parámetro o de los medios de reconocimiento del terminal.
13. Servidor de acuerdo con la reivindicación 12, que comprende medios para descargar recursos lógicos de reconocimiento de voz por medio de la red de telecomunicaciones con destino a un terminal.
14. Servidor de acuerdo con la reivindicación 13, en el que dichos recursos comprenden al menos un módulo de entre: un módulo de VAD, un módulo de cálculo de parámetros de modelización de una señal de audio y un módulo de reconocimiento para asociar al menos una forma memorizada a parámetros de modelización.
ES04718324T 2003-03-25 2004-03-08 Sistema de reconocimiento de voz distribuido. Expired - Lifetime ES2331698T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0303615 2003-03-25
FR0303615A FR2853127A1 (fr) 2003-03-25 2003-03-25 Systeme de reconnaissance de parole distribuee

Publications (1)

Publication Number Publication Date
ES2331698T3 true ES2331698T3 (es) 2010-01-13

Family

ID=32947140

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04718324T Expired - Lifetime ES2331698T3 (es) 2003-03-25 2004-03-08 Sistema de reconocimiento de voz distribuido.

Country Status (8)

Country Link
US (1) US20060195323A1 (es)
EP (1) EP1606795B1 (es)
CN (1) CN1764945B (es)
AT (1) ATE441175T1 (es)
DE (1) DE602004022787D1 (es)
ES (1) ES2331698T3 (es)
FR (1) FR2853127A1 (es)
WO (1) WO2004088636A1 (es)

Families Citing this family (137)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US7925510B2 (en) * 2004-04-28 2011-04-12 Nuance Communications, Inc. Componentized voice server with selectable internal and external speech detectors
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101030994A (zh) * 2007-04-11 2007-09-05 华为技术有限公司 语音识别方法、系统、语音识别服务器
US9129599B2 (en) * 2007-10-18 2015-09-08 Nuance Communications, Inc. Automated tuning of speech recognition parameters
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8892439B2 (en) * 2009-07-15 2014-11-18 Microsoft Corporation Combination and federation of local and remote speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9953643B2 (en) * 2010-12-23 2018-04-24 Lenovo (Singapore) Pte. Ltd. Selective transmission of voice data
US9953653B2 (en) 2011-01-07 2018-04-24 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104769668B (zh) * 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
HK1220268A1 (zh) 2013-06-09 2017-04-28 苹果公司 用於實現跨數字助理的兩個或更多個實例的會話持續性的設備、方法、和圖形用戶界面
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
CN103474068B (zh) * 2013-08-19 2016-08-10 科大讯飞股份有限公司 实现语音命令控制的方法、设备及系统
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10950239B2 (en) * 2015-10-22 2021-03-16 Avaya Inc. Source-based automatic speech recognition
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
CN107452383B (zh) * 2016-05-31 2021-10-26 华为终端有限公司 一种信息处理方法、服务器、终端及信息处理系统
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10515632B2 (en) 2016-11-15 2019-12-24 At&T Intellectual Property I, L.P. Asynchronous virtual assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN108597522B (zh) * 2018-05-10 2021-10-15 北京奇艺世纪科技有限公司 一种语音处理方法及装置
CN109192207A (zh) * 2018-09-17 2019-01-11 顺丰科技有限公司 语音通信装置、语音通信方法及系统、设备、存储介质
US10885912B2 (en) * 2018-11-13 2021-01-05 Motorola Solutions, Inc. Methods and systems for providing a corrected voice command
TWI732409B (zh) * 2020-01-02 2021-07-01 台灣松下電器股份有限公司 智慧家電操控方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5838683A (en) * 1995-03-13 1998-11-17 Selsius Systems Inc. Distributed interactive multimedia system architecture
US5943648A (en) * 1996-04-25 1999-08-24 Lernout & Hauspie Speech Products N.V. Speech signal distribution system providing supplemental parameter associated data
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6336090B1 (en) * 1998-11-30 2002-01-01 Lucent Technologies Inc. Automatic speech/speaker recognition over digital wireless channels
WO2000058946A1 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
US6308158B1 (en) * 1999-06-30 2001-10-23 Dictaphone Corporation Distributed speech recognition system with multi-user input stations
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US20030182113A1 (en) * 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
ATE358316T1 (de) * 2000-06-08 2007-04-15 Nokia Corp Verfahren und system für adaptive verteilte spracherkennung
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
TW567465B (en) * 2002-09-02 2003-12-21 Ind Tech Res Inst Configurable distributed speech recognition system

Also Published As

Publication number Publication date
ATE441175T1 (de) 2009-09-15
WO2004088636A1 (fr) 2004-10-14
US20060195323A1 (en) 2006-08-31
EP1606795A1 (fr) 2005-12-21
FR2853127A1 (fr) 2004-10-01
CN1764945A (zh) 2006-04-26
EP1606795B1 (fr) 2009-08-26
DE602004022787D1 (de) 2009-10-08
CN1764945B (zh) 2010-08-25

Similar Documents

Publication Publication Date Title
ES2331698T3 (es) Sistema de reconocimiento de voz distribuido.
ES2327522T3 (es) Procedimiento de reconocimiento de palabra distribuido.
US10008207B2 (en) Multi-stage hotword detection
US20020077831A1 (en) Data input/output method and system without being notified
CN106782540B (zh) 语音设备及包括所述语音设备的语音交互系统
JP2003244317A (ja) 音声および状況依存による通知
JP6962105B2 (ja) 対話装置、サーバ装置、対話方法及びプログラム
AU2003258448A1 (en) Computer-based vehicle reservation system and method for a computer-based vehicle reservation system
WO2004088854A3 (en) Apparatus, system, and method for providing silently selectable audible communication
KR102331793B1 (ko) 구조화된 오디오 출력을 사용하여 재생 감지 및/또는 무선 스피커에서 비정렬된 재생에 적응
US7050974B1 (en) Environment adaptation for speech recognition in a speech communication system
CN102187374A (zh) 通信系统及方法
CN110033584B (zh) 服务器、控制方法以及计算机可读取记录介质
CA2539649C (en) System and method for personalized text-to-voice synthesis
JP2007049657A (ja) 留守番電話装置
JP6947004B2 (ja) 車載音声出力装置、音声出力装置、音声出力方法、及び音声出力プログラム
EP1696338A1 (en) Individual simultaneous translator
US20060292539A1 (en) Adaptively user-centric authentication/security
US20060014527A1 (en) Apparatus and method for transmitting voice message in mobile communication terminal
KR100298317B1 (ko) 휴대용전화기의통화방법
EP2706528A2 (en) System and method to generate a narrator specific acoustic database without a predefined script
JP5449230B2 (ja) 遠隔地間コミュニケーション装置、遠隔地間コミュニケーション方法、プログラム
US20030102973A1 (en) Supporting system
JPS63256038A (ja) セキユリテイ電話受信装置
CN114089943B (zh) 声音输出装置及声音输出方法