ES2331698T3 - Sistema de reconocimiento de voz distribuido. - Google Patents
Sistema de reconocimiento de voz distribuido. Download PDFInfo
- Publication number
- ES2331698T3 ES2331698T3 ES04718324T ES04718324T ES2331698T3 ES 2331698 T3 ES2331698 T3 ES 2331698T3 ES 04718324 T ES04718324 T ES 04718324T ES 04718324 T ES04718324 T ES 04718324T ES 2331698 T3 ES2331698 T3 ES 2331698T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- parameters
- recognition
- server
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 42
- 230000005236 sound signal Effects 0.000 claims abstract description 34
- 230000001755 vocal effect Effects 0.000 claims description 30
- 238000001514 detection method Methods 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Circuits Of Receivers In General (AREA)
- Computer And Data Communications (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
Sistema de reconocimiento de voz distribuido, que comprende al menos un terminal de usuario y al menos un servidor adecuados para comunicarse entre sí por medio de una red de telecomunicaciones, en el que el terminal de usuario comprende: - medios de obtención de una señal de audio a reconocer, - primeros medios de cálculo de parámetros de modelización de la señal de audio, y - primeros medios de control para seleccionar al menos una señal a emitir con destino al servidor entre la señal de audio a reconocer y una señal que indica los parámetros de modelización calculados, en función del contexto de la aplicación del terminal; y en el que el servidor comprende: - medios de recepción de la señal seleccionada procedente del terminal de usuario, - segundos medios de cálculo de parámetros de modelización de una señal de entrada, - medios de reconocimiento para asociar al menos una forma memorizada a parámetros de entrada, y - segundos medios de control para controlar los segundos medios de cálculo y los medios de reconocimiento para: - cuando la señal seleccionada recibida por los medios de recepción es de tipo audio, activar los segundos medios de cálculo de parámetros remitiéndoles la señal seleccionada como señal de entrada y remitir los parámetros calculados por los segundos medios de cálculo a los medios de reconocimiento como parámetros de entrada, y - cuando la señal seleccionada recibida por los medios de recepción indica parámetros de modelización, remitir dichos parámetros indicados a los medios de reconocimiento como parámetros de entrada.
Description
Sistema de reconocimiento de voz
distribuido.
La presente invención se refiere al campo del
control vocal de aplicaciones, ejercido sobre terminales de
usuario, gracias al empleo de medios de reconocimiento de la voz.
Los terminales de usuario considerados son todos los dispositivos
dotados de un medio de captura de la voz, habitualmente un
micrófono, que posee capacidades de tratamiento de este sonido y
conectados a uno o más servidores mediante un canal de transmisión.
Se trata, por ejemplo, de aparatos de control, de control a
distancia utilizados en aplicaciones domésticas, en automóviles
(control de auto-radio o de otras funciones del
vehículo), en PC o en terminales de teléfono. El campo de las
aplicaciones concernidas es esencialmente aquel en el que el usuario
ordena una acción, solicita una información o quiere interactuar a
distancia utilizando una orden de voz. La utilización de órdenes de
voz no excluye la existencia en el terminal de usuario de otros
medios de acción (sistema multi-modal), y el retorno
de informaciones, de estados o de respuestas también se puede
realizar de forma combinada visual, sonora, olfativa y mediante
cualquier otro medio perceptible por el ser humano.
De manera general, los medios para la
realización del reconocimiento de voz comprenden medios de obtención
de una señal de audio, medios de análisis acústico que extraen
parámetros de modelización y finalmente medios de reconocimiento
que comparan estos parámetros de modelización calculados con modelos
y proponen la forma memorizada en los modelos que puede estar
asociada a la señal de la forma más probable. Opcionalmente se
pueden utilizar medios de detección de actividad vocal VAD
("Voice Activation Detection"). Estos aseguran la detección de
secuencias correspondientes a la voz y que deben ser reconocidas.
Estos extraen de la señal de audio entrante, fuera de periodos de
inactividad vocal, segmentos de voz que a continuación serán
tratados mediante los medios de cálculo de los parámetros de
modelización.
Más particularmente, la invención se refiere a
las interacciones entre los tres modos de reconocimiento de voz
llamados embarcado, centralizado y distribuido.
En un modo de reconocimiento de voz embarcado,
el conjunto de los medios para realizar el reconocimiento de voz se
encuentra al nivel del terminal de usuario. Las limitaciones de este
modo de reconocimiento están, por lo tanto, vinculadas a la
potencia de los procesadores embarcados y a la memoria disponible
para almacenar los modelos de reconocimiento de voz. Como
contrapartida, este modo permite un funcionamiento autónomo, sin
conexión a un servidor y como tal es susceptible a un fuerte
desarrollo vinculado a la reducción del coste de la capacidad de
tratamiento.
En un modo de reconocimiento de voz
centralizado, todo el procedimiento de voz y los modelos de
reconocimiento se encuentran y se ejecutan en una máquina, llamada
generalmente servidor vocal, accesible a través del terminal de
usuario. El terminal transmite simplemente al servidor una señal de
voz. Este método se utiliza particularmente en las aplicaciones
ofrecidas por los operadores de telecomunicaciones. De este modo, un
terminal básico puede acceder a terminales evolucionados, activados
mediante la voz. Muchos tipos de reconocimiento de voz (robusto,
flexible, vocabulario muy amplio, vocabulario dinámico, voz
continua, mono- o multi-locutor, varios idiomas,
etc.) se pueden implementar en un servidor de reconocimiento de voz.
En efecto, las máquinas centralizadas tienen capacidades de
almacenamiento de modelos, tamaños de memoria de trabajo y potencias
de cálculo grandes y crecientes.
En un modo de reconocimiento de voz distribuido,
los medios de análisis acústico están embarcados en el terminal de
usuario, estando los medios de reconocimiento a nivel del servidor.
En este modo distribuido, una función de eliminación de ruido
asociada a los medios de cálculo de los parámetros de modelización
se puede realizar ventajosamente en la fuente. Solamente se
transmiten los parámetros de modelización, lo que permite un aumento
sustancial del caudal de transmisión, particularmente interesante
para las aplicaciones multimodales. Además, la señal a reconocer
puede estar mejor protegida contra los errores de transmisión.
Opcionalmente, también se puede embarcar la detección de actividad
vocal (VAD) para transmitir los parámetros de modelización solamente
durante las secuencias de voz, lo que tiene la ventaja de reducir
de manera importante el periodo de transmisión activa. El
reconocimiento de voz distribuido permite además transmitir por el
mismo canal de transmisión señales de voz y de datos,
particularmente texto, imágenes o videos. La red de transmisión
puede ser por ejemplo de tipo IP, GPRS, WLAN o Ethernet. Este modo
también permite beneficiarse de procedimientos de protección y de
corrección contra las pérdidas de paquetes que constituyen la señal
transmitida con destino al servidor. Sin embargo, requiere la
disponibilidad de canales de transmisión de datos, con un protocolo
estricto de transmisión.
La invención propone un sistema de
reconocimiento de voz que comprende terminales de usuario y
servidores que combinan las diferentes funciones ofrecidas por los
medios de reconocimiento de voz embarcado, centralizado y
distribuido, para ofrecer la máxima eficacia, comodidad y ergonomía
a los usuarios de servicios multi-modales en los
que se utiliza el control vocal.
La patente US 6487534 B1 describe un sistema de
reconocimiento de voz distribuido que comprende un terminal de
usuario que dispone de medios de detección de actividad vocal,
medios de cálculo de los parámetros de modelización y medios de
reconocimiento. Este sistema comprende además un servidor que
también dispone de medios de reconocimiento. El principio descrito
es la realización de al menos una primera fase de reconocimiento a
nivel del terminal de usuario. En una segunda fase opcional, los
parámetros de modelización calculados a nivel del terminal se
envían con destino al servidor, para determinar particularmente,
esta vez gracias a los medios de reconocimiento del servidor, una
forma memorizada en los modelos de éste y asociada a la señal
enviada.
El objeto pretendido por el sistema descrito en
el documento mencionado es reducir la carga a nivel del servidor.
Sin embargo, de esto se deriva que el terminal debe realizar el
cálculo de los parámetros de modelización de forma local antes de
transmitirlos eventualmente con destino al servidor. Ahora bien,
existen circunstancias en las que, por razones de gestión de carga
o por razones de aplicación, es preferible realizar este cálculo a
nivel del servidor.
De esto se deriva también que los canales
utilizados para la transmisión de los parámetros de modelización a
reconocer, en un sistema de acuerdo con el documento mencionado,
deben ser imperativamente canales adecuados para transmitir este
tipo de datos. Ahora bien, dichos canales de protocolo muy estricto
no están disponibles forzosamente de forma permanente en la red de
transmisión. Es por ello que es interesante poder utilizar canales
clásicos de transmisión de señales de audio, para no retardar o
bloquear el proceso de reconocimiento iniciado a nivel del
terminal.
Un objeto de la presente invención, tal como se
define mediante las reivindicaciones 1, 7 y 11, es proponer un
sistema distribuido que resulte menos afectado por las limitaciones
mencionadas anteriormente.
De este modo, según un primer aspecto, la
invención propone un sistema de reconocimiento de voz distribuido,
que comprende al menos un terminal de usuario y al menos un servidor
adecuados para comunicarse entre sí por medio de una red de
telecomunicaciones, en el que el terminal de usuario comprende:
- medios de obtención de una señal de audio a
reconocer,
- primeros medios de cálculo de parámetros de
modelización de la señal de audio, y
- primeros medios de control para seleccionar al
menos una señal a emitir con destino al servidor entre la señal de
audio a reconocer y una señal que indica los parámetros de
modelización calculados;
y en el que el servidor comprende:
- medios de recepción de la señal seleccionada
procedente del terminal de usuario,
- segundos medios de cálculo de parámetros de
modelización de una señal de entrada,
medios de reconocimiento para asociar al menos
una forma memorizada a parámetros de entrada, y
- segundos medios de control para controlar los
segundos medios de cálculo y los medios de reconocimiento para:
- \bullet
- cuando la señal seleccionada recibida por los medios de recepción es de tipo audio, activar los segundos medios de cálculo de parámetros remitiéndoles la señal seleccionada como señal de entrada y remitir los parámetros calculados por los segundos medios de cálculo a los medios de reconocimiento como parámetros de entrada, y
- \bullet
- cuando la señal seleccionada recibida por los medios de recepción indica parámetros de modelización, remitir dichos parámetros indicados a los medios de reconocimiento como parámetros de entrada.
De este modo, el sistema de acuerdo con la
invención permite transmitir desde la terminal de usuario con
destino al servidor ya sea la señal de audio (comprimida o no) ya
sea la señal emitida por los medios de cálculo de los parámetros de
modelización del terminal. La elección de la señal transmitida se
puede definir o bien por el tipo de aplicación en curso, o bien por
el estado de la red, o bien según una coordinación entre los medios
de control respectivos del terminal y del servidor.
Un sistema de acuerdo con la invención dota de
capacidad al terminal de usuario para realizar, en función por
ejemplo de parámetros de entrada de los que disponen los medios de
control en un momento dado, el cálculo de los parámetros de
modelización a nivel del terminal o a nivel del servidor. Este
cálculo también se puede realizar en paralelo a nivel del terminal
y a nivel del servidor.
Un sistema de acuerdo con la invención permite
realizar el reconocimiento de voz desde terminales de diferentes
tipos que coexisten en una misma red, por ejemplo:
- terminales que no disponen de ningún medio de
reconocimiento local (o cuyo medio de reconocimiento local está
inactivo), en cuyo caso la señal de audio es enviada para su
reconocimiento con destino al servidor,
- terminales que disponen de medios de detección
de actividad vocal sin medios de cálculo de parámetros de
modelización, ni medios de reconocimiento (o cuyos medios de cálculo
de parámetros y los medios de reconocimiento están inactivos) y que
transmiten al servidor para su reconocimiento una señal de audio de
origen o una señal de audio representativa de segmentos de voz
extraídos de la señal de audio fuera de periodos de inactividad
vocal, y
- servidores que disponen por ejemplo únicamente
de medios de reconocimiento, sin medios de cálculo de parámetros de
modelización.
Ventajosamente, los medios de obtención de la
señal de audio del terminal de usuario pueden comprender además
medios de detección de actividad vocal para extraer de la señal de
audio de origen, fuera de periodos de inactividad vocal, segmentos
de voz. Los medios de control del terminal seleccionan entonces al
menos una señal a emitir con destino al servidor, entre una señal
de audio representativa de los segmentos de voz y la señal que
indica los parámetros de modelización calculados.
Ventajosamente, los medios de control del
terminal son adecuados para seleccionar al menos una señal a emitir
con destino al servidor entre al menos la señal de audio de origen,
la señal de audio que indica los segmentos de voz extraídos de la
señal de audio de origen y la señal que indica parámetros de
modelización calculados. A nivel del servidor, los medios de
control son adecuados para controlar los medios de cálculo y los
medios de reconocimiento para, cuando la señal seleccionada
recibida por los medios de recepción es representativa de los
segmentos de voz extraídos por los medios de detección de actividad
vocal del terminal, activar los medios de cálculo de parámetros del
servidor remitiéndoles la señal seleccionada como señal de entrada y
remitir los parámetros calculados por estos medios de cálculo a los
medios de reconocimiento como parámetros de entrada.
En una realización preferida, el servidor
comprende además medios de detección de actividad vocal para extraer
de una señal recibida de tipo audio, fuera de los periodos de
inactividad vocal, segmentos de voz. En este caso, a nivel del
servidor, los medios de control son adecuados para controlar los
medios de cálculo y los medios de reconocimiento para:
- cuando la señal seleccionada recibida por los
medios de recepción es de tipo audio:
- \bullet
- si la señal recibida de tipo audio es representativa de segmentos de voz después de la detección de actividad vocal, activar los segundos medios de cálculo de parámetros remitiéndoles la señal seleccionada como señal de entrada y después remitir los parámetros calculados por los segundos medios de cálculo de parámetros a los medios de reconocimiento como parámetros de entrada;
- \bullet
- de lo contrario, activar los medios de detección de actividad vocal del servidor remitiéndoles la señal seleccionada como señal de entrada y después remitir los segmentos extraídos por los medios de detección de actividad vocal a los segundos medios de cálculo de parámetros como parámetros de entrada y después remitir los parámetros calculados por los segundos medios de cálculo de parámetros a los medios de reconocimiento como parámetros de entrada;
- cuando la señal seleccionada recibida por los
medios de recepción indica parámetros de modelización, remitir
dichos parámetros indicados a los medios de reconocimiento como
parámetros de entrada.
Ventajosamente, el terminal de usuario comprende
además medios de reconocimiento para asociar al menos una forma
memorizada a parámetros de entrada.
En este último caso, los medios de control del
terminal pueden ser adecuados para seleccionar una señal a emitir
con destino al servidor en función del resultado proporcionado por
los medios de reconocimiento del terminal. Y el terminal de usuario
puede comprender además medios de almacenamiento adecuados para
almacenar una señal a nivel del terminal, para poder, en el caso en
que el resultado del reconocimiento local en el terminal no sea
satisfactorio, enviar la señal para el reconocimiento por parte del
servidor.
Ventajosamente, los medios de control del
terminal pueden ser adecuados para seleccionar una señal a emitir
con destino al servidor independientemente del resultado
proporcionado por los primeros medios de reconocimiento.
Es preciso observar que los medios de control de
un terminal pueden pasar de uno a otro de los dos modos descritos
en los dos párrafos anteriores, en función por ejemplo del contexto
de la aplicación o del estado de la red.
Preferiblemente, los medios de control del
servidor cooperan con los medios de control del terminal. De este
modo, el terminal puede evitar enviar con destino al servidor por
ejemplo una señal de audio si ya hay una carga importante a nivel
de los medios de cálculo de parámetros del servidor. En una posible
realización, los medios de control del servidor están configurados
para cooperar con los medios del terminal para adaptar el tipo de
señales enviadas por el terminal en función de las capacidades
respectivas de la red, del servidor y del terminal.
Los medios de cálculo y de reconocimiento del
terminal pueden ser normalizados o privados.
En una realización preferida, al menos algunos
de entre los medios de reconocimiento y de cálculo de parámetros a
nivel del terminal, se le proporcionan mediante descarga, en forma
de código ejecutable por el procesador del terminal, por ejemplo
desde el servidor.
De acuerdo con un segundo aspecto, la invención
propone un terminal de usuario para implementar un sistema de
reconocimiento de voz distribuido de acuerdo con la invención.
De acuerdo con un tercer aspecto, la invención
propone un servidor para implementar un sistema de reconocimiento
de voz distribuido de acuerdo con la invención.
Otras características y ventajas de la invención
surgirán también con la lectura de la siguiente descripción. Ésta
es puramente ilustrativa y se debe leer teniendo en cuenta los
dibujos adjuntos, en los que:
- la figura única es un esquema que representa
un sistema en una realización de la presente invención.
El sistema representado en la figura única
comprende un servidor 1 y un terminal de usuario 2, que comunican
entre sí por medio de una red (no representada) que dispone de
canales para la transmisión de señales de voz y de canales para la
transmisión de señales de datos.
El terminal 2 comprende un micrófono 4, que
recibe la voz a reconocer de un usuario en forma de una señal de
audio. El terminal 2 también comprende un módulo de cálculo de
parámetros de modelización 6, que realiza de forma conocida por sí
misma un análisis acústico que permite extraer los parámetros
pertinentes de la señal de audio y que eventualmente puede realizar
ventajosamente una función de eliminación de ruidos. El terminal 2
comprende un controlador 8, que selecciona una señal entre la señal
de audio y una señal indicativa de los parámetros calculados por el
módulo de cálculo de parámetros 6. El terminal comprende además una
interfaz 10 para la emisión en la red de la señal seleccionada, con
destino al servidor.
El servidor 1 comprende una interfaz de red 12
para recibir las señales que le son remitidas, un controlador 14
que analiza la señal recibida y la dirige a continuación
selectivamente hacia un módulo de tratamiento entre varios módulos
16, 18, 20. El módulo 16 es un detector de actividad vocal, que
asegura la detección de los segmentos que corresponden a la voz y
que deben ser reconocidos. El módulo 18 asegura el cálculo de
parámetros de modelización de forma semejante al módulo de cálculo 6
del terminal. Sin embargo, el modelo de cálculo puede ser
diferente. El módulo 20 ejecuta un algoritmo de reconocimiento de
tipo conocido, por ejemplo a base de modelos de Markov ocultos con
un vocabulario por ejemplo superior a 100.000 palabras. Este motor
de reconocimiento 20 compara los parámetros de entrada con modelos
de voz que representan palabras o frases y determina la mejor forma
asociada, teniendo en cuenta modelos sintácticos que describen las
sucesiones de palabras esperadas, modelos léxicos que precisan las
diferentes pronunciaciones de las palabras y modelos acústicos
representativos de los sonidos pronunciados. Estos modelos son por
ejemplo multi-locutores, capaces de reconocer con
buena fiabilidad, la voz, independientemente del
locutor.
locutor.
El controlador 14 controla el módulo de VAD 16,
el módulo de cálculo de parámetros 18 y el motor de reconocimiento
20 para:
a) cuando la señal recibida por la interfaz de
recepción 12 es de tipo audio y no indica segmentos de voz
obtenidos mediante detección de actividad vocal, activar el módulo
de VAD 16 remitiéndole la señal recibida como señal de entrada y
después remitir los segmentos de voz extraídos por el módulo de VAD
16 al módulo de cálculo de parámetros 18 como parámetros de entrada
y después remitir los parámetros calculados por estos medios de
cálculo de parámetros 18 al motor de reconocimiento 20 como
parámetros de entrada,
b) cuando la señal recibida por la interfaz de
recepción 12 es de tipo audio e indica segmentos de voz después de
la detección de actividad vocal, activar el módulo de cálculo de
parámetros 18 remitiéndole la señal recibida como señal de entrada
y después remitir los parámetros calculados por este módulo de
cálculo de parámetros 18 al motor de reconocimiento 20 como
parámetros de entrada,
c) cuando la señal recibida por la interfaz de
recepción 12 indica parámetros de modelización, remitir dichos
parámetros indicados al motor de reconocimiento 20 como parámetros
de entrada.
Por ejemplo, en el caso en que el usuario del
terminal 1 utilice una aplicación que permita solicitar
informaciones sobre la bolsa y dice "cotización al cierre de los
tres últimos días del valor Lambda", la señal de audio
correspondiente es capturada por el micrófono 4. En la realización
del sistema de acuerdo con la invención, esta señal es tratada a
continuación, por defecto, por el módulo de cálculo de parámetros 6
y después se envía una señal, que indica los parámetros de
modelización calculados, hacia el servidor 1.
Cuando surgen, por ejemplo, problemas de
disponibilidad de canales de datos o del módulo de cálculo 6, es la
señal de audio a la salida del micrófono 4 la que selecciona el
controlador 8 para transmitirla con destino al
servidor 1.
servidor 1.
El controlador también puede ser adecuado para
enviar sistemáticamente una señal que indica los parámetros de
modelización.
El servidor recibe la señal con la interfaz de
recepción 12 y después realiza, para efectuar el reconocimiento de
voz en la señal recibida, el tratamiento indicado en a) o b) si la
señal enviada por el terminal 1 es de tipo audio o el tratamiento
indicado en c) si la señal enviada por el terminal 1 indica
parámetros de modelización.
El servidor de acuerdo con la invención también
es adecuado para realizar el reconocimiento de voz en una señal
transmitida por un terminal que no dispone de medios de cálculo de
parámetros de modelización, ni de medios de reconocimiento y que
dispone eventualmente de medios de detección de actividad vocal.
Ventajosamente, en una realización de la
invención, el sistema puede comprender además un terminal de usuario
22, que comprende un micrófono 24 similar al del terminal 2, un
módulo 26 de detección de actividad vocal. La función del módulo 26
es semejante a la del módulo de detección de actividad vocal 16 del
servidor 1. Sin embargo, el modelo de detección puede ser
diferente. El terminal 22 comprende un módulo de cálculo de
parámetros de modelización 28, un motor de reconocimiento 30 y un
controlador 32. El terminal comprende una interfaz 10 para la
emisión en la red, con destino al servidor, de la señal seleccionada
por el controlador 32.
El motor de reconocimiento 30 del terminal puede
tratar por ejemplo un vocabulario de menos de 10 palabras. Este
motor puede funcionar en modo mono-locutor y no
necesita una fase de aprendizaje previa a partir de la voz del
usuario.
El reconocimiento de voz se puede realizar de
diferentes maneras:
- exclusivamente a nivel del terminal, o
- exclusivamente a nivel del servidor, o
- parcial o totalmente a nivel del terminal e
igualmente, de manera alternativa o simultánea, parcial o totalmente
a nivel del servidor.
Cuando se debe realizar la elección de la forma
finalmente conservada, entre una forma asociada proporcionada por
el módulo de reconocimiento del servidor y una forma asociada
proporcionada por los del terminal, se puede realizar en base a
diferentes criterios, que pueden variar de un terminal al otro, pero
también de una aplicación a otra o de un contexto dado a otro.
Estos criterios pueden dar por ejemplo prioridad al reconocimiento
realizado a nivel del terminal o a la forma asociada que presente
la mayor tasa de probabilidad o también a la forma que se determine
más rápidamente.
La forma en la que se realiza este
reconocimiento se puede fijar a nivel del terminal en un modo dado.
O puede variar en función particularmente de criterios vinculados a
la aplicación en cuestión, a problemáticas de carga de los
diferentes medios a nivel del terminal y del servidor o también a
problemáticas de disponibilidad de canales de transmisión de voz o
de datos. Los controladores 32 y 14 situados respectivamente a nivel
del terminal y del servidor traducen la forma en la que se debe
realizar el reconocimiento.
El controlador 32 del terminal es adecuado para
seleccionar una señal entre la señal de audio de origen a la salida
del micrófono 24, una señal de audio representativa de segmentos de
voz extraídos por el módulo de VAD 26 y una señal que indica
parámetros de modelización 28. Según el caso, el tratamiento a nivel
del terminal continuará o no más allá de la etapa de tratamiento
del terminal que suministra la señal a emitir.
Por ejemplo, se puede considerar una realización
en la que el módulo de VAD 26 del terminal está diseñado por
ejemplo para detectar rápidamente palabras de mando y el módulo de
VAD 16 del servidor puede ser más lento, pero está diseñado para
detectar frases completas. Una aplicación, en la que el terminal 22
realiza un reconocimiento local y de forma simultánea conlleva la
realización de un reconocimiento por parte del servidor a partir de
la señal de audio transmitida, permite particularmente sumar las
ventajas de cada módulo de detección vocal.
Consideraremos ahora una aplicación en la que el
reconocimiento se realiza exclusivamente de forma local (terminal)
o exclusivamente a distancia (servidor centralizado) en base a
palabras clave que permitan la conmutación:
El reconocimiento en curso es en primer lugar
local: el usuario dice "llamar a Antoine", figurando Antoine
en el directorio local. A continuación dice "mensajería",
palabra clave que es reconocida de forma local y que hace bascular
a reconocimiento por parte del servidor. El reconocimiento es ahora
a distancia. Dice "buscar el mensaje de Josiane". Cuando dicho
mensaje se ha escuchado, dice "terminado", palabra clave que
hace bascular de nuevo a la aplicación a reconocimiento local.
La señal transmitida al servidor, para realizar
allí el reconocimiento, era de tipo señal de audio. En otra
realización, ésta podría indicar los parámetros de modelización
calculados en el terminal.
Consideraremos ahora una aplicación en la cual
el reconocimiento a nivel del terminal y el reconocimiento a nivel
del servidor son alternos. El reconocimiento se realiza en primer
lugar a nivel del terminal 22 y la señal después de la detección
vocal se almacena. Si la respuesta es consistente, es decir si no
hay rechazo del módulo de reconocimiento 30 y si la señal
reconocida es válida desde el punto de vista de la aplicación, la
aplicación local en el terminal pasa a la siguiente fase de la
aplicación. En caso contrario, la señal almacenada es enviada al
servidor para realizar el reconocimiento en una señal que indica
segmentos de voz después de la detección de actividad vocal en la
señal de audio (en otra realización, son los parámetros de
modelización los que podrían almacenarse).
De este modo, el usuario dice "llamar a
Antoine"; el conjunto del tratamiento a nivel del terminal 22 se
realiza con almacenamiento de la señal. La señal es reconocida con
éxito de forma local. Dice entonces "buscar el mensaje de
Josiane"; el reconocimiento a nivel del terminal fracasa; la
señal almacenada se transmite entonces al servidor. La señal es
reconocida correctamente y el mensaje solicitado se reproduce.
En otra aplicación, el reconocimiento se realiza
simultáneamente a nivel del terminal y también, y esto
independientemente del resultado del reconocimiento local, a nivel
del servidor. El usuario dice "llamar a Antoine". El
reconocimiento se desarrolla a los dos niveles. Como el tratamiento
local interpreta la orden, el resultado a distancia no es tenido en
cuenta. Después el usuario dice "buscar el mensaje de Josiane"
que genera un fracaso de forma local y que es reconocido
correctamente a nivel del servidor.
En una realización, el motor de reconocimiento
30 del terminal 22 es un programa ejecutable descargado desde el
servidor mediante medios clásicos de transferencia de datos.
Ventajosamente, para una aplicación dada del
terminal 22, pueden descargarse o actualizarse modelos de
reconocimiento del terminal, durante una sesión de la aplicación
conectada a la red.
Otros recursos lógicos útiles para el
reconocimiento de voz también se pueden descargar desde el servidor
1, como el módulo 6, 28 de cálculo de parámetros de modelización o
el detector de actividad vocal 26.
Se podrían describir otros ejemplos, que emplean
por ejemplo aplicaciones vinculadas a coches, a electrodomésticos o
multimedia.
Como se presenta en los ejemplos de realización
descritos anteriormente, un sistema de acuerdo con la invención
permite utilizar de forma optimizada los diferentes recursos
necesarios para el tratamiento del reconocimiento de voz y
presentes a nivel del terminal y del servidor.
Claims (14)
1. Sistema de reconocimiento de voz distribuido,
que comprende al menos un terminal de usuario y al menos un
servidor adecuados para comunicarse entre sí por medio de una red de
telecomunicaciones, en el que el terminal de usuario comprende:
- medios de obtención de una señal de audio a
reconocer,
- primeros medios de cálculo de parámetros de
modelización de la señal de audio, y
- primeros medios de control para seleccionar al
menos una señal a emitir con destino al servidor entre la señal de
audio a reconocer y una señal que indica los parámetros de
modelización calculados, en función del contexto de la aplicación
del terminal;
y en el que el servidor comprende:
- medios de recepción de la señal seleccionada
procedente del terminal de usuario,
- segundos medios de cálculo de parámetros de
modelización de una señal de entrada,
- medios de reconocimiento para asociar al menos
una forma memorizada a parámetros de entrada, y
- segundos medios de control para controlar los
segundos medios de cálculo y los medios de reconocimiento para:
- \bullet
- cuando la señal seleccionada recibida por los medios de recepción es de tipo audio, activar los segundos medios de cálculo de parámetros remitiéndoles la señal seleccionada como señal de entrada y remitir los parámetros calculados por los segundos medios de cálculo a los medios de reconocimiento como parámetros de entrada, y
- \bullet
- cuando la señal seleccionada recibida por los medios de recepción indica parámetros de modelización, remitir dichos parámetros indicados a los medios de reconocimiento como parámetros de entrada.
2. Sistema de acuerdo con la reivindicación 1,
en el que los primeros medios de control seleccionan una señal a
emitir en función, además, del estado de la red y/o según una
coordinación entre los medios de control respectivos del terminal y
del servidor.
3. Sistema de acuerdo con la reivindicación 1,
en el que los medios de obtención de la señal de audio a reconocer
comprenden medios de detección de actividad vocal para producir la
señal a reconocer en forma de extractos de una señal de audio de
origen, fuera de periodos de inactividad vocal.
4. Sistema de acuerdo con la reivindicación 3,
en el que los primeros medios de control son adecuados para
seleccionar la señal a emitir con destino al servidor entre al menos
la señal de audio de origen, la señal de audio a reconocer en forma
de segmentos extraídos por los medios de detección de actividad
vocal y la señal que indica parámetros de modelización calculados
por los primeros medios de cálculo de parámetros.
5. Sistema de acuerdo con una cualquiera de las
reivindicaciones anteriores, en el que:
- el servidor comprende además medios de
detección de actividad vocal para extraer de una señal de tipo
audio, fuera de periodos de inactividad vocal, segmentos de voz,
y
- los segundos medios de control son adecuados
para controlar los segundos medios de cálculo y los medios de
reconocimiento cuando la señal seleccionada recibida por los medios
de recepción es de tipo audio, para:
si la señal de tipo audio es representativa de
segmentos de voz después de la detección de actividad vocal,
activar los segundos medios de cálculo de parámetros remitiéndoles
la señal seleccionada como señal de entrada y después remitir los
parámetros calculados por los segundos medios de cálculo de
parámetros a los medios de reconocimiento como parámetros de
entrada;
de lo contrario, activar los medios de detección
de actividad vocal del servidor remitiéndoles la señal recibida
como señal de entrada y después remitir los segmentos extraídos por
los medios de detección de actividad vocal a los segundos medios de
cálculo de parámetros como señal de entrada y después remitir los
parámetros calculados por los segundos medios de cálculo de
parámetros a los medios de reconocimiento, como parámetros de
entrada.
6. Sistema de acuerdo con una cualquiera de las
reivindicaciones anteriores, en el que el terminal de usuario
comprende además medios de almacenamiento adecuados para almacenar
la señal de audio reconocer o los parámetros de modelización
calculados por los primeros medios de cálculo de parámetros.
7. Terminal de usuario para implementar un
sistema de reconocimiento de voz distribuido de acuerdo con una de
las reivindicaciones 1 a 6, que comprende:
- medios de obtención de una señal de audio a
reconocer,
- medios de cálculo de parámetros de
modelización de la señal de audio, y
- primeros medios de control para seleccionar al
menos una señal a emitir con destino al servidor entre la señal de
audio a reconocer y una señal que indica los parámetros de
modelización calculados, en función del contexto de la aplicación
del terminal.
8. Terminal de usuario de acuerdo con la
reivindicación 7, en el que los primeros medios de control
seleccionan una señal a emitir en función, además, del estado de la
red y/o según una coordinación entre los medios de control
respectivos del terminal y del servidor.
9. Terminal de usuario de acuerdo con la
reivindicación 7 u 8, en el que al menos una parte de los medios de
cálculo de parámetros se descarga desde el servidor.
10. Terminal de usuario de acuerdo con la
reivindicación 7 u 8, en el que al menos una parte de los medios de
reconocimiento se descarga desde el servidor.
11. Servidor para implementar un sistema de
reconocimiento de voz distribuido de acuerdo con una de las
reivindicaciones 1 a 6, que comprende:
- medios de recepción, procedente de un terminal
de usuario, de una señal seleccionada en dicho terminal,
- medios de cálculo de parámetros de
modelización de una señal de entrada,
- medios de reconocimiento para asociar al menos
una forma memorizada a parámetros de entrada, y
- medios de control para controlar los segundos
medios de cálculo y los medios de reconocimiento para:
- \bullet
- cuando la señal seleccionada recibida por los medios de recepción es de tipo audio, activar los medios de cálculo de parámetros remitiéndoles la señal seleccionada como señal de entrada y remitir los parámetros calculados por los medios de cálculo a los medios de reconocimiento como parámetros de entrada, y
- \bullet
- cuando la señal seleccionada recibida por los medios de recepción indica parámetros de modelización, remitir dichos parámetros indicados a los medios de reconocimiento como parámetros de entrada.
12. Servidor de acuerdo con la reivindicación
11, que comprende medios para descargar por medio de la red de
telecomunicaciones, con destino a un terminal, al menos una parte de
los primeros medios de cálculo de parámetro o de los medios de
reconocimiento del terminal.
13. Servidor de acuerdo con la reivindicación
12, que comprende medios para descargar recursos lógicos de
reconocimiento de voz por medio de la red de telecomunicaciones con
destino a un terminal.
14. Servidor de acuerdo con la reivindicación
13, en el que dichos recursos comprenden al menos un módulo de
entre: un módulo de VAD, un módulo de cálculo de parámetros de
modelización de una señal de audio y un módulo de reconocimiento
para asociar al menos una forma memorizada a parámetros de
modelización.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0303615 | 2003-03-25 | ||
| FR0303615A FR2853127A1 (fr) | 2003-03-25 | 2003-03-25 | Systeme de reconnaissance de parole distribuee |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2331698T3 true ES2331698T3 (es) | 2010-01-13 |
Family
ID=32947140
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES04718324T Expired - Lifetime ES2331698T3 (es) | 2003-03-25 | 2004-03-08 | Sistema de reconocimiento de voz distribuido. |
Country Status (8)
| Country | Link |
|---|---|
| US (1) | US20060195323A1 (es) |
| EP (1) | EP1606795B1 (es) |
| CN (1) | CN1764945B (es) |
| AT (1) | ATE441175T1 (es) |
| DE (1) | DE602004022787D1 (es) |
| ES (1) | ES2331698T3 (es) |
| FR (1) | FR2853127A1 (es) |
| WO (1) | WO2004088636A1 (es) |
Families Citing this family (137)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7003463B1 (en) | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
| US7925510B2 (en) * | 2004-04-28 | 2011-04-12 | Nuance Communications, Inc. | Componentized voice server with selectable internal and external speech detectors |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| US20080221884A1 (en) | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile environment speech processing facility |
| US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
| US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
| US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
| US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
| US20090030691A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
| US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
| US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
| US8886540B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| CN101030994A (zh) * | 2007-04-11 | 2007-09-05 | 华为技术有限公司 | 语音识别方法、系统、语音识别服务器 |
| US9129599B2 (en) * | 2007-10-18 | 2015-09-08 | Nuance Communications, Inc. | Automated tuning of speech recognition parameters |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| WO2010067118A1 (en) * | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| US8892439B2 (en) * | 2009-07-15 | 2014-11-18 | Microsoft Corporation | Combination and federation of local and remote speech recognition |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US9953643B2 (en) * | 2010-12-23 | 2018-04-24 | Lenovo (Singapore) Pte. Ltd. | Selective transmission of voice data |
| US9953653B2 (en) | 2011-01-07 | 2018-04-24 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| CN104769668B (zh) * | 2012-10-04 | 2018-10-30 | 纽昂斯通讯公司 | 改进的用于asr的混合控制器 |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| HK1220268A1 (zh) | 2013-06-09 | 2017-04-28 | 苹果公司 | 用於實現跨數字助理的兩個或更多個實例的會話持續性的設備、方法、和圖形用戶界面 |
| JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
| CN103474068B (zh) * | 2013-08-19 | 2016-08-10 | 科大讯飞股份有限公司 | 实现语音命令控制的方法、设备及系统 |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10950239B2 (en) * | 2015-10-22 | 2021-03-16 | Avaya Inc. | Source-based automatic speech recognition |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| CN107452383B (zh) * | 2016-05-31 | 2021-10-26 | 华为终端有限公司 | 一种信息处理方法、服务器、终端及信息处理系统 |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
| US10515632B2 (en) | 2016-11-15 | 2019-12-24 | At&T Intellectual Property I, L.P. | Asynchronous virtual assistant |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
| DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
| DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
| CN108597522B (zh) * | 2018-05-10 | 2021-10-15 | 北京奇艺世纪科技有限公司 | 一种语音处理方法及装置 |
| CN109192207A (zh) * | 2018-09-17 | 2019-01-11 | 顺丰科技有限公司 | 语音通信装置、语音通信方法及系统、设备、存储介质 |
| US10885912B2 (en) * | 2018-11-13 | 2021-01-05 | Motorola Solutions, Inc. | Methods and systems for providing a corrected voice command |
| TWI732409B (zh) * | 2020-01-02 | 2021-07-01 | 台灣松下電器股份有限公司 | 智慧家電操控方法 |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5838683A (en) * | 1995-03-13 | 1998-11-17 | Selsius Systems Inc. | Distributed interactive multimedia system architecture |
| US5943648A (en) * | 1996-04-25 | 1999-08-24 | Lernout & Hauspie Speech Products N.V. | Speech signal distribution system providing supplemental parameter associated data |
| US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
| US6336090B1 (en) * | 1998-11-30 | 2002-01-01 | Lucent Technologies Inc. | Automatic speech/speaker recognition over digital wireless channels |
| WO2000058946A1 (en) * | 1999-03-26 | 2000-10-05 | Koninklijke Philips Electronics N.V. | Client-server speech recognition |
| US6308158B1 (en) * | 1999-06-30 | 2001-10-23 | Dictaphone Corporation | Distributed speech recognition system with multi-user input stations |
| US6633846B1 (en) * | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
| US20030182113A1 (en) * | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
| ATE358316T1 (de) * | 2000-06-08 | 2007-04-15 | Nokia Corp | Verfahren und system für adaptive verteilte spracherkennung |
| US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
| TW567465B (en) * | 2002-09-02 | 2003-12-21 | Ind Tech Res Inst | Configurable distributed speech recognition system |
-
2003
- 2003-03-25 FR FR0303615A patent/FR2853127A1/fr active Pending
-
2004
- 2004-03-08 US US10/550,970 patent/US20060195323A1/en not_active Abandoned
- 2004-03-08 WO PCT/FR2004/000546 patent/WO2004088636A1/fr not_active Ceased
- 2004-03-08 DE DE602004022787T patent/DE602004022787D1/de not_active Expired - Fee Related
- 2004-03-08 EP EP04718324A patent/EP1606795B1/fr not_active Expired - Lifetime
- 2004-03-08 AT AT04718324T patent/ATE441175T1/de not_active IP Right Cessation
- 2004-03-08 ES ES04718324T patent/ES2331698T3/es not_active Expired - Lifetime
- 2004-03-08 CN CN200480008025.0A patent/CN1764945B/zh not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| ATE441175T1 (de) | 2009-09-15 |
| WO2004088636A1 (fr) | 2004-10-14 |
| US20060195323A1 (en) | 2006-08-31 |
| EP1606795A1 (fr) | 2005-12-21 |
| FR2853127A1 (fr) | 2004-10-01 |
| CN1764945A (zh) | 2006-04-26 |
| EP1606795B1 (fr) | 2009-08-26 |
| DE602004022787D1 (de) | 2009-10-08 |
| CN1764945B (zh) | 2010-08-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2331698T3 (es) | Sistema de reconocimiento de voz distribuido. | |
| ES2327522T3 (es) | Procedimiento de reconocimiento de palabra distribuido. | |
| US10008207B2 (en) | Multi-stage hotword detection | |
| US20020077831A1 (en) | Data input/output method and system without being notified | |
| CN106782540B (zh) | 语音设备及包括所述语音设备的语音交互系统 | |
| JP2003244317A (ja) | 音声および状況依存による通知 | |
| JP6962105B2 (ja) | 対話装置、サーバ装置、対話方法及びプログラム | |
| AU2003258448A1 (en) | Computer-based vehicle reservation system and method for a computer-based vehicle reservation system | |
| WO2004088854A3 (en) | Apparatus, system, and method for providing silently selectable audible communication | |
| KR102331793B1 (ko) | 구조화된 오디오 출력을 사용하여 재생 감지 및/또는 무선 스피커에서 비정렬된 재생에 적응 | |
| US7050974B1 (en) | Environment adaptation for speech recognition in a speech communication system | |
| CN102187374A (zh) | 通信系统及方法 | |
| CN110033584B (zh) | 服务器、控制方法以及计算机可读取记录介质 | |
| CA2539649C (en) | System and method for personalized text-to-voice synthesis | |
| JP2007049657A (ja) | 留守番電話装置 | |
| JP6947004B2 (ja) | 車載音声出力装置、音声出力装置、音声出力方法、及び音声出力プログラム | |
| EP1696338A1 (en) | Individual simultaneous translator | |
| US20060292539A1 (en) | Adaptively user-centric authentication/security | |
| US20060014527A1 (en) | Apparatus and method for transmitting voice message in mobile communication terminal | |
| KR100298317B1 (ko) | 휴대용전화기의통화방법 | |
| EP2706528A2 (en) | System and method to generate a narrator specific acoustic database without a predefined script | |
| JP5449230B2 (ja) | 遠隔地間コミュニケーション装置、遠隔地間コミュニケーション方法、プログラム | |
| US20030102973A1 (en) | Supporting system | |
| JPS63256038A (ja) | セキユリテイ電話受信装置 | |
| CN114089943B (zh) | 声音输出装置及声音输出方法 |