ES2208908T3 - Sistema y procedimiento para la codificacion y la difusion de informaciones vocales. - Google Patents
Sistema y procedimiento para la codificacion y la difusion de informaciones vocales.Info
- Publication number
- ES2208908T3 ES2208908T3 ES97925810T ES97925810T ES2208908T3 ES 2208908 T3 ES2208908 T3 ES 2208908T3 ES 97925810 T ES97925810 T ES 97925810T ES 97925810 T ES97925810 T ES 97925810T ES 2208908 T3 ES2208908 T3 ES 2208908T3
- Authority
- ES
- Spain
- Prior art keywords
- messages
- network
- platform
- access point
- encoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/4872—Non-interactive information services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M15/00—Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/60—Medium conversion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/20—Aspects of automatic or semi-automatic exchanges related to features of supplementary services
- H04M2203/2061—Language aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/45—Aspects of automatic or semi-automatic exchanges related to voicemail messaging
- H04M2203/4581—Sending message identifiers instead of whole messages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/53—Centralised arrangements for recording incoming messages, i.e. mailbox systems
- H04M3/533—Voice mail systems
- H04M3/53316—Messaging centre selected by message originator
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/12—Arrangements for interconnection between switching centres for working between exchanges having different types of switching equipment, e.g. power-driven and step by step or decimal and non-decimal
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Telephonic Communication Services (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Circuits Of Receivers In General (AREA)
Abstract
La invención se refiere a un sistema para emitir datos de voz a través de una red de telecomunicación de conmutación de paquetes, a partir de al menos una plataforma para un sistema de teleservicio de voz automático (1). Los mensajes emitidos por la plataforma, por ejemplo predicciones meteorológicas, pueden ser oídos desde una serie de terminales, por ejemplo teléfonos (30). Los mensajes se transmiten a través de la red de telecomunicación en forma codificada, el código incluye una representación semántica de los mensajes, que luego se convierte en señales de audio en el punto de acceso (2) a la red de telecomunicación de transmisión de paquetes. La conversión, por ejemplo, se lleva a cabo por medio de un módulo de síntesis de voz, tal como un módulo TTS (texto a voz). Los puntos de acceso a la red (2) están geográficamente distribuidos y generalmente se puede llegar a ellos mediante una llamada de tarifa local. La red de telecomunicación de transmisión de paquetes es por ejemplo una redATM o Internet. El sistema está adaptado también para sistemas de teleservicio interactivos (IVR, sistemas de respuesta de voz interactivos).
Description
Sistema y procedimiento para la codificación y la
difusión de informaciones vocales.
La presente invención se refiere a un sistema y
un procedimiento para la difusión de informaciones vocales. Más
particularmente, la presente invención se refiere a un sistema y un
procedimiento de teleservicios vocales, que permitan a un usuario
acceder, por medio de un teléfono o de cualquier otro tipo de
dispositivo provisto de medios de emisión acústicos, a informaciones
difundidas por una plataforma centralizada en una red de
telecomunicación.
A pesar del auge de otros sistemas de difusión
automática de informaciones, por ejemplo internet o teletexto, la
oferta de teleservicios vocales tiende a desarrollarse. Estos
servicios pueden en efecto ser utilizados sin necesidad de equipos
particulares, aparte de un conjunto telefónico, y pueden por tanto
ser fácilmente consultados desde cualquier lugar, por ejemplo
mediante un teléfono móvil. Además, el acceso a la información es
posible sin conocimientos técnicos particulares. Ejemplos de
teleservicios vocales populares comprenden, por ejemplo, el reloj
parlante, la difusión de previsiones meteorológicas, de resultados
deportivos, de cursos de la bolsa, etc.
Las informaciones difundidas están generalmente
memorizadas en forma numérica o grabadas sobre un soporte de
grabación de audio en una plataforma centralizada y vinculada a la
red telefónica. El usuario toma la iniciativa de consultar estas
informaciones marcando en su conjunto telefónico el número de
teléfono de la plataforma. Entonces se establece una conexión
telefónica ordinaria entre la plataforma centralizada y el usuario,
y a través de esta conexión se efectúa un diálogo vocal. La
conexión es bidireccional, incluso aunque la información sea
difundida en una sola dirección (ello es típicamente el caso en un
servicio de reloj parlante) o mayoritariamente en una dirección (por
ejemplo en los sistemas en que las únicas respuestas requeridas del
usuario se limiten a la introducción de una contraseña o de
respuestas breves del tipo si - no). La carga ocasionada en la red
de telecomunicación es pues desmesurada en relación con el volumen
efectivo de informaciones útiles transmitido.
Los progresos observados en los últimos años en
el campo del tratamiento de la voz, particularmente de la síntesis
de voz (sistemas TTS –
"text-to-speech"), del análisis de: voz
y del reconocimiento vocal de una persona, abren ampliamente la
puerta a nuevos sistemas de teleservicios vocales, que amplíen las
posibilidades ofrecidas por los sistemas convencionales. El campo de
aplicación de estas nuevas tecnologías no está ya limitado a
servicios de difusión unidireccional de información (como el reloj
parlante), sino que concierne también a servicios de información
interactivos, que ofrezcan posibilidades de diálogo entre la
persona llamante y la plataforma de teleservicio vocal. Estos
sistemas interactivos son generalmente conocidos bajo las siglas
anglófonas IVR (Interactif Voice Response Systems) y se aplican
concretamente para servicios de telebanking. Se conocen por ejemplo
ya sistemas que ofrecen al usuario la posibilidad de elegir, por
medio de órdenes vocales, las informaciones que desee escuchar,
incluso de modificar estas informaciones o de iniciar el
lanzamiento de programas de aplicaciones ejecutadas por la
plataforma de teleservicio vocal. A título de ejemplo, el documento
de Patente WO88/05239 describe un sistema que permite efectuar
sondeos o votaciones de manera automática. En la WO93/26113 se
describe otro sistema de mensajería vocal ampliamente
automatizado.
Los sistemas de teleservicio vocal son
generalmente operados por medio de una plataforma centralizada, por
razones evidentes de puesta al día de las informaciones y de coste.
La longitud de la conexión telefónica establecida depende pues de
la distancia entre el punto de llamada del usuario y el
emplazamiento de la plataforma. El atractivo de un teleservicio
vocal disminuye no obstante fuertemente para los abonados que no
puedan llamarlo con tarifa local. Por consiguiente, en numerosos
casos el gestor de la red de telecomunicación propone una tarifa de
llamada única para un teleservicio dado, que penaliza a los
abonados más próximos y es deficitario para las llamadas de
abonados domiciliados más lejos.
El documento de Patente
EP-A2-0559981 describe un sistema de
teleservicio vocal interactivo en el cual el usuario está conectado
a la plataforma centralizada por medio de una conexión enteramente
numérica. La finalidad de este sistema es esencialmente limitar el
número de conversiones analógicas-numéricas y
numéricas-analógicas entre el usuario y la
plataforma de teleservicio vocal. Sin embargo, los problemas arriba
citados no quedan resueltos por este sistema.
Una finalidad de la presente invención consiste
pues en proponer un sistema de teleservicio vocal mejorado. Más
particularmente, una finalidad de la presente invención consiste en
proponer un servicio de teleservicio vocal que ocasione una carga
menor de la red de telecomunicación.
Estas finalidades se consiguen particularmente
por medio de los elementos de las partes características de las
reivindicaciones independientes, indicándose en las
reivindicaciones dependientes formas de realización preferentes.
La invención parte de la constatación de que, en
el estado de la técnica, los mensajes de voz intercambiado:
concretamente las informaciones vocales difundidas por la
plataforma al llamante, precisan un ancho de banda mucho más
importante que el mínimo requerido para transmitir únicamente el
contenido semántico de la información transmitida.
Las finalidades de la invención se consiguen pues
transmitiendo, en lugar de señales de audio analógicas o numéricas
(fonéticas), mensajes vocales conteniendo únicamente una
información sobre la semántica de estas señales.
En el caso de un sistema numérico, la transmisión
de miles de muestras de voz sucesivas, codificadas por ejemplo en 8
bits, es pues reemplazada por la transmisión de algunos caracteres,
por ejemplo de algunos códigos ASCII correspondientes a la
representación en modo texto o seudotexto del contenido semántico
de los mensajes.
La relación de compresión así obtenida, y por
tanto la carga de la red, es muy elevada, típicamente del orden de
1:500, por ejemplo, según los mensajes y el tipo de aplicación. La
conversión del mensaje semántico en señal de audio es efectuada
preferentemente por un punto de acceso a la red en la proximidad
del usuario, de manera que una señal de audio con gran ancho de
banda sea transmitida únicamente entre el punto de acceso a la red
y el usuario, es decir en una fracción de la distancia total que
separa el usuario de la plataforma de teleservicio.
En vista del caudal de información muy reducido
obtenido gracias al procedimiento de la invención, y de la
naturaleza irregular de este caudal, concretamente en el caso de
sistemas interactivos, los mensajes codificados en forma semántica
son ventajosamente transmitidos en forma de paquetes entre la
plataforma centralizada y el o los puntos de acceso a la red.
Ventajosamente, la red de telecomunicación que une la plataforma
centralizada con los puntos de acceso a la red está pues
constituida por una red de transmisión de paquetes, por ejemplo una
red con protocolo ATM y/o internet (TCP/IP). En este último caso,
los puntos de acceso a la red pueden ventajosamente estar
constituidos por POPs (Points of Presence) distribuidos de la red
internet.
El usuario que desee recurrir a un sistema de
teleservicio vocal, por ejemplo escuchar las previsiones
meteorológicas, llamará por medio de su teléfono al POP más
próximo. Esta comunicación puede generalmente ser establecida con
tarifa local. El POP contacta entonces con la plataforma
centralizada que gestiona el sistema de teleservicio vocal
automático, la cual le transmite un mensaje codificado incluyendo
una representación semántica que contenga las informaciones
requeridas, por ejemplo un fichero de texto anunciando las
previsiones meteorológicas para la región en cuestión. Este fichero
de texto es convertido en señal de audio (analógica o numérica) por
medio de un dispositivo de síntesis de voz en el POP (dispositivo
TTS, "Text-To-Speech"), y la
señal de audio obtenida es transmitida al usuario, el cual puede así
escucharla.
Una conexión telefónica ordinaria es únicamente
requerida entre el usuario y el punto de acceso a la red (POP). En
vista de la fuerte concentración de puntos de acceso a la red
internet, esta conexión puede muy frecuentemente ser establecida
beneficiándose de la tarifa local. Entre el POP y la plataforma, la
conexión es ventajosamente de tipo internet, y su costo no depende
pues de la distancia. Además, el volumen de informaciones
intercambiado entre el POP y la plataforma resulta muy fuertemente
reducido gracias a la conversión en forma semántica de los mensajes
vocales.
En el caso en que se precise un tiempo de
respuesta corto, por ejemplo en caso de comunicación interactiva,
la paquetización de los mensajes por internet puede causar un
retardo tanto más grande cuanto más importante sea la compresión. En
efecto, un paquetizador no expide generalmente más que paquetes
completos. Una solución que permita reducir la demora consiste en
insertar octetos de relleno después del mensaje útil, permitiendo
rellenar los paquetes y transmitirlos pues inmediatamente. Una
solución preferente consiste en multiplexar varios mensajes en el
interior de cada paquete, y luego en desmultiplexarlos en el
interior de la red de telecomunicación.
Ventajosamente, los puntos de acceso a la red
distribuidos contienen una memoria de tipo caché que memoriza
temporalmente los mensajes transmitidos desde la plataforma
centralizada. Por consiguiente, una conexión con la plataforma no
resulta así precisa en cada consulta por un usuario, lo cual
contribuye a reducir aún más la carga a través de la red de
telecomunicación. La memoria de tipo caché puede ya sea memorizar
los mensajes codificados en forma semántica, lo cual permite
reducir considerablemente el tamaño de memoria requerida, o bien
las señales de audio sintetizadas para limitar el número de
conversiones necesarias.
La invención resultará mejor comprensible con
ayuda de la siguiente descripción, dada a título de ejemplo no
limitativo e ilustrada por la única figura del dibujo adjunto, que
muestra de forma esquemática un sistema completo de difusión de
informaciones vocales a través de una red de telecomunicación.
La descripción se refiere principalmente a una
aplicación de la invención a un sistema de teleservicio vocal, por
ejemplo un servicio de difusión de previsiones meteorológicas
accesible por teléfono. Sin embargo, es importante apreciar que la
invención puede también aplicarse a cualquier tipo de sistema de
difusión de informaciones vocales monodireccional, bidireccional o
interactivo.
En la Fig. 1 del dibujo adjunto el número de
referencia 1 designa una plataforma centralizada para un sistema de
teleservicio vocal. La plataforma 1 suministra la información
requerida y, en el caso de un sistema de teleservicio interactivo,
gestiona el diálogo con el usuario. La plataforma 1 contiene
preferentemente una memoria 10 que memoriza la información que deba
ser difundida. Únicamente el contenido semántico de la información
es memorizado, por ejemplo en forma de fichero de texto, de
seudotexto o en cualquier formato apropiado. En este fichero están
preferentemente incluidos marcadores prosódicos, u otros tipos de
informaciones que permitan mejorar la calidad de la voz sintetizada
a partir de esta información. De acuerdo con otra forma de
realización, la memoria 10 contiene datos de audio, grabados por
ejemplo sobre una banda magnética o sobre cualquier tipo de soporte
analógico o numérico apropiado, que son convertidos en cada
lectura, por medios de análisis de voz, en datos codificados que
incluyan una representación semántica. De acuerdo con una tercera
forma de realización, la información difundida por la plataforma 1
no está preparada de antemano, sino que es generada por un sistema
de síntesis de mensajes en función, por ejemplo, de las respuestas
suministradas por el usuario en el caso de un teleservicio
interactivo IVR.
La plataforma 1 contiene además, preferentemente,
medios de análisis de voz que permitan analizar las respuestas del
usuario en el caso de un sistema interactivo. La plataforma 1 puede
además comprender medios de tratamiento aptos para ejecutar.
cualquier tipo de aplicación apropiada según el tipo de teleservicio
y las órdenes dadas por el usuario, por ejemplo cargar una cuenta
bancaria en el caso de un servicio de telebanking interactivo, o
grabar una respuesta del usuario. Los medios de gestión de diálogo,
de análisis de voz, de generación de mensajes y de tratamiento
están preferentemente implementados en forma de módulos
informáticos susceptibles de ser ejecutados por medios de
tratamiento 12. Estos módulos o programas pueden por ejemplo ser
almacenados en un soporte de datos informático, tal como disco
duro, disquete o CD--ROM, por ejemplo, susceptible de ser leído y
ejecutado por un dispositivo programable integrante de la
plataforma 1. La plataforma 1 contiene, además, un interfase 11 que
permite conectarla a la red de telecomunicación 4, en este caso una
red de transmisión de paquetes de tipo internet. La plataforma 1
constituye por tanto, en este ejemplo, un servidor de información
de internet.
El sistema según la invención comprende, además,
una pluralidad de puntos de acceso a la red distribuidos 2.
Unicamente dos puntos de acceso a la red 2 están representados en
la Fig. 1; el número de puntos de acceso a la red puede no obstante
ser uno cualquiera y depende principalmente del tamaño de la red de
telecomunicación 4. En este ejemplo los puntos de acceso a la red
están constituidos por puntos de presencia POP en la red internet.
Los puntos de acceso a la red 2 comprenden, en general, un
interfase 21 que les permita ser conectados a la red 4, medios de
tratamiento 20, así como una memoria caché 22 cuya función se
describirá más adelante. Los puntos de acceso a la red 2
comprenden, además, medios de interfase no ilustrados, por ejemplo
medios de tipo módem, con una red de acceso 3, por ejemplo con una
red de telefonía fija o móvil convencional o con una red RNIS o
CATV.
Los medios de tratamiento 20 comprenden medios de
síntesis de voz, implementados, por ejemplo, en forma de un módulo
informático ejecutable por un procesador universal. Los medios de
síntesis de voz permiten convertir los mensajes vocales codificados
en forma semántica en señales de audio fonéticas. Diferentes
algoritmos y programas comerciales, designados en general con el
nombre de algoritmos TTS
(Text-To-Speech), son conocidos a
tal fin en el estado de la técnica. Es evidente que el algoritmo de
síntesis de voz utilizado debe ser compatible con la codificación
semántica adoptada por la plataforma centralizada 1, y ser por
ejemplo apto, en su caso, para reconocer marcadores prosódicos, u
otras informaciones de caracterización de la voz, insertados en el
fichero de texto. Ventajosamente, el algoritmo de síntesis de voz
puede pues ser telecargado desde la plataforma centralizada 1 a
través de la red internet. Resulta así posible actualizar
fácilmente todos los puntos de acceso 2 cuando se producen
modificaciones del algoritmo de codificación semántica utilizado
por la plataforma 1.
El punto de acceso a la red 2 está ventajosamente
constituido por un ordenador, por ejemplo por un ordenador
polivalente o por un servidor de comunicación especializado, que
ejecute un programa informático apropiado, memorizado en un soporte
de datos informáticos adecuado.
La memoria caché 22, que puede ser gestionada por
cualquier algoritmo conocido, memoriza temporalmente los mensajes
vocales transmitidos desde la plataforma centralizada 1 a través de
la red 4. La memoria de tipo caché puede ya sea memorizar la
representación semántica de los mensajes codificados, lo cual
permite reducir considerablemente el tamaño de memoria requerido, o
bien las señales de audio sintetizadas para limitar el número de
conversiones necesarias. La memoria caché puede, por ejemplo, ser
actualizada en intervalos regulares, por ejemplo 4 veces al día en
el caso de un teleservicio de informaciones meteorológicas, o
después de un número predefinido de consultas por los usuarios, o
únicamente cuando se produzca una consulta por el usuario, si se
constata que los datos en la memoria caché son demasiado antiguos
para ser fiables.
El procedimiento según la invención, ejecutado
por el dispositivo de la Fig. 1, será explicado a continuación con
ayuda de un ejemplo sencillo de teleservicio que difunda
informaciones meteorológicas. Queda bien entendido que se trata de
una aplicación dada a título de ejemplo no limitativo, que permita
comprender fácilmente el procedimiento de la invención, pero que la
invención puede aplicarse igualmente a todo tipo de sistema de
difusión de informaciones vocales.
El usuario que desee escuchar las previsiones
meteorológicas por medio de un sistema de teleservicio según la
invención marcará en su terminal 30 el número de llamada del
servicio en cuestión, en Suiza por ejemplo el número 162. Se
establece entonces una comunicación a través de la red de acceso
convencional 3 con el punto de acceso a la red 2 más próximo, por
ejemplo con el proveedor de acceso a internet más próximo. Según la
densidad de puntos de acceso a la red 2, esta conexión puede
establecerse con tarifa local, y por tanto con un coste muy módico.
El usuario y el proveedor del teleservicio evitan así tenerse que
compartir el costo de una comunicación telefónica entre el terminal
30 y el dispositivo 1, generalmente más alejado.
Después del establecimiento de la comunicación,
los medios de tratamiento 20 en el punto de acceso a la red 2
verifican si las informaciones requeridas, en este caso las
previsiones meteorológicas, están contenidas en la memoria caché 22.
Si ello es el caso, y si los datos memorizados son fiables, el
contenido de la memoria caché es leído y estas informaciones pueden
ser escuchadas por el usuario. Si la memoria caché 22 contiene
informaciones ya sintetizadas en forma de señal sonora, esta señal
puede ser directamente emitida, por medio del interfase no
ilustrado con la red de acceso 3, y escuchada por medio del altavoz
en el dispositivo 30. Si por el contrario la memoria caché 22
contiene únicamente la representación semántica de los mensajes
codificados, por ejemplo un fichero de texto con eventualmente
marcadores prosódicos, este fichero es convertido por los medios de
tratamiento 20 en una señal de audio mediante un módulo de síntesis
de voz TTS, y luego transmitido al dispositivo 30.
Cuando la memoria caché 22 no contiene las
informaciones actualizadas requeridas por el usuario, o si el
dispositivo 2 no comprende una memoria caché, el punto de acceso a
la red envía una requisición a la plataforma 1 a través de la red
de transmisión de paquetes 4. En el caso de una red internet, esta
requisición puede estar por ejemplo constituida por un mensaje de
internet dirigido a la plataforma 1.
En el caso de un teleservicio monodireccional, es
decir de un teleservicio en el cual la información circule
únicamente desde la plataforma 1 hacia el usuario, la plataforma 1
generará la información requerida y la enviará al punto de acceso 2
elegido en forma de un mensaje vocal codificado incluyendo una
representación semántica de la información. El mensaje vocal enviado
por la plataforma 1 puede estar constituido, en este ejemplo, por
un simple fichero en modo texto o seudotexto indicando las
previsiones meteorológicas solicitadas. Sin embargo, dentro del
ámbito de la presente invención puede utilizarse cualquier otro
tipo de codificación semántica, por ejemplo una codificación con un
alfabeto fonético, o una codificación que utilice marcadores
prosódicos.
El volumen de información transmitido es muy
reducido, debido a la codificación semántica, y puede por tanto ser
transmitido muy rápidamente a través de la red de telecomunicación
4. El punto de acceso a la red 2 convierte entonces el mensaje
codificado en forma semántica en señal de audio gracias a los
citados medios de síntesis de voz, y transmite, como arriba
indicado, esta señal de audio al usuario a través de la red de
acceso 3. El usuario puede entonces escuchar esta señal de audio
por medio del altavoz del dispositivo 30.
En el caso de un teleservicio bidireccional, por
ejemplo de un teleservicio interactivo que permita al usuario
influenciar el funcionamiento de la plataforma 1, la plataforma 1
puede enviar una pregunta al usuario, por ejemplo solicitarle qué
informaciones desea exactamente escuchar. Así por ejemplo, la
plataforma 1 puede enviar un mensaje vocal al usuario 1
solicitándole el nombre de la región a la que debe referirse el
boletín meteorológico. Este mensaje vocal es transmitido en forma
semántica hacia la plataforma 2, y luego convertido de la manera
indicada en una señal de audio que puede ser escuchada por el
usuario del terminal 30. El usuario puede entonces responder, ya
sea mediante el teclado del dispositivo 30 ó bien preferentemente
de forma vocal.
En el caso de una respuesta vocal, el punto de
acceso a la red 2 convierte, gracias a medios de análisis de voz
realizados en forma de un módulo informático ejecutable por los
medios de tratamiento 20, esta respuesta en un mensaje codificado
en forma semántica, y transmite esta respuesta a la plataforma 1.
Los medios de tratamiento adoptan entonces un comportamiento
dependiente de la respuesta, y ejecutan un procedimiento apropiado
en función de la aplicación. En el caso de un teleservicio de
difusión de boletines meteorológicos, el procedimiento puede por
ejemplo consistir en la difusión de un boletín correspondiente a la
región seleccionada.
Este boletín es entonces transmitido de la manera
descrita, codificado en forma semántica y convertido en señal de
audio por el punto de acceso 2 a fin de poder ser escuchado por el
usuario. Según el algoritmo de gestión elegido para el caché 22,
este mensaje puede también ser copiado en dicho caché.
En el caso más sencillo, el formato de los
mensajes codificados en forma semántica es simplemente de tipo
texto. Así por ejemplo, simples ficheros ASCII pueden ser
intercambiados entre la plataforma 1 y los puntos de acceso a la red
2. Un fichero de texto no contiene, no obstante, parámetro alguno
que caracterice la voz del lector, y no permite sintetizar
fácilmente una voz natural. Para mejorar la síntesis es preferible
transmitir un fichero de seudotexto que contenga marcadores
prosódicos suplementarios encima del texto.
Naturalmente es posible transmitir solamente una
parte del mensaje codificado en forma semántica, y otra parte, u
otros tipos de mensajes, en forma de datos de audio.
Según el tipo de aplicación de teleservicio
ocurre frecuentemente que el vocabulario de los mensajes
susceptibles de ser intercambiados no sea ilimitado. Así por
ejemplo, en un sistema interactivo puede ocurrir que las únicas
respuestas que se espere del usuario sean instrucciones del tipo si
o no. En este caso, la transcripción semántica de los mensajes
vocales puede ser simplificada: en lugar de transmitir las letras
S, I o N, O según la respuesta del usuario, es suficiente
transmitir un solo bit 1 ó 0. La relación de compresión obtenida,
con respecto a una transmisión de una respuesta de tipo si o no en
forma de señal de audio, es del orden de varios miles al menos. De
la misma manera, para cada aplicación que implique mensajes
susceptibles de ser transmitidos frecuentemente a través de la red
de telecomunicación 4, es posible optimizar la codificación
reduciendo el número de bits utilizados para codificar estos
mensajes repetitivos. De manera ideal, cuando el vocabulario de los
mensajes intercambiados por el procedimiento según la invención esté
perfectamente determinado de antemano, la codificación semántica de
las palabras del vocabulario puede efectuarse de tal modo que se
minimice el número de bits de codificación de cada palabra,
teniendo en cuenta eventualmente la probabilidad de transmisión de
cada palabra (código de longitud variable). Esta transcripción, que
es también de tipo semántico, es generalmente más eficaz que la
transcripción literal de cada letra de las palabras que designan un
sema en un idioma dado. La codificación semántica puede también
estar basada en una predicción de las respuestas del usuario y
evolucionar de manera dinámica en el transcurso del diálogo
(representación de la predicción semántica). Tal como ya se ha
mencionado, un mínimo de información que caracterice la voz y/o la
prosodia puede ventajosamente ser transmitido por ejemplo en forma
de marcadores prosódicos incorporados en la representación
semántica.
Para reducir aún más el tamaño de los mensajes,
los mensajes semánticos pueden ventajosamente ser transcodificados
por medio de un código de reducción de redundancia, por ejemplo por
medio de un código de Huffman o de Ziv-Lempel.
Los mensajes transmitidos codificados en forma
semántica contienen la información sobre el contenido del
mensaje.Es posible, en el nivel de cada punto de acceso a la red 2,
atribuir otra voz a los mensajes convertidos en señales de audio.
Así por ejemplo, la voz aplicada al mismo mensaje podrá ser
masculina o femenina, según el punto de acceso 2 que efectúe la
conversión de texto en voz. Diferentes distribuidores de
información, que revendan las informaciones proporcionadas por la
plataforma 1, pueden de este modo fácilmente personalizar su
teleservicio. También es posible instaurar, al inicio de la
comunicación, un diálogo que permita al usuario elegir una voz que
le convenga.
La flexibilidad del sistema puede ser ampliada
aún más adaptando el idioma del contenido de las señales de audio
sintetizadas a partir de la representación semántica de los
mensajes. En el ejemplo arriba mencionado, una respuesta positiva
codificada en forma semántica por un bit 1 puede con la misma
facilidad ser convertida en un extracto de voz que diga "si",
"yes" o "ja", por ejemplo. Lo propio vale para todos los
mensajes intercambiados entre la plataforma 1 y los puntos de
acceso 2, cuando su semántica pueda exprimirse fácilmente en
diferentes idiomas. De esta manera, cada gestor de un punto de
acceso a la red 2 puede convertir los mensajes codificados en forma
semántica en mensajes de audio exprimidos en el idioma predominante
en el emplazamiento geográfico en cuestión. También es posible
ofrecer al usuario posibilidades de selección de idioma, por medio
de órdenes vocales o a través de su teclado, o de utilizar un
algoritmo que reconozca automáticamente el idioma del usuario
llamante para suministrarle a continuación las informaciones
solicitadas en dicho idioma. El idioma de los mensajes de audio
sintetizados puede también ser determinado según las indicaciones
proporcionadas por el fichero de cliente de los abonados al
servicio.
La precedente descripción evoca más
particularmente el caso de un usuario que llame a la plataforma de
teleservicio 1 por medio de un conjunto telefónico fijo o móvil.
Sin embargo, es posible utilizar, en lugar de un teléfono,
cualquier otro tipo de segundo dispositivo 30 que permita establecer
una comunicación a través de la red de telecomunicación de
transmisión de paquetes 4 y esté provisto de medios de emisión
acústicos, por ejemplo de un altavoz, que permita escuchar los
mensajes vocales difundidos por la plataforma 1. Así por ejemplo,
el segundo dispositivo 30 puede estar constituido por un ordenador
personal o portátil dotado de un módem y de un altavoz (terminal
inteligente).
En este caso, ciertas operaciones, delegadas en
el ejemplo de la forma de realización arriba descrita a la
plataforma 1 ó al punto de acceso a la red 2, pueden ser realizadas
por el terminal inteligente 30. Así por ejemplo, si el terminal
está provisto de medios que permitan conectarlo directamente a la
red de transmisión de paquetes 4, la síntesis de voz puede
efectuarse por el terminal inteligente en lugar de por el punto de
acceso a la red 2. El punto de acceso a la red 2 puede incluso
suprimirse si el terminal está en condiciones de conectarse
directamente con la plataforma 1 a través de la red 4. Así por
ejemplo, en el caso en que la red 4 sea una red de tipo internet, y
la plataforma 1 un servidor vocal conectado a internet, es posible,
por medio de un ordenador también conectado a internet, recibir
mensajes vocales codificados en forma semántica y difundidos por la
plataforma 1 y convertir estos mensajes codificados en señales de
audio, preferentemente por medio de un programa de síntesis de voz
preferentemente telecargado desde la plataforma 1. El programa de
síntesis de voz puede estar ventajosamente realizado en forma de un
módulo informático de tipo "plug-in" para un
programa de consulta (browser) de documentos hipermedia
transmitidos a través de la red internet.
La invención puede además aplicarse al
intercambio de informaciones vocales entre dos usuarios, por
ejemplo entre los usuarios de dos conjuntos telefónicos 30 A y B en
la Fig. 1. La voz del usuario A es entonces analizada y convertida
en un mensaje codificado, que incluya una representación semántica,
por los medios de tratamiento 20 del punto de acceso a la red 2 más
próximo a A. Este mensaje codificado es entonces transmitido a
través de la red de transmisión de paquetes 4 hacia el punto de
acceso a la red 2 más próximo a B, donde es sintetizado por los
medios de síntesis de la unidad de tratamiento 20 en una señal de
audio, que es transmitida a B por medio de la conexión local a
través de la red de acceso 3. Las respuestas de B son transmitidas
a A de manera similar en sentido inverso. Este procedimiento
permite, por ejemplo, conexiones de larga distancia con tarifas
imbatibles, merced a la compresión muy importante obtenida por la
codificación semántica y a la transmisión por paquetes. El reducido
tamaño de los mensajes codificados en forma semántica permite
efectuar diálogos en tiempo real incluso aunque la red 4 esté muy
cargada, lo cual no es siempre el caso en los sistemas conocidos de
telefonía por internet ("internet vocal chat"), en los cuales
se transmiten datos audionuméricos. El precio a pagar es
naturalmente una pérdida importante de información relativa a la
dicción o a la pronunciación del interlocutor, cuya voz es
reemplazada por la voz impersonal del sintetizador de voz.
Para paliar este inconveniente es posible, si A y
B celebran frecuentemente conversaciones, que se expidan, una sola
vez, un fichero conteniendo parámetros de caracterización de sus
voces y que permita a los respectivos medios de síntesis de voz
sintetizar, a partir de los mensajes recibidos, voces lo más
próximas posible a las de B y A, respectivamente.
Este procedimiento puede además ser utilizado en
combinación con un procedimiento de telefonía por internet clásico,
para paliar el problema de lentitud de transmisión de señales de
audio a través de la red 4. En este caso, los mensajes son
transmitidos de manera clásica, en forma de datos audionuméricos o
analógicos. Simultáneamente, un mensaje conteniendo la
transcripción semántica del mensaje de audio, de tamaño netamente
inferior al del mensaje de audio, es transmitido en paralelo. Este
mensaje es generalmente recibido completamente bastante antes que
el mensaje de audio. Si, al cabo de un intervalo de tiempo
predeterminado, el mensaje de audio no ha llegado todavía a su
destinatario, un nuevo mensaje de audio es sintetizado en el nivel
del destinatario a partir del mensaje codificado en forma semántica,
y este nuevo mensaje es difundido al destinatario sin esperar la
recepción completa del mensaje de audio original. La síntesis del
nuevo mensaje de audio a partir del mensaje codificado en forma
semántica puede ventajosamente ser efectuada utilizando el
conocimiento de los parámetros de la voz del interlocutor,
adquirido con ocasión de anteriores intercambios de mensajes. Este
procedimiento permite además al destinatario disponer de una
transcripción escrita del mensaje vocal.
Este procedimiento de comunicación directa entre
dos interlocutores A y B resulta ser particularmente interesarte
cuando el idioma de las señales de audio sintetizadas a partir de
los mensajes transmitidos modificados en forma semántica es
diferente para A y para B. En este caso, es posible realizar
sistemas de traducción automática en tiempo real solicitando muy
poco la red de comunicación. Los mensajes vocales de A, por ejemplo
en francés, son convertidos en mensajes que no contengan más que
una información semántica en el nivel del punto de acceso a la red
más próximo a A, y luego son transmitidos de esta forma codificada
hasta el punto de acceso a la red más próximo a B. En este punto de
acceso a la red es sintetizada una señal de audio en otro idioma,
por ejemplo en japonés, a partir de las informaciones semánticas
recibidas, y luego difundida en japonés a la atención de B. Las
respuestas de B son transmitidas a A y traducidas del japonés al
francés de manera opuesta.
Claims (59)
1. Sistema de difusión de informaciones vocales a
través de una red de telecomunicación (4), comprendiendo los
elementos siguientes:
- al menos un primer dispositivo (1) conectado a dicha red de telecomunicación y que comprenda medios (10) aptos para difundir mensajes en dicha red,
- al menos un segundo dispositivo (30) que permita establecer a través de dicha red de telecomunicación (4) una comunicación con dicho primer dispositivo (1), y esté provisto de medios de emisión acústicos que permitan escuchar señales de audio correspondientes a dichos mensajes difundidos por dicho primer dispositivo,
caracterizado porque dichos mensajes son
transmitidos a través de dicha red de telecomunicación de forma
codificada, incluyendo dicho código una representación semántica de
los mensajes, y porque dichos segundos dispositivos (30) están
conectados a dicha red de telecomunicación (4) a través de uno o
varios puntos de acceso a la red (2) distribuidos y que comprendan
medios de síntesis de voz (20) aptos para convertir dichos mensajes
codificados en señales de audio.
2. Sistema según la reivindicación precedente,
caracterizado porque dicho primer dispositivo (1) es una
plataforma para un sistema de teleservicio vocal automático.
3. Sistema según una de las reivindicaciones
precedentes, caracterizado porque comprende varios puntos de
acceso a la red (2) distribuidos geográficamente, y porque los
mensajes expedidos por dicho primer dispositivo (1) con destino a
uno de dichos segundos dispositivos (30) son transmitidos de forma
codificada hasta un punto de acceso a la red (2) próximo a dicho
segundo dispositivo, sintetizados en señales de audio en dicho punto
de acceso a la red (2), y transmitidos en forma de señales de audio
entre dicho punto de acceso a la red (2) y dicho segundo
dispositivo (30).
4. Sistema según una de las reivindicaciones
precedentes, caracterizado porque dicho al menos un segundo
dispositivo (30) está vinculado a dicho al menos un punto de acceso
a la red (2) a través de una red de acceso (3).
5. Sistema según una de las reivindicaciones
precedentes, caracterizado porque dicha red de
telecomunicación (4) es una red de transmisión de paquetes.
6. Sistema según una de las reivindicaciones
precedentes, caracterizado porque dicha red de
telecomunicación (4) es una red de tipo internet, y porque dicho al
menos un segundo dispositivo (30) es un terminal de internet.
7. Sistema según la reivindicación precedente,
caracterizado, porque dicha red es una red de transmisión de
paquetes, y porque varios mensajes pueden ser multiplexados en el
interior de cada paquete.
8. Sistema según una de las reivindicaciones
precedentes, caracterizado porque dichos puntos de acceso a
la red (2) comprenden medios de reconocimiento de voz (20) aptos
para convertir señales de audio procedentes de dicho al menos un
segundo dispositivo (30) en mensajes codificados incluyendo una
representación semántica de dichas señales, así como medios para
enviar dichos mensajes codificados por dicha red de
telecomunicación (4), y porque dicho al menos un primer dispositivo
(1) es apto para recibir dichos mensajes codificados.
9. Sistema según la reivindicación precedente,
caracterizado porque dicha plataforma para un sistema de
teleservicio vocal automático (1) permite diálogos interactivos y
es apta para analizar dichos mensajes codificados enviados por
dicho al menos un segundo dispositivo (30) y para difundir una
respuesta por dicha red de telecomunicación (4) en función de dichos
mensajes recibidos.
10. Sistema según una de las reivindicaciones
precedentes, caracterizado porque dichos medios para
difundir mensajes por dicha red comprenden medios de almacenamiento
(10) de dichos mensajes codificados incluyendo una representación
semántica, así como medios de lectura de dichos mensajes
almacenados.
11. Sistema según una de las reivindicaciones
precedentes, caracterizado porque dichos medios para
difundir mensajes por dicha red comprenden medios de almacenamiento
(10) de dichos mensajes en forma de señales de audio y medios de
lectura de dichos mensajes almacenados y de reconocimiento de voz
aptos para convertir dichas señales de audio en mensajes
codificados incluyendo una representación semántica.
12. Sistema según una de las reivindicaciones
precedentes, caracterizado porque dicha representación
semántica optimiza la longitud de mensajes codificados susceptibles
de ser transmitidos frecuentemente a través de dicha red.
13. Sistema según una de las reivindicaciones
precedentes, caracterizado porque dicho código incluye una
representación de la predicción semántica de los mensajes.
14. Sistema según una de las reivindicaciones
precedentes, caracterizado porque dichos mensajes
codificados incluyen informaciones caracterizadoras de la voz y/o
la prosodia.
15. Sistema según una de las reivindicaciones
precedentes, caracterizado porque dicho al menos un punto de
acceso a la red (2) comprende una memoria de tipo caché (22) que
memoriza los mensajes enviados por dicho primer dispositivo
(1).
16. Sistema según la reivindicación precedente,
caracterizado porque dicha memoria de tipo caché (22)
almacena los mensajes de forma codificada, incluyendo una
representación semántica.
17. Sistema según la reivindicación 15,
caracterizado porque dicha memoria de tipo caché (22)
almacena los mensajes de audio sintetizados a partir de dichos
mensajes codificados.
18. Sistema según una de las reivindicaciones
precedentes, caracterizado porque al menos ciertos medios de
síntesis de voz (20), aptos para convertir dichos mensajes
codificados en señales de audio, están integrados en un segundo
dispositivo (30).
19. Sistema según la reivindicación precedente,
caracterizado porque dichos medios de síntesis de voz están
implementados en forma de un módulo "plug-in"
para un buscador de internet.
20. Sistema según una de las reivindicaciones
precedentes, caracterizado porque dichos medios de síntesis
de voz (20), aptos para convertir dichos mensajes codificados
incluyendo una representación semántica en señales de audio, están
programados por medio de un módulo informático, y porque dicho
primer dispositivo (1) y dicho al menos un punto de acceso a la red
(2) comprenden medios complementarios y aptos para cooperar para
telecargar dicho módulo informático desde dicho primer dispositivo
(1) hacia dicho al menos un punto de acceso a la red (2).
21. Sistema según una de las reivindicaciones 3 a
20, caracterizado porque comprende varios puntos de acceso a
la red (2) distribuidos sobre varias regiones geográficas, y porque
el idioma de dichas señales de audio sintetizadas a partir de
dichos mensajes codificados por dichos medios de síntesis de voz
(20) depende del idioma predominante en el emplazamiento geográfico
de dicho punto de acceso (2).
22. Sistema según una de las reivindicaciones
precedentes, caracterizado porque el idioma de dichas
señales de audio sintetizadas a partir de dichos mensajes
codificados es determinado por el usuario de dicho al menos un
segundo dispositivo (30).
23. Plataforma para sistema de teleservicio vocal
automático (1) apto para ser conectado a una red de
telecomunicación (4) y comprendiendo medios para generar mensajes
vocales y difundirlos por dicha red de telecomunicación (4),
caracterizada porque dichos mensajes son difundidos por dicha
red de telecomunicación de forma codificada, incluyendo dicho
código una representación semántica de dichos mensajes.
24. Plataforma según la reivindicación
precedente, caracterizada porque dichos medios para difundir
mensajes por dicha red están constituidos por medios de
almacenamiento (10) de dichos mensajes codificados y por medios de
lectura de dichos mensajes almacenados.
25. Plataforma según la reivindicación 23,
caracterizada porque dichos medios para difundir mensajes
por dicha red comprenden medios de almacenamiento (10) de dichos
mensajes en forma de señales de audio y medios de lectura de dichos
mensajes almacenados y de reconocimiento de voz aptos para convertir
dichas señales de audio en mensajes codificados incluyendo una
representación semántica.
26. Plataforma según una de las reivindicaciones
23 a 25, caracterizada porque permite diálogos interactivos
y es apta para analizar mensajes codificados incluyendo una
representación semántica, recibidos a través de dicha red (4), y
para difundir una respuesta en función de dichos mensajes
recibidos.
27. Plataforma según una de las reivindicaciones
23 a 26, caracterizada porque dicha representación semántica
optimiza la longitud de mensajes codificados susceptibles de ser
transmitidos frecuentemente a través de dicha red.
28. Plataforma según una de las reivindicaciones
23 a 27, caracterizada porque dicho código incluye una
representación de la predicción semántica de los mensajes.
29. Plataforma según una de las reivindicaciones
23 a 28, caracterizada porque dichos mensajes codificados
incluyen informaciones caracterizadoras de la voz y/o la
prosodia.
30. Plataforma según una de las reivindicaciones
23 a 29, caracterizada porque es apta para ser conectada a
una red de telecomunicación (4) de transmisión de paquetes.
31. Plataforma según una de las reivindicaciones
23 a 30, caracterizada porque es apta para ser conectada a
una red de telecomunicación (4) de tipo internet.
32. Plataforma según una de las reivindicaciones
23 a 31, caracterizada porque comprende medios que permiten
teleexportar a través de dicha red de telecomunicación (4) un
módulo informático de síntesis de voz que permita convertir dichos
mensajes codificados, incluyendo una representación semántica, en
señales de audio.
33. Punto de acceso a la red (2) apto para ser
conectado a una red de telecomunicación de transmisión de paquetes
y comprendiendo medios para establecer una comunicación con otro
dispositivo (1) conectado a dicha red y para recibir mensajes,
concretamente mensajes vocales difundidos por dicho otro
dispositivo, caracterizado porque comprende medios de
síntesis de voz (20) aptos para convertir mensajes vocales
codificados incluyendo una representación semántica, difundidos por
dicho otro dispositivo (1), en señales de audio, así como medios
para enviar a través de una red de acceso (3) dichas señales de
audio hacia al menos un segundo dispositivo (30).
34. Punto de acceso a la red (2) según la
reivindicación precedente, caracterizado porque comprende
medios de reconocimiento de voz aptos para convertir señales de
audio recibidas de dicho al menos un segundo dispositivo (30) en
mensajes codificados incluyendo una representación semántica, así
como medios (21) para enviar dichos mensajes codificados en forma
semántica por dicha red de telecomunicación de transmisión de
paquetes (4).
35. Punto de acceso a la red (2) según una de las
reivindicaciones 33 ó 34, caracterizado porque dicha
representación semántica optimiza la longitud de mensajes
codificados susceptibles de ser transmitidos frecuentemente a través
de dicha red.
36. Punto de acceso a la red (2) según una de las
reivindicaciones 33 a 35, caracterizado porque dicho código
incluye una representación de la predicción semántica de los
mensajes.
37. Punto de acceso a la red (2) según una de las
reivindicaciones 33 a 36, caracterizado porque dichos
mensajes codificados incluyen informaciones caracterizadoras de la
voz y/o la prosodia.
38. Punto de acceso a la red (2) según una de las
reivindicaciones 33 a 37, caracterizado porque comprende una
memoria de tipo caché (22) para los mensajes recibidos.
39. Punto de acceso a la red (2) según la
reivindicación precedente, caracterizado porque dicha
memoria de tipo caché (22) almacena los mensajes de forma
codificada incluyendo una representación semántica.
40. Punto de acceso a la red (2) según la
reivindicación precedente, caracterizado porque dicha
memoria de tipo caché (22) almacena los mensajes de audio
sintetizados a partir de dichos mensajes codificados.
41. Punto de acceso a la red (2) según una de las
reivindicaciones 33 a 40, caracterizado porque comprende
medios para enviar señales de audio sintetizadas a partir de dichos
mensajes codificados o para recibir señales de audio que deban ser
codificadas en dicha red de telecomunicación.
42. Punto de acceso a la red (2) según una de las
reivindicaciones 33 a 41, caracterizado porque dicha red de
telecomunicación (4) es una red de tipo internet.
43. Punto de acceso a la red (2) según una de las
reivindicaciones 33 a 42, caracterizado porque comprende
medios que permitan elegir el idioma del contenido de dichas
señales de audio obtenidas a raíz de dicha conversión de los
mensajes codificados en forma semántica.
44. Procedimiento de comunicación entre una
plataforma para sistema de teleservicio vocal automático (1) y al
menos un segundo dispositivo (30) conectado a dicha plataforma a
través de un punto de acceso a la red (2) y de una red de
telecomunicación, caracterizado por las siguientes
etapas:
- dicho segundo dispositivo (30) solicita el establecimiento de una conexión a través de dicho punto de acceso a la red (2) con dicha plataforma (1),
- dicha conexión es establecida a través de dicha red de telecomunicación (4),
- dicha plataforma (1) difunde al menos un mensaje vocal codificado en forma semántica, que es transmitido a través de dicha red de telecomunicación (4) hacia dicho punto de acceso a la red (2),
- dicho punto de acceso a la red (2) convierte, gracias a medios de síntesis de voz (20), dichos mensajes codificados en corma semántica en señales de audio,
- dichas señales de audio son transferidas hacia dicho segundo dispositivo (30) donde pueden ser escuchadas por el usuario de dicho segundo dispositivo.
45. Procedimiento según la reivindicación
precedente, caracterizado porque comprende, además, al menos
una vez la sucesión de las siguientes operaciones:
- dicho segundo dispositivo (30) transmite al menos una señal de audio a dicho punto de acceso a la red (2),
- dicho punto de acceso a la red (2) convierte dicha o dichas señales de audio en mensaje codificado en forma semántica gracias a medios de reconocimiento de voz (20),
- dicho punto de acceso a la red (2) envía hacia dicha plataforma (1), a través de dicha red de telecomunicación (4), dicho o dichos mensajes codificados en forma semántica,
- dicha plataforma (1) recibe dicho o dichos mensajes codificados en forma semántica.
46. Procedimiento según la reivindicación
precedente, caracterizado porque comprende una etapa en el
curso de la cual dicha plataforma (1) analiza dichos mensajes
vocales codificados en forma semántica, enviados por dicho al menos
un segundo dispositivo (30), y determina una respuesta a enviar por
dicha red de telecomunicación (4) en función de dichos mensajes
recibidos.
47. Procedimiento según una de las
reivindicaciones 44 a 46, caracterizado porque dicha
codificación de mensaje en forma semántica optimiza la longitud de
mensajes codificados susceptibles de ser transmitidos frecuentemente
a través de dicha red.
48. Procedimiento según una de las
reivindicaciones 44 a 47, caracterizado porque dicho código
incluye una representación de la predicción semántica de los
mensajes.
49. Procedimiento según una de las
reivindicaciones 44 a 48, caracterizado porque dicha
codificación de mensaje en forma semántica utiliza informaciones
caracterizadoras de la voz y/o la prosodia.
50. Procedimiento según una de las
reivindicaciones 44 a 49, caracterizado porque los mensajes
recibidos de dicha plataforma (1) son almacenados en una memoria de
tipo caché (22).
51. Procedimiento según la reivindicación
precedente, caracterizado porque dicha memoria de tipo caché
(22) almacena los mensajes codificados en forma semántica.
52. Procedimiento según la reivindicación 50,
caracterizado porque dicha memoria de tipo caché (22)
almacena los mensajes descodificados en forma de señales de
audio.
53. Procedimiento según una de las
reivindicaciones 44 a 52, caracterizado porque dicha red de
telecomunicación (4) es una red de transmisión de paquetes.
54. Procedimiento según una de las
reivindicaciones 44 a 53, caracterizado porque dicha red de
telecomunicación (4) es una red de tipo internet.
55. Procedimiento según la reivindicación
precedente, caracterizado porque dicha red es una red de
transmisión de paquetes, y porque varios mensajes pueden ser
multiplexados en el interior de cada paquete.
56. Soporte de datos informáticos susceptible de
ser leído por un dispositivo programable conectado a una red
internet, caracterizado porque almacena un programa de
instrucciones ejecutable por dicho dispositivo para ejecutar las
operaciones efectuadas por dicho punto de acceso a la red en el
procedimiento según una de las reivindicaciones 44 a 55.
57. Soporte de datos informáticos susceptible de
ser leído por un dispositivo programable conectado a una red
internet, caracterizado porque almacena un programa de
instrucciones ejecutable por dicho dispositivo para ejecutar las
operaciones efectuadas por dicha plataforma para sistema de
teleservicio vocal automático (1) en el procedimiento según una de
las reivindicaciones 44 a 55.
58. Sistema de difusión de informaciones vocales
a través de una red de telecomunicación de transmisión de paquetes
(4), comprendiendo los siguientes elementos:
- medios (10) de difusión de mensajes por dicha red y de gestión de diálogo con el usuario,
- medios (20) de síntesis de voz,
caracterizado porque dichos medios de
difusión de mensajes por dicha red y de gestión de diálogo con el
usuario están centralizados en una plataforma para sistema de
teleservicio vocal automático (1), porque dichos medios de síntesis
de voz están distribuidos en una pluralidad de puntos de acceso a la
red (2) repartidos en dicha red (4), y porque dichos mensajes son
transmitidos entre dicha plataforma (1) y dichos puntos de acceso a
la red (2) de forma codificada, incluyendo dicho código una
representación semántica de los mensajes.
59. Sistema según la reivindicación precedente,
caracterizado porque el usuario puede escuchar dichos
mensajes estableciendo una conexión con uno de dichos puntos de
acceso a la red a través de una red de telecomunicación (3).
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/CH1997/000246 WO1998059486A1 (fr) | 1997-06-20 | 1997-06-20 | Systeme et procede de codage et de diffusion d'informations vocales |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2208908T3 true ES2208908T3 (es) | 2004-06-16 |
Family
ID=4550883
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES97925810T Expired - Lifetime ES2208908T3 (es) | 1997-06-20 | 1997-06-20 | Sistema y procedimiento para la codificacion y la difusion de informaciones vocales. |
Country Status (9)
| Country | Link |
|---|---|
| US (1) | US6678659B1 (es) |
| EP (1) | EP0993730B1 (es) |
| JP (1) | JP2002511989A (es) |
| AT (1) | ATE252801T1 (es) |
| AU (1) | AU3086497A (es) |
| CA (1) | CA2294442C (es) |
| DE (1) | DE69725761T2 (es) |
| ES (1) | ES2208908T3 (es) |
| WO (1) | WO1998059486A1 (es) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018111066A1 (es) * | 2016-12-15 | 2018-06-21 | Pacheco Navarro Diana | Método para la generación de objetos de aprendizaje temporizados (oat) de acuerdo a los temas de interés de los estudiantes |
Families Citing this family (47)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6236395B1 (en) * | 1999-02-01 | 2001-05-22 | Sharp Laboratories Of America, Inc. | Audiovisual information management system |
| US7181691B2 (en) * | 1999-09-16 | 2007-02-20 | Sharp Laboratories Of America, Inc. | Audiovisual information management system with presentation service |
| US7308462B1 (en) * | 1999-10-29 | 2007-12-11 | Nortel Networks Limited | Methods and systems for building and distributing audio packages |
| EP1279165B1 (en) * | 2000-03-24 | 2011-01-05 | Eliza Corporation | Speech recognition |
| US6687846B1 (en) | 2000-03-30 | 2004-02-03 | Intel Corporation | System and method for error handling and recovery |
| DK1269714T3 (da) * | 2000-03-30 | 2007-01-08 | Intel Corp | Fremgangsmåde og apparat til fordelt midlertidig lagring |
| JP3810268B2 (ja) * | 2000-04-07 | 2006-08-16 | シャープ株式会社 | オーディオビジュアルシステム |
| US6810379B1 (en) * | 2000-04-24 | 2004-10-26 | Sensory, Inc. | Client/server architecture for text-to-speech synthesis |
| US8028314B1 (en) * | 2000-05-26 | 2011-09-27 | Sharp Laboratories Of America, Inc. | Audiovisual information management system |
| US7647340B2 (en) | 2000-06-28 | 2010-01-12 | Sharp Laboratories Of America, Inc. | Metadata in JPEG 2000 file format |
| US7318107B1 (en) | 2000-06-30 | 2008-01-08 | Intel Corporation | System and method for automatic stream fail-over |
| US7020709B1 (en) | 2000-06-30 | 2006-03-28 | Intel Corporation | System and method for fault tolerant stream splitting |
| US8020183B2 (en) * | 2000-09-14 | 2011-09-13 | Sharp Laboratories Of America, Inc. | Audiovisual management system |
| WO2002037813A1 (en) * | 2000-10-31 | 2002-05-10 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for announcing messages to phone users in a telecommunications network |
| US6651141B2 (en) | 2000-12-29 | 2003-11-18 | Intel Corporation | System and method for populating cache servers with popular media contents |
| JP2002244688A (ja) * | 2001-02-15 | 2002-08-30 | Sony Computer Entertainment Inc | 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム |
| US20030061610A1 (en) * | 2001-03-27 | 2003-03-27 | Errico James H. | Audiovisual management system |
| US7904814B2 (en) * | 2001-04-19 | 2011-03-08 | Sharp Laboratories Of America, Inc. | System for presenting audio-video content |
| US20030121040A1 (en) * | 2001-07-02 | 2003-06-26 | Ferman A. Mufit | Audiovisual management system |
| US7483834B2 (en) * | 2001-07-18 | 2009-01-27 | Panasonic Corporation | Method and apparatus for audio navigation of an information appliance |
| US7043432B2 (en) * | 2001-08-29 | 2006-05-09 | International Business Machines Corporation | Method and system for text-to-speech caching |
| US7474698B2 (en) * | 2001-10-19 | 2009-01-06 | Sharp Laboratories Of America, Inc. | Identification of replay segments |
| WO2003038665A1 (en) * | 2001-10-31 | 2003-05-08 | Net-Release Pty Ltd | A system and method of disseminating recorded audio information |
| US20060069567A1 (en) * | 2001-12-10 | 2006-03-30 | Tischer Steven N | Methods, systems, and products for translating text to speech |
| US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
| US9167036B2 (en) * | 2002-02-14 | 2015-10-20 | Level 3 Communications, Llc | Managed object replication and delivery |
| US8214741B2 (en) * | 2002-03-19 | 2012-07-03 | Sharp Laboratories Of America, Inc. | Synchronization of video and data |
| US7843899B2 (en) * | 2002-09-20 | 2010-11-30 | Avaya Inc. | Apparatus and method for providing call status information |
| US9054910B1 (en) | 2002-09-20 | 2015-06-09 | Avaya Inc. | Apparatus and method for providing status information telecommunication |
| US9197449B1 (en) * | 2002-09-20 | 2015-11-24 | Avaya Inc. | Apparatus and method for providing enhanced telecommunication terminal status information |
| US7657907B2 (en) * | 2002-09-30 | 2010-02-02 | Sharp Laboratories Of America, Inc. | Automatic user profiling |
| US7006945B2 (en) | 2003-01-10 | 2006-02-28 | Sharp Laboratories Of America, Inc. | Processing of video content |
| US20040197088A1 (en) * | 2003-03-31 | 2004-10-07 | Ferman Ahmet Mufit | System for presenting audio-video content |
| US7594245B2 (en) * | 2004-03-04 | 2009-09-22 | Sharp Laboratories Of America, Inc. | Networked video devices |
| US8949899B2 (en) * | 2005-03-04 | 2015-02-03 | Sharp Laboratories Of America, Inc. | Collaborative recommendation system |
| US8356317B2 (en) | 2004-03-04 | 2013-01-15 | Sharp Laboratories Of America, Inc. | Presence based technology |
| US20050267757A1 (en) * | 2004-05-27 | 2005-12-01 | Nokia Corporation | Handling of acronyms and digits in a speech recognition and text-to-speech engine |
| JP4553850B2 (ja) * | 2006-01-30 | 2010-09-29 | 日本電信電話株式会社 | 時報ガイダンス提供システム |
| US8689253B2 (en) * | 2006-03-03 | 2014-04-01 | Sharp Laboratories Of America, Inc. | Method and system for configuring media-playing sets |
| US9762692B2 (en) | 2008-04-04 | 2017-09-12 | Level 3 Communications, Llc | Handling long-tail content in a content delivery network (CDN) |
| US10924573B2 (en) | 2008-04-04 | 2021-02-16 | Level 3 Communications, Llc | Handling long-tail content in a content delivery network (CDN) |
| WO2009123868A2 (en) | 2008-04-04 | 2009-10-08 | Level 3 Communications, Llc | Handling long-tail content in a content delivery network (cdn) |
| TWI399739B (zh) * | 2009-11-13 | 2013-06-21 | Ind Tech Res Inst | 語音留言與傳達之系統與方法 |
| US8661515B2 (en) * | 2010-05-10 | 2014-02-25 | Intel Corporation | Audible authentication for wireless network enrollment |
| US9319263B2 (en) | 2011-01-10 | 2016-04-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Caching of announcements at the edge of a packet switched telecommunication network |
| US8942974B1 (en) * | 2011-03-04 | 2015-01-27 | Amazon Technologies, Inc. | Method and system for determining device settings at device initialization |
| CN116645971A (zh) * | 2023-05-08 | 2023-08-25 | 南京航空航天大学 | 一种基于深度学习的语义通信文本传输优化方法 |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB2165969B (en) | 1984-10-19 | 1988-07-06 | British Telecomm | Dialogue system |
| WO1988005239A1 (en) | 1986-12-31 | 1988-07-14 | M.A. Kempner, Inc. | Improved polling system |
| GB2249701A (en) | 1990-11-09 | 1992-05-13 | British Telecomm | Telephone interface has digital speech processing |
| US5179585A (en) * | 1991-01-16 | 1993-01-12 | Octel Communications Corporation | Integrated voice messaging/voice response system |
| US5150410A (en) | 1991-04-11 | 1992-09-22 | Itt Corporation | Secure digital conferencing system |
| EP0559981A3 (en) | 1992-03-11 | 1994-07-20 | Intervoice Inc | Fully digital voice response system |
| JP3745365B2 (ja) | 1992-06-15 | 2006-02-15 | ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | サービスプラットフォーム |
| US6249809B1 (en) * | 1993-08-30 | 2001-06-19 | William L. Bro | Automated and interactive telecommunications system |
| AU705525B2 (en) | 1994-12-02 | 1999-05-27 | Voice Control Systems, Inc. | Intelligent call processing platform for home telephone system |
| US6215858B1 (en) * | 1994-12-05 | 2001-04-10 | Bell Atlantic Network Services, Inc. | Analog terminal internet access |
| US6073101A (en) * | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
| US6081780A (en) * | 1998-04-28 | 2000-06-27 | International Business Machines Corporation | TTS and prosody based authoring system |
| US6246672B1 (en) * | 1998-04-28 | 2001-06-12 | International Business Machines Corp. | Singlecast interactive radio system |
| US6320946B1 (en) * | 1999-12-23 | 2001-11-20 | Bellsouth Intellectual Property Corporation | Information payphone |
-
1997
- 1997-06-20 CA CA002294442A patent/CA2294442C/fr not_active Expired - Fee Related
- 1997-06-20 EP EP97925810A patent/EP0993730B1/fr not_active Expired - Lifetime
- 1997-06-20 ES ES97925810T patent/ES2208908T3/es not_active Expired - Lifetime
- 1997-06-20 US US09/446,362 patent/US6678659B1/en not_active Expired - Lifetime
- 1997-06-20 WO PCT/CH1997/000246 patent/WO1998059486A1/fr not_active Ceased
- 1997-06-20 AU AU30864/97A patent/AU3086497A/en not_active Abandoned
- 1997-06-20 JP JP50347499A patent/JP2002511989A/ja active Pending
- 1997-06-20 DE DE69725761T patent/DE69725761T2/de not_active Expired - Lifetime
- 1997-06-20 AT AT97925810T patent/ATE252801T1/de active
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018111066A1 (es) * | 2016-12-15 | 2018-06-21 | Pacheco Navarro Diana | Método para la generación de objetos de aprendizaje temporizados (oat) de acuerdo a los temas de interés de los estudiantes |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2002511989A (ja) | 2002-04-16 |
| ATE252801T1 (de) | 2003-11-15 |
| EP0993730B1 (fr) | 2003-10-22 |
| CA2294442C (fr) | 2005-02-22 |
| DE69725761T2 (de) | 2004-08-05 |
| AU3086497A (en) | 1999-01-04 |
| US6678659B1 (en) | 2004-01-13 |
| WO1998059486A1 (fr) | 1998-12-30 |
| DE69725761D1 (de) | 2003-11-27 |
| EP0993730A1 (fr) | 2000-04-19 |
| CA2294442A1 (fr) | 1998-12-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2208908T3 (es) | Sistema y procedimiento para la codificacion y la difusion de informaciones vocales. | |
| US8229091B2 (en) | Interactive voice response to short message service text messenger | |
| US5029200A (en) | Voice message system using synthetic speech | |
| US7251314B2 (en) | Voice message transfer between a sender and a receiver | |
| US7103548B2 (en) | Audio-form presentation of text messages | |
| US9214154B2 (en) | Personalized text-to-speech services | |
| US20020191757A1 (en) | Audio-form presentation of text messages | |
| US20010043592A1 (en) | Methods and apparatus for prefetching an audio signal using an audio web retrieval telephone system | |
| CA2242065A1 (en) | Unified messaging system with automatic language identification for text-to-speech conversion | |
| RU2005132634A (ru) | Устройство, система и способ звуковой связи с возможностью бесшумного выбора и передачи звуковых сообщений | |
| US7840987B2 (en) | Television messaging vocal response generation | |
| EP1411736B1 (en) | System and method for converting text messages prepared with a mobile equipment into voice messages | |
| KR20020028501A (ko) | 통신망에서의 음성 데이터와 문자 데이터간의 변환 방법및 그 장치 | |
| KR100325986B1 (ko) | 전화를 이용한 멀티미디어 카드 송수신 방법 및 장치 | |
| US20040234047A1 (en) | Interactive telephony interface | |
| JP2005151553A (ja) | ボイス・ポータル | |
| US6501751B1 (en) | Voice communication with simulated speech data | |
| US7756255B1 (en) | Method and system for delivering a voice message from a telephone to a group of recipients | |
| KR20040075477A (ko) | 사용자 정보를 제공하는 음성과 배경 음악이 합성된링백톤의 발생 방법 및 그 시스템 | |
| KR200313671Y1 (ko) | 사용자 정보를 제공하는 음성과 배경 음악이 합성된링백톤의 발생 시스템 | |
| ES2331624T3 (es) | Procedimiento y equipo terminal de comunicaciones para transmitir mensajes de voz. | |
| US12363057B1 (en) | System and method for processing of speech content in email messages | |
| WO2004105369A1 (en) | Vocal assistant to provide predefined text messages to a call using text-to-speech converter | |
| KR20020072359A (ko) | 음성인식을 이용한 무인 자동 전화교환 및 웹메일링시스템 및 방법 | |
| KR20050118764A (ko) | 유무선 전화 통화 연결음을 이용한 광고 방법 및 시스템 |