ES2208908T3 - Sistema y procedimiento para la codificacion y la difusion de informaciones vocales. - Google Patents

Sistema y procedimiento para la codificacion y la difusion de informaciones vocales.

Info

Publication number
ES2208908T3
ES2208908T3 ES97925810T ES97925810T ES2208908T3 ES 2208908 T3 ES2208908 T3 ES 2208908T3 ES 97925810 T ES97925810 T ES 97925810T ES 97925810 T ES97925810 T ES 97925810T ES 2208908 T3 ES2208908 T3 ES 2208908T3
Authority
ES
Spain
Prior art keywords
messages
network
platform
access point
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES97925810T
Other languages
English (en)
Inventor
Robert Van Kommer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Swisscom Fixnet AG
Original Assignee
Swisscom Fixnet AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Swisscom Fixnet AG filed Critical Swisscom Fixnet AG
Application granted granted Critical
Publication of ES2208908T3 publication Critical patent/ES2208908T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/4872Non-interactive information services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M15/00Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2061Language aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/45Aspects of automatic or semi-automatic exchanges related to voicemail messaging
    • H04M2203/4581Sending message identifiers instead of whole messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/533Voice mail systems
    • H04M3/53316Messaging centre selected by message originator
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/12Arrangements for interconnection between switching centres for working between exchanges having different types of switching equipment, e.g. power-driven and step by step or decimal and non-decimal

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

La invención se refiere a un sistema para emitir datos de voz a través de una red de telecomunicación de conmutación de paquetes, a partir de al menos una plataforma para un sistema de teleservicio de voz automático (1). Los mensajes emitidos por la plataforma, por ejemplo predicciones meteorológicas, pueden ser oídos desde una serie de terminales, por ejemplo teléfonos (30). Los mensajes se transmiten a través de la red de telecomunicación en forma codificada, el código incluye una representación semántica de los mensajes, que luego se convierte en señales de audio en el punto de acceso (2) a la red de telecomunicación de transmisión de paquetes. La conversión, por ejemplo, se lleva a cabo por medio de un módulo de síntesis de voz, tal como un módulo TTS (texto a voz). Los puntos de acceso a la red (2) están geográficamente distribuidos y generalmente se puede llegar a ellos mediante una llamada de tarifa local. La red de telecomunicación de transmisión de paquetes es por ejemplo una redATM o Internet. El sistema está adaptado también para sistemas de teleservicio interactivos (IVR, sistemas de respuesta de voz interactivos).

Description

Sistema y procedimiento para la codificación y la difusión de informaciones vocales.
La presente invención se refiere a un sistema y un procedimiento para la difusión de informaciones vocales. Más particularmente, la presente invención se refiere a un sistema y un procedimiento de teleservicios vocales, que permitan a un usuario acceder, por medio de un teléfono o de cualquier otro tipo de dispositivo provisto de medios de emisión acústicos, a informaciones difundidas por una plataforma centralizada en una red de telecomunicación.
A pesar del auge de otros sistemas de difusión automática de informaciones, por ejemplo internet o teletexto, la oferta de teleservicios vocales tiende a desarrollarse. Estos servicios pueden en efecto ser utilizados sin necesidad de equipos particulares, aparte de un conjunto telefónico, y pueden por tanto ser fácilmente consultados desde cualquier lugar, por ejemplo mediante un teléfono móvil. Además, el acceso a la información es posible sin conocimientos técnicos particulares. Ejemplos de teleservicios vocales populares comprenden, por ejemplo, el reloj parlante, la difusión de previsiones meteorológicas, de resultados deportivos, de cursos de la bolsa, etc.
Las informaciones difundidas están generalmente memorizadas en forma numérica o grabadas sobre un soporte de grabación de audio en una plataforma centralizada y vinculada a la red telefónica. El usuario toma la iniciativa de consultar estas informaciones marcando en su conjunto telefónico el número de teléfono de la plataforma. Entonces se establece una conexión telefónica ordinaria entre la plataforma centralizada y el usuario, y a través de esta conexión se efectúa un diálogo vocal. La conexión es bidireccional, incluso aunque la información sea difundida en una sola dirección (ello es típicamente el caso en un servicio de reloj parlante) o mayoritariamente en una dirección (por ejemplo en los sistemas en que las únicas respuestas requeridas del usuario se limiten a la introducción de una contraseña o de respuestas breves del tipo si - no). La carga ocasionada en la red de telecomunicación es pues desmesurada en relación con el volumen efectivo de informaciones útiles transmitido.
Los progresos observados en los últimos años en el campo del tratamiento de la voz, particularmente de la síntesis de voz (sistemas TTS – "text-to-speech"), del análisis de: voz y del reconocimiento vocal de una persona, abren ampliamente la puerta a nuevos sistemas de teleservicios vocales, que amplíen las posibilidades ofrecidas por los sistemas convencionales. El campo de aplicación de estas nuevas tecnologías no está ya limitado a servicios de difusión unidireccional de información (como el reloj parlante), sino que concierne también a servicios de información interactivos, que ofrezcan posibilidades de diálogo entre la persona llamante y la plataforma de teleservicio vocal. Estos sistemas interactivos son generalmente conocidos bajo las siglas anglófonas IVR (Interactif Voice Response Systems) y se aplican concretamente para servicios de telebanking. Se conocen por ejemplo ya sistemas que ofrecen al usuario la posibilidad de elegir, por medio de órdenes vocales, las informaciones que desee escuchar, incluso de modificar estas informaciones o de iniciar el lanzamiento de programas de aplicaciones ejecutadas por la plataforma de teleservicio vocal. A título de ejemplo, el documento de Patente WO88/05239 describe un sistema que permite efectuar sondeos o votaciones de manera automática. En la WO93/26113 se describe otro sistema de mensajería vocal ampliamente automatizado.
Los sistemas de teleservicio vocal son generalmente operados por medio de una plataforma centralizada, por razones evidentes de puesta al día de las informaciones y de coste. La longitud de la conexión telefónica establecida depende pues de la distancia entre el punto de llamada del usuario y el emplazamiento de la plataforma. El atractivo de un teleservicio vocal disminuye no obstante fuertemente para los abonados que no puedan llamarlo con tarifa local. Por consiguiente, en numerosos casos el gestor de la red de telecomunicación propone una tarifa de llamada única para un teleservicio dado, que penaliza a los abonados más próximos y es deficitario para las llamadas de abonados domiciliados más lejos.
El documento de Patente EP-A2-0559981 describe un sistema de teleservicio vocal interactivo en el cual el usuario está conectado a la plataforma centralizada por medio de una conexión enteramente numérica. La finalidad de este sistema es esencialmente limitar el número de conversiones analógicas-numéricas y numéricas-analógicas entre el usuario y la plataforma de teleservicio vocal. Sin embargo, los problemas arriba citados no quedan resueltos por este sistema.
Una finalidad de la presente invención consiste pues en proponer un sistema de teleservicio vocal mejorado. Más particularmente, una finalidad de la presente invención consiste en proponer un servicio de teleservicio vocal que ocasione una carga menor de la red de telecomunicación.
Estas finalidades se consiguen particularmente por medio de los elementos de las partes características de las reivindicaciones independientes, indicándose en las reivindicaciones dependientes formas de realización preferentes.
La invención parte de la constatación de que, en el estado de la técnica, los mensajes de voz intercambiado: concretamente las informaciones vocales difundidas por la plataforma al llamante, precisan un ancho de banda mucho más importante que el mínimo requerido para transmitir únicamente el contenido semántico de la información transmitida.
Las finalidades de la invención se consiguen pues transmitiendo, en lugar de señales de audio analógicas o numéricas (fonéticas), mensajes vocales conteniendo únicamente una información sobre la semántica de estas señales.
En el caso de un sistema numérico, la transmisión de miles de muestras de voz sucesivas, codificadas por ejemplo en 8 bits, es pues reemplazada por la transmisión de algunos caracteres, por ejemplo de algunos códigos ASCII correspondientes a la representación en modo texto o seudotexto del contenido semántico de los mensajes.
La relación de compresión así obtenida, y por tanto la carga de la red, es muy elevada, típicamente del orden de 1:500, por ejemplo, según los mensajes y el tipo de aplicación. La conversión del mensaje semántico en señal de audio es efectuada preferentemente por un punto de acceso a la red en la proximidad del usuario, de manera que una señal de audio con gran ancho de banda sea transmitida únicamente entre el punto de acceso a la red y el usuario, es decir en una fracción de la distancia total que separa el usuario de la plataforma de teleservicio.
En vista del caudal de información muy reducido obtenido gracias al procedimiento de la invención, y de la naturaleza irregular de este caudal, concretamente en el caso de sistemas interactivos, los mensajes codificados en forma semántica son ventajosamente transmitidos en forma de paquetes entre la plataforma centralizada y el o los puntos de acceso a la red. Ventajosamente, la red de telecomunicación que une la plataforma centralizada con los puntos de acceso a la red está pues constituida por una red de transmisión de paquetes, por ejemplo una red con protocolo ATM y/o internet (TCP/IP). En este último caso, los puntos de acceso a la red pueden ventajosamente estar constituidos por POPs (Points of Presence) distribuidos de la red internet.
El usuario que desee recurrir a un sistema de teleservicio vocal, por ejemplo escuchar las previsiones meteorológicas, llamará por medio de su teléfono al POP más próximo. Esta comunicación puede generalmente ser establecida con tarifa local. El POP contacta entonces con la plataforma centralizada que gestiona el sistema de teleservicio vocal automático, la cual le transmite un mensaje codificado incluyendo una representación semántica que contenga las informaciones requeridas, por ejemplo un fichero de texto anunciando las previsiones meteorológicas para la región en cuestión. Este fichero de texto es convertido en señal de audio (analógica o numérica) por medio de un dispositivo de síntesis de voz en el POP (dispositivo TTS, "Text-To-Speech"), y la señal de audio obtenida es transmitida al usuario, el cual puede así escucharla.
Una conexión telefónica ordinaria es únicamente requerida entre el usuario y el punto de acceso a la red (POP). En vista de la fuerte concentración de puntos de acceso a la red internet, esta conexión puede muy frecuentemente ser establecida beneficiándose de la tarifa local. Entre el POP y la plataforma, la conexión es ventajosamente de tipo internet, y su costo no depende pues de la distancia. Además, el volumen de informaciones intercambiado entre el POP y la plataforma resulta muy fuertemente reducido gracias a la conversión en forma semántica de los mensajes vocales.
En el caso en que se precise un tiempo de respuesta corto, por ejemplo en caso de comunicación interactiva, la paquetización de los mensajes por internet puede causar un retardo tanto más grande cuanto más importante sea la compresión. En efecto, un paquetizador no expide generalmente más que paquetes completos. Una solución que permita reducir la demora consiste en insertar octetos de relleno después del mensaje útil, permitiendo rellenar los paquetes y transmitirlos pues inmediatamente. Una solución preferente consiste en multiplexar varios mensajes en el interior de cada paquete, y luego en desmultiplexarlos en el interior de la red de telecomunicación.
Ventajosamente, los puntos de acceso a la red distribuidos contienen una memoria de tipo caché que memoriza temporalmente los mensajes transmitidos desde la plataforma centralizada. Por consiguiente, una conexión con la plataforma no resulta así precisa en cada consulta por un usuario, lo cual contribuye a reducir aún más la carga a través de la red de telecomunicación. La memoria de tipo caché puede ya sea memorizar los mensajes codificados en forma semántica, lo cual permite reducir considerablemente el tamaño de memoria requerida, o bien las señales de audio sintetizadas para limitar el número de conversiones necesarias.
La invención resultará mejor comprensible con ayuda de la siguiente descripción, dada a título de ejemplo no limitativo e ilustrada por la única figura del dibujo adjunto, que muestra de forma esquemática un sistema completo de difusión de informaciones vocales a través de una red de telecomunicación.
La descripción se refiere principalmente a una aplicación de la invención a un sistema de teleservicio vocal, por ejemplo un servicio de difusión de previsiones meteorológicas accesible por teléfono. Sin embargo, es importante apreciar que la invención puede también aplicarse a cualquier tipo de sistema de difusión de informaciones vocales monodireccional, bidireccional o interactivo.
En la Fig. 1 del dibujo adjunto el número de referencia 1 designa una plataforma centralizada para un sistema de teleservicio vocal. La plataforma 1 suministra la información requerida y, en el caso de un sistema de teleservicio interactivo, gestiona el diálogo con el usuario. La plataforma 1 contiene preferentemente una memoria 10 que memoriza la información que deba ser difundida. Únicamente el contenido semántico de la información es memorizado, por ejemplo en forma de fichero de texto, de seudotexto o en cualquier formato apropiado. En este fichero están preferentemente incluidos marcadores prosódicos, u otros tipos de informaciones que permitan mejorar la calidad de la voz sintetizada a partir de esta información. De acuerdo con otra forma de realización, la memoria 10 contiene datos de audio, grabados por ejemplo sobre una banda magnética o sobre cualquier tipo de soporte analógico o numérico apropiado, que son convertidos en cada lectura, por medios de análisis de voz, en datos codificados que incluyan una representación semántica. De acuerdo con una tercera forma de realización, la información difundida por la plataforma 1 no está preparada de antemano, sino que es generada por un sistema de síntesis de mensajes en función, por ejemplo, de las respuestas suministradas por el usuario en el caso de un teleservicio interactivo IVR.
La plataforma 1 contiene además, preferentemente, medios de análisis de voz que permitan analizar las respuestas del usuario en el caso de un sistema interactivo. La plataforma 1 puede además comprender medios de tratamiento aptos para ejecutar. cualquier tipo de aplicación apropiada según el tipo de teleservicio y las órdenes dadas por el usuario, por ejemplo cargar una cuenta bancaria en el caso de un servicio de telebanking interactivo, o grabar una respuesta del usuario. Los medios de gestión de diálogo, de análisis de voz, de generación de mensajes y de tratamiento están preferentemente implementados en forma de módulos informáticos susceptibles de ser ejecutados por medios de tratamiento 12. Estos módulos o programas pueden por ejemplo ser almacenados en un soporte de datos informático, tal como disco duro, disquete o CD--ROM, por ejemplo, susceptible de ser leído y ejecutado por un dispositivo programable integrante de la plataforma 1. La plataforma 1 contiene, además, un interfase 11 que permite conectarla a la red de telecomunicación 4, en este caso una red de transmisión de paquetes de tipo internet. La plataforma 1 constituye por tanto, en este ejemplo, un servidor de información de internet.
El sistema según la invención comprende, además, una pluralidad de puntos de acceso a la red distribuidos 2. Unicamente dos puntos de acceso a la red 2 están representados en la Fig. 1; el número de puntos de acceso a la red puede no obstante ser uno cualquiera y depende principalmente del tamaño de la red de telecomunicación 4. En este ejemplo los puntos de acceso a la red están constituidos por puntos de presencia POP en la red internet. Los puntos de acceso a la red 2 comprenden, en general, un interfase 21 que les permita ser conectados a la red 4, medios de tratamiento 20, así como una memoria caché 22 cuya función se describirá más adelante. Los puntos de acceso a la red 2 comprenden, además, medios de interfase no ilustrados, por ejemplo medios de tipo módem, con una red de acceso 3, por ejemplo con una red de telefonía fija o móvil convencional o con una red RNIS o CATV.
Los medios de tratamiento 20 comprenden medios de síntesis de voz, implementados, por ejemplo, en forma de un módulo informático ejecutable por un procesador universal. Los medios de síntesis de voz permiten convertir los mensajes vocales codificados en forma semántica en señales de audio fonéticas. Diferentes algoritmos y programas comerciales, designados en general con el nombre de algoritmos TTS (Text-To-Speech), son conocidos a tal fin en el estado de la técnica. Es evidente que el algoritmo de síntesis de voz utilizado debe ser compatible con la codificación semántica adoptada por la plataforma centralizada 1, y ser por ejemplo apto, en su caso, para reconocer marcadores prosódicos, u otras informaciones de caracterización de la voz, insertados en el fichero de texto. Ventajosamente, el algoritmo de síntesis de voz puede pues ser telecargado desde la plataforma centralizada 1 a través de la red internet. Resulta así posible actualizar fácilmente todos los puntos de acceso 2 cuando se producen modificaciones del algoritmo de codificación semántica utilizado por la plataforma 1.
El punto de acceso a la red 2 está ventajosamente constituido por un ordenador, por ejemplo por un ordenador polivalente o por un servidor de comunicación especializado, que ejecute un programa informático apropiado, memorizado en un soporte de datos informáticos adecuado.
La memoria caché 22, que puede ser gestionada por cualquier algoritmo conocido, memoriza temporalmente los mensajes vocales transmitidos desde la plataforma centralizada 1 a través de la red 4. La memoria de tipo caché puede ya sea memorizar la representación semántica de los mensajes codificados, lo cual permite reducir considerablemente el tamaño de memoria requerido, o bien las señales de audio sintetizadas para limitar el número de conversiones necesarias. La memoria caché puede, por ejemplo, ser actualizada en intervalos regulares, por ejemplo 4 veces al día en el caso de un teleservicio de informaciones meteorológicas, o después de un número predefinido de consultas por los usuarios, o únicamente cuando se produzca una consulta por el usuario, si se constata que los datos en la memoria caché son demasiado antiguos para ser fiables.
El procedimiento según la invención, ejecutado por el dispositivo de la Fig. 1, será explicado a continuación con ayuda de un ejemplo sencillo de teleservicio que difunda informaciones meteorológicas. Queda bien entendido que se trata de una aplicación dada a título de ejemplo no limitativo, que permita comprender fácilmente el procedimiento de la invención, pero que la invención puede aplicarse igualmente a todo tipo de sistema de difusión de informaciones vocales.
El usuario que desee escuchar las previsiones meteorológicas por medio de un sistema de teleservicio según la invención marcará en su terminal 30 el número de llamada del servicio en cuestión, en Suiza por ejemplo el número 162. Se establece entonces una comunicación a través de la red de acceso convencional 3 con el punto de acceso a la red 2 más próximo, por ejemplo con el proveedor de acceso a internet más próximo. Según la densidad de puntos de acceso a la red 2, esta conexión puede establecerse con tarifa local, y por tanto con un coste muy módico. El usuario y el proveedor del teleservicio evitan así tenerse que compartir el costo de una comunicación telefónica entre el terminal 30 y el dispositivo 1, generalmente más alejado.
Después del establecimiento de la comunicación, los medios de tratamiento 20 en el punto de acceso a la red 2 verifican si las informaciones requeridas, en este caso las previsiones meteorológicas, están contenidas en la memoria caché 22. Si ello es el caso, y si los datos memorizados son fiables, el contenido de la memoria caché es leído y estas informaciones pueden ser escuchadas por el usuario. Si la memoria caché 22 contiene informaciones ya sintetizadas en forma de señal sonora, esta señal puede ser directamente emitida, por medio del interfase no ilustrado con la red de acceso 3, y escuchada por medio del altavoz en el dispositivo 30. Si por el contrario la memoria caché 22 contiene únicamente la representación semántica de los mensajes codificados, por ejemplo un fichero de texto con eventualmente marcadores prosódicos, este fichero es convertido por los medios de tratamiento 20 en una señal de audio mediante un módulo de síntesis de voz TTS, y luego transmitido al dispositivo 30.
Cuando la memoria caché 22 no contiene las informaciones actualizadas requeridas por el usuario, o si el dispositivo 2 no comprende una memoria caché, el punto de acceso a la red envía una requisición a la plataforma 1 a través de la red de transmisión de paquetes 4. En el caso de una red internet, esta requisición puede estar por ejemplo constituida por un mensaje de internet dirigido a la plataforma 1.
En el caso de un teleservicio monodireccional, es decir de un teleservicio en el cual la información circule únicamente desde la plataforma 1 hacia el usuario, la plataforma 1 generará la información requerida y la enviará al punto de acceso 2 elegido en forma de un mensaje vocal codificado incluyendo una representación semántica de la información. El mensaje vocal enviado por la plataforma 1 puede estar constituido, en este ejemplo, por un simple fichero en modo texto o seudotexto indicando las previsiones meteorológicas solicitadas. Sin embargo, dentro del ámbito de la presente invención puede utilizarse cualquier otro tipo de codificación semántica, por ejemplo una codificación con un alfabeto fonético, o una codificación que utilice marcadores prosódicos.
El volumen de información transmitido es muy reducido, debido a la codificación semántica, y puede por tanto ser transmitido muy rápidamente a través de la red de telecomunicación 4. El punto de acceso a la red 2 convierte entonces el mensaje codificado en forma semántica en señal de audio gracias a los citados medios de síntesis de voz, y transmite, como arriba indicado, esta señal de audio al usuario a través de la red de acceso 3. El usuario puede entonces escuchar esta señal de audio por medio del altavoz del dispositivo 30.
En el caso de un teleservicio bidireccional, por ejemplo de un teleservicio interactivo que permita al usuario influenciar el funcionamiento de la plataforma 1, la plataforma 1 puede enviar una pregunta al usuario, por ejemplo solicitarle qué informaciones desea exactamente escuchar. Así por ejemplo, la plataforma 1 puede enviar un mensaje vocal al usuario 1 solicitándole el nombre de la región a la que debe referirse el boletín meteorológico. Este mensaje vocal es transmitido en forma semántica hacia la plataforma 2, y luego convertido de la manera indicada en una señal de audio que puede ser escuchada por el usuario del terminal 30. El usuario puede entonces responder, ya sea mediante el teclado del dispositivo 30 ó bien preferentemente de forma vocal.
En el caso de una respuesta vocal, el punto de acceso a la red 2 convierte, gracias a medios de análisis de voz realizados en forma de un módulo informático ejecutable por los medios de tratamiento 20, esta respuesta en un mensaje codificado en forma semántica, y transmite esta respuesta a la plataforma 1. Los medios de tratamiento adoptan entonces un comportamiento dependiente de la respuesta, y ejecutan un procedimiento apropiado en función de la aplicación. En el caso de un teleservicio de difusión de boletines meteorológicos, el procedimiento puede por ejemplo consistir en la difusión de un boletín correspondiente a la región seleccionada.
Este boletín es entonces transmitido de la manera descrita, codificado en forma semántica y convertido en señal de audio por el punto de acceso 2 a fin de poder ser escuchado por el usuario. Según el algoritmo de gestión elegido para el caché 22, este mensaje puede también ser copiado en dicho caché.
En el caso más sencillo, el formato de los mensajes codificados en forma semántica es simplemente de tipo texto. Así por ejemplo, simples ficheros ASCII pueden ser intercambiados entre la plataforma 1 y los puntos de acceso a la red 2. Un fichero de texto no contiene, no obstante, parámetro alguno que caracterice la voz del lector, y no permite sintetizar fácilmente una voz natural. Para mejorar la síntesis es preferible transmitir un fichero de seudotexto que contenga marcadores prosódicos suplementarios encima del texto.
Naturalmente es posible transmitir solamente una parte del mensaje codificado en forma semántica, y otra parte, u otros tipos de mensajes, en forma de datos de audio.
Según el tipo de aplicación de teleservicio ocurre frecuentemente que el vocabulario de los mensajes susceptibles de ser intercambiados no sea ilimitado. Así por ejemplo, en un sistema interactivo puede ocurrir que las únicas respuestas que se espere del usuario sean instrucciones del tipo si o no. En este caso, la transcripción semántica de los mensajes vocales puede ser simplificada: en lugar de transmitir las letras S, I o N, O según la respuesta del usuario, es suficiente transmitir un solo bit 1 ó 0. La relación de compresión obtenida, con respecto a una transmisión de una respuesta de tipo si o no en forma de señal de audio, es del orden de varios miles al menos. De la misma manera, para cada aplicación que implique mensajes susceptibles de ser transmitidos frecuentemente a través de la red de telecomunicación 4, es posible optimizar la codificación reduciendo el número de bits utilizados para codificar estos mensajes repetitivos. De manera ideal, cuando el vocabulario de los mensajes intercambiados por el procedimiento según la invención esté perfectamente determinado de antemano, la codificación semántica de las palabras del vocabulario puede efectuarse de tal modo que se minimice el número de bits de codificación de cada palabra, teniendo en cuenta eventualmente la probabilidad de transmisión de cada palabra (código de longitud variable). Esta transcripción, que es también de tipo semántico, es generalmente más eficaz que la transcripción literal de cada letra de las palabras que designan un sema en un idioma dado. La codificación semántica puede también estar basada en una predicción de las respuestas del usuario y evolucionar de manera dinámica en el transcurso del diálogo (representación de la predicción semántica). Tal como ya se ha mencionado, un mínimo de información que caracterice la voz y/o la prosodia puede ventajosamente ser transmitido por ejemplo en forma de marcadores prosódicos incorporados en la representación semántica.
Para reducir aún más el tamaño de los mensajes, los mensajes semánticos pueden ventajosamente ser transcodificados por medio de un código de reducción de redundancia, por ejemplo por medio de un código de Huffman o de Ziv-Lempel.
Los mensajes transmitidos codificados en forma semántica contienen la información sobre el contenido del mensaje.Es posible, en el nivel de cada punto de acceso a la red 2, atribuir otra voz a los mensajes convertidos en señales de audio. Así por ejemplo, la voz aplicada al mismo mensaje podrá ser masculina o femenina, según el punto de acceso 2 que efectúe la conversión de texto en voz. Diferentes distribuidores de información, que revendan las informaciones proporcionadas por la plataforma 1, pueden de este modo fácilmente personalizar su teleservicio. También es posible instaurar, al inicio de la comunicación, un diálogo que permita al usuario elegir una voz que le convenga.
La flexibilidad del sistema puede ser ampliada aún más adaptando el idioma del contenido de las señales de audio sintetizadas a partir de la representación semántica de los mensajes. En el ejemplo arriba mencionado, una respuesta positiva codificada en forma semántica por un bit 1 puede con la misma facilidad ser convertida en un extracto de voz que diga "si", "yes" o "ja", por ejemplo. Lo propio vale para todos los mensajes intercambiados entre la plataforma 1 y los puntos de acceso 2, cuando su semántica pueda exprimirse fácilmente en diferentes idiomas. De esta manera, cada gestor de un punto de acceso a la red 2 puede convertir los mensajes codificados en forma semántica en mensajes de audio exprimidos en el idioma predominante en el emplazamiento geográfico en cuestión. También es posible ofrecer al usuario posibilidades de selección de idioma, por medio de órdenes vocales o a través de su teclado, o de utilizar un algoritmo que reconozca automáticamente el idioma del usuario llamante para suministrarle a continuación las informaciones solicitadas en dicho idioma. El idioma de los mensajes de audio sintetizados puede también ser determinado según las indicaciones proporcionadas por el fichero de cliente de los abonados al servicio.
La precedente descripción evoca más particularmente el caso de un usuario que llame a la plataforma de teleservicio 1 por medio de un conjunto telefónico fijo o móvil. Sin embargo, es posible utilizar, en lugar de un teléfono, cualquier otro tipo de segundo dispositivo 30 que permita establecer una comunicación a través de la red de telecomunicación de transmisión de paquetes 4 y esté provisto de medios de emisión acústicos, por ejemplo de un altavoz, que permita escuchar los mensajes vocales difundidos por la plataforma 1. Así por ejemplo, el segundo dispositivo 30 puede estar constituido por un ordenador personal o portátil dotado de un módem y de un altavoz (terminal inteligente).
En este caso, ciertas operaciones, delegadas en el ejemplo de la forma de realización arriba descrita a la plataforma 1 ó al punto de acceso a la red 2, pueden ser realizadas por el terminal inteligente 30. Así por ejemplo, si el terminal está provisto de medios que permitan conectarlo directamente a la red de transmisión de paquetes 4, la síntesis de voz puede efectuarse por el terminal inteligente en lugar de por el punto de acceso a la red 2. El punto de acceso a la red 2 puede incluso suprimirse si el terminal está en condiciones de conectarse directamente con la plataforma 1 a través de la red 4. Así por ejemplo, en el caso en que la red 4 sea una red de tipo internet, y la plataforma 1 un servidor vocal conectado a internet, es posible, por medio de un ordenador también conectado a internet, recibir mensajes vocales codificados en forma semántica y difundidos por la plataforma 1 y convertir estos mensajes codificados en señales de audio, preferentemente por medio de un programa de síntesis de voz preferentemente telecargado desde la plataforma 1. El programa de síntesis de voz puede estar ventajosamente realizado en forma de un módulo informático de tipo "plug-in" para un programa de consulta (browser) de documentos hipermedia transmitidos a través de la red internet.
La invención puede además aplicarse al intercambio de informaciones vocales entre dos usuarios, por ejemplo entre los usuarios de dos conjuntos telefónicos 30 A y B en la Fig. 1. La voz del usuario A es entonces analizada y convertida en un mensaje codificado, que incluya una representación semántica, por los medios de tratamiento 20 del punto de acceso a la red 2 más próximo a A. Este mensaje codificado es entonces transmitido a través de la red de transmisión de paquetes 4 hacia el punto de acceso a la red 2 más próximo a B, donde es sintetizado por los medios de síntesis de la unidad de tratamiento 20 en una señal de audio, que es transmitida a B por medio de la conexión local a través de la red de acceso 3. Las respuestas de B son transmitidas a A de manera similar en sentido inverso. Este procedimiento permite, por ejemplo, conexiones de larga distancia con tarifas imbatibles, merced a la compresión muy importante obtenida por la codificación semántica y a la transmisión por paquetes. El reducido tamaño de los mensajes codificados en forma semántica permite efectuar diálogos en tiempo real incluso aunque la red 4 esté muy cargada, lo cual no es siempre el caso en los sistemas conocidos de telefonía por internet ("internet vocal chat"), en los cuales se transmiten datos audionuméricos. El precio a pagar es naturalmente una pérdida importante de información relativa a la dicción o a la pronunciación del interlocutor, cuya voz es reemplazada por la voz impersonal del sintetizador de voz.
Para paliar este inconveniente es posible, si A y B celebran frecuentemente conversaciones, que se expidan, una sola vez, un fichero conteniendo parámetros de caracterización de sus voces y que permita a los respectivos medios de síntesis de voz sintetizar, a partir de los mensajes recibidos, voces lo más próximas posible a las de B y A, respectivamente.
Este procedimiento puede además ser utilizado en combinación con un procedimiento de telefonía por internet clásico, para paliar el problema de lentitud de transmisión de señales de audio a través de la red 4. En este caso, los mensajes son transmitidos de manera clásica, en forma de datos audionuméricos o analógicos. Simultáneamente, un mensaje conteniendo la transcripción semántica del mensaje de audio, de tamaño netamente inferior al del mensaje de audio, es transmitido en paralelo. Este mensaje es generalmente recibido completamente bastante antes que el mensaje de audio. Si, al cabo de un intervalo de tiempo predeterminado, el mensaje de audio no ha llegado todavía a su destinatario, un nuevo mensaje de audio es sintetizado en el nivel del destinatario a partir del mensaje codificado en forma semántica, y este nuevo mensaje es difundido al destinatario sin esperar la recepción completa del mensaje de audio original. La síntesis del nuevo mensaje de audio a partir del mensaje codificado en forma semántica puede ventajosamente ser efectuada utilizando el conocimiento de los parámetros de la voz del interlocutor, adquirido con ocasión de anteriores intercambios de mensajes. Este procedimiento permite además al destinatario disponer de una transcripción escrita del mensaje vocal.
Este procedimiento de comunicación directa entre dos interlocutores A y B resulta ser particularmente interesarte cuando el idioma de las señales de audio sintetizadas a partir de los mensajes transmitidos modificados en forma semántica es diferente para A y para B. En este caso, es posible realizar sistemas de traducción automática en tiempo real solicitando muy poco la red de comunicación. Los mensajes vocales de A, por ejemplo en francés, son convertidos en mensajes que no contengan más que una información semántica en el nivel del punto de acceso a la red más próximo a A, y luego son transmitidos de esta forma codificada hasta el punto de acceso a la red más próximo a B. En este punto de acceso a la red es sintetizada una señal de audio en otro idioma, por ejemplo en japonés, a partir de las informaciones semánticas recibidas, y luego difundida en japonés a la atención de B. Las respuestas de B son transmitidas a A y traducidas del japonés al francés de manera opuesta.

Claims (59)

1. Sistema de difusión de informaciones vocales a través de una red de telecomunicación (4), comprendiendo los elementos siguientes:
al menos un primer dispositivo (1) conectado a dicha red de telecomunicación y que comprenda medios (10) aptos para difundir mensajes en dicha red,
al menos un segundo dispositivo (30) que permita establecer a través de dicha red de telecomunicación (4) una comunicación con dicho primer dispositivo (1), y esté provisto de medios de emisión acústicos que permitan escuchar señales de audio correspondientes a dichos mensajes difundidos por dicho primer dispositivo,
caracterizado porque dichos mensajes son transmitidos a través de dicha red de telecomunicación de forma codificada, incluyendo dicho código una representación semántica de los mensajes, y porque dichos segundos dispositivos (30) están conectados a dicha red de telecomunicación (4) a través de uno o varios puntos de acceso a la red (2) distribuidos y que comprendan medios de síntesis de voz (20) aptos para convertir dichos mensajes codificados en señales de audio.
2. Sistema según la reivindicación precedente, caracterizado porque dicho primer dispositivo (1) es una plataforma para un sistema de teleservicio vocal automático.
3. Sistema según una de las reivindicaciones precedentes, caracterizado porque comprende varios puntos de acceso a la red (2) distribuidos geográficamente, y porque los mensajes expedidos por dicho primer dispositivo (1) con destino a uno de dichos segundos dispositivos (30) son transmitidos de forma codificada hasta un punto de acceso a la red (2) próximo a dicho segundo dispositivo, sintetizados en señales de audio en dicho punto de acceso a la red (2), y transmitidos en forma de señales de audio entre dicho punto de acceso a la red (2) y dicho segundo dispositivo (30).
4. Sistema según una de las reivindicaciones precedentes, caracterizado porque dicho al menos un segundo dispositivo (30) está vinculado a dicho al menos un punto de acceso a la red (2) a través de una red de acceso (3).
5. Sistema según una de las reivindicaciones precedentes, caracterizado porque dicha red de telecomunicación (4) es una red de transmisión de paquetes.
6. Sistema según una de las reivindicaciones precedentes, caracterizado porque dicha red de telecomunicación (4) es una red de tipo internet, y porque dicho al menos un segundo dispositivo (30) es un terminal de internet.
7. Sistema según la reivindicación precedente, caracterizado, porque dicha red es una red de transmisión de paquetes, y porque varios mensajes pueden ser multiplexados en el interior de cada paquete.
8. Sistema según una de las reivindicaciones precedentes, caracterizado porque dichos puntos de acceso a la red (2) comprenden medios de reconocimiento de voz (20) aptos para convertir señales de audio procedentes de dicho al menos un segundo dispositivo (30) en mensajes codificados incluyendo una representación semántica de dichas señales, así como medios para enviar dichos mensajes codificados por dicha red de telecomunicación (4), y porque dicho al menos un primer dispositivo (1) es apto para recibir dichos mensajes codificados.
9. Sistema según la reivindicación precedente, caracterizado porque dicha plataforma para un sistema de teleservicio vocal automático (1) permite diálogos interactivos y es apta para analizar dichos mensajes codificados enviados por dicho al menos un segundo dispositivo (30) y para difundir una respuesta por dicha red de telecomunicación (4) en función de dichos mensajes recibidos.
10. Sistema según una de las reivindicaciones precedentes, caracterizado porque dichos medios para difundir mensajes por dicha red comprenden medios de almacenamiento (10) de dichos mensajes codificados incluyendo una representación semántica, así como medios de lectura de dichos mensajes almacenados.
11. Sistema según una de las reivindicaciones precedentes, caracterizado porque dichos medios para difundir mensajes por dicha red comprenden medios de almacenamiento (10) de dichos mensajes en forma de señales de audio y medios de lectura de dichos mensajes almacenados y de reconocimiento de voz aptos para convertir dichas señales de audio en mensajes codificados incluyendo una representación semántica.
12. Sistema según una de las reivindicaciones precedentes, caracterizado porque dicha representación semántica optimiza la longitud de mensajes codificados susceptibles de ser transmitidos frecuentemente a través de dicha red.
13. Sistema según una de las reivindicaciones precedentes, caracterizado porque dicho código incluye una representación de la predicción semántica de los mensajes.
14. Sistema según una de las reivindicaciones precedentes, caracterizado porque dichos mensajes codificados incluyen informaciones caracterizadoras de la voz y/o la prosodia.
15. Sistema según una de las reivindicaciones precedentes, caracterizado porque dicho al menos un punto de acceso a la red (2) comprende una memoria de tipo caché (22) que memoriza los mensajes enviados por dicho primer dispositivo (1).
16. Sistema según la reivindicación precedente, caracterizado porque dicha memoria de tipo caché (22) almacena los mensajes de forma codificada, incluyendo una representación semántica.
17. Sistema según la reivindicación 15, caracterizado porque dicha memoria de tipo caché (22) almacena los mensajes de audio sintetizados a partir de dichos mensajes codificados.
18. Sistema según una de las reivindicaciones precedentes, caracterizado porque al menos ciertos medios de síntesis de voz (20), aptos para convertir dichos mensajes codificados en señales de audio, están integrados en un segundo dispositivo (30).
19. Sistema según la reivindicación precedente, caracterizado porque dichos medios de síntesis de voz están implementados en forma de un módulo "plug-in" para un buscador de internet.
20. Sistema según una de las reivindicaciones precedentes, caracterizado porque dichos medios de síntesis de voz (20), aptos para convertir dichos mensajes codificados incluyendo una representación semántica en señales de audio, están programados por medio de un módulo informático, y porque dicho primer dispositivo (1) y dicho al menos un punto de acceso a la red (2) comprenden medios complementarios y aptos para cooperar para telecargar dicho módulo informático desde dicho primer dispositivo (1) hacia dicho al menos un punto de acceso a la red (2).
21. Sistema según una de las reivindicaciones 3 a 20, caracterizado porque comprende varios puntos de acceso a la red (2) distribuidos sobre varias regiones geográficas, y porque el idioma de dichas señales de audio sintetizadas a partir de dichos mensajes codificados por dichos medios de síntesis de voz (20) depende del idioma predominante en el emplazamiento geográfico de dicho punto de acceso (2).
22. Sistema según una de las reivindicaciones precedentes, caracterizado porque el idioma de dichas señales de audio sintetizadas a partir de dichos mensajes codificados es determinado por el usuario de dicho al menos un segundo dispositivo (30).
23. Plataforma para sistema de teleservicio vocal automático (1) apto para ser conectado a una red de telecomunicación (4) y comprendiendo medios para generar mensajes vocales y difundirlos por dicha red de telecomunicación (4), caracterizada porque dichos mensajes son difundidos por dicha red de telecomunicación de forma codificada, incluyendo dicho código una representación semántica de dichos mensajes.
24. Plataforma según la reivindicación precedente, caracterizada porque dichos medios para difundir mensajes por dicha red están constituidos por medios de almacenamiento (10) de dichos mensajes codificados y por medios de lectura de dichos mensajes almacenados.
25. Plataforma según la reivindicación 23, caracterizada porque dichos medios para difundir mensajes por dicha red comprenden medios de almacenamiento (10) de dichos mensajes en forma de señales de audio y medios de lectura de dichos mensajes almacenados y de reconocimiento de voz aptos para convertir dichas señales de audio en mensajes codificados incluyendo una representación semántica.
26. Plataforma según una de las reivindicaciones 23 a 25, caracterizada porque permite diálogos interactivos y es apta para analizar mensajes codificados incluyendo una representación semántica, recibidos a través de dicha red (4), y para difundir una respuesta en función de dichos mensajes recibidos.
27. Plataforma según una de las reivindicaciones 23 a 26, caracterizada porque dicha representación semántica optimiza la longitud de mensajes codificados susceptibles de ser transmitidos frecuentemente a través de dicha red.
28. Plataforma según una de las reivindicaciones 23 a 27, caracterizada porque dicho código incluye una representación de la predicción semántica de los mensajes.
29. Plataforma según una de las reivindicaciones 23 a 28, caracterizada porque dichos mensajes codificados incluyen informaciones caracterizadoras de la voz y/o la prosodia.
30. Plataforma según una de las reivindicaciones 23 a 29, caracterizada porque es apta para ser conectada a una red de telecomunicación (4) de transmisión de paquetes.
31. Plataforma según una de las reivindicaciones 23 a 30, caracterizada porque es apta para ser conectada a una red de telecomunicación (4) de tipo internet.
32. Plataforma según una de las reivindicaciones 23 a 31, caracterizada porque comprende medios que permiten teleexportar a través de dicha red de telecomunicación (4) un módulo informático de síntesis de voz que permita convertir dichos mensajes codificados, incluyendo una representación semántica, en señales de audio.
33. Punto de acceso a la red (2) apto para ser conectado a una red de telecomunicación de transmisión de paquetes y comprendiendo medios para establecer una comunicación con otro dispositivo (1) conectado a dicha red y para recibir mensajes, concretamente mensajes vocales difundidos por dicho otro dispositivo, caracterizado porque comprende medios de síntesis de voz (20) aptos para convertir mensajes vocales codificados incluyendo una representación semántica, difundidos por dicho otro dispositivo (1), en señales de audio, así como medios para enviar a través de una red de acceso (3) dichas señales de audio hacia al menos un segundo dispositivo (30).
34. Punto de acceso a la red (2) según la reivindicación precedente, caracterizado porque comprende medios de reconocimiento de voz aptos para convertir señales de audio recibidas de dicho al menos un segundo dispositivo (30) en mensajes codificados incluyendo una representación semántica, así como medios (21) para enviar dichos mensajes codificados en forma semántica por dicha red de telecomunicación de transmisión de paquetes (4).
35. Punto de acceso a la red (2) según una de las reivindicaciones 33 ó 34, caracterizado porque dicha representación semántica optimiza la longitud de mensajes codificados susceptibles de ser transmitidos frecuentemente a través de dicha red.
36. Punto de acceso a la red (2) según una de las reivindicaciones 33 a 35, caracterizado porque dicho código incluye una representación de la predicción semántica de los mensajes.
37. Punto de acceso a la red (2) según una de las reivindicaciones 33 a 36, caracterizado porque dichos mensajes codificados incluyen informaciones caracterizadoras de la voz y/o la prosodia.
38. Punto de acceso a la red (2) según una de las reivindicaciones 33 a 37, caracterizado porque comprende una memoria de tipo caché (22) para los mensajes recibidos.
39. Punto de acceso a la red (2) según la reivindicación precedente, caracterizado porque dicha memoria de tipo caché (22) almacena los mensajes de forma codificada incluyendo una representación semántica.
40. Punto de acceso a la red (2) según la reivindicación precedente, caracterizado porque dicha memoria de tipo caché (22) almacena los mensajes de audio sintetizados a partir de dichos mensajes codificados.
41. Punto de acceso a la red (2) según una de las reivindicaciones 33 a 40, caracterizado porque comprende medios para enviar señales de audio sintetizadas a partir de dichos mensajes codificados o para recibir señales de audio que deban ser codificadas en dicha red de telecomunicación.
42. Punto de acceso a la red (2) según una de las reivindicaciones 33 a 41, caracterizado porque dicha red de telecomunicación (4) es una red de tipo internet.
43. Punto de acceso a la red (2) según una de las reivindicaciones 33 a 42, caracterizado porque comprende medios que permitan elegir el idioma del contenido de dichas señales de audio obtenidas a raíz de dicha conversión de los mensajes codificados en forma semántica.
44. Procedimiento de comunicación entre una plataforma para sistema de teleservicio vocal automático (1) y al menos un segundo dispositivo (30) conectado a dicha plataforma a través de un punto de acceso a la red (2) y de una red de telecomunicación, caracterizado por las siguientes etapas:
dicho segundo dispositivo (30) solicita el establecimiento de una conexión a través de dicho punto de acceso a la red (2) con dicha plataforma (1),
dicha conexión es establecida a través de dicha red de telecomunicación (4),
dicha plataforma (1) difunde al menos un mensaje vocal codificado en forma semántica, que es transmitido a través de dicha red de telecomunicación (4) hacia dicho punto de acceso a la red (2),
dicho punto de acceso a la red (2) convierte, gracias a medios de síntesis de voz (20), dichos mensajes codificados en corma semántica en señales de audio,
dichas señales de audio son transferidas hacia dicho segundo dispositivo (30) donde pueden ser escuchadas por el usuario de dicho segundo dispositivo.
45. Procedimiento según la reivindicación precedente, caracterizado porque comprende, además, al menos una vez la sucesión de las siguientes operaciones:
dicho segundo dispositivo (30) transmite al menos una señal de audio a dicho punto de acceso a la red (2),
dicho punto de acceso a la red (2) convierte dicha o dichas señales de audio en mensaje codificado en forma semántica gracias a medios de reconocimiento de voz (20),
dicho punto de acceso a la red (2) envía hacia dicha plataforma (1), a través de dicha red de telecomunicación (4), dicho o dichos mensajes codificados en forma semántica,
dicha plataforma (1) recibe dicho o dichos mensajes codificados en forma semántica.
46. Procedimiento según la reivindicación precedente, caracterizado porque comprende una etapa en el curso de la cual dicha plataforma (1) analiza dichos mensajes vocales codificados en forma semántica, enviados por dicho al menos un segundo dispositivo (30), y determina una respuesta a enviar por dicha red de telecomunicación (4) en función de dichos mensajes recibidos.
47. Procedimiento según una de las reivindicaciones 44 a 46, caracterizado porque dicha codificación de mensaje en forma semántica optimiza la longitud de mensajes codificados susceptibles de ser transmitidos frecuentemente a través de dicha red.
48. Procedimiento según una de las reivindicaciones 44 a 47, caracterizado porque dicho código incluye una representación de la predicción semántica de los mensajes.
49. Procedimiento según una de las reivindicaciones 44 a 48, caracterizado porque dicha codificación de mensaje en forma semántica utiliza informaciones caracterizadoras de la voz y/o la prosodia.
50. Procedimiento según una de las reivindicaciones 44 a 49, caracterizado porque los mensajes recibidos de dicha plataforma (1) son almacenados en una memoria de tipo caché (22).
51. Procedimiento según la reivindicación precedente, caracterizado porque dicha memoria de tipo caché (22) almacena los mensajes codificados en forma semántica.
52. Procedimiento según la reivindicación 50, caracterizado porque dicha memoria de tipo caché (22) almacena los mensajes descodificados en forma de señales de audio.
53. Procedimiento según una de las reivindicaciones 44 a 52, caracterizado porque dicha red de telecomunicación (4) es una red de transmisión de paquetes.
54. Procedimiento según una de las reivindicaciones 44 a 53, caracterizado porque dicha red de telecomunicación (4) es una red de tipo internet.
55. Procedimiento según la reivindicación precedente, caracterizado porque dicha red es una red de transmisión de paquetes, y porque varios mensajes pueden ser multiplexados en el interior de cada paquete.
56. Soporte de datos informáticos susceptible de ser leído por un dispositivo programable conectado a una red internet, caracterizado porque almacena un programa de instrucciones ejecutable por dicho dispositivo para ejecutar las operaciones efectuadas por dicho punto de acceso a la red en el procedimiento según una de las reivindicaciones 44 a 55.
57. Soporte de datos informáticos susceptible de ser leído por un dispositivo programable conectado a una red internet, caracterizado porque almacena un programa de instrucciones ejecutable por dicho dispositivo para ejecutar las operaciones efectuadas por dicha plataforma para sistema de teleservicio vocal automático (1) en el procedimiento según una de las reivindicaciones 44 a 55.
58. Sistema de difusión de informaciones vocales a través de una red de telecomunicación de transmisión de paquetes (4), comprendiendo los siguientes elementos:
medios (10) de difusión de mensajes por dicha red y de gestión de diálogo con el usuario,
medios (20) de síntesis de voz,
caracterizado porque dichos medios de difusión de mensajes por dicha red y de gestión de diálogo con el usuario están centralizados en una plataforma para sistema de teleservicio vocal automático (1), porque dichos medios de síntesis de voz están distribuidos en una pluralidad de puntos de acceso a la red (2) repartidos en dicha red (4), y porque dichos mensajes son transmitidos entre dicha plataforma (1) y dichos puntos de acceso a la red (2) de forma codificada, incluyendo dicho código una representación semántica de los mensajes.
59. Sistema según la reivindicación precedente, caracterizado porque el usuario puede escuchar dichos mensajes estableciendo una conexión con uno de dichos puntos de acceso a la red a través de una red de telecomunicación (3).
ES97925810T 1997-06-20 1997-06-20 Sistema y procedimiento para la codificacion y la difusion de informaciones vocales. Expired - Lifetime ES2208908T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CH1997/000246 WO1998059486A1 (fr) 1997-06-20 1997-06-20 Systeme et procede de codage et de diffusion d'informations vocales

Publications (1)

Publication Number Publication Date
ES2208908T3 true ES2208908T3 (es) 2004-06-16

Family

ID=4550883

Family Applications (1)

Application Number Title Priority Date Filing Date
ES97925810T Expired - Lifetime ES2208908T3 (es) 1997-06-20 1997-06-20 Sistema y procedimiento para la codificacion y la difusion de informaciones vocales.

Country Status (9)

Country Link
US (1) US6678659B1 (es)
EP (1) EP0993730B1 (es)
JP (1) JP2002511989A (es)
AT (1) ATE252801T1 (es)
AU (1) AU3086497A (es)
CA (1) CA2294442C (es)
DE (1) DE69725761T2 (es)
ES (1) ES2208908T3 (es)
WO (1) WO1998059486A1 (es)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018111066A1 (es) * 2016-12-15 2018-06-21 Pacheco Navarro Diana Método para la generación de objetos de aprendizaje temporizados (oat) de acuerdo a los temas de interés de los estudiantes

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236395B1 (en) * 1999-02-01 2001-05-22 Sharp Laboratories Of America, Inc. Audiovisual information management system
US7181691B2 (en) * 1999-09-16 2007-02-20 Sharp Laboratories Of America, Inc. Audiovisual information management system with presentation service
US7308462B1 (en) * 1999-10-29 2007-12-11 Nortel Networks Limited Methods and systems for building and distributing audio packages
EP1279165B1 (en) * 2000-03-24 2011-01-05 Eliza Corporation Speech recognition
US6687846B1 (en) 2000-03-30 2004-02-03 Intel Corporation System and method for error handling and recovery
DK1269714T3 (da) * 2000-03-30 2007-01-08 Intel Corp Fremgangsmåde og apparat til fordelt midlertidig lagring
JP3810268B2 (ja) * 2000-04-07 2006-08-16 シャープ株式会社 オーディオビジュアルシステム
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis
US8028314B1 (en) * 2000-05-26 2011-09-27 Sharp Laboratories Of America, Inc. Audiovisual information management system
US7647340B2 (en) 2000-06-28 2010-01-12 Sharp Laboratories Of America, Inc. Metadata in JPEG 2000 file format
US7318107B1 (en) 2000-06-30 2008-01-08 Intel Corporation System and method for automatic stream fail-over
US7020709B1 (en) 2000-06-30 2006-03-28 Intel Corporation System and method for fault tolerant stream splitting
US8020183B2 (en) * 2000-09-14 2011-09-13 Sharp Laboratories Of America, Inc. Audiovisual management system
WO2002037813A1 (en) * 2000-10-31 2002-05-10 Telefonaktiebolaget Lm Ericsson (Publ) System and method for announcing messages to phone users in a telecommunications network
US6651141B2 (en) 2000-12-29 2003-11-18 Intel Corporation System and method for populating cache servers with popular media contents
JP2002244688A (ja) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
US20030061610A1 (en) * 2001-03-27 2003-03-27 Errico James H. Audiovisual management system
US7904814B2 (en) * 2001-04-19 2011-03-08 Sharp Laboratories Of America, Inc. System for presenting audio-video content
US20030121040A1 (en) * 2001-07-02 2003-06-26 Ferman A. Mufit Audiovisual management system
US7483834B2 (en) * 2001-07-18 2009-01-27 Panasonic Corporation Method and apparatus for audio navigation of an information appliance
US7043432B2 (en) * 2001-08-29 2006-05-09 International Business Machines Corporation Method and system for text-to-speech caching
US7474698B2 (en) * 2001-10-19 2009-01-06 Sharp Laboratories Of America, Inc. Identification of replay segments
WO2003038665A1 (en) * 2001-10-31 2003-05-08 Net-Release Pty Ltd A system and method of disseminating recorded audio information
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US9167036B2 (en) * 2002-02-14 2015-10-20 Level 3 Communications, Llc Managed object replication and delivery
US8214741B2 (en) * 2002-03-19 2012-07-03 Sharp Laboratories Of America, Inc. Synchronization of video and data
US7843899B2 (en) * 2002-09-20 2010-11-30 Avaya Inc. Apparatus and method for providing call status information
US9054910B1 (en) 2002-09-20 2015-06-09 Avaya Inc. Apparatus and method for providing status information telecommunication
US9197449B1 (en) * 2002-09-20 2015-11-24 Avaya Inc. Apparatus and method for providing enhanced telecommunication terminal status information
US7657907B2 (en) * 2002-09-30 2010-02-02 Sharp Laboratories Of America, Inc. Automatic user profiling
US7006945B2 (en) 2003-01-10 2006-02-28 Sharp Laboratories Of America, Inc. Processing of video content
US20040197088A1 (en) * 2003-03-31 2004-10-07 Ferman Ahmet Mufit System for presenting audio-video content
US7594245B2 (en) * 2004-03-04 2009-09-22 Sharp Laboratories Of America, Inc. Networked video devices
US8949899B2 (en) * 2005-03-04 2015-02-03 Sharp Laboratories Of America, Inc. Collaborative recommendation system
US8356317B2 (en) 2004-03-04 2013-01-15 Sharp Laboratories Of America, Inc. Presence based technology
US20050267757A1 (en) * 2004-05-27 2005-12-01 Nokia Corporation Handling of acronyms and digits in a speech recognition and text-to-speech engine
JP4553850B2 (ja) * 2006-01-30 2010-09-29 日本電信電話株式会社 時報ガイダンス提供システム
US8689253B2 (en) * 2006-03-03 2014-04-01 Sharp Laboratories Of America, Inc. Method and system for configuring media-playing sets
US9762692B2 (en) 2008-04-04 2017-09-12 Level 3 Communications, Llc Handling long-tail content in a content delivery network (CDN)
US10924573B2 (en) 2008-04-04 2021-02-16 Level 3 Communications, Llc Handling long-tail content in a content delivery network (CDN)
WO2009123868A2 (en) 2008-04-04 2009-10-08 Level 3 Communications, Llc Handling long-tail content in a content delivery network (cdn)
TWI399739B (zh) * 2009-11-13 2013-06-21 Ind Tech Res Inst 語音留言與傳達之系統與方法
US8661515B2 (en) * 2010-05-10 2014-02-25 Intel Corporation Audible authentication for wireless network enrollment
US9319263B2 (en) 2011-01-10 2016-04-19 Telefonaktiebolaget Lm Ericsson (Publ) Caching of announcements at the edge of a packet switched telecommunication network
US8942974B1 (en) * 2011-03-04 2015-01-27 Amazon Technologies, Inc. Method and system for determining device settings at device initialization
CN116645971A (zh) * 2023-05-08 2023-08-25 南京航空航天大学 一种基于深度学习的语义通信文本传输优化方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2165969B (en) 1984-10-19 1988-07-06 British Telecomm Dialogue system
WO1988005239A1 (en) 1986-12-31 1988-07-14 M.A. Kempner, Inc. Improved polling system
GB2249701A (en) 1990-11-09 1992-05-13 British Telecomm Telephone interface has digital speech processing
US5179585A (en) * 1991-01-16 1993-01-12 Octel Communications Corporation Integrated voice messaging/voice response system
US5150410A (en) 1991-04-11 1992-09-22 Itt Corporation Secure digital conferencing system
EP0559981A3 (en) 1992-03-11 1994-07-20 Intervoice Inc Fully digital voice response system
JP3745365B2 (ja) 1992-06-15 2006-02-15 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー サービスプラットフォーム
US6249809B1 (en) * 1993-08-30 2001-06-19 William L. Bro Automated and interactive telecommunications system
AU705525B2 (en) 1994-12-02 1999-05-27 Voice Control Systems, Inc. Intelligent call processing platform for home telephone system
US6215858B1 (en) * 1994-12-05 2001-04-10 Bell Atlantic Network Services, Inc. Analog terminal internet access
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
US6246672B1 (en) * 1998-04-28 2001-06-12 International Business Machines Corp. Singlecast interactive radio system
US6320946B1 (en) * 1999-12-23 2001-11-20 Bellsouth Intellectual Property Corporation Information payphone

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018111066A1 (es) * 2016-12-15 2018-06-21 Pacheco Navarro Diana Método para la generación de objetos de aprendizaje temporizados (oat) de acuerdo a los temas de interés de los estudiantes

Also Published As

Publication number Publication date
JP2002511989A (ja) 2002-04-16
ATE252801T1 (de) 2003-11-15
EP0993730B1 (fr) 2003-10-22
CA2294442C (fr) 2005-02-22
DE69725761T2 (de) 2004-08-05
AU3086497A (en) 1999-01-04
US6678659B1 (en) 2004-01-13
WO1998059486A1 (fr) 1998-12-30
DE69725761D1 (de) 2003-11-27
EP0993730A1 (fr) 2000-04-19
CA2294442A1 (fr) 1998-12-30

Similar Documents

Publication Publication Date Title
ES2208908T3 (es) Sistema y procedimiento para la codificacion y la difusion de informaciones vocales.
US8229091B2 (en) Interactive voice response to short message service text messenger
US5029200A (en) Voice message system using synthetic speech
US7251314B2 (en) Voice message transfer between a sender and a receiver
US7103548B2 (en) Audio-form presentation of text messages
US9214154B2 (en) Personalized text-to-speech services
US20020191757A1 (en) Audio-form presentation of text messages
US20010043592A1 (en) Methods and apparatus for prefetching an audio signal using an audio web retrieval telephone system
CA2242065A1 (en) Unified messaging system with automatic language identification for text-to-speech conversion
RU2005132634A (ru) Устройство, система и способ звуковой связи с возможностью бесшумного выбора и передачи звуковых сообщений
US7840987B2 (en) Television messaging vocal response generation
EP1411736B1 (en) System and method for converting text messages prepared with a mobile equipment into voice messages
KR20020028501A (ko) 통신망에서의 음성 데이터와 문자 데이터간의 변환 방법및 그 장치
KR100325986B1 (ko) 전화를 이용한 멀티미디어 카드 송수신 방법 및 장치
US20040234047A1 (en) Interactive telephony interface
JP2005151553A (ja) ボイス・ポータル
US6501751B1 (en) Voice communication with simulated speech data
US7756255B1 (en) Method and system for delivering a voice message from a telephone to a group of recipients
KR20040075477A (ko) 사용자 정보를 제공하는 음성과 배경 음악이 합성된링백톤의 발생 방법 및 그 시스템
KR200313671Y1 (ko) 사용자 정보를 제공하는 음성과 배경 음악이 합성된링백톤의 발생 시스템
ES2331624T3 (es) Procedimiento y equipo terminal de comunicaciones para transmitir mensajes de voz.
US12363057B1 (en) System and method for processing of speech content in email messages
WO2004105369A1 (en) Vocal assistant to provide predefined text messages to a call using text-to-speech converter
KR20020072359A (ko) 음성인식을 이용한 무인 자동 전화교환 및 웹메일링시스템 및 방법
KR20050118764A (ko) 유무선 전화 통화 연결음을 이용한 광고 방법 및 시스템