ES2208908T3

ES2208908T3 - Sistema y procedimiento para la codificacion y la difusion de informaciones vocales.

Info

Publication number: ES2208908T3
Application number: ES97925810T
Authority: ES
Inventors: Robert Van Kommer
Original assignee: Swisscom Fixnet AG
Current assignee: Swisscom Fixnet AG
Priority date: 1997-06-20
Filing date: 1997-06-20
Publication date: 2004-06-16
Anticipated expiration: 2017-06-20
Also published as: US6678659B1; EP0993730A1; DE69725761D1; JP2002511989A; EP0993730B1; AU3086497A; CA2294442A1; DE69725761T2; WO1998059486A1; ATE252801T1; CA2294442C

Abstract

La invención se refiere a un sistema para emitir datos de voz a través de una red de telecomunicación de conmutación de paquetes, a partir de al menos una plataforma para un sistema de teleservicio de voz automático (1). Los mensajes emitidos por la plataforma, por ejemplo predicciones meteorológicas, pueden ser oídos desde una serie de terminales, por ejemplo teléfonos (30). Los mensajes se transmiten a través de la red de telecomunicación en forma codificada, el código incluye una representación semántica de los mensajes, que luego se convierte en señales de audio en el punto de acceso (2) a la red de telecomunicación de transmisión de paquetes. La conversión, por ejemplo, se lleva a cabo por medio de un módulo de síntesis de voz, tal como un módulo TTS (texto a voz). Los puntos de acceso a la red (2) están geográficamente distribuidos y generalmente se puede llegar a ellos mediante una llamada de tarifa local. La red de telecomunicación de transmisión de paquetes es por ejemplo una redATM o Internet. El sistema está adaptado también para sistemas de teleservicio interactivos (IVR, sistemas de respuesta de voz interactivos).

Description

Sistema y procedimiento para la codificación y la difusión de informaciones vocales.

La presente invención se refiere a un sistema y un procedimiento para la difusión de informaciones vocales. Más particularmente, la presente invención se refiere a un sistema y un procedimiento de teleservicios vocales, que permitan a un usuario acceder, por medio de un teléfono o de cualquier otro tipo de dispositivo provisto de medios de emisión acústicos, a informaciones difundidas por una plataforma centralizada en una red de telecomunicación.

A pesar del auge de otros sistemas de difusión automática de informaciones, por ejemplo internet o teletexto, la oferta de teleservicios vocales tiende a desarrollarse. Estos servicios pueden en efecto ser utilizados sin necesidad de equipos particulares, aparte de un conjunto telefónico, y pueden por tanto ser fácilmente consultados desde cualquier lugar, por ejemplo mediante un teléfono móvil. Además, el acceso a la información es posible sin conocimientos técnicos particulares. Ejemplos de teleservicios vocales populares comprenden, por ejemplo, el reloj parlante, la difusión de previsiones meteorológicas, de resultados deportivos, de cursos de la bolsa, etc.

Las informaciones difundidas están generalmente memorizadas en forma numérica o grabadas sobre un soporte de grabación de audio en una plataforma centralizada y vinculada a la red telefónica. El usuario toma la iniciativa de consultar estas informaciones marcando en su conjunto telefónico el número de teléfono de la plataforma. Entonces se establece una conexión telefónica ordinaria entre la plataforma centralizada y el usuario, y a través de esta conexión se efectúa un diálogo vocal. La conexión es bidireccional, incluso aunque la información sea difundida en una sola dirección (ello es típicamente el caso en un servicio de reloj parlante) o mayoritariamente en una dirección (por ejemplo en los sistemas en que las únicas respuestas requeridas del usuario se limiten a la introducción de una contraseña o de respuestas breves del tipo si - no). La carga ocasionada en la red de telecomunicación es pues desmesurada en relación con el volumen efectivo de informaciones útiles transmitido.

Los progresos observados en los últimos años en el campo del tratamiento de la voz, particularmente de la síntesis de voz (sistemas TTS – "text-to-speech"), del análisis de: voz y del reconocimiento vocal de una persona, abren ampliamente la puerta a nuevos sistemas de teleservicios vocales, que amplíen las posibilidades ofrecidas por los sistemas convencionales. El campo de aplicación de estas nuevas tecnologías no está ya limitado a servicios de difusión unidireccional de información (como el reloj parlante), sino que concierne también a servicios de información interactivos, que ofrezcan posibilidades de diálogo entre la persona llamante y la plataforma de teleservicio vocal. Estos sistemas interactivos son generalmente conocidos bajo las siglas anglófonas IVR (Interactif Voice Response Systems) y se aplican concretamente para servicios de telebanking. Se conocen por ejemplo ya sistemas que ofrecen al usuario la posibilidad de elegir, por medio de órdenes vocales, las informaciones que desee escuchar, incluso de modificar estas informaciones o de iniciar el lanzamiento de programas de aplicaciones ejecutadas por la plataforma de teleservicio vocal. A título de ejemplo, el documento de Patente WO88/05239 describe un sistema que permite efectuar sondeos o votaciones de manera automática. En la WO93/26113 se describe otro sistema de mensajería vocal ampliamente automatizado.

Los sistemas de teleservicio vocal son generalmente operados por medio de una plataforma centralizada, por razones evidentes de puesta al día de las informaciones y de coste. La longitud de la conexión telefónica establecida depende pues de la distancia entre el punto de llamada del usuario y el emplazamiento de la plataforma. El atractivo de un teleservicio vocal disminuye no obstante fuertemente para los abonados que no puedan llamarlo con tarifa local. Por consiguiente, en numerosos casos el gestor de la red de telecomunicación propone una tarifa de llamada única para un teleservicio dado, que penaliza a los abonados más próximos y es deficitario para las llamadas de abonados domiciliados más lejos.

El documento de Patente EP-A2-0559981 describe un sistema de teleservicio vocal interactivo en el cual el usuario está conectado a la plataforma centralizada por medio de una conexión enteramente numérica. La finalidad de este sistema es esencialmente limitar el número de conversiones analógicas-numéricas y numéricas-analógicas entre el usuario y la plataforma de teleservicio vocal. Sin embargo, los problemas arriba citados no quedan resueltos por este sistema.

Una finalidad de la presente invención consiste pues en proponer un sistema de teleservicio vocal mejorado. Más particularmente, una finalidad de la presente invención consiste en proponer un servicio de teleservicio vocal que ocasione una carga menor de la red de telecomunicación.

Estas finalidades se consiguen particularmente por medio de los elementos de las partes características de las reivindicaciones independientes, indicándose en las reivindicaciones dependientes formas de realización preferentes.

La invención parte de la constatación de que, en el estado de la técnica, los mensajes de voz intercambiado: concretamente las informaciones vocales difundidas por la plataforma al llamante, precisan un ancho de banda mucho más importante que el mínimo requerido para transmitir únicamente el contenido semántico de la información transmitida.

Las finalidades de la invención se consiguen pues transmitiendo, en lugar de señales de audio analógicas o numéricas (fonéticas), mensajes vocales conteniendo únicamente una información sobre la semántica de estas señales.

En el caso de un sistema numérico, la transmisión de miles de muestras de voz sucesivas, codificadas por ejemplo en 8 bits, es pues reemplazada por la transmisión de algunos caracteres, por ejemplo de algunos códigos ASCII correspondientes a la representación en modo texto o seudotexto del contenido semántico de los mensajes.

La relación de compresión así obtenida, y por tanto la carga de la red, es muy elevada, típicamente del orden de 1:500, por ejemplo, según los mensajes y el tipo de aplicación. La conversión del mensaje semántico en señal de audio es efectuada preferentemente por un punto de acceso a la red en la proximidad del usuario, de manera que una señal de audio con gran ancho de banda sea transmitida únicamente entre el punto de acceso a la red y el usuario, es decir en una fracción de la distancia total que separa el usuario de la plataforma de teleservicio.

En vista del caudal de información muy reducido obtenido gracias al procedimiento de la invención, y de la naturaleza irregular de este caudal, concretamente en el caso de sistemas interactivos, los mensajes codificados en forma semántica son ventajosamente transmitidos en forma de paquetes entre la plataforma centralizada y el o los puntos de acceso a la red. Ventajosamente, la red de telecomunicación que une la plataforma centralizada con los puntos de acceso a la red está pues constituida por una red de transmisión de paquetes, por ejemplo una red con protocolo ATM y/o internet (TCP/IP). En este último caso, los puntos de acceso a la red pueden ventajosamente estar constituidos por POPs (Points of Presence) distribuidos de la red internet.

El usuario que desee recurrir a un sistema de teleservicio vocal, por ejemplo escuchar las previsiones meteorológicas, llamará por medio de su teléfono al POP más próximo. Esta comunicación puede generalmente ser establecida con tarifa local. El POP contacta entonces con la plataforma centralizada que gestiona el sistema de teleservicio vocal automático, la cual le transmite un mensaje codificado incluyendo una representación semántica que contenga las informaciones requeridas, por ejemplo un fichero de texto anunciando las previsiones meteorológicas para la región en cuestión. Este fichero de texto es convertido en señal de audio (analógica o numérica) por medio de un dispositivo de síntesis de voz en el POP (dispositivo TTS, "Text-To-Speech"), y la señal de audio obtenida es transmitida al usuario, el cual puede así escucharla.

Una conexión telefónica ordinaria es únicamente requerida entre el usuario y el punto de acceso a la red (POP). En vista de la fuerte concentración de puntos de acceso a la red internet, esta conexión puede muy frecuentemente ser establecida beneficiándose de la tarifa local. Entre el POP y la plataforma, la conexión es ventajosamente de tipo internet, y su costo no depende pues de la distancia. Además, el volumen de informaciones intercambiado entre el POP y la plataforma resulta muy fuertemente reducido gracias a la conversión en forma semántica de los mensajes vocales.

En el caso en que se precise un tiempo de respuesta corto, por ejemplo en caso de comunicación interactiva, la paquetización de los mensajes por internet puede causar un retardo tanto más grande cuanto más importante sea la compresión. En efecto, un paquetizador no expide generalmente más que paquetes completos. Una solución que permita reducir la demora consiste en insertar octetos de relleno después del mensaje útil, permitiendo rellenar los paquetes y transmitirlos pues inmediatamente. Una solución preferente consiste en multiplexar varios mensajes en el interior de cada paquete, y luego en desmultiplexarlos en el interior de la red de telecomunicación.

Ventajosamente, los puntos de acceso a la red distribuidos contienen una memoria de tipo caché que memoriza temporalmente los mensajes transmitidos desde la plataforma centralizada. Por consiguiente, una conexión con la plataforma no resulta así precisa en cada consulta por un usuario, lo cual contribuye a reducir aún más la carga a través de la red de telecomunicación. La memoria de tipo caché puede ya sea memorizar los mensajes codificados en forma semántica, lo cual permite reducir considerablemente el tamaño de memoria requerida, o bien las señales de audio sintetizadas para limitar el número de conversiones necesarias.

La invención resultará mejor comprensible con ayuda de la siguiente descripción, dada a título de ejemplo no limitativo e ilustrada por la única figura del dibujo adjunto, que muestra de forma esquemática un sistema completo de difusión de informaciones vocales a través de una red de telecomunicación.

La descripción se refiere principalmente a una aplicación de la invención a un sistema de teleservicio vocal, por ejemplo un servicio de difusión de previsiones meteorológicas accesible por teléfono. Sin embargo, es importante apreciar que la invención puede también aplicarse a cualquier tipo de sistema de difusión de informaciones vocales monodireccional, bidireccional o interactivo.

En la Fig. 1 del dibujo adjunto el número de referencia 1 designa una plataforma centralizada para un sistema de teleservicio vocal. La plataforma 1 suministra la información requerida y, en el caso de un sistema de teleservicio interactivo, gestiona el diálogo con el usuario. La plataforma 1 contiene preferentemente una memoria 10 que memoriza la información que deba ser difundida. Únicamente el contenido semántico de la información es memorizado, por ejemplo en forma de fichero de texto, de seudotexto o en cualquier formato apropiado. En este fichero están preferentemente incluidos marcadores prosódicos, u otros tipos de informaciones que permitan mejorar la calidad de la voz sintetizada a partir de esta información. De acuerdo con otra forma de realización, la memoria 10 contiene datos de audio, grabados por ejemplo sobre una banda magnética o sobre cualquier tipo de soporte analógico o numérico apropiado, que son convertidos en cada lectura, por medios de análisis de voz, en datos codificados que incluyan una representación semántica. De acuerdo con una tercera forma de realización, la información difundida por la plataforma 1 no está preparada de antemano, sino que es generada por un sistema de síntesis de mensajes en función, por ejemplo, de las respuestas suministradas por el usuario en el caso de un teleservicio interactivo IVR.

La plataforma 1 contiene además, preferentemente, medios de análisis de voz que permitan analizar las respuestas del usuario en el caso de un sistema interactivo. La plataforma 1 puede además comprender medios de tratamiento aptos para ejecutar. cualquier tipo de aplicación apropiada según el tipo de teleservicio y las órdenes dadas por el usuario, por ejemplo cargar una cuenta bancaria en el caso de un servicio de telebanking interactivo, o grabar una respuesta del usuario. Los medios de gestión de diálogo, de análisis de voz, de generación de mensajes y de tratamiento están preferentemente implementados en forma de módulos informáticos susceptibles de ser ejecutados por medios de tratamiento 12. Estos módulos o programas pueden por ejemplo ser almacenados en un soporte de datos informático, tal como disco duro, disquete o CD--ROM, por ejemplo, susceptible de ser leído y ejecutado por un dispositivo programable integrante de la plataforma 1. La plataforma 1 contiene, además, un interfase 11 que permite conectarla a la red de telecomunicación 4, en este caso una red de transmisión de paquetes de tipo internet. La plataforma 1 constituye por tanto, en este ejemplo, un servidor de información de internet.

El sistema según la invención comprende, además, una pluralidad de puntos de acceso a la red distribuidos 2. Unicamente dos puntos de acceso a la red 2 están representados en la Fig. 1; el número de puntos de acceso a la red puede no obstante ser uno cualquiera y depende principalmente del tamaño de la red de telecomunicación 4. En este ejemplo los puntos de acceso a la red están constituidos por puntos de presencia POP en la red internet. Los puntos de acceso a la red 2 comprenden, en general, un interfase 21 que les permita ser conectados a la red 4, medios de tratamiento 20, así como una memoria caché 22 cuya función se describirá más adelante. Los puntos de acceso a la red 2 comprenden, además, medios de interfase no ilustrados, por ejemplo medios de tipo módem, con una red de acceso 3, por ejemplo con una red de telefonía fija o móvil convencional o con una red RNIS o CATV.

Los medios de tratamiento 20 comprenden medios de síntesis de voz, implementados, por ejemplo, en forma de un módulo informático ejecutable por un procesador universal. Los medios de síntesis de voz permiten convertir los mensajes vocales codificados en forma semántica en señales de audio fonéticas. Diferentes algoritmos y programas comerciales, designados en general con el nombre de algoritmos TTS (Text-To-Speech), son conocidos a tal fin en el estado de la técnica. Es evidente que el algoritmo de síntesis de voz utilizado debe ser compatible con la codificación semántica adoptada por la plataforma centralizada 1, y ser por ejemplo apto, en su caso, para reconocer marcadores prosódicos, u otras informaciones de caracterización de la voz, insertados en el fichero de texto. Ventajosamente, el algoritmo de síntesis de voz puede pues ser telecargado desde la plataforma centralizada 1 a través de la red internet. Resulta así posible actualizar fácilmente todos los puntos de acceso 2 cuando se producen modificaciones del algoritmo de codificación semántica utilizado por la plataforma 1.

El punto de acceso a la red 2 está ventajosamente constituido por un ordenador, por ejemplo por un ordenador polivalente o por un servidor de comunicación especializado, que ejecute un programa informático apropiado, memorizado en un soporte de datos informáticos adecuado.

La memoria caché 22, que puede ser gestionada por cualquier algoritmo conocido, memoriza temporalmente los mensajes vocales transmitidos desde la plataforma centralizada 1 a través de la red 4. La memoria de tipo caché puede ya sea memorizar la representación semántica de los mensajes codificados, lo cual permite reducir considerablemente el tamaño de memoria requerido, o bien las señales de audio sintetizadas para limitar el número de conversiones necesarias. La memoria caché puede, por ejemplo, ser actualizada en intervalos regulares, por ejemplo 4 veces al día en el caso de un teleservicio de informaciones meteorológicas, o después de un número predefinido de consultas por los usuarios, o únicamente cuando se produzca una consulta por el usuario, si se constata que los datos en la memoria caché son demasiado antiguos para ser fiables.

El procedimiento según la invención, ejecutado por el dispositivo de la Fig. 1, será explicado a continuación con ayuda de un ejemplo sencillo de teleservicio que difunda informaciones meteorológicas. Queda bien entendido que se trata de una aplicación dada a título de ejemplo no limitativo, que permita comprender fácilmente el procedimiento de la invención, pero que la invención puede aplicarse igualmente a todo tipo de sistema de difusión de informaciones vocales.

El usuario que desee escuchar las previsiones meteorológicas por medio de un sistema de teleservicio según la invención marcará en su terminal 30 el número de llamada del servicio en cuestión, en Suiza por ejemplo el número 162. Se establece entonces una comunicación a través de la red de acceso convencional 3 con el punto de acceso a la red 2 más próximo, por ejemplo con el proveedor de acceso a internet más próximo. Según la densidad de puntos de acceso a la red 2, esta conexión puede establecerse con tarifa local, y por tanto con un coste muy módico. El usuario y el proveedor del teleservicio evitan así tenerse que compartir el costo de una comunicación telefónica entre el terminal 30 y el dispositivo 1, generalmente más alejado.

Después del establecimiento de la comunicación, los medios de tratamiento 20 en el punto de acceso a la red 2 verifican si las informaciones requeridas, en este caso las previsiones meteorológicas, están contenidas en la memoria caché 22. Si ello es el caso, y si los datos memorizados son fiables, el contenido de la memoria caché es leído y estas informaciones pueden ser escuchadas por el usuario. Si la memoria caché 22 contiene informaciones ya sintetizadas en forma de señal sonora, esta señal puede ser directamente emitida, por medio del interfase no ilustrado con la red de acceso 3, y escuchada por medio del altavoz en el dispositivo 30. Si por el contrario la memoria caché 22 contiene únicamente la representación semántica de los mensajes codificados, por ejemplo un fichero de texto con eventualmente marcadores prosódicos, este fichero es convertido por los medios de tratamiento 20 en una señal de audio mediante un módulo de síntesis de voz TTS, y luego transmitido al dispositivo 30.

Cuando la memoria caché 22 no contiene las informaciones actualizadas requeridas por el usuario, o si el dispositivo 2 no comprende una memoria caché, el punto de acceso a la red envía una requisición a la plataforma 1 a través de la red de transmisión de paquetes 4. En el caso de una red internet, esta requisición puede estar por ejemplo constituida por un mensaje de internet dirigido a la plataforma 1.

En el caso de un teleservicio monodireccional, es decir de un teleservicio en el cual la información circule únicamente desde la plataforma 1 hacia el usuario, la plataforma 1 generará la información requerida y la enviará al punto de acceso 2 elegido en forma de un mensaje vocal codificado incluyendo una representación semántica de la información. El mensaje vocal enviado por la plataforma 1 puede estar constituido, en este ejemplo, por un simple fichero en modo texto o seudotexto indicando las previsiones meteorológicas solicitadas. Sin embargo, dentro del ámbito de la presente invención puede utilizarse cualquier otro tipo de codificación semántica, por ejemplo una codificación con un alfabeto fonético, o una codificación que utilice marcadores prosódicos.

El volumen de información transmitido es muy reducido, debido a la codificación semántica, y puede por tanto ser transmitido muy rápidamente a través de la red de telecomunicación 4. El punto de acceso a la red 2 convierte entonces el mensaje codificado en forma semántica en señal de audio gracias a los citados medios de síntesis de voz, y transmite, como arriba indicado, esta señal de audio al usuario a través de la red de acceso 3. El usuario puede entonces escuchar esta señal de audio por medio del altavoz del dispositivo 30.

En el caso de un teleservicio bidireccional, por ejemplo de un teleservicio interactivo que permita al usuario influenciar el funcionamiento de la plataforma 1, la plataforma 1 puede enviar una pregunta al usuario, por ejemplo solicitarle qué informaciones desea exactamente escuchar. Así por ejemplo, la plataforma 1 puede enviar un mensaje vocal al usuario 1 solicitándole el nombre de la región a la que debe referirse el boletín meteorológico. Este mensaje vocal es transmitido en forma semántica hacia la plataforma 2, y luego convertido de la manera indicada en una señal de audio que puede ser escuchada por el usuario del terminal 30. El usuario puede entonces responder, ya sea mediante el teclado del dispositivo 30 ó bien preferentemente de forma vocal.

En el caso de una respuesta vocal, el punto de acceso a la red 2 convierte, gracias a medios de análisis de voz realizados en forma de un módulo informático ejecutable por los medios de tratamiento 20, esta respuesta en un mensaje codificado en forma semántica, y transmite esta respuesta a la plataforma 1. Los medios de tratamiento adoptan entonces un comportamiento dependiente de la respuesta, y ejecutan un procedimiento apropiado en función de la aplicación. En el caso de un teleservicio de difusión de boletines meteorológicos, el procedimiento puede por ejemplo consistir en la difusión de un boletín correspondiente a la región seleccionada.

Este boletín es entonces transmitido de la manera descrita, codificado en forma semántica y convertido en señal de audio por el punto de acceso 2 a fin de poder ser escuchado por el usuario. Según el algoritmo de gestión elegido para el caché 22, este mensaje puede también ser copiado en dicho caché.

En el caso más sencillo, el formato de los mensajes codificados en forma semántica es simplemente de tipo texto. Así por ejemplo, simples ficheros ASCII pueden ser intercambiados entre la plataforma 1 y los puntos de acceso a la red 2. Un fichero de texto no contiene, no obstante, parámetro alguno que caracterice la voz del lector, y no permite sintetizar fácilmente una voz natural. Para mejorar la síntesis es preferible transmitir un fichero de seudotexto que contenga marcadores prosódicos suplementarios encima del texto.

Naturalmente es posible transmitir solamente una parte del mensaje codificado en forma semántica, y otra parte, u otros tipos de mensajes, en forma de datos de audio.

Según el tipo de aplicación de teleservicio ocurre frecuentemente que el vocabulario de los mensajes susceptibles de ser intercambiados no sea ilimitado. Así por ejemplo, en un sistema interactivo puede ocurrir que las únicas respuestas que se espere del usuario sean instrucciones del tipo si o no. En este caso, la transcripción semántica de los mensajes vocales puede ser simplificada: en lugar de transmitir las letras S, I o N, O según la respuesta del usuario, es suficiente transmitir un solo bit 1 ó 0. La relación de compresión obtenida, con respecto a una transmisión de una respuesta de tipo si o no en forma de señal de audio, es del orden de varios miles al menos. De la misma manera, para cada aplicación que implique mensajes susceptibles de ser transmitidos frecuentemente a través de la red de telecomunicación 4, es posible optimizar la codificación reduciendo el número de bits utilizados para codificar estos mensajes repetitivos. De manera ideal, cuando el vocabulario de los mensajes intercambiados por el procedimiento según la invención esté perfectamente determinado de antemano, la codificación semántica de las palabras del vocabulario puede efectuarse de tal modo que se minimice el número de bits de codificación de cada palabra, teniendo en cuenta eventualmente la probabilidad de transmisión de cada palabra (código de longitud variable). Esta transcripción, que es también de tipo semántico, es generalmente más eficaz que la transcripción literal de cada letra de las palabras que designan un sema en un idioma dado. La codificación semántica puede también estar basada en una predicción de las respuestas del usuario y evolucionar de manera dinámica en el transcurso del diálogo (representación de la predicción semántica). Tal como ya se ha mencionado, un mínimo de información que caracterice la voz y/o la prosodia puede ventajosamente ser transmitido por ejemplo en forma de marcadores prosódicos incorporados en la representación semántica.

Para reducir aún más el tamaño de los mensajes, los mensajes semánticos pueden ventajosamente ser transcodificados por medio de un código de reducción de redundancia, por ejemplo por medio de un código de Huffman o de Ziv-Lempel.

Los mensajes transmitidos codificados en forma semántica contienen la información sobre el contenido del mensaje.Es posible, en el nivel de cada punto de acceso a la red 2, atribuir otra voz a los mensajes convertidos en señales de audio. Así por ejemplo, la voz aplicada al mismo mensaje podrá ser masculina o femenina, según el punto de acceso 2 que efectúe la conversión de texto en voz. Diferentes distribuidores de información, que revendan las informaciones proporcionadas por la plataforma 1, pueden de este modo fácilmente personalizar su teleservicio. También es posible instaurar, al inicio de la comunicación, un diálogo que permita al usuario elegir una voz que le convenga.

La flexibilidad del sistema puede ser ampliada aún más adaptando el idioma del contenido de las señales de audio sintetizadas a partir de la representación semántica de los mensajes. En el ejemplo arriba mencionado, una respuesta positiva codificada en forma semántica por un bit 1 puede con la misma facilidad ser convertida en un extracto de voz que diga "si", "yes" o "ja", por ejemplo. Lo propio vale para todos los mensajes intercambiados entre la plataforma 1 y los puntos de acceso 2, cuando su semántica pueda exprimirse fácilmente en diferentes idiomas. De esta manera, cada gestor de un punto de acceso a la red 2 puede convertir los mensajes codificados en forma semántica en mensajes de audio exprimidos en el idioma predominante en el emplazamiento geográfico en cuestión. También es posible ofrecer al usuario posibilidades de selección de idioma, por medio de órdenes vocales o a través de su teclado, o de utilizar un algoritmo que reconozca automáticamente el idioma del usuario llamante para suministrarle a continuación las informaciones solicitadas en dicho idioma. El idioma de los mensajes de audio sintetizados puede también ser determinado según las indicaciones proporcionadas por el fichero de cliente de los abonados al servicio.

La precedente descripción evoca más particularmente el caso de un usuario que llame a la plataforma de teleservicio 1 por medio de un conjunto telefónico fijo o móvil. Sin embargo, es posible utilizar, en lugar de un teléfono, cualquier otro tipo de segundo dispositivo 30 que permita establecer una comunicación a través de la red de telecomunicación de transmisión de paquetes 4 y esté provisto de medios de emisión acústicos, por ejemplo de un altavoz, que permita escuchar los mensajes vocales difundidos por la plataforma 1. Así por ejemplo, el segundo dispositivo 30 puede estar constituido por un ordenador personal o portátil dotado de un módem y de un altavoz (terminal inteligente).

En este caso, ciertas operaciones, delegadas en el ejemplo de la forma de realización arriba descrita a la plataforma 1 ó al punto de acceso a la red 2, pueden ser realizadas por el terminal inteligente 30. Así por ejemplo, si el terminal está provisto de medios que permitan conectarlo directamente a la red de transmisión de paquetes 4, la síntesis de voz puede efectuarse por el terminal inteligente en lugar de por el punto de acceso a la red 2. El punto de acceso a la red 2 puede incluso suprimirse si el terminal está en condiciones de conectarse directamente con la plataforma 1 a través de la red 4. Así por ejemplo, en el caso en que la red 4 sea una red de tipo internet, y la plataforma 1 un servidor vocal conectado a internet, es posible, por medio de un ordenador también conectado a internet, recibir mensajes vocales codificados en forma semántica y difundidos por la plataforma 1 y convertir estos mensajes codificados en señales de audio, preferentemente por medio de un programa de síntesis de voz preferentemente telecargado desde la plataforma 1. El programa de síntesis de voz puede estar ventajosamente realizado en forma de un módulo informático de tipo "plug-in" para un programa de consulta (browser) de documentos hipermedia transmitidos a través de la red internet.

La invención puede además aplicarse al intercambio de informaciones vocales entre dos usuarios, por ejemplo entre los usuarios de dos conjuntos telefónicos 30 A y B en la Fig. 1. La voz del usuario A es entonces analizada y convertida en un mensaje codificado, que incluya una representación semántica, por los medios de tratamiento 20 del punto de acceso a la red 2 más próximo a A. Este mensaje codificado es entonces transmitido a través de la red de transmisión de paquetes 4 hacia el punto de acceso a la red 2 más próximo a B, donde es sintetizado por los medios de síntesis de la unidad de tratamiento 20 en una señal de audio, que es transmitida a B por medio de la conexión local a través de la red de acceso 3. Las respuestas de B son transmitidas a A de manera similar en sentido inverso. Este procedimiento permite, por ejemplo, conexiones de larga distancia con tarifas imbatibles, merced a la compresión muy importante obtenida por la codificación semántica y a la transmisión por paquetes. El reducido tamaño de los mensajes codificados en forma semántica permite efectuar diálogos en tiempo real incluso aunque la red 4 esté muy cargada, lo cual no es siempre el caso en los sistemas conocidos de telefonía por internet ("internet vocal chat"), en los cuales se transmiten datos audionuméricos. El precio a pagar es naturalmente una pérdida importante de información relativa a la dicción o a la pronunciación del interlocutor, cuya voz es reemplazada por la voz impersonal del sintetizador de voz.

Para paliar este inconveniente es posible, si A y B celebran frecuentemente conversaciones, que se expidan, una sola vez, un fichero conteniendo parámetros de caracterización de sus voces y que permita a los respectivos medios de síntesis de voz sintetizar, a partir de los mensajes recibidos, voces lo más próximas posible a las de B y A, respectivamente.

Este procedimiento puede además ser utilizado en combinación con un procedimiento de telefonía por internet clásico, para paliar el problema de lentitud de transmisión de señales de audio a través de la red 4. En este caso, los mensajes son transmitidos de manera clásica, en forma de datos audionuméricos o analógicos. Simultáneamente, un mensaje conteniendo la transcripción semántica del mensaje de audio, de tamaño netamente inferior al del mensaje de audio, es transmitido en paralelo. Este mensaje es generalmente recibido completamente bastante antes que el mensaje de audio. Si, al cabo de un intervalo de tiempo predeterminado, el mensaje de audio no ha llegado todavía a su destinatario, un nuevo mensaje de audio es sintetizado en el nivel del destinatario a partir del mensaje codificado en forma semántica, y este nuevo mensaje es difundido al destinatario sin esperar la recepción completa del mensaje de audio original. La síntesis del nuevo mensaje de audio a partir del mensaje codificado en forma semántica puede ventajosamente ser efectuada utilizando el conocimiento de los parámetros de la voz del interlocutor, adquirido con ocasión de anteriores intercambios de mensajes. Este procedimiento permite además al destinatario disponer de una transcripción escrita del mensaje vocal.

Este procedimiento de comunicación directa entre dos interlocutores A y B resulta ser particularmente interesarte cuando el idioma de las señales de audio sintetizadas a partir de los mensajes transmitidos modificados en forma semántica es diferente para A y para B. En este caso, es posible realizar sistemas de traducción automática en tiempo real solicitando muy poco la red de comunicación. Los mensajes vocales de A, por ejemplo en francés, son convertidos en mensajes que no contengan más que una información semántica en el nivel del punto de acceso a la red más próximo a A, y luego son transmitidos de esta forma codificada hasta el punto de acceso a la red más próximo a B. En este punto de acceso a la red es sintetizada una señal de audio en otro idioma, por ejemplo en japonés, a partir de las informaciones semánticas recibidas, y luego difundida en japonés a la atención de B. Las respuestas de B son transmitidas a A y traducidas del japonés al francés de manera opuesta.

Claims

1. Sistema de difusión de informaciones vocales a través de una red de telecomunicación (4), comprendiendo los elementos siguientes:

: al menos un primer dispositivo (1) conectado a dicha red de telecomunicación y que comprenda medios (10) aptos para difundir mensajes en dicha red,

: al menos un segundo dispositivo (30) que permita establecer a través de dicha red de telecomunicación (4) una comunicación con dicho primer dispositivo (1), y esté provisto de medios de emisión acústicos que permitan escuchar señales de audio correspondientes a dichos mensajes difundidos por dicho primer dispositivo,

caracterizado porque dichos mensajes son transmitidos a través de dicha red de telecomunicación de forma codificada, incluyendo dicho código una representación semántica de los mensajes, y porque dichos segundos dispositivos (30) están conectados a dicha red de telecomunicación (4) a través de uno o varios puntos de acceso a la red (2) distribuidos y que comprendan medios de síntesis de voz (20) aptos para convertir dichos mensajes codificados en señales de audio.

2. Sistema según la reivindicación precedente, caracterizado porque dicho primer dispositivo (1) es una plataforma para un sistema de teleservicio vocal automático.

3. Sistema según una de las reivindicaciones precedentes, caracterizado porque comprende varios puntos de acceso a la red (2) distribuidos geográficamente, y porque los mensajes expedidos por dicho primer dispositivo (1) con destino a uno de dichos segundos dispositivos (30) son transmitidos de forma codificada hasta un punto de acceso a la red (2) próximo a dicho segundo dispositivo, sintetizados en señales de audio en dicho punto de acceso a la red (2), y transmitidos en forma de señales de audio entre dicho punto de acceso a la red (2) y dicho segundo dispositivo (30).

4. Sistema según una de las reivindicaciones precedentes, caracterizado porque dicho al menos un segundo dispositivo (30) está vinculado a dicho al menos un punto de acceso a la red (2) a través de una red de acceso (3).

5. Sistema según una de las reivindicaciones precedentes, caracterizado porque dicha red de telecomunicación (4) es una red de transmisión de paquetes.

6. Sistema según una de las reivindicaciones precedentes, caracterizado porque dicha red de telecomunicación (4) es una red de tipo internet, y porque dicho al menos un segundo dispositivo (30) es un terminal de internet.

7. Sistema según la reivindicación precedente, caracterizado, porque dicha red es una red de transmisión de paquetes, y porque varios mensajes pueden ser multiplexados en el interior de cada paquete.

8. Sistema según una de las reivindicaciones precedentes, caracterizado porque dichos puntos de acceso a la red (2) comprenden medios de reconocimiento de voz (20) aptos para convertir señales de audio procedentes de dicho al menos un segundo dispositivo (30) en mensajes codificados incluyendo una representación semántica de dichas señales, así como medios para enviar dichos mensajes codificados por dicha red de telecomunicación (4), y porque dicho al menos un primer dispositivo (1) es apto para recibir dichos mensajes codificados.

9. Sistema según la reivindicación precedente, caracterizado porque dicha plataforma para un sistema de teleservicio vocal automático (1) permite diálogos interactivos y es apta para analizar dichos mensajes codificados enviados por dicho al menos un segundo dispositivo (30) y para difundir una respuesta por dicha red de telecomunicación (4) en función de dichos mensajes recibidos.

10. Sistema según una de las reivindicaciones precedentes, caracterizado porque dichos medios para difundir mensajes por dicha red comprenden medios de almacenamiento (10) de dichos mensajes codificados incluyendo una representación semántica, así como medios de lectura de dichos mensajes almacenados.

11. Sistema según una de las reivindicaciones precedentes, caracterizado porque dichos medios para difundir mensajes por dicha red comprenden medios de almacenamiento (10) de dichos mensajes en forma de señales de audio y medios de lectura de dichos mensajes almacenados y de reconocimiento de voz aptos para convertir dichas señales de audio en mensajes codificados incluyendo una representación semántica.

12. Sistema según una de las reivindicaciones precedentes, caracterizado porque dicha representación semántica optimiza la longitud de mensajes codificados susceptibles de ser transmitidos frecuentemente a través de dicha red.

13. Sistema según una de las reivindicaciones precedentes, caracterizado porque dicho código incluye una representación de la predicción semántica de los mensajes.

14. Sistema según una de las reivindicaciones precedentes, caracterizado porque dichos mensajes codificados incluyen informaciones caracterizadoras de la voz y/o la prosodia.

15. Sistema según una de las reivindicaciones precedentes, caracterizado porque dicho al menos un punto de acceso a la red (2) comprende una memoria de tipo caché (22) que memoriza los mensajes enviados por dicho primer dispositivo (1).

16. Sistema según la reivindicación precedente, caracterizado porque dicha memoria de tipo caché (22) almacena los mensajes de forma codificada, incluyendo una representación semántica.

17. Sistema según la reivindicación 15, caracterizado porque dicha memoria de tipo caché (22) almacena los mensajes de audio sintetizados a partir de dichos mensajes codificados.

18. Sistema según una de las reivindicaciones precedentes, caracterizado porque al menos ciertos medios de síntesis de voz (20), aptos para convertir dichos mensajes codificados en señales de audio, están integrados en un segundo dispositivo (30).

19. Sistema según la reivindicación precedente, caracterizado porque dichos medios de síntesis de voz están implementados en forma de un módulo "plug-in" para un buscador de internet.

20. Sistema según una de las reivindicaciones precedentes, caracterizado porque dichos medios de síntesis de voz (20), aptos para convertir dichos mensajes codificados incluyendo una representación semántica en señales de audio, están programados por medio de un módulo informático, y porque dicho primer dispositivo (1) y dicho al menos un punto de acceso a la red (2) comprenden medios complementarios y aptos para cooperar para telecargar dicho módulo informático desde dicho primer dispositivo (1) hacia dicho al menos un punto de acceso a la red (2).

21. Sistema según una de las reivindicaciones 3 a 20, caracterizado porque comprende varios puntos de acceso a la red (2) distribuidos sobre varias regiones geográficas, y porque el idioma de dichas señales de audio sintetizadas a partir de dichos mensajes codificados por dichos medios de síntesis de voz (20) depende del idioma predominante en el emplazamiento geográfico de dicho punto de acceso (2).

22. Sistema según una de las reivindicaciones precedentes, caracterizado porque el idioma de dichas señales de audio sintetizadas a partir de dichos mensajes codificados es determinado por el usuario de dicho al menos un segundo dispositivo (30).

23. Plataforma para sistema de teleservicio vocal automático (1) apto para ser conectado a una red de telecomunicación (4) y comprendiendo medios para generar mensajes vocales y difundirlos por dicha red de telecomunicación (4), caracterizada porque dichos mensajes son difundidos por dicha red de telecomunicación de forma codificada, incluyendo dicho código una representación semántica de dichos mensajes.

24. Plataforma según la reivindicación precedente, caracterizada porque dichos medios para difundir mensajes por dicha red están constituidos por medios de almacenamiento (10) de dichos mensajes codificados y por medios de lectura de dichos mensajes almacenados.

25. Plataforma según la reivindicación 23, caracterizada porque dichos medios para difundir mensajes por dicha red comprenden medios de almacenamiento (10) de dichos mensajes en forma de señales de audio y medios de lectura de dichos mensajes almacenados y de reconocimiento de voz aptos para convertir dichas señales de audio en mensajes codificados incluyendo una representación semántica.

26. Plataforma según una de las reivindicaciones 23 a 25, caracterizada porque permite diálogos interactivos y es apta para analizar mensajes codificados incluyendo una representación semántica, recibidos a través de dicha red (4), y para difundir una respuesta en función de dichos mensajes recibidos.

27. Plataforma según una de las reivindicaciones 23 a 26, caracterizada porque dicha representación semántica optimiza la longitud de mensajes codificados susceptibles de ser transmitidos frecuentemente a través de dicha red.

28. Plataforma según una de las reivindicaciones 23 a 27, caracterizada porque dicho código incluye una representación de la predicción semántica de los mensajes.

29. Plataforma según una de las reivindicaciones 23 a 28, caracterizada porque dichos mensajes codificados incluyen informaciones caracterizadoras de la voz y/o la prosodia.

30. Plataforma según una de las reivindicaciones 23 a 29, caracterizada porque es apta para ser conectada a una red de telecomunicación (4) de transmisión de paquetes.

31. Plataforma según una de las reivindicaciones 23 a 30, caracterizada porque es apta para ser conectada a una red de telecomunicación (4) de tipo internet.

32. Plataforma según una de las reivindicaciones 23 a 31, caracterizada porque comprende medios que permiten teleexportar a través de dicha red de telecomunicación (4) un módulo informático de síntesis de voz que permita convertir dichos mensajes codificados, incluyendo una representación semántica, en señales de audio.

33. Punto de acceso a la red (2) apto para ser conectado a una red de telecomunicación de transmisión de paquetes y comprendiendo medios para establecer una comunicación con otro dispositivo (1) conectado a dicha red y para recibir mensajes, concretamente mensajes vocales difundidos por dicho otro dispositivo, caracterizado porque comprende medios de síntesis de voz (20) aptos para convertir mensajes vocales codificados incluyendo una representación semántica, difundidos por dicho otro dispositivo (1), en señales de audio, así como medios para enviar a través de una red de acceso (3) dichas señales de audio hacia al menos un segundo dispositivo (30).

34. Punto de acceso a la red (2) según la reivindicación precedente, caracterizado porque comprende medios de reconocimiento de voz aptos para convertir señales de audio recibidas de dicho al menos un segundo dispositivo (30) en mensajes codificados incluyendo una representación semántica, así como medios (21) para enviar dichos mensajes codificados en forma semántica por dicha red de telecomunicación de transmisión de paquetes (4).

35. Punto de acceso a la red (2) según una de las reivindicaciones 33 ó 34, caracterizado porque dicha representación semántica optimiza la longitud de mensajes codificados susceptibles de ser transmitidos frecuentemente a través de dicha red.

36. Punto de acceso a la red (2) según una de las reivindicaciones 33 a 35, caracterizado porque dicho código incluye una representación de la predicción semántica de los mensajes.

37. Punto de acceso a la red (2) según una de las reivindicaciones 33 a 36, caracterizado porque dichos mensajes codificados incluyen informaciones caracterizadoras de la voz y/o la prosodia.

38. Punto de acceso a la red (2) según una de las reivindicaciones 33 a 37, caracterizado porque comprende una memoria de tipo caché (22) para los mensajes recibidos.

39. Punto de acceso a la red (2) según la reivindicación precedente, caracterizado porque dicha memoria de tipo caché (22) almacena los mensajes de forma codificada incluyendo una representación semántica.

40. Punto de acceso a la red (2) según la reivindicación precedente, caracterizado porque dicha memoria de tipo caché (22) almacena los mensajes de audio sintetizados a partir de dichos mensajes codificados.

41. Punto de acceso a la red (2) según una de las reivindicaciones 33 a 40, caracterizado porque comprende medios para enviar señales de audio sintetizadas a partir de dichos mensajes codificados o para recibir señales de audio que deban ser codificadas en dicha red de telecomunicación.

42. Punto de acceso a la red (2) según una de las reivindicaciones 33 a 41, caracterizado porque dicha red de telecomunicación (4) es una red de tipo internet.

43. Punto de acceso a la red (2) según una de las reivindicaciones 33 a 42, caracterizado porque comprende medios que permitan elegir el idioma del contenido de dichas señales de audio obtenidas a raíz de dicha conversión de los mensajes codificados en forma semántica.

44. Procedimiento de comunicación entre una plataforma para sistema de teleservicio vocal automático (1) y al menos un segundo dispositivo (30) conectado a dicha plataforma a través de un punto de acceso a la red (2) y de una red de telecomunicación, caracterizado por las siguientes etapas:

: dicho segundo dispositivo (30) solicita el establecimiento de una conexión a través de dicho punto de acceso a la red (2) con dicha plataforma (1),

: dicha conexión es establecida a través de dicha red de telecomunicación (4),

: dicha plataforma (1) difunde al menos un mensaje vocal codificado en forma semántica, que es transmitido a través de dicha red de telecomunicación (4) hacia dicho punto de acceso a la red (2),

: dicho punto de acceso a la red (2) convierte, gracias a medios de síntesis de voz (20), dichos mensajes codificados en corma semántica en señales de audio,

: dichas señales de audio son transferidas hacia dicho segundo dispositivo (30) donde pueden ser escuchadas por el usuario de dicho segundo dispositivo.

45. Procedimiento según la reivindicación precedente, caracterizado porque comprende, además, al menos una vez la sucesión de las siguientes operaciones:

: dicho segundo dispositivo (30) transmite al menos una señal de audio a dicho punto de acceso a la red (2),

: dicho punto de acceso a la red (2) convierte dicha o dichas señales de audio en mensaje codificado en forma semántica gracias a medios de reconocimiento de voz (20),

: dicho punto de acceso a la red (2) envía hacia dicha plataforma (1), a través de dicha red de telecomunicación (4), dicho o dichos mensajes codificados en forma semántica,

: dicha plataforma (1) recibe dicho o dichos mensajes codificados en forma semántica.

46. Procedimiento según la reivindicación precedente, caracterizado porque comprende una etapa en el curso de la cual dicha plataforma (1) analiza dichos mensajes vocales codificados en forma semántica, enviados por dicho al menos un segundo dispositivo (30), y determina una respuesta a enviar por dicha red de telecomunicación (4) en función de dichos mensajes recibidos.

47. Procedimiento según una de las reivindicaciones 44 a 46, caracterizado porque dicha codificación de mensaje en forma semántica optimiza la longitud de mensajes codificados susceptibles de ser transmitidos frecuentemente a través de dicha red.

48. Procedimiento según una de las reivindicaciones 44 a 47, caracterizado porque dicho código incluye una representación de la predicción semántica de los mensajes.

49. Procedimiento según una de las reivindicaciones 44 a 48, caracterizado porque dicha codificación de mensaje en forma semántica utiliza informaciones caracterizadoras de la voz y/o la prosodia.

50. Procedimiento según una de las reivindicaciones 44 a 49, caracterizado porque los mensajes recibidos de dicha plataforma (1) son almacenados en una memoria de tipo caché (22).

51. Procedimiento según la reivindicación precedente, caracterizado porque dicha memoria de tipo caché (22) almacena los mensajes codificados en forma semántica.

52. Procedimiento según la reivindicación 50, caracterizado porque dicha memoria de tipo caché (22) almacena los mensajes descodificados en forma de señales de audio.

53. Procedimiento según una de las reivindicaciones 44 a 52, caracterizado porque dicha red de telecomunicación (4) es una red de transmisión de paquetes.

54. Procedimiento según una de las reivindicaciones 44 a 53, caracterizado porque dicha red de telecomunicación (4) es una red de tipo internet.

55. Procedimiento según la reivindicación precedente, caracterizado porque dicha red es una red de transmisión de paquetes, y porque varios mensajes pueden ser multiplexados en el interior de cada paquete.

56. Soporte de datos informáticos susceptible de ser leído por un dispositivo programable conectado a una red internet, caracterizado porque almacena un programa de instrucciones ejecutable por dicho dispositivo para ejecutar las operaciones efectuadas por dicho punto de acceso a la red en el procedimiento según una de las reivindicaciones 44 a 55.

57. Soporte de datos informáticos susceptible de ser leído por un dispositivo programable conectado a una red internet, caracterizado porque almacena un programa de instrucciones ejecutable por dicho dispositivo para ejecutar las operaciones efectuadas por dicha plataforma para sistema de teleservicio vocal automático (1) en el procedimiento según una de las reivindicaciones 44 a 55.

58. Sistema de difusión de informaciones vocales a través de una red de telecomunicación de transmisión de paquetes (4), comprendiendo los siguientes elementos:

: medios (10) de difusión de mensajes por dicha red y de gestión de diálogo con el usuario,

: medios (20) de síntesis de voz,

caracterizado porque dichos medios de difusión de mensajes por dicha red y de gestión de diálogo con el usuario están centralizados en una plataforma para sistema de teleservicio vocal automático (1), porque dichos medios de síntesis de voz están distribuidos en una pluralidad de puntos de acceso a la red (2) repartidos en dicha red (4), y porque dichos mensajes son transmitidos entre dicha plataforma (1) y dichos puntos de acceso a la red (2) de forma codificada, incluyendo dicho código una representación semántica de los mensajes.

59. Sistema según la reivindicación precedente, caracterizado porque el usuario puede escuchar dichos mensajes estableciendo una conexión con uno de dichos puntos de acceso a la red a través de una red de telecomunicación (3).