WO2021028501A1

WO2021028501A1 - Procédé et système d'enrichissement d'un contenu numérique représentatif d'une conversation

Info

Publication number: WO2021028501A1
Application number: PCT/EP2020/072671
Authority: WO
Inventors: Vincent Lorphelin
Original assignee: 100 Brevets Pour La French Tech
Current assignee: 100 Brevets Pour La French Tech
Priority date: 2019-08-12
Filing date: 2020-08-12
Publication date: 2021-02-18
Anticipated expiration: 2022-02-12
Also published as: US20220254336A1; US20260105097A1; US12154553B2

Abstract

Le procédé (3000) d'enrichissement d'un contenu numérique représentatif d'une conversation comporte : de manière itérative : une étape (3005) de capture d'un signal audio représentatif d'un message vocal, une étape (3010) de segmentation du message vocal en un segment, ladite étape de segmentation comportant une étape de détection de silence, le segment étant obtenu en fonction de la détection d'un silence, une étape (3015) de conversion en texte, dit « contribution », du segment audio et une étape (3020) de stockage, dans une mémoire, d'une contribution, puis : une étape (3025) de détection de sentiment d'utilisateur vis-à-vis d'au moins une contribution stockée, une étape (3030) d'association, dans une mémoire et en relation avec au moins une contribution stockée, d'au moins un attribut correspondant à au moins un sentiment détecté et une étape (3035) d'affichage d'au moins une contribution stockée et d'au moins un attribut vis-à-vis d'au moins une dite contribution.

Description

PROCÉDÉ ET SYSTÈME D’ENRICHISSEMENT D’UN CONTENU NUMÉRIQUE REPRÉSENTATIF

D’UNE CONVERSATION

DOMAINE TECHNIQUE DE L’INVENTION

La présente invention vise un procédé et un système d’enrichissement d’un contenu numérique représentatif d’une conversation. Elle s’applique, notamment, au domaine de la communication numérique.

ÉTAT DE LA TECHNIQUE

Les réseaux sociaux tels Whatsapp (Marque déposée) ou Facebook Messenger (Marque déposée) sont connus pour permettre aux utilisateurs d’échanger des informations de manière asynchrone, de se regrouper par projet ou centre d’intérêt, de créer des carnets d’adresses et des listes de destinataires de ces informations.

Dans un contexte professionnel, Slack (Marque déposée) est un logiciel de communication collaborative associé à un logiciel de gestion de projets. D’autres modules permettent le partage de fichiers, la messagerie instantanée, les appels vocaux, les appels de vidéoconférence, le partage d'écran et l’archivage consultable de documents.

Pour faciliter la collaboration, la communication a lieu dans des chaînes de conversations organisées par projet, par thème ou par équipe. Les conversations sont consultables par tous dans l’entreprise grâce à des mots-dièse ou un moteur de recherche textuel, ce qui facilite le partage de connaissances. D’autres outils comme Salesforce (Marque déposée) ou Zoom (Marque déposée) peuvent être appelés par des boutons générés par les balises « /salesforce » ou « /zoom » saisies dans un message.

Toutefois, aucun de ces systèmes de communication ne permet d’obtenir, sous forme de données manipulables, les avis de participants vis-à-vis des différentes contributions à une conversation orale.

Pour aller dans le même sens, il n’existe pas de système permettant d’enrichir la communication, c’est-à-dire de transformer les messages des utilisateurs d’un réseau social pour permettre la lecture de ce que ces messages signifient sous une forme directement utilisable : compréhensible, synthétique, transmissible, graphique, pour provoquer, guider ou stimuler des actions d’utilisateurs du réseau, leur fournir un outil de recherche, de collecte et d’évaluation des contributions de chacun, et rendre plus efficace cette collaboration.

OBJET DE L’INVENTION

La présente invention vise à remédier à tout ou partie de ces inconvénients.

À cet effet, selon un premier aspect, la présente invention vise un procédé d’enrichissement d’un contenu numérique représentatif d’une conversation, qui comporte : de manière itérative : une étape de capture d’un signal audio représentatif d’un message vocal, une étape de segmentation du message vocal en un segment, ladite étape de segmentation comportant une étape de détection de silence, le segment étant obtenu en fonction de la détection d’un silence, une étape de conversion en texte, dit « contribution », du segment audio et une étape de stockage, dans une mémoire, d’une contribution, puis : une étape de détection de sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée, une étape d’association, dans une mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté et une étape d’affichage d’au moins une contribution stockée et d’au moins un attribut vis-à-vis d’au moins une dite contribution.

Grâce à ces dispositions, un ensemble de propositions dans un discours d’un utilisateur peut être décomposé en segments, chaque segment pouvant faire l’objet d’une association avec des sentiments distincts exprimés par des attributs numériques. Ces attributs numériques permettent de rendre la discussion orale manipulable de manière numérique en enrichissant son contenu.

Dans des modes de réalisation, l’étape de détection comporte : une étape de collecte d’un signal audio représentatif d’un message vocal émis par un utilisateur et une étape de détermination d’un sentiment en fonction du signal audio collecté.

Ces dispositions permettent de déterminer automatiquement et en temps réel le sentiment d’un utilisateur vis-à-vis d’une contribution.

Dans des modes de réalisation, l’étape de détection comporte : une étape de collecte d’un signal vidéo représentatif d’une attitude d’un utilisateur et une étape de détermination d’un sentiment en fonction du signal vidéo collecté.

Dans des modes de réalisation, l’étape de détection comporte : une étape de sélection par un utilisateur, via une interface homme-machine, d’une contribution stockée et une étape de sélection, par un utilisateur, via une interface homme-machine, d’un symbole représentatif d’un sentiment vis-à-vis de la contribution sélectionnée.

Ces dispositions permettent à un utilisateur de choisir parmi un ensemble d’attributs celui qui correspond le mieux vis-à-vis à une contribution.

Dans des modes de réalisation, le procédé objet de la présente invention, comporte : une étape de création automatique, selon une règle de création, d’une requête en fonction d’au moins un attribut de sentiment associé à au moins une contribution stockée et/ou d’au moins une contribution stockée et/ou d’au moins un signal audio capté, une étape de fourniture, via une interface homme machine, de la requête à au moins un utilisateur, une étape de détection d’une action d’au moins un utilisateur vis-à-vis de la requête et une étape de réalisation d’un traitement informatique en fonction d’au moins une action détectée, selon une règle de réalisation. Ces modes de réalisation permettent de réaliser, en cours de conversation ou après cette conversation, un traitement basé sur les contributions et attributs stockés.

Dans des modes de réalisation, la règle de création est évolutive, le procédé comportant une étape d’apprentissage par renforcement de la règle en fonction d’au moins une action détectée vis-à-vis de la requête.

Ces modes de réalisation permettent d’optimiser le déclenchement de la création d’une requête. Dans des modes de réalisation, la règle de réalisation est évolutive, le procédé comportant une étape d’apprentissage par renforcement de la règle en fonction d’au moins une action détectée vis-à-vis de la requête.

Ces modes de réalisation permettent d’optimiser le déclenchement de la réalisation d’un traitement associé à une requête.

Dans des modes de réalisation, le procédé objet de la présente invention comporte : une étape de détermination probabiliste d’au moins un attribut candidat à l’association avec une contribution stockée, une étape de validation ou d’infirmation de l’association déterminée et une étape d’association, dans une mémoire, d’au moins un attribut à une contribution stockée en cas de validation de l’association.

Ces modes de réalisation permettent d’ajouter des attributs à une contribution, lesdits attributs étant, par exemple, d’autres textes.

Dans des modes de réalisation, le procédé objet de la présente invention comporte : une étape de récapitulation de la discussion, en fonction d’au moins une contribution stockée et d’au moins un attribut associé audit texte et une étape de stockage de la discussion récapitulée.

Ces modes de réalisation permettent de compacter les contributions pour conserver celles dont l’importance est significative.

Selon un deuxième aspect, la présente invention vise un système d’enrichissement d’un contenu numérique représentatif d’une conversation, qui comporte : au moins un terminal informatique, chaque terminal informatique comportant : un capteur audio configuré pour capter un signal audio représentatif d’un message vocal, un moyen de calcul configuré pour : détecter un silence dans un flux audio capté par le capteur, segmenter le message vocal en au moins un segment en fonction de la détection d’un silence, convertir le message vocal en texte, dit « contribution » et une mémoire informatique pour stocker au moins une contribution, le moyen de calcul d’au moins un dit terminal informatique étant, de plus configuré pour : détecter un sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée et associer, dans la mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté, ledit terminal informatique comportant, de plus, un moyen d’affichage d’au moins une contribution stockée et d’au moins un indicateur représentatif d’un sentiment détecté vis-à-vis d’au moins une dite contribution. Les buts, avantages et caractéristiques particulières du système objet de la présente invention étant similaires à ceux du procédé objet de la présente invention, ils ne sont pas rappelés ici.

BRÈVE DESCRIPTION DES FIGURES

D’autres avantages, buts et caractéristiques particulières de l’invention ressortiront de la description non limitative qui suit d’au moins un mode de réalisation particulier du système et du procédé objets de la présente invention, en regard des dessins annexés, dans lesquels :

La figure 1 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 2 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 3 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 4 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 5 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 6 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 7 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 8 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 9 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 10 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 11 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 12 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 13 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 14 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 15 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 16 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention, La figure 17 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 18 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 19 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 20 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 21 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 22 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 23 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 24 représente, schématiquement, un premier mode de réalisation d’une interface utilisateur mise en œuvre par le système objet de la présente invention,

La figure 25 représente, schématiquement, un premier mode de réalisation d’une succession d’étapes particulière du procédé objet de la présente invention,

La figure 26 représente, schématiquement, un deuxième mode de réalisation d’une succession d’étapes particulière du procédé objet de la présente invention,

La figure 27 représente, schématiquement, un troisième mode de réalisation d’une succession d’étapes particulière du procédé objet de la présente invention,

La figure 28 représente, schématiquement, un quatrième mode de réalisation d’une succession d’étapes particulière du procédé objet de la présente invention,

La figure 29 représente, schématiquement, un cinquième mode de réalisation d’une succession d’étapes particulière du procédé objet de la présente invention,

La figure 30 représente, schématiquement, un sixième mode de réalisation d’une succession d’étapes particulière du procédé objet de la présente invention et

La figure 31 représente, schématiquement, un mode de réalisation particulier du système objet de la présente invention.

DESCRIPTION D’EXEMPLES DE RÉALISATION DE L’INVENTION

La présente description est donnée à titre non limitatif, chaque caractéristique d’un mode de réalisation pouvant être combinée à toute autre caractéristique de tout autre mode de réalisation de manière avantageuse.

On note dès à présent que les figures ne sont pas à l’échelle.

On observe, en figure 30, schématiquement, un mode de réalisation particulier du procédé 3000 objet de la présente invention. Ce procédé 3000 d’enrichissement d’un contenu numérique représentatif d’une conversation, comporte : de manière itérative : une étape 3005 de capture d’un signal audio représentatif d’un message vocal, une étape 3010 de segmentation du message vocal en un segment, ladite étape de segmentation comportant une étape 3011 de détection de silence, le segment étant obtenu en fonction de la détection d’un silence, une étape 3015 de conversion en texte, dit « contribution », du segment audio et une étape 3020 de stockage, dans une mémoire, d’une contribution, puis : une étape 3025 de détection de sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée, une étape 3030 d’association, dans une mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté et une étape 3035 d’affichage d’au moins une contribution stockée et d’au moins un attribut vis-à- vis d’au moins une dite contribution.

L’étape de capture 3005 est réalisée, par exemple, par la mise en œuvre d’un capteur audio, tel un microphone, d’un terminal 3205 informatique, tel que représenté en figure 31. Par « terminal informatique », on entend ici généralement tout dispositif électronique comportant à minima : un capteur 3210 audio, tel un microphone, configuré pour capter un signal audio représentatif d’un message vocal, un moyen 3215 de calcul, tel un microprocesseur, configuré pour : détecter un silence dans un flux audio capté par le capteur, segmenter le message vocal en au moins un segment en fonction de la détection d’un silence, convertir le message vocal en texte, dit « contribution » et une mémoire 3220 informatique pour stocker au moins une contribution, le moyen 3215 de calcul d’au moins un dit terminal informatique 3205 étant, de plus configuré pour : détecter un sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée et associer, dans la mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté, ledit terminal informatique 3205 comportant, de plus, un moyen d’affichage, tel un écran, d’au moins une contribution stockée et d’au moins un indicateur représentatif d’un sentiment détecté vis-à-vis d’au moins une dite contribution.

Un tel terminal informatique 3205 peut être un téléphone intelligent, une tablette numérique ou un ordinateur. Dans des configurations distribuées, le moyen 3215 de calcul peut être réparti entre un terminal local et un terminal distant communiquant via un réseau de données, tel internet par exemple. Dans une telle configuration, chaque action peut être réalisée par un programme informatique distinct, les résultats des calculs étant fournis d’un terminal à l’autre au gré des besoins liés à l’architecture sélectionnée.

Par « message vocal », on entend une succession de mots émanant d’un utilisateur.

À l’issue de l’étape de capture, on obtient un fichier informatique de taille finie ou capté en temps réel (« streamed », en anglais). Une telle étape 3005 est implicitement illustrée en figure 26, en particulier en relation à l’étape 2605 d’ouverture de page de conférence web.

L’étape 3010 de segmentation est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Ce programme informatique est configuré pour, en fonction d’un évènement détecté dans le message vocal, segmenter le message vocal pour en extraire un segment. Un tel évènement est, par exemple, un silence.

Une telle étape 3010 est illustrée en figure 26, en particulier en relation à l’étape 2615 de segmentation de la dictée des utilisateurs.

L’étape 3011 de détection d’un silence est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Un tel programme informatique utilise, par exemple, le programme « Silence Finder » développé par Audacity (Marque déposée). Une telle étape 3011 est illustrée en figure 26, en particulier en relation à l’étape 2610 de détection des micro-silences.

Ainsi, lorsqu’un silence est détecté, le message vocal en amont du silence est extrait pour former un segment.

L’étape 3015 de conversion est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Un tel programme informatique est, par exemple, similaire à iOS Dictation (Marque déposée). Le résultat de ces étapes 3010, 3011 et 3015 est visible en figure 7, par exemple, sous les références 710, 711 et 712 de segmentation et conversion en texte d’une conversation vocale.

L’étape 3020 de stockage est réalisée, par exemple, par la mise en œuvre d’une mémoire 3220 informatique associée à un système de gestion de ladite mémoire 3220. Préférentiellement, chaque contribution stockée est horodatée et associée à un identifiant d’utilisateur, ledit identifiant d’utilisateur correspondant à un identifiant d’utilisateur d’une application ou de terminal 3205 exécutant une application exécutant le procédé.

Les étapes de capture 3005, segmentation 3010, détection 3011 de silence, conversion 3015 et stockage 3020 peuvent être itératives. Ces modes sont particulièrement adaptés à la capture de contribution en direct. Alternativement, pour une étape de capture 3005 de données, les étapes de segmentation 3010, détection 3011 de silence, conversion 3015 et stockage 3020 sont itératives.

Dès qu’au moins une contribution est stockée, le reste du procédé 3000 peut être réalisé.

L’étape 3025 de détection peut être réalisée de plusieurs manières selon la méthode de détection choisie.

Dans des modes de réalisation, la détection 3025 est de type déclarative.

Dans ces modes de réalisation, dont le résultat est illustré en figure 8, l’étape de détection 3025 comporte : une étape 3060 de sélection par un utilisateur, via une interface homme-machine, d’une contribution stockée et une étape 3065 de sélection, par un utilisateur, via une interface homme-machine, d’un symbole représentatif d’un sentiment vis-à-vis de la contribution sélectionnée.

L’étape 3060 de sélection d’une contribution est réalisée, par exemple, par un clic sur un écran tactile du terminal 3205 informatique pour sélectionner une contribution. L’étape 3065 de sélection d’un symbole est réalisée, par exemple, par un clic sur une partie de l’interface utilisateur d’une application affichant la contribution permettant le choix d’un symbole, tel un émoji, à associer à la contribution.

Une telle étape 3060 est illustrée en figure 8 sous la référence 810 représentant une contribution sélectionnée par l’utilisateur. Une telle étape 3065 est illustrée en figure 8 sous la référence 820 représentant la sélection d’un emoji.

Dans des modes de réalisation, la détection 3025 est de type automatique.

Dans certaines variantes, dont le résultat est illustré en figure 11 , un sentiment est détecté en fonction d’un son émis par un utilisateur.

Dans ces variantes, l’étape 3025 de détection comporte : une étape 3040 de collecte d’un signal audio représentatif d’un message vocal émis par un utilisateur, une étape 3045 de détermination d’un sentiment en fonction du signal audio collecté.

L’étape 3040 de collecte est réalisée, par exemple, par la mise en œuvre d’un microphone d’un terminal 3205 informatique d’un utilisateur. Une telle étape 3040 est illustrée en figure 11 , en particulier en relation à l’étape 1110 de détection d’un message vocal de l’utilisateur.

L’étape 3045 de détermination d’un sentiment est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Ce programme informatique est configuré pour détecter des signaux sonores représentatifs de sentiments, tels des signaux d’approbation, lorsque l’utilisateur dit « oui » ou de désapprobation lorsque l’utilisateur dit « non ». Un tel programme informatique est, par exemple, similaire à Supersonic Fun Voice Messenger (Marque déposée).

Cette étape 3040 de collecte peut être simultanée à l’étape 3005 de capture du message vocal réalisée pour un autre utilisateur.

Dans certaines variantes, un sentiment est détecté en fonction de l’attitude corporelle détectée d’un utilisateur.

Dans ces variantes, dont le résultat est illustré en figure 12, l’étape 3025 de détection comporte : une étape 3050 de collecte d’un signal vidéo représentatif d’une attitude d’un utilisateur, une étape 3055 de détermination d’un sentiment en fonction du signal vidéo collecté.

L’étape 3050 de collecte est réalisée, par exemple, par une cybercaméra orientée vers un utilisateur d’un terminal 3205 informatique associé à la cybercaméra. Une telle étape 3050 est illustrée en figure 12, en particulier en relation à l’étape 1210 de détection d’un hochement de tête de l’utilisateur.

L’étape 3055 de détermination est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Ce programme informatique est, par exemple, similaire à Intel (Marque déposée) RealSense (Marque déposée) ou OpenVINO (Marque déposée), et reconnaît un acquiescement corporel comme un hochement de tête ou un sourire.

Quelle que soit la méthode de détermination d’un sentiment, ce sentiment est converti en attribut. Un « attribut » est défini comme une métadonnée enrichissant une contribution, cet attribut pouvant être de n’importe quel type. Par exemple, le son « oui » est associé à l’attribut « acquiescement ». Préférentiellement, cet attribut comporte un type de sentiment et l’identifiant d’utilisateur associé au sentiment détecté.

L’étape 3030 d’association en mémoire est réalisée, par exemple, par la mise en œuvre d’une mémoire 3220 informatique associée à un système de gestion de ladite mémoire 3220. Cette étape 3030 est illustrée en figure 26 sous la référence 2625.

L’étape 3035 d’affichage est réalisée, par exemple, par la mise en œuvre d’un écran de terminal 3205 informatique dont l’affichage est contrôlé en fonction de l’exécution d’une application requérant l’affichage d’au moins une contribution et d’au moins un attribut. Cette étape 3035 est illustrée en figure 26 sous la référence 2630.

Dans des modes de réalisation, tel qu’illustré en figure 25, le procédé 3000 objet de la présente invention comporte : une étape 3070 de création automatique, selon une règle de création, d’une requête en fonction d’au moins un attribut de sentiment associé à au moins une contribution stockée et/ou d’au moins une contribution stockée et/ou d’au moins un signal audio capté, une étape 3075 de fourniture, via une interface homme machine, de la requête à au moins un utilisateur, une étape 3080 de détection d’une action d’au moins un utilisateur vis-à-vis de la requête et une étape 3085 de réalisation d’un traitement informatique en fonction d’au moins une action détectée, selon une règle de réalisation.

L’étape 3070 de création automatique est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Un tel programme informatique est, par exemple, similaire à la fonctionnalité « Create call to action » disponible depuis une page Facebook (Marque déposée). Cette étape 3070 est illustrée en figure 25 sous la référence 2515 d’évaluation des conditions des règles des actions. Cette étape 3075 est illustrée en figure 25 sous la référence 2520 de déclenchement d’une requête d’action de la part de l’utilisateur. Cette étape 3080 est illustrée en figure 25 sous la référence 2525 d’évaluation des règles de confirmation des actions. Cette étape 3085 est illustrée en figure 25 sous la référence 2530 d’exécution d’une action.

Une requête peut consister en la sollicitation d’utilisateurs pour valider une contribution, confirmer un sentiment détecté, s’inscrire à un service donné, voter dans le cadre d’une consultation, lancer une application, etc.

Une règle de création est définie par un critère et un seuil déclenchant l’étape 3070 de création. Par exemple, la règle peut consister en l’association d’un nombre déterminé d’attributs de sentiments au regard d’une contribution déterminée ou en l’association d’un nombre déterminé d’attributs de sentiments sur une période donnée. Préférentiellement, la requête créée dépend du contenu de la contribution. Le contenu d’une contribution peut être identifié par un programme informatique d’analyse textuelle (« parsing », en anglais) configuré pour hiérarchiser le texte identifié, tel Zapier Parser (Marque déposée) ou Mailparser.io (Marque déposée).

La règle de création peut être évolutive, le procédé 3000 comportant alors une étape 3090 d’apprentissage par renforcement de la règle en fonction d’au moins une action détectée vis-à-vis de la requête. Cette étape 3090 est illustrée en figure 25 sous la référence 2540 de renforcement de la règle d’enclenchement de la requête.

L’étape 3090 d’apprentissage met en œuvre un algorithme statistique configuré pour évaluer la pertinence de création de requêtes en fonction d’actions détectées au regard de requête passées. Une telle étape 3090 est bien connue et consiste en l’évaluation multicritère du succès ou de l’échec de requêtes, déterminés en fonction des réponses aux requêtes pour pondérer chaque critère employé dans la création de requêtes. Un tel programme d’apprentissage met en œuvre, par exemple, Azuré Machine Learning Services (Marque déposée), Azuré Machine Learning Command-Line Interface (Marque déposée) ou Main Python SDK (Marque déposée).

L’étape 3075 de fourniture est réalisée, par exemple, par l’affichage sur l’écran d’un terminal 3205 d’au moins un utilisateur d’une fenêtre représentative de la requête et sollicitant une action de la part de l’utilisateur. Cette action dépend de la requête et des éléments interactifs affichés dans la fenêtre dont la nature, la quantité et la signification dépendent de la requête.

L’étape 3080 de détection d’une action est réalisée, par exemple, par la détection d’une action réalisée par l’utilisateur au regard de la requête fournie. Cette action peut être de type gestuelle et détectée par la mise en œuvre d’un écran tactile, par exemple. La détection 3080 d’une action dépend ainsi de la méthode de fourniture et de l’action demandée à l’utilisateur.

En général, la détection 3080 d’une action met en œuvre une interface homme-machine permettant de détecter une interaction de l’utilisateur avec la requête fournie. Cette interface peut être une cybercaméra, un périphérique de type clavier ou souris ou un écran tactile.

L’étape 3085 de réalisation d’un traitement informatique est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Le traitement informatique dépend de la requête et peut consister, par exemple, en l’ajout d’une contribution générée automatiquement parmi les contributions obtenues via la capture de messages vocaux. Le traitement informatique peut également, par exemple, consister en le lancement d’un programme informatique. Cette étape 3075 est illustrée en figure 10 sous la référence 1005 d’une requête sollicitant une action de la part de l’utilisateur. Cette étape 3080 est illustrée en figure 10 sous la référence 1010 d’une action de l’utilisateur.

Dans des modes de réalisation, tel qu’illustré en figure 25, la règle de réalisation est évolutive, le procédé 3000 comportant alors une étape 3095 d’apprentissage par renforcement de la règle en fonction d’au moins une action détectée vis-à-vis de la requête. Cette étape 3095 est illustrée en figure 25 sous la référence 2535 de renforcement de la règle de confirmation de la requête.

Dans des modes de réalisation, tel qu’illustré en figure 24, le procédé 3000 objet de la présente invention comporte : une étape 3100 de détermination probabiliste d’au moins un attribut candidat à l’association avec une contribution stockée, une étape 3105 de validation ou d’infirmation de l’association déterminée et une étape 3110 d’association, dans une mémoire, d’au moins un attribut à une contribution stockée en cas de validation de l’association. L’étape 3100 de détermination probabiliste est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Ce programme informatique analyse le contenu textuel d’une contribution pour déterminer la pertinence d’au moins un mot-clé, ou attribut, complémentaire.

Chaque attribut, ou mot-clé, complémentaire est ensuite affiché sur une interface du programme informatique et en attente de traitement de la part de l’utilisateur.

L’étape 3105 de validation est réalisée, par exemple, par la mise en œuvre d’une interface homme-machine dont l’utilisation est représentative d’une intention de validation ou d’infirmation de l’association déterminée. Par exemple, l’utilisateur peut balayer l’écran tactile dans une première direction pour valider l’association ou dans une deuxième direction pour infirmer l’association.

L’étape 3110 d’association est réalisée de manière analogue à l’étape 3030 d’association d’un attribut représentatif d’un sentiment à une contribution. Cette étape 3100 est illustrée en figure 24 sous les références 2410 à 2413 de détermination probabiliste d’attributs candidats à une association (« pictures », « church », « wedding cake », « gift »). Cette étape 3105 est illustrée en figure 24 sous la référence 2420 de validation de cette association par un balayage. Cette étape 3110 est illustrée en figure 24 sous la référence 2430 d’association d’un attribut (« pictures ») et d’une contribution, l’association étant représentée par l’intégration d’un pictogramme dans la bulle.

Dans des modes de réalisation, tel qu’illustré en figure 15, le procédé 3000 objet de la présente invention comporte : une étape 3115 de récapitulation de la discussion, en fonction d’au moins une contribution stockée et d’au moins un attribut associé audit texte et une étape 3120 de stockage de la discussion récapitulée.

L’étape 3115 de récapitulation est réalisée, par exemple, par la mise en œuvre d’un programme informatique de récapitulation d’un contenu textuel, par un moyen électronique de calcul. Ce programme informatique met en œuvre, par exemple, la librairie Python’s NLTK library (Marque déposée). Cette étape 3115 est illustrée en figure 15 sous la référence 1505 de résumé de session.

L’étape 3120 de stockage est réalisée, par exemple, par la mise en œuvre d’une mémoire et du dispositif de contrôle associé.

On observe, en figure 31 , un mode de réalisation particulier du système 3200 objet de la présente invention. Ce système 3200 d’enrichissement d’un contenu numérique représentatif d’une conversation, comporte : au moins un terminal 3205 informatique, chaque terminal informatique comportant : un capteur 3210 audio configuré pour capter un signal audio représentatif d’un message vocal, un moyen 3215 de calcul configuré pour : détecter un silence dans un flux audio capté par le capteur, segmenter le message vocal en au moins un segment en fonction de la détection d’un silence, convertir le message vocal en texte, dit « contribution » et une mémoire 3220 informatique pour stocker au moins une contribution, le moyen de calcul d’au moins un dit terminal informatique étant, de plus configuré pour : détecter un sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée et associer, dans la mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté, ledit terminal informatique comportant, de plus, un moyen d’affichage d’au moins une contribution stockée et d’au moins un indicateur représentatif d’un sentiment détecté vis-à-vis d’au moins une dite contribution.

Préférentiellement, le système 3200 met en œuvre une pluralité de terminaux informatiques reliés par un réseau de données, tel internet ou un réseau mobile de type quatrième ou cinquième génération par exemple.

Comme indiqué précédemment, chaque terminal 3205 informatique peut être distribué entre un serveur de calcul distant et une application locale, c’est-à-dire au plus proche d’un utilisateur, reliés entre eux par un réseau de données.

Observé fonctionnellement, c’est-à-dire sans présupposition du lieu d’exécution d’un algorithme informatique, le système 3200 peut comporter : une application de gestion de réseau social qui référence : un ensemble d’utilisateurs correspondant à des terminaux. Ces utilisateurs sont caractérisés chacun par un avatar et regroupés par ensembles, un ensemble d’espaces de travail virtuels caractérisés par un nom, un thème et un ensemble d’utilisateurs. Les utilisateurs d’un espace de travail virtuel sont répartis en sous-ensembles inscrits (liste de membres) et connectés (liste d’utilisateurs connectés). Un espace de travail virtuel comprend un fil de discussion, alimenté par les contributions et les actions des utilisateurs. Un espace de travail virtuel est représenté par trois pages principales : une page d’accueil, une page de membre et une page de synthèse de texte à partir d’un message vocal et un ensemble de contributions attachées chacune à un espace de travail virtuel, caractérisées par un auteur, un horodatage et un texte, celui-ci étant dicté oralement par un utilisateur grâce à l’application de synthèse de texte ; l’application de synthèse de texte (« Speech te text », en anglais) transcrit la dictée d’un utilisateur en texte, tel iOS Dictation (Marque déposée). De plus, elle coopère avec une application de détection de silences tel Audacity Silence Finder (Marque déposée), pour segmenter cette dictée en autant de contributions. Chaque contribution est horodatée et assortie de l’identifiant de son auteur ; une application de plateforme de collaboration unifiée (« Unified Collaboration Platform », en anglais), telle Slack (Marque déposée), Microsoft Team (Marque déposée), Workplace by Facebook (Marque déposée), gérant en particulier les canaux de discussions attachés aux espaces de travail virtuels, et faisant coopérer les applications suivantes : une application de conférence sur internet, telle la fonctionnalité Skype for Business Meeting (Marque déposée), Amazon Chime (Marque déposée), Google Hangouts Meet (Marque déposée), IBM Sametime (Marque déposée), Skype Enterprise (Marque déposée). Cette application permet d’organiser des conférences audios, vidéo et web sur Internet, de planifier une réunion à l’avance, d’en démarrer une à tout moment et d’inviter des utilisateurs, une application de détection de silences telle la fonctionnalité Silence Finder utilisée par Audacity (Marque déposée), une application de reconnaissance de paroles, tel Supersonic Fun Voice Messenger (Marque déposée), reconnaît un ensemble de locutions signifiantes, par exemple un acquiescement oral : « oui », « super », « bien » ou « bien sûr » ou la fin d’une conférence sur internet : « merci de votre participation », une application de reconnaissance de sentiment, telle Intel (Marque déposée) RealSense (Marque déposée) ou OpenVINO (Marque déposée), qui reconnaît un acquiescement corporel comme un hochement de tête ou un sourire, une application d’appel à action, telle la fonctionnalité « Create call te action » accessible depuis une page Facebook (Marque déposée), permet de solliciter l’action d’un utilisateur, dans une liste prédéfinie d’Actions, comme valider, confirmer, s’inscrire, voter, lancer une app, etc., une application d’emoji sonore, telle Emojisound (Marque déposée) ou Emoji Tones (Marque déposée), qui permet de jouer un son représentant une émotion, une application d’apprentissage par renforcement, telle Azuré Machine Learning Service (Marque déposée), Azuré Machine Learning Command-Line Interface (Marque déposée) ou Main Python SDK (Marque déposée), une application de récapitulation automatique, telle Python’s NLTK library (Marque déposée) et/ou une application de type parseur.

On observe, sur les figures 1 à 24, des vues particulières d’une interface d’une application permettant l’exécution du procédé 3000 objet de la présente invention.

Dans cette interface, on observe une page 100 de membres dans laquelle s’affiche de haut en bas : un pictogramme 105 de menu, une zone 110 de texte représentant le nom de l’espace de travail virtuel, un pictogramme 115 indiquant l’activité du micro du smartphone (ici désactivé), un ensemble 120 d’avatars représentant dans une bannière déroulante les utilisateurs inscrits dans l’espace de travail virtuel, un sous-ensemble 125 d’avatars représentant un seul utilisateur connecté à l’espace de travail virtuel, encadré dans la bannière déroulante et affiché dans la zone 130 vocale et un ensemble 135 de boutons pouvant être activés par l’utilisateur et déclenchant des fonctionnalités déterminées.

Dans la figure 2, on observe la page 200 de membre, dans laquelle s’affiche : un pictogramme indiquant l’activité du microphone du téléphone (ici, activé) et un sous-ensemble d’avatars représentant trois utilisateurs à l’espace virtuel, l’affichage de ces avatars dans la zone vocale étant mis en avant par un halo 205 lorsque les utilisateurs correspondants sont en train de parler, c’est-à-dire dont le statut vocal est activé.

Dans la figure 3, on observe la page 300 de membre, dans laquelle s’affiche : un sous-ensemble d’avatars représentant cinq utilisateurs connectés à l’espace de travail virtuel et l’activation par l’utilisateur d’un bouton 305 d’invitation, qui provoque l’invitation des utilisateurs inscrits, mais non connectés, grâce à une application de conférence virtuelle.

Dans la figure 4, on observe la page 400 de membres dans laquelle on affiche parmi l’ensemble des boutons un bouton 405 d’émoji. Lorsqu’il est activé par l’utilisateur, ce bouton d’émoji permet d’accéder à un menu permettant à un utilisateur de sélectionner un émoji particulier parmi une liste.

Dans la figure 5, on observe la page 500 de membres dans laquelle on affiche un attribut 505 représentatif d’un sentiment d’approbation, dit attribut d’approbation, à proximité de certains avatars de la zone vocale. Cet affichage est provoqué par l’activation de boutons d’approbation 510, parmi lesquels les boutons d’émoji 511 , de capture 512 et de validation 513.

Lorsqu’un utilisateur a activé un bouton d’émoji 511 et sélectionné un smiley particulier dans un menu contextuel, l’attribut d’approbation de son avatar reproduit cet émoji 505 jusqu’à ce que le statut vocal de l’utilisateur en train de parler passe du mode activé à désactivé. Si plusieurs personnes sont en train de parler, l’attribut d’approbation s’éteint après le dernier passage du mode activé à désactivé des statuts vocaux correspondants.

Dans la figure 6, on observe la page 600 de membres que lorsqu’un utilisateur a activé un bouton 605 de validation, l’application de reconnaissance vocale est exécutée pour reconnaître un acquiescement vocal 1110 tel « super », « bien », « évidemment », et l’application de reconnaissance de sentiment est exécutée pour reconnaître un acquiescement corporel tel un hochement de tête 1210. Ces acquiescements activent les attributs de sentiment correspondants.

Lorsqu’un utilisateur a activé le bouton de capture, l’attribut d’approbation de son avatar reproduit le pictogramme « en cours de capture » jusqu’à ce que le statut vocal de l’utilisateur en train de parler passe du mode activé à désactivé. Ce pictogramme « en cours de capture » peut aussi être affiché par la méthode décrite ci-après. À cette fin, l’utilisateur active préalablement le bouton de synthèse textuelle qui active la page de synthèse textuelle de message audio.

Dans la figure 7, on observe une interface 700 particulière de la page de synthèse textuelle dans laquelle on affiche de haut en bas : un pictogramme de menu, une zone de texte représentant le nom de l’espace de travail virtuel, un pictogramme indiquant l’activité du micro du terminal affichant l’interface, un ensemble d’avatars représentant les utilisateurs inscrits dans l’espace de travail virtuel, un sous-ensemble d’avatars représentant les utilisateurs connectés, c’est-à-dire les utilisateurs connectés à l’espace de travail virtuel, une succession 705 de bulles de textes 710 à 712 et de pictogrammes représentant respectivement les contributions et les captures du fil de discussion de l’espace de travail virtuel et un ensemble de boutons pouvant être activés par l’utilisateur.

Lorsque la page de synthèse textuelle est affichée, l’utilisateur peut : enregistrer une contribution grâce à l’application de synthèse textuelle, activer un des boutons, capturer une contribution représentée par une bulle de texte : en activant le bouton de capture, ce qui provoque la capture de la bulle de texte en cours de création ou en effectuant un glissement de droite à gauche sur une bulle de texte.

La capture d’une contribution provoque l’affichage du pictogramme « en cours de capture » : à proximité de la bulle de texte correspondante dans la page de synthèse textuelle et/ou à proximité de l’avatar de son auteur dans la page de membres.

De manière générale, l’approbation de la dictée d’un utilisateur en train de parler peut-être signifiée par les autres utilisateurs grâce à l’activation de différents boutons d’approbation, tels que les boutons d’émoji, de capture et de validation.

Dans la figure 8, on observe l’interface 800 de la page de synthèse textuelle, dans laquelle chaque bulle de texte est assortie d’un compteur 805 d’approbation. Ces compteurs d’approbation comptent le nombre d’activations des boutons d’approbation 820 à 822 pendant la dictée correspondante. L’activation du bouton d’accueil provoque l’ouverture de la page d’accueil.

La figure 9 représente la page 900 d’accueil. Cette page d’accueil affiche les mêmes groupes d’avatars et boutons que dans la page de synthèse textuelle. Elle affiche de plus un canal 905 de discussion qui liste l’ensemble des contributions de la page de synthèse qui ont été préalablement capturées. À chaque contribution sont associés l’horodatage, l’avatar de l’auteur et les compteurs d’approbation.

Les compteurs d’approbation sont associés à des seuils d’approbation prédéfinis. Lorsque le niveau d’un compteur d’approbation atteint un des seuils d’approbations associés, ceci déclenche un appel à action (« call to action », en anglais) grâce à la mise en œuvre de l’application d’appel à action exécutant les règles d’action.

On observe, sur les figures 10 à 15, un exemple d’interface d’appel à action et de réponse à cet appel à actions. Dans ces interfaces, l’application d’appel à action exécute une règle d’action à partir des boutons d’approbation : si un compteur d’approbation atteint le seuil d’approbation prédéfini, alors, l’auteur de la bulle de texte à laquelle est associé ce compteur d’approbation voit s’afficher sur son terminal un appel à action à confirmer, une minuterie d’appel à action mesure la vitesse de confirmation, un compteur d’appel à action mesure le taux de confirmation et cette action est exécutée en cas de confirmation.

La première règle d’action est décrite en référence à la figure 10. Elle se décompose en deux parties : le déclenchement 1005 d’une règle d’action : le seuil d’approbation correspond à dix activations de boutons d’approbation par des participants et l’appel à action propose, à l’utilisateur en train de parler, de capturer la bulle de texte dont le compteur d’approbation a atteint la valeur du seuil d’approbation, soit dix, la confirmation 1010 d’une règle d’action : si la confirmation de l’utilisateur est réalisée avant un délai d’expiration défini, de quatre secondes par exemple, la capture est effectuée. Le compteur d’appel à action est incrémenté et la minuterie d’appel à action met à jour la moyenne des temps de confirmation.

La deuxième règle d’action est décrite en référence à la figure 11 . Son objectif est de stimuler un deuxième mode de participation : « Les autres et vous semblent avoir une opinion positive à propos de ce qui vient d’être dit, voulez-vous être le premier à l’exprimer ? ». De manière concrète : le déclenchement d’une règle d’action : le seuil d’approbation correspond à une activation du bouton de validation et l’appel à action propose, à l’utilisateur qui a activé ce bouton de validation, d’exécuter un émoji sonore de type sonnette, la confirmation d’une règle d’action : si la confirmation de l’utilisateur a été réalisée avant un délai d’expiration prédéfini, l’émoji 1105 sonore est joué dans la conférence. Le compteur d’appel à action est incrémenté et la minuterie d’appel à action recalcule la moyenne des temps de confirmation.

La troisième règle d’action est décrite en référence à la figure 12. Son objectif est de stimuler un troisième mode de participation : « Vous n’êtes pas seul à approuver, vous joindre à l’approbation ? ». De manière concrète : le déclenchement d’une règle d’action : le seuil d’approbation correspond à l’activation de trois émojis sonores de type sonnette par des participants et l’appel à action propose, à ces participants, d’exécuter un émoji sonore de type applaudissement la confirmation d’une règle d’action : si la confirmation par un de ces participants a été réalisée avant un délai expiration prédéfini, l’émoji 1205 sonore est joué dans la conférence. Le compteur d’appel à action est incrémenté et la minuterie d’appel à action recalcule la moyenne des temps de confirmation.

La quatrième règle d’action est décrite en référence à la figure 13. Son objectif est de stimuler un quatrième mode de participation : « Voulez-vous faire partie de l’enthousiasme général lié à la phrase ? ». De manière concrète : le déclenchement d’une règle d’action : le seuil d’approbation correspond à l’activation d’émojis sonores de type applaudissements par plus de 50% des participants et l’appel à action est une proposition à ces participants d’exécuter un émoji sonore de type ovation, la confirmation d’une règle d’action : si la confirmation par 20% de ces participants a été réalisée avant un délai d’expiration prédéfini, l’émoji sonore est joué dans la conférence. Le compteur d’appel à action est incrémenté et la minuterie d’appel à action recalcule la moyenne des temps de confirmation. Les règles d’action sont préférentiellement organisées de manière hiérarchique, puisqu’un émoji sonore d’ovation succède à un applaudissement et à une sonnette. Cela permet aux utilisateurs en train de parler et aux autres utilisateurs connectés de comprendre intuitivement la qualité des contributions. Ceci instrumente la collaboration pour en favoriser les interactions en temps réel, et enrichit le compte rendu de la conférence avec un indicateur horodaté de la dynamique du groupe.

Les règles d’action se modifient grâce à une boucle d’apprentissage à deux niveaux mise en œuvre par l’application d’apprentissage par renforcement. Les règles d’action sont en effet récompensées ou pénalisées par la vitesse et le taux de confirmation mesurés respectivement par les compteurs appel à action et les minuteries d’appel à action.

En référence à la figure 13, par exemple, le premier niveau concerne les déclenchements de règles d’action, c’est-à-dire les conditions d’enclenchement d’un appel à action : si la quatrième règle d’action est souvent confirmée, selon la mesure du compteur d’appel à action, le seuil d’approbation est décrémenté, c’est-à-dire que sa valeur baisse de 50% à 40% des participants et si la quatrième règle d’action est rarement confirmée, le seuil d’approbation est incrémenté, c’est- à-dire que sa valeur augmente de 50% à 60% des participants.

Le deuxième niveau concerne les confirmations de règles d’action, c’est-à-dire les conditions de confirmation de l'appel à action : si l’appel à action est confirmé tardivement, selon la mesure du minuteur d’appel à action, le compteur 1305 de délai d’expiration est augmenté de quatre à cinq secondes et si l’appel à action est confirmé rapidement, le compteur de délai d’expiration est diminué de quatre à trois secondes.

Ces modes de réalisation des figures 10 à 13 illustrent ainsi une méthode permettant, sur la base des boutons de validation activés par les utilisateurs, d’enclencher puis de confirmer une action en application d’une règle d’action prédéfinie. La mesure de la vitesse et du taux de confirmation ajuste cette règle d’action par apprentissage.

Dans d’autres modes de réalisation, la boucle d’apprentissage peut mettre en œuvre d’autres paramètres de mesure du succès ou du déclenchement des règles d’action.

Dans les figures 10 à 13, on a décrit des règles d’action mettant en œuvre un seuil d’approbation et un bouton unique 1306 de confirmation de l'appel à action. En variante, l’enclenchement et la confirmation de l'appel à action peuvent être différents, comme illustré dans les figures 14 et 15.

En référence à la figure 14, l’application 1400 d’appel à action exécute la règle d’action suivante : le déclenchement d’une règle d’action : si l’application de de synthèse textuelle détecte une forme interrogative, et l’auteur de la bulle de texte interrogative capture celle-ci, alors le texte de cette bulle de texte est affiché dans un appel à action de tous les utilisateurs connectés qui sont sollicités pour confirmer cette question, la confirmation d’une règle d’action : la confirmation individuelle est acquise par l’activation d’un bouton, ou par un acquiescement oral ou par un acquiescement corporel et la confirmation collective est acquise si le nombre de confirmations individuelles représente plus de la moitié des participants.

En référence à la figure 15, l’application 1500 de l'appel à action exécute la règle d’action suivante le déclenchement d’une règle d’action : si l’application de reconnaissance vocale reconnaît une locution signifiant la fin d’une conférence sur internet et l’auteur de cette locution capture la bulle de texte correspondante, alors l’application d’appel à action lance un appel à action sur le terminal de cet auteur pour confirmer la fermeture, la confirmation d’une règle d’action : cette validation provoque la fermeture de la conférence internet et l’ouverture de l’application 1505 de récapitulation. Celle-ci crée un résumé de la session, c’est-à-dire un fichier texte qui compile l’intégralité des bulles de textes capturées, leurs auteurs et horodatages, les compteurs d’approbations associés, les points de l’ordre du jour qui n’ont pas été abordés et la boucle d’apprentissage règlent la fréquence de l’envoi de l'appel à action en fonction de la vitesse et de la fréquence de confirmation par cet auteur.

On observe, en relation aux figures 16 à 19, des interfaces formant outils d’assistance permettant aux utilisateurs de renseigner un procédé d’affaires en cours de conférence sur internet via l’ajout d’attributs aux contributions.

En référence à la figure 16, l’espace 1600 de travail virtuel contient de plus une page de procédé d’affaires. Sur cette page est affiché un procédé d’affaires représentant une séquence de collaboration entre un fournisseur et un client. Cette séquence est assortie d’un compteur de procédé d’affaires qui représente l’état d’avancement de cette séquence. Les étapes déjà franchies sont représentées par un trait épais. L’activation 1605 d’une étape par l’utilisateur (« description ») provoque : l’ouverture de la page de synthèse textuelle et l’affichage de l’identifiant (« description ») de cette étape dans la page de synthèse textuelle.

En référence à la figure 17, la page 1700 de synthèse textuelle lance le parseur (« parser », en anglais) pour détecter les mots-clés 1705 et locutions révélatrices des étapes du procédé d’affaires.

Cette détection est réalisée grâce à des associations entre des mots-clés et les étapes. Le mot- clé « documents » est associé à l’étape « description », tandis que les mots-clés et locutions « devis », « combien de produits » sont associés à l’étape « devis ».

Lorsqu’un mot-clé ne correspond pas à l’étape en cours, cette détection provoque l’affichage d’un attribut vis-à-vis de la bulle de texte concerné. Cet attribut représente l’étape correspondant au mot-clé (« devis »).

L’utilisateur peut établir un lien en mémoire entre l’attribut, ou l’étape, et une contribution représentée par la bulle de texte en effectuant un balayage 1710 de cette bulle de texte lors de cette étape.

Les associations entre mots-clés et étapes sont initialisées par un premier jeu prédéfini d’associations entre les mots-clés du lexique et les attributs de bulles de texte. Ce lexique est enrichi par l’utilisateur, comme indiqué plus bas. Ces associations sont renforcées ou affaiblies grâce à l’application d’apprentissage par renforcement et aux balayages de liaisons effectués par tous les utilisateurs. En référence à la figure 18, la page 1800 de synthèse textuelle affiche un trait de séparation entre deux bulles de textes successives en application du ou des liens effectués par l’utilisateur, pour symboliser la transition entre deux étapes, 1805 et 1810, du procédé d’affaires.

En référence à la figure 19, une commande de balayage provoque l’incrémentation du compteur de procédé d’affaires, ce qui met à jour la représentation de l’état d’avancement sur la page de procédé d’affaires.

En référence aux figures 20 à 24, des outils d’assistance permettent aux utilisateurs d’apporter des renseignements supplémentaires pour enrichir une conférence sur internet en cours.

En référence à la figure 20, la page 2000 de synthèse textuelle lance le parseur pour détecter les expressions pouvant révéler l’identité des membres de l’équipe associée au procédé d’affaires.

La page de synthèse textuelle affiche un attribut 2005 représentant cette identité, tel un avatar, associé à la bulle de texte concernée. Un balayage 2010 de l’utilisateur sur cette bulle de texte provoque la liaison de cet attribut et de cette bulle de texte, c’est-à-dire de la contribution représentée. Cette liaison est représentée par l’affichage de cet attribut à l’intérieur de la bulle de texte.

En référence à la figure 21 , l’espace de travail virtuel contient de plus une page 2100 de tâches à effectuer. Sur cette page s’affiche par membre de l’équipe associée au procédé d’affaires la liste des bulles de texte qui ont été associées à son identité, et par quel utilisateur (« assigné par »).

En référence à la figure 22, le parseur détecte des expressions pouvant révéler les tâches 2205 et objets 2210 associés au procédé d’affaires.

La page de synthèse textuelle affiche un attribut 2215 représentant une tâche ou un objet, tel un pictogramme, vis-à-vis de la bulle de texte concernée. Un balayage de l’utilisateur sur cette bulle de texte provoque la liaison de cet attribut et de cette bulle de texte.

En référence à la figure 23, le lexique de mots-clés du parseur est enrichi par la sélection 2305, par l’utilisateur, d’un fragment de texte inclus dans une bulle de texte. Ce fragment de texte sélectionné est ajouté en tant que mot-clé ou locution dans le lexique du parseur.

En référence à la figure 24, les mots-clés et locutions du parseur sont regroupés par thèmes, eux-mêmes regroupés en évènements selon une ontologie prédéfinie. L’évènement « mariage » regroupe les thèmes : Fleurs, Bar, Images, Gâteau, Église, Cadeau. Le thème Fleurs regroupe les mots-clés roses, pivoine, bouquet et guirlande.

La page 2400 de synthèse textuelle affiche un attribut représentant un thème, tel un pictogramme, vis-à-vis de la bulle de texte concernée. Un balayage de l’utilisateur sur cette bulle de texte provoque la liaison de ce thème et de cette bulle de texte.

De manière plus générale, dans les modes de réalisation des figures 20 à 24, le balayage de l’utilisateur provoque la liaison d’une contribution, représentée par une bulle de texte, et d’une catégorie (Identité, tâche, objet, thème). Dans une boucle d’apprentissage par renforcement, cette liaison contribue à l’apprentissage du parseur en enrichissant son lexique de mots-clés, en renforçant ou en affaiblissant les probabilités de pertinence des catégories pour les mots-clés, et les probabilités de pertinence des mots-clés dans les contributions. Ceci permet de construire et partager entre les utilisateurs une base de connaissances à partir de l’ontologie prédéfinie, selon les méthodes connues de programmation orientée ontologie. En référence à la figure 25, une méthode 2500 couverte par l’invention, dont la mise en œuvre est illustrée par les figures 10 à 13 comporte les étapes suivantes : l’ouverture 2505 de l’espace de travail virtuel, l’approbation 2510 par un utilisateur, l’évaluation 2515 des conditions de chaque déclenchement de règle d’appel à action, le lancement 2520 de l’appel à action, l’évaluation 2525 des conditions de confirmation des règles d’action, l’exécution 2530 de l’action, l’apprentissage 2535 des règles de confirmation d’action, l’apprentissage 2540 du déclenchement des règles d’appel à action.

Cette étape 2510 est illustrée en figure 11 sous la référence 1110 par l’approbation par un message vocal de l’utilisateur et en figure 12 sous la référence 1210 par un hochement de tête de l’utilisateur. Cette étape 2520 est illustrée en figure 11 sous la référence 1115 et en figure 12 sous la référence 1215 par un appel à action de la part de l’utilisateur. Cette étape 2530 est illustrée en figure 11 sous la référence 1105 et en figure 12 sous la référence 1205 par l’émission dans la conférence d’un signal sonore d’approbation.

Pour faciliter leur collaboration, les groupes de travail utilisent les outils de conférence sur internet qui leur permettent de se réunir de manière virtuelle. Pour être efficaces, ces conférences sur internet nécessitent toujours l’intervention d’un secrétaire pour en rédiger ensuite le compte-rendu. Les applications de synthèse vocale, facilement perturbées par les bruits parasites et les hésitations, ne sont en effet que partiellement efficaces. La transcription est souvent médiocre. De plus, elle ne distingue pas, dans l’ensemble des dictées, ce qui est essentiel de ce qui est secondaire.

Il est apparu souhaitable de trouver une solution pour restituer l’essentiel d’une conférence sur internet, qui aide les utilisateurs à effectuer cette tâche technique par les moyens d'un processus d'interaction homme-machine guidé.

En référence à la figure 26, une méthode 2600 couverte par l’invention, dont la mise en œuvre est illustrée par les figures 7 à 9, comporte les étapes suivantes : l’application de conférence sur internet ouvre 2605 une page de conférence sur internet, sur laquelle se connectent les utilisateurs, l’application de conférence sur internet exécute l’application de détection 2610 des silences, l’application de détection des silences segmente 2615 la dictée des utilisateurs connectés en autant de contributions, les horodate et les assortit de l’identifiant de leur auteur, l’application sélectionne 2620 une contribution, un utilisateur capture 2625 une des contributions en activant le bouton de capture ou en effectuant un glissement de droite à gauche sur la bulle de texte représentant cette contribution, la contribution capturée est ajoutée 2630 au canal de discussion de la page d’accueil.

Cette étape 2615 est illustrée en figure 7 sous la référence 705 par une succession de contributions 710 à 712. Cette étape 2625 est illustrée en figure 7 sous la référence 720 par un glissement de droite à gauche et sous la référence 730 par l’activation d’un bouton de capture. Cette étape 2630 est illustrée en figure 15 sous la référence 1510 par l’ajout de la contribution capturée au canal de discussion de la page d’accueil.

Pour faciliter leur collaboration, les groupes de travail utilisent les outils de conférence sur internet qui leur permettent de se réunir de manière virtuelle. Les utilisateurs disposent en général de plusieurs fenêtres sur leur écran pour voir le visage de leurs interlocuteurs et partager des documents. Chaque personne qui prend la parole est naturellement sensible à la manière dont est perçu son discours, raison pour laquelle il regarde les vidéos des visages. Cependant, travailler sur un document partagé et parler en même temps nécessite toute l’attention de l’utilisateur. Il ne dispose donc plus de suffisamment de temps d’attention disponible pour regarder les visages, surtout lorsqu’il y a plus de trois personnes en réunion.

Il est apparu souhaitable de trouver une solution pour donner à la personne en train de parler et au groupe des utilisateurs connectés des instruments de mesure de la qualité des échanges en temps réel et d’enrichir le document de restitution des débats d’une mesure de cette qualité.

En référence à la figure 27, une méthode 2700 couverte par l’invention, dont la mise en œuvre est illustrée par les figures 6 et 11 à 13, et qui comporte les étapes suivantes : l’application de conférence sur internet est ouverte 2705, à laquelle participent les utilisateurs connectés, un utilisateur active 2710 un bouton d’approbation, cette activation incrémente 2715 le compteur d’approbation, le compteur d’approbation est comparé 2720 à un seuil d’approbation, en application de la règle d’action correspondante, l’émoji sonore est enclenché 2725 et l’émoji sonore est assorti d’un horodatage, de l’identifiant de ses auteurs et enregistré 2730. Cette étape 2710 est illustrée en figure 6 par l’activation d’un bouton d’approbation 605. Cette étape 2720 est illustrée en figure 13 sous la référence 1310 par une comparaison à un seuil d’approbation. Cette étape 2725 est illustrée en figure 13 sous les références 1305-1306 par les conditions de la règle d’action et sous la référence 1320 par l’enclenchement d’un émoji sonore.

Pour faciliter leur collaboration, les groupes de travail utilisent les outils de conférence sur internet qui leur permettent de se réunir de manière virtuelle. Ces outils intègrent la présentation de documents partagés comme un ordre du jour, qui liste les points à discuter lors de la réunion, ou des formulaires métiers, qui listent des rubriques telle la présentation commerciale des produits, les produits qui intéressent le client, la fiche technique des produits, le mode de calcul du prix, le devis... Il incombe en général au fournisseur de rédiger le compte-rendu et de remplir les formulaires métiers après la réunion, ce qui est une tâche administrative longue et qui comporte un risque important de perte d’information.

Il est apparu souhaitable de trouver une solution d’assistance des utilisateurs de conférence sur internet pour effectuer la tâche de rédaction des comptes-rendus et de remplissage des formulaires métiers par les moyens d'un processus d'interaction homme-machine guidé.

En référence à la figure 28, une méthode 2800 couverte par la présente invention, dont la mise en œuvre est illustrée par les figures 16 à 19, et qui comporte les étapes suivantes : l’ouverture 2805 de la page de synthèse textuelle, le parseur recherche 2810 dans la page de synthèse textuelle des mots-clés révélant une étape d’un procédé d’affaires prédéfini, la page de synthèse textuelle affiche 2815 un attribut représentant cette étape et l’associe à une bulle de texte, l’utilisateur sélectionne 2820 cette bulle de texte et le compteur d’étape est incrémenté 2825.

Cette étape 2810 est illustrée en figure 16 sous la référence 1610 par le procédé d’affaires prédéfini et sous la référence 1620 par une étape de ce procédé d’affaires. Cette étape 2810 est illustrée en figure 17 sous la référence 1705 par la recherche du parseur des mots-clés. Cette étape 2815 est illustrée en figure 17 sous la référence 1720 par un attribut représentant cette étape 1620 de ce procédé d’affaires 1610. Cette étape 2820 est illustrée en figure 17 sous la référence 1710 par la sélection d’une bulle de texte. Ce compteur d’étape 2825 est illustré par le rapprochement des figures 16 et 19 qui montre la progression du procédé d’affaires.

Pour faciliter leur collaboration, les groupes de travail utilisent les outils de conférence sur internet qui leur permettent de se réunir de manière virtuelle. Ces outils intègrent des outils de gestion de tâche, tels Trello (Marque déposée), qui permet de créer des listes pour chaque utilisateur, ou Asana (Marque déposée) qui permet d’organiser les tâches de chaque participant. L’utilisation de ces outils a beaucoup progressé, mais nécessite en pratique de les mettre à jour après les réunions, ce qui est une tâche administrative longue et qui comporte un risque important de perte d’information.

Il est apparu souhaitable de trouver une solution d’assistance des utilisateurs de conférence sur internet pour effectuer les mises à jour des outils de gestion de tâche par les moyens d'un processus d'interaction homme-machine guidé.

En référence à la figure 29, une méthode 2900 couverte par l’invention, dont la mise en œuvre est illustrée par les figures 20 à 24, comporte les étapes suivantes : l’ouverture 2905 de la page de synthèse textuelle, le parseur analyse 2910 les contributions à partir d’un lexique de mots-clés prédéfini, révélant une catégorie (identité, tâche, objet, thème) prédéfinie, la page de synthèse textuelle affiche 2915 un attribut représentant une catégorie identifiée par le parseur, l’utilisateur confirme 2920 la liaison entre une contribution et une catégorie, la page de synthèse textuelle affiche 2925 une représentation de la liaison entre la contribution et la catégorie, l’apprentissage automatique 2930 renforce la probabilité de correspondance entre un mot-clé et une catégorie définie par le parseur et l’apprentissage automatique 2935 enrichit la base de mots-clés et de catégories du parseur. Cette étape 2910 est illustrée en figure 20 sous la référence 2020 par l’analyse du parseur des mots-clés. Cette étape 2915 est illustrée en figure 20 sous la référence 2005 par l’affichage d’un attribut représentant une catégorie. Cette étape 2920 est illustrée en figure 20 sous la référence 2010 par la confirmation de la liaison entre une contribution et cette catégorie. Cette étape 2925 est illustrée en figure 20 sous la référence 2005 par l’affichage d’une représentation de cette liaison, en l’occurrence l’insertion de cet attribut dans la bulle.

Claims

REVENDICATIONS

1 . Procédé (3000) d’enrichissement d’un contenu numérique représentatif d’une conversation, caractérisé en ce qu’il comporte : de manière itérative : une étape (3005) de capture d’un signal audio représentatif d’un message vocal, une étape (3010) de segmentation du message vocal en un segment, ladite étape de segmentation comportant une étape de détection de silence, le segment étant obtenu en fonction de la détection d’un silence, une étape (3015) de conversion en texte, dit « contribution », du segment audio et une étape (3020) de stockage, dans une mémoire, d’une contribution, puis : une étape (3025) de détection de sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée, une étape (3030) d’association, dans une mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté et une étape (3035) d’affichage d’au moins une contribution stockée et d’au moins un attribut vis-à- vis d’au moins une dite contribution.

2. Procédé (3000) selon la revendication 1 , dans lequel l’étape (3025) de détection comporte : une étape (3040) de collecte d’un signal audio représentatif d’un message vocal émis par un utilisateur et une étape (3045) de détermination d’un sentiment en fonction du signal audio collecté.

3. Procédé (3000) selon l’une des revendications 1 ou 2, dans lequel l’étape (3025) de détection comporte : une étape (3050) de collecte d’un signal vidéo représentatif d’une attitude d’un utilisateur, une étape (3055) de détermination d’un sentiment en fonction du signal vidéo collecté.

4. Procédé (3000) selon l’une des revendications 1 à 3, dans lequel l’étape (3025) de détection comporte : une étape (3060) de sélection par un utilisateur, via une interface homme-machine, d’une contribution stockée et une étape (3065) de sélection, par un utilisateur, via une interface homme-machine, d’un symbole représentatif d’un sentiment vis-à-vis de la contribution sélectionnée.

5. Procédé (3000) selon l’une des revendications 1 à 4, qui comporte : une étape (3070) de création automatique, selon une règle de création, d’une requête en fonction d’au moins un attribut de sentiment associé à au moins une contribution stockée et/ou d’au moins une contribution stockée et/ou d’au moins un signal audio capté, une étape (3075) de fourniture, via une interface homme machine, de la requête à au moins un utilisateur, une étape (3080) de détection d’une action d’au moins un utilisateur vis-à-vis de la requête et une étape (3085) de réalisation d’un traitement informatique en fonction d’au moins une action détectée, selon une règle de réalisation.

6. Procédé (3000) selon la revendication 5, dans lequel la règle de création est évolutive, le procédé comportant une étape (3090) d’apprentissage par renforcement de la règle en fonction d’au moins une action détectée vis-à-vis de la requête.

7. Procédé (3000) selon l’une des revendications 5 ou 6, dans lequel la règle de réalisation est évolutive, le procédé comportant une étape (3095) d’apprentissage par renforcement de la règle en fonction d’au moins une action détectée vis-à-vis de la requête.

8. Procédé (3000) selon l’une des revendications 1 à 7, qui comporte : une étape (3100) de détermination probabiliste d’au moins un attribut candidat à l’association avec une contribution stockée, une étape (3105) de validation ou d’infirmation de l’association déterminée et une étape (3110) d’association, dans une mémoire, d’au moins un attribut à une contribution stockée en cas de validation de l’association.

9. Procédé (3000) selon l’une des revendications 1 à 8, qui comporte : une étape (3115) de récapitulation de la discussion, en fonction d’au moins une contribution stockée et d’au moins un attribut associé audit texte et une étape (3120) de stockage de la discussion récapitulée.

10. Système (3200) d’enrichissement d’un contenu numérique représentatif d’une conversation, caractérisé en ce qu’il comporte : au moins un terminal (3205) informatique, chaque terminal informatique comportant : un capteur (3210) audio configuré pour capter un signal audio représentatif d’un message vocal, un moyen (3215) de calcul configuré pour : détecter un silence dans un flux audio capté par le capteur, segmenter le message vocal en au moins un segment en fonction de la détection d’un silence, convertir le message vocal en texte, dit « contribution » et une mémoire (3220) informatique pour stocker au moins une contribution, le moyen de calcul d’au moins un dit terminal informatique étant, de plus configuré pour : détecter un sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée et associer, dans la mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté, ledit terminal informatique comportant, de plus, un moyen d’affichage d’au moins une contribution stockée et d’au moins un indicateur représentatif d’un sentiment détecté vis-à-vis d’au moins une dite contribution.