WO2021028501A1 - Procédé et système d'enrichissement d'un contenu numérique représentatif d'une conversation - Google Patents

Procédé et système d'enrichissement d'un contenu numérique représentatif d'une conversation Download PDF

Info

Publication number
WO2021028501A1
WO2021028501A1 PCT/EP2020/072671 EP2020072671W WO2021028501A1 WO 2021028501 A1 WO2021028501 A1 WO 2021028501A1 EP 2020072671 W EP2020072671 W EP 2020072671W WO 2021028501 A1 WO2021028501 A1 WO 2021028501A1
Authority
WO
WIPO (PCT)
Prior art keywords
contribution
user
action
stored
feeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/EP2020/072671
Other languages
English (en)
Inventor
Vincent Lorphelin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
100 Brevets Pour La French Tech
Original Assignee
100 Brevets Pour La French Tech
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 100 Brevets Pour La French Tech filed Critical 100 Brevets Pour La French Tech
Priority to US17/597,548 priority Critical patent/US12154553B2/en
Publication of WO2021028501A1 publication Critical patent/WO2021028501A1/fr
Anticipated expiration legal-status Critical
Priority to US18/914,300 priority patent/US20260105097A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/40Business processes related to social networking or social networking services
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Definitions

  • the present invention relates to a method and a system for enriching digital content representative of a conversation. It applies, in particular, to the field of digital communication.
  • Slack is collaborative communication software associated with project management software.
  • Other modules allow file sharing, instant messaging, voice calls, video conference calls, screen sharing, and searchable document archiving.
  • Conversations are searchable by everyone in the company using hashtags or a text-based search engine, making it easy to share knowledge.
  • Other tools such as Salesforce (Trademark) or Zoom (Trademark) can be called up by buttons generated by "/ salesforce” or "/ zoom” tags entered in a message.
  • the present invention aims to remedy all or part of these drawbacks.
  • the present invention is aimed at a method of enriching a digital content representative of a conversation, which comprises: iteratively: a step of capturing an audio signal representative of a message voice, a step of segmenting the voice message into a segment, said segmentation step comprising a step of detecting silence, the segment being obtained as a function of the detection of a silence, a step of converting the audio segment into text, called "contribution", and a step of storing, in a memory, a contribution, then: a step of detecting the user's feeling with respect to at least a stored contribution, a step of association, in a memory and in relation to at least one stored contribution, of at least one attribute corresponding to at least one feeling detected and a step of displaying at least one stored contribution and of at least one attribute with respect to at least one said contribution.
  • a set of propositions in a user's speech can be broken down into segments, each segment being associated with distinct feelings expressed by numerical attributes.
  • These digital attributes make it possible to make the oral discussion digitally manipulable by enriching its content.
  • the detection step includes: a step of collecting an audio signal representative of a voice message transmitted by a user and a step of determining a feeling based on the collected audio signal.
  • the detection step includes: a step of collecting a video signal representative of an attitude of a user and a step of determining a feeling based on the collected video signal.
  • the detection step comprises: a step of selection by a user, via a man-machine interface, of a stored contribution and a step of selection, by a user, via a man-machine interface, a symbol representative of a feeling for the selected contribution.
  • the method that is the subject of the present invention comprises: a step of automatically creating, according to a creation rule, a request as a function of at least one sentiment attribute associated with at least one stored contribution and / or at least one stored contribution and / or at least one picked up audio signal, a step of providing, via a man-machine interface, the request to at least one user, a step of detecting an action of 'at least one user with respect to the request and a step of performing computer processing as a function of at least one detected action, according to an implementation rule.
  • the creation rule is scalable, the method comprising a step of learning by reinforcing the rule as a function of at least one action detected with respect to the request.
  • the realization rule is scalable, the method comprising a step of learning by reinforcing the rule as a function of at least one action detected with respect to the request.
  • the method which is the subject of the present invention comprises: a step of probabilistic determination of at least one candidate attribute for association with a stored contribution, a step of validation or invalidation of the determined association and a step of associating, in a memory, at least one attribute with a contribution stored in the event of validation of the association.
  • the method that is the subject of the present invention comprises: a step of summarizing the discussion, as a function of at least one stored contribution and of at least one attribute associated with said text and a step of storing the discussion recapitulated.
  • the present invention is aimed at a system for enriching digital content representative of a conversation, which comprises: at least one computer terminal, each computer terminal comprising: an audio sensor configured to pick up an audio signal representative of '' a voice message, a means of calculation configured to: detect silence in an audio stream picked up by the sensor, segment the voice message into at least one segment according to the detection of a silence, convert the voice message into text, said “contribution” and a computer memory for storing at least one contribution, the computing means of at least one said computer terminal being, moreover, configured to: detect a feeling of user towards at least one contribution stored and associate, in the memory and in relation to at least one stored contribution, at least one attribute corresponding to at least one feeling detected, said computer terminal comprising, moreover, means for displaying at least one stored contribution and at least one indicator representative of a feeling detected with respect to at least one said contribution.
  • the aims, advantages and particular characteristics of the system which is the subject of the present invention being similar to those of the method which is the subject of
  • Figure 1 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • Figure 2 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • FIG. 3 diagrammatically represents a particular embodiment of a user interface implemented by the system which is the subject of the present invention
  • Figure 4 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • Figure 5 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • Figure 6 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • Figure 7 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • Figure 8 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • Figure 9 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention.
  • Figure 10 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • FIG. 11 diagrammatically represents a particular embodiment of a user interface implemented by the system which is the subject of the present invention
  • Figure 12 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • Figure 13 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • Figure 14 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • Figure 15 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • FIG. 16 schematically represents a particular embodiment of a user interface implemented by the system that is the subject of the present invention
  • FIG. 17 represents, schematically, a particular embodiment of a user interface implemented by the system which is the subject of the present invention
  • Figure 18 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • Figure 19 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • Figure 20 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • Figure 21 shows, schematically, a particular embodiment of a user interface implemented by the system that is the subject of the present invention
  • Figure 22 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • Figure 23 shows, schematically, a particular embodiment of a user interface implemented by the system object of the present invention
  • FIG. 24 schematically represents a first embodiment of a user interface implemented by the system which is the subject of the present invention
  • FIG. 25 represents, schematically, a first embodiment of a succession of particular steps of the method which is the subject of the present invention.
  • Figure 26 shows, schematically, a second embodiment of a succession of particular steps of the method object of the present invention
  • Figure 27 shows, schematically, a third embodiment of a succession of particular steps of the method object of the present invention
  • Figure 28 shows, schematically, a fourth embodiment of a succession of particular steps of the method that is the subject of the present invention
  • Figure 29 shows, schematically, a fifth embodiment of a succession of particular steps of the method object of the present invention
  • FIG. 30 represents, schematically, a sixth embodiment of a succession of particular steps of the method which is the subject of the present invention.
  • FIG. 31 represents, schematically, a particular embodiment of the system which is the subject of the present invention.
  • FIG. 30 shows schematically a particular embodiment of method 3000 which is the subject of the present invention.
  • This process 3000 for enriching a digital content representative of a conversation comprises: iteratively: a step 3005 of capturing an audio signal representative of a voice message, a step 3010 of segmenting the voice message into a segment, said segmentation step comprising a step 3011 of detecting silence, the segment being obtained as a function of the detection of a silence, a step 3015 of conversion into text, called “contribution”, of the audio segment and a step 3020 of storage, in a memory, of a contribution, then: a step 3025 of detection of user feeling with respect to at least one stored contribution, a step 3030 of association, in a memory and in relation to at least one stored contribution, of at least one attribute corresponding to at least one feeling detected and a step 3035 display of at least one stored contribution and at least one attribute with respect to at least one said contribution.
  • the capture step 3005 is carried out, for example, by the use of an audio sensor, such as a microphone, of a computer terminal 3205, as shown in FIG. 31.
  • computer terminal is meant here generally any electronic device comprising at least: an audio sensor 3210, such as a microphone, configured to pick up an audio signal representative of a voice message, a calculation means 3215, such as a microprocessor, configured to: detect silence in an audio stream picked up by the sensor, segment the voice message into at least one segment based on the detection of silence, convert the voice message into text, called “contribution" and a computer memory 3220 for storing at least one contribution, the means 3215 calculation of at least one said computer terminal 3205 being, moreover configured to: detect a feeling of user vis-à-vis at least one stored contribution and associate, in the memory and in relation to at least one control stored ibution, of at least one attribute corresponding to at least one feeling detected, said computer terminal 3205 further comprising a display means, such as a screen, of at least one stored contribution
  • Such a computer terminal 3205 can be a smart phone, a digital tablet or a computer.
  • the calculation means 3215 can be distributed between a local terminal and a remote terminal communicating via a data network, such as the Internet for example.
  • a data network such as the Internet for example.
  • each action can be performed by a separate computer program, the results of the calculations being provided from one terminal to another according to the needs associated with the selected architecture.
  • voice message is meant a succession of words from a user.
  • a computer file of finite size or captured in real time (“streamed” in English) is obtained.
  • a step 3005 is implicitly illustrated in FIG. 26, in particular in relation to the step 2605 for opening a web conference page.
  • the segmentation step 3010 is performed, for example, by the implementation of a computer program by an electronic calculation means.
  • This computer program is configured to, depending on an event detected in the voice message, segment the voice message to extract a segment.
  • Such an event is, for example, a silence.
  • Such a step 3010 is illustrated in FIG. 26, in particular in relation to the step 2615 of segmentation of the dictation of the users.
  • the step 3011 of detecting a silence is carried out, for example, by the implementation of a computer program by an electronic calculation means.
  • a computer program uses, for example, the “Silence Finder” program developed by Audacity (Trademark).
  • Such a step 3011 is illustrated in FIG. 26, in particular in relation to step 2610 of detecting micro-silences.
  • the voice message before the silence is extracted to form a segment.
  • the conversion step 3015 is performed, for example, by the implementation of a computer program by an electronic calculation means.
  • a computer program is, for example, similar to iOS Dictation (Trademark).
  • the result of these steps 3010, 3011 and 3015 can be seen in FIG. 7, for example, under the references 710, 711 and 712 of segmentation and conversion into text of a voice conversation.
  • the storage step 3020 is carried out, for example, by implementing a computer memory 3220 associated with a system for managing said memory 3220.
  • each stored contribution is time-stamped and associated with a user identifier, said user identifier corresponding to a user identifier of an application or of a terminal 3205 executing an application executing the method.
  • the steps of capture 3005, segmentation 3010, detection 3011 of silence, conversion 3015 and storage 3020 can be iterative. These modes are particularly suitable for capturing live contributions.
  • the segmentation 3010, silence detection 3011, conversion 3015 and storage 3020 steps are iterative.
  • the detection step 3025 can be carried out in several ways depending on the detection method chosen.
  • the detection 3025 is of the declarative type.
  • the detection step 3025 comprises: a step 3060 of selection by a user, via a man-machine interface, of a stored contribution and a step 3065 of selection , by a user, via a man-machine interface, of a symbol representative of a feeling regarding the selected contribution.
  • the step 3060 of selecting a contribution is performed, for example, by clicking on a touch screen of the computer terminal 3205 to select a contribution.
  • the step 3065 of selecting a symbol is carried out, for example, by clicking on a part of the user interface of an application displaying the contribution allowing the choice of a symbol, such as an emoji, to be associated with the contribution.
  • Such a step 3060 is illustrated in FIG. 8 under the reference 810 representing a contribution selected by the user.
  • Such a step 3065 is illustrated in FIG. 8 under the reference 820 representing the selection of an emoji.
  • the detection 3025 is of the automatic type.
  • a feeling is detected based on a sound emitted by a user.
  • the detection step 3025 comprises: a step 3040 of collecting an audio signal representative of a voice message sent by a user, a step 3045 of determining a feeling as a function of the audio signal collected.
  • the collection step 3040 is carried out, for example, by operating a microphone of a computer terminal 3205 of a user. Such a step 3040 is illustrated in FIG. 11, in particular in relation to step 1110 of detecting a voice message from the user.
  • the step 3045 of determining a sentiment is carried out, for example, by the implementation of a computer program by an electronic means of calculation.
  • This computer program is configured to detect sound signals representative of feelings, such as signals of approval when the user says “yes” or disapproval when the user says “no”.
  • Such a computer program is, for example, similar to Supersonic Fun Voice Messenger (Trademark).
  • This collection step 3040 can be simultaneous with the step 3005 for capturing the voice message performed for another user.
  • a feeling is detected based on the detected body attitude of a user.
  • the detection step 3025 comprises: a step 3050 of collecting a video signal representative of an attitude of a user, a step 3055 of determining a feeling depending on the video signal collected.
  • the collection step 3050 is carried out, for example, by a cybercamera oriented towards a user of a computer terminal 3205 associated with the cybercamera. Such a step 3050 is illustrated in FIG. 12, in particular in relation to the step 1210 of detecting a nod of the head of the user.
  • the step 3055 of determination is carried out, for example, by the implementation of a computer program by an electronic calculation means.
  • This computer program is, for example, similar to Intel (Trademark) RealSense (Trademark) or OpenVINO (Trademark), and recognizes bodily acquiescence such as nodding or smiling.
  • attribute is defined as a metadata enriching a contribution
  • this attribute can be of any type.
  • the sound "yes” is associated with the attribute "acquiescence”.
  • this attribute comprises a type of feeling and the user identifier associated with the feeling detected.
  • the memory association step 3030 is performed, for example, by implementing a computer memory 3220 associated with a system for managing said memory 3220. This step 3030 is illustrated in FIG. 26 under the reference 2625.
  • the display step 3035 is carried out, for example, by the implementation of a computer terminal screen 3205 whose display is controlled as a function of the execution of an application requiring the display of at least a contribution and at least one attribute. This step 3035 is illustrated in FIG. 26 under the reference 2630.
  • the method 3000 which is the subject of the present invention comprises: a step 3070 of automatic creation, according to a creation rule, of a request as a function of at least one attribute of feeling associated with at least one stored contribution and / or at least one stored contribution and / or at least one captured audio signal, a step 3075 of supplying, via a man-machine interface, the request to at least one user , a step 3080 of detecting an action of at least one user with respect to the request and a step 3085 of performing computer processing as a function of at least one detected action, according to an implementation rule .
  • the automatic creation step 3070 is carried out, for example, by the implementation of a computer program by an electronic calculation means.
  • a computer program is, for example, similar to the “Create call to action” functionality available from a Facebook page (Trademark).
  • This step 3070 is illustrated in Figure 25 under the reference 2515 for evaluating the conditions of the rules of the actions.
  • This step 3075 is illustrated in Figure 25 under the reference 2520 for triggering an action request from the user.
  • This step 3080 is illustrated in Figure 25 under the reference 2525 for evaluating the rules for confirming actions.
  • This step 3085 is illustrated in Figure 25 under the reference 2530 for executing an action.
  • a request can consist of soliciting users to validate a contribution, confirm a feeling detected, register for a given service, vote in a consultation, launch an application, etc.
  • a creation rule is defined by a criterion and a threshold triggering the creation step 3070.
  • the rule could be the association of a specified number of sentiment attributes with respect to a specified contribution or the association of a specified number of sentiment attributes over a period of time.
  • the request created depends on the content of the contribution.
  • the content of a contribution can be identified by a computer text analysis program ("parsing") configured to prioritize the identified text, such as Zapier Parser (Trademark) or Mailparser.io (Trademark).
  • the creation rule can be scalable, the method 3000 then comprising a step 3090 of learning by reinforcing the rule as a function of at least one action detected with respect to the request. This step 3090 is illustrated in FIG. 25 under the reference 2540 for strengthening the rule for triggering the request.
  • the learning step 3090 implements a statistical algorithm configured to assess the relevance of creating queries based on actions detected against past queries.
  • a step 3090 is well known and consists of the multi-criteria evaluation of the success or failure of requests, determined as a function of the responses to the requests to weight each criterion used in the creation of requests.
  • Such a learning program implements, for example, Az Reason Machine Learning Services (Trademark), Az Reason Machine Learning Command-Line Interface (Trademark) or Main Python SDK (Trademark).
  • the supply step 3075 is carried out, for example, by the display on the screen of a terminal 3205 of at least one user of a window representative of the request and requesting an action from the user . This action depends on the request and the interactive elements displayed in the window, the nature, quantity and meaning of which depend on the request.
  • the step 3080 of detecting an action is performed, for example, by detecting an action performed by the user with regard to the request provided.
  • This action can be of the gestural type and detected by the use of a touch screen, for example.
  • the detection 3080 of an action thus depends on the method of delivery and the action requested from the user.
  • detection of an action 3080 implements a human-machine interface to detect user interaction with the provided request.
  • This interface can be a web camera, a keyboard or mouse type peripheral or a touch screen.
  • Step 3085 of performing computer processing is performed, for example, by implementing a computer program by electronic calculation means.
  • Computer processing depends on the request and may consist, for example, of adding an automatically generated contribution among the contributions obtained through the capture of voice messages.
  • Computer processing can also, for example, consist of starting a computer program.
  • This step 3075 is illustrated in FIG. 10 under the reference 1005 of a request requesting action from the user.
  • This step 3080 is illustrated in FIG. 10 under the reference 1010 of an action by the user.
  • the implementation rule is scalable, the method 3000 then comprising a step 3095 of learning by reinforcing the rule as a function of at least one action detected vis-à-vis. screw the query.
  • This step 3095 is illustrated in FIG. 25 under the reference 2535 for strengthening the rule for confirming the request.
  • the method 3000 which is the subject of the present invention comprises: a step 3100 of probabilistic determination of at least one candidate attribute for association with a stored contribution, a step 3105 of validation or invalidation of the determined association and a step 3110 of association, in a memory, of at least one attribute to a contribution stored in the event of validation of the association.
  • the step 3100 of probabilistic determination is carried out, for example, by the implementation of a computer program by an electronic calculation means. This computer program analyzes the textual content of a contribution to determine the relevance of at least one complementary keyword, or attribute.
  • Each complementary attribute, or keyword, is then displayed on an interface of the computer program and awaiting processing by the user.
  • the validation step 3105 is carried out, for example, by the implementation of a man-machine interface the use of which is representative of an intention to validate or invalidate the determined association.
  • a man-machine interface the use of which is representative of an intention to validate or invalidate the determined association.
  • the user can swipe the touchscreen in a first direction to validate the association or in a second direction to disallow the association.
  • the association step 3110 is performed analogously to the step 3030 for associating an attribute representative of a sentiment with a contribution.
  • This step 3100 is illustrated in FIG. 24 under the references 2410 to 2413 of probabilistic determination of attributes candidates for an association ("pictures”, "church”, “wedding cake”, “gift”).
  • This step 3105 is illustrated in FIG. 24 under the reference 2420 for validating this association by scanning.
  • This step 3110 is illustrated in FIG. 24 under the reference 2430 of association of an attribute ("pictures") and of a contribution, the association being represented by the integration of a pictogram in the bubble.
  • the recapitulation step 3115 is carried out, for example, by the implementation of a computer program for summarizing a textual content, by an electronic means of calculation.
  • This computer program implements, for example, the Python's NLTK library (Trademark).
  • This step 3115 is illustrated in FIG. 15 under the session summary reference 1505.
  • the storage step 3120 is performed, for example, by implementing a memory and the associated control device.
  • FIG. 31 shows a particular embodiment of the 3200 system which is the subject of the present invention.
  • This system 3200 for enriching a digital content representative of a conversation comprises: at least one computer terminal 3205, each computer terminal comprising: an audio sensor 3210 configured to pick up an audio signal representative of a voice message, a means 3215 calculation configured to: detect silence in an audio stream picked up by the sensor, segment the voice message into at least one segment according to the detection of silence, convert the voice message into text, called “contribution” and a computer memory 3220 for storing at least one contribution, the means of calculating at least one said computer terminal being, moreover, configured for: detecting a user's feeling with respect to at least one stored contribution and associating, in the memory and in relation to at least one stored contribution, at least one attribute corresponding to at least one detected feeling, said terminal computer system comprising, moreover, a display means of at least one stored contribution and at least one indicator representative of a feeling detected with respect to at least one said contribution.
  • the 3200 system uses a plurality of computer terminals linked by a data network, such as the Internet or a mobile network of the fourth or fifth generation type, for example.
  • a data network such as the Internet or a mobile network of the fourth or fifth generation type, for example.
  • each computer terminal 3205 can be distributed between a remote computing server and a local application, that is to say the closest to a user, linked together by a data network.
  • the 3200 system can include: a social network management application which references: a set of users corresponding to terminals. These users are each characterized by an avatar and grouped into sets, a set of virtual workspaces characterized by a name, a theme and a set of users. The users of a virtual workspace are divided into subsets registered (list of members) and connected (list of connected users).
  • a virtual workspace includes a discussion thread, fed by user contributions and actions.
  • a virtual workspace is represented by three main pages: a home page, a member page and a text summary page from a voice message and a set of contributions each attached to a virtual workspace, characterized by an author, a timestamp and a text, the latter being dictated orally by a user through the text synthesis application; the text synthesis application ("Speech te text" in English) transcribes a user's dictation into text, such as iOS Dictation (Trademark). In addition, it cooperates with a silence detection application such as Audacity Silence Finder (Trademark), to segment this dictation into as many contributions.
  • a silence detection application such as Audacity Silence Finder (Trademark)
  • a unified collaboration platform application such as Slack (Trademark), Microsoft Team (Trademark), Workplace by Facebook (Trademark), in particular managing the discussion channels attached to spaces virtual work, and making the following applications cooperate: an internet conferencing application, such as the Skype for Business Meeting (Trademark), Amazon Chime (Trademark), Google Hangouts Meet (Trademark), IBM Sametime (Trademark) functionality ), Skype Enterprise (Trademark).
  • This application allows you to organize audio, video and web conferences on the Internet, plan a meeting in advance, start one at any time and invite users, a silence detection application such as the Silence Finder feature used by Audacity (Trademark), a speech recognition application such as Supersonic Fun Voice Messenger (Trademark), recognizes a set of meaningful phrases, for example an oral acknowledgment: " yes ”,“ great ”,“ good ”or“ of course ”or the end of an internet conference:“ thank you for your participation ”, a sentiment recognition application, such as Intel (Trademark) RealSense (Trademark) or OpenVINO (Trademark), which recognizes bodily acquiescence such as a nod of the head or a smile, a call-to-action application, such as the “Create call te action” feature accessible from a Facebook page (Trademark), allows you to solicit the action of a user, in a predefined list of Actions, such as validate, confirm, register, vote, launch an app, etc., a sound
  • a page 100 of members in which is displayed from top to bottom: a menu pictogram 105, a text area 110 representing the name of the virtual workspace, a pictogram 115 indicating the activity the microphone of the smartphone (here disabled), a set of 120 avatars representing in a scrolling banner the users registered in the virtual workspace, a subset 125 of avatars representing a single user connected to the workspace virtual, framed in the drop-down banner and displayed in the voice zone 130 and a set 135 of buttons that can be activated by the user and trigger specific functionalities.
  • the member page 200 in which is displayed: a pictogram indicating the activity of the telephone microphone (here, activated) and a subset of avatars representing three users in the virtual space , the display of these avatars in the voice zone being highlighted by a halo 205 when the corresponding users are speaking, that is to say whose voice status is activated.
  • FIG. 7 we observe a particular interface 700 of the textual summary page in which we display from top to bottom: a menu pictogram, a text zone representing the name of the virtual workspace, a pictogram indicating the 'activity of the terminal microphone displaying the interface, a set of avatars representing the users registered in the virtual workspace, a subset of avatars representing the connected users, that is to say the connected users to the virtual workspace, a succession 705 of text bubbles 710 to 712 and pictograms representing respectively the contributions and captures of the discussion thread of the virtual workspace and a set of buttons that can be activated by the user.
  • a menu pictogram a text zone representing the name of the virtual workspace
  • a pictogram indicating the 'activity of the terminal microphone displaying the interface
  • a set of avatars representing the users registered in the virtual workspace a subset of avatars representing the connected users, that is to say the connected users to the virtual workspace
  • a succession 705 of text bubbles 710 to 712 and pictograms representing respectively
  • the user can: record a contribution using the text summary application, activate one of the buttons, capture a contribution represented by a text bubble: by activating the capture button, which causes the capture of the text bubble being created or by sliding from right to left on a text bubble .
  • the capture of a contribution causes the display of the pictogram "being captured”: near the corresponding text bubble in the text summary page and / or near the avatar of its author in the members page .
  • approval of the dictation of a speaking user can be signified by other users through the activation of different approval buttons, such as emoji, capture and release buttons. validation.
  • Figure 9 shows the home page 900.
  • This home page displays the same groups of avatars and buttons as in the text summary page. It also displays a discussion channel 905 which lists all the contributions from the summary page that have been previously captured. Each contribution has an associated timestamp, author avatar, and approval counters.
  • Approval counters are associated with predefined approval thresholds. When the level of an approval counter reaches one of the associated approval thresholds, this triggers a call to action (in English) thanks to the implementation of the call to action application executing the action rules.
  • the first action rule is described with reference to figure 10. It is broken down into two parts: triggering 1005 of an action rule: the approval threshold corresponds to ten activations of approval buttons by participants and the call to action offers the user who is speaking to capture the text bubble whose approval counter has reached the approval threshold value, i.e. ten, the confirmation 1010 of an action rule: if the user's confirmation is performed before a defined expiration period, of four seconds for example, the capture is performed. The call-to-action counter is incremented and the call-to-action timer updates the average of the confirmation times.
  • the second rule of action is described with reference to figure 11. Its objective is to stimulate a second mode of participation: "You and others seem to have a positive opinion about what has just been said, do you want to be the first to express it? ".
  • the triggering of an action rule the approval threshold corresponds to an activation of the validation button and the call to action proposes, to the user who activated this validation button, to execute a doorbell-type sound emoji, the confirmation of an action rule: if the user's confirmation was made before a predefined expiration time, the sound emoji 1105 is played in the conference.
  • the call-to-action counter is incremented and the call-to-action timer recalculates the average of the confirmation times.
  • the third rule of action is described with reference to figure 12. Its purpose is to stimulate a third mode of participation: "You are not the only one to approve, to join in the approval? ".
  • the triggering of an action rule the approval threshold corresponds to the activation of three sound emojis of the bell type by participants and the call to action proposes, to these participants, to perform a applause sound emoji confirmation of an action rule: if the confirmation by one of these participants was made before a predefined timeout, the sound emoji 1205 is played in the conference.
  • the call-to-action counter is incremented and the call-to-action timer recalculates the average of the confirmation times.
  • the fourth rule of action is described with reference to figure 13. Its purpose is to stimulate a fourth mode of participation: “Do you want to be part of the general enthusiasm related to the sentence? ".
  • the triggering of an action rule the approval threshold corresponds to the activation of applause-type sound emojis by more than 50% of the participants and the call to action is a proposal to these participants to perform a sound emoji of the ovation type
  • the confirmation of an action rule if the confirmation by 20% of these participants was carried out before a predefined expiration period, the sound emoji is played in the conference.
  • the call to action counter is incremented and the call to action timer recalculates the average of the confirmation times.
  • the rules of action are preferably organized in a hierarchical manner, since a sound emoji of ovation follows an applause and a doorbell. This allows speaking users and other logged in users to intuitively understand the quality of contributions. This instruments the collaboration to promote real-time interactions, and enriches the conference report with a time-stamped indicator of group dynamics.
  • the rules of action are changed through a two-level learning loop implemented by the reinforcement learning application. Rules of action are in effect rewarded or penalized by the speed and confirmation rate measured by call-to-action counters and call-to-action timers, respectively.
  • the first level concerns the triggering of action rules, that is to say the conditions for triggering a call to action: if the fourth action rule is often confirmed, depending on the measurement of the call-to-action counter, the approval threshold is decremented, that is, its value drops from 50% to 40% of participants and if the fourth action rule is rarely confirmed, the approval threshold is incremented, that is, its value increases from 50% to 60% of participants.
  • the second level concerns action rule confirmations, that is to say the conditions for confirming the call to action: if the call to action is confirmed late, according to the measurement of the call to action timer , the time-out counter 1305 is increased from four to five seconds, and if the call to action is confirmed quickly, the time-out counter is decreased from four to three seconds.
  • FIGS. 10 to 13 thus illustrate a method making it possible, on the basis of the validation buttons activated by the users, to initiate and then to confirm an action in application of a predefined action rule. Measuring the speed and confirmation rate adjusts this rule of action by learning.
  • the learning loop may implement other parameters to measure the success or triggering of rules of action.
  • the call-to-action application 1400 executes the following action rule: triggering an action rule: if the text summary application detects an interrogative form, and the author of the interrogative text bubble captures this one, then the text of this text bubble is displayed in a call to action of all logged in users who are asked to confirm this question, the confirmation of an action rule: individual confirmation is acquired by pressing a button, or by oral acquiescence or by bodily acquiescence and confirmation collective is acquired if the number of individual confirmations represents more than half of the participants.
  • the application 1500 of the call to action executes the following action rule triggering an action rule: if the speech recognition application recognizes a phrase signifying the end of a conference on the internet and the author of this phrase captures the corresponding text bubble, then the call to action application launches a call to action on this author's terminal to confirm the closure, the confirmation of a rule of action: this validation causes the closure of the internet conference and the opening of the 1505 recapitulation application.
  • the virtual workspace 1600 further contains a business process page.
  • a business process representing a sequence of collaboration between a supplier and a customer.
  • This sequence is accompanied by a business process counter which represents the progress of this sequence.
  • the steps already taken are represented by a thick line.
  • Activation 1605 of a step by the user (“description”) causes: the opening of the text summary page and the display of the identifier (“description”) of this step in the text summary page .
  • the Text Summary page 1700 launches the parser to detect 1705 keywords and phrases indicative of steps in the business process.
  • This detection is carried out thanks to associations between keywords and steps.
  • the keyword “documents” is associated with the “description” step, while the keywords and phrases “quote”, “how many products” are associated with the “quote” step.
  • this detection causes the display of an attribute next to the relevant text bubble. This attribute represents the step corresponding to the keyword ("quote").
  • the user can establish a link in memory between the attribute, or step, and a contribution represented by the text bubble by performing a 1710 sweep of this text bubble during this step.
  • the associations between keywords and steps are initialized by a first predefined set of associations between the keywords of the lexicon and the attributes of text bubbles. This lexicon is enriched by the user, as indicated below. These associations are strengthened or weakened through the reinforcement learning application and link scans performed by all users. With reference to figure 18, the textual summary page 1800 displays a separation line between two successive text bubbles in application of the link or links made by the user, to symbolize the transition between two steps, 1805 and 1810, of the process business.
  • a sweep command causes the business process counter to increment, which updates the status representation on the business process page.
  • support tools allow users to provide additional information to enrich an ongoing internet conference.
  • the Text Summary page 2000 launches the parser to detect phrases that may reveal the identity of team members associated with the business process.
  • the textual summary page displays a 2005 attribute representing this identity, such as an avatar, associated with the relevant text bubble.
  • a 2010 swipe of the user on this text bubble causes this attribute to link to this text bubble, that is, the contribution represented. This connection is represented by the display of this attribute inside the text bubble.
  • the virtual workspace further contains a 2100 page of to-do items. On this page is displayed by member of the team associated with the business process the list of text bubbles that have been associated with his identity, and by which user ("assigned by").
  • the parser detects expressions that may reveal tasks 2205 and objects 2210 associated with the business process.
  • the textual summary page displays an attribute 2215 representing a task or an object, such as a pictogram, vis-à-vis the relevant text bubble. A user swipe over this text bubble causes this attribute to bind to this text bubble.
  • the parser's keyword lexicon is enriched by the user selecting 2305 of a text fragment included in a text bubble. This selected text fragment is added as a keyword or phrase in the parser lexicon.
  • the keywords and phrases of the parser are grouped together by themes, themselves grouped together in events according to a predefined ontology.
  • the "wedding" event includes the themes: Flowers, Bar, Pictures, Cake, Church, Gift.
  • the Flowers theme groups together the keywords roses, peony, bouquet and garland.
  • the textual summary page 2400 displays an attribute representing a theme, such as a pictogram, vis-à-vis the relevant text bubble. A user swipe over this text bubble causes this theme to link to this text bubble.
  • a theme such as a pictogram
  • the scanning of the user causes the connection of a contribution, represented by a text bubble, and of a category (Identity, task, object, topic ).
  • this link contributes to the learning of the parser by enriching his lexicon of keywords, by reinforcing or by weakening the probabilities of relevance of the categories for the keywords, and the probabilities of relevance of the keywords in contributions.
  • a method 2500 covered by the invention comprises the following steps: opening 2505 of the virtual workspace, approval 2510 by a user, evaluating 2515 the conditions of each call-to-action rule trigger, initiating 2520 the call-to-action, evaluating 2525 of the conditions for confirming action rules, executing 2530 action, learning 2535 action confirmation rules, learning 2540 to trigger call-to-action rules.
  • This step 2510 is illustrated in Figure 11 under the reference 1110 by the approval by a voice message from the user and in Figure 12 under the reference 1210 by a nod from the user.
  • This step 2520 is illustrated in Figure 11 under the reference 1115 and in Figure 12 under the reference 1215 by a call to action on the part of the user.
  • This step 2530 is illustrated in Figure 11 under the reference 1105 and in Figure 12 under the reference 1205 by the emission in the conference of an audio signal of approval.
  • a method 2600 covered by the invention comprises the following steps: the internet conference application opens 2605 an internet conference page , on which the users connect, the internet conferencing application runs the application for detecting silences 2610, the application for detecting silences segments 2615 the dictation of connected users into as many contributions, time stamps them and matches them with the identifier of their author, the application selects 2620 a contribution, a user captures 2625 one of the contributions by activating the capture button or by sliding from right to left on the text bubble representing this contribution, the captured contribution is added 2630 to the homepage chat channel.
  • This step 2615 is illustrated in FIG. 7 under the reference 705 by a succession of contributions 710 to 712.
  • This step 2625 is illustrated in FIG. 7 under the reference 720 by a sliding from right to left and under the reference 730 by the activation of d 'a capture button.
  • This step 2630 is illustrated in FIG. 15 under the reference 1510 by the addition of the contribution captured to the discussion channel of the home page.
  • a method 2700 covered by the invention the implementation of which is illustrated by FIGS. 6 and 11 to 13, and which comprises the following steps: the internet conference application is open 2705, in which logged-in users participate, a user activates 2710 an approval button, this activation increments 2715 the approval counter, the approval counter is compared 2720 to an approval threshold, in application of the action rule corresponding, the sound emoji is activated 2725 and the sound emoji is matched with a timestamp, the identifier of its authors and recorded 2730.
  • This step 2710 is illustrated in FIG. 6 by the activation of a button of approval 605.
  • This step 2720 is illustrated in FIG. 13 under the reference 1310 by a comparison with an approval threshold.
  • This step 2725 is illustrated in Figure 13 under the references 1305-1306 by the conditions of the action rule and under the reference 1320 by the triggering of a sound emoji.
  • a method 2800 covered by the present invention the implementation of which is illustrated by FIGS. 16 to 19, and which comprises the following steps: opening 2805 of the text summary page, the parser searches 2810 in the textual summary page for keywords revealing a step of a predefined business process, the textual summary page displays 2815 an attribute representing this step and associates it with a text bubble, the user selects 2820 this text bubble and the step counter is incremented 2825.
  • This step 2810 is illustrated in Figure 16 under the reference 1610 by the predefined business process and under the reference 1620 by a step of this business process.
  • This step 2810 is illustrated in FIG. 17 under the reference 1705 by the search for the keyword parser.
  • This step 2815 is illustrated in Figure 17 under the reference 1720 by an attribute representing this step 1620 of this business process 1610.
  • This step 2820 is illustrated in Figure 17 under the reference 1710 by the selection of a text bubble.
  • This step counter 2825 is illustrated by the reconciliation of Figures 16 and 19 which shows the progress of the business process.
  • Trello Trademark
  • Asana Trademark
  • a method 2900 covered by the invention comprises the following steps: opening 2905 of the textual summary page, the parser analyzes 2910 contributions from a predefined keyword lexicon, revealing a predefined category (identity, task, object, theme), the textual summary page displays 2915 an attribute representing a category identified by the parser, the user confirms 2920 the link between a contribution and a category, the textual summary page displays 2925 a representation of the link between the contribution and the category, machine learning 2930 reinforces the probability of a match between a keyword and a category defined by the parser and machine learning 2935 enriches the parser keyword and category database.
  • This step 2910 is illustrated in FIG.
  • This step 2915 is illustrated in FIG. 20 under the reference 2005 by the display of an attribute representing a category.
  • This step 2920 is illustrated in FIG. 20 under the reference 2010 by the confirmation of the link between a contribution and this category.
  • This step 2925 is illustrated in FIG. 20 under the reference 2005 by displaying a representation of this link, in this case inserting this attribute in the bubble.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Computing Systems (AREA)

Abstract

Le procédé (3000) d'enrichissement d'un contenu numérique représentatif d'une conversation comporte : de manière itérative : une étape (3005) de capture d'un signal audio représentatif d'un message vocal, une étape (3010) de segmentation du message vocal en un segment, ladite étape de segmentation comportant une étape de détection de silence, le segment étant obtenu en fonction de la détection d'un silence, une étape (3015) de conversion en texte, dit « contribution », du segment audio et une étape (3020) de stockage, dans une mémoire, d'une contribution, puis : une étape (3025) de détection de sentiment d'utilisateur vis-à-vis d'au moins une contribution stockée, une étape (3030) d'association, dans une mémoire et en relation avec au moins une contribution stockée, d'au moins un attribut correspondant à au moins un sentiment détecté et une étape (3035) d'affichage d'au moins une contribution stockée et d'au moins un attribut vis-à-vis d'au moins une dite contribution.

Description

PROCÉDÉ ET SYSTÈME D’ENRICHISSEMENT D’UN CONTENU NUMÉRIQUE REPRÉSENTATIF
D’UNE CONVERSATION
DOMAINE TECHNIQUE DE L’INVENTION
La présente invention vise un procédé et un système d’enrichissement d’un contenu numérique représentatif d’une conversation. Elle s’applique, notamment, au domaine de la communication numérique.
ÉTAT DE LA TECHNIQUE
Les réseaux sociaux tels Whatsapp (Marque déposée) ou Facebook Messenger (Marque déposée) sont connus pour permettre aux utilisateurs d’échanger des informations de manière asynchrone, de se regrouper par projet ou centre d’intérêt, de créer des carnets d’adresses et des listes de destinataires de ces informations.
Dans un contexte professionnel, Slack (Marque déposée) est un logiciel de communication collaborative associé à un logiciel de gestion de projets. D’autres modules permettent le partage de fichiers, la messagerie instantanée, les appels vocaux, les appels de vidéoconférence, le partage d'écran et l’archivage consultable de documents.
Pour faciliter la collaboration, la communication a lieu dans des chaînes de conversations organisées par projet, par thème ou par équipe. Les conversations sont consultables par tous dans l’entreprise grâce à des mots-dièse ou un moteur de recherche textuel, ce qui facilite le partage de connaissances. D’autres outils comme Salesforce (Marque déposée) ou Zoom (Marque déposée) peuvent être appelés par des boutons générés par les balises « /salesforce » ou « /zoom » saisies dans un message.
Toutefois, aucun de ces systèmes de communication ne permet d’obtenir, sous forme de données manipulables, les avis de participants vis-à-vis des différentes contributions à une conversation orale.
Pour aller dans le même sens, il n’existe pas de système permettant d’enrichir la communication, c’est-à-dire de transformer les messages des utilisateurs d’un réseau social pour permettre la lecture de ce que ces messages signifient sous une forme directement utilisable : compréhensible, synthétique, transmissible, graphique, pour provoquer, guider ou stimuler des actions d’utilisateurs du réseau, leur fournir un outil de recherche, de collecte et d’évaluation des contributions de chacun, et rendre plus efficace cette collaboration.
OBJET DE L’INVENTION
La présente invention vise à remédier à tout ou partie de ces inconvénients.
À cet effet, selon un premier aspect, la présente invention vise un procédé d’enrichissement d’un contenu numérique représentatif d’une conversation, qui comporte : de manière itérative : une étape de capture d’un signal audio représentatif d’un message vocal, une étape de segmentation du message vocal en un segment, ladite étape de segmentation comportant une étape de détection de silence, le segment étant obtenu en fonction de la détection d’un silence, une étape de conversion en texte, dit « contribution », du segment audio et une étape de stockage, dans une mémoire, d’une contribution, puis : une étape de détection de sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée, une étape d’association, dans une mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté et une étape d’affichage d’au moins une contribution stockée et d’au moins un attribut vis-à-vis d’au moins une dite contribution.
Grâce à ces dispositions, un ensemble de propositions dans un discours d’un utilisateur peut être décomposé en segments, chaque segment pouvant faire l’objet d’une association avec des sentiments distincts exprimés par des attributs numériques. Ces attributs numériques permettent de rendre la discussion orale manipulable de manière numérique en enrichissant son contenu.
Dans des modes de réalisation, l’étape de détection comporte : une étape de collecte d’un signal audio représentatif d’un message vocal émis par un utilisateur et une étape de détermination d’un sentiment en fonction du signal audio collecté.
Ces dispositions permettent de déterminer automatiquement et en temps réel le sentiment d’un utilisateur vis-à-vis d’une contribution.
Dans des modes de réalisation, l’étape de détection comporte : une étape de collecte d’un signal vidéo représentatif d’une attitude d’un utilisateur et une étape de détermination d’un sentiment en fonction du signal vidéo collecté.
Ces dispositions permettent de déterminer automatiquement et en temps réel le sentiment d’un utilisateur vis-à-vis d’une contribution.
Dans des modes de réalisation, l’étape de détection comporte : une étape de sélection par un utilisateur, via une interface homme-machine, d’une contribution stockée et une étape de sélection, par un utilisateur, via une interface homme-machine, d’un symbole représentatif d’un sentiment vis-à-vis de la contribution sélectionnée.
Ces dispositions permettent à un utilisateur de choisir parmi un ensemble d’attributs celui qui correspond le mieux vis-à-vis à une contribution.
Dans des modes de réalisation, le procédé objet de la présente invention, comporte : une étape de création automatique, selon une règle de création, d’une requête en fonction d’au moins un attribut de sentiment associé à au moins une contribution stockée et/ou d’au moins une contribution stockée et/ou d’au moins un signal audio capté, une étape de fourniture, via une interface homme machine, de la requête à au moins un utilisateur, une étape de détection d’une action d’au moins un utilisateur vis-à-vis de la requête et une étape de réalisation d’un traitement informatique en fonction d’au moins une action détectée, selon une règle de réalisation. Ces modes de réalisation permettent de réaliser, en cours de conversation ou après cette conversation, un traitement basé sur les contributions et attributs stockés.
Dans des modes de réalisation, la règle de création est évolutive, le procédé comportant une étape d’apprentissage par renforcement de la règle en fonction d’au moins une action détectée vis-à-vis de la requête.
Ces modes de réalisation permettent d’optimiser le déclenchement de la création d’une requête. Dans des modes de réalisation, la règle de réalisation est évolutive, le procédé comportant une étape d’apprentissage par renforcement de la règle en fonction d’au moins une action détectée vis-à-vis de la requête.
Ces modes de réalisation permettent d’optimiser le déclenchement de la réalisation d’un traitement associé à une requête.
Dans des modes de réalisation, le procédé objet de la présente invention comporte : une étape de détermination probabiliste d’au moins un attribut candidat à l’association avec une contribution stockée, une étape de validation ou d’infirmation de l’association déterminée et une étape d’association, dans une mémoire, d’au moins un attribut à une contribution stockée en cas de validation de l’association.
Ces modes de réalisation permettent d’ajouter des attributs à une contribution, lesdits attributs étant, par exemple, d’autres textes.
Dans des modes de réalisation, le procédé objet de la présente invention comporte : une étape de récapitulation de la discussion, en fonction d’au moins une contribution stockée et d’au moins un attribut associé audit texte et une étape de stockage de la discussion récapitulée.
Ces modes de réalisation permettent de compacter les contributions pour conserver celles dont l’importance est significative.
Selon un deuxième aspect, la présente invention vise un système d’enrichissement d’un contenu numérique représentatif d’une conversation, qui comporte : au moins un terminal informatique, chaque terminal informatique comportant : un capteur audio configuré pour capter un signal audio représentatif d’un message vocal, un moyen de calcul configuré pour : détecter un silence dans un flux audio capté par le capteur, segmenter le message vocal en au moins un segment en fonction de la détection d’un silence, convertir le message vocal en texte, dit « contribution » et une mémoire informatique pour stocker au moins une contribution, le moyen de calcul d’au moins un dit terminal informatique étant, de plus configuré pour : détecter un sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée et associer, dans la mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté, ledit terminal informatique comportant, de plus, un moyen d’affichage d’au moins une contribution stockée et d’au moins un indicateur représentatif d’un sentiment détecté vis-à-vis d’au moins une dite contribution. Les buts, avantages et caractéristiques particulières du système objet de la présente invention étant similaires à ceux du procédé objet de la présente invention, ils ne sont pas rappelés ici.
BRÈVE DESCRIPTION DES FIGURES
D’autres avantages, buts et caractéristiques particulières de l’invention ressortiront de la description non limitative qui suit d’au moins un mode de réalisation particulier du système et du procédé objets de la présente invention, en regard des dessins annexés, dans lesquels :
La figure 1 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 2 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 3 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 4 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 5 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 6 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 7 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 8 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 9 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 10 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 11 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 12 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 13 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 14 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 15 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 16 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention, La figure 17 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 18 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 19 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 20 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 21 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 22 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 23 représente, schématiquement, un mode de réalisation particulier d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 24 représente, schématiquement, un premier mode de réalisation d’une interface utilisateur mise en œuvre par le système objet de la présente invention,
La figure 25 représente, schématiquement, un premier mode de réalisation d’une succession d’étapes particulière du procédé objet de la présente invention,
La figure 26 représente, schématiquement, un deuxième mode de réalisation d’une succession d’étapes particulière du procédé objet de la présente invention,
La figure 27 représente, schématiquement, un troisième mode de réalisation d’une succession d’étapes particulière du procédé objet de la présente invention,
La figure 28 représente, schématiquement, un quatrième mode de réalisation d’une succession d’étapes particulière du procédé objet de la présente invention,
La figure 29 représente, schématiquement, un cinquième mode de réalisation d’une succession d’étapes particulière du procédé objet de la présente invention,
La figure 30 représente, schématiquement, un sixième mode de réalisation d’une succession d’étapes particulière du procédé objet de la présente invention et
La figure 31 représente, schématiquement, un mode de réalisation particulier du système objet de la présente invention.
DESCRIPTION D’EXEMPLES DE RÉALISATION DE L’INVENTION
La présente description est donnée à titre non limitatif, chaque caractéristique d’un mode de réalisation pouvant être combinée à toute autre caractéristique de tout autre mode de réalisation de manière avantageuse.
On note dès à présent que les figures ne sont pas à l’échelle.
On observe, en figure 30, schématiquement, un mode de réalisation particulier du procédé 3000 objet de la présente invention. Ce procédé 3000 d’enrichissement d’un contenu numérique représentatif d’une conversation, comporte : de manière itérative : une étape 3005 de capture d’un signal audio représentatif d’un message vocal, une étape 3010 de segmentation du message vocal en un segment, ladite étape de segmentation comportant une étape 3011 de détection de silence, le segment étant obtenu en fonction de la détection d’un silence, une étape 3015 de conversion en texte, dit « contribution », du segment audio et une étape 3020 de stockage, dans une mémoire, d’une contribution, puis : une étape 3025 de détection de sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée, une étape 3030 d’association, dans une mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté et une étape 3035 d’affichage d’au moins une contribution stockée et d’au moins un attribut vis-à- vis d’au moins une dite contribution.
L’étape de capture 3005 est réalisée, par exemple, par la mise en œuvre d’un capteur audio, tel un microphone, d’un terminal 3205 informatique, tel que représenté en figure 31. Par « terminal informatique », on entend ici généralement tout dispositif électronique comportant à minima : un capteur 3210 audio, tel un microphone, configuré pour capter un signal audio représentatif d’un message vocal, un moyen 3215 de calcul, tel un microprocesseur, configuré pour : détecter un silence dans un flux audio capté par le capteur, segmenter le message vocal en au moins un segment en fonction de la détection d’un silence, convertir le message vocal en texte, dit « contribution » et une mémoire 3220 informatique pour stocker au moins une contribution, le moyen 3215 de calcul d’au moins un dit terminal informatique 3205 étant, de plus configuré pour : détecter un sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée et associer, dans la mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté, ledit terminal informatique 3205 comportant, de plus, un moyen d’affichage, tel un écran, d’au moins une contribution stockée et d’au moins un indicateur représentatif d’un sentiment détecté vis-à-vis d’au moins une dite contribution.
Un tel terminal informatique 3205 peut être un téléphone intelligent, une tablette numérique ou un ordinateur. Dans des configurations distribuées, le moyen 3215 de calcul peut être réparti entre un terminal local et un terminal distant communiquant via un réseau de données, tel internet par exemple. Dans une telle configuration, chaque action peut être réalisée par un programme informatique distinct, les résultats des calculs étant fournis d’un terminal à l’autre au gré des besoins liés à l’architecture sélectionnée.
Par « message vocal », on entend une succession de mots émanant d’un utilisateur.
À l’issue de l’étape de capture, on obtient un fichier informatique de taille finie ou capté en temps réel (« streamed », en anglais). Une telle étape 3005 est implicitement illustrée en figure 26, en particulier en relation à l’étape 2605 d’ouverture de page de conférence web.
L’étape 3010 de segmentation est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Ce programme informatique est configuré pour, en fonction d’un évènement détecté dans le message vocal, segmenter le message vocal pour en extraire un segment. Un tel évènement est, par exemple, un silence.
Une telle étape 3010 est illustrée en figure 26, en particulier en relation à l’étape 2615 de segmentation de la dictée des utilisateurs.
L’étape 3011 de détection d’un silence est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Un tel programme informatique utilise, par exemple, le programme « Silence Finder » développé par Audacity (Marque déposée). Une telle étape 3011 est illustrée en figure 26, en particulier en relation à l’étape 2610 de détection des micro-silences.
Ainsi, lorsqu’un silence est détecté, le message vocal en amont du silence est extrait pour former un segment.
L’étape 3015 de conversion est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Un tel programme informatique est, par exemple, similaire à iOS Dictation (Marque déposée). Le résultat de ces étapes 3010, 3011 et 3015 est visible en figure 7, par exemple, sous les références 710, 711 et 712 de segmentation et conversion en texte d’une conversation vocale.
L’étape 3020 de stockage est réalisée, par exemple, par la mise en œuvre d’une mémoire 3220 informatique associée à un système de gestion de ladite mémoire 3220. Préférentiellement, chaque contribution stockée est horodatée et associée à un identifiant d’utilisateur, ledit identifiant d’utilisateur correspondant à un identifiant d’utilisateur d’une application ou de terminal 3205 exécutant une application exécutant le procédé.
Les étapes de capture 3005, segmentation 3010, détection 3011 de silence, conversion 3015 et stockage 3020 peuvent être itératives. Ces modes sont particulièrement adaptés à la capture de contribution en direct. Alternativement, pour une étape de capture 3005 de données, les étapes de segmentation 3010, détection 3011 de silence, conversion 3015 et stockage 3020 sont itératives.
Dès qu’au moins une contribution est stockée, le reste du procédé 3000 peut être réalisé.
L’étape 3025 de détection peut être réalisée de plusieurs manières selon la méthode de détection choisie.
Dans des modes de réalisation, la détection 3025 est de type déclarative.
Dans ces modes de réalisation, dont le résultat est illustré en figure 8, l’étape de détection 3025 comporte : une étape 3060 de sélection par un utilisateur, via une interface homme-machine, d’une contribution stockée et une étape 3065 de sélection, par un utilisateur, via une interface homme-machine, d’un symbole représentatif d’un sentiment vis-à-vis de la contribution sélectionnée.
L’étape 3060 de sélection d’une contribution est réalisée, par exemple, par un clic sur un écran tactile du terminal 3205 informatique pour sélectionner une contribution. L’étape 3065 de sélection d’un symbole est réalisée, par exemple, par un clic sur une partie de l’interface utilisateur d’une application affichant la contribution permettant le choix d’un symbole, tel un émoji, à associer à la contribution.
Une telle étape 3060 est illustrée en figure 8 sous la référence 810 représentant une contribution sélectionnée par l’utilisateur. Une telle étape 3065 est illustrée en figure 8 sous la référence 820 représentant la sélection d’un emoji.
Dans des modes de réalisation, la détection 3025 est de type automatique.
Dans certaines variantes, dont le résultat est illustré en figure 11 , un sentiment est détecté en fonction d’un son émis par un utilisateur.
Dans ces variantes, l’étape 3025 de détection comporte : une étape 3040 de collecte d’un signal audio représentatif d’un message vocal émis par un utilisateur, une étape 3045 de détermination d’un sentiment en fonction du signal audio collecté.
L’étape 3040 de collecte est réalisée, par exemple, par la mise en œuvre d’un microphone d’un terminal 3205 informatique d’un utilisateur. Une telle étape 3040 est illustrée en figure 11 , en particulier en relation à l’étape 1110 de détection d’un message vocal de l’utilisateur.
L’étape 3045 de détermination d’un sentiment est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Ce programme informatique est configuré pour détecter des signaux sonores représentatifs de sentiments, tels des signaux d’approbation, lorsque l’utilisateur dit « oui » ou de désapprobation lorsque l’utilisateur dit « non ». Un tel programme informatique est, par exemple, similaire à Supersonic Fun Voice Messenger (Marque déposée).
Cette étape 3040 de collecte peut être simultanée à l’étape 3005 de capture du message vocal réalisée pour un autre utilisateur.
Dans certaines variantes, un sentiment est détecté en fonction de l’attitude corporelle détectée d’un utilisateur.
Dans ces variantes, dont le résultat est illustré en figure 12, l’étape 3025 de détection comporte : une étape 3050 de collecte d’un signal vidéo représentatif d’une attitude d’un utilisateur, une étape 3055 de détermination d’un sentiment en fonction du signal vidéo collecté.
L’étape 3050 de collecte est réalisée, par exemple, par une cybercaméra orientée vers un utilisateur d’un terminal 3205 informatique associé à la cybercaméra. Une telle étape 3050 est illustrée en figure 12, en particulier en relation à l’étape 1210 de détection d’un hochement de tête de l’utilisateur.
L’étape 3055 de détermination est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Ce programme informatique est, par exemple, similaire à Intel (Marque déposée) RealSense (Marque déposée) ou OpenVINO (Marque déposée), et reconnaît un acquiescement corporel comme un hochement de tête ou un sourire.
Quelle que soit la méthode de détermination d’un sentiment, ce sentiment est converti en attribut. Un « attribut » est défini comme une métadonnée enrichissant une contribution, cet attribut pouvant être de n’importe quel type. Par exemple, le son « oui » est associé à l’attribut « acquiescement ». Préférentiellement, cet attribut comporte un type de sentiment et l’identifiant d’utilisateur associé au sentiment détecté.
L’étape 3030 d’association en mémoire est réalisée, par exemple, par la mise en œuvre d’une mémoire 3220 informatique associée à un système de gestion de ladite mémoire 3220. Cette étape 3030 est illustrée en figure 26 sous la référence 2625.
L’étape 3035 d’affichage est réalisée, par exemple, par la mise en œuvre d’un écran de terminal 3205 informatique dont l’affichage est contrôlé en fonction de l’exécution d’une application requérant l’affichage d’au moins une contribution et d’au moins un attribut. Cette étape 3035 est illustrée en figure 26 sous la référence 2630.
Dans des modes de réalisation, tel qu’illustré en figure 25, le procédé 3000 objet de la présente invention comporte : une étape 3070 de création automatique, selon une règle de création, d’une requête en fonction d’au moins un attribut de sentiment associé à au moins une contribution stockée et/ou d’au moins une contribution stockée et/ou d’au moins un signal audio capté, une étape 3075 de fourniture, via une interface homme machine, de la requête à au moins un utilisateur, une étape 3080 de détection d’une action d’au moins un utilisateur vis-à-vis de la requête et une étape 3085 de réalisation d’un traitement informatique en fonction d’au moins une action détectée, selon une règle de réalisation.
L’étape 3070 de création automatique est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Un tel programme informatique est, par exemple, similaire à la fonctionnalité « Create call to action » disponible depuis une page Facebook (Marque déposée). Cette étape 3070 est illustrée en figure 25 sous la référence 2515 d’évaluation des conditions des règles des actions. Cette étape 3075 est illustrée en figure 25 sous la référence 2520 de déclenchement d’une requête d’action de la part de l’utilisateur. Cette étape 3080 est illustrée en figure 25 sous la référence 2525 d’évaluation des règles de confirmation des actions. Cette étape 3085 est illustrée en figure 25 sous la référence 2530 d’exécution d’une action.
Une requête peut consister en la sollicitation d’utilisateurs pour valider une contribution, confirmer un sentiment détecté, s’inscrire à un service donné, voter dans le cadre d’une consultation, lancer une application, etc.
Une règle de création est définie par un critère et un seuil déclenchant l’étape 3070 de création. Par exemple, la règle peut consister en l’association d’un nombre déterminé d’attributs de sentiments au regard d’une contribution déterminée ou en l’association d’un nombre déterminé d’attributs de sentiments sur une période donnée. Préférentiellement, la requête créée dépend du contenu de la contribution. Le contenu d’une contribution peut être identifié par un programme informatique d’analyse textuelle (« parsing », en anglais) configuré pour hiérarchiser le texte identifié, tel Zapier Parser (Marque déposée) ou Mailparser.io (Marque déposée).
La règle de création peut être évolutive, le procédé 3000 comportant alors une étape 3090 d’apprentissage par renforcement de la règle en fonction d’au moins une action détectée vis-à-vis de la requête. Cette étape 3090 est illustrée en figure 25 sous la référence 2540 de renforcement de la règle d’enclenchement de la requête.
L’étape 3090 d’apprentissage met en œuvre un algorithme statistique configuré pour évaluer la pertinence de création de requêtes en fonction d’actions détectées au regard de requête passées. Une telle étape 3090 est bien connue et consiste en l’évaluation multicritère du succès ou de l’échec de requêtes, déterminés en fonction des réponses aux requêtes pour pondérer chaque critère employé dans la création de requêtes. Un tel programme d’apprentissage met en œuvre, par exemple, Azuré Machine Learning Services (Marque déposée), Azuré Machine Learning Command-Line Interface (Marque déposée) ou Main Python SDK (Marque déposée).
L’étape 3075 de fourniture est réalisée, par exemple, par l’affichage sur l’écran d’un terminal 3205 d’au moins un utilisateur d’une fenêtre représentative de la requête et sollicitant une action de la part de l’utilisateur. Cette action dépend de la requête et des éléments interactifs affichés dans la fenêtre dont la nature, la quantité et la signification dépendent de la requête.
L’étape 3080 de détection d’une action est réalisée, par exemple, par la détection d’une action réalisée par l’utilisateur au regard de la requête fournie. Cette action peut être de type gestuelle et détectée par la mise en œuvre d’un écran tactile, par exemple. La détection 3080 d’une action dépend ainsi de la méthode de fourniture et de l’action demandée à l’utilisateur.
En général, la détection 3080 d’une action met en œuvre une interface homme-machine permettant de détecter une interaction de l’utilisateur avec la requête fournie. Cette interface peut être une cybercaméra, un périphérique de type clavier ou souris ou un écran tactile.
L’étape 3085 de réalisation d’un traitement informatique est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Le traitement informatique dépend de la requête et peut consister, par exemple, en l’ajout d’une contribution générée automatiquement parmi les contributions obtenues via la capture de messages vocaux. Le traitement informatique peut également, par exemple, consister en le lancement d’un programme informatique. Cette étape 3075 est illustrée en figure 10 sous la référence 1005 d’une requête sollicitant une action de la part de l’utilisateur. Cette étape 3080 est illustrée en figure 10 sous la référence 1010 d’une action de l’utilisateur.
Dans des modes de réalisation, tel qu’illustré en figure 25, la règle de réalisation est évolutive, le procédé 3000 comportant alors une étape 3095 d’apprentissage par renforcement de la règle en fonction d’au moins une action détectée vis-à-vis de la requête. Cette étape 3095 est illustrée en figure 25 sous la référence 2535 de renforcement de la règle de confirmation de la requête.
Dans des modes de réalisation, tel qu’illustré en figure 24, le procédé 3000 objet de la présente invention comporte : une étape 3100 de détermination probabiliste d’au moins un attribut candidat à l’association avec une contribution stockée, une étape 3105 de validation ou d’infirmation de l’association déterminée et une étape 3110 d’association, dans une mémoire, d’au moins un attribut à une contribution stockée en cas de validation de l’association. L’étape 3100 de détermination probabiliste est réalisée, par exemple, par la mise en œuvre d’un programme informatique par un moyen électronique de calcul. Ce programme informatique analyse le contenu textuel d’une contribution pour déterminer la pertinence d’au moins un mot-clé, ou attribut, complémentaire.
Chaque attribut, ou mot-clé, complémentaire est ensuite affiché sur une interface du programme informatique et en attente de traitement de la part de l’utilisateur.
L’étape 3105 de validation est réalisée, par exemple, par la mise en œuvre d’une interface homme-machine dont l’utilisation est représentative d’une intention de validation ou d’infirmation de l’association déterminée. Par exemple, l’utilisateur peut balayer l’écran tactile dans une première direction pour valider l’association ou dans une deuxième direction pour infirmer l’association.
L’étape 3110 d’association est réalisée de manière analogue à l’étape 3030 d’association d’un attribut représentatif d’un sentiment à une contribution. Cette étape 3100 est illustrée en figure 24 sous les références 2410 à 2413 de détermination probabiliste d’attributs candidats à une association (« pictures », « church », « wedding cake », « gift »). Cette étape 3105 est illustrée en figure 24 sous la référence 2420 de validation de cette association par un balayage. Cette étape 3110 est illustrée en figure 24 sous la référence 2430 d’association d’un attribut (« pictures ») et d’une contribution, l’association étant représentée par l’intégration d’un pictogramme dans la bulle.
Dans des modes de réalisation, tel qu’illustré en figure 15, le procédé 3000 objet de la présente invention comporte : une étape 3115 de récapitulation de la discussion, en fonction d’au moins une contribution stockée et d’au moins un attribut associé audit texte et une étape 3120 de stockage de la discussion récapitulée.
L’étape 3115 de récapitulation est réalisée, par exemple, par la mise en œuvre d’un programme informatique de récapitulation d’un contenu textuel, par un moyen électronique de calcul. Ce programme informatique met en œuvre, par exemple, la librairie Python’s NLTK library (Marque déposée). Cette étape 3115 est illustrée en figure 15 sous la référence 1505 de résumé de session.
L’étape 3120 de stockage est réalisée, par exemple, par la mise en œuvre d’une mémoire et du dispositif de contrôle associé.
On observe, en figure 31 , un mode de réalisation particulier du système 3200 objet de la présente invention. Ce système 3200 d’enrichissement d’un contenu numérique représentatif d’une conversation, comporte : au moins un terminal 3205 informatique, chaque terminal informatique comportant : un capteur 3210 audio configuré pour capter un signal audio représentatif d’un message vocal, un moyen 3215 de calcul configuré pour : détecter un silence dans un flux audio capté par le capteur, segmenter le message vocal en au moins un segment en fonction de la détection d’un silence, convertir le message vocal en texte, dit « contribution » et une mémoire 3220 informatique pour stocker au moins une contribution, le moyen de calcul d’au moins un dit terminal informatique étant, de plus configuré pour : détecter un sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée et associer, dans la mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté, ledit terminal informatique comportant, de plus, un moyen d’affichage d’au moins une contribution stockée et d’au moins un indicateur représentatif d’un sentiment détecté vis-à-vis d’au moins une dite contribution.
Préférentiellement, le système 3200 met en œuvre une pluralité de terminaux informatiques reliés par un réseau de données, tel internet ou un réseau mobile de type quatrième ou cinquième génération par exemple.
Comme indiqué précédemment, chaque terminal 3205 informatique peut être distribué entre un serveur de calcul distant et une application locale, c’est-à-dire au plus proche d’un utilisateur, reliés entre eux par un réseau de données.
Observé fonctionnellement, c’est-à-dire sans présupposition du lieu d’exécution d’un algorithme informatique, le système 3200 peut comporter : une application de gestion de réseau social qui référence : un ensemble d’utilisateurs correspondant à des terminaux. Ces utilisateurs sont caractérisés chacun par un avatar et regroupés par ensembles, un ensemble d’espaces de travail virtuels caractérisés par un nom, un thème et un ensemble d’utilisateurs. Les utilisateurs d’un espace de travail virtuel sont répartis en sous-ensembles inscrits (liste de membres) et connectés (liste d’utilisateurs connectés). Un espace de travail virtuel comprend un fil de discussion, alimenté par les contributions et les actions des utilisateurs. Un espace de travail virtuel est représenté par trois pages principales : une page d’accueil, une page de membre et une page de synthèse de texte à partir d’un message vocal et un ensemble de contributions attachées chacune à un espace de travail virtuel, caractérisées par un auteur, un horodatage et un texte, celui-ci étant dicté oralement par un utilisateur grâce à l’application de synthèse de texte ; l’application de synthèse de texte (« Speech te text », en anglais) transcrit la dictée d’un utilisateur en texte, tel iOS Dictation (Marque déposée). De plus, elle coopère avec une application de détection de silences tel Audacity Silence Finder (Marque déposée), pour segmenter cette dictée en autant de contributions. Chaque contribution est horodatée et assortie de l’identifiant de son auteur ; une application de plateforme de collaboration unifiée (« Unified Collaboration Platform », en anglais), telle Slack (Marque déposée), Microsoft Team (Marque déposée), Workplace by Facebook (Marque déposée), gérant en particulier les canaux de discussions attachés aux espaces de travail virtuels, et faisant coopérer les applications suivantes : une application de conférence sur internet, telle la fonctionnalité Skype for Business Meeting (Marque déposée), Amazon Chime (Marque déposée), Google Hangouts Meet (Marque déposée), IBM Sametime (Marque déposée), Skype Enterprise (Marque déposée). Cette application permet d’organiser des conférences audios, vidéo et web sur Internet, de planifier une réunion à l’avance, d’en démarrer une à tout moment et d’inviter des utilisateurs, une application de détection de silences telle la fonctionnalité Silence Finder utilisée par Audacity (Marque déposée), une application de reconnaissance de paroles, tel Supersonic Fun Voice Messenger (Marque déposée), reconnaît un ensemble de locutions signifiantes, par exemple un acquiescement oral : « oui », « super », « bien » ou « bien sûr » ou la fin d’une conférence sur internet : « merci de votre participation », une application de reconnaissance de sentiment, telle Intel (Marque déposée) RealSense (Marque déposée) ou OpenVINO (Marque déposée), qui reconnaît un acquiescement corporel comme un hochement de tête ou un sourire, une application d’appel à action, telle la fonctionnalité « Create call te action » accessible depuis une page Facebook (Marque déposée), permet de solliciter l’action d’un utilisateur, dans une liste prédéfinie d’Actions, comme valider, confirmer, s’inscrire, voter, lancer une app, etc., une application d’emoji sonore, telle Emojisound (Marque déposée) ou Emoji Tones (Marque déposée), qui permet de jouer un son représentant une émotion, une application d’apprentissage par renforcement, telle Azuré Machine Learning Service (Marque déposée), Azuré Machine Learning Command-Line Interface (Marque déposée) ou Main Python SDK (Marque déposée), une application de récapitulation automatique, telle Python’s NLTK library (Marque déposée) et/ou une application de type parseur.
On observe, sur les figures 1 à 24, des vues particulières d’une interface d’une application permettant l’exécution du procédé 3000 objet de la présente invention.
Dans cette interface, on observe une page 100 de membres dans laquelle s’affiche de haut en bas : un pictogramme 105 de menu, une zone 110 de texte représentant le nom de l’espace de travail virtuel, un pictogramme 115 indiquant l’activité du micro du smartphone (ici désactivé), un ensemble 120 d’avatars représentant dans une bannière déroulante les utilisateurs inscrits dans l’espace de travail virtuel, un sous-ensemble 125 d’avatars représentant un seul utilisateur connecté à l’espace de travail virtuel, encadré dans la bannière déroulante et affiché dans la zone 130 vocale et un ensemble 135 de boutons pouvant être activés par l’utilisateur et déclenchant des fonctionnalités déterminées.
Dans la figure 2, on observe la page 200 de membre, dans laquelle s’affiche : un pictogramme indiquant l’activité du microphone du téléphone (ici, activé) et un sous-ensemble d’avatars représentant trois utilisateurs à l’espace virtuel, l’affichage de ces avatars dans la zone vocale étant mis en avant par un halo 205 lorsque les utilisateurs correspondants sont en train de parler, c’est-à-dire dont le statut vocal est activé.
Dans la figure 3, on observe la page 300 de membre, dans laquelle s’affiche : un sous-ensemble d’avatars représentant cinq utilisateurs connectés à l’espace de travail virtuel et l’activation par l’utilisateur d’un bouton 305 d’invitation, qui provoque l’invitation des utilisateurs inscrits, mais non connectés, grâce à une application de conférence virtuelle.
Dans la figure 4, on observe la page 400 de membres dans laquelle on affiche parmi l’ensemble des boutons un bouton 405 d’émoji. Lorsqu’il est activé par l’utilisateur, ce bouton d’émoji permet d’accéder à un menu permettant à un utilisateur de sélectionner un émoji particulier parmi une liste.
Dans la figure 5, on observe la page 500 de membres dans laquelle on affiche un attribut 505 représentatif d’un sentiment d’approbation, dit attribut d’approbation, à proximité de certains avatars de la zone vocale. Cet affichage est provoqué par l’activation de boutons d’approbation 510, parmi lesquels les boutons d’émoji 511 , de capture 512 et de validation 513.
Lorsqu’un utilisateur a activé un bouton d’émoji 511 et sélectionné un smiley particulier dans un menu contextuel, l’attribut d’approbation de son avatar reproduit cet émoji 505 jusqu’à ce que le statut vocal de l’utilisateur en train de parler passe du mode activé à désactivé. Si plusieurs personnes sont en train de parler, l’attribut d’approbation s’éteint après le dernier passage du mode activé à désactivé des statuts vocaux correspondants.
Dans la figure 6, on observe la page 600 de membres que lorsqu’un utilisateur a activé un bouton 605 de validation, l’application de reconnaissance vocale est exécutée pour reconnaître un acquiescement vocal 1110 tel « super », « bien », « évidemment », et l’application de reconnaissance de sentiment est exécutée pour reconnaître un acquiescement corporel tel un hochement de tête 1210. Ces acquiescements activent les attributs de sentiment correspondants.
Lorsqu’un utilisateur a activé le bouton de capture, l’attribut d’approbation de son avatar reproduit le pictogramme « en cours de capture » jusqu’à ce que le statut vocal de l’utilisateur en train de parler passe du mode activé à désactivé. Ce pictogramme « en cours de capture » peut aussi être affiché par la méthode décrite ci-après. À cette fin, l’utilisateur active préalablement le bouton de synthèse textuelle qui active la page de synthèse textuelle de message audio.
Dans la figure 7, on observe une interface 700 particulière de la page de synthèse textuelle dans laquelle on affiche de haut en bas : un pictogramme de menu, une zone de texte représentant le nom de l’espace de travail virtuel, un pictogramme indiquant l’activité du micro du terminal affichant l’interface, un ensemble d’avatars représentant les utilisateurs inscrits dans l’espace de travail virtuel, un sous-ensemble d’avatars représentant les utilisateurs connectés, c’est-à-dire les utilisateurs connectés à l’espace de travail virtuel, une succession 705 de bulles de textes 710 à 712 et de pictogrammes représentant respectivement les contributions et les captures du fil de discussion de l’espace de travail virtuel et un ensemble de boutons pouvant être activés par l’utilisateur.
Lorsque la page de synthèse textuelle est affichée, l’utilisateur peut : enregistrer une contribution grâce à l’application de synthèse textuelle, activer un des boutons, capturer une contribution représentée par une bulle de texte : en activant le bouton de capture, ce qui provoque la capture de la bulle de texte en cours de création ou en effectuant un glissement de droite à gauche sur une bulle de texte.
La capture d’une contribution provoque l’affichage du pictogramme « en cours de capture » : à proximité de la bulle de texte correspondante dans la page de synthèse textuelle et/ou à proximité de l’avatar de son auteur dans la page de membres.
De manière générale, l’approbation de la dictée d’un utilisateur en train de parler peut-être signifiée par les autres utilisateurs grâce à l’activation de différents boutons d’approbation, tels que les boutons d’émoji, de capture et de validation.
Dans la figure 8, on observe l’interface 800 de la page de synthèse textuelle, dans laquelle chaque bulle de texte est assortie d’un compteur 805 d’approbation. Ces compteurs d’approbation comptent le nombre d’activations des boutons d’approbation 820 à 822 pendant la dictée correspondante. L’activation du bouton d’accueil provoque l’ouverture de la page d’accueil.
La figure 9 représente la page 900 d’accueil. Cette page d’accueil affiche les mêmes groupes d’avatars et boutons que dans la page de synthèse textuelle. Elle affiche de plus un canal 905 de discussion qui liste l’ensemble des contributions de la page de synthèse qui ont été préalablement capturées. À chaque contribution sont associés l’horodatage, l’avatar de l’auteur et les compteurs d’approbation.
Les compteurs d’approbation sont associés à des seuils d’approbation prédéfinis. Lorsque le niveau d’un compteur d’approbation atteint un des seuils d’approbations associés, ceci déclenche un appel à action (« call to action », en anglais) grâce à la mise en œuvre de l’application d’appel à action exécutant les règles d’action.
On observe, sur les figures 10 à 15, un exemple d’interface d’appel à action et de réponse à cet appel à actions. Dans ces interfaces, l’application d’appel à action exécute une règle d’action à partir des boutons d’approbation : si un compteur d’approbation atteint le seuil d’approbation prédéfini, alors, l’auteur de la bulle de texte à laquelle est associé ce compteur d’approbation voit s’afficher sur son terminal un appel à action à confirmer, une minuterie d’appel à action mesure la vitesse de confirmation, un compteur d’appel à action mesure le taux de confirmation et cette action est exécutée en cas de confirmation.
La première règle d’action est décrite en référence à la figure 10. Elle se décompose en deux parties : le déclenchement 1005 d’une règle d’action : le seuil d’approbation correspond à dix activations de boutons d’approbation par des participants et l’appel à action propose, à l’utilisateur en train de parler, de capturer la bulle de texte dont le compteur d’approbation a atteint la valeur du seuil d’approbation, soit dix, la confirmation 1010 d’une règle d’action : si la confirmation de l’utilisateur est réalisée avant un délai d’expiration défini, de quatre secondes par exemple, la capture est effectuée. Le compteur d’appel à action est incrémenté et la minuterie d’appel à action met à jour la moyenne des temps de confirmation.
La deuxième règle d’action est décrite en référence à la figure 11 . Son objectif est de stimuler un deuxième mode de participation : « Les autres et vous semblent avoir une opinion positive à propos de ce qui vient d’être dit, voulez-vous être le premier à l’exprimer ? ». De manière concrète : le déclenchement d’une règle d’action : le seuil d’approbation correspond à une activation du bouton de validation et l’appel à action propose, à l’utilisateur qui a activé ce bouton de validation, d’exécuter un émoji sonore de type sonnette, la confirmation d’une règle d’action : si la confirmation de l’utilisateur a été réalisée avant un délai d’expiration prédéfini, l’émoji 1105 sonore est joué dans la conférence. Le compteur d’appel à action est incrémenté et la minuterie d’appel à action recalcule la moyenne des temps de confirmation.
La troisième règle d’action est décrite en référence à la figure 12. Son objectif est de stimuler un troisième mode de participation : « Vous n’êtes pas seul à approuver, vous joindre à l’approbation ? ». De manière concrète : le déclenchement d’une règle d’action : le seuil d’approbation correspond à l’activation de trois émojis sonores de type sonnette par des participants et l’appel à action propose, à ces participants, d’exécuter un émoji sonore de type applaudissement la confirmation d’une règle d’action : si la confirmation par un de ces participants a été réalisée avant un délai expiration prédéfini, l’émoji 1205 sonore est joué dans la conférence. Le compteur d’appel à action est incrémenté et la minuterie d’appel à action recalcule la moyenne des temps de confirmation.
La quatrième règle d’action est décrite en référence à la figure 13. Son objectif est de stimuler un quatrième mode de participation : « Voulez-vous faire partie de l’enthousiasme général lié à la phrase ? ». De manière concrète : le déclenchement d’une règle d’action : le seuil d’approbation correspond à l’activation d’émojis sonores de type applaudissements par plus de 50% des participants et l’appel à action est une proposition à ces participants d’exécuter un émoji sonore de type ovation, la confirmation d’une règle d’action : si la confirmation par 20% de ces participants a été réalisée avant un délai d’expiration prédéfini, l’émoji sonore est joué dans la conférence. Le compteur d’appel à action est incrémenté et la minuterie d’appel à action recalcule la moyenne des temps de confirmation. Les règles d’action sont préférentiellement organisées de manière hiérarchique, puisqu’un émoji sonore d’ovation succède à un applaudissement et à une sonnette. Cela permet aux utilisateurs en train de parler et aux autres utilisateurs connectés de comprendre intuitivement la qualité des contributions. Ceci instrumente la collaboration pour en favoriser les interactions en temps réel, et enrichit le compte rendu de la conférence avec un indicateur horodaté de la dynamique du groupe.
Les règles d’action se modifient grâce à une boucle d’apprentissage à deux niveaux mise en œuvre par l’application d’apprentissage par renforcement. Les règles d’action sont en effet récompensées ou pénalisées par la vitesse et le taux de confirmation mesurés respectivement par les compteurs appel à action et les minuteries d’appel à action.
En référence à la figure 13, par exemple, le premier niveau concerne les déclenchements de règles d’action, c’est-à-dire les conditions d’enclenchement d’un appel à action : si la quatrième règle d’action est souvent confirmée, selon la mesure du compteur d’appel à action, le seuil d’approbation est décrémenté, c’est-à-dire que sa valeur baisse de 50% à 40% des participants et si la quatrième règle d’action est rarement confirmée, le seuil d’approbation est incrémenté, c’est- à-dire que sa valeur augmente de 50% à 60% des participants.
Le deuxième niveau concerne les confirmations de règles d’action, c’est-à-dire les conditions de confirmation de l'appel à action : si l’appel à action est confirmé tardivement, selon la mesure du minuteur d’appel à action, le compteur 1305 de délai d’expiration est augmenté de quatre à cinq secondes et si l’appel à action est confirmé rapidement, le compteur de délai d’expiration est diminué de quatre à trois secondes.
Ces modes de réalisation des figures 10 à 13 illustrent ainsi une méthode permettant, sur la base des boutons de validation activés par les utilisateurs, d’enclencher puis de confirmer une action en application d’une règle d’action prédéfinie. La mesure de la vitesse et du taux de confirmation ajuste cette règle d’action par apprentissage.
Dans d’autres modes de réalisation, la boucle d’apprentissage peut mettre en œuvre d’autres paramètres de mesure du succès ou du déclenchement des règles d’action.
Dans les figures 10 à 13, on a décrit des règles d’action mettant en œuvre un seuil d’approbation et un bouton unique 1306 de confirmation de l'appel à action. En variante, l’enclenchement et la confirmation de l'appel à action peuvent être différents, comme illustré dans les figures 14 et 15.
En référence à la figure 14, l’application 1400 d’appel à action exécute la règle d’action suivante : le déclenchement d’une règle d’action : si l’application de de synthèse textuelle détecte une forme interrogative, et l’auteur de la bulle de texte interrogative capture celle-ci, alors le texte de cette bulle de texte est affiché dans un appel à action de tous les utilisateurs connectés qui sont sollicités pour confirmer cette question, la confirmation d’une règle d’action : la confirmation individuelle est acquise par l’activation d’un bouton, ou par un acquiescement oral ou par un acquiescement corporel et la confirmation collective est acquise si le nombre de confirmations individuelles représente plus de la moitié des participants.
En référence à la figure 15, l’application 1500 de l'appel à action exécute la règle d’action suivante le déclenchement d’une règle d’action : si l’application de reconnaissance vocale reconnaît une locution signifiant la fin d’une conférence sur internet et l’auteur de cette locution capture la bulle de texte correspondante, alors l’application d’appel à action lance un appel à action sur le terminal de cet auteur pour confirmer la fermeture, la confirmation d’une règle d’action : cette validation provoque la fermeture de la conférence internet et l’ouverture de l’application 1505 de récapitulation. Celle-ci crée un résumé de la session, c’est-à-dire un fichier texte qui compile l’intégralité des bulles de textes capturées, leurs auteurs et horodatages, les compteurs d’approbations associés, les points de l’ordre du jour qui n’ont pas été abordés et la boucle d’apprentissage règlent la fréquence de l’envoi de l'appel à action en fonction de la vitesse et de la fréquence de confirmation par cet auteur.
On observe, en relation aux figures 16 à 19, des interfaces formant outils d’assistance permettant aux utilisateurs de renseigner un procédé d’affaires en cours de conférence sur internet via l’ajout d’attributs aux contributions.
En référence à la figure 16, l’espace 1600 de travail virtuel contient de plus une page de procédé d’affaires. Sur cette page est affiché un procédé d’affaires représentant une séquence de collaboration entre un fournisseur et un client. Cette séquence est assortie d’un compteur de procédé d’affaires qui représente l’état d’avancement de cette séquence. Les étapes déjà franchies sont représentées par un trait épais. L’activation 1605 d’une étape par l’utilisateur (« description ») provoque : l’ouverture de la page de synthèse textuelle et l’affichage de l’identifiant (« description ») de cette étape dans la page de synthèse textuelle.
En référence à la figure 17, la page 1700 de synthèse textuelle lance le parseur (« parser », en anglais) pour détecter les mots-clés 1705 et locutions révélatrices des étapes du procédé d’affaires.
Cette détection est réalisée grâce à des associations entre des mots-clés et les étapes. Le mot- clé « documents » est associé à l’étape « description », tandis que les mots-clés et locutions « devis », « combien de produits » sont associés à l’étape « devis ».
Lorsqu’un mot-clé ne correspond pas à l’étape en cours, cette détection provoque l’affichage d’un attribut vis-à-vis de la bulle de texte concerné. Cet attribut représente l’étape correspondant au mot-clé (« devis »).
L’utilisateur peut établir un lien en mémoire entre l’attribut, ou l’étape, et une contribution représentée par la bulle de texte en effectuant un balayage 1710 de cette bulle de texte lors de cette étape.
Les associations entre mots-clés et étapes sont initialisées par un premier jeu prédéfini d’associations entre les mots-clés du lexique et les attributs de bulles de texte. Ce lexique est enrichi par l’utilisateur, comme indiqué plus bas. Ces associations sont renforcées ou affaiblies grâce à l’application d’apprentissage par renforcement et aux balayages de liaisons effectués par tous les utilisateurs. En référence à la figure 18, la page 1800 de synthèse textuelle affiche un trait de séparation entre deux bulles de textes successives en application du ou des liens effectués par l’utilisateur, pour symboliser la transition entre deux étapes, 1805 et 1810, du procédé d’affaires.
En référence à la figure 19, une commande de balayage provoque l’incrémentation du compteur de procédé d’affaires, ce qui met à jour la représentation de l’état d’avancement sur la page de procédé d’affaires.
En référence aux figures 20 à 24, des outils d’assistance permettent aux utilisateurs d’apporter des renseignements supplémentaires pour enrichir une conférence sur internet en cours.
En référence à la figure 20, la page 2000 de synthèse textuelle lance le parseur pour détecter les expressions pouvant révéler l’identité des membres de l’équipe associée au procédé d’affaires.
La page de synthèse textuelle affiche un attribut 2005 représentant cette identité, tel un avatar, associé à la bulle de texte concernée. Un balayage 2010 de l’utilisateur sur cette bulle de texte provoque la liaison de cet attribut et de cette bulle de texte, c’est-à-dire de la contribution représentée. Cette liaison est représentée par l’affichage de cet attribut à l’intérieur de la bulle de texte.
En référence à la figure 21 , l’espace de travail virtuel contient de plus une page 2100 de tâches à effectuer. Sur cette page s’affiche par membre de l’équipe associée au procédé d’affaires la liste des bulles de texte qui ont été associées à son identité, et par quel utilisateur (« assigné par »).
En référence à la figure 22, le parseur détecte des expressions pouvant révéler les tâches 2205 et objets 2210 associés au procédé d’affaires.
La page de synthèse textuelle affiche un attribut 2215 représentant une tâche ou un objet, tel un pictogramme, vis-à-vis de la bulle de texte concernée. Un balayage de l’utilisateur sur cette bulle de texte provoque la liaison de cet attribut et de cette bulle de texte.
En référence à la figure 23, le lexique de mots-clés du parseur est enrichi par la sélection 2305, par l’utilisateur, d’un fragment de texte inclus dans une bulle de texte. Ce fragment de texte sélectionné est ajouté en tant que mot-clé ou locution dans le lexique du parseur.
En référence à la figure 24, les mots-clés et locutions du parseur sont regroupés par thèmes, eux-mêmes regroupés en évènements selon une ontologie prédéfinie. L’évènement « mariage » regroupe les thèmes : Fleurs, Bar, Images, Gâteau, Église, Cadeau. Le thème Fleurs regroupe les mots-clés roses, pivoine, bouquet et guirlande.
La page 2400 de synthèse textuelle affiche un attribut représentant un thème, tel un pictogramme, vis-à-vis de la bulle de texte concernée. Un balayage de l’utilisateur sur cette bulle de texte provoque la liaison de ce thème et de cette bulle de texte.
De manière plus générale, dans les modes de réalisation des figures 20 à 24, le balayage de l’utilisateur provoque la liaison d’une contribution, représentée par une bulle de texte, et d’une catégorie (Identité, tâche, objet, thème). Dans une boucle d’apprentissage par renforcement, cette liaison contribue à l’apprentissage du parseur en enrichissant son lexique de mots-clés, en renforçant ou en affaiblissant les probabilités de pertinence des catégories pour les mots-clés, et les probabilités de pertinence des mots-clés dans les contributions. Ceci permet de construire et partager entre les utilisateurs une base de connaissances à partir de l’ontologie prédéfinie, selon les méthodes connues de programmation orientée ontologie. En référence à la figure 25, une méthode 2500 couverte par l’invention, dont la mise en œuvre est illustrée par les figures 10 à 13 comporte les étapes suivantes : l’ouverture 2505 de l’espace de travail virtuel, l’approbation 2510 par un utilisateur, l’évaluation 2515 des conditions de chaque déclenchement de règle d’appel à action, le lancement 2520 de l’appel à action, l’évaluation 2525 des conditions de confirmation des règles d’action, l’exécution 2530 de l’action, l’apprentissage 2535 des règles de confirmation d’action, l’apprentissage 2540 du déclenchement des règles d’appel à action.
Cette étape 2510 est illustrée en figure 11 sous la référence 1110 par l’approbation par un message vocal de l’utilisateur et en figure 12 sous la référence 1210 par un hochement de tête de l’utilisateur. Cette étape 2520 est illustrée en figure 11 sous la référence 1115 et en figure 12 sous la référence 1215 par un appel à action de la part de l’utilisateur. Cette étape 2530 est illustrée en figure 11 sous la référence 1105 et en figure 12 sous la référence 1205 par l’émission dans la conférence d’un signal sonore d’approbation.
Pour faciliter leur collaboration, les groupes de travail utilisent les outils de conférence sur internet qui leur permettent de se réunir de manière virtuelle. Pour être efficaces, ces conférences sur internet nécessitent toujours l’intervention d’un secrétaire pour en rédiger ensuite le compte-rendu. Les applications de synthèse vocale, facilement perturbées par les bruits parasites et les hésitations, ne sont en effet que partiellement efficaces. La transcription est souvent médiocre. De plus, elle ne distingue pas, dans l’ensemble des dictées, ce qui est essentiel de ce qui est secondaire.
Il est apparu souhaitable de trouver une solution pour restituer l’essentiel d’une conférence sur internet, qui aide les utilisateurs à effectuer cette tâche technique par les moyens d'un processus d'interaction homme-machine guidé.
En référence à la figure 26, une méthode 2600 couverte par l’invention, dont la mise en œuvre est illustrée par les figures 7 à 9, comporte les étapes suivantes : l’application de conférence sur internet ouvre 2605 une page de conférence sur internet, sur laquelle se connectent les utilisateurs, l’application de conférence sur internet exécute l’application de détection 2610 des silences, l’application de détection des silences segmente 2615 la dictée des utilisateurs connectés en autant de contributions, les horodate et les assortit de l’identifiant de leur auteur, l’application sélectionne 2620 une contribution, un utilisateur capture 2625 une des contributions en activant le bouton de capture ou en effectuant un glissement de droite à gauche sur la bulle de texte représentant cette contribution, la contribution capturée est ajoutée 2630 au canal de discussion de la page d’accueil.
Cette étape 2615 est illustrée en figure 7 sous la référence 705 par une succession de contributions 710 à 712. Cette étape 2625 est illustrée en figure 7 sous la référence 720 par un glissement de droite à gauche et sous la référence 730 par l’activation d’un bouton de capture. Cette étape 2630 est illustrée en figure 15 sous la référence 1510 par l’ajout de la contribution capturée au canal de discussion de la page d’accueil.
Pour faciliter leur collaboration, les groupes de travail utilisent les outils de conférence sur internet qui leur permettent de se réunir de manière virtuelle. Les utilisateurs disposent en général de plusieurs fenêtres sur leur écran pour voir le visage de leurs interlocuteurs et partager des documents. Chaque personne qui prend la parole est naturellement sensible à la manière dont est perçu son discours, raison pour laquelle il regarde les vidéos des visages. Cependant, travailler sur un document partagé et parler en même temps nécessite toute l’attention de l’utilisateur. Il ne dispose donc plus de suffisamment de temps d’attention disponible pour regarder les visages, surtout lorsqu’il y a plus de trois personnes en réunion.
Il est apparu souhaitable de trouver une solution pour donner à la personne en train de parler et au groupe des utilisateurs connectés des instruments de mesure de la qualité des échanges en temps réel et d’enrichir le document de restitution des débats d’une mesure de cette qualité.
En référence à la figure 27, une méthode 2700 couverte par l’invention, dont la mise en œuvre est illustrée par les figures 6 et 11 à 13, et qui comporte les étapes suivantes : l’application de conférence sur internet est ouverte 2705, à laquelle participent les utilisateurs connectés, un utilisateur active 2710 un bouton d’approbation, cette activation incrémente 2715 le compteur d’approbation, le compteur d’approbation est comparé 2720 à un seuil d’approbation, en application de la règle d’action correspondante, l’émoji sonore est enclenché 2725 et l’émoji sonore est assorti d’un horodatage, de l’identifiant de ses auteurs et enregistré 2730. Cette étape 2710 est illustrée en figure 6 par l’activation d’un bouton d’approbation 605. Cette étape 2720 est illustrée en figure 13 sous la référence 1310 par une comparaison à un seuil d’approbation. Cette étape 2725 est illustrée en figure 13 sous les références 1305-1306 par les conditions de la règle d’action et sous la référence 1320 par l’enclenchement d’un émoji sonore.
Pour faciliter leur collaboration, les groupes de travail utilisent les outils de conférence sur internet qui leur permettent de se réunir de manière virtuelle. Ces outils intègrent la présentation de documents partagés comme un ordre du jour, qui liste les points à discuter lors de la réunion, ou des formulaires métiers, qui listent des rubriques telle la présentation commerciale des produits, les produits qui intéressent le client, la fiche technique des produits, le mode de calcul du prix, le devis... Il incombe en général au fournisseur de rédiger le compte-rendu et de remplir les formulaires métiers après la réunion, ce qui est une tâche administrative longue et qui comporte un risque important de perte d’information.
Il est apparu souhaitable de trouver une solution d’assistance des utilisateurs de conférence sur internet pour effectuer la tâche de rédaction des comptes-rendus et de remplissage des formulaires métiers par les moyens d'un processus d'interaction homme-machine guidé.
En référence à la figure 28, une méthode 2800 couverte par la présente invention, dont la mise en œuvre est illustrée par les figures 16 à 19, et qui comporte les étapes suivantes : l’ouverture 2805 de la page de synthèse textuelle, le parseur recherche 2810 dans la page de synthèse textuelle des mots-clés révélant une étape d’un procédé d’affaires prédéfini, la page de synthèse textuelle affiche 2815 un attribut représentant cette étape et l’associe à une bulle de texte, l’utilisateur sélectionne 2820 cette bulle de texte et le compteur d’étape est incrémenté 2825.
Cette étape 2810 est illustrée en figure 16 sous la référence 1610 par le procédé d’affaires prédéfini et sous la référence 1620 par une étape de ce procédé d’affaires. Cette étape 2810 est illustrée en figure 17 sous la référence 1705 par la recherche du parseur des mots-clés. Cette étape 2815 est illustrée en figure 17 sous la référence 1720 par un attribut représentant cette étape 1620 de ce procédé d’affaires 1610. Cette étape 2820 est illustrée en figure 17 sous la référence 1710 par la sélection d’une bulle de texte. Ce compteur d’étape 2825 est illustré par le rapprochement des figures 16 et 19 qui montre la progression du procédé d’affaires.
Pour faciliter leur collaboration, les groupes de travail utilisent les outils de conférence sur internet qui leur permettent de se réunir de manière virtuelle. Ces outils intègrent des outils de gestion de tâche, tels Trello (Marque déposée), qui permet de créer des listes pour chaque utilisateur, ou Asana (Marque déposée) qui permet d’organiser les tâches de chaque participant. L’utilisation de ces outils a beaucoup progressé, mais nécessite en pratique de les mettre à jour après les réunions, ce qui est une tâche administrative longue et qui comporte un risque important de perte d’information.
Il est apparu souhaitable de trouver une solution d’assistance des utilisateurs de conférence sur internet pour effectuer les mises à jour des outils de gestion de tâche par les moyens d'un processus d'interaction homme-machine guidé.
En référence à la figure 29, une méthode 2900 couverte par l’invention, dont la mise en œuvre est illustrée par les figures 20 à 24, comporte les étapes suivantes : l’ouverture 2905 de la page de synthèse textuelle, le parseur analyse 2910 les contributions à partir d’un lexique de mots-clés prédéfini, révélant une catégorie (identité, tâche, objet, thème) prédéfinie, la page de synthèse textuelle affiche 2915 un attribut représentant une catégorie identifiée par le parseur, l’utilisateur confirme 2920 la liaison entre une contribution et une catégorie, la page de synthèse textuelle affiche 2925 une représentation de la liaison entre la contribution et la catégorie, l’apprentissage automatique 2930 renforce la probabilité de correspondance entre un mot-clé et une catégorie définie par le parseur et l’apprentissage automatique 2935 enrichit la base de mots-clés et de catégories du parseur. Cette étape 2910 est illustrée en figure 20 sous la référence 2020 par l’analyse du parseur des mots-clés. Cette étape 2915 est illustrée en figure 20 sous la référence 2005 par l’affichage d’un attribut représentant une catégorie. Cette étape 2920 est illustrée en figure 20 sous la référence 2010 par la confirmation de la liaison entre une contribution et cette catégorie. Cette étape 2925 est illustrée en figure 20 sous la référence 2005 par l’affichage d’une représentation de cette liaison, en l’occurrence l’insertion de cet attribut dans la bulle.

Claims

REVENDICATIONS
1 . Procédé (3000) d’enrichissement d’un contenu numérique représentatif d’une conversation, caractérisé en ce qu’il comporte : de manière itérative : une étape (3005) de capture d’un signal audio représentatif d’un message vocal, une étape (3010) de segmentation du message vocal en un segment, ladite étape de segmentation comportant une étape de détection de silence, le segment étant obtenu en fonction de la détection d’un silence, une étape (3015) de conversion en texte, dit « contribution », du segment audio et une étape (3020) de stockage, dans une mémoire, d’une contribution, puis : une étape (3025) de détection de sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée, une étape (3030) d’association, dans une mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté et une étape (3035) d’affichage d’au moins une contribution stockée et d’au moins un attribut vis-à- vis d’au moins une dite contribution.
2. Procédé (3000) selon la revendication 1 , dans lequel l’étape (3025) de détection comporte : une étape (3040) de collecte d’un signal audio représentatif d’un message vocal émis par un utilisateur et une étape (3045) de détermination d’un sentiment en fonction du signal audio collecté.
3. Procédé (3000) selon l’une des revendications 1 ou 2, dans lequel l’étape (3025) de détection comporte : une étape (3050) de collecte d’un signal vidéo représentatif d’une attitude d’un utilisateur, une étape (3055) de détermination d’un sentiment en fonction du signal vidéo collecté.
4. Procédé (3000) selon l’une des revendications 1 à 3, dans lequel l’étape (3025) de détection comporte : une étape (3060) de sélection par un utilisateur, via une interface homme-machine, d’une contribution stockée et une étape (3065) de sélection, par un utilisateur, via une interface homme-machine, d’un symbole représentatif d’un sentiment vis-à-vis de la contribution sélectionnée.
5. Procédé (3000) selon l’une des revendications 1 à 4, qui comporte : une étape (3070) de création automatique, selon une règle de création, d’une requête en fonction d’au moins un attribut de sentiment associé à au moins une contribution stockée et/ou d’au moins une contribution stockée et/ou d’au moins un signal audio capté, une étape (3075) de fourniture, via une interface homme machine, de la requête à au moins un utilisateur, une étape (3080) de détection d’une action d’au moins un utilisateur vis-à-vis de la requête et une étape (3085) de réalisation d’un traitement informatique en fonction d’au moins une action détectée, selon une règle de réalisation.
6. Procédé (3000) selon la revendication 5, dans lequel la règle de création est évolutive, le procédé comportant une étape (3090) d’apprentissage par renforcement de la règle en fonction d’au moins une action détectée vis-à-vis de la requête.
7. Procédé (3000) selon l’une des revendications 5 ou 6, dans lequel la règle de réalisation est évolutive, le procédé comportant une étape (3095) d’apprentissage par renforcement de la règle en fonction d’au moins une action détectée vis-à-vis de la requête.
8. Procédé (3000) selon l’une des revendications 1 à 7, qui comporte : une étape (3100) de détermination probabiliste d’au moins un attribut candidat à l’association avec une contribution stockée, une étape (3105) de validation ou d’infirmation de l’association déterminée et une étape (3110) d’association, dans une mémoire, d’au moins un attribut à une contribution stockée en cas de validation de l’association.
9. Procédé (3000) selon l’une des revendications 1 à 8, qui comporte : une étape (3115) de récapitulation de la discussion, en fonction d’au moins une contribution stockée et d’au moins un attribut associé audit texte et une étape (3120) de stockage de la discussion récapitulée.
10. Système (3200) d’enrichissement d’un contenu numérique représentatif d’une conversation, caractérisé en ce qu’il comporte : au moins un terminal (3205) informatique, chaque terminal informatique comportant : un capteur (3210) audio configuré pour capter un signal audio représentatif d’un message vocal, un moyen (3215) de calcul configuré pour : détecter un silence dans un flux audio capté par le capteur, segmenter le message vocal en au moins un segment en fonction de la détection d’un silence, convertir le message vocal en texte, dit « contribution » et une mémoire (3220) informatique pour stocker au moins une contribution, le moyen de calcul d’au moins un dit terminal informatique étant, de plus configuré pour : détecter un sentiment d’utilisateur vis-à-vis d’au moins une contribution stockée et associer, dans la mémoire et en relation avec au moins une contribution stockée, d’au moins un attribut correspondant à au moins un sentiment détecté, ledit terminal informatique comportant, de plus, un moyen d’affichage d’au moins une contribution stockée et d’au moins un indicateur représentatif d’un sentiment détecté vis-à-vis d’au moins une dite contribution.
PCT/EP2020/072671 2019-08-12 2020-08-12 Procédé et système d'enrichissement d'un contenu numérique représentatif d'une conversation Ceased WO2021028501A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/597,548 US12154553B2 (en) 2019-08-12 2020-08-12 Method and system for enriching digital content representative of a conversation
US18/914,300 US20260105097A1 (en) 2019-08-12 2024-10-14 Method and system for enriching digital content representative of a conversation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FRFR1909164 2019-08-12
FR1909164 2019-08-12

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/597,548 A-371-Of-International US12154553B2 (en) 2019-08-12 2020-08-12 Method and system for enriching digital content representative of a conversation
US18/914,300 Continuation US20260105097A1 (en) 2019-08-12 2024-10-14 Method and system for enriching digital content representative of a conversation

Publications (1)

Publication Number Publication Date
WO2021028501A1 true WO2021028501A1 (fr) 2021-02-18

Family

ID=72381045

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2020/072671 Ceased WO2021028501A1 (fr) 2019-08-12 2020-08-12 Procédé et système d'enrichissement d'un contenu numérique représentatif d'une conversation

Country Status (2)

Country Link
US (2) US12154553B2 (fr)
WO (1) WO2021028501A1 (fr)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12136433B2 (en) * 2020-05-28 2024-11-05 Snap Inc. Eyewear including diarization
US20250104710A1 (en) * 2022-01-25 2025-03-27 Ntt Technocross Corporation Information processing device, information processing method, and program
KR20240059326A (ko) * 2022-10-27 2024-05-07 삼성에스디에스 주식회사 화상 컨퍼런스 말풍선 제공 방법 및 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1995909A1 (fr) * 2007-05-25 2008-11-26 France Telecom Procédé d'évaluation dynamique de l'humeur d'un utilisateur de messagerie instantanée
WO2018167420A1 (fr) * 2017-03-14 2018-09-20 Orange Procédé d'enrichissement d'un contenu numérique par données spontanées

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007086042A2 (fr) * 2006-01-25 2007-08-02 Nice Systems Ltd. Procede et appamethod and apparatus for segmentation of audio interactions
US8041589B1 (en) * 2007-04-10 2011-10-18 Avaya Inc. Organization health analysis using real-time communications monitoring
GB201516553D0 (en) * 2015-09-18 2015-11-04 Microsoft Technology Licensing Llc Inertia audio scrolling
US10127825B1 (en) * 2017-06-13 2018-11-13 Fuvi Cognitive Network Corp. Apparatus, method, and system of insight-based cognitive assistant for enhancing user's expertise in learning, review, rehearsal, and memorization
US10902050B2 (en) * 2017-09-15 2021-01-26 International Business Machines Corporation Analyzing and weighting media information
US10242669B1 (en) * 2018-08-07 2019-03-26 Repnow Inc. Enhanced transcription of audio data with punctuation markings based on silence durations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1995909A1 (fr) * 2007-05-25 2008-11-26 France Telecom Procédé d'évaluation dynamique de l'humeur d'un utilisateur de messagerie instantanée
WO2018167420A1 (fr) * 2017-03-14 2018-09-20 Orange Procédé d'enrichissement d'un contenu numérique par données spontanées

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GILLY LESHED ET AL: "Visualizing real-time language-based feedback on teamwork behavior in computer-mediated groups", CHI 2009 - DIGITAL LIFE, NEW WORLD: CONFERENCE PROCEEDINGS AND EXTENDED ABSTRACTS; THE 27TH ANNUAL CHI CONFERENCE ON HUMAN FACTORS IN COMPUTING SYSTEMS, APRIL 4 - 9, 2009 IN BOSTON, USA, ACM, ASSOCIATION FOR COMPUTING MACHINERY, NEW YORK, NY, 4 April 2009 (2009-04-04), pages 537 - 546, XP058114329, ISBN: 978-1-60558-246-7, DOI: 10.1145/1518701.1518784 *
SAMIHA SAMROSE: "Automated Collaboration Coach for Video-conferencing based Group Discussions", PERVASIVE AND UBIQUITOUS COMPUTING AND WEARABLE COMPUTERS, ACM, 2 PENN PLAZA, SUITE 701NEW YORKNY10121-0701USA, 8 October 2018 (2018-10-08), pages 510 - 515, XP058419862, ISBN: 978-1-4503-5966-5, DOI: 10.1145/3267305.3267317 *
YING ZHANG ET AL: "Ubiquitous Meeting Facilitator with Playful Real-Time User Interface", 2 September 2011, BIG DATA ANALYTICS IN THE SOCIAL AND UBIQUITOUS CONTEXT : 5TH INTERNATIONAL WORKSHOP ON MODELING SOCIAL MEDIA, MSM 2014, 5TH INTERNATIONAL WORKSHOP ON MINING UBIQUITOUS AND SOCIAL ENVIRONMENTS, MUSE 2014 AND FIRST INTERNATIONAL WORKSHOP ON MACHINE LE, ISBN: 978-3-642-17318-9, XP019162510 *

Also Published As

Publication number Publication date
US20220254336A1 (en) 2022-08-11
US20260105097A1 (en) 2026-04-16
US12154553B2 (en) 2024-11-26

Similar Documents

Publication Publication Date Title
JP6969653B2 (ja) 電子会議システム
CN114556354B (zh) 自动确定和呈现来自事件的个性化动作项
US20240273139A1 (en) Suggested queries for transcript search
US12335208B2 (en) Content suggestion system for real-time communication environments
JP6866860B2 (ja) 電子会議システム
US20210383127A1 (en) Classification of auditory and visual meeting data to infer importance of user utterances
US10629189B2 (en) Automatic note taking within a virtual meeting
CN116368785B (zh) 智能查询缓冲机制
CN114503115A (zh) 生成丰富的动作项目
US9179002B2 (en) System and method for initiating online social interactions based on conference call participation
CN117219080A (zh) 用于在通信会话内生成个性化响应的虚拟助手
US11341337B1 (en) Semantic messaging collaboration system
US20260105097A1 (en) Method and system for enriching digital content representative of a conversation
US20140280186A1 (en) Crowdsourcing and consolidating user notes taken in a virtual meeting
EP2174472A2 (fr) Procede et dispositif de creation d'applications informatiques
US20230230589A1 (en) Extracting engaging questions from a communication session
CN118556245A (zh) 用于社交体验的虚拟大厅
WO2023200765A1 (fr) Génération de chapitre dynamique pour une session de communication
KR20190094080A (ko) 사용자간 대화 세션에 대한 모니터링에 기초하여 능동적으로 주문 또는 예약 서비스를 제공하는 대화형 ai 에이전트 시스템, 방법 및 컴퓨터 판독가능 기록 매체
US20230267370A1 (en) Machine learning-based conversation analysis
US20230230586A1 (en) Extracting next step sentences from a communication session
US20250372094A1 (en) Dynamic Conversation Alerts In Video Communications
Pallotta Content-based retrieval of distributed multimedia conversational data
WO2023192200A1 (fr) Systèmes et procédés pour participer à des réunions virtuelles et analyser ces dernières
CN120856488A (zh) 一种会议管理方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20767727

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20767727

Country of ref document: EP

Kind code of ref document: A1