FR3136884A1 - Compression audio à très bas débit - Google Patents

Compression audio à très bas débit Download PDF

Info

Publication number
FR3136884A1
FR3136884A1 FR2206478A FR2206478A FR3136884A1 FR 3136884 A1 FR3136884 A1 FR 3136884A1 FR 2206478 A FR2206478 A FR 2206478A FR 2206478 A FR2206478 A FR 2206478A FR 3136884 A1 FR3136884 A1 FR 3136884A1
Authority
FR
France
Prior art keywords
vocal
segment
voice
data
textual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR2206478A
Other languages
English (en)
Other versions
FR3136884B1 (fr
Inventor
Garry Bruneau
Frédéric MASSA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Priority to FR2206478A priority Critical patent/FR3136884B1/fr
Publication of FR3136884A1 publication Critical patent/FR3136884A1/fr
Application granted granted Critical
Publication of FR3136884B1 publication Critical patent/FR3136884B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

Compression audio à très bas débit. L'invention concerne un procédé et un dispositif de génération de données textuelles représentatives d’un signal audio comprenant au moins un segment vocal. Il comporte, sur un terminal (DE), les étapes suivantes : - identifier dans le signal audio (S1) au moins un segment vocal contenant au moins une information vocale ;- extraire (S4) du segment vocal au moins une donnée de contexte vocal (LEM), représentative d’une émotion associée à ladite information vocale ;- préparer (S6) une description textuelle dudit segment vocal, comprenant au moins ladite information vocale et ladite donnée de contexte vocal. fig. 4

Description

Compression audio à très bas débit Domaine de l'invention
L'invention se rapporte de manière générale aux télécommunications, et plus précisément aux communications impliquant une transmission de flux audio comportant des informations vocales. Elle s’applique plus particulièrement à des terminaux équipés de ressources physiques et logicielles incluant un microprocesseur et un module de reconnaissance et synthèse de parole.
Art Antérieur
La compression de voix utilise généralement des techniques classiques de compression audio, par exemple MPEG3, AAC, etc. Ces techniques sont aptes à compresser les signaux audio, y compris de parole, avec efficacité. Cependant, elles tiennent peu compte du contenu du signal, notamment de la présence d’informations de parole et des émotions associées à une telle parole, qui permettent une reconstitution fidèle du signal de paroles.
Récemment dans ce domaine sont apparues de nouvelles techniques pour associer des émotions à un signal de parole. Elles sont connues sous le nom de « synthèse de voix émotionnelle » (en anglais,Emotional Speech Synthesis, abrégé par la suite en « ESS »). Par exemple, la demande de brevet US 2022/0122580 A1 décrit un système apte à associer une émotion à une voix humaine et à la synthétiser de manière à refléter cette émotion.
Cependant, aucune de ces techniques ne s’intéresse au codage de telles informations de voix et d’émotion, et à la transmission de telles informations de manière très compacte afin de les transmettre sur un réseau à très bas débit entre un émetteur et un récepteur.
Une difficulté supplémentaire apparaît lorsqu’un tel signal de parole est accompagné de signaux sonores comme de la musique, des bruits de fond, etc.
Il existe donc des besoins pour coder et transmettre un signal audio contenant de la parole à très bas débit.
L'invention vient améliorer l'état de la technique.
Elle propose à cet effet un procédé de génération de données textuelles représentatives d’un signal audio comprenant au moins un segment vocal, le procédé étant caractérisé en ce qu’il comporte, sur un terminal dit terminal émetteur, les étapes suivantes :
- identifier dans le signal audio ledit au moins un segment vocal contenant au moins une information vocale ;
- extraire du segment vocal au moins une donnée de contexte vocal, représentative d’une émotion associée à l’information vocale ;
- préparer une description textuelle dudit segment vocal, comprenant au moins ladite information vocale et ladite donnée de contexte vocal ;
Avantageusement selon l’invention, une description textuelle du signal audio contenant de la parole est effectuée en prenant en compte une information d’émotion associée au contexte vocal. La parole et l’information d’émotion sont représentées et éventuellement encodées sous forme de texte. Il est ainsi possible de stocker ou transmettre cette description textuelle à très bas débit, puisque la représentation d’un texte, ou suite de caractères ASCII, occupe, de manière connue, très peu d’espace en comparaison de données audio, même compressées, sur un support de stockage ou sur un canal de transmission.
Par « signal audio », on entend la représentation d’un son quelconque, sous forme analogique ou numérique, pendant une certaine durée.
Par « segment vocal », on entend une portion du signal audio qui contient une information de parole. Un tel segment peut par exemple correspondre à une durée fixe, ou à une plage de parole se terminant par du silence, etc. Il peut comporter une syllabe, un mot, une phrase ou un ensemble de phrases prononcées par un ou plusieurs locuteurs. Il peut aussi contenir, de surcroît, d’autres informations sonores qui ne sont pas considérées comme de la parole (musique, chanson, bruit d'ambiance, etc.)
Par « émotion », on entend un état du locuteur qui se traduit en variation des caractéristiques du signal audio qui porte sa voix, par exemple la colère, la joie, etc.
Par « description textuelle », on entend une description du signal audio sous forme de texte, c’est-à-dire une suite de caractères (lettres, chiffres, caractères spéciaux, symboles, etc.) qui peuvent être représentés par exemple par des codes ASCII.
D’autres données de contexte non spécifiquement émotionnelles (comme l’intensité de la voix) peuvent également faire partie de la description textuelle.
Selon un mode de mise en œuvre particulier de l'invention, le procédé tel que décrit ci-dessus comporte en outre les étapes d’extraire dudit au moins un segment vocal au moins une donnée de contexte sonore, représentative du contenu sonore du segment vocal, et dans lequel ladite description textuelle comporte en outre ladite donnée de contexte sonore.
Avantageusement selon ce mode, le segment vocal comprend en outre un contexte sonore, auquel est associée une donnée de contexte sonore. Cette donnée de contexte sonore est également représentée sous forme textuelle. Il peut s’agir d’une description du contenu sonore (par exemple un titre de chanson, de musique) ou d’une adresse du contenu sonore, ladite adresse étant représentée sous forme de texte (par exemple une adresse http). Ainsi, avantageusement, le contenu sonore prend également très peu de place sur le canal de transmission.
Selon un mode de mise en œuvre particulier de l'invention, le signal audio comporte en outre au moins un segment non vocal, et le procédé tel que décrit ci-dessus comporte en outre les étapes suivantes :
- identifier ledit au moins un segment non vocal comportant au moins une donnée de contexte sonore, représentative du contenu non vocal ;
- préparer une description textuelle dudit segment non vocal, comprenant au moins ladite donnée de contexte sonore.
Avantageusement selon ce mode, le signal comprend des segments non vocaux en plus des segments vocaux. Par « segment non vocal», on entend une portion du signal audio qui ne contient pas une information de parole au sens de la présente description. Un tel segment peut par exemple correspondre à une durée fixe, ou à une plage de musique se terminant par du silence, etc. Il est également préparé avant la transmission sous la forme de données textuelles. Comme expliqué auparavant, il peut s’agir d’une description du contenu sonore (comme un titre de chanson) ou d’une adresse du contenu sonore, ladite adresse étant représentée sous forme de texte (par exemple une adresse http). Ainsi avantageusement le signal audio est représenté sous forme d’une succession de représentations textuelles de segments vocaux et non vocaux, qui prennent très peu de place sur le disque ou le canal de transmission.
Selon un mode de mise en œuvre particulier de l'invention, la description textuelle est un ensemble de données au format XML ou JSON.
Avantageusement selon ce mode, un format de texte normalisé est utilisé pour décrire les segments vocaux et non vocaux.
Le langage XML (de l'Anglais « eXtended Markup Language») comprend une liste de données sous forme de fragments classiquement décrits entre une balise ouvrante (< >) et une balise fermante </ >. Il présente de nombreux avantages, au nombre desquels il est facile à lire pour une personne comme pour une machine. XML est un standard, et il est structuré (la structure d'un document XML est définie et peut être validée par un schéma), hiérarchique, etc.
Le langage JSON (JavaScript Objet Notation) est un langage léger d’échange de données textuelles. Il présente également de nombreux avantages. Il offre aussi une plus grande compacité que le XML.
Selon un mode de mise en œuvre particulier de l'invention, la donnée de contexte vocal est générée par un module de classification.
Avantageusement selon ce mode, un module de classification comme par exemple un réseau de neurones peut être entraîné à reconnaître les émotions portées par la voix d’un locuteur, et à en effectuer par la suite une reconnaissance automatique. Ainsi lorsqu’on présente un segment vocal au classifieur, il en détecte automatiquement une donnée d’émotion associée.
Selon un mode de mise en œuvre particulier de l'invention, la description textuelle est transmise sur un réseau.
Avantageusement selon ce mode, la description textuelle comprenant uniquement du texte est très bien adaptée à un réseau de transmission puisque, occupant très peu d’espace, elle limite la charge du réseau. Ceci est particulièrement important dans le cas d’un réseau à très bas débit, par exemple un réseau de technologie LORA, permettant de structurer un réseau étendu à basse consommation et bas coût.
Selon une variante, la transmission est effectuée sous forme de message SMS.
Avantageusement selon ce mode, les segments vocaux et non vocaux, autrement dit l’ensemble du flux textuel, peuvent être transmis directement sur un canal radio sous forme de SMS, qui sont des messages textuels. Ceci offre de nombreux avantages, dont celui de décharger un réseau mobile entre deux dispositifs, puisque la voix des interlocuteurs utilise le canal SMS avec un débit très faible et non plus le canal traditionnel de la voix.
On entend par SMS (Short Message Service) un texte envoyé à partir d'un dispositif comme un téléphone mobile vers un autre dispositif. Les terminologies de minimessages ou textos sont aussi utilisées. Le service de messagerie SMS permet de transmettre de courts messages textuels. C'est l'un des services de la téléphonie mobile. Il a été introduit par la norme GSM.
Selon un mode de mise en œuvre particulier de l'invention, le procédé comporte en outre une phase d’apprentissage, comportant les étapes de :
- recevoir des segments audio d'entraînement comprenant au moins une information vocale ;
- recevoir des données d'étiquetage comprenant au moins une donnée de contexte vocal représentative d’une émotion associée à l’information vocale du segment ;
- adapter un système de détection de contexte vocal sur la base des segments audio d'entraînement et des données d'étiquetage reçus.
Avantageusement selon ce mode, un classifieur est entraîné préalablement à la demande d’extraction d’une émotion d’un segment audio. Le classifieur, qui peut être par exemple un réseau de neurones, est ainsi bien entraîné à la voix du locuteur.
Corrélativement, l’invention propose aussi un procédé de génération d’un signal audio à partir d’une description textuelle comprenant au moins un segment vocal, comportant les étapes de :
- extraire de la description textuelle du segment vocal au moins une information vocale et une donnée de contexte vocal représentative d’une émotion associée à l’information vocale ;
- synthétiser le segment vocal à partir desdites information vocale et donnée de contexte vocal au moins.
Selon un mode de réalisation, le procédé de génération d’un signal audio comporte en outre une étape d’extraire de la description textuelle du segment vocal au moins une donnée de contexte sonore représentative du contenu sonore du segment vocal, et dans lequel synthétiser le segment vocal utilise en outre la donnée de contexte sonore.
Selon un aspect matériel, l’invention concerne également un dispositif de génération de données textuelles représentatives d’un signal audio comprenant au moins un segment vocal, le dispositif comprenant une mémoire et un processeur configurés pour :
- identifier dans le signal audio au moins un segment vocal contenant au moins une information vocale ;
- extraire du segment vocal au moins une donnée de contexte vocal, représentative d’une émotion associée à l’information vocale ;
- préparer une description textuelle dudit segment vocal, comprenant au moins ladite information vocale et ladite donnée de contexte vocal.
Selon un aspect matériel, l’invention concerne encore un dispositif de génération d’un signal audio à partir d’une description textuelle comprenant au moins un segment vocal, comprenant une mémoire et un processeur configurés pour :
- extraire de la description textuelle du segment vocal au moins une information vocale et une donnée de contexte vocal représentative d’une émotion associée à l’information vocale ;
- synthétiser le segment vocal à partir desdites information vocale et donnée de contexte vocal au moins.
L'invention concerne également un système comportant un dispositif de génération de données textuelles représentatives d’un signal audio et un dispositif de génération d’un signal audio à partir d’une description textuelle tels que décrits précédemment, le système étant caractérisé en ce que les données textuelles représentatives du signal audio sont transmises sur un réseau entre le dispositif de génération de données textuelles et le dispositif de génération d’un signal audio.
L'invention concerne également un programme d'ordinateur comportant des instructions pour la mise en œuvre de l’un des procédés ci-dessus selon l'un quelconque des modes particuliers de réalisation décrits précédemment, lorsque ledit programme est exécuté par un processeur. Le procédé peut être mis en œuvre de diverses manières, notamment sous forme câblée ou sous forme logicielle. Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.
L'invention vise aussi un support d'enregistrement ou support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur tel que mentionné ci-dessus. Les supports d'enregistrement mentionnés ci-devant peuvent être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD-ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. D'autre part, les supports d'enregistrement peuvent correspondre à un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Les programmes selon l'invention peuvent être en particulier téléchargés sur un réseau de type Internet.
Alternativement, les supports d'enregistrement peuvent correspondre à un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.
Ces dispositifs et ces programmes d'ordinateur présentent des caractéristiques et avantages analogues à ceux décrits précédemment en relation avec les procédés correspondants.
Liste des figures
D’autres caractéristiques et avantages de l’invention apparaîtront plus clairement à la lecture de la description suivante de modes de réalisation particuliers, donnés à titre de simples exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels :
La illustre un exemple d'environnement de mise en œuvre de l'invention selon un mode particulier de réalisation ;
La illustre une architecture d’un dispositif DE générateur de données textuelles (ou « codeur ») selon des modes de réalisation de l’invention ;
La illustre une architecture d’un dispositif DR générateur de signal audio (ou « décodeur ») selon des modes de réalisation de l’invention ;
La illustre des étapes du procédé de génération de données textuelles selon un mode de réalisation de l’invention ;
La illustre des étapes du procédé de génération de signal audio selon un mode de réalisation de l’invention ;
La représente, de manière schématique, un exemple de dispositif de prédiction d’émotion pour la mise en œuvre du procédé de la selon un mode de réalisation ;
La représente, sous forme d’organigramme, les principales étapes d’un procédé d’entraînement d’un réseau de neurones artificiels pour un tel dispositif de prédiction d’émotion ;
La représente sous forme schématique une base de données d’émotions selon un mode de réalisation de l’invention.
Description d'un mode de réalisation de l'invention
Principe général de l'invention
Le principe général de l’invention consiste à transmettre, en lieu et place d’une portion de flux audio comprenant un signal de parole, qui serait compressé par une technique classique, une représentation textuelle du contenu de ce signal, par exemple sous forme de caractères ASCII, comportant notamment la voix de l’utilisateur, ainsi que les émotions associées, et optionnellement des informations relatives à une portion de signal audio non vocal.
Modes particuliers de réalisation de l'invention.
La illustre un exemple d'environnement de mise en œuvre de l'invention selon un mode particulier de réalisation.
Selon ce mode de réalisation, un dispositif émetteur, noté DE, capte, analyse et transmet la voix d’un utilisateur à un dispositif récepteur, noté DR, au travers d’un réseau RES. Optionnellement le flux vidéo transmis peut comporter, en plus de la voix de l’utilisateur, des données audio sonores, ou sons, comme un bruit de fond (circulation automobile, chants d’oiseaux, etc.) ou de la musique.
Selon le mode de réalisation présenté, le dispositif émetteur est un terminal mobile (smartphone). Selon d’autres modes de réalisation, il peut prendre la forme d’un autre terminal, par exemple un PC, une tablette, etc.
Selon le mode de réalisation présenté, le dispositif récepteur est un ordinateur portable (PC). Selon d’autres modes de réalisation, il peut prendre la forme d’un autre terminal, par exemple un smartphone, une tablette, etc.
Le réseau RES peut être classiquement un réseau de type mobile (par exemple UMTS, 4G, 5G, etc.), Internet, ou autre. Il peut être de type local ou étendu.
Au niveau du terminal émetteur, responsable de la génération du flux, une captation de la voix de l'utilisateur est réalisée. Il s’agit d’identifier la voix de l’utilisateur, mais aussi ses émotions, son timbre, etc. Le flux entrant est découpé en segments vocaux ou non vocaux. Un moteur de conversion de parole vers texte (en anglais, « Speech To Text », abrégé dans la suite en « STT ») est utilisé, ainsi qu’un moteur d’analyse des émotions. Puis le terminal transmet le flux audio, qui peut contenir uniquement de la parole, ou optionnellement un mélange de voix et d’audio traditionnelle. Les segments de voix sont encodés sous forme de texte. Les informations d’émotions associées sont encodées sous forme de données spécifiques, dites données de contexte vocal, reflétant les émotions associées au segment de parole. Ces données de contexte sont également représentées sous forme de texte. Optionnellement les données traditionnelles correspondant aux segments non vocaux (comme de la musique, des bruits ambiants, etc.), juxtaposés ou superposés à la parole, sont également codées sous forme de texte.
Au niveau du terminal récepteur, le signal est reçu et analysé, puis un segment de voix est synthétisé à partir du texte reçu et d’un modèle apte à reconstruite la voix de l'interlocuteur avec les émotions du signal d'origine. De telles méthodes existent et sont connues sous le nom de « synthèse de voix émotionnelle » (en anglais,Emotional Speech Synthesis, abrégé par la suite en « ESS »). Des informations sonores non vocales peuvent être ajoutées au signal synthétisé
La illustre une architecture d’un dispositif DE générateur de données textuelles (ou « codeur ») selon des modes de réalisation de l’invention.
Le dispositif DE possède l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM, une unité de traitement équipée par exemple d'un processeur PROC, et pilotée par le programme d'ordinateur PGM stocké en mémoire MEM. À l'initialisation, les instructions de code du programme d'ordinateur PGM sont par exemple chargées dans une mémoire avant d'être exécutées par le processeur PROC. Le processeur PROC de l'unité de traitement met notamment en œuvre les étapes du procédé de génération de données textuelles selon l'un quelconque de modes particuliers de réalisation décrits en relation avec les figures 4 et 6-8, selon les instructions du programme d'ordinateur PGM.
Le dispositif DE comporte aussi :
  • Un module d’acquisition de signaux audio (AUDIO IN) apte à séparer une entrée audio en segments vocaux (contenant de la parole) et en segments non vocaux (son d’ambiance, musique, etc.).
  • Un module de traitement de segments vocaux (VOICE) travaillant en association avec un module STT de conversion de parole en texte ;
  • Un module EMOT de traitement des émotions de l’utilisateur sur un segment vocal, apte à générer un ou plusieurs labels d’émotion à partir du segment vocal ;
  • Un module ENTR d’apprentissage des émotions, par exemple un réseau de neurones, apte à apprendre à associer une émotion à un segment vocal ; le module EMOT correspond à la mise en œuvre de ce module, une fois l’apprentissage terminé.
  • Un module de sortie de signaux audio sous forme de texte (TEXT OUT) comportant des données de parole, des données de contexte vocal (représentatives d’une émotion), et optionnellement des données de contexte sonore.
  • Un module SOUND de traitement des informations sonores ;
  • Une base de données BD comportant par exemple un index, ou un label, associé à chaque émotion (par exemple, « 1 » pour joie, « 2 » pour colère, etc.) connue. Optionnellement, elle peut aussi comporter des caractéristiques prosodiques des signaux associés à une émotion particulière (variations de fréquence, d’intensité, de prononciation, etc. liées à cette émotion).
La illustre une architecture d’un dispositif DR générateur de signal audio à partir de données textuelles (ou « décodeur ») selon des modes de réalisation de l’invention.
Le dispositif DR possède l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM’, une unité de traitement UT’, équipée par exemple d'un processeur PROC’, et pilotée par le programme d'ordinateur PGM’ stocké en mémoire MEM’. À l'initialisation, les instructions de code du programme d'ordinateur PGM’ sont par exemple chargées dans une mémoire avant d'être exécutées par le processeur PROC’. Le processeur PROC’ de l'unité de traitement UT’ met notamment en œuvre les étapes du procédé de génération d’un signal audio à partir d’une description textuelle selon l'un quelconque de modes particuliers de réalisation décrits en relation avec les figures 5 ou 8, selon les instructions du programme d'ordinateur PGM’.
Le dispositif DR comporte aussi :
  • Un module d’acquisition de signaux audio textuels (TEXT IN) apte à séparer une entrée audio textuelle en segments vocaux (comportant de la parole et optionnellement des informations non vocales) et en segments non vocaux (son d’ambiance, musique, etc.).
  • Un module de traitement de segments vocaux (VOICE’) travaillant en association avec un module TTS de conversion de texte en parole ;
  • Un module EMOT’ de traitement des émotions de l’utilisateur sur un segment vocal, apte à modifier la restitution audio d’un segment vocal par la prise en compte des labels d’émotion associés au segment vocal ;
  • Une base de données d’émotions BD’, comprenant des données pour le module EMOT’, par exemple des paramètres prosodiques caractéristiques des signaux associés à une émotion particulière (variations de fréquence, d’intensité, de prononciation, etc.), ou un pointeur sur un réseau de neurones spécifique.
  • Un module SOUND’ de traitement des informations sonores ;
  • Un module de sortie de signaux audio sous forme audio (AUDIO OUT) apte à restituer des segments audio de parole associés à des émotions et optionnellement des segments audio non vocaux.
La illustre des étapes du procédé de génération de données textuelles selon un mode de réalisation de l’invention.
Le procédé selon ce mode de réalisation reçoit une entrée vocale sous forme d’un flux audio ; il le sépare en segments audio vocaux et en segments audio non vocaux. Les segments vocaux sont traités de manière à en fournir une représentation textuelle composée de chaînes de caractères correspondant aux paroles de l’utilisateur et de données d’émotion associées. Il encode de cette manière une voix adaptée aux émotions de données d’étiquetage. Les segments vocaux peuvent en outre comporter des informations sonores (non vocales). Les informations non vocales (musique, bruit de fond, d’ambiance, etc.) peuvent également être associées à une description textuelle.
Lors d’une étape S0 initiale, il est procédé à l’initialisation de tous les modules nécessaires à la mise en œuvre du procédé, notamment l’entraînement du module EMOT si celui-ci est réalisé sous la forme d’un réseau de neurones, ou le peuplement approprié d’une base d’émotions associées à des enregistrements, etc.
Dans une étape S1, un flux audio est acquis par le module d’acquisition audio (AUDIO IN de la ). Ce flux audio est décomposé en différents segments correspondant à des segments vocaux comportant de la parole (SVC) ou non vocaux ne contenant pas de paroles à traiter au sens de l'invention (SNVC). On notera qu’une chanson peut être une information non vocale au sens de l’invention. Il existe différentes méthodes bien connues de l’homme du métier pour extraire les segments de parole d’un signal audio tout en ignorant le bruit, la musique, le silence, etc. Par exemple, il est possible de faire appel sur une fenêtre temporelle (d’une durée donnée, par exemple 10 secondes) à un seuillage sur l’énergie du signal ou d’autres paramètres acoustiques, d’une segmentation en utilisant des modèles de Markov cachés, ou des réseaux de neurones, etc. Selon un autre exemple, le segment s’arrête dès qu’on dépasse les 3 secondes de silence et un nouveau segment commence.
De manière générale, un segment de parole correspond à des propriétés acoustiques liées au mécanisme de la production vocale du locuteur. Notamment, la parole se caractérise par une structure formantique et non stationnaire qui reflète la résonance du conduit vocal. L’alternance des sons voisés, non voisés et de silence lui permet aussi de se distinguer des propriétés des autres sons. Un segment non vocal inclut en revanche des sons possédant leurs propres caractéristiques, comme du silence, du bruit, de la musique, etc. La musique par exemple est caractérisée par une structure harmonique et stationnaire, un rythme répétitif, une absence de silence.
Ces notions peuvent naturellement être élargies ou réduites sans perte de généralité : on peut conserver ou non les segments non vocaux de silence, ou de musique, etc. De même un segment vocal peut contenir de la musique superposée à de la parole, ou un bruit ambiant (chants d’oiseaux, bruits de tondeuse, etc.), que l’on peut choisir de traiter (c’est-à-dire d’inclure dans la description textuelle) ou non.
Lors d’une étape S2 optionnelle, des informations non vocales sont extraites d’un segment vocal ou non vocal. Selon un mode de réalisation, un segment peut en effet être considéré comme vocal (puisqu’il comporte de la parole) mais comporter aussi du son. Dans ce cas, l’étape S2 peut être appliquée à ce segment. Dans un mode de réalisation, un segment vocal n’a pas de son, l’étape S2 est ignorée. Dans un mode de réalisation, seuls les segments sonores non vocaux sont traités à l’étape S2. Dans un mode de réalisation, le son n’est pas traité, c’est-à-dire que l’étape S2 n’est pas implémentée. Lorsque l’étape S2 est implémentée, elle aboutit à l’extraction d’une information, ou donnée, de contexte sonore, associée au segment, par exemple la description d’un bruit de fond (chants d’oiseaux) ou l’adresse d’un enregistrement sonore. L’étape S3 traite sa représentation textuelle. Les étapes S4, S5 concernent en revanche les informations de parole (VOICE) des segments vocaux, avec ou sans son associé.
Dans une étape S4, le codeur soumet le segment vocal à un module de détection des émotions (module EMOT de la ). Il utilise par exemple à cet effet un réseau de neurones artificiels, comme représenté sur la , préalablement entraîné sur un corpus de segments vocaux, comme représenté à l’appui de la . Dans ce cas, les données sont présentées à l’entrée du réseau de neurones préalablement entraîné selon un format attendu, par exemple un vecteur normalisé de données d’entrée du réseau de neurones, que l’on appelle « données d’entrée » DEi. Ces données sont de la même nature que celles utilisées pour l’entrainement.
Selon un autre mode de réalisation, une technique simple d’analyse de signal, par exemple l’analyse de la fréquence fondamentale (pitch), de l’intensité, du débit, de l’articulation, etc. de la parole, autrement dit de la prosodie, peut être envisagée : un segment vocal donné est comparé aux caractéristiques qui sont enregistrées dans la base de données BD, et une décision est prise sur la nature de l’émotion convoyée.
Selon un autre mode de réalisation, le segment vocal comporte un mot clé permettant de déduire le label d’émotion (le locuteur dit : « je suis triste et énervé » ; on en déduit deux labels d'émotion correspondant à "tristesse" et "énervement").
À la sortie de cette étape, un ou plusieurs labels d’émotion LEMi sont affectés au segment vocal, comme par exemple 1 pour « joie », N pour « colère », etc. Le label d’émotion correspond à une donnée de contexte vocal.
On notera que « émotion » est à prendre ici au sens large. Elle peut être caractéristique de l’intensité du segment de parole, de la rapidité d’élocution, etc. De manière plus générale, il s’agit d’une donnée de contexte représentative du contenu vocal.
Dans une étape S5, le segment de parole est converti en texte en utilisant un module de conversion de parole en texte (module STT de la ). Un tel module est bien connu de l’homme du métier et ne sera pas décrit plus avant. Par exemple, on peut utiliser à cette fin le logiciel DeepSpeech, un moteur de reconnaissance vocale de la société Mozilla©.
Les étapes S4 et S5 peuvent être parallèles, comme représentées sur la , ou successives. On peut notamment envisager de « débarrasser » le segment de parole de sa composante émotionnelle, avant de transformer la parole en texte, pour une meilleure reconnaissance de la parole.
À l’issue des étapes S4 et S5, le segment de parole est préparé pour le codage, au cours d’une étapeS6. Selon un mode de réalisation, la préparation consiste à générer un texte sous forme de langage XML. Selon un exemple, on utilise un langage de balisage connu qui fournit un moyen standard d’annoter du texte pour la génération de discours synthétiques, proposé par l’organisme W3C, nommé SSML (Speech Synthesis Markup Language (SSML) Version 1.1 - W3C Recommendation 7 September 2010), accessible à l’adresse https://www.w3.org/TR/speech-synthesis11/.
Un exemple d’utilisation d’un tel langage, appliqué au synthétiseur vocal Alexa© de la société Amazon, est reproduit ci-dessous :
<speak>
<amazon:emotion name="tristesse" intensity="medium">
Je veux te dire un secret .
</amazon:emotion>
<voice name="Kendra"> I am not a real human </voice>
<amazon:emotion name="colère" intensity="high"> Pas possible !</amazon:emotion>
</speak>
Dans l’exemple ci-dessus, le label d’émotion « tristesse », ou donnée de contexte vocal, est associé au texte qui le suit (« Je veux te dire un secret ») et permet de refléter cette émotion lors de la restitution sonore du segment par le décodeur. Le label « medium » est une autre donnée de contexte vocal, non spécifiquement associé à une émotion, qui permet d’ajuster le niveau sonore lors de la restitution sonore du segment.
Lors d’une étape S3, optionnelle, une représentation textuelle d'un son (non vocal) est générée. Un exemple de représentation d’une information sonore est fourni ci-dessous. La balise « src » donne une adresse sous forme d’un URI (Uniform Ressource Identifier), au format http, d’un flux audio comprenant selon cet exemple un enregistrement musical sonore et un enregistrement de chants d’oiseaux. La balise « descr » fournit une description qui peut correspondre à un contenu alternatif dans le cas où la source ne pourrait être jouée (synthèse de chant d’oiseaux, ou énonciation de type « les oiseaux chantent »). La balise « clipBegin » indique le moment d’insertion dans le segment. Le son non vocal peut être inséré par-dessus la voix dès le début du segment, ou plus tard. Il peut aussi avoir un instant de fin d’insertion (clipEnd), un volume sonore pour jouer le son (soundLevel), etc. On pourra se référer à la spécification du W3C précitée qui propose un certain nombre de paramètres possibles. Naturellement, la liste spécifiée dans cette spécification n’est pas limitative.
<audio>
<descr="Neuvième symphonie">
<src="https://www.mybd.com/fr/9th" clipBegin="10s" clipEnd="20s" soundLevel="-6dB"
</ audio >
< audio > < descr="oiseaux"> <src="https://www.mybd.com/birds7th"> </ audio >
Selon un autre exemple, l’adresse peut consister en un index pointant sur une base de données connue du côté de l’émetteur et du récepteur. Selon un exemple, il peut s’agir d’une bibliothèque musicale privée de l’utilisateur du dispositif d'émission, connue du dispositif de réception. Selon un exemple, l’adresse formulée peut être destinée à être reconnue par un outil de reconnaissance musicale (par exemple une entrée reconnaissable par Shazam©) :
< audio > < src ="seven nation army" > </ audio >
< audio > < src ="4567345" > </ audio >
Naturellement, toute autre description textuelle à la portée de l’homme du métier peut être envisagée. Selon un autre mode de réalisation, on utilise un format de type Json.
Lors d’une étape S7, les segments sont préparés pour le codage et éventuellement concaténés dans un fichier ou flux textuel unique. Si, lors de l’étape S3 optionnelle, des informations non vocales (sonores) ont été extraites d’un segment vocal ou non vocal, elles sont également insérées dans la représentation textuelle. On peut lors d’une étape S7 effectuer une concaténation des données de contexte vocales et non vocales (sonores) dans un même segment textuel. Plusieurs segments peuvent aussi être concaténés dans la même description (le même « fichier », destiné à être stocké ou transmis) XML. Par exemple, on aboutira à un fichier de balisage décrivant trois segments, comme représentés ci-dessous : le premier contient uniquement de la parole ; le second contient de la parole et du son (la neuvième symphonie, superposée à la parole ) ; le troisième contient uniquement du son (des chants d’oiseaux). Chaque segment est introduit par la balise « segment » selon cet exemple.
<segment=1>
<speak>
<amazon:emotion name="triste" intensity="medium">
Je veux te dire un secret .
</amazon:emotion>
</speak>
</segment>
<segment=2>
<voice name="Kendra">
<amazon:emotion name="colère" > I am not a real human. </amazon:emotion>
</voice>
<audio>
<descr="Neuvième symphonie">
<src="https://www.mybd.com/fr/9th" clipBegin="2s">
</ audio >
</segment>
<segment=3>
< audio > < descr="oiseaux"> <src="https://www.mybd.com/birds7th"> </ audio >
</segment>
Enfin, lors d’une étape S8, les données sont codées et transmises sur le canal de communication. Selon un mode de réalisation, les données sont au format XML et codées en ASCII. Selon un mode de réalisation, les données sont compressées en utilisant un outil standard adapté à la compression de telles données, comme par exemple le codage EXI (Efficient Extensible Interchange) du W3C.
Selon un mode de réalisation préférentiel, les données sont transmises sur un réseau mobile sous forme de messages de type SMS, adapté au format textuel.
Selon un mode de réalisation, les données sont transmises sur un réseau de type LORA, à très bas débit et longue portée.
Selon un mode de réalisation, les données sont stockées dans un fichier.
La illustre des étapes du procédé de génération de signal audio à partir de données textuelles (ou décodage) selon un mode de réalisation de l’invention.
Le procédé selon ce mode de réalisation reçoit une entrée sous forme de texte et de données d’étiquetage comprenant des informations émotionnelles associées à un segment vocal, ainsi qu’optionnellement des entrées textuelles associées à des sons non vocaux. Il génère sur cette base un flux audio comportant une voix adaptée aux émotions des données d’étiquetage et optionnellement des données sonores comme des bruits d’ambiance, de la musique, etc. D’autres données non spécifiquement émotionnelles (comme l’intensité de la voix) peuvent également faire partie de la description textuelle.
Lors d’une étape S10 initiale, il est procédé à l’initialisation de tous les modules nécessaires à la mise en œuvre du procédé.
Dans une étape S11, un flux de données textuelles est acquis par le module d’acquisition textuelle (TEXT IN de la ). Ce flux textuel est décomposé en différents segments correspondant à des segments vocaux comprenant de la parole (SVC) ou non vocaux (SNVC). Toute implémentation à la portée de l’homme du métier, permettant de repérer le début et la fin d’un segment de texte, est possible. Selon l’exemple donné à l’appui de la , le flux est au format XML et chaque début et fin de segment est repéré par une balise XML. Selon l’exemple fourni à l’appui de l’étape S7, le procédé d’extraction reçoit un flux de trois segments repérés par des balises appropriées <segment> : le premier segment contient uniquement de la parole ; le second contient de la parole et du son ; le troisième contient uniquement du son.
Lors d’une étape S12 optionnelle, des informations non vocales sont extraites d’un segment vocal ou non vocal. Selon un mode de réalisation, un segment peut en effet être considéré comme vocal (puisqu’il comporte de la parole) mais comporter aussi du son. Dans ce cas, l’étape S12 peut être appliquée à ce segment. C’est le cas du segment numéro 2 de l’exemple. Dans un mode de réalisation, si un segment vocal n’a pas de son, l’étape S12 est ignorée. Dans un mode de réalisation, le son n’est pas traité, c’est-à-dire que l’étape S12 n’est pas implémentée. Lorsque l’étape S12 est implémentée, elle aboutit à l’extraction d’une information de contexte sonore associée au segment, par exemple la description d'un bruit de fond (chants d’oiseaux) ou la restitution sonore d’un enregistrement. L’étape S3 traite de sa synthèse audio. Les étapes S14, S15 concernent en revanche les informations de parole (VOICE) des segments vocaux.
Dans une étape S15, le segment de parole extrait (« Je veux te dire un secret ») est converti en son (ou synthétisé) en utilisant un module de conversion de texte en parole (module TTS de la ). Un tel module est bien connu de l’homme du métier et ne sera pas décrit plus avant. Par exemple, on peut utiliser à cette fin le logiciel DeepSpeech, un moteur de synthèse vocale de la société Mozilla©.
Dans une étape S14, s’il détecte un label d’émotion dans le segment, le décodeur soumet le segment vocal à un module de synthèse des émotions (module EMOT’ de la ). Selon le mode de réalisation proposé à l’appui de la , le label d’émotion est extrait du segment par la lecture de la balise « emotion » (par exemple, « triste »). Alternativement, on peut lire un index (« 1 ») pointant dans une base de données sur des paramètres associés à l'émotion.
Le décodeur utilise pour la prise en compte de l’émotion, selon un mode de réalisation, une technique de synthèse de signal basée sur la prosodie, comme présenté dans l’article de Shroeder : «Emotional Speech Synthesis: A Review, EUROSPEECH 2001 Scandinavia, 7th European Conference on Speech Communication and Technology, 2nd INTERSPEECH Event, Aalborg, Denmark, September 3-7, 2001». Une telle modélisation de l’émotion dans la parole repose sur un certain nombre de paramètres prosodiques comme la fréquence fondamentale (pitch), l’intensité, le débit, l’articulation, etc. de la parole : un segment vocal donné est modifié (ou synthétisé) par la prise en compte des paramètres caractéristiques de l’émotion qui sont enregistrés dans la base de données BD’ de la (ou BD de ma , ou BD_1, BD_2 de la ). Un tel ensemble de paramètres est illustré à l’appui de la .
Selon un autre mode de réalisation, le décodeur utilise un réseau de neurones artificiels, qui été préalablement entraîné à modifier un segment de parole en lui ajoutant une émotion. Dans ce cas, le label d’émotion ainsi que les données synthétisées de parole issues de l’étape S15 sont présentées à l’entrée du réseau de neurones préalablement entraîné selon un format attendu, par exemple un vecteur normalisé de données d’entrée du réseau de neurones. Ces données sont de la même nature que celles utilisées pour l’entrainement. Un exemple d’un tel réseau de neurones est détaillé dans l’article "Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 4784-4788", de H. Tachibana et al. Ce réseau peut être adapté pour prendre en compte en entrée le ou les labels d’émotion. La présente un exemple d’utilisation de réseaux de neurones spécialisés par émotion, ou classe d’émotions.
Les étapes S14 et S15 peuvent être parallèles, comme représentées sur la , ou successives. Dans un mode de réalisation, l’étape S15 est réalisée d’abord, puis la parole est présentée avec l’émotion à l’entrée de l’étape S14, afin de synthétiser la parole avec l’émotion.
À l’issue des étapes S14 et S15, le segment de parole est préparé pour sa restitution sonore, au cours d’une étape S16. Selon un mode de réalisation, la préparation consiste à générer un segment audio de format normalisé (WAV, MP3, AAC, etc.)
Lors d’une étape S13, optionnelle, les informations sonores non vocales (qui peuvent appartenir à un segment vocal ou non vocal) sont traitées. Dans l'exemple donné plus haut, la balise « audio » permet de détecter une telle information sonore dans les segments 2 et 3. Elle peut prendre, comme discuté auparavant, la valeur d’un URI d’un fichier sonore, ou d’un index pointant sur une base de données connue du côté de l’émetteur et du récepteur, base privée ou moteur de reconnaissance de musique, etc. Optionnellement, une balise (« descr ») fournit une description qui peut correspondre à un contenu alternatif dans le cas où la source ne pourrait être jouée ; il peut y avoir alors une synthèse de chant d’oiseaux, ou une énonciation de type « les oiseaux chantent ».
Lors d’une étape S17, les segments sont préparés pour la restitution sonore et éventuellement concaténés dans un fichier ou flux audio unique. Si, lors de l’étape S13 optionnelle, des informations non vocales (sonores) ont été extraites d’un segment vocal ou non vocal, elles sont également insérées dans le flux audio. On peut lors d’une étape S17 effectuer une superposition des données audio et vocales (comprenant éventuellement une émotion) dans un même segment audio. Selon l’exemple donné plus haut, on aboutira à un fichier audio comprenant trois segments : le premier contient uniquement de la parole ; le second contient de la parole et du son (la neuvième symphonie, superposée à la parole) ; le troisième contient uniquement du son (des chants d’oiseaux).
Enfin, lors d’une étape S18, les données sont restituées sur un dispositif sonore (AUDIO OUT sur la ), par exemple un haut-parleur.
La représente, de manière schématique, un dispositif de prédiction d’émotions pour la mise en œuvre du module de traitement des émotions de l’utilisateur sur un segment vocal (module EMOT de la ) selon un mode de réalisation.
Il comprend un réseau de neurones artificiels, par exemple de type convolutionnel.
Le réseau de neurones artificiels représenté a été préalablement entraîné pour identifier un label d’émotion parmi un ensemble de labels d’émotions, selon un procédé détaillé à l’appui de la .
Une fois le réseau entraîné, il est apte à délivrer en sortie un index, ou label, LEMi, ou donnée de contexte vocal, qui permet d’accéder à une émotion (par exemple : « joie »), ou un ensemble de labels d’émotions (par exemple : « joie » et « pressé »), dans la base de données qui contient les labels d’émotion. Si le réseau a été correctement entraîné, cet index correspond à celui de l’émotion (ou ensemble d’émotions) la plus « proche » de l’émotion véhiculée par la voix de l’utilisateur dans ce segment.
Selon l’exemple représenté :
  • le réseau de neurones comprend une couche d’entrée à laquelle sont présentées les données d’entraînement DEi correspondant au segment vocal à classifier, une couche de sortie et un ou plusieurs couches cachées, chaque couche comprenant une pluralité de nœuds, aussi appelés neurones. Chaque couche cachée, ainsi que la couche de sortie, est associée à une opération mathématique, aussi appelée fonction d’activation, réalisée au niveau de chaque nœud de ladite couche. De plus, chaque nœud d’une couche cachée et de la couche de sortie est « relié » à chaque nœud de la couche précédente par un poids, chaque nœud prenant ainsi en entrée le résultat (ou la valeur, pour la couche d’entrée) de chaque nœud de la couche précédente multiplié par le poids associé, c.-à-d. le poids liant ledit nœud audit nœud de la couche précédente. Dans un tel cas, l’étape S0 de la / S20 de la permet de définir le nombre de couches, ainsi que les fonctions d’activation et le nombre de nœuds des couches cachées et de sortie.
  • Les données d’entraînement DEi (DE1, DE2… DEN) peuvent correspondre à des données audio brutes échantillonnées ou à un ensemble de paramètres du signal audio (paramètres de prosodie comme les variations de hauteur, d’intensité, de durée, etc. du signal de parole) ou encore à une image spectrale du signal (par exemple une image spectrale logarithmique, ou spectrogramme de type MEL, dont les fréquences sont adaptées à un auditeur humain).
  • Le réseau de neurones délivre en chaque nœud de la couche de sortie un score de prédiction SCi (SC1, SC2… SCN) correspondant au score d’appartenance à l’émotion i, repérée par son index LEMi (LEM1, LEM2 … LEMN).
  • Le réseau de neurones comprend aussi une couche notée « softmax » dont l’un des objectifs, de manière connue, est de normaliser les scores obtenus pour les faire correspondre à des probabilités Pi (P1, P2… PN) d’appartenance au label i, la somme des probabilités d’appartenance étant par exemple égale à 1.
  • Lors de l’entraînement, l’index du nœud de sortie associé à l’émotion d’entraînement (qui est connue) doit être le plus proche possible de la probabilité la plus élevée. L’entraînement consiste à raffiner les différents poids associés aux différents neurones des différentes couches pour obtenir une telle probabilité en sortie ; une boucle de retour (aussi appelée rétropropagation) notée ici RETRO, connectée à une fonction de type « softmax », est utilisée à cet effet.
  • Enfin le réseau de neurones selon cet exemple comprend un module OHE (pour One Hot Encoding ) qui permet de choisir un index LEMi unique en sortie (typiquement, celui dont la probabilité est la plus élevée).
La représente, sous forme d’organigramme, les principales étapes d’un procédé d’entraînement d’un réseau de neurones artificiels pour un tel dispositif de prédiction d’émotion, qui peut faire partie de l'étape S0 d'initialisations de la . Ce procédé est mis en œuvre par un module d’entraînement ENTR ( ) qui sert à configurer le réseau de neurones tel que représenté à titre d’exemple en .
Le réseau de neurones artificiels est entraîné pour identifier un label d’émotion (ou plusieurs) parmi un ensemble d’émotions possibles, plus particulièrement le label est un index d’émotion parmi un ensemble d’index d’émotion. Le label d’émotion correspond à une donnée de contexte vocal.
Dans une étape S20, la structure du réseau de neurones RN artificiel est définie. Conformément à l’exemple donné en , il s’agit d’un réseau de classification basé sur l’utilisation d’un réseau CNN, d’une fonction « softmax » (SM), d’un module de rétropropagation (CE), et d’un module d’encodage « one-hot » (OHE). Alternativement, la structure utilisée pour définir le réseau de neurones pourrait être par exemple celle d’un réseau de neurones à propagation avant, d’un perceptron multicouche, etc. Tout autre exemple à la portée de l’homme du métier peut être utilisé.
Lors d’une étape S21, le procédé obtient des données d’entraînement DEj d’un segment audio, à partir d’un ensemble de segments audio d’entraînement SEGj. Par exemple, l’ensemble d’entraînements comporte N segments d’entraînement, où N prend la valeur 10000, numérotés de 1 à 10000, et correspondant aux émotions EMi de label LEMi avec l’index j compris entre 1 et 10000 et l’index i compris entre 1 et 10 (c'est-à-dire que l'on dispose de 10 labels d'émotion). Des segments audio peuvent être enregistrés ou non en association avec les labels LEMi. En effet, une fois que le réseau est entraîné, selon ce mode de réalisation, il n’est plus nécessaire de disposer des segments audio d’entraînement. Il peut cependant être utile de pouvoir y accéder pour calculer des distorsions, etc. Selon une variante, ils sont supprimés de la base. Selon une autre variante, ils sont supprimés après l’entraînement. Selon une autre variante, ils sont conservés en base. Ces segments audio d’entraînement peuvent être obtenus, sans perte de généralité, à partir d’une base de données, d’un disque dur, d’un accès réseau, de la sortie d’un décodeur, ou en direct à partir du micro d’un locuteur, etc. Selon un mode de réalisation, un terminal de type smartphone est capable d’entraîner à la volée le réseau sur la voix de son utilisateur et celle de ses interlocuteurs pour en dégager les émotions et les synthétiser en même temps que la voix. Comme mentionné préalablement, les segments d'entraînement peuvent correspondre à des séquences audio de durée variable comprenant de la parole. Ils comprennent chacun un ensemble d’échantillons audio.
Par exemple, un segment audio SEGi comprend 20000 échantillons. Les segments audio d’entraînement peuvent comporter ou non le même nombre d’échantillons. Lors de cette étape S21 le segment audio SEGi est traité de manière à obtenir le premier ensemble de données d’entraînement DEi. Par exemple, le segment audio SEGi est converti en un vecteur donc chaque indice comprend une valeur d’échantillon audio codée sur un nombre de bits prédéfini. Selon un autre exemple, le segment audio SEGi est converti en un vecteur de valeurs caractéristiques (normalisées) comme ses caractéristiques prosodiques (pitch, hauteur de son, débit de parole, etc.). Selon un autre exemple, l’entrée est un spectogramme de type MEL.
Lors d’une étape S22, l’ensemble de données d’entraînement DEi est appliqué à la première couche du réseau de neurones. Selon le premier exemple précédent, une valeur d’échantillon audio est appliquée à chaque neurone de la couche d’entrée.
Lors d’une étape S23, les différentes couches du réseau de neurones sont classiquement mises en œuvre (notamment par un enchaînement d’opérations mathématiques au niveau des différentes couches, etc.). Une telle mise en œuvre correspond aux connaissances générales de l’homme du métier, et ne sera pas détaillée ici.
Lors d’une étape S24, le réseau de neurones RN artificiels délivre en sortie un score de prédiction pour chaque neurone de sortie, correspondant à un label d’émotion LEM. Le nombre de nœuds en sortie peut être quelconque, et dans tous les cas inférieur au nombre de segments d’entraînement.
Lors d’une étape S25, la fonction « softmax » (SM) est utilisée pour générer un ensemble de probabilités qui sont appliquées en entrée du module CE.
Lors de l’étape S26 le module CE impose la modification d’au moins un poids du réseau de neurones, selon par exemple une méthode de rétropropagation du gradient, de manière à ce que la probabilité maximale corresponde à la valeur attendue, c’est-à-dire la valeur de l’index LEMi du segment audio utilisé pour l’entraînement.
Ce cycle peut être répété avec d’autres segments audio d’entraînement, ou les mêmes, jusqu’à la fin de l’entraînement du réseau de neurones, par exemple lorsque la précision de la classification (association d’un segment audio à son index LEMi) n’augmente plus. Ce test peut être effectué lors d’une étape S27 optionnelle.
Le réseau de neurones RN artificiels entraîné suite à la mise en œuvre du procédé est typiquement stocké dans la mémoire d’un dispositif tel que le dispositif d’émission lui-même, mais peut alternativement être stocké à l’extérieur, par exemple sur une passerelle réseau (« gateway », en terminologie anglo-saxonne), un serveur ou un terminal fixe ou mobile comme un ordinateur personnel, une tablette, une télévision ou un smartphone
La représente, sous forme schématique, une base de données d’émotions selon deux modes de réalisation de l’invention.
La base de données BD/BD’ est de préférence remplie par le codeur et exploitée par le décodeur. Selon un autre mode de réalisation, les deux bases peuvent être différentes.
La base de données schématisée comprend des émotions (EMi) accessibles par un index, ou clé, ou label, noté LEMi, obtenu au niveau du codeur via la sortie du module EMOT, et au niveau du décodeur via la lecture de la description textuelle reçue. Un label correspond à une donnée de contexte vocal. L’accès à la base de données peut être fait par exemple via une requête de type HTTP. Selon un autre exemple, la base de données correspond à un stockage sur un disque dur. Selon un autre exemple, elle se fait par un index numérique, qui peut prendre toute forme connue (adresse, clé chiffrée ou non, indice, etc.). De manière générale, on appelle index l’élément qui permet d’accéder à l’émotion, et si nécessaire à un jeu de paramètres associés à l’émotion. Deux modes de réalisation sont proposés sur la .
Selon un premier mode de réalisation, une première base de données, BD_1, est destinée à être utilisée pour une synthèse vocale émotionnelle de type prosodique. Comme décrit à l’appui de la , étape S14, un certain nombre de paramètres prosodiques représentatifs d’une émotion sont mémorisées. Ils sont schématisés sur la figure par les colonnes notées :
  • FREQ, qui peut représenter par exemple un écart à la fréquence moyenne, ou pitch, du locuteur sur le segment,
  • TEMPO, qui peut représenter une variation de la vitesse d’élocution sur le segment,
  • LOUDNESS qui correspond à une atténuation de la voix du locuteur sur le segment.
Ainsi, selon l’exemple, l’émotion « joie » est caractérisée par une augmentation de 50% de la fréquence, 30% du tempo et une variation nulle de l’atténuation.
Naturellement, de nombreux autres paramètres sont envisageables et facilement accessibles à l’homme du métier pour caractériser une émotion.
Selon un autre mode de réalisation, on utilise une synthèse émotionnelle basée sur un réseau de neurones tel que décrit dans le papier précité de Tachibana et al. Le réseau de neurones est sélectionné parmi une pluralité de réseaux entraînés chacun par un corpus d’émotions différentes (colonne « RNi » du tableau 2). Par exemple, un réseau de neurones a été entraîné avec le label d’émotion « joie » et correspond à un réseau de neurones spécifique pointé par l’index LEM1 de l’émotion « joie ». Une référence du réseau de neurones RNi est stocké dans la base de données BD_2.
Selon un autre mode de réalisation, on utilise un réseau de neurones unique entrainé pour tous les types d’émotion, dans ce cas la base n’est plus utile.
Au récepteur (DR), le dispositif d’émotions reçoit en entrée un segment vocal synthétisé et un label d’émotion (1), ou une émotion ( « joie »). Il recherche en base les paramètres (FREQ, TEMPO, etc.) ou le réseau de neurones (RNi) associés à l’émotion et génère en sortie un segment vocal corrigé par l’utilisation de ces paramètres.
À l’émetteur (DE), la base peut être peuplée en utilisant n’importe quelle technique accessible à l’homme du métier : réseau de neurones, analyse statistique d’un corpus de séquences de test, entrée manuelle des caractéristiques à partir d’informations obtenues dans la littérature, etc.
Naturellement, cette base peut être externe aux dispositifs, par exemple elle peut être située dans le réseau (cloud) ou sur un disque dur externe, elle peut être distribuée ou non, etc. du moment que le codeur-émetteur (DE) peut y accéder en écriture, et le décodeur-récepteur (DR) en lecture.
Il va de soi que le mode de réalisation qui a été décrit ci-dessus a été donné à titre purement indicatif et nullement limitatif, et que de nombreuses modifications peuvent être facilement apportées par l’homme de l’art sans pour autant sortir du cadre de l’invention.
Notamment, dans le cas d'une conversation bidirectionnelle, chacun des terminaux DE et DR peut comporter un module de génération de données textuelles et un module de génération d'un signal audio à partir de données textuelles.

Claims (15)

  1. Procédé de génération de données textuelles représentatives d’un signal audio comprenant au moins un segment vocal (SVC), le procédé étant caractérisé en ce qu’il comporte, sur un terminal (DE), les étapes suivantes :
    - identifier dans le signal audio (S1) ledit au moins un segment vocal contenant au moins une information vocale ;
    - extraire (S4) du segment vocal au moins une donnée de contexte vocal (LEMi), représentative d’une émotion associée à l’information vocale ;
    - préparer (S6, S7) une description textuelle dudit segment vocal, comprenant au moins ladite information vocale et ladite donnée de contexte vocal.
  2. Procédé de génération de données textuelles selon la revendication 1, comportant en outre une étape d’extraire (S2) dudit au moins un segment vocal au moins une donnée de contexte sonore, représentative du contenu sonore du segment vocal, et dans lequel ladite description textuelle comporte en outre ladite donnée de contexte sonore.
  3. Procédé de génération de données textuelles selon la revendication 1, dans lequel le signal audio comporte en outre au moins un segment non vocal (SNVC) et le procédé comporte en outre :
    - identifier (S1) ledit au moins un segment non vocal comportant au moins une donnée de contexte sonore, représentative du contenu non vocal ;
    - préparer (S2, S7) une description textuelle dudit segment non vocal, comprenant au moins ladite donnée de contexte sonore :
  4. Procédé de génération de données textuelles selon l’une des revendications précédentes, dans lequel la description textuelle est un ensemble de données au format XML ou JSON.
  5. Procédé de génération de données textuelles selon la revendication 1, dans lequel la donnée de contexte vocal est générée par un module de classification.
  6. Procédé de génération de données textuelles selon l’une des revendications précédentes, dans lequel la description textuelle est transmise (S8) sur un réseau.
  7. Procédé de génération de données textuelles selon la revendication précédente, dans lequel la transmission (S8) est effectuée sous forme de message SMS.
  8. Procédé de génération de données textuelles selon la revendication 1, comprenant en outre une phase d’apprentissage (S0) comportant les étapes de :
    - recevoir des segments audio d'entraînement (DEi) comprenant au moins une information vocale ;
    - recevoir des données d'étiquetage comprenant au moins une donnée de contexte vocal (LEMi) représentative d’une émotion associée à l’information vocale du segment ;
    - adapter un système de détection de contexte vocal sur la base des segments audio d'entraînement et des données d'étiquetage reçus.
  9. Dispositif de génération de données textuelles représentatives d’un signal audio comprenant au moins un segment vocal, le dispositif comprenant une mémoire (MEM) et un processeur (PROC) configurés pour:
    - identifier dans le signal audio ledit au moins un segment vocal contenant au moins une information vocale ;
    - extraire du segment vocal au moins une donnée de contexte vocal, représentative d’une émotion associée à ladite information vocale ;
    - préparer une description textuelle dudit segment vocal, comprenant au moins ladite information vocale et ladite donnée de contexte vocal.
  10. Procédé de génération d’un signal audio à partir d’une description textuelle comprenant au moins un segment vocal, comportant les étapes de :
    - extraire (S14) de la description textuelle du segment vocal au moins une information vocale et une donnée de contexte vocal représentative d’une émotion associée à l’information vocale ;
    - synthétiser (S15, S16, S17) le segment vocal à partir desdites information vocale et donnée de contexte vocal au moins.
  11. Procédé de génération d’un signal audio selon la revendication 10, comportant en outre une étape d’extraire (S12) de la description textuelle du segment vocal au moins une donnée de contexte sonore, représentative du contenu sonore du segment vocal, et dans lequel synthétiser le segment vocal utilise en outre la donnée de contexte sonore.
  12. Dispositif de génération d’un signal audio à partir d’une description textuelle comprenant au moins un segment vocal, comprenant une mémoire (MEM’) et un processeur (PROC’) configurés pour :
    - extraire de la description textuelle du segment vocal au moins une information vocale et une donnée de contexte vocal représentative d’une émotion associée à l’information vocale ;
    - synthétiser le segment audio à partir desdites information vocale et donnée de contexte vocal au moins.
  13. Système comprenant :
    - un dispositif de génération de données textuelles représentatives d’un signal audio selon la revendication 9 ;
    - un dispositif de génération d’un signal audio à partir d’une description textuelle d’un segment vocal selon la revendication 12 ;
    caractérisé en ce que les données textuelles représentatives d’un segment audio sont transmises sur un réseau entre le dispositif de génération de données textuelles et le dispositif de génération d’un signal audio.
  14. Programme d’ordinateur apte à être mis en œuvre sur un dispositif tel que défini dans la revendication 9, le programme comprenant des instructions de code qui, lorsque le programme est exécuté par un processeur, réalise les étapes du procédé défini selon l’une des revendications 1 à 8.
  15. Programme d’ordinateur apte à être mis en œuvre sur un dispositif tel que défini dans la revendication 12, le programme comprenant des instructions de code qui, lorsque le programme est exécuté par un processeur, réalise les étapes du procédé défini selon l’une des revendications 10 à 11.
FR2206478A 2022-06-28 2022-06-28 Compression audio à très bas débit Active FR3136884B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR2206478A FR3136884B1 (fr) 2022-06-28 2022-06-28 Compression audio à très bas débit

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2206478 2022-06-28
FR2206478A FR3136884B1 (fr) 2022-06-28 2022-06-28 Compression audio à très bas débit

Publications (2)

Publication Number Publication Date
FR3136884A1 true FR3136884A1 (fr) 2023-12-22
FR3136884B1 FR3136884B1 (fr) 2025-04-11

Family

ID=83690292

Family Applications (1)

Application Number Title Priority Date Filing Date
FR2206478A Active FR3136884B1 (fr) 2022-06-28 2022-06-28 Compression audio à très bas débit

Country Status (1)

Country Link
FR (1) FR3136884B1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4679416A1 (fr) * 2024-07-11 2026-01-14 Deutsche Telekom AG Systeme et procede de communication vocale a utilisation efficace de la largeur de bande

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001057851A1 (fr) * 2000-02-02 2001-08-09 Famoice Technology Pty Ltd Systeme vocal
US20030002633A1 (en) * 2001-07-02 2003-01-02 Kredo Thomas J. Instant messaging using a wireless interface
EP1703492A1 (fr) * 2005-03-16 2006-09-20 Research In Motion Limited Sytème et méthode pour la personnalisation de la synthèse texte vers voix
US20070208569A1 (en) * 2006-03-03 2007-09-06 Balan Subramanian Communicating across voice and text channels with emotion preservation
US20120327243A1 (en) * 2010-12-22 2012-12-27 Seyyer, Inc. Video transmission and sharing over ultra-low bitrate wireless communication channel
GB2516942A (en) * 2013-08-07 2015-02-11 Samsung Electronics Co Ltd Text to Speech Conversion
US20210225357A1 (en) * 2016-06-13 2021-07-22 Microsoft Technology Licensing, Llc Intent recognition and emotional text-to-speech learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001057851A1 (fr) * 2000-02-02 2001-08-09 Famoice Technology Pty Ltd Systeme vocal
US20030002633A1 (en) * 2001-07-02 2003-01-02 Kredo Thomas J. Instant messaging using a wireless interface
EP1703492A1 (fr) * 2005-03-16 2006-09-20 Research In Motion Limited Sytème et méthode pour la personnalisation de la synthèse texte vers voix
US20070208569A1 (en) * 2006-03-03 2007-09-06 Balan Subramanian Communicating across voice and text channels with emotion preservation
US20120327243A1 (en) * 2010-12-22 2012-12-27 Seyyer, Inc. Video transmission and sharing over ultra-low bitrate wireless communication channel
GB2516942A (en) * 2013-08-07 2015-02-11 Samsung Electronics Co Ltd Text to Speech Conversion
US20210225357A1 (en) * 2016-06-13 2021-07-22 Microsoft Technology Licensing, Llc Intent recognition and emotional text-to-speech learning
US20220122580A1 (en) 2016-06-13 2022-04-21 Microsoft Technology Licensing, Llc Intent recognition and emotional text-to-speech learning

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
H. TACHIBANA: "Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention", 2018 IEEE INTERNATIONAL CONFÉRENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2018, pages 4784 - 4788, XP033401153, DOI: 10.1109/ICASSP.2018.8461829
SHROEDER: "Emotional Speech Synthesis: A Review, EUROSPEECH 2001 Scandinavia", 7TH EUROPEAN CONFÉRENCE ON SPEECH COMMUNICATION AND TECHNOLOGY, 2ND INTERSPEECH EVENT, AALBORG, DENMARK, 3 September 2001 (2001-09-03)
SPEECH SYNTHESIS MARKUP LANGUAGE (SSML) VERSION 1.1 - W3C RECOMMENDATION, 7 September 2010 (2010-09-07)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4679416A1 (fr) * 2024-07-11 2026-01-14 Deutsche Telekom AG Systeme et procede de communication vocale a utilisation efficace de la largeur de bande

Also Published As

Publication number Publication date
FR3136884B1 (fr) 2025-04-11

Similar Documents

Publication Publication Date Title
CN114203147B (zh) 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法
KR102514990B1 (ko) 뉴럴 네트워크들을 사용하여 대상 화자의 음성으로 텍스트로부터의 스피치의 합성
US7788095B2 (en) Method and apparatus for fast search in call-center monitoring
US8027836B2 (en) Phonetic decoding and concatentive speech synthesis
US8386265B2 (en) Language translation with emotion metadata
EP1362343B1 (fr) Procede, module, dispositif et serveur de reconnaissance vocale
US20220293091A1 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
CN111899719A (zh) 用于生成音频的方法、装置、设备和介质
EP4205109A1 (fr) Augmentation de données synthétisées à l&#39;aide de modèles de conversion vocale et de reconnaissance de la parole
CN117597728A (zh) 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆
TW201214413A (en) Modification of speech quality in conversations over voice channels
US9196241B2 (en) Asynchronous communications using messages recorded on handheld devices
US20240304175A1 (en) Speech modification using accent embeddings
KR102626618B1 (ko) 감정 추정 기반의 감정 음성 합성 방법 및 시스템
CN121014076A (zh) 用于零样本文本到语音合成的神经编解码器语言模型的系统和方法
WO2009071795A1 (fr) Systeme d&#39;interpretation simultanee automatique
Cooper Text-to-speech synthesis using found data for low-resource languages
US20250006212A1 (en) Method and apparatus for training speech conversion model, device, and medium
Wani et al. Navigating the soundscape of deception: a comprehensive survey on audio deepfake generation, detection, and future horizons
FR3136884A1 (fr) Compression audio à très bas débit
US12518735B2 (en) Streaming, lightweight and high-quality device neural TTS system
US12400632B2 (en) System and method for posthumous dynamic speech synthesis using neural networks and deep learning by generating pixel coordinates using portable network graphic
Burke Speech processing for ip networks: Media resource control protocol (MRCP)
JP2004347732A (ja) 言語自動識別方法及び装置
CN119516999A (zh) Tts系统、语音合成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20231222

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4