FR3116355A1

FR3116355A1 - Détection d’au moins un thème partagé par une pluralité de documents textuels

Info

Publication number: FR3116355A1
Application number: FR2011690A
Authority: FR
Inventors: Maryline GIDON; Tiphaine Marie; Omaima AJJAJI
Original assignee: Orange SA
Current assignee: Orange SA
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2022-05-20
Anticipated expiration: 2040-11-16
Also published as: FR3116355B1

Abstract

Titre: Détection d’au moins un thème partagé par une pluralité de documents textuels L’invention concerne un procédé de détection d’au moins un thème partagé par une pluralité de documents textuels, un thème comprenant des mots associés au thème, mis en œuvre par un dispositif informatique, et comprenant ce qui suit : - calculer (S22) une première valeur de cohérence (VC1) correspondant à un premier nombre de thèmes de ladite pluralité et au moins une deuxième valeur de cohérence (VC2) correspondant à au moins un deuxième nombre de thèmes de ladite pluralité, - pour chacun de ces nombres de thèmes, calculer (S23) une pluralité de valeurs de cohérence correspondant respectivement à une pluralité de valeurs différentes d’au moins un paramètre, ledit au moins un paramètre étant un paramètre de distribution des thèmes par document textuel de ladite pluralité de documents textuels ou un paramètre de distribution des mots par thème, - sélectionner (S24-S25), parmi les premier et deuxième nombres de thèmes, celui qui correspond à la valeur de cohérence la plus élevée parmi la pluralité de valeurs de cohérence calculées pour le premier nombre de thèmes et pour le deuxième nombre de thèmes, - restituer (S3) sur une interface utilisateur celui des premier et deuxième nombres de thèmes qui a été sélectionné. Figure pour l’abrégé : Figure 5A

Description

Détection d’au moins un thème partagé par une pluralité de documents textuels

Domaine de l'invention

La présente invention se rapporte de manière générale au domaine des technologies de modélisation de données, et en particulier à la modélisation de sujets ou thèmes (« topic modeling » en anglais). Elle concerne plus particulièrement un procédé et un dispositif de détection d’au moins un thème partagé par une pluralité de documents textuels, dans le cadre par exemple d’une classification de documents textuels ou encore d’une recherche des sujets ou thèmes les plus pertinents d’un corpus de documents textuels.

Art antérieur

Il existe actuellement de nombreuses techniques de «topic modeling» pour extraire d’un corpus de documents textuels une pluralité de thèmes ou sujets (topics en anglais). De telles techniques sont utilisées classiquement pour, par exemple :

- découvrir des thèmes dans des textes,

- détecter des tendances dans des publications, des articles, des livres et autres,

- recommander des documents textuels à un utilisateur.

Les méthodes de «topic modeling» les plus courantes sont notamment :

- l’Analyse Sémantique Latente (LSA pour «Latent Semantic Analysis» en anglais) ;

- l’Analyse Sémantique Latente Probabiliste (pLSA pour «Probabilistic Latent Semantic Analysis» en anglais) ;

- la méthode LDA («Latent Dirichlet Allocation» en anglais).

L’inconvénient des méthodes LSA et pLSA est qu’elles ne prennent pas en compte le fait qu’un même document peut appartenir à plusieurs thèmes différents. De plus, la complexité de la méthode pLSA augmente avec le nombre de documents à analyser.

L’avantage de la méthode LDA est qu’elle permet de générer un certain nombre de thèmes à partir d’un corpus de textes en prenant en compte le fait qu’un même document peut appartenir à plusieurs thèmes différents, et que sa complexité n’augmente pas avec le nombre de documents. Par contre, un inconvénient de cette méthode est que l’utilisateur doit saisir un nombre de thèmes qu’il souhaite à priori découvrir dans un corpus de textes, sans vraiment savoir si ce nombre est optimal ou pas. Il en résulte que la détection de thèmes n’est pas précise et manque de fiabilité.

Objet et résumé de l'invention

Un des buts de l'invention est de remédier à des inconvénients de l'état de la technique précité en proposant un procédé de détection de thème(s) dans un corpus de documents textuels, dans lequel un nombre optimal de thèmes est détecté automatiquement.

A cet effet, un objet de la présente invention concerne un procédé de détection d’au moins un thème partagé par une pluralité de documents textuels, un thème comprenant des mots associés au thème, mis en œuvre par un dispositif informatique, et comprenant ce qui suit :

- calculer une première valeur de cohérence correspondant à un premier nombre de thèmes déterminé dans ladite pluralité et au moins une deuxième valeur de cohérence correspondant à au moins un deuxième nombre de thèmes déterminé dans ladite pluralité,

- pour chacun des premier et deuxième nombres de thèmes, calculer une pluralité de valeurs de cohérence correspondant respectivement à une pluralité de valeurs différentes d’au moins un paramètre, ledit au moins un paramètre étant un paramètre de distribution des thèmes par document textuel de ladite pluralité de documents textuels ou un paramètre de distribution des mots par thème,

- sélectionner, parmi les premier et deuxième nombres de thèmes, celui qui correspond à la valeur de cohérence la plus élevée parmi la pluralité de valeurs de cohérence calculées pour le premier nombre de thèmes et pour le deuxième nombre de thèmes,

- restituer sur une interface utilisateur celui des premier et deuxième nombres de thèmes qui a été sélectionné.

Un tel procédé de détection permet à un dispositif informatique de modélisation de thèmes d’un corpus de documents textuels, de calculer non seulement un nombre de thèmes estimé comme réellement pertinent pour ce corpus, mais également d’affiner ce nombre, en faisant varier le nombre de thèmes et au moins un paramètre de l’algorithme de modélisation exécuté par le dispositif informatique, tel qu’un paramètre de distribution des thèmes par document textuel du corpus ou un paramètre de distribution des mots par thème. Ainsi, grâce à l’invention, il est possible de fournir à un utilisateur, de manière automatique et de façon complètement transparente pour ce dernier, un nombre de thèmes optimal correspondant à ce corpus. Un tel dispositif informatique de modélisation des thèmes met ainsi en œuvre une détection des thèmes beaucoup plus efficace et précise qu’un dispositif informatique de modélisation des thèmes de l’art antérieur. Un tel dispositif permet également, par rapport aux dispositifs plus complexes de l’art antérieur, de raccourcir le temps passé par l’utilisateur à chercher le nombre de thèmes abordés dans un corpus.

Selon un mode de réalisation particulier, le calcul des première et au moins deuxième valeurs de cohérence est précédé d’une étape de réception d’une requête en fourniture d’au moins un thème partagé par la pluralité de documents textuels.

Un tel procédé de détection permet de procurer une certaine interactivité entre l’utilisateur et le dispositif informatique de modélisation de thèmes.

Ainsi, l’utilisateur se contente d’envoyer au dispositif de modélisation de thèmes une requête en fourniture d’au moins un thème partagé par la pluralité de documents textuels qu’il souhaite découvrir dans un corpus de textes, le dispositif informatique de modélisation lui fournissant en retour, et de manière automatique, le nombre de thèmes optimal correspondant à ce corpus.

Selon un mode de réalisation particulier, le calcul de ladite pluralité de valeurs de cohérence correspond respectivement à une pluralité de valeurs différentes dudit paramètre de distribution des thèmes par document textuel de ladite pluralité de documents textuels et à une pluralité de valeurs différentes dudit paramètre de distribution des mots par thème.

Selon ce mode de réalisation, une telle combinaison de variations permet d’optimiser encore davantage la détection du nombre de thèmes dans un corpus de documents textuels.

Selon un autre mode de réalisation particulier, le paramètre de distribution des thèmes par document textuel est le paramètre α de l’algorithme de modélisation Latent Dirichlet Allocation, tandis que le paramètre de distribution des mots par thème est le paramètre η dudit algorithme de modélisation Latent Dirichlet Allocation.

Dans ce mode de réalisation, le choix spécifique des paramètres α et/ou η de l’algorithme de modélisation Latent Dirichlet Allocation augmente les performances de détection du nombre optimal de thèmes dans un corpus de documents textuels.

Selon encore un autre mode de réalisation particulier, les premier et au moins deuxième nombres de thèmes sont sélectionnables dans un intervalle de valeurs qui est fonction du nombre de documents textuels contenus dans ladite pluralité.

Dans ce mode de réalisation, un intervalle de valeurs du nombre de thèmes à détecter est calculé automatiquement à partir du nombre de documents textuels du corpus considéré, ce qui permet d’accélérer le procédé de détection du nombre de thèmes et d’en augmenter les performances par une sélection des valeurs du nombre de thèmes qui sont les plus adéquates.

Selon encore un autre mode de réalisation particulier, préalablement au calcul des première et deuxième valeurs de cohérence, des mots estimés comme inutiles à la détection sont supprimés des documents textuels.

Un tel mode de réalisation permet d’appliquer un filtrage sur les documents textuels d’un corpus donné préalablement à la sélection du nombre de thèmes, de manière à rendre plus fiable le procédé de détection en réduisant la marge d’erreur sur les thèmes détectés.

Selon encore un autre mode de réalisation particulier, le procédé de détection comprend en outre ce qui suit :

- recevoir une requête en fourniture de listes de mots correspondant à celui des premier et au moins deuxième nombres de thèmes qui a été sélectionné,

- restituer sur ladite interface utilisateur, pour au moins un thème du nombre de thèmes sélectionné parmi les premier et au moins deuxième nombres de thèmes, une liste de mots correspondante.

Un tel mode de réalisation permet de rendre le procédé de détection plus complet pour l’utilisateur auquel est restitué non seulement le nombre de thèmes optimal d’un corpus de documents textuels considéré, mais aussi une liste de mots associée à au moins un thème du nombre de thèmes optimal.

Les différents modes ou caractéristiques de réalisation précités peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, au procédé de détection d’au moins un thème défini ci-dessus.

L’invention concerne également un dispositif informatique pour mettre en œuvre une détection d’au moins un thème partagé par une pluralité de documents textuels, un thème comprenant des mots associés au thème, ledit dispositif comprenant un processeur qui est configuré pour mettre en œuvre ce qui suit :

Un tel dispositif informatique est notamment apte à mettre en œuvre le procédé de détection d’au moins un thème précité, selon l’un quelconque des modes de réalisation précités.

L'invention concerne encore un programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé de détection d’au moins un thème selon l'invention, selon l’un quelconque des modes particuliers de réalisation décrits précédemment, lorsque ledit programme est exécuté par un processeur.

De telles instructions peuvent être stockées durablement dans un support mémoire non transitoire du dispositif informatique de détection mettant en œuvre le procédé de détection d’au moins un thème précité.

Ce programme peut utiliser n’importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.

L’invention vise également un support d’enregistrement ou support d’informations lisible par un ordinateur, et comportant des instructions d’un programme d’ordinateur tel que mentionné ci-dessus.

Le support d'enregistrement peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une clé USB ou un disque dur.

D'autre part, le support d'enregistrement peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.

Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé de détection d’au moins un thème précité.

D'autres caractéristiques et avantages apparaîtront à la lecture de modes de réalisation particuliers de l'invention, donnés à titre d’exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels :

la représente un système de détection d’au moins un thème selon un mode de réalisation de l'invention, dans lequel est mis en œuvre le procédé de détection d’au moins un thème de l’invention,

la représente un dispositif informatique de détection d’au moins un thème dans un mode de réalisation particulier de l’invention,

la représente les principales actions mises en œuvre dans le procédé de détection d’au moins un thème, selon un premier mode de réalisation particulier de l’invention,

la représente les principales actions mises en œuvre dans le procédé de détection d’au moins un thème, selon un deuxième mode de réalisation particulier de l’invention,

la représente en détail les actions mises en œuvre lors d’une étape de traitement du procédé de détection d’au moins un thème illustré en ou en , selon un mode de réalisation de l’invention,

la représente en détail les actions mises en œuvre lors d’une étape de calcul du procédé de détection d’au moins un thème illustré en ou en , selon un premier mode de réalisation,

la représente en détail les actions mises en œuvre lors d’une étape de calcul du procédé de détection illustré en ou en , selon un deuxième mode de réalisation,

la représente un premier exemple d’une courbe représentative de la variation du nombre de thèmes dans un intervalle de valeurs donné en fonction de la valeur de cohérence calculée pour chaque variation,

la représente un deuxième exemple d’une courbe représentative de la variation du nombre de thèmes dans un intervalle de valeurs donné en fonction de la valeur de cohérence calculée pour chaque variation.

Description détaillé e d’un mode de réalisation de l’invention

Environnement architectural

La représente un environnement dans lequel est mis en œuvre le procédé de détection d’au moins un thème selon l’invention.

Un tel environnement comprend :

- un dispositif informatique de détection de thème(s) DT configuré pour détecter au moins un thème/sujet dans une pluralité ou un corpus de documents textuels T₁, T₂,…, T_i, …T_N,

- une interface utilisateur IU dotée d’un écran EC qui est configurée pour qu’un utilisateur UT puisse visualiser les résultats de la détection de thème(s) mise en œuvre par le dispositif de détection DT. L’interface utilisateur IU peut être éventuellement dotée d’un clavier CL ou d’un microphone MIC adaptés pour que l’utilisateur UT puisse envoyer au dispositif de détection de thème(s) DT une requête en fourniture d’au moins un thème qui soit de type textuelle ou vocale.

Le dispositif de détection DT est par exemple un ordinateur portable ou un ordinateur personnel de type PC. Le dispositif de détection DT peut intégrer l’interface utilisateur IU. En variante, l’interface utilisateur IU peut être une interface d’un terminal de l’utilisateur UT, tel que par exemple un smartphone (« téléphone intelligent ») ou une tablette qui est configurée pour interagir avec le dispositif de détection DT au moyen d’une liaison de communication bien connue, telle que par exemple un réseau de type IP (abréviation anglaise de « Internet Protocol »), un réseau de type x-DSL (abréviation anglaise de « Digital Subscriber Line »), fibre ou encore 3G, 4G, 5G, etc.

Un document textuel T_iconsidéré dans ladite pluralité de N documents textuels est par exemple :

- un document textuel structuré tel qu’une publication, un article, un livre numérique ou un livre numérisé, etc.,

- un document textuel non structuré tel qu’un courriel, un article de blog, des commentaires échangés sur un forum, une image contenant du texte, etc.

Description d’un mode de ré alisation du dispositif de détection de thème ( s ) DT

La présente la structure simplifiée du dispositif de détection de thème DT de la .

Un tel dispositif permet, suite à une requête de l’utilisateur UT demandant quels sont le/les thèmes partagés par la pluralité de N documents textuels du corpus CO :

- de générer, via un module logiciel de traitement de données TR, une cartographie CART du corpus CO, dans laquelle :

- le document textuel T₁est transformé en une liste de mots LM₁,

- le document textuel T₂est transformé en une liste de mots LM₂,

-…,

- le document textuel T_Nest transformé en une liste de mots LM_N.

- de calculer, via le module logiciel de calcul CAL, le nombre optimal de thèmes du corpus CO,

- de restituer sous forme graphique, via un module logiciel de restitution RES, les résultats du calcul du nombre optimal de thèmes.

Le dispositif de détection de thèmes DT comprend également une interface de communication IC qui est adaptée pour communiquer avec l’interface utilisateur IU de la si celle-ci n’est pas intégrée au dispositif DT ou encore avec un dispositif DS de stockage du corpus, tel qu’une base de données documentaire, un serveur de messagerie électronique, etc…. dans le cas où le corpus n’est pas stocké dans le dispositif de détection DT.

Selon un mode particulier de réalisation de l'invention, les actions exécutées par le dispositif de détection de thème(s) DT sont mises en œuvre par des instructions d’un programme d'ordinateur PG. Pour cela, le dispositif DT a l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM, une unité de traitement UTR, équipée par exemple d'un processeur PROC, et pilotée par le programme d'ordinateur PG stocké en mémoire MEM. Le programme d'ordinateur PG comprend des instructions pour effectuer les actions de traitement des documents textuels et de calcul du nombre optimal de thèmes, dans le cadre du procédé de détection d’au moins un thème qui va être décrit ci-dessous, lorsque le programme est exécuté par le processeur PROC, selon l'un quelconque des modes particuliers de réalisation de l'invention.

A l'initialisation, les instructions de code du programme d'ordinateur PG sont par exemple chargées dans une mémoire RAM (non représentée) avant d'être exécutées par le processeur PROC. Le processeur PROC de l'unité de traitement UTR met notamment en œuvre les actions précitées, selon les instructions du programme d'ordinateur PG.

Description d’un premier mode de réalisation d’un procédé de détection d’au moins un thème dans une pluralité de documents textuels

En référence à la , on décrit maintenant le déroulement d’un procédé de détection d’au moins un thème selon un premier mode de réalisation de l’invention, mis en œuvre dans le système de détection de la .

Une telle détection est par exemple mise en œuvre dans un corpus CO contenant une pluralité de documents textuels T₁à T_N. Selon un exemple préféré, les documents textuels T₁à T_Nsont les emails stockés dans la boîte de messagerie professionnelle ou personnelle de l’utilisateur UT. Bien entendu, il pourrait s’agir de documents textuels d’un autre type, tels qu’un ensemble de courriers, de livres numérisés ou numériques, de revues, etc…

La détection d’au moins un thème selon ce premier mode de réalisation est avantageusement mise en œuvre de façon automatique et complètement transparente pour l’utilisateur UT. Cette détection est par exemple programmée de manière périodique ou non, à certains instants dans le temps, par exemple tous les soirs à 20h, ou encore une fois par mois, une fois tous les six mois, etc.

Le procédé de détection selon ce premier mode de réalisation comprend ce qui suit.

En S1, le dispositif DT active le module de traitement TR de la qui est configuré pour mettre en œuvre un traitement des données de chacun des documents textuels T1 à TN du corpus CO.

Un mode de réalisation d’un tel traitement S1 est illustré en . Il comprend ce qui suit :

En S11, des informations utiles sont extraites des documents textuels T₁à T_N. Dans le cas de courriels, de telles informations utiles sont, pour chacun des N courriels, les données textuelles suivantes : l’émetteur du courriel, le ou les destinataires du courriel, l’objet du courriel, le contenu (body en anglais) du courriel, les pièces jointes à ce courriel, la date d’envoi du courriel, etc… L’opération S11 peut être optionnelle pour d’autres types de documents textuels considérés dans le corpus.

En S12, pour un document textuel considéré, un filtrage est appliqué aux données textuelles extraites en S11. Dans le cas spécifique d’un courriel, il s’agit par exemple de supprimer les blocs signatures, supprimer les liens/ URL, supprimer les historiques des emails, supprimer certaines expressions récurrentes telle que par exemple « Envoyé depuis myPhone », « ne pas imprimer ce courriel », etc.). L’opération S12 peut être optionnelle ou différente pour d’autres types de documents textuels considérés dans le corpus.

En S13, certains mots estimés inutiles parmi les données textuelles extraites, puis filtrées, sont supprimés. Quel que soit le type de document textuel considéré, les mots tels que par exemple « le », « la », « de », « des », « un », « une », etc., ainsi qu’éventuellement certains verbes d’action, tels que par exemple « faire », « trouver », « voir », etc., sont supprimés. D’autres traitements, tels qu’une lemmatisation, une détection de bigrammes, etc. sont mis en œuvre au cours de l’étape S13.

En S14, une cartographie CART du corpus CO est générée. A cet effet, pour chaque document textuel, est générée une liste de mots, parmi les mots restants obtenus en S13. Plus précisément, à l’issue de l’étape S14 :

- le document textuel T₁est transformé en une liste de mots LM₁,

- le document textuel T₂est transformé en une liste de mots LM₂,

-…,

- le document textuel T_iest transformé en une liste de mots LM_i,

-…,

- le document textuel T_Nest transformé en une liste de mots LM_N.

En outre, pour une liste de mots considérée, par exemple LM_i, en supposant que cette liste LM_icontient K mots M₁ ⁱ, M₂ ⁱ,…, M_K ⁱ:

- le mot M₁ ⁱest affecté d’un identifiant unique id₁ ⁱet d’un indicateur de fréquence f_id₁ ⁱreprésentant le nombre de fois où le mot M₁ ⁱapparaît dans le document textuel T_i,

- le mot M₂ ⁱest affecté d’un identifiant unique id₂ ⁱet d’un indicateur de fréquence f_id₂ ⁱreprésentant le nombre de fois où le mot M₂ ⁱapparaît dans le document textuel T_i,

-…,

- le mot M_K ⁱest affecté d’un identifiant unique id_K ⁱet d’un indicateur de fréquence f_id_K ⁱreprésentant le nombre de fois où le mot M_K ⁱapparaît dans le document textuel T_i.

En référence à nouveau à la , le module de calcul CAL de la est activé en S2 pour calculer, à partir de la cartographie CART générée en S1, le nombre optimal de thèmes NTopt qui sont partagés par le corpus CO. Un tel module de calcul CAL est basé sur un algorithme de modélisation de sujets, tel que par exemple Latent Dirichlet Allocation ou similaire.

Un premier mode de réalisation d’un tel calcul S2 est illustré en . Il comprend ce qui suit :

En S21, le module de calcul CAL détermine un premier nombre de thèmes NT₁dans le corpus CO, ainsi qu’au moins un deuxième nombre de thèmes NT₂dans ce corpus.

Dans un mode de réalisation particulier, les nombres NT₁et NT₂de thèmes sont par exemple compris dans un intervalle de valeurs qui est calculé en fonction du nombre de documents textuels. A titre d’alternative, cet intervalle de valeurs est paramétrable.

En S22, le module de calcul CAL calcule une première valeur de cohérence VC₁pour le premier nombre de thèmes NT₁et au moins une deuxième valeur de cohérence VC₂pour au moins le deuxième nombre de thèmes NT₂. Dans le domaine de la modélisation de sujets, la mesure de la cohérence d’un sujet est bien connue. Ainsi une valeur de cohérence attribuée à un thème correspond à un score compris entre 0 et 1, résultant d’une mesure du degré de similarité sémantique des mots évalués comme les plus pertinents ou probables dans le thème.

Dans un mode de réalisation préféré, les valeurs de cohérence VC₁et VC₂sont basées sur la métrique C_v bien connue, laquelle est basée sur une segmentation en un seul ensemble des mots principaux d’un thème. Une telle mesure utilise la similarité cosinus et l’information mutuelle normalisée. On dit que l’information mutuelle d’un couple (X,Y) de variables représente leur degré de dépendance au sens probabiliste, ce qui permet de mesurer la dépendance statistique de deux variables, et donc de deux mots dans un thème. Bien entendu, d’autres métriques de cohérence peuvent être choisies, telles que les métriques :

- C_p qui est basée sur une segmentation des mots les plus importants d’un thème et sur la mesure de la cohérence de Fitelson,

- C_uci qui est basée sur les informations mutuelles pointues de toutes les paires de mots parmi les plus importants d’un thème,

- C_umass qui est basée sur le comptage de la cooccurrence des documents, sur une précédente segmentation et sur une probabilité conditionnelle logarithmique comme mesure de confirmation,

- C_npmi qui est une version améliorée de la cohérence de C_uci et qui utilise l'information mutuelle ponctuelle normalisée,

- C_a qui est basée sur le contexte, une comparaison par paire des mots les plus importants d’un thème, et sur une mesure de confirmation indirecte qui utilise des informations mutuelles ponctuelles normalisées et la similarité cosinus.

En S23, une variation d’au moins un paramètre P₁de l’algorithme de modélisation de thème est mise en œuvre sur l’intervalle [0, 1] de manière à obtenir W (W≥1) valeurs différentes VP₁à VP_Wde ce paramètre P₁.

Un tel paramètre P₁est un paramètre de distribution des thèmes par document textuel du premier nombre de thèmes NT₁et du deuxième nombre de thèmes NT₂.

Selon un exemple préféré, il s’agit du paramètre α de l’algorithme LDA.

A titre d’alternative, le paramètre P₁est un paramètre de distribution des mots par thème du premier nombre de thèmes NT₁et du deuxième nombre de thèmes NT₂.

Selon un exemple préféré, il s’agit du paramètre η de l’algorithme LDA.

En S24, pour chacune des W valeurs du paramètre P₁, sont calculées W valeurs de cohérence VC₁ ¹à VC_W ¹pour le premier nombre de thèmes NT₁et W valeurs de cohérence VC₁ ²à VC_W ²pour le deuxième nombre de thèmes NT₂.

En S25, il est procédé à une maximisation des valeurs de cohérence parmi les valeurs de cohérence VC₁ ¹à VC_W ¹et VC₁ ²à VC_W ², à l’issue de laquelle est déterminée la valeur de cohérence la plus élevée, VC_max.

En S26, celui des nombres de thèmes NT₁et NT₂qui est associé à la valeur de cohérence la plus élevée VC_maxest sélectionné en tant que nombre de thèmes optimal NT_opt. Le nombre de thèmes optimal NT_optpeut contenir un ou plusieurs thèmes.

Le mode de réalisation de la permet avantageusement, grâce à une corrélation d’un nombre variable de thèmes et de valeurs différentes d’au moins un paramètre de modélisation de thème, d’obtenir automatiquement le nombre optimal de thèmes du corpus CO.

Dans une variante de calcul de ce mode de réalisation telle que représentée à la , et portant la référence S’2, l’étape S23 et modifiée en une étape S’23 qui prend en compte au moins deux paramètres P1 et P2 de l’algorithme de modélisation de thème.

Sur la , les étapes S’21 à S’22 sont exactement les mêmes que les étapes S21 et S22 de la et, pour cette raison, ne seront pas à nouveau décrites.

Dans l’étape S’23, une variation du paramètre P₁de l’algorithme de modélisation de thème est mise en œuvre sur l’intervalle [0, 1] de manière à obtenir W (W≥1) valeurs différentes VP₁ ¹à VP_W ¹de ce paramètre P₁.

Au cours de l’étape S’23, une variation du paramètre P₂de l’algorithme de modélisation de thème est mise en œuvre sur l’intervalle [0, 1] de manière à obtenir Z (Z≥1) valeurs différentes VP₁ ²à VP_Z ²de ce paramètre P₂, avec Z=W ou Z≠W.

Un tel paramètre P₂est un paramètre de distribution des mots par thème du premier nombre de thèmes NT₁et du deuxième nombre de thèmes NT₂.

Bien entendu, à titre de variante, P₁pourrait être un paramètre de distribution des mots par thème du premier nombre de thèmes NT₁et du deuxième nombre de thèmes NT₂et P₂pourrait être un paramètre de distribution des thèmes par document textuel du premier nombre de thèmes NT₁et du deuxième nombre de thèmes NT₂.

En S’24 :

- pour le premier nombre de thèmes NT₁, pour chacune des W valeurs du paramètre P₁et pour chacune des Z valeurs du paramètre P₂, sont calculées Q valeurs de cohérence VC₁ ¹à VC_Q ¹,

- pour le deuxième nombre de thèmes NT₂, pour chacune des W valeurs du paramètre P₁et pour chacune des Z valeurs du paramètre P₂, sont calculées Q valeurs de cohérence VC₁ ²à VC_Q ².

En S’25, il est procédé à une maximisation des valeurs de cohérence parmi les valeurs de cohérence VC₁ ¹à VC_Q ¹et VC₁ ²à VC_Q ², à l’issue de laquelle est déterminée la valeur de cohérence la plus élevée, VC’_max.

En S’26, celui des nombres de thèmes NT₁et NT₂qui est associé à la valeur de cohérence la plus élevée VC’_maxest sélectionné en tant que nombre de thèmes optimal NT’_opt. Le nombre de thèmes optimal NT’_optpeut être supérieur ou égal à 1.

Ainsi, le mode de réalisation de la , en utilisant deux paramètres de modélisation de thème au lieu d’un seul comme dans la , permet d’affiner encore davantage la détection du nombre optimal de thèmes, en particulier lorsque les valeurs de cohérence VC1 et VC2 sont proches l’une de l’autre.

En référence à nouveau à la , le nombre optimal de thèmes obtenu à l’issue du calcul S2 ou S’2 est restitué en S3 sur l’interface utilisateur IU, sous la forme par exemple de vignettes « Thème 1 », « Thème 2 », etc., avec par exemple un intitulé général pour chaque thème qui est par exemple le mot le plus représentatif du thème. Ainsi, dans le cas d’une détection de thèmes dans les courriels d’une messagerie électronique de l’utilisateur UT, pour laquelle le nombre optimal de thèmes est par exemple égal à 3, « Thème 1 » a par exemple pour intitulé le nom « Cryptographie », « Thème 2 » a par exemple pour intitulé le nom propre « Dupont » et « Thème 3 » a par exemple pour intitulé le nom « Marketing ».

En S4, l’utilisateur UT peut envoyer au dispositif de détection de thème(s) DT, au moyen de l’interface IU, une requête RQ en fourniture d’une liste de mots pour chaque thème détecté.

En S5, le dispositif DT reçoit la requête RQ.

En S6, pour chaque thème du nombre optimal de thèmes, une liste de mots est extraite. Dans l’exemple représenté, sont extraites trois listes de mots : la liste de mots « list1 » pour le thème 1, la liste de mots « list2 » pour le thème 2, la liste de mots « list3 » pour le thème 3.

En S7, les listes de mots « list1 », « list2 » et « list3 » sont alors restituées graphiquement sur l’interface utilisateur IU, en correspondance respectivement des vignettes « Thème 1 », « Thème 2 » et « Thème 3 ».

Les étapes S4 à S7 étant optionnelles, ces étapes sont représentées en pointillé sur la .

A titre d’alternative, l’étape S6 pourrait être réalisée avant l’étape S3, les listes de mots « list1 », « list2 » et « list3 » étant alors restituées en S3.

Description d’un deuxième mode de réalisation d’un procédé de détection d’au moins un thème dans une pluralité de documents textuels

En référence à la , on décrit maintenant le déroulement d’un procédé de détection d’au moins un thème selon un deuxième mode de réalisation de l’invention, mis en œuvre dans le système de détection de la .

Ce deuxième mode de réalisation se distingue du premier mode de réalisation en ce qu’il comprend, préalablement aux étapes S1 à S7, les étapes suivantes :

En E1, l’utilisateur UT sélectionne, à l’aide de l’interface utilisateur IU, un corpus CO contenant une pluralité de documents textuels T₁à T_Ndont il souhaite découvrir un ou plusieurs thèmes partagés par ces documents. Selon un mode préféré de réalisation, les documents textuels T₁à T_Nsont les emails stockés dans la boîte de messagerie professionnelle ou personnelle de l’utilisateur UT. Bien entendu, il pourrait s’agir de documents textuels d’un autre type, tels qu’un ensemble de courriers, de livres numérisés ou numériques, de revues, etc…

En E2, l’utilisateur UT envoie au dispositif de détection de thème(s) DT, au moyen de l’interface IU, une requête RQ0 en fourniture d’au moins un thème. En d’autres termes, il est demandé au dispositif DT de fournir le ou les thèmes abordés dans le corpus CO. Dans le cas où le corpus CO est déjà stocké dans le dispositif de détection DT, l’envoi de la requête RQ0 consiste en une importation par l’utilisateur UT du corpus CO dans un outil logiciel du dispositif DT, dédié à la détection de thèmes, tel qu’un programme applicatif par exemple. Dans le cas où le corpus CO n’est pas déjà stocké dans le dispositif de détection DT, l’envoi de la requête RQ0 consiste en une transmission du corpus CO via une liaison de communication du type précité.

En E3, le dispositif DT reçoit la requête RQ0.

Le dispositif DT met ensuite en œuvre les étapes S4 à S7 de la même manière que dans le premier mode de réalisation précité.

On fait référence maintenant à la , qui représente sous forme d’un diagramme un exemple d’un mode de réalisation des étapes S21 et S22 ( ) ou des étapes S’21 et S’22 ( ). Dans cet exemple, il est considéré que le nombre N de documents textuels du corpus CO est égal à 100. Le dispositif de détection de thème(s) DT fait alors varier le nombre de thèmes N dans un intervalle de valeurs de nombres de thèmes compris par exemple entre 2 et 11, cet intervalle ayant par exemple été calculé en fonction de N=100. Dans l’exemple illustré, 10 nombres NT1 à NT10 différents de thèmes sont déterminés par le module de calcul CAL, tel que NT1=2, NT2=3, …, NT10=11. Pour NT1=2, une valeur de cohérence VC1 est calculée pour le modèle créé sur la base du nombre de thèmes NT1. Dans l’exemple représenté, VC1=0,38. Puis pour NT2=3, une valeur de cohérence VC2 est calculée pour le modèle créé sur la base du nombre de thèmes NT2. Dans l’exemple représenté, VC2=0,385. Et ainsi de suite jusqu’à NT10.

Sur le diagramme, le nombre de thèmes correspondant à la valeur de cohérence la plus élevée est NT7=8. Un cercle entoure cette valeur sur le diagramme de la .

A ce stade, au vu du diagramme, les nombres de thèmes NT6=7, NT8=9, NT9=10 ayant des valeurs de cohérence proches de celle correspondant à NT7, l’étape S’23 de la est mise en œuvre, au cours de laquelle le module CAL du dispositif de détection de thème(s) DT fait varier les paramètres α et η pour chacun des nombres de thèmes NT6 à NT9. Selon un exemple, le module de calcul CAL fait varier chacun des paramètres α et η par pas de 0,1 dans l’intervalle [0,01 ; 1] pour chacun des nombres de thèmes NT6 à NT9.

Bien entendu, à titre d’alternative, le module CAL du dispositif de détection de thème(s) DT pourrait faire varier les paramètres α et η pour chacun des nombres de thèmes NT₁à NT₁₀,mais pour des raisons d’optimisation de calcul, l’intervalle de valeurs du nombre de thèmes peut être réduit en partant des hypothèses suivantes :

- le nombre de thèmes ne peut être supérieur à 10 au vue de la baisse significative de la valeur de cohérence à partir de NT₉=10,

- le nombre de thèmes ne peut être inférieur à 6 au vue de la pente de la courbe dans l’intervalle [6,8].

En référence à la , suite à la mise en œuvre de l’étape S’23, pour chacun des nombres de thèmes NT6 à NT9, et pour chaque variation des paramètres α et η, une valeur de cohérence est calculée en S’24.

La partie ci-dessous d’un tableau plus complet (non représenté) qui associe, pour chacun des nombres de thèmes NT₁à NT₁₀, une valeur de cohérence obtenue pour une pluralité de valeurs possibles du paramètre α et du paramètre η, montre que la valeur de cohérence optimale est obtenue pour NT₆=7, α=0.91 et η=0.91.

Nombre de thèmes	Paramètre α	Paramètre η	Valeur de cohérence
NT₆=7	0.91	0.91	0.6953549
NT₇=8	0.91	0.61	0.69126987
NT₉=10	0.91	0.61	0.68895563
NT₈=9	0.91	0.61	0.68340217

En S’25, la maximisation des valeurs de cohérence du tableau ci-dessus est mise en œuvre, à l’issue de laquelle la valeur de cohérence la plus élevée obtenue est 0.6953549.

En S’26, le nombre de thèmes NT₆=7 qui correspond à cette valeur de cohérence maximale est alors sélectionné en tant que nombre optimal de thèmes.

En référence à la , selon un autre exemple de courbe représentative de l’évolution des nombres de thèmes en fonction de leurs valeurs de cohérence correspondantes, dans lequel il existe plusieurs maximums locaux, l’intervalle de valeurs peut être déterminé en suivant les étapes suivantes :

- détecter les maximums locaux de la courbe, dans l’exemple illustré, les quatre valeurs de cohérence VC₄, VC₆, VC₈et VC₉correspondant respectivement aux nombres de thèmes NT₄=5, NT₆=7, NT₈=9 et NT₉=10,

- parmi ces maximums, sélectionner le maximum local qui semble le plus opportun en prenant l’hypothèse que la pente de la courbe qui le précède est plus élevée que pour les autres maximums locaux, dans l’exemple représenté, la valeur de cohérence VC₄correspondant au nombre de thème NT₄=5,

- déterminer l’intervalle en prenant les valeurs de cohérence qui précèdent ce maximum local sélectionné sur la pente ascendante, la valeur VC₃dans l’exemple représenté.

Dans l’exemple de la , l’intervalle de valeurs du nombre de thèmes est donc réduit à [4,10].

Claims

Procédé de détection d’au moins un thème partagé par une pluralité de documents textuels, un thème comprenant des mots associés au thème, comprenant ce qui suit au niveau d’une interface utilisateur :
- sélectionner (E1) une pluralité de documents textuels,
- envoyer (E2) une requête en fourniture d’au moins un thème partagé par ladite pluralité à un dispositif informatique de modélisation de thèmes de ladite pluralité,
et ce qui suit au niveau dudit dispositif informatique :
- recevoir (E3) ladite requête, et en réponse à ladite requête :
- calculer (S22) une première valeur de cohérence (VC₁) correspondant à un premier nombre de thèmes déterminé dans ladite pluralité et au moins une deuxième valeur de cohérence (VC₂) correspondant à au moins un deuxième nombre de thèmes déterminé dans ladite pluralité,
- pour chacun des premier et deuxième nombres de thèmes, calculer (S23) une pluralité de valeurs de cohérence correspondant respectivement à une pluralité de valeurs différentes d’au moins un paramètre (P₁), ledit au moins un paramètre étant un paramètre de distribution des thèmes par document textuel de ladite pluralité de documents textuels ou un paramètre de distribution des mots par thème,
- sélectionner (S24-S25), parmi les premier et deuxième nombres de thèmes, celui qui correspond à la valeur de cohérence la plus élevée parmi la pluralité de valeurs de cohérence calculées pour le premier nombre de thèmes et pour le deuxième nombre de thèmes,
- restituer (S3) sur l’interface utilisateur celui des premier et deuxième nombres de thèmes qui a été sélectionné.
Procédé de détection d’au moins un thème selon la revendication 1, dans lequel le calcul de ladite pluralité de valeurs de cohérence correspond respectivement à une pluralité de valeurs différentes dudit paramètre de distribution des thèmes par document textuel de ladite pluralité de documents textuels et à une pluralité de valeurs différentes dudit paramètre de distribution des mots par thème.
Procédé de détection d’au moins un thème selon la revendication 1 ou la revendication 2, dans lequel le paramètre de distribution des thèmes par document textuel est le paramètre α de l’algorithme de modélisation Latent Dirichlet Allocation, tandis que le paramètre de distribution des mots par thème est le paramètre η dudit algorithme de modélisation Latent Dirichlet Allocation.
Procédé de détection d’au moins un thème selon l’une quelconque des revendications 1 à 3, dans lequel les premier et au moins deuxième nombres de thèmes sont sélectionnables dans un intervalle de valeurs qui est fonction du nombre de documents textuels contenus dans ladite pluralité.
Procédé de détection d’au moins un thème selon l’une quelconque des revendications 1 à 4, dans lequel préalablement au calcul des première et deuxième valeurs de cohérence, des mots estimés comme inutiles à la détection sont supprimés des documents textuels.
Procédé de détection d’au moins un thème selon l’une quelconque des revendications 1 à 5, comprenant en outre ce qui suit :
- recevoir (S5) une requête en fourniture de listes de mots correspondant à celui des premier et au moins deuxième nombres de thèmes qui a été sélectionné,
- restituer (S7) sur ladite interface utilisateur, pour au moins un thème du nombre de thèmes sélectionné parmi les premier et au moins deuxième nombres de thèmes, une liste de mots correspondante.
Dispositif informatique (DT) de modélisation de thèmes d’une pluralité de documents textuels, mettant en œuvre une détection d’au moins un thème partagé par une pluralité de documents textuels, un thème comprenant des mots associés au thème, ledit dispositif comprenant un processeur (UTR) qui est configuré pour mettre en œuvre ce qui suit :
- recevoir une requête en fourniture d’au moins un thème partagé par ladite pluralité, - en réponse à la requête :
- calculer une première valeur de cohérence (VC₁) correspondant à un premier nombre de thèmes déterminé dans ladite pluralité et au moins une deuxième valeur de cohérence (VC₂) correspondant à au moins un deuxième nombre de thèmes déterminé dans ladite pluralité,
- pour chacun des premier et deuxième nombres de thèmes, calculer une pluralité de valeurs de cohérence correspondant respectivement à une pluralité de valeurs différentes d’au moins un paramètre (P₁), ledit au moins un paramètre étant un paramètre de distribution des thèmes par document textuel de ladite pluralité de documents textuels ou un paramètre de distribution des mots par thème,
- sélectionner, parmi les premier et deuxième nombres de thèmes, celui qui correspond à la valeur de cohérence la plus élevée parmi la pluralité de valeurs de cohérence calculées pour le premier nombre de thèmes et pour le deuxième nombre de thèmes,
- restituer sur une interface utilisateur celui des premier et deuxième nombres de thèmes qui a été sélectionné.
Programme d'ordinateur comportant des instructions de code de programme pour la mise en œuvre du procédé de détection d’au moins un thème selon l’une quelconque des revendications 1 à 6, lorsqu'il est exécuté sur un ordinateur.
Support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur selon la revendication 8.