FR3116355A1 - Détection d’au moins un thème partagé par une pluralité de documents textuels - Google Patents
Détection d’au moins un thème partagé par une pluralité de documents textuels Download PDFInfo
- Publication number
- FR3116355A1 FR3116355A1 FR2011690A FR2011690A FR3116355A1 FR 3116355 A1 FR3116355 A1 FR 3116355A1 FR 2011690 A FR2011690 A FR 2011690A FR 2011690 A FR2011690 A FR 2011690A FR 3116355 A1 FR3116355 A1 FR 3116355A1
- Authority
- FR
- France
- Prior art keywords
- themes
- theme
- parameter
- textual
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Time-Division Multiplex Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Titre:
Détection
d’au moins
un thème partagé
par une pluralité de documents textuels
L’invention concerne un procédé de détection d’au moins un thème partagé par une pluralité de documents textuels, un thème comprenant des mots associés au thème, mis en œuvre par un dispositif informatique, et comprenant ce qui suit :
- calculer (S22) une première valeur de cohérence (VC1) correspondant à un premier nombre de thèmes de ladite pluralité et au moins une deuxième valeur de cohérence (VC2) correspondant à au moins un deuxième nombre de thèmes de ladite pluralité,
- pour chacun de ces nombres de thèmes, calculer (S23) une pluralité de valeurs de cohérence correspondant respectivement à une pluralité de valeurs différentes d’au moins un paramètre, ledit au moins un paramètre étant un paramètre de distribution des thèmes par document textuel de ladite pluralité de documents textuels ou un paramètre de distribution des mots par thème,
- sélectionner (S24-S25), parmi les premier et deuxième nombres de thèmes, celui qui correspond à la valeur de cohérence la plus élevée parmi la pluralité de valeurs de cohérence calculées pour le premier nombre de thèmes et pour le deuxième nombre de thèmes,
- restituer (S3) sur une interface utilisateur celui des premier et deuxième nombres de thèmes qui a été sélectionné.
Figure pour l’abrégé : Figure 5A
Description
Domaine de l'invention
La présente invention se rapporte de manière générale au domaine des technologies de modélisation de données, et en particulier à la modélisation de sujets ou thèmes (« topic modeling » en anglais). Elle concerne plus particulièrement un procédé et un dispositif de détection d’au moins un thème partagé par une pluralité de documents textuels, dans le cadre par exemple d’une classification de documents textuels ou encore d’une recherche des sujets ou thèmes les plus pertinents d’un corpus de documents textuels.
Art antérieur
Il existe actuellement de nombreuses techniques de «topic modeling» pour extraire d’un corpus de documents textuels une pluralité de thèmes ou sujets (topics en anglais). De telles techniques sont utilisées classiquement pour, par exemple :
- découvrir des thèmes dans des textes,
- détecter des tendances dans des publications, des articles, des livres et autres,
- recommander des documents textuels à un utilisateur.
Les méthodes de «topic modeling» les plus courantes sont notamment :
- l’Analyse Sémantique Latente (LSA pour «Latent Semantic Analysis» en anglais) ;
- l’Analyse Sémantique Latente Probabiliste (pLSA pour «Probabilistic Latent Semantic Analysis» en anglais) ;
- la méthode LDA («Latent Dirichlet Allocation» en anglais).
L’inconvénient des méthodes LSA et pLSA est qu’elles ne prennent pas en compte le fait qu’un même document peut appartenir à plusieurs thèmes différents. De plus, la complexité de la méthode pLSA augmente avec le nombre de documents à analyser.
L’avantage de la méthode LDA est qu’elle permet de générer un certain nombre de thèmes à partir d’un corpus de textes en prenant en compte le fait qu’un même document peut appartenir à plusieurs thèmes différents, et que sa complexité n’augmente pas avec le nombre de documents. Par contre, un inconvénient de cette méthode est que l’utilisateur doit saisir un nombre de thèmes qu’il souhaite à priori découvrir dans un corpus de textes, sans vraiment savoir si ce nombre est optimal ou pas. Il en résulte que la détection de thèmes n’est pas précise et manque de fiabilité.
Objet et résumé de l'invention
Un des buts de l'invention est de remédier à des inconvénients de l'état de la technique précité en proposant un procédé de détection de thème(s) dans un corpus de documents textuels, dans lequel un nombre optimal de thèmes est détecté automatiquement.
A cet effet, un objet de la présente invention concerne un procédé de détection d’au moins un thème partagé par une pluralité de documents textuels, un thème comprenant des mots associés au thème, mis en œuvre par un dispositif informatique, et comprenant ce qui suit :
- calculer une première valeur de cohérence correspondant à un premier nombre de thèmes déterminé dans ladite pluralité et au moins une deuxième valeur de cohérence correspondant à au moins un deuxième nombre de thèmes déterminé dans ladite pluralité,
- pour chacun des premier et deuxième nombres de thèmes, calculer une pluralité de valeurs de cohérence correspondant respectivement à une pluralité de valeurs différentes d’au moins un paramètre, ledit au moins un paramètre étant un paramètre de distribution des thèmes par document textuel de ladite pluralité de documents textuels ou un paramètre de distribution des mots par thème,
- sélectionner, parmi les premier et deuxième nombres de thèmes, celui qui correspond à la valeur de cohérence la plus élevée parmi la pluralité de valeurs de cohérence calculées pour le premier nombre de thèmes et pour le deuxième nombre de thèmes,
- restituer sur une interface utilisateur celui des premier et deuxième nombres de thèmes qui a été sélectionné.
Un tel procédé de détection permet à un dispositif informatique de modélisation de thèmes d’un corpus de documents textuels, de calculer non seulement un nombre de thèmes estimé comme réellement pertinent pour ce corpus, mais également d’affiner ce nombre, en faisant varier le nombre de thèmes et au moins un paramètre de l’algorithme de modélisation exécuté par le dispositif informatique, tel qu’un paramètre de distribution des thèmes par document textuel du corpus ou un paramètre de distribution des mots par thème. Ainsi, grâce à l’invention, il est possible de fournir à un utilisateur, de manière automatique et de façon complètement transparente pour ce dernier, un nombre de thèmes optimal correspondant à ce corpus. Un tel dispositif informatique de modélisation des thèmes met ainsi en œuvre une détection des thèmes beaucoup plus efficace et précise qu’un dispositif informatique de modélisation des thèmes de l’art antérieur. Un tel dispositif permet également, par rapport aux dispositifs plus complexes de l’art antérieur, de raccourcir le temps passé par l’utilisateur à chercher le nombre de thèmes abordés dans un corpus.
Selon un mode de réalisation particulier, le calcul des première et au moins deuxième valeurs de cohérence est précédé d’une étape de réception d’une requête en fourniture d’au moins un thème partagé par la pluralité de documents textuels.
Un tel procédé de détection permet de procurer une certaine interactivité entre l’utilisateur et le dispositif informatique de modélisation de thèmes.
Ainsi, l’utilisateur se contente d’envoyer au dispositif de modélisation de thèmes une requête en fourniture d’au moins un thème partagé par la pluralité de documents textuels qu’il souhaite découvrir dans un corpus de textes, le dispositif informatique de modélisation lui fournissant en retour, et de manière automatique, le nombre de thèmes optimal correspondant à ce corpus.
Selon un mode de réalisation particulier, le calcul de ladite pluralité de valeurs de cohérence correspond respectivement à une pluralité de valeurs différentes dudit paramètre de distribution des thèmes par document textuel de ladite pluralité de documents textuels et à une pluralité de valeurs différentes dudit paramètre de distribution des mots par thème.
Selon ce mode de réalisation, une telle combinaison de variations permet d’optimiser encore davantage la détection du nombre de thèmes dans un corpus de documents textuels.
Selon un autre mode de réalisation particulier, le paramètre de distribution des thèmes par document textuel est le paramètre α de l’algorithme de modélisation Latent Dirichlet Allocation, tandis que le paramètre de distribution des mots par thème est le paramètre η dudit algorithme de modélisation Latent Dirichlet Allocation.
Dans ce mode de réalisation, le choix spécifique des paramètres α et/ou η de l’algorithme de modélisation Latent Dirichlet Allocation augmente les performances de détection du nombre optimal de thèmes dans un corpus de documents textuels.
Selon encore un autre mode de réalisation particulier, les premier et au moins deuxième nombres de thèmes sont sélectionnables dans un intervalle de valeurs qui est fonction du nombre de documents textuels contenus dans ladite pluralité.
Dans ce mode de réalisation, un intervalle de valeurs du nombre de thèmes à détecter est calculé automatiquement à partir du nombre de documents textuels du corpus considéré, ce qui permet d’accélérer le procédé de détection du nombre de thèmes et d’en augmenter les performances par une sélection des valeurs du nombre de thèmes qui sont les plus adéquates.
Selon encore un autre mode de réalisation particulier, préalablement au calcul des première et deuxième valeurs de cohérence, des mots estimés comme inutiles à la détection sont supprimés des documents textuels.
Un tel mode de réalisation permet d’appliquer un filtrage sur les documents textuels d’un corpus donné préalablement à la sélection du nombre de thèmes, de manière à rendre plus fiable le procédé de détection en réduisant la marge d’erreur sur les thèmes détectés.
Selon encore un autre mode de réalisation particulier, le procédé de détection comprend en outre ce qui suit :
- recevoir une requête en fourniture de listes de mots correspondant à celui des premier et au moins deuxième nombres de thèmes qui a été sélectionné,
- restituer sur ladite interface utilisateur, pour au moins un thème du nombre de thèmes sélectionné parmi les premier et au moins deuxième nombres de thèmes, une liste de mots correspondante.
Un tel mode de réalisation permet de rendre le procédé de détection plus complet pour l’utilisateur auquel est restitué non seulement le nombre de thèmes optimal d’un corpus de documents textuels considéré, mais aussi une liste de mots associée à au moins un thème du nombre de thèmes optimal.
Les différents modes ou caractéristiques de réalisation précités peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, au procédé de détection d’au moins un thème défini ci-dessus.
L’invention concerne également un dispositif informatique pour mettre en œuvre une détection d’au moins un thème partagé par une pluralité de documents textuels, un thème comprenant des mots associés au thème, ledit dispositif comprenant un processeur qui est configuré pour mettre en œuvre ce qui suit :
- calculer une première valeur de cohérence correspondant à un premier nombre de thèmes déterminé dans ladite pluralité et au moins une deuxième valeur de cohérence correspondant à au moins un deuxième nombre de thèmes déterminé dans ladite pluralité,
- pour chacun des premier et deuxième nombres de thèmes, calculer une pluralité de valeurs de cohérence correspondant respectivement à une pluralité de valeurs différentes d’au moins un paramètre, ledit au moins un paramètre étant un paramètre de distribution des thèmes par document textuel de ladite pluralité de documents textuels ou un paramètre de distribution des mots par thème,
- sélectionner, parmi les premier et deuxième nombres de thèmes, celui qui correspond à la valeur de cohérence la plus élevée parmi la pluralité de valeurs de cohérence calculées pour le premier nombre de thèmes et pour le deuxième nombre de thèmes,
- restituer sur une interface utilisateur celui des premier et deuxième nombres de thèmes qui a été sélectionné.
Un tel dispositif informatique est notamment apte à mettre en œuvre le procédé de détection d’au moins un thème précité, selon l’un quelconque des modes de réalisation précités.
L'invention concerne encore un programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé de détection d’au moins un thème selon l'invention, selon l’un quelconque des modes particuliers de réalisation décrits précédemment, lorsque ledit programme est exécuté par un processeur.
De telles instructions peuvent être stockées durablement dans un support mémoire non transitoire du dispositif informatique de détection mettant en œuvre le procédé de détection d’au moins un thème précité.
Ce programme peut utiliser n’importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.
L’invention vise également un support d’enregistrement ou support d’informations lisible par un ordinateur, et comportant des instructions d’un programme d’ordinateur tel que mentionné ci-dessus.
Le support d'enregistrement peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une clé USB ou un disque dur.
D'autre part, le support d'enregistrement peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.
Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé de détection d’au moins un thème précité.
D'autres caractéristiques et avantages apparaîtront à la lecture de modes de réalisation particuliers de l'invention, donnés à titre d’exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels :
Description
détaillé
e
d’un mode de réalisation
de l’invention
Environnement architectural
La représente un environnement dans lequel est mis en œuvre le procédé de détection d’au moins un thème selon l’invention.
Un tel environnement comprend :
- un dispositif informatique de détection de thème(s) DT configuré pour détecter au moins un thème/sujet dans une pluralité ou un corpus de documents textuels T1, T2,…, Ti, …TN,
- une interface utilisateur IU dotée d’un écran EC qui est configurée pour qu’un utilisateur UT puisse visualiser les résultats de la détection de thème(s) mise en œuvre par le dispositif de détection DT. L’interface utilisateur IU peut être éventuellement dotée d’un clavier CL ou d’un microphone MIC adaptés pour que l’utilisateur UT puisse envoyer au dispositif de détection de thème(s) DT une requête en fourniture d’au moins un thème qui soit de type textuelle ou vocale.
Le dispositif de détection DT est par exemple un ordinateur portable ou un ordinateur personnel de type PC. Le dispositif de détection DT peut intégrer l’interface utilisateur IU. En variante, l’interface utilisateur IU peut être une interface d’un terminal de l’utilisateur UT, tel que par exemple un smartphone (« téléphone intelligent ») ou une tablette qui est configurée pour interagir avec le dispositif de détection DT au moyen d’une liaison de communication bien connue, telle que par exemple un réseau de type IP (abréviation anglaise de « Internet Protocol »), un réseau de type x-DSL (abréviation anglaise de « Digital Subscriber Line »), fibre ou encore 3G, 4G, 5G, etc.
Un document textuel Ticonsidéré dans ladite pluralité de N documents textuels est par exemple :
- un document textuel structuré tel qu’une publication, un article, un livre numérique ou un livre numérisé, etc.,
- un document textuel non structuré tel qu’un courriel, un article de blog, des commentaires échangés sur un forum, une image contenant du texte, etc.
Description d’un mode de ré
alisation
du dispositif de détection de thème
(
s
)
DT
La présente la structure simplifiée du dispositif de détection de thème DT de la .
Un tel dispositif permet, suite à une requête de l’utilisateur UT demandant quels sont le/les thèmes partagés par la pluralité de N documents textuels du corpus CO :
- de générer, via un module logiciel de traitement de données TR, une cartographie CART du corpus CO, dans laquelle :
- le document textuel T1est transformé en une liste de mots LM1,
- le document textuel T2est transformé en une liste de mots LM2,
-…,
- le document textuel TNest transformé en une liste de mots LMN.
- de calculer, via le module logiciel de calcul CAL, le nombre optimal de thèmes du corpus CO,
- de restituer sous forme graphique, via un module logiciel de restitution RES, les résultats du calcul du nombre optimal de thèmes.
Le dispositif de détection de thèmes DT comprend également une interface de communication IC qui est adaptée pour communiquer avec l’interface utilisateur IU de la si celle-ci n’est pas intégrée au dispositif DT ou encore avec un dispositif DS de stockage du corpus, tel qu’une base de données documentaire, un serveur de messagerie électronique, etc…. dans le cas où le corpus n’est pas stocké dans le dispositif de détection DT.
Selon un mode particulier de réalisation de l'invention, les actions exécutées par le dispositif de détection de thème(s) DT sont mises en œuvre par des instructions d’un programme d'ordinateur PG. Pour cela, le dispositif DT a l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM, une unité de traitement UTR, équipée par exemple d'un processeur PROC, et pilotée par le programme d'ordinateur PG stocké en mémoire MEM. Le programme d'ordinateur PG comprend des instructions pour effectuer les actions de traitement des documents textuels et de calcul du nombre optimal de thèmes, dans le cadre du procédé de détection d’au moins un thème qui va être décrit ci-dessous, lorsque le programme est exécuté par le processeur PROC, selon l'un quelconque des modes particuliers de réalisation de l'invention.
A l'initialisation, les instructions de code du programme d'ordinateur PG sont par exemple chargées dans une mémoire RAM (non représentée) avant d'être exécutées par le processeur PROC. Le processeur PROC de l'unité de traitement UTR met notamment en œuvre les actions précitées, selon les instructions du programme d'ordinateur PG.
Description d’un premier
mode de réalisation
d’un procédé de détection d’au moins un thème dans une pluralité de documents textuels
En référence à la , on décrit maintenant le déroulement d’un procédé de détection d’au moins un thème selon un premier mode de réalisation de l’invention, mis en œuvre dans le système de détection de la .
Une telle détection est par exemple mise en œuvre dans un corpus CO contenant une pluralité de documents textuels T1à TN. Selon un exemple préféré, les documents textuels T1à TNsont les emails stockés dans la boîte de messagerie professionnelle ou personnelle de l’utilisateur UT. Bien entendu, il pourrait s’agir de documents textuels d’un autre type, tels qu’un ensemble de courriers, de livres numérisés ou numériques, de revues, etc…
La détection d’au moins un thème selon ce premier mode de réalisation est avantageusement mise en œuvre de façon automatique et complètement transparente pour l’utilisateur UT. Cette détection est par exemple programmée de manière périodique ou non, à certains instants dans le temps, par exemple tous les soirs à 20h, ou encore une fois par mois, une fois tous les six mois, etc.
Le procédé de détection selon ce premier mode de réalisation comprend ce qui suit.
En S1, le dispositif DT active le module de traitement TR de la qui est configuré pour mettre en œuvre un traitement des données de chacun des documents textuels T1 à TN du corpus CO.
Un mode de réalisation d’un tel traitement S1 est illustré en . Il comprend ce qui suit :
En S11, des informations utiles sont extraites des documents textuels T1à TN. Dans le cas de courriels, de telles informations utiles sont, pour chacun des N courriels, les données textuelles suivantes : l’émetteur du courriel, le ou les destinataires du courriel, l’objet du courriel, le contenu (body en anglais) du courriel, les pièces jointes à ce courriel, la date d’envoi du courriel, etc… L’opération S11 peut être optionnelle pour d’autres types de documents textuels considérés dans le corpus.
En S12, pour un document textuel considéré, un filtrage est appliqué aux données textuelles extraites en S11. Dans le cas spécifique d’un courriel, il s’agit par exemple de supprimer les blocs signatures, supprimer les liens/ URL, supprimer les historiques des emails, supprimer certaines expressions récurrentes telle que par exemple « Envoyé depuis myPhone », « ne pas imprimer ce courriel », etc.). L’opération S12 peut être optionnelle ou différente pour d’autres types de documents textuels considérés dans le corpus.
En S13, certains mots estimés inutiles parmi les données textuelles extraites, puis filtrées, sont supprimés. Quel que soit le type de document textuel considéré, les mots tels que par exemple « le », « la », « de », « des », « un », « une », etc., ainsi qu’éventuellement certains verbes d’action, tels que par exemple « faire », « trouver », « voir », etc., sont supprimés. D’autres traitements, tels qu’une lemmatisation, une détection de bigrammes, etc. sont mis en œuvre au cours de l’étape S13.
En S14, une cartographie CART du corpus CO est générée. A cet effet, pour chaque document textuel, est générée une liste de mots, parmi les mots restants obtenus en S13. Plus précisément, à l’issue de l’étape S14 :
- le document textuel T1est transformé en une liste de mots LM1,
- le document textuel T2est transformé en une liste de mots LM2,
-…,
- le document textuel Tiest transformé en une liste de mots LMi,
-…,
- le document textuel TNest transformé en une liste de mots LMN.
En outre, pour une liste de mots considérée, par exemple LMi, en supposant que cette liste LMicontient K mots M1 i, M2 i,…, MK i:
- le mot M1 iest affecté d’un identifiant unique id1 iet d’un indicateur de fréquence f_id1 ireprésentant le nombre de fois où le mot M1 iapparaît dans le document textuel Ti,
- le mot M2 iest affecté d’un identifiant unique id2 iet d’un indicateur de fréquence f_id2 ireprésentant le nombre de fois où le mot M2 iapparaît dans le document textuel Ti,
-…,
- le mot MK iest affecté d’un identifiant unique idK iet d’un indicateur de fréquence f_idK ireprésentant le nombre de fois où le mot MK iapparaît dans le document textuel Ti.
En référence à nouveau à la , le module de calcul CAL de la est activé en S2 pour calculer, à partir de la cartographie CART générée en S1, le nombre optimal de thèmes NTopt qui sont partagés par le corpus CO. Un tel module de calcul CAL est basé sur un algorithme de modélisation de sujets, tel que par exemple Latent Dirichlet Allocation ou similaire.
Un premier mode de réalisation d’un tel calcul S2 est illustré en . Il comprend ce qui suit :
En S21, le module de calcul CAL détermine un premier nombre de thèmes NT1dans le corpus CO, ainsi qu’au moins un deuxième nombre de thèmes NT2dans ce corpus.
Dans un mode de réalisation particulier, les nombres NT1et NT2de thèmes sont par exemple compris dans un intervalle de valeurs qui est calculé en fonction du nombre de documents textuels. A titre d’alternative, cet intervalle de valeurs est paramétrable.
En S22, le module de calcul CAL calcule une première valeur de cohérence VC1pour le premier nombre de thèmes NT1et au moins une deuxième valeur de cohérence VC2pour au moins le deuxième nombre de thèmes NT2. Dans le domaine de la modélisation de sujets, la mesure de la cohérence d’un sujet est bien connue. Ainsi une valeur de cohérence attribuée à un thème correspond à un score compris entre 0 et 1, résultant d’une mesure du degré de similarité sémantique des mots évalués comme les plus pertinents ou probables dans le thème.
Dans un mode de réalisation préféré, les valeurs de cohérence VC1et VC2sont basées sur la métrique C_v bien connue, laquelle est basée sur une segmentation en un seul ensemble des mots principaux d’un thème. Une telle mesure utilise la similarité cosinus et l’information mutuelle normalisée. On dit que l’information mutuelle d’un couple (X,Y) de variables représente leur degré de dépendance au sens probabiliste, ce qui permet de mesurer la dépendance statistique de deux variables, et donc de deux mots dans un thème. Bien entendu, d’autres métriques de cohérence peuvent être choisies, telles que les métriques :
- C_p qui est basée sur une segmentation des mots les plus importants d’un thème et sur la mesure de la cohérence de Fitelson,
- C_uci qui est basée sur les informations mutuelles pointues de toutes les paires de mots parmi les plus importants d’un thème,
- C_umass qui est basée sur le comptage de la cooccurrence des documents, sur une précédente segmentation et sur une probabilité conditionnelle logarithmique comme mesure de confirmation,
- C_npmi qui est une version améliorée de la cohérence de C_uci et qui utilise l'information mutuelle ponctuelle normalisée,
- C_a qui est basée sur le contexte, une comparaison par paire des mots les plus importants d’un thème, et sur une mesure de confirmation indirecte qui utilise des informations mutuelles ponctuelles normalisées et la similarité cosinus.
En S23, une variation d’au moins un paramètre P1de l’algorithme de modélisation de thème est mise en œuvre sur l’intervalle [0, 1] de manière à obtenir W (W≥1) valeurs différentes VP1à VPWde ce paramètre P1.
Un tel paramètre P1est un paramètre de distribution des thèmes par document textuel du premier nombre de thèmes NT1et du deuxième nombre de thèmes NT2.
Selon un exemple préféré, il s’agit du paramètre α de l’algorithme LDA.
A titre d’alternative, le paramètre P1est un paramètre de distribution des mots par thème du premier nombre de thèmes NT1et du deuxième nombre de thèmes NT2.
Selon un exemple préféré, il s’agit du paramètre η de l’algorithme LDA.
En S24, pour chacune des W valeurs du paramètre P1, sont calculées W valeurs de cohérence VC1 1à VCW 1pour le premier nombre de thèmes NT1et W valeurs de cohérence VC1 2à VCW 2pour le deuxième nombre de thèmes NT2.
En S25, il est procédé à une maximisation des valeurs de cohérence parmi les valeurs de cohérence VC1 1à VCW 1et VC1 2à VCW 2, à l’issue de laquelle est déterminée la valeur de cohérence la plus élevée, VCmax.
En S26, celui des nombres de thèmes NT1et NT2qui est associé à la valeur de cohérence la plus élevée VCmaxest sélectionné en tant que nombre de thèmes optimal NTopt. Le nombre de thèmes optimal NToptpeut contenir un ou plusieurs thèmes.
Le mode de réalisation de la permet avantageusement, grâce à une corrélation d’un nombre variable de thèmes et de valeurs différentes d’au moins un paramètre de modélisation de thème, d’obtenir automatiquement le nombre optimal de thèmes du corpus CO.
Dans une variante de calcul de ce mode de réalisation telle que représentée à la , et portant la référence S’2, l’étape S23 et modifiée en une étape S’23 qui prend en compte au moins deux paramètres P1 et P2 de l’algorithme de modélisation de thème.
Sur la , les étapes S’21 à S’22 sont exactement les mêmes que les étapes S21 et S22 de la et, pour cette raison, ne seront pas à nouveau décrites.
Dans l’étape S’23, une variation du paramètre P1de l’algorithme de modélisation de thème est mise en œuvre sur l’intervalle [0, 1] de manière à obtenir W (W≥1) valeurs différentes VP1 1à VPW 1de ce paramètre P1.
Un tel paramètre P1est un paramètre de distribution des thèmes par document textuel du premier nombre de thèmes NT1et du deuxième nombre de thèmes NT2.
Selon un exemple préféré, il s’agit du paramètre α de l’algorithme LDA.
Au cours de l’étape S’23, une variation du paramètre P2de l’algorithme de modélisation de thème est mise en œuvre sur l’intervalle [0, 1] de manière à obtenir Z (Z≥1) valeurs différentes VP1 2à VPZ 2de ce paramètre P2, avec Z=W ou Z≠W.
Un tel paramètre P2est un paramètre de distribution des mots par thème du premier nombre de thèmes NT1et du deuxième nombre de thèmes NT2.
Selon un exemple préféré, il s’agit du paramètre η de l’algorithme LDA.
Bien entendu, à titre de variante, P1pourrait être un paramètre de distribution des mots par thème du premier nombre de thèmes NT1et du deuxième nombre de thèmes NT2et P2pourrait être un paramètre de distribution des thèmes par document textuel du premier nombre de thèmes NT1et du deuxième nombre de thèmes NT2.
En S’24 :
- pour le premier nombre de thèmes NT1, pour chacune des W valeurs du paramètre P1et pour chacune des Z valeurs du paramètre P2, sont calculées Q valeurs de cohérence VC1 1à VCQ 1,
- pour le deuxième nombre de thèmes NT2, pour chacune des W valeurs du paramètre P1et pour chacune des Z valeurs du paramètre P2, sont calculées Q valeurs de cohérence VC1 2à VCQ 2.
En S’25, il est procédé à une maximisation des valeurs de cohérence parmi les valeurs de cohérence VC1 1à VCQ 1et VC1 2à VCQ 2, à l’issue de laquelle est déterminée la valeur de cohérence la plus élevée, VC’max.
En S’26, celui des nombres de thèmes NT1et NT2qui est associé à la valeur de cohérence la plus élevée VC’maxest sélectionné en tant que nombre de thèmes optimal NT’opt. Le nombre de thèmes optimal NT’optpeut être supérieur ou égal à 1.
Ainsi, le mode de réalisation de la , en utilisant deux paramètres de modélisation de thème au lieu d’un seul comme dans la , permet d’affiner encore davantage la détection du nombre optimal de thèmes, en particulier lorsque les valeurs de cohérence VC1 et VC2 sont proches l’une de l’autre.
En référence à nouveau à la , le nombre optimal de thèmes obtenu à l’issue du calcul S2 ou S’2 est restitué en S3 sur l’interface utilisateur IU, sous la forme par exemple de vignettes « Thème 1 », « Thème 2 », etc., avec par exemple un intitulé général pour chaque thème qui est par exemple le mot le plus représentatif du thème. Ainsi, dans le cas d’une détection de thèmes dans les courriels d’une messagerie électronique de l’utilisateur UT, pour laquelle le nombre optimal de thèmes est par exemple égal à 3, « Thème 1 » a par exemple pour intitulé le nom « Cryptographie », « Thème 2 » a par exemple pour intitulé le nom propre « Dupont » et « Thème 3 » a par exemple pour intitulé le nom « Marketing ».
En S4, l’utilisateur UT peut envoyer au dispositif de détection de thème(s) DT, au moyen de l’interface IU, une requête RQ en fourniture d’une liste de mots pour chaque thème détecté.
En S5, le dispositif DT reçoit la requête RQ.
En S6, pour chaque thème du nombre optimal de thèmes, une liste de mots est extraite. Dans l’exemple représenté, sont extraites trois listes de mots : la liste de mots « list1 » pour le thème 1, la liste de mots « list2 » pour le thème 2, la liste de mots « list3 » pour le thème 3.
En S7, les listes de mots « list1 », « list2 » et « list3 » sont alors restituées graphiquement sur l’interface utilisateur IU, en correspondance respectivement des vignettes « Thème 1 », « Thème 2 » et « Thème 3 ».
Les étapes S4 à S7 étant optionnelles, ces étapes sont représentées en pointillé sur la .
A titre d’alternative, l’étape S6 pourrait être réalisée avant l’étape S3, les listes de mots « list1 », « list2 » et « list3 » étant alors restituées en S3.
Description d’un deuxième
mode de réalisation
d’un procédé de détection d’au moins un thème dans une pluralité de documents textuels
En référence à la , on décrit maintenant le déroulement d’un procédé de détection d’au moins un thème selon un deuxième mode de réalisation de l’invention, mis en œuvre dans le système de détection de la .
Ce deuxième mode de réalisation se distingue du premier mode de réalisation en ce qu’il comprend, préalablement aux étapes S1 à S7, les étapes suivantes :
En E1, l’utilisateur UT sélectionne, à l’aide de l’interface utilisateur IU, un corpus CO contenant une pluralité de documents textuels T1à TNdont il souhaite découvrir un ou plusieurs thèmes partagés par ces documents. Selon un mode préféré de réalisation, les documents textuels T1à TNsont les emails stockés dans la boîte de messagerie professionnelle ou personnelle de l’utilisateur UT. Bien entendu, il pourrait s’agir de documents textuels d’un autre type, tels qu’un ensemble de courriers, de livres numérisés ou numériques, de revues, etc…
En E2, l’utilisateur UT envoie au dispositif de détection de thème(s) DT, au moyen de l’interface IU, une requête RQ0 en fourniture d’au moins un thème. En d’autres termes, il est demandé au dispositif DT de fournir le ou les thèmes abordés dans le corpus CO. Dans le cas où le corpus CO est déjà stocké dans le dispositif de détection DT, l’envoi de la requête RQ0 consiste en une importation par l’utilisateur UT du corpus CO dans un outil logiciel du dispositif DT, dédié à la détection de thèmes, tel qu’un programme applicatif par exemple. Dans le cas où le corpus CO n’est pas déjà stocké dans le dispositif de détection DT, l’envoi de la requête RQ0 consiste en une transmission du corpus CO via une liaison de communication du type précité.
En E3, le dispositif DT reçoit la requête RQ0.
Le dispositif DT met ensuite en œuvre les étapes S4 à S7 de la même manière que dans le premier mode de réalisation précité.
On fait référence maintenant à la , qui représente sous forme d’un diagramme un exemple d’un mode de réalisation des étapes S21 et S22 ( ) ou des étapes S’21 et S’22 ( ). Dans cet exemple, il est considéré que le nombre N de documents textuels du corpus CO est égal à 100. Le dispositif de détection de thème(s) DT fait alors varier le nombre de thèmes N dans un intervalle de valeurs de nombres de thèmes compris par exemple entre 2 et 11, cet intervalle ayant par exemple été calculé en fonction de N=100. Dans l’exemple illustré, 10 nombres NT1 à NT10 différents de thèmes sont déterminés par le module de calcul CAL, tel que NT1=2, NT2=3, …, NT10=11. Pour NT1=2, une valeur de cohérence VC1 est calculée pour le modèle créé sur la base du nombre de thèmes NT1. Dans l’exemple représenté, VC1=0,38. Puis pour NT2=3, une valeur de cohérence VC2 est calculée pour le modèle créé sur la base du nombre de thèmes NT2. Dans l’exemple représenté, VC2=0,385. Et ainsi de suite jusqu’à NT10.
Sur le diagramme, le nombre de thèmes correspondant à la valeur de cohérence la plus élevée est NT7=8. Un cercle entoure cette valeur sur le diagramme de la .
A ce stade, au vu du diagramme, les nombres de thèmes NT6=7, NT8=9, NT9=10 ayant des valeurs de cohérence proches de celle correspondant à NT7, l’étape S’23 de la est mise en œuvre, au cours de laquelle le module CAL du dispositif de détection de thème(s) DT fait varier les paramètres α et η pour chacun des nombres de thèmes NT6 à NT9. Selon un exemple, le module de calcul CAL fait varier chacun des paramètres α et η par pas de 0,1 dans l’intervalle [0,01 ; 1] pour chacun des nombres de thèmes NT6 à NT9.
Bien entendu, à titre d’alternative, le module CAL du dispositif de détection de thème(s) DT pourrait faire varier les paramètres α et η pour chacun des nombres de thèmes NT1à NT10, mais pour des raisons d’optimisation de calcul, l’intervalle de valeurs du nombre de thèmes peut être réduit en partant des hypothèses suivantes :
- le nombre de thèmes ne peut être supérieur à 10 au vue de la baisse significative de la valeur de cohérence à partir de NT9=10,
- le nombre de thèmes ne peut être inférieur à 6 au vue de la pente de la courbe dans l’intervalle [6,8].
En référence à la , suite à la mise en œuvre de l’étape S’23, pour chacun des nombres de thèmes NT6 à NT9, et pour chaque variation des paramètres α et η, une valeur de cohérence est calculée en S’24.
La partie ci-dessous d’un tableau plus complet (non représenté) qui associe, pour chacun des nombres de thèmes NT1à NT10, une valeur de cohérence obtenue pour une pluralité de valeurs possibles du paramètre α et du paramètre η, montre que la valeur de cohérence optimale est obtenue pour NT6=7, α=0.91 et η=0.91.
| Nombre de thèmes | Paramètre α | Paramètre η | Valeur de cohérence |
| NT6=7 | 0.91 | 0.91 | 0.6953549 |
| NT7=8 | 0.91 | 0.61 | 0.69126987 |
| NT9=10 | 0.91 | 0.61 | 0.68895563 |
| NT8=9 | 0.91 | 0.61 | 0.68340217 |
En S’25, la maximisation des valeurs de cohérence du tableau ci-dessus est mise en œuvre, à l’issue de laquelle la valeur de cohérence la plus élevée obtenue est 0.6953549.
En S’26, le nombre de thèmes NT6=7 qui correspond à cette valeur de cohérence maximale est alors sélectionné en tant que nombre optimal de thèmes.
En référence à la , selon un autre exemple de courbe représentative de l’évolution des nombres de thèmes en fonction de leurs valeurs de cohérence correspondantes, dans lequel il existe plusieurs maximums locaux, l’intervalle de valeurs peut être déterminé en suivant les étapes suivantes :
- détecter les maximums locaux de la courbe, dans l’exemple illustré, les quatre valeurs de cohérence VC4, VC6, VC8et VC9correspondant respectivement aux nombres de thèmes NT4=5, NT6=7, NT8=9 et NT9=10,
- parmi ces maximums, sélectionner le maximum local qui semble le plus opportun en prenant l’hypothèse que la pente de la courbe qui le précède est plus élevée que pour les autres maximums locaux, dans l’exemple représenté, la valeur de cohérence VC4correspondant au nombre de thème NT4=5,
- déterminer l’intervalle en prenant les valeurs de cohérence qui précèdent ce maximum local sélectionné sur la pente ascendante, la valeur VC3dans l’exemple représenté.
Dans l’exemple de la , l’intervalle de valeurs du nombre de thèmes est donc réduit à [4,10].
Claims (9)
- Procédé de détection d’au moins un thème partagé par une pluralité de documents textuels, un thème comprenant des mots associés au thème, comprenant ce qui suit au niveau d’une interface utilisateur :
- sélectionner (E1) une pluralité de documents textuels,
- envoyer (E2) une requête en fourniture d’au moins un thème partagé par ladite pluralité à un dispositif informatique de modélisation de thèmes de ladite pluralité,
et ce qui suit au niveau dudit dispositif informatique :
- recevoir (E3) ladite requête, et en réponse à ladite requête :
- calculer (S22) une première valeur de cohérence (VC1) correspondant à un premier nombre de thèmes déterminé dans ladite pluralité et au moins une deuxième valeur de cohérence (VC2) correspondant à au moins un deuxième nombre de thèmes déterminé dans ladite pluralité,
- pour chacun des premier et deuxième nombres de thèmes, calculer (S23) une pluralité de valeurs de cohérence correspondant respectivement à une pluralité de valeurs différentes d’au moins un paramètre (P1), ledit au moins un paramètre étant un paramètre de distribution des thèmes par document textuel de ladite pluralité de documents textuels ou un paramètre de distribution des mots par thème,
- sélectionner (S24-S25), parmi les premier et deuxième nombres de thèmes, celui qui correspond à la valeur de cohérence la plus élevée parmi la pluralité de valeurs de cohérence calculées pour le premier nombre de thèmes et pour le deuxième nombre de thèmes,
- restituer (S3) sur l’interface utilisateur celui des premier et deuxième nombres de thèmes qui a été sélectionné. - Procédé de détection d’au moins un thème selon la revendication 1, dans lequel le calcul de ladite pluralité de valeurs de cohérence correspond respectivement à une pluralité de valeurs différentes dudit paramètre de distribution des thèmes par document textuel de ladite pluralité de documents textuels et à une pluralité de valeurs différentes dudit paramètre de distribution des mots par thème.
- Procédé de détection d’au moins un thème selon la revendication 1 ou la revendication 2, dans lequel le paramètre de distribution des thèmes par document textuel est le paramètre α de l’algorithme de modélisation Latent Dirichlet Allocation, tandis que le paramètre de distribution des mots par thème est le paramètre η dudit algorithme de modélisation Latent Dirichlet Allocation.
- Procédé de détection d’au moins un thème selon l’une quelconque des revendications 1 à 3, dans lequel les premier et au moins deuxième nombres de thèmes sont sélectionnables dans un intervalle de valeurs qui est fonction du nombre de documents textuels contenus dans ladite pluralité.
- Procédé de détection d’au moins un thème selon l’une quelconque des revendications 1 à 4, dans lequel préalablement au calcul des première et deuxième valeurs de cohérence, des mots estimés comme inutiles à la détection sont supprimés des documents textuels.
- Procédé de détection d’au moins un thème selon l’une quelconque des revendications 1 à 5, comprenant en outre ce qui suit :
- recevoir (S5) une requête en fourniture de listes de mots correspondant à celui des premier et au moins deuxième nombres de thèmes qui a été sélectionné,
- restituer (S7) sur ladite interface utilisateur, pour au moins un thème du nombre de thèmes sélectionné parmi les premier et au moins deuxième nombres de thèmes, une liste de mots correspondante. - Dispositif informatique (DT) de modélisation de thèmes d’une pluralité de documents textuels, mettant en œuvre une détection d’au moins un thème partagé par une pluralité de documents textuels, un thème comprenant des mots associés au thème, ledit dispositif comprenant un processeur (UTR) qui est configuré pour mettre en œuvre ce qui suit :
- recevoir une requête en fourniture d’au moins un thème partagé par ladite pluralité, - en réponse à la requête :
- calculer une première valeur de cohérence (VC1) correspondant à un premier nombre de thèmes déterminé dans ladite pluralité et au moins une deuxième valeur de cohérence (VC2) correspondant à au moins un deuxième nombre de thèmes déterminé dans ladite pluralité,
- pour chacun des premier et deuxième nombres de thèmes, calculer une pluralité de valeurs de cohérence correspondant respectivement à une pluralité de valeurs différentes d’au moins un paramètre (P1), ledit au moins un paramètre étant un paramètre de distribution des thèmes par document textuel de ladite pluralité de documents textuels ou un paramètre de distribution des mots par thème,
- sélectionner, parmi les premier et deuxième nombres de thèmes, celui qui correspond à la valeur de cohérence la plus élevée parmi la pluralité de valeurs de cohérence calculées pour le premier nombre de thèmes et pour le deuxième nombre de thèmes,
- restituer sur une interface utilisateur celui des premier et deuxième nombres de thèmes qui a été sélectionné. - Programme d'ordinateur comportant des instructions de code de programme pour la mise en œuvre du procédé de détection d’au moins un thème selon l’une quelconque des revendications 1 à 6, lorsqu'il est exécuté sur un ordinateur.
- Support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur selon la revendication 8.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR2011690A FR3116355B1 (fr) | 2020-11-16 | 2020-11-16 | Détection d’au moins un thème partagé par une pluralité de documents textuels |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR2011690 | 2020-11-16 | ||
| FR2011690A FR3116355B1 (fr) | 2020-11-16 | 2020-11-16 | Détection d’au moins un thème partagé par une pluralité de documents textuels |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| FR3116355A1 true FR3116355A1 (fr) | 2022-05-20 |
| FR3116355B1 FR3116355B1 (fr) | 2023-05-05 |
Family
ID=75438841
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| FR2011690A Active FR3116355B1 (fr) | 2020-11-16 | 2020-11-16 | Détection d’au moins un thème partagé par une pluralité de documents textuels |
Country Status (1)
| Country | Link |
|---|---|
| FR (1) | FR3116355B1 (fr) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014008965A1 (fr) * | 2012-07-13 | 2014-01-16 | Sony Corporation | Lecteur de texte fournissant des informations |
| US10460035B1 (en) * | 2016-12-26 | 2019-10-29 | Cerner Innovation, Inc. | Determining adequacy of documentation using perplexity and probabilistic coherence |
-
2020
- 2020-11-16 FR FR2011690A patent/FR3116355B1/fr active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014008965A1 (fr) * | 2012-07-13 | 2014-01-16 | Sony Corporation | Lecteur de texte fournissant des informations |
| US10460035B1 (en) * | 2016-12-26 | 2019-10-29 | Cerner Innovation, Inc. | Determining adequacy of documentation using perplexity and probabilistic coherence |
Non-Patent Citations (1)
| Title |
|---|
| CHEHAL DIMPLE ET AL: "Implementation and comparison of topic modeling techniques based on user reviews in e-commerce recommendations", JOURNAL OF AMBIENT INTELLIGENCE AND HUMANIZED COMPUTING, SPRINGER BERLIN HEIDELBERG, BERLIN/HEIDELBERG, vol. 12, no. 5, 16 April 2020 (2020-04-16), pages 5055 - 5070, XP037462411, ISSN: 1868-5137, [retrieved on 20200416], DOI: 10.1007/S12652-020-01956-6 * |
Also Published As
| Publication number | Publication date |
|---|---|
| FR3116355B1 (fr) | 2023-05-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1470501A2 (fr) | Procedes et systemes de recherche et d'association de ressources d'information telles que des pages web | |
| EP2174472A2 (fr) | Procede et dispositif de creation d'applications informatiques | |
| EP1364316A2 (fr) | Dispositif d'extraction d'informations d'un texte a base de connaissances | |
| CN114631094A (zh) | 智能电子邮件标题行建议和重制 | |
| EP1836651A1 (fr) | Procédé de recherche, reconnaissance et localisation dans l'encre, dispositif, programme et langage correspondants | |
| WO2021028501A1 (fr) | Procédé et système d'enrichissement d'un contenu numérique représentatif d'une conversation | |
| WO2009121808A1 (fr) | Procede de gestion de messages electroniques a partir d'un client de messagerie et systeme pour mettre en oeuvre le procede | |
| EP4172973A1 (fr) | Procédé d'aide à l'apprentissage d'une pluralité d'informations par un utilisateur d'un terminal | |
| FR3116355A1 (fr) | Détection d’au moins un thème partagé par une pluralité de documents textuels | |
| FR2895813A1 (fr) | Procede et dispositif d'aide a la construction d'une arborescence de groupe de documents electroniques | |
| FR2952203A1 (fr) | Procede de generation d'un flux web et un systeme associe | |
| EP4300326A1 (fr) | Procédé d'appariement d'un ensemble à évaluer et d'une liste de référence, moteur d'appariement et programme d'ordinateur correspondants | |
| EP4128807A1 (fr) | Procede et dispositif de personnalisation de contenu multimedia generique | |
| EP2812814A1 (fr) | Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe | |
| FR3089324A1 (fr) | Procédé de détermination d’un agent conversationnel sur un terminal | |
| WO2024146958A1 (fr) | Procede pour ameliorer l'exploitation de donnees partagee par une pluralite d'utilisateurs | |
| WO2022129760A2 (fr) | Procede de collecte de donnees, procede d'exploitation de donnees collectees, dispositif electronique et produits programme d'ordinateur et support correspondants | |
| FR3060800A1 (fr) | Procede et dispositif d'indexation automatique d'un document textuel | |
| FR3159454A1 (fr) | Procede pour generer automatiquement une reponse a une demande contenue dans un message electronique | |
| FR3111718A1 (fr) | Procédé d’aide à la saisie de destinataires dans un courrier électronique, produit programme d'ordinateur, médium de stockage et dispositif correspondant | |
| FR3151108A1 (fr) | SERVICE integrant un agent conversationnel et une base de connaissances | |
| WO2018015515A1 (fr) | Procedes de partage d'opinion, equipements et programmes d'ordinateur pour la mise en oeuvre des procedes | |
| EP4679291A1 (fr) | Procede de communication avec un dispositif informatique comprenant une base de connaissances | |
| FR3138225A1 (fr) | Procédé d’annotation, dispositif électronique et produit programme d’ordinateur correspondant | |
| EP4250718A1 (fr) | PROCEDE ET DISPOSITIF DE MODIFICATION D'UN CONTENU MULTIMEDIA EN FONCTION DE 
L'ATTENTION D'UN UTILISATEUR |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PLFP | Fee payment |
Year of fee payment: 2 |
|
| PLSC | Publication of the preliminary search report |
Effective date: 20220520 |
|
| PLFP | Fee payment |
Year of fee payment: 3 |
|
| PLFP | Fee payment |
Year of fee payment: 4 |
|
| PLFP | Fee payment |
Year of fee payment: 5 |
|
| PLFP | Fee payment |
Year of fee payment: 6 |