FR2955681A1

FR2955681A1 - Systeme pour navigation et exploration d'images de creation

Info

Publication number: FR2955681A1
Application number: FR1100221A
Authority: FR
Inventors: Luca Marchesotti; Tommaso Colombino; Gabriela Csurka; Sandra Skaff; Ana Fucs; Yanal Wazaeli; Marco Bressan
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2010-01-26
Filing date: 2011-01-25
Publication date: 2011-07-29
Also published as: US8775424B2; JP2011154687A; US20110184950A1; DE102011003201A1

Abstract

L'invention concerne un procédé d'assistance d'un utilisateur lors de la navigation dans un ensemble de données d'images. Le procédé inclut la réception d'une question textuelle de l'utilisateur, la récupération d'images qui répondent à la question textuelle, à partir d'un ensemble de données d'images (10), la prévision de la réception de la sélection d'une première caractéristique par l'utilisateur, sélectionnée à partir d'un ensemble de premières caractéristiques disponibles par l'intermédiaire d'une interface graphique utilisateur (28), la prévision de la réception de la sélection d'une seconde caractéristique par l'utilisateur, sélectionnée à partir d'un ensemble de secondes caractéristiques disponibles, différentes des premières caractéristiques, par l'intermédiaire de l'interface graphique utilisateur (28), et l'affichage d'au moins certaines des images récupérées sur l'interface graphique utilisateur. Les images affichées sont disposées, par exemple groupées, en fonction de niveaux et/ou de combinaisons de niveaux des première et seconde caractéristiques sélectionnées par l'utilisateur (30).

Description

PA73445FR SYSTÈME POUR NAVIGATION ET EXPLORATION D'IMAGES DE CRÉATION

Le mode de réalisation d'exemple se rapporte au domaine de la récupération et de la sélection d'images. Il trouve une application particulière dans le contexte 10 d'un système et d'un procédé de navigation permettant de rechercher dans une base de données d'images. Des images numériques sont acquises et stockées en grand nombre en vue d'une utilisation ultérieure par rapport à diverses applications, telles que la conception commerciale, le travail éditorial, la photographie numérique 15 professionnelle et la gestion de possessions. La récupération d'images par des techniques de recherche classiques prend souvent du temps. Par exemple, si un recueil a été balisé de manière appropriée, un utilisateur peut entrer une question textuelle, telle que « fleur », et récupérer un grand nombre d'images qui répondent à la question, par exemple celles qui ont été balisées 20 manuellement comme contenant des fleurs. D'autres procédés pour la récupération sont fondés sur des techniques d'extraction de caractéristiques. Par exemple, un système automatisé peut propager des marqueurs (des balises) d'images étiquetés manuellement sur des images non étiquetées sur la base de la ressemblance des caractéristiques extraites. Ou encore, l'utilisateur 25 peut entrer l'image d'une fleur et des images semblables sont récupérées automatiquement en comparant les caractéristiques de l'image entrée à celles des images mémorisées. La recherche d'images implique généralement un compromis entre une définition fine et la délimitation de l'espace de recherche grâce à l'utilisation de5 critères explicites, et la navigation d'un échantillon suffisamment important d'images disponibles pour garantir que l'on n'a pas laissé passer les plus appropriées ou les plus esthétiquement attrayantes. Ceci laisse l'utilisateur avec un sous-ensemble relativement important d'images. Ainsi, la navigation reste le procédé principal pour une section d'images. Les systèmes actuels, tels que les systèmes de recueil d'images Google ImagesTM et FLICKRTM effectuent des recherches d'images sur la base du contenu et fournissent des options très basiques en vue d'un affinage esthétique. Cependant, ils ne fournissent pas d'outils destinés à des recherches de combinaisons fonctionnelles. Au mieux, ils permettent aux utilisateurs de sélectionner et d'enchaîner une séquence de critères d'affinage. Par exemple, dans Google Images, un utilisateur peut effectuer une recherche par contenu comme par exemple grâce à la fonction « ciel » puis cliquer sur la case « bleu » pour obtenir les images d'un ciel bleu. Ce type de navigation provoque des allers et retours entre des affinages de caractéristiques sélectionnées et l'exploration peu pratique de différentes combinaisons de caractéristiques. Conformément à un aspect du mode de réalisation d'exemple, il est fourni un procédé permettant d'assister un utilisateur lors de sa navigation dans un ensemble de données d'images. Le procédé inclut la réception d'une question textuelle de l'utilisateur, la récupération d'images qui répondent à la question textuelle, à partir d'un ensemble de données d'images, la prévision de la réception de la sélection d'une première caractéristique par l'utilisateur, sélectionnée à partir d'un ensemble de caractéristiques disponibles, la prévision de réception de la sélection d'une seconde caractéristique par l'utilisateur, sélectionnée à partir de l'ensemble de caractéristiques disponibles. Le procédé inclut en outre l'affichage simultané d'au moins certaines des images récupérées sur l'interface graphique utilisateur selon une certaine disposition. La disposition des images reflète différents niveaux de la première caractéristique alors que seule une première caractéristique est sélectionnée.

La disposition reflète différentes combinaisons de niveaux des première et seconde caractéristiques sélectionnées par l'utilisateur lorsque des première et seconde caractéristiques sont sélectionnées. Dans un mode de réalisation, l'affichage inclut l'affichage simultané d'au moins certaines des images récupérées sur l'interface graphique utilisateur dans des groupes, grâce à quoi chaque groupe affiché d'images correspond à une combinaison différente de niveaux de première et seconde caractéristiques sélectionnées par l'utilisateur. Un mode de réalisation comprend en outre l'affichage, sur l'interface graphique utilisateur, d'un premier sélecteur en vue de sélectionner la première caractéristique à partir d'un premier ensemble de caractéristiques et d'un second sélecteur en vue de sélectionner la seconde caractéristique à partir d'un second ensemble de caractéristiques. Dans un mode de réalisation, les premières caractéristiques sont des 15 caractéristiques esthétiques et les secondes caractéristiques sont des caractéristiques émotionnelles. Un autre mode de réalisation du procédé comprend en outre la prévision pour un utilisateur de sélection d'une troisième caractéristique à partir d'un troisième ensemble de caractéristiques, grâce à quoi les images affichées sont groupées 20 en fonction des au moins deux, sélectionnées parmi les premières, secondes et troisièmes caractéristiques. Dans un autre mode de réalisation, les groupes affichés d'images sont ordonnés en fonction de valeurs des caractéristiques sélectionnées. Dans un mode de réalisation du procédé, l'affichage inclut la visualisation de 25 groupes d'images dans une matrice à deux dimensions, dans lequel la première caractéristique augmente de niveau selon une première dimension et la seconde caractéristique augmente de niveau selon une seconde dimension.

Dans un mode de réalisation du procédé, chaque groupe d'images sur l'afficheur diffère en une combinaison de valeurs quantifiées des première et seconde fonctions à partir de chacun des autres groupes. Dans un autre mode de réalisation, pour chaque caractéristique dans l'ensemble de caractéristiques, une pluralité de niveaux de quantification correspondant à différentes valeurs de la caractéristique est fournie, et chacune des images dans l'ensemble de données d'images est associée à un niveau respectif des niveaux de quantification pour chacune des caractéristiques. Dans un autre mode de réalisation pour chaque caractéristique dans l'ensemble de caractéristiques, il existe au moins trois niveaux de quantification. Dans un autre mode de réalisation, la prévision de réception des sélections par l'utilisateur des première et seconde caractéristiques inclut la prévision de réception des sélections par l'utilisateur via l'interface graphique utilisateur. Dans un autre mode de réalisation, le procédé comprend en outre la récupération d'au moins l'une des images voisines les plus proches et des images quasi copiées pour une image sélectionnée par l'utilisateur ou un groupe d'images sélectionné par l'utilisateur, ainsi que l'affichage d'au moins l'une des images voisines les plus proches et des images quasi copiées sur l'interface graphique utilisateur.

Dans un autre mode de réalisation, les images comprennent des photographies Dans un autre mode de réalisation, le procédé comprend en outre le classement automatique d'au moins une partie des images dans l'ensemble de données en fonction du contenu, et dans lequel la récupération d'images qui répondent à une question textuelle est fondée sur les classements de contenu des images.

Dans un autre mode de réalisation, le procédé comprend en outre l'affichage d'un document comportant un emplacement réservé destiné à accepter une image en même temps qu'un groupe d'images sélectionné par l'utilisateur, grâce à quoi l'utilisateur peut sélectionner une image à partir du groupe affiché pour qu'elle soit insérée dans l'emplacement réservé. Dans un autre mode de réalisation, les images affichées sont des images vignettes dérivées des images correspondantes dans l'ensemble de données stocké. Dans un autre mode de réalisation, l'affichage inclut l'affichage d'une matrice des images récupérées où la position des images dans la matrice correspond à la combinaison de niveaux de caractéristiques. Selon un autre aspect, l'invention a trait à un programme informatique comprenant 10 des instructions de codage sur un support existant qui, lorsqu'elles sont exécutées par un ordinateur, exécutent le procédé tel que décrit ci-dessus. Selon un autre aspect, l'invention a trait à un système de navigation comprenant une mémoire qui stocke des instructions en vue d'exécuter le procédé tel que décrit, et un processeur, en communication avec la mémoire, destiné à exécuter les 15 instructions. Selon un autre aspect, un appareil destiné à la navigation dans un ensemble de données d'images inclut un système de navigation comprenant des instructions stockées en mémoire pour : recevoir une question textuelle de l'utilisateur, récupérer des images qui répondent à la question textuelle, à partir d'un 20 ensemble de données d'images associé, recevoir la sélection d'une première fonction par l'utilisateur, sélectionnée à partir d'un ensemble de fonctions disponibles, séparer les images récupérées en groupes sur la base des niveaux des caractéristiques sélectionnées et afficher au moins certains des groupes d'images récupérées sur une interface graphique utilisateur associée. Un 25 processeur en communication avec la mémoire exécute les instructions. Dans un autre mode de réalisation, les instructions comprennent en outre des instructions destinées à afficher un premier sélecteur en vue de sélectionner la première caractéristique à partir d'un premier ensemble de caractéristiques, ainsi qu'un second sélecteur en vue de sélectionner la seconde caractéristique à partir d'un second ensemble de caractéristiques. Dans un autre mode de réalisation, les instructions d'affichage incluent des instructions destinées à afficher des groupes d'images dans une matrice à deux dimensions, dans laquelle la première caractéristique augmente de valeur dans une première dimension et la seconde caractéristique augmente de valeur dans une seconde dimension, chaque groupe dans l'affichage différant dans une combinaison des première et seconde valeurs de caractéristiques à partir de chacun des autres groupes.

Dans un autre mode de réalisation, pour chaque caractéristique dans les premier et second ensembles de caractéristiques, une pluralité de niveaux de quantification correspondant à différentes valeurs de la caractéristique est fournie et où chacune des images dans l'ensemble de données d'images est associée à un niveau respectif des niveaux de quantification pour chacune des caractéristiques.

Selon un autre aspect, un procédé consistant à ajouter des images à un document inclut la mémorisation d'un document comportant au moins un emplacement réservé destiné à accepter une image, la réception une question textuelle de l'utilisateur, la récupération des images qui répondent à la question textuelle à partir d'un ensemble de données d'images, chacune des images dans l'ensemble de données étant classée en fonction du contenu et étant associée à des valeurs de caractéristiques pour chacun d'un ensemble de caractéristiques. Le procédé inclut en outre la réception de la sélection de l'utilisateur des première et seconde caractéristiques à partir de l'ensemble de caractéristiques, l'affichage d'au moins certaines des images récupérées sur l'interface graphique utilisateur, grâce à quoi les images affichées sont groupées en fonction des première et seconde caractéristiques sélectionnées par l'utilisateur, ainsi que la prévision pour l'utilisateur de sélectionner une image à partir des groupes affichés d'images en vue d'une insertion dans l'un des emplacements réservés. La figure 1 est un schéma synoptique de la vue d'ensemble d'un système et d'un procédé d'exemple destinés à la navigation d'images, la figure 2 est un schéma synoptique fonctionnel d'un appareil de navigation d'images, la figure 3 est un organigramme illustrant un procédé permettant d'assister un utilisateur dans la navigation d'images la figure 4 est une capture d'écran d'une interface graphique utilisateur 10 d'exemple de l'appareil de la figure 2, affichant des images qui répondent à une question fondée sur le contenu, la figure 5 est une capture d'écran de l'interface graphique utilisateur de l'appareil de la figure 2, affichant des images dans une matrice à deux dimensions en suivant une sélection de deux caractéristiques F1, F2 sur 15 lesquelles séparer les images, et la figure 6 est une capture d'écran de l'interface graphique utilisateur de l'appareil de la figure 2 représentant un ensemble d'images à partir d'une des séparations de la matrice de la figure 5, contigu à un modèle à remplir avec celles sélectionnées parmi les images. 20 Le mode de réalisation d'exemple se rapporte à un système, un appareil et un procédé permettant d'effectuer une navigation et une recherche dans une base de données d'images. Le système, l'appareil et le procédé permettent une combinaison de techniques de recherches fondées sur le contenu avec une recherche fondée sur les caractéristiques. Les caractéristiques sélectionnées peuvent être des caractéristiques esthétiques et/ou émotionnelles. Lors de la navigation dans un ensemble de données d'images, le système facilite la création d'un espace de recherche en permettant à un utilisateur de sélectionner une catégorie sémantique spécifique (par exemple des fleurs) avec une question textuelle, puis d'explorer de manière itérative au moins un sous-ensemble des images se trouvant dans la catégorie sélectionnée, en utilisant différentes combinaisons de caractéristiques. Dans le mode de réalisation d'exemple, l'utilisateur peut effectuer une sélection à partir d'un ensemble de caractéristiques comprenant des caractéristiques esthétiques (la lumière, le contraste, le flou, la couleur, etc.) et des caractéristiques émotionnelles (par exemple l'appréciation, l'activité). Diverses stratégies de visualisation (un regroupement, une mosaïque, etc.) peuvent être fournies à des utilisateurs pour qu'ils naviguent dans la base de données d'images avec des granularités différentes (des regroupements, l'exploration de quasi copies, etc.) et pour qu'il crée de manière itérative des ébauches de documents comportant les images appropriées. En faisant référence à la figure 1, une vue d'ensemble du système et du procédé d'exemple est représentée. Le système et le procédé reposent sur une base de données 10 de possessions ou bien, telle qu'un important recueil (par exemple des centaines, des milliers ou des millions) d'images, telles que des images photographiques et/ou des images graphiques. L'extraction de caractéristiques 12 permet la sélection d'images à partir de la base de données 10 sur la base d'une ou plusieurs caractéristiques 14 fondées sur le contenu, caractéristiques émotionnelles 16 et caractéristiques esthétiques 18. La création d'un espace de recherche 20 prélève un sous-ensemble d'images de la base de données et les sépare d'une manière qui permet aux images d'être regroupées et affichées sur la base de combinaisons des caractéristiques en utilisant un ou plusieurs procédés/composants tels que la catégorisation 22, le regroupement 24 et la récupération 26. La visualisation 28 génère l'affichage d'au moins une partie du sous-ensemble d'images en vue d'une visualisation par un utilisateur 30. En faisant référence à la figure 2, un mode de réalisation spécifique d'un appareil 40 destiné à assister l'utilisateur lors de la navigation dans un ensemble de données d'images est illustré, sous la forme d'un dispositif de traitement numérique tel qu'un ordinateur. L'ordinateur 40 inclut un processeur numérique 42 tel que l'unité centrale de l'ordinateur et la mémoire associée, illustrée ici comme étant la mémoire principale 44 et la mémoire de données 46.

L'ordinateur 40 illustré inclut une interface d'entrée 50 et une interface de sortie 52 qui peuvent être combinées ou séparées. L'interface 50 reçoit un ensemble de données d'objets électroniques 54 formant des données (des images) qui sont stockées dans la mémoire de données 46 qui sert de base de données 10. Comme on s'en rendra compte, la base de données 10 peut être située à distance de l'ordinateur 10 et il peut y être fait accès grâce à une liaison de communication appropriée. Tout ou partie 56 des images 54 dans l'ensemble de données 10 sont étiquetées avec des marqueurs (des balises) de contenu. Les marqueurs de contenus peuvent inclure une description de l'utilisateur sur le contenu de l'image et/ou certains commentaires sur l'image.

Par exemple, une image 54 peut être balisée avec la description « fleurs de printemps » et avec un commentaire tel que « mon joyeux jardin en mars ». Dans des cas où l'image est entourée par du texte, les marqueurs de contenus peuvent être dérivés du texte environnant. Des procédés de balisage automatique peuvent être utilisés pour propager les marqueurs vers des images non étiquetées. Les images 54 dans la base de données 10 peuvent se trouver sous un quelconque format commode de fichier tel que les formats JPEG, TIFF ou autres. Les images peuvent être des images individuelles ou des images vidéo. En général, chaque image numérique inclut des données d'image pour une matrice de pixels formant l'image. Les données d'image peuvent inclure des valeurs de colorants, telles que des valeurs d'échelles de gris pour chacun d'un ensemble de séparations de couleurs tel que le RVB, ou elles peuvent être exprimées dans un autre espace de rendu des couleurs dans lequel différentes couleurs peuvent être représentées. En général, « l'échelle de gris » fait référence à la valeur de densité optique d'un quelconque canal unique de couleur, cependant exprimé (RVB, YCbCr, etc.). L'interface 50, ou une interface séparée, peut également être configurée pour recevoir un document 58 tel que le modèle d'exemple, avec un emplacement réservé 60 (un espace) destiné à accepter une ou plusieurs images provenant de la base de données 10. L'interface 52 fournit en sortie un document modifié 62 auquel une ou des images sélectionnées 54 ont été ajoutées. Les interfaces d'entrée et de sortie d'exemple 50, 52 incluent des interfaces avec un réseau câblé et sans fil, tels que des modems ou des interfaces locales telles que des ports USB, des unités de disque et autres. Les composants 42, 44, 46, 50, 52 de l'ordinateur sont interconnectés par communication grâce à un bus de données et de commande 64. Une interface graphique utilisateur 70 (GUI) inclut un écran d'affichage 72 tel qu'un moniteur couleur ou un écran LCD, et un dispositif d'entrée pour l'utilisateur tel qu'un clavier 74, un dispositif tactile, un dispositif de commande de curseur 76, un microphone avec un convertisseur de parole en texte associé, ou bien une combinaison de ceux-ci afin d'entrer une question textuelle. L'interface GUI 70 est reliée par communication avec l'ordinateur 40 par l'intermédiaire d'une de plusieurs liaisons câblées ou sans fil 78. Dans le mode de réalisation d'exemple, l'interface GUI 70 est locale par rapport à l'ordinateur 40, bien que dans d'autres modes de réalisation, l'interface GUI 70 puisse être liée à un ordinateur client (non représenté) qui peut à son tour être relié à l'ordinateur 40 par l'intermédiaire d'un navigateur Web, d'un réseau câblé ou sans fil ou de tout autre liaison de communication. Le processeur numérique 42 peut être intégré de diverses manières, comme par un processeur à coeur unique, un processeur à double coeur (ou plus généralement par un processeur à coeurs multiples), un processeur numérique et un coprocesseur mathématique associé, un contrôleur numérique ou autre. L'ordinateur 40 peut inclure un ou plusieurs dispositifs de calcul dédiés ou d'usage général, tels que l'ordinateur d'un serveur, un ordinateur de bureau ou un ordinateur portatif, un ordinateur de poche, un assistant numérique portatif (PDA), un appareil de prise de vues ou tout autres dispositif de calcul capable d'exécuter des instructions pour effectuer le procédé d'exemple. Les mémoires 44, 46 peuvent être séparées ou combinées et peuvent représenter tout type de support pouvant être lu par un ordinateur tel qu'une mémoire à accès direct (RAM), une mémoire en lecture seule (ROM), un disque ou une bande magnétique, un disque optique, une mémoire flash ou une mémoire holographique. Dans un mode de réalisation, la mémoire 44, 46 comprend une combinaison de mémoire à accès direct et de mémoire en lecture seule. Le terme « logiciel » tel qu'il est utilisé ici est destiné à englober tout recueil ou jeu d'instructions exécutables par un ordinateur ou tout autre système numérique de façon à configurer l'ordinateur ou l'autre système numérique pour qu'il exécute la tâche qui représente le but du logiciel. Le terme « logiciel » tel qu'il est utilisé ici est destiné à englober de telles instructions stockées sur un support de stockage tel qu'une mémoire RAM, un disque dur, un disque optique et ainsi de suite, et il est également destiné à englober ce qu'on appelle un « microprogramme » c'est-à-dire un logiciel stocké sur une mémoire ROM et ainsi de suite. Un tel logiciel peut être organisé de différentes manières et il peut inclure des composants logiciels organisés sous forme de bibliothèques, de programmes fondés sur le réseau Internet stockés sur un serveur distant et ainsi de suite, de code source, de code interprétatif, de code objet, de code directement exécutable et ainsi de suite. II est envisagé que le logiciel puisse invoquer un code au niveau du système ou effectuer un appel à un autre logiciel résidant sur un serveur situé à un autre emplacement afin d'effectuer certaines fonctions. L'ordinateur 40 est configuré par une programmation appropriée et/ou par un micro programme câblé et permettant d'intégrer un système de navigation d'images 80. Le système de navigation d'exemple 80 se trouve sous la forme d'instructions logicielles destinées à effectuer le procédé d'exemple, lesquelles sont stockées dans la mémoire 44 et exécutées par le processeur 42. Le système de navigation 80 inclut un composant d'extraction de caractéristiques 12, un composant de création d'espace de recherche 20 et un composant de visualisation 28, dont chacun peut inclure un ou plusieurs outils logiciels séparés (comme illustré sur la figure 1), ou bien être combiné comme outil unique. Le composant d'extraction de caractéristiques 12 peut traiter les images stockées 54 avant l'application en entrée d'une demande de recherche de l'utilisateur. Dans le mode de réalisation d'exemple, un extracteur de caractéristiques de contenu 14 (figure 1) du composant d'extraction de caractéristiques 12 inclut un dispositif de classement (ou un ensemble de dispositifs binaires de classement) qui est formé pour assigner des marqueurs fondés sur le contenu (des étiquettes sémantiques) à des images non étiquetées 54. La formation peut être fondée sur un ensemble d'apprentissage comprenant des images étiquetées (comme les images marquées 56 dans l'ensemble de données). Les étiquettes représentent a priori des informations sur les classements des images, tels que des étiquettes de classes appliquées manuellement. Pour un classement binaire matériel, les étiquettes peuvent être par exemple « +1 » Si l'objet est assigné à une classe particulière et « -1 » sinon. Pour un classement binaire logiciel, les étiquettes peuvent être par exemple des valeurs dans la plage [0, 1] indiquant la probabilité d'appartenance à la classe. Dans d'autres modes de réalisation, l'ensemble entier de données 10 peut être balisé avec des caractéristiques de contenu, ce qui évite ainsi le besoin d'un dispositif de classement. Des marqueurs de contenu peuvent en plus ou en variante être extraits d'un contenu textuel associé à l'image.

Le ou les extracteurs de caractéristiques émotionnelles 16 extraient des caractéristiques associées à des émotions depuis les images et assignent des étiquettes aux images correspondant aux valeurs de caractéristiques pour chacune d'un ensemble de caractéristiques émotionnelles disponibles. Le ou les extracteurs de caractéristiques esthétiques 18 extraient des caractéristiques associées à l'esthétique depuis les images et assignent des étiquettes aux images correspondant aux valeurs de caractéristiques pour chacune d'un ensemble de caractéristiques esthétiques disponibles. En faisant référence à la figure 3, un procédé mis en oeuvre sur ordinateur est représenté, lequel peut être exécuté avec l'appareil de la figure 2. Le procédé, dont des détails sont décrits plus en détail ci-dessous commence à l'étape S100. À l'étape S102, un ensemble de données 10 d'images 54 est appliqué en entrée et peut être stocké dans la mémoire 46 de l'ordinateur pendant le traitement. À l'étape S104 (extraction de caractéristiques), des caractéristiques telles que le contenu, l'esthétique et des caractéristiques émotionnelles, sont extraites pour chaque image dans la base de données et stockées, par exemple, sous forme de métadonnées associées ou autres marqueurs. À l'étape S106, une question textuelle de l'utilisateur est reçue par l'intermédiaire de l'interface GUI 70, et un sous-ensemble d'images de l'ensemble de données qui répondent à la question, par exemple celles qui sont marquées avec une étiquette de « contenu » correspondant aux termes de la question, est récupéré. À l'étape S108 (création d'espace de recherche), sur la base de la sélection de contenu de l'utilisateur, un espace de recherche est créé et peut être affiché comme représenté sur la capture d'écran 84 de la figure 4. Toutes les images qui sont récupérées peuvent être affichées à ce moment. À l'étape S110, il est réalisé une prévision pour l'utilisateur 30 pour qu'il sélectionne certaines des caractéristiques esthétiques ou émotionnelles pouvant être sélectionnées, et les sélections de caractéristiques esthétiques et/ou émotionnelles de l'utilisateur sont reçues par l'intermédiaire de l'interface GUI 70. Comme on s'en rendra compte, la sélection de caractéristiques de contenu, d'esthétique et/ou émotionnelles peut s'effectuer dans un ordre quelconque. À l'étape S112, sur la base de la ou des sélections de caractéristiques de contenu, esthétiques et/ou émotionnelles de l'utilisateur, l'espace de recherche est séparé, grâce à quoi les images sont regroupées. Les images peuvent être traitées et groupées en utilisant un ensemble d'outils logiciels tels que l'algorithme K-means et autres afin de créer des espaces de recherche visuellement cohérents. Le groupement des images peut être effectué en utilisant l'algorithme de regroupement ou de séparation K-means de l'espace en fonction des caractéristiques sélectionnées par l'utilisateur comme décrit ci- dessous. À l'étape S114 (visualisation), l'espace de recherche, créé par l'utilisateur par l'intermédiaire de la sélection de caractéristiques, est visualisé. Différentes modalités (par exemple des regroupements, des mosaïques ou d'autres types de groupes) peuvent être disponibles pour visualiser l'espace de recherche.

Dans le mode de réalisation d'exemple, à l'étape de visualisation, une matrice à deux dimensions de n=9 groupes d'images 92, 94, 96 (un groupe vide), 98, 100, 102, 104, 106 et 108 est créée pour deux caractéristiques sélectionnées, comme illustré dans la capture d'écran 86 de la figure 5. Comme on s'en rendra compte, le nombre n de groupes en lesquels les images récupérées sont séparées et affichées peut être tout nombre approprié comme 4, 6, 8, 9, 10, 12 ou plus. Pour un nombre plus important de groupes, ceux-ci peuvent être mis en cascade, l'utilisateur cliquant ou sinon choisissant un ensemble sélectionné de groupes pour une revue. Chaque groupe peut être visuellement séparé des autres groupes, par exemple par le placement des groupes dans différentes zones de l'écran et/ou en procurant des limites visuelles 87 entre les groupes. Dans un mode de réalisation, les groupes peuvent simplement être mis en grappes dans une matrice sans que les limites entre groupes soient apparentes, mais en préservant généralement l'ordre de chacun des niveaux de caractéristiques dans des directions mutuellement perpendiculaires. Lorsque plus de deux caractéristiques sont sélectionnées, d'autres procédés permettant à un utilisateur de visualiser les groupes peuvent être plus appropriés, tels qu'un affichage hiérarchique. À l'étape S116, un utilisateur peut sélectionner l'une des grappes comme contenant une ou plusieurs images intéressantes qui sont ensuite affichées sur l'interface GUI. Un utilisateur peut sélectionner l'un des groupes en vue d'un examen rapproché, par exemple en cliquant sur le groupe d'images ou sur la zone dans laquelle est situé le groupe d'images. Alors, le groupe d'images sélectionné est affiché sur une zone de l'écran. Les groupes restants peuvent être supprimés de l'afficheur. Il peut être réalisé une prévision pour une visualisation simultanée du modèle 58 du document, par exemple en rendant adjacent le groupe affiché d'images par le sélection d'un bouton 142 destiné à une ébauche de mise en page. L'utilisateur peut faire glisser et déposer une image sélectionnée parmi les images affichées dans un emplacement réservé approprié 60 sur le modèle comme illustré dans la capture d'écran 88 de la figure 6. En variante, ou en plus, des images sélectionnées peuvent être tout d'abord entraînées vers une case à images 110 et sont affichées là jusqu'à ce que l'utilisateur décide de faire glisser et de déposer une ou plusieurs des images dans la case à images sur le modèle 58. La case à images 110 peut également contenir de quelconques images précédemment sélectionnées qui ont été sauvegardées lors d'étapes précédentes. Lors de la sélection par l'utilisateur, le procédé peut revenir à l'étape S110 où l'utilisateur peut sélectionner différentes combinaisons de caractéristiques esthétiques ou émotionnelles, ou bien à l'étape S106 où une nouvelle recherche de contenu peut être appliquée en entrée. À l'étape S118, l'utilisateur peut souhaiter visualiser des images semblables à une ou plusieurs de celles qui sont affichées dans le groupe sélectionné. Dans un mode de réalisation, l'utilisateur peut effectuer une sélection pour posséder un nombre k d'images voisines les plus proches récupérées de la base de données ou bien pour demander que des copies proches soient trouvées. Ces images voisines ou copies sont sélectionnées à partir de la base de données sur la base des critères différents de ceux du groupe affiché. De cette manière, des images qui ne sont pas marquées avec le même marqueur fondé sur le contenu peuvent être récupérées et affichées. Par exemple, les images voisines les plus proches peuvent être récupérées sur la base de la ressemblance de leurs histogrammes de couleurs. Il en résulte que des images présentant des couleurs semblables peuvent être affichées bien que leur contenu puisse être sensiblement différent. Des copies proches peuvent être identifiées sur la base d'une ressemblance de caractéristiques de bas ou haut niveau par rapport à celles de l'une ou de la totalité des images du groupe. Divers procédés existent pour identifier l'image voisine la plus proche selon l'algorithme des K plus proches voisins (KNN). Par exemple, des histogrammes de couleurs peuvent être utilisés. Par exemple, la plage de chacun des canaux rouge, vert et bleu est quantifiée en 16 Bins. L'histogramme de l'image est obtenu dans cet espace quantifié. Les images voisines les plus proches selon l'algorithme des K plus proches voisins sont obtenues sur la base de ressemblances dans leurs histogrammes. Des procédés pour identifier les images voisines les plus proches sont décrits par exemple dans le document « TagProp : Discriminative metric learning in nearest neighbor models for image auto-annotation » de Matthieu Guillaumin, Thomas Mensink, Jakob Verbeek et Cordelia Schmid, ICCV 2009. À l'étape S120, une fois que l'utilisateur est satisfait du modèle du document, le modèle rempli 62 est fourni en sortie, par exemple à une imprimante, un afficheur 72 ou tout autre dispositif de sortie, ou bien il peut être stocké en mémoire pour une récupération ultérieure. Dans le cas où un utilisateur sélectionne simplement une image ou un ensemble d'images, la ou les images peuvent être balisées avec un marqueur spécifique en vue d'une récupération ultérieure, ou encore les images peuvent être fournies en sortie du système. Le procédé stoppe à l'étape S122. Le procédé d'exemple peut être mis en oeuvre sur un ou plusieurs ordinateurs d'usage général, sur un ou des ordinateur d'usage spécial, sur un microprocesseur ou un microcontrôleur programmé accompagné de ses éléments de circuits intégrés périphériques, sur un circuit ASIC ou tout autre circuit intégré, sur un processeur numérique de signal, sur une électronique câblée ou un circuit logique tel qu'un circuit à éléments discrets, sur un composant logique programmable tel qu'un circuit PLD, PLA, FPGA, sur une unité centrale de carte graphique (GPU) ou sur un circuit PAL, ou autres. En général, tout composant, pouvant mettre en oeuvre une machine à états finis qui est, à son tour, capable de mettre en oeuvre l'organigramme représenté sur la figure 3, peut être utilisé pour mettre en oeuvre le procédé d'assistance d'un utilisateur lors de la navigation dans un ensemble de données d'images.

Le procédé illustré sur la figure 3 peut être mis en oeuvre dans un ou des programmes informatiques existants qui peuvent être exécutés sur un ordinateur. Le programme informatique peut être un support existant d'enregistrement pouvant être lu par ordinateur sur lequel un programme de commande est enregistré, comme un disque, une unité de disque dur ou autre, configuré pour exécuter le procédé. Des formes communes de supports pouvant être lus par un ordinateur incluent, par exemple, des disquettes, des disques souples, des disques durs, une bande magnétique ou tout autre support de stockage magnétique, un disque CD-ROM, un disque DVD ou tout autre support optique, une mémoire RAM, une mémoire PROM, une mémoire EPROM, une mémoire EPROM flash ou tout autre puce ou cartouche mémoire, ou encore tout autre support existant à partir duquel un ordinateur peut effectuer une lecture et une utilisation. Le programme informatique peut être intégré à l'ordinateur 40 (par exemple, une unité de disque dur interne ou une mémoire RAM), ou bien être séparé (par exemple, une unité de disque dur externe reliée fonctionnellement à l'ordinateur 40), ou bien peut être séparé et auquel on peut accéder par l'intermédiaire d'un réseau numérique de données tel qu'un réseau local (LAN) ou le réseau Internet (par exemple, sous forme d'un groupement redondant de disques (RAID) peu onéreux ou indépendants ou toute autre mémoire du serveur de réseau à laquelle il peut être fait accès indirectement grâce à l'ordinateur 40 par l'intermédiaire d'un réseau numérique). En variante, le procédé peut être mis en oeuvre dans un signal porteur pouvant être émis dans lequel le programme de commande est intégré sous forme d'un signal de données utilisant un support de transmission, tel que des signaux acoustiques lumineux, tels que ceux générés pendant des communications radio et infrarouge de données, et autres. Divers aspects du procédé et de l'appareil seront à présent décrits plus en détail. Comme décrit ci-dessus, le système d'exemple 80, le procédé et l'interface graphique utilisateur 70 permettent la navigation et la recherche dans une base de données 10 de possessions de création 54. Un avantage du système 80 sur les systèmes existants est qu'il permet une combinaison de techniques existantes de recherches fondées sur le contenu avec des caractéristiques esthétiques ou émotionnelles. Les utilisateurs peuvent créer des espaces de recherche en sélectionnant une catégorie sémantique spécifique (par exemple des fleurs) et en explorant des images dans la catégorie en utilisant de manière itérative différentes combinaisons de caractéristiques esthétiques et/ou émotionnelles (par exemple la lumière, le contraste, le flou, la couleur, l'appréciation, l'activité).

Dans le mode de réalisation d'exemple du système 80, les caractéristiques sont calculées de manière autonome (c'est-à-dire avant qu'un utilisateur soumette une question). En tant qu'exemple, les caractéristiques suivantes peuvent être utilisées. 1. Caractéristiques fondées sur le contenu Dans le mode de réalisation d'exemple, l'utilisateur peut réaliser une première recherche sur la base d'un contenu sémantique et ensuite naviguer au travers de ce qui a été récupéré, mis en images par différentes caractéristiques, telles que l'esthétique ou l'émotion dans les images. Les étiquettes de classes pour les caractéristiques fondées sur le contenu peuvent inclure des catégories d'objets visuels communs telles que des fleurs, des paysages, des paysages marins, le ciel, des véhicules, des personnes, des bâtiments, des animaux etc., et/ou des thèmes spécifiques tels que des réceptions, des mariages, des événements sportifs, l'été, l'hiver et autres. Dans un mode de réalisation, les classes peuvent être adaptées pour correspondre aux domaines particuliers qui intéressent le concepteur graphique. Le nombre de classes fondées sur le contenu n'est pas limité, mais il est au moins de 2 et peut être, par exemple, d'environ 5 à 50 ou plus. En général, des techniques de catégorisation fondées sur un contenu d'image peuvent englober un ensemble d'opérations qui transforment les entrées formant des images en des descriptions communément comprises. Des techniques automatisées ont été développées, lesquelles assignent des mots clés à une image, fondés sur son contenu de niveau élevé. Ces techniques peuvent analyser la scène dans son entier ou bien se focaliser sur des objets à l'intérieur de l'image. L'affectation de mots-clés peut être associée à une valeur de confiance. L'image est alors étiquetée avec des mots clés pour lesquels la valeur de confiance dépasse une valeur seuil de confiance. Comme exemple permettant de marquer des images appropriées pour une recherche fondée sur un texte, des représentations d'images, telles que des représentations de Fisher peuvent être utilisées par un dispositif visuel de classement générique (GVC) qui annote automatiquement les images avec des catégories prédéfinies et apprises à l'avance. Selon cette approche, pour chaque ensemble de plages de l'image, des descripteurs de bas niveau de l'image sont extraits, par exemple sous forme de vecteur de caractéristiques. Pour chaque plage, une représentation (par exemple un vecteur de Fisher) peut être générée sur la base des descripteurs de bas niveau extraits de l'image, par exemple par concaténation. Une représentation de haut niveau de l'image est extraite, fondée sur les représentations des plages ou des descripteurs de bas niveau de l'image. Dans le mode de réalisation d'exemple, la représentation de niveau élevé est un vecteur (par exemple un vecteur de Fisher). Dans un mode de réalisation, un vocabulaire visuel est construit pour chaque type de caractéristique en utilisant des modèles de mélanges Gaussiens. La modélisation du vocabulaire visuel dans l'espace des caractéristiques avec un modèle de type GMM peut être effectuée conformément au procédé décrit dans le document « Adapted Vocabularies for Generic Visual Categorization » de F. Perronnin, C. Dance, G. Csurka and M. Bressan, dans la conférence ECCV (2006). Alors que certaines approches utilisent un vocabulaire visuel unique généralement construit sur l'ensemble total de formation, dans d'autres modes de réalisation, les performances peuvent être améliorées en adaptant le vocabulaire visuel (universel) appris sur l'ensemble total de formation à chaque catégorie en utilisant des images spécifiques à la catégorie. Une image est alors caractérisée par un ensemble d'histogrammes bipartites, un par catégorie, où chaque histogramme décrit si le contenu de l'image et mieux modélisé par le vocabulaire universel ou le vocabulaire de catégorie correspondant. Un tel procédé est décrit dans la publication des États-Unis numéro 20070005356. Divers procédés existent pour la génération d'une représentation de haut niveau d'une image, lesquels peuvent être utilisés ici, comme décrit par exemple dans les publications des États-Unis numéros 2007/0005356 ; 2007/0258648 ; 2008/0069456, et le document « Visual Categorization with Bags of Keypoints », atelier de la conference ECCV sur l'apprentissage statistique dans la vision par ordinateur (2004) de G. Csurka, C.

Dance, L. Fan, J. Willamowski and C. Bray et dans le document « Fisher kernel on visual vocabularies for image categorization » de F. Perronnin et C. Dance dans les procès-verbaux Proc of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), Minneapolis, Minnesota, Etats-Unis. (juin 2007). Cette dernière référence et la publication des États-Unis numéros 2007/0258648 décrivent une représentation d'un noyau de Fisher (FK) fondée sur des vecteurs de Fisher. Les représentations des vecteurs de Fisher et du noyau de Fisher sont des exemples de types de représentation de haut niveau qui peuvent être utilisés ici. Dans un autre mode de réalisation, une représentation par sacs de mots visuels (BOV) peut être utilisée, comme décrit dans les publications des États-Unis mentionnées ci-dessus numéros 2008/0069456 et 2007/0005356. Dans l'approche fondée sur des sacs BOV, l'image est tout d'abord caractérisée par un histogramme de comptages de mots visuels. Le vocabulaire visuel est construit automatiquement à partir d'un ensemble d'apprentissage d'images Les descripteurs de bas niveau de l'image, qui sont extraits des plages dans tous ces procédés sont des valeurs typiquement quantitatives qui résument ou qui caractérisent des aspects de la plage respective, tels que le contenu fréquentiel dans l'espace, une intensité moyenne, les caractéristiques de couleurs (dans le cas d'images colorées), des valeurs de gradient et/ou d'autres valeurs caractéristiques. Les descripteurs de bas niveau de l'image sont extraits localement sur des zones intéressantes (ROI). Les zones ROI peuvent être obtenues par la segmentation de l'image en appliquant des détecteurs ponctuels d'intérêt spécifique en considérant une grille régulière ou en échantillonnant simplement au hasard des plages de l'image. Dans certains modes de réalisation, au moins environ cinquante descripteurs de bas niveau de l'image sont extraits de chaque plage ; cependant, le nombre de descripteurs de l'image qui peuvent être extraits n'est pas limité à un nombre particulier quelconque ni à un type de descripteurs d'image, par exemple 1000 ou 1 million de descripteurs de bas niveau de l'image pourraient être extraits en fonction des capacités de calcul. Dans le mode de réalisation d'exemple, les descripteurs de bas niveau de l'image incluent des statistiques locales de couleur et/ou de texture (par exemple d'un pixel). En ce qui concerne les statistiques de couleur, des statistiques locales RVB (par exemple une moyenne et un écart type) peuvent être calculées. En ce qui concerne la texture, des orientations de gradient (représentant un changement de couleur) peuvent être calculées pour chaque plage en tant qu'histogramme (caractéristiques de type transformée SIFT). Dans le mode de réalisation d'exemple, deux (ou plusieurs) types de descripteurs de bas niveau de l'image, tels que la couleur et la texture, sont extraits séparément et la représentation de haut niveau est fondée sur une combinaison de deux vecteurs de Fisher, un pour chaque type de caractéristique. Dans d'autres modes de réalisation, des descripteurs de transformée de caractéristiques d'échelle invariante (SIFT) (comme décrit par Lowe dans « Object Recognition From Local Scale-Invariant Features », ICCV (Conférence Internationale sur la Vision par Ordinateur), 1999, sont calculés sur chaque plage. Les descripteurs de transformée SIFT sont des représentations à images multiples d'un voisinage d'images, tels que des dérivées gaussiennes calculées au niveau de huit plans d'orientation par exemple sur une grille quatre par quatre d'emplacements dans l'espace, ce qui donne un vecteur à 128 dimensions (c'est-à-dire 128 descripteurs d'image par vecteur de caractéristiques dans ces modes de réalisation). D'autres descripteurs ou algorithmes d'extraction de caractéristiques peuvent être utilisés pour extraire des descripteurs de bas niveau d'image à partir des plages. Des exemples de certains autres descripteurs appropriés d'image sont présentés par K. Mikolajczyk and C.

Schmid dans le document « A Performance Evaluation Of Local Descriptors », procès-verbaux de la conférence sur la vision par ordinateur et la reconnaissance de motifs (CVPR), Madison, Wisconsin, États-Unis, juin 2003. Un dispositif de classement (qui peut comprendre un ensemble de dispositifs de classement binaires) est formé sur les représentations d'images, par exemple les vecteurs de Fisher, et les étiquettes des images de formation 56. Dans un mode de réalisation, un procédé de classement par apprentissage de machine est utilisé, tel qu'un dispositif de classement de machine à vecteurs de support (SVM). Dans des modes de réalisation en variante, le dispositif de classement formé peut être tout dispositif de classement discriminant (c'est-à-dire un dispositif de classement qui modélise des limites de classes), tel que des noyaux de Fisher (FK) ou des réseaux neuronaux. Le dispositif de classement formé est ensuite utilisé pour assigner des étiquettes à des images non étiquetées, représentant la probabilité qu'une image se trouve dans une classe. Ou bien, le dispositif de classement peut assigner une étiquette binaire oui/non générée par le seuillage de la valeur de probabilité. Le balisage fondé sur un contenu d'images n'est pas limité à ces procédés. D'autres procédés pour effectuer des balisages fondés sur un contenu sont décrits par exemple dans les documents « TagProp : Discriminative metric learning in nearest neighbor models for image auto-annotation » de Matthieu Guillaumin, Thomas Mensink, Jakob Verbeek et Cordelia Schmid, ICCV 2009 ; « Geometric min-hashing: Finding a Thick Needle in a Haystack » de Ondrej Chum, Michal Perdoch et Jin Matas, CVPR 2009 ; « Hamming embedding and weak geometric consistency for large scale image search » de Herve Jegou, Matthijs Douze et Cordelia Schmid, ECCV 2008 et « PicSOM seif-organizing image retrievai with MPEG-7 content descriptions » de Jorma Laaksonen, Markus Koskela et Erkki Qja « IEEE Transactions on Neural Networks », volume 13, numéro 4, 2002. Alors que dans le mode de réalisation d'exemple, le balisage fondé sur un contenu est effectué avant que l'utilisateur entre une question, il est également envisagé que l'utilisateur puisse sélectionner un groupe d'images, par exemple à partir d'une base de données en ligne afin de constituer l'ensemble de données après avoir entré la question textuelle. Auquel cas, le balisage fondé sur le contenu d'images en fonction d'une catégorie peut être effectué après que la question textuelle soit entrée. 2. Caractéristiques émotionnelles et esthétiques Pour chacune des autres caractéristiques, l'ensemble de données 10 d'images peut être quantifié, c'est-à-dire assigné à l'un d'un ensemble de partitions, les partitions couvrant la plage de valeurs pour cette caractéristique. Les partitions pour une caractéristique donnée peuvent chacune contenir un nombre égal d'images ou sinon l'espace de caractéristiques peut être séparé en fonction des valeurs des caractéristiques. Par exemple, pour une caractéristique de couleur « rouge », toutes les images dans le recueil se voient assigner une valeur de rougeur fondée, par exemple, sur la teinte rouge moyenne du pixel (dans un espace de rendu des couleurs RVB). Les images présentant la note de rougeur la plus élevée se voient assigner à un premier niveau, l'ensemble suivant à un second niveau est ainsi de suite, en fonction du nombre de niveaux de quantification parmi lesquels sont séparées les images. Le nombre de niveaux de quantification peut varier d'une caractéristique à l'autre, ou bien être identique pour toutes les caractéristiques Des niveaux de quantification d'environ 2 à 10 par caractéristique, par exemple au moins 3, peuvent être utilisés utilement, en fonction du nombre d'images dans l'ensemble de données et du nombre de caractéristiques pouvant être sélectionnées. Par exemple, pour une matrice à deux dimensions, la possession de 3 niveaux de quantification dans chaque dimension permet de générer une matrice 3x3 (neuf groupes) lorsque deux caractéristiques sont sélectionnées. Dans le mode de réalisation d'exemple, des caractéristiques émotionnelles et esthétiques sont déterminées directement à partir de données d'image sans besoin d'apprendre des dispositifs de classement de concepts émotionnels ou esthétiques. Ces concepts peuvent être très subjectifs et difficiles à apprendre. Le fait de prendre une décision forte sur le balisage d'une image avec de tels concepts présente des limitations. Par conséquent, plutôt que d'effectuer un balisage, dans le mode de réalisation d'exemple, les concepts émotionnels ou esthétiques sont considérés comme des caractéristiques de haut niveau (c'est-à-dire sont fondés sur des caractéristiques de bas niveau extraites des images elles-mêmes). Des notes sont assignées aux images sur la base de ces caractéristiques de haut niveau qui peuvent alors être quantifiées. Le procédé d'exemple procure la souplesse de recherche par différentes combinaisons de ces caractéristiques sans besoin d'une forte précision en termes de catégorisation esthétique ou émotionnelle, ou sans besoin de combinaison de différents aspects en une seule valeur d'image. 2A. Caractéristiques esthétiques Des exemples de caractéristiques esthétiques qui peuvent être utilisées incluent la luminosité, le contraste, le flou, la teinte, la dimension de l'image et autres. Un groupe de caractéristiques peut tout d'abord être sélectionné par type. Par exemple, pour le type global de caractéristique « couleur », des caractéristiques sélectionnables peuvent inclure le rouge, le bleu, le vert, etc. Divers procédés existent pour quantifier des valeurs de caractéristiques d'images qui peuvent être initialement fondées sur une analyse des valeurs de colorant des pixels. Comme décrit, par exemple, dans la publication des États-Unis numéro 2006/0164664, intitulée « COLOR QUANTIZATION AND METHOD THEREOF AND SEARCHING METHOD USING THE SAME » par Lee et al. Des techniques permettant de déterminer des caractéristiques esthétiques sont décrites par exemple dans les brevets des États-Unis numéros 5 357 352, 5 363 209, 5 371 615, 5 414 538, 5 450 502, 5 802 214, 5 3 47 374 et 7 031 534 et peuvent inclure la génération de statistiques telles que des mesures de bruit ou des répartitions de luminance ou de chrominance sur une version à basse résolution de l'image. Le brevet des États-Unis numéro 5 414 538 par exemple décrit la réception de l'image d'entrée définie en termes de signaux rouge-vert-bleu (RVB), la conversion des signaux RVB en des signaux correspondants de luminance et de chrominance incluant au moins un signal qui représente l'intensité globale de l'image, ainsi que la comparaison du signal d'intensité à des signaux de seuils d'intensité supérieur et inférieur qui définissent les niveaux acceptables de luminosité et d'obscurité dans l'image. La luminosité fait référence à la luminance d'une image. Il s'agit de la moyenne des valeurs de luminosité de tous les pixels dans une Image. Chaque valeur de luminosité peut être élaborée en calculant la valeur de gris à partir de la valeur RVB d'un pixel, ou en convertissant la valeur RVB d'un pixel vers un espace de rendu des couleurs de luminance tel que l'espace HSV où la valeur V représente la luminosité.

Le contraste fait référence à l'utilisation efficace de la plage dynamique. (Comme décrit par exemple dans le brevet des États-Unis numéro 5 363 209 de Eschbach et al. pour un examen des procédés permettant de déterminer un contraste local à partir de valeurs de luminance et de chrominance, qui peut être quantifié en un nombre L de niveaux de quantification). Le contraste peut être déterminé en calculant un histogramme combiné des canaux rouge, vert et bleu de l'image en sommant les histogrammes individuels. Le contraste est pris pour être la largeur de la masse moyenne à 98 % de l'histogramme. Comme décrit, par exemple dans le document « The Design of High-Level Features for Photo Quality Assessment » de Yan Ke, Xiaoou Tang, and Feng Jing, CVPR06 (Ke et al.). La saturation fait référence à la vivacité des objets colorés dans une image. Une couleur présentant plus de gris est considérée comme moins saturée, alors qu'une couleur lumineuse, une comportant très peu de gris, est considérée comme fortement saturée. La saturation d'une couleur peut affecter la réaction émotionnelle sur une image. Le système peut détecter des valeurs de saturation de couleurs dans l'espace HSV comme décrit, par exemple, dans le brevet des États-Unis numéro 5 450 217 et fournir une valeur de saturation moyenne quantifiée pour chaque image. Le flou d'image est une forme de réduction de largeur de bande provoquée de manière caractéristique par un mouvement relatif entre l'appareil de prise de vues et la scène d'origine ou par un système optique qui est hors mise au point. Il peut être calculé en lissant une image avec un filtre Gaussien pour obtenir l'image rendue floue. Le flou est proportionnel à la fréquence maximale d'une image qui est obtenue par seuillage de la transformée de Fourier en deux dimensions de l'image rendue floue. Comme décrit, par exemple dans Ke et al. La teinte fait référence à la première caractéristique d'une couleur que détecte l'oeil. Elle est prise pour être la valeur H dans la représentation d'un pixel dans l'espace de rendu des couleurs HSV après avoir converti la valeur RVB d'un pixel en HSV. La dimension d'image fait référence au nombre de pixels dans une image. Elle est calculée en multipliant la largeur exprimée en pixels par la hauteur exprimée en pixels d'une image.

D'autres procédés permettant d'assigner des valeurs esthétiques et des images peuvent être fondés sur des techniques d'apprentissage du dispositif de classement, par exemple il pourrait être utilisé d'assigner des valeurs esthétiques à des images en formant un dispositif de classement sur des images étiquetées par des gens comme étant attractives ou non attractives. Comme décrit, par exemple dans les documents « IMAGE HARMONY FOR CONSUMER IMAGES » de Elena Fedorovskaya, Carman Neustaedter et Wei Hao, ICIP 2008, « ANALYSIS OF HUMAN ATTRACTIVENESS USING MANIFOLD KERNEL REGRESSION » de Ritendra Datta, Dhiraj Joshi, Jia Li et James Z. Wang, ICIP 2008, « Studying Aesthetics in Photographic Images Using a Computational Approach », ECCV 2006. Cependant, en général, de tels procédés ne sont pas nécessaires comme ils sont relativement simples, des caractéristiques fondées sur des statistiques sont adéquates pour générer un espace utile de caractéristiques. L'exposition fait référence à la quantité de lumière tombant sur le capteur de l'appareil de prise de vues alors que la photographie est prise. Elle est prise pour être identique à la luminosité. D'autres caractéristiques sont envisagées, tels que la dynamique de l'image, la 15 perspective et la composition. 2B. Caractéristiques émotionnelles Des exemples de caractéristiques émotionnelles incluent l'appréciation et l'activité (comme décrit, par exemple, dans le rapport Omnia L4.2 de Kiryl Bletsko, Amel Ezzaich, Emmanuel Dellandréa, Alexandre Saidi, Liming Chen, 20 « Classification de documents multimedia », Livrable Omnia 4.2, par exemple, Annexes, débutant page 21). Dans un mode de réalisation, la relation entre la couleur et l'émotion est exploitée, permettant de quantifier des images en fonction de diverses caractéristiques émotionnelles fondées sur leurs couleurs prédominantes 25 (comme décrit dans les documents « A study of colour emotion and colour preference » de L.C. Ou, M.R. Luo, A.Woodcock, and A. Wright, dans COLOR research and application, 29 (2004) pages 232 à 240 ; « Emotional Satisfaction in Color Image Retrieval », dans Proc. Swedish Symposium on Image Analysis 2008 de M. Solli et R. Lenz, ainsi que dans « Color Emotions for Image Classification and Retrieval » de M. Solli et R. Lenz, dans CGIV 2008). Dans un autre mode de réalisation, des expressions faciales de quelconques personnes parmi les images peuvent être identifiées et quantifiées en fonction de diverses caractéristiques émotionnelles telles que la gaieté ou non, la colère ou le calme, etc. (Comme décrit, par exemple dans les documents « Automatic Facial Expression analysis: a survey, Pattern Recognition » de B. Fasel, J. Luettin, volume 36, pages 259 à 275, 2003, « Expert system for automatic analysis of facial expressions », ELSEVIER Image and Vision Computing, de M.

Pantic, L.J.M Rothkrantz, volume 18, pages 881 à 905, 2000). Dans un autre mode de réalisation (par exemple en utilisant le modèle de Tellegen-Watson-Clark) un modèle de dispositif de classement séparé est formé pour chacune d'une pluralité de caractéristiques émotionnelles, chaque caractéristique représentant une paire d'émotions opposées (le caractère plaisant ou non plaisant, l'engagement ou le désengagement, etc.) en utilisant des marqueurs de l'ensemble de données étiqueté et des descripteurs extraits des images. Les dispositifs de classement formés peuvent fournir en sortie une note sur chaque image pour chaque caractéristique qui peut être utilisée pour grouper les images, par exemple en assignant des valeurs quantifiées ou un rang aux images de l'ensemble de données pour chacune des caractéristiques. Dans d'autres procédés, des caractéristiques classiques de bas niveau (la couleur, les caractéristiques de Gabor, les caractéristiques de transformée SIFT) peuvent être utilisées pour prédire des émotions à partir de données annotées manuellement.

Visualisation Sur la base du contenu assigné, de l'esthétique et des caractéristiques émotionnelles, l'utilisateur peut créer des espaces de recherche en sélectionnant des caractéristiques uniques ou des combinaisons de caractéristiques. Le nombre de groupes d'images affichés dépend des niveaux de quantification pour chaque caractéristique sélectionnée et pour le nombre de caractéristiques sélectionnées. Un travail caractéristique de recherche peut mettre en jeu : 1. La création d'un espace de recherche en utilisant une ou plusieurs caractéristiques (par exemple le contenu, le contenu + l'esthétique, etc.). (S108) 2. Une réorganisation grossière de l'espace de recherche fondée sur d'autres caractéristiques afin d'obtenir une cohérence visuelle meilleure. (S112) 3. Une exploration ciblée de l'espace de recherche par l'intermédiaire d'images quasi copiées ou de la visualisation voisine la plus proche (S118). Afin de faciliter le processus de navigation, le système d'exemple 80 permet des affinements des combinaisons de caractéristiques de l'espace de recherche (par exemple, des résultats d'une question textuelle de recherche) en différentes combinaisons et en nombres différents. Par exemple, si un utilisateur recherche une image concernant un ciel bleu qui projette une sensation positive sur le spectateur, la sélection de la question textuelle « ciel » avec les deux caractéristiques « bleu » et « appréciation » récupérera des images de ciel et les affichera de manière visuellement cohérente. De plus, l'interface utilisateur d'exemple ne facilite pas seulement une navigation créative dans les possessions mais fournit également une aide à la création d'un contenu visuel en permettant une visualisation « combinée » d'un document de travail en projet (contenant éventuellement des emplacements réservés d'images) avec des images sélectionnées alternativement.

Sans être destiné à limiter la portée du mode de réalisation d'exemple, l'exemple qui suit décrit l'utilisation du système 80 pour la création d'un document. EXEMPLE En faisant référence à la figure 4, les images dans l'ensemble de données 10 peuvent être présentées selon une visualisation compacte permettant la présentation dans la même page de jusqu'à 350 images vignettes (qui peuvent être des images à résolution réduite et/ou détourées, générées à partir des images stockées dans la base de données). L'utilisateur peut tout d'abord entrer une question textuelle en tapant un mot clé dans la case de recherche 120 ou en en sélectionnant un à partir d'un menu, tel qu'un menu déroulant affiché sur l'interface GUI. Un espace de recherche de contenu est alors généré. Par exemple, comme représenté sur la figure 4, l'utilisateur peut entrer une question de recherche (par exemple « fleurs ») dans la case de saisie de texte 120 et peut sélectionner combien d'images récupérer (par exemple, 150 images) en utilisant un sélecteur 122. Si les dispositifs de classement sont probabilistes, le système 80 récupère les 150 images avec les probabilités assignées les plus hautes d'être des images de fleurs, et il les montre sur l'afficheur de interface GUI 72. Par exemple, la figure 4 représente une partie du sous-ensemble d'images obtenues avec la question textuelle « fleur ». L'utilisateur peut utiliser une barre de défilement 124 afin de faire défiler vers le bas l'ensemble entier d'images récupérées, par exemple si le nombre récupéré est supérieur à ce qui peut être facilement visualisable en même temps sur l'afficheur.

Pour affiner la question, l'utilisateur peut effectuer une sélection parmi les caractéristiques esthétiques et émotionnelles en agissant sur un ou plusieurs d'une pluralité de sélecteurs de caractéristiques 126, 128, 130. L'utilisateur peut décider, par exemple, de grouper les images utilisant une caractéristique de couleur rouge et peut sélectionner la caractéristique de couleur rouge en utilisant le sélecteur de caractéristiques de couleurs 126. Des groupes d'images triées en une dimension par la caractéristique de couleur rouge selon un ordre décroissant depuis « plus rouge » jusqu'à « moins rouge » sont affichées en même temps sur l'interface GUI, par exemple, de gauche à droite et/ou de haut en bas. Dans le mode de réalisation d'exemple, six groupes sont affichés en même temps en une matrice. L'utilisateur peut alors décider d'ajouter une seconde caractéristique, telle qu'une autre caractéristique esthétique, et il sélectionne, par exemple, une caractéristique de luminosité en utilisant le sélecteur de caractéristiques esthétiques 128. Des groupes d'images triées suivant deux dimensions : horizontalement par la caractéristique esthétique de luminosité FI et verticalement par la caractéristique de couleur rouge F2, sont affichés en même temps sur l'afficheur 72 de l'interface GUI, comme montré dans la capture d'écran 86 de la figure 5. Le niveau de quantification de la caractéristique FI peut être automatiquement réduit pour maintenir un nombre approprié de groupes affichés lorsque la caractéristique F2 est également sélectionnée. Par exemple, s'il existe six niveaux de quantification pour la première caractéristique avec laquelle sont étiquetées des images dans la base de données, des paires de niveaux adjacents de quantification peuvent être combinées pour produire trois niveaux de quantification. Comme il sera évident d'après la figure 5, chaque zone de l'afficheur représente un groupe différent d'images, chaque groupe correspondant à une combinaison différente de niveaux de quantification des première et seconde caractéristiques sélectionnées. Les images qui se retrouvent à l'intérieur des niveaux de quantification des caractéristiques sélectionnées sont ainsi affichées dans la zone appropriée de l'afficheur. Dans la matrice d'exemple, l'ordre diminue en fonction des valeurs des caractéristiques de la gauche vers la droite et du haut vers le bas, c'est-à-dire que l'image la plus rouge et la plus lumineuse se trouve dans le groupe 92 en haut à gauche et l'image la moins rouge et la moins lumineuse se trouve dans le groupe 108 en bas à droite. Par exemple, la zone 132 en haut à gauche de l'afficheur inclut ces images de niveau de quantification 1 pour le rouge et 1 pour la luminosité (c'est-à-dire un rouge éclatant et une luminosité élevée). Toutes les zones n'ont pas des images en elles. Par exemple la zone 134 est vide parce qu'il n'y a pas d'image dans la catégorie « fleur » dans la base de données 10 qui soit à un niveau de quantification 3 pour la caractéristique « luminosité » et à un niveau de quantification 1 pour la caractéristique « rouge ». Tout comme avec les images affichées sur la figure 4, on peut faire défiler les groupes d'images séparément s'il y en a trop dans un groupe pour qu'elles soient affichées en même temps. Dans le mode de réalisation d'exemple, un maximum d'une seule caractéristique de couleur peut être sélectionnée (comme par exemple l'une parmi rouge, vert et bleu) à tout instant. Pour la seconde caractéristique, on peut sélectionner soit une autre caractéristique esthétique, soit une caractéristique émotionnelle. Une troisième caractéristique pourrait être alors sélectionnée, par exemple en utilisant le sélecteur de caractéristiques émotionnelles 130, en générant une matrice à trois dimensions ou une représentation appropriée en deux dimensions de celle-ci. En variante, l'utilisateur peut décider de modifier une seule ou les deux des première et seconde caractéristiques afin de changer l'affichage en deux dimensions. Plutôt que de représenter les groupes d'images séparés, l'utilisateur peut demander que les groupes soient simplement ordonnés d'une manière qui reflète les caractéristiques sélectionnées (par exemple, les images les plus rouges sont regroupées en haut à gauche d'une matrice, et les moins brillantes sont regroupées en bas à droite, tout comme les limites entre les groupes ne sont pas affichées) L'utilisateur peut cliquer sur le sélecteur d'ordres 136 pour que les images soient affichées de cette manière. Comme l'on s'en rendra compte, les images peuvent être facilement groupées et ordonnées par diverses combinaisons de caractéristiques (par exemple la « rougeur » et le « contraste »). L'utilisateur peut alors décider que les images dans un des groupes affichés 92 présente la couleur et la luminosité appropriées pour un document particulier, et il peut cliquer sur ce groupe qui est alors visualisé sur l'afficheur. L'utilisateur peut cliquer sur l'icône 138 de la case à images afin de mettre en fonction une case à images 110 dans laquelle on peut faire glisser celles sélectionnées parmi la ou les images sélectionnées comme images candidates en vue d'une sélection finale. L'utilisateur peut cliquer sur un bouton 142 de sélecteur de projet de mise en page qui fournit un accès au document 58 à visualiser sur l'afficheur (figure 6). Comme montré sur la capture d'écran 88, le groupe d'images sélectionné, la case à images 110 et le modèle du document 58 sont affichés en même temps. L'utilisateur peut sélectionner la possibilité d'avoir les images voisines les plus proches ou les images quasi copiées affichées en cliquant sur le sélecteur de voisin le plus proche/ de copies (non représenté). En variante, les voisins les plus proches ou les copies proches peuvent être récupérés en cliquant sur l'une sélectionnée des images. L'utilisateur peut faire glisser et déposer celle sélectionnée des images sur le document 58 (par exemple depuis la case à images 110) pour visualiser si l'image satisfait aux besoins de la conception. L'image sélectionnée 54 est ajoutée au modèle de document 58 qui contient de quelconques images sélectionnées précédemment qui ont été sauvegardées lors d'étapes précédentes. Après avoir répété ce processus une ou plusieurs fois pour trouver plusieurs images, l'utilisateur peut cliquer sur le sélecteur 142 de modèle de mise en page pour confirmer l'achèvement du document rempli 62 comme représenté sur les figures 2 et 6. Le système fournit aux concepteurs graphiques une interface pour naviguer au travers d'une très grande base de données d'images, guidés par des caractéristiques sélectionnées d'esthétique, de couleur et/ou d'émotion. Des scientifiques spécialisés dans la formation d'image peuvent utiliser le système pour un test rapide, visuel ou qualitatif de l'efficacité de leurs caractéristiques visuelles conçues par l'intermédiaire d'une observation facilitée d'un grand nombre d'images récupérées. Par comparaison aux procédés de recherche existants qui reposent sur des questions textuelles de recherche, le présent système permet d'affiner la recherche grâce à la paramétrisation de la question. Par exemple, l'utilisateur peut régler le niveau de luminosité et/ou de rougeur. De même, la cohérence visuelle des résultats est élevée et l'exploration par un espace de recherche est très simple. L'utilisateur peut simplement sélectionner le groupe qui apparaît comme ayant le plus probablement des images intéressantes et parcourir des vignettes des images dans le groupe, ou bien remplir l'afficheur avec le groupe sélectionné d'images. Lorsque l'utilisateur est intéressé par une vignette spécifique, l'image correspondante est affichée de même que ses images voisines les plus proches Le système de navigation d'exemple possède des applications variées. Par exemple, il fournit aux concepteurs graphiques une interface pour naviguer au travers d'une très grande base de données d'images, guidés par des caractéristiques sélectionnées d'esthétique, de couleur et d'émotion. Des scientifiques spécialisés dans la formation d'image peuvent également utiliser le système ; il autorise par exemple un test rapide, visuel ou qualitatif de l'efficacité de caractéristiques visuelles par l'intermédiaire de l'observation d'un grand nombre d'images récupérées.

Des applications du système et du procédé d'exemple incluent une personnalisation biunivoque et un marketing par messagerie directe. La création de documents multimédias riches pose divers défis à l'assurance d'un niveau esthétique convenable en raison de la partie de contenu qu'ils incluent. Le système d'exemple satisfait le besoin d'une sélection de possessions appropriés dans une base de données d'images de création. L'impression de données marketing d'entreprise n'est pas la seule application du système et du procédé. D'autres applications, telles que la gestion de possessions documentaires ou la visualisation d'images documentaires ou d'ensemble de photographies, et autres, peuvent également tirer profit de celui-ci. On se rendra compte que diverses caractéristiques et fonctions décrites ci-dessus et d'autres, ou des variantes de celle-ci peuvent être combinées de manière souhaitable dans de nombreux autres systèmes ou applications différents.10

Claims

REVENDICATIONS1. Procédé d'assistance d'un utilisateur lors de la navigation dans un ensemble de données d'images comprenant : la réception d'une question textuelle provenant d'un utilisateur (30), la récupération d'images qui répondent à la question textuelle à partir d'un ensemble de données d'images (54) la prévision de réception de la sélection par l'utilisateur (30) d'une première caractéristique sélectionnée à partir d'un ensemble de caractéristiques disponibles (14) la prévision de réception de la sélection par l'utilisateur (30) d'une seconde caractéristique sélectionnée à partir de l'ensemble de caractéristiques disponibles (14), et l'affichage en même temps d'au moins certaines des images récupérées sur l'interface graphique (28) utilisateur selon une certaine disposition, grâce à quoi la disposition d'images reflète différents niveaux de la première caractéristique lorsqu'une seule caractéristique est sélectionnée, et elle reflète différentes combinaisons de niveaux des première et seconde caractéristiques sélectionnées par l'utilisateur (30) lorsque des première et seconde caractéristiques sont sélectionnées.
2. Procédé selon la revendication 1, dans lequel l'affichage inclut l'affichage simultané d'au moins certaines des images récupérées sur l'interface graphique (28) utilisateur dans des groupes, grâce à quoi chaque groupe affiché d'images correspond à une combinaison différente de niveaux de première et seconde caractéristiques sélectionnées par l'utilisateur (30). 37
3. Procédé selon la revendication 1, comprenant en outre l'affichage, sur l'interface graphique (28) utilisateur, d'un premier sélecteur (126) en vue de sélectionner la première caractéristique à partir d'un premier ensemble de caractéristiques et d'un second sélecteur (128) en vue de sélectionner la seconde caractéristique à partir d'un second ensemble de caractéristiques.
4. Procédé selon la revendication 3, dans lequel les premières caractéristiques sont des caractéristiques esthétiques (18) et les secondes caractéristiques sont des caractéristiques émotionnelles (16).
5. Procédé selon la revendication 3, comprenant en outre la prévision pour un utilisateur (30) de sélection d'une troisième caractéristique à partir d'un troisième ensemble de caractéristiques, grâce à quoi les images affichées sont groupées en fonction des au moins deux, sélectionnées parmi les premières, secondes et troisièmes caractéristiques.
6. Procédé selon la revendication 2, dans lequel les groupes affichés d'images sont ordonnés en fonction de valeurs des caractéristiques sélectionnées.
7. Programme informatique comprenant des instructions de codage sur un support existant qui, lorsqu'elles sont exécutées par un ordinateur (40), exécutent le procédé conforme à la revendication 125
8. Système de navigation comprenant une mémoire (44) qui stocke des instructions en vue d'exécuter le procédé conforme à la revendication 1, et un processeur (42), en communication avec la mémoire (44), destiné à exécuter les instructions.
9. Appareil destiné à une navigation dans un ensemble de données d'images comprenant : un système de navigation comprenant des instructions stockées en mémoire (44) pour : 10 recevoir une question textuelle provenant d'un utilisateur (30), récupérer des images qui répondent à la question textuelle à partir d'un ensemble de données d'images (54) associé, recevoir la sélection de l'utilisateur (30) d'une première caractéristique sélectionnée à partir d'un ensemble de caractéristiques (14) disponibles, 15 recevoir la sélection de l'utilisateur (30) d'une seconde caractéristique sélectionnée à partir d'un ensemble de caractéristiques (14) disponibles, et afficher au moins certaines des images récupérées sur une interface graphique utilisateur (28) associée, grâce à quoi des images affichées 20 sont groupées en fonction de niveaux des première et seconde caractéristiques sélectionnées, et un processeur (42) en communication avec la mémoire, destiné à exécuter les instructions. 25
10. Utilisation du procédé selon une des revendications 1 à 7 pour l'ajout d'images à un document comprenant :5la mémorisation d'un document (58) avec au moins un emplacement réservé destiné à accepter une image, la réception d'une question textuelle provenant d'un utilisateur (30), la récupération d'images qui répondent à la question textuelle à partir d'un ensemble de données d'images (54), chacune des images dans l'ensemble de données étant classée en fonction d'un contenu et associée à des valeurs de caractéristiques pour chacune d'un ensemble de caractéristiques, la réception de la sélection de l'utilisateur (30) de première et seconde caractéristiques sélectionnées à partir de l'ensemble de caractéristiques (14), la séparation des images récupérées en groupes fondés sur des niveaux des première et seconde caractéristiques sélectionnées, et l'affichage d'au moins certaines des images récupérées sur l'interface graphique utilisateur (28), et la prévision pour que l'utilisateur (30) sélectionne une image à partir des groupes affichés d'Images en vue d'une insertion dans l'un des emplacements réservés.