EP3420470A1 - Procédé de description de documents multimedia par traduction inter-modalités, système et programme d'ordinateur associés - Google Patents

Procédé de description de documents multimedia par traduction inter-modalités, système et programme d'ordinateur associés

Info

Publication number
EP3420470A1
EP3420470A1 EP17705921.9A EP17705921A EP3420470A1 EP 3420470 A1 EP3420470 A1 EP 3420470A1 EP 17705921 A EP17705921 A EP 17705921A EP 3420470 A1 EP3420470 A1 EP 3420470A1
Authority
EP
European Patent Office
Prior art keywords
modality
point
description
points
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP17705921.9A
Other languages
German (de)
English (en)
Inventor
Thi Quynh Nhi TRAN
Hervé LE BORGNE
Michel CRUCIANU
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CNAM Conservatoire National des Arts et Metiers
Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Original Assignee
Commissariat a lEnergie Atomique CEA
CNAM Conservatoire National des Arts et Metiers
Commissariat a lEnergie Atomique et aux Energies Alternatives CEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commissariat a lEnergie Atomique CEA, CNAM Conservatoire National des Arts et Metiers, Commissariat a lEnergie Atomique et aux Energies Alternatives CEA filed Critical Commissariat a lEnergie Atomique CEA
Publication of EP3420470A1 publication Critical patent/EP3420470A1/fr
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures

Definitions

  • the field of the invention is that of the description of multimedia documents for use in the search for information by the content or for the supervised classification of multimedia contents.
  • the invention is more particularly concerned with bringing together a content described by a modality (for example a purely visual content) of a content described by another modality (for example a purely textual content).
  • the search for information by content and the supervised classification of documents requires a stage of description of the content of the documents.
  • a multimedia document consists of at least two elementary media, for example chosen from images, sounds, video signals, and texts. Due to the heterogeneous nature of the modalities defining a multimedia document, its description is delicate.
  • this description step separately transforms the textual content (words) and the visual content (pixels) into a vector of characteristics (features in English) of generally fixed dimension.
  • these vectors are indexed in a reference database.
  • these vectors are used to model a model using a learning algorithm.
  • a first problem is that the textual content is not described by the same type of vector as the visual content.
  • these vectors are not usually not the same size. And even if they are by chance of the same dimension, these vectors do not generate the same subspace. In any case, they can not be compared directly. They can not be indexed in the same way for content search, and can not be used to learn the same model for supervised classification.
  • CCA Canonical Correlation Analysis
  • KCCA Kernel Canonical Correlation Analysis
  • a purely textual content document Tl is projected at a point PT1
  • a document with a purely visual content V2 is projected at a point PV2.
  • the points PT1 and PV2 are in the same space and can therefore be compared directly.
  • the projection of the description of the visual content V2 corresponds, for example, to the nearest neighbor of the projection of the description of the textual content T1 in the common representation space.
  • the method comprises the following steps: for each multimedia document of the multimodal database, projection of the description of the document according to the first modality in the common representation space so as to have a first point, and projection of the description of the document according to the second modality in the common representation space, so as to have a second point associated with the first point;
  • determining a description of the query document according to the second modality comprises calculating a weighted average of k second points associated with the first k identified points, so as to provide a target point;
  • the common representation space is divided into a plurality of regions, each region being represented by a quantization code word, and the query point and the k second points associated with the first k identified points are coded according to a dictionary formed by the quantization code words;
  • the coding of a point according to the dictionary corresponds to the differences by component of the point with the codewords closest to said point in the common representation space;
  • the determination of a description of the request document according to the second modality comprises the calculation of a weighted average of the codings of k second points associated with the first k identified points; the weight associated with a second point in the calculation of the weighted average is a function of the distance between the query point and the first point associated with the second point on the common representation space.
  • the invention is also directed to a computer program product comprising program code instructions for performing the steps of the method when said program is executed on a computer. It further extends to a system configured to enable the steps of this method to be performed.
  • FIG. 2 is a diagram illustrating the various steps of the method according to the invention.
  • FIG. 3 is a diagram illustrating a quantification of the common representation space that can be implemented in a possible embodiment of the invention.
  • the invention relates to a method of generating, in a computing device, a multimodal description of a document, called a query document, from a description of the document. document according to a first modality, for example a visual modality VM.
  • a first modality for example a visual modality VM.
  • the document request may not have a description according to a second modality (the document is for example mono-media), or we can ignore a description according to a second modality of the document (here multimedia) to determine one according to the method according to the invention.
  • the term description of a modality means a vector of characteristics representative of said modality in the document.
  • a feature vector x T is extracted from its textual content and another feature vector x 1 is extracted from its visual content.
  • the method exploits a common representation space Ec both with descriptions according to the first modality and descriptions according to a second modality.
  • each document here assimilated to a pair of vectors of characteristics (x ', x T ), is represented by two points: p 1 which corresponds to the projection of x 1 , and p T which corresponds to the projection of x T.
  • the textual feature vectors x T are of dimension 300
  • the vectors of visual characteristics x 1 are of dimension 4096
  • the method also uses a multimodal base Bm consisting of a set of multimedia documents M1, M2, M3 each having a description VI, V2, V3 according to the first modality and a description T1, T2, T3 according to a second modality.
  • This basis makes it possible to provide a set of bi-modal pivot points able to reflect the imperfections of the common representation space.
  • this bimodal base can correspond to the learning base, without it being necessary.
  • the bimodal descriptions of the documents of the multimodal base Bm are projected in the common representation space Ec.
  • the method thus comprises a step consisting, for each multimedia document M1, M2, M3 of the multimodal base Bm, of projecting the description V1, V2, V3 of the document according to the first modality in the common representation space. to have a first point PV1, PV2, PV3, and to project the description T1, T2, T3 of the document according to the second modality in the common representation space, so as to have a second point PT1 , PT2, PT3 associated with the first point.
  • the method according to the invention also comprises a step of performing the projection of the description VM (also denoted r 1 ) of the request document according to the first modality in the common representation space Ec, so as to have a point PVM query.
  • the objective is then to determine, from the PVM request point, one or more target points PTc of the common representation space for completing the description (denoted r T ) of the other modality of the request document.
  • a na ⁇ ve approach could be to identify for target points the k nearest neighbors of PVM among the points resulting from a projection of a description according to the second modality (this set of points is denoted NN ⁇ T (r ')).
  • this approach would lead, starting from PVM, to identifying the point PT-A referring to a textual content TA stored in a reference database Brief which is a priori different from the learning base having allowed to determine the common space of representation.
  • the invention proposes another approach according to which one comes to search for the closest neighbors of the query point r 1 in the common representation space, not among the second points, but among the first points E ⁇ 1 (points of the same modality).
  • the integer k is typically greater than 10. It is preferably greater than 20.
  • the closest neighbor identification metric is for example a Euclidean distance.
  • this step makes it possible to identify the first two neighbors of the PVM request point in the same modality, namely PV1 and PV2.
  • the method comprises a step of identifying, among the second points, the k second points associated with the first k identified points.
  • PT1 and PT2 which are the complementary points (i.e. they correspond to the other modality) of the first neighbors of the PVM request point in the same modality, namely PV1 and PV2.
  • the target point is ⁇ q jeM c (r>) ⁇ ij -
  • the weight associated with a second point qjeM ç ( 1 ) in the calculation of the weighted average is a function of the distance between the request point r 1 and the first point qj G (r ') (one of the closest neighbors of r 1 in the same modality) associated with the second point on the common space of representation.
  • the method may comprise the identification of one or more documents having a description, for example according to the second modality, the projection of which in the common representation space is closest to the point target. These documents are typically stored in the Brief reference database. According to the example of FIG. 2, this step makes it possible to identify the textual content T-B whose PT-B projection is close to the target point PTc.
  • the reference base may be a bi-modal text-image base or a textual or visual mono-modal base. Taking the example of a text query and a mono-modal text reference base, the invention makes it possible to take into account a multimedia aspect. For example, the query "hawai" and the text "florida" can be reconciled because images (of the multimodal base Bm) tagged by these words (or words close to these words) are similar.
  • the common representation space Ec is divided into a plurality of regions, each region being represented by a quantization code word C1-C8.
  • the various points (in particular the query point and the k second points associated with the first k points identified) are coded according to a dictionary formed by the quantization code words.
  • This division of the common representation space can be performed by means of a K-average partitioning algorithm which exploits all the projections of the learning base, coming from both descriptions according to the first modality and from projections according to the second modality. Partitioning provides three types of codewords (which are the centers of partitions).
  • the encoding can be performed using techniques known to those skilled in the art, such as those reviewed in the article Yongzhen Huang, Zifeng Wu, Liang Wang, Tieniu Tan, "Feature Coding in Iage Classification: A Comprehensive Study, "I EEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 36, no. 3, pp. 493-506, March, 2014.
  • the coding of a point according to the dictionary can in particular correspond to the differences by component (gradient) of the point with the codewords closest to said point in the common representation space.
  • the point PT has the codewords C2, C7 and C8 as closest codewords
  • the point PV has the codewords C6, C5 for the closest codewords. and Cl.
  • the determination of a description of the request document according to the second modality is carried out from the coding according to the dictionary of each of the k second points associated with the first k identified points.
  • a weighted average of these encodings can be made to provide a coded description of a target point PTc.
  • the invention is not limited to the method as above, but also extends to a computer program product comprising program code instructions for performing the steps of the method as previously described when said program is executed. on a computer.
  • the invention makes it possible to improve the performance in certain cases compared to existing techniques and makes it possible to solve certain recognition problems.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention porte sur la génération d'une description multimodale de documents. Elle exploite un ensemble de documents multimédia (M1, M2, M3) disposant chacun d'une description (V1, V2, V3; T1, T2, T3) selon une première modalité et selon une seconde modalité, et un espace commun de représentation (Ec) de descriptions selon chacune des modalités. Les étapes suivantes sont réalisées: -pour chacun des documents multimédia (M1, M2, M3), projection de chacune des descriptions(V1, V2, V3) du document dans ledit espace de manière à disposer d'un premier (PV1, PV2, PV3) et d'un second point (PT1, PT2, PT3); -projection d'une description(VM) d'un document requête selon la première modalité dans ledit espace, de manière à disposer d'un point requête (PVM); -recherche, parmi les premiers points, des k plus proches voisins (PV1, PV2) du point requête (PVM); -détermination d'une description du document requête selon la seconde modalité à partir des k seconds points (PT1, PT2) associés aux premiers points identifiés.

Description

PROCÉDÉ DE DESCRIPTION DE DOCUMENTS MULTIMEDIA PAR TRADUCTION INTER- MODALITÉS, SYSTÈME ET PROGRAMME D'ORDINATEUR ASSOCIÉS
DESCRIPTION
DOMAINE TECHNIQUE
Le domaine de l'invention est celui de la description de documents multimédias en vue d'une utilisation pour la recherche d'information par le contenu ou pour la classification supervisée de contenus multimédias. L'invention s'intéresse plus particulièrement à rapprocher un contenu décrit par une modalité (par exemple un contenu purement visuel) d'un contenu décrit par une autre modalité (par exemple un contenu purement textuel). ÉTAT DE LA TECHNIQUE ANTÉRIEURE
La recherche d'information par le contenu et la classification supervisée de documents nécessitent une étape de description du contenu des documents.
Un document multimédia est constitué d'au moins deux médias élémentaires par exemple choisis parmi des images, des sons, des signaux vidéo, et des textes. Du fait de la nature hétérogène des modalités définissant un document multimédia, sa description s'avère délicate.
On vient ainsi généralement procéder séparément à la description des différentes modalités. Prenant l'exemple d'une image (contenu visuel) associé à un contenu textuel (des mots clés par exemple), cette étape de description transforme séparément le contenu textuel (des mots) et le contenu visuel (des pixels) en un vecteur de caractéristiques (features en anglais) de dimension généralement fixe. Dans le cas de la recherche par le contenu, ces vecteurs sont indexés dans une base de référence. Dans le cas de la classification supervisée, ces vecteurs sont utilisés pour a pprendre un modèle au moyen d'un algorithme d'apprentissage.
Un premier problème est que le contenu textuel n'est pas décrit par le même type de vecteur que le contenu visuel. En particulier, ces vecteurs ne sont généralement pas de même dimension. Et même s'ils sont par hasard de même dimension, ces vecteurs n'engendrent pas le même sous-espace. Dans tous les cas, ils ne peuvent pas être comparés directement. Ils ne peuvent donc pas être indexés de la même manière pour la recherche par le contenu, et ne peuvent pas servir à apprendre le même modèle pour la classification supervisée.
Une solution à ce problème est de considérer un espace commun de représentation entre les deux modalités de contenu. Cet espace peut faire l'objet d'un apprentissage, par exemple au moyen d'une Analyse canonique des corrélations (CCA pour Canonical Corrélation Analysis) ou sa version non linéaire à noyau (KCCA pour Kernel Canonical Corrélation Analysis).
Cette solution est par exemple décrite dans l'article de T. Q.. N. Tran, H. Le Borgne, et M. Crucianu intitulé « Combining Generic and Spécifie Information for Cross-modal Retrieval », In Proc. ACM International Conférence on Multimedia Retrieval (ICMR 2015), Shanghai, China, June 23-26, 2015.
Comme représenté sur la figure 1, un document multimédia bi-modal M comporte par exemple un contenu textuel T et un contenu visuel V. Le contenu textuel T est soumis à une extraction de caractéristiques textuelles Ext_T qui fournit un vecteur de caractéristiques textuelles Vt. Le contenu visuel est soumis à une extraction de caractéristiques visuelles Ext_V qui fournit un vecteur de caractéristiques textuelles Vv. Chacun de ces vecteurs Vt, Vv se projettent en un point PT, PV dans l'espace commun de représentation Ec.
Une fois un tel espace appris, un document au contenu purement textuel Tl est projeté en un point PTl, un document au contenu purement visuel V2 est projeté en un point PV2. Les points PTl et PV2 sont dans le même espace et peuvent donc être comparés directement. En particulier, il s'avère ainsi possible, partant d'une description uni-modale d'un document, par exemple une description d'un contenu textuel Tl, d'identifier une description associée selon une autre modalité, par exemple une description d'un contenu visuel V2. La projection de la description du contenu visuel V2 correspond par exemple au plus proche voisin de la projection de la description du contenu textuel Tl dans l'espace commun de représentation. On peut ainsi procéder à une illustration automatique de textes et, symétriquement, à une annotation automatique d'images. Il est par ailleurs possible de réaliser un apprentissage de classificateurs à partir de documents représentés selon une modalité (par exemple visuelle) et s'appliquant à des documents (par exemple des textes) ne présentant pas cette modalité. Et ces classificateurs peuvent pareillement être évalués au moyen de documents ne présentant pas une modalité (par forcément la même que pour l'apprentissage, par exemple textuelle).
Dans un cas idéal représenté en traits pointillés sur la figure 1, les contenus T et V étant alignés (issus du même document), les projections dans l'espace commun de représentation Ec devraient être confondues, ou en tout état de cause plus proches l'une de l'autre que de n'importe quel autre point dans l'espace commun de représentation. En réalité, comme représenté en traits pleins sur la figure 1, l'apprentissage de l'espace commun est imparfait et les points PT et PV sont distants.
La comparaison dans l'espace commun de ces projections est donc approximative, limitant de facto la qualité des rapprochements que l'on souhaite effectuer entre la description d'une modalité (par exemple visuelle) d'un document et celle d'une autre modalité (par exemple textuelle) du même document ou d'un autre document.
EXPOSÉ DE L'INVENTION L'invention vise à remédier aux inconvénients résultants des imperfections de l'espace commun de représentation. Elle propose pour ce faire un procédé de génération, dans un dispositif informatique, d'une description multimodale d'un document requête à partir d'une description du document requête selon une première modalité. Le procédé exploite une base multimodale constituée d'un ensemble de documents multimédia disposant chacun d'une description selon la première modalité et d'une description selon une seconde modalité, et un espace commun de représentation à la fois de descriptions selon la première modalité et de descriptions selon la seconde modalité.
Le procédé comprend les étapes suivantes : - pour chaque document multimédia de la base multimodale, projection de la description du document selon la première modalité dans l'espace commun de représentation de manière à disposer d'un premier point, et projection de la description du document selon la seconde modalité dans l'espace commun de représentation, de manière à disposer d'un second point associé au premier point ;
- projection de la description du document requête selon la première modalité dans l'espace commun de représentation, de manière à disposer d'un point requête.
Le procédé est caractérisé en ce qu'il comprend les étapes suivantes :
- recherche, parmi les premiers points, des k plus proches voisins du point requête dans l'espace commun de représentation, de manière à identifier k premiers points, k étant un entier supérieur ou égal à 1 ;
- identification, parmi les seconds points, des k seconds points associés au k premiers points identifiés ;
- détermination d'une description du document requête selon la seconde modalité à partir des k seconds points associés aux k premiers points identifiés.
Certains aspects préférés mais non limitatifs de ce procédé sont les suivants :
- la détermination d'une description du document requête selon la seconde modalité comprend le calcul d'une moyenne pondérée des k seconds points associés au k premiers points identifiés, de manière à fournir un point cible ;
- l'espace commun de représentation est divisé en une pluralité de régions, chaque région étant représentée par un mot de code de quantification, et le point requête et les k seconds points associés au k premiers points identifiés sont codés conformément à un dictionnaire formé par les mots de code de quantification ;
- le codage d'un point conformément au dictionnaire correspond aux différences par composante du point avec les mots de code les plus proches dudit point dans l'espace commun de représentation ;
- la détermination d'une description du document requête selon la seconde modalité comprend le calcul d'une moyenne pondérée des codages des k seconds points associés au k premiers points identifiés ; - le poids associé à un second point dans le calcul de la moyenne pondérée est fonction de la distance entre le point requête et le premier point associé au second point sur l'espace commun de représentation.
L'invention vise également un produit programme d'ordinateur comprenant des instructions de code de programme permettant d'effectuer les étapes du procédé lorsque ledit programme est exécuté sur un ordinateur. Elle s'étend en outre à un système configuré de manière à permettre d'effectuer les étapes de ce procédé.
BRÈVE DESCRIPTION DES DESSINS
D'autres aspects, buts, avantages et caractéristiques de l'invention apparaîtront mieux à la lecture de la description détaillée suivante de formes de réalisation préférées de celle-ci, donnée à titre d'exemple non limitatif, et faite en référence aux dessins annexés sur lesquels, outre la figure 1 déjà discutée précédemment :
- la figure 2 est un schéma illustrant les différentes étapes du procédé selon l'invention ;
- la figure 3 est un schéma illustrant une quantification de l'espace commun de représentation pouvant être mise en œuvre dans un mode de réalisation possible de l'invention.
EXPOSÉ DÉTAILLÉ DE MODES DE RÉALISATION PARTICULIERS En référence à la figure 2, l'invention porte sur un procédé de génération, dans un dispositif informatique, d'une description multimodale d'un document, appelé document requête, à partir d'une description du document selon une première modalité, par exemple une modalité visuelle VM. On prendra dans ce qui suit la génération d'une description bi-modale par souci de simplicité, sans que l'invention n'y soit limitée.
Le document requête peut ne pas disposer d'une description selon une seconde modalité (le document est par exemple mono-média), ou bien on peut ignorer une description selon une seconde modalité du document (ici multimédia) pour en déterminer une conformément au procédé selon l'invention.
Dans le cadre de l'invention, on entend par description d'une modalité un vecteur de caractéristiques représentatives de ladite modalité dans le document. Prenant l'exemple d'un document disposant d'un contenu textuel et visuel (image), un vecteur de caractéristiques xTest extrait de son contenu textuel et un autre vecteur de caractéristiques x1 est extrait de son contenu visuel.
Le procédé exploite un espace commun de représentation Ec à la fois de descriptions selon la première modalité et de descriptions selon une seconde modalité.
Cet espace peut être déterminé à partir d'une analyse canonique des corrélations de type KCCA exploitant une base d'apprentissage constitué d'un ensemble de documents bi-modaux disposant chacun d'une description selon la première modalité et d'une description selon une seconde modalité. Cette base d'apprentissage est composée d'un ensemble de N couples de vecteurs de caractéristiques (x[, xf ), i = 1 ... N.
Dans l'espace commun de représentation, chaque document, ici assimilé à un couple de vecteurs de caractéristiques (x', xT), est représenté par deux points : p1 qui correspond à la projection de x1, et pTqui correspond à la projection de xT.
A titre d'exemple purement illustratif, les vecteurs de caractéristiques textuelles xT sont de dimension 300, les vecteurs de ca ractéristiques visuelles x1 sont de dimension 4096 et l'espace commun de représentation, déterminé au moyen d'une base d'apprentissage de plus de 5000 documents, est de dimension d = 150.
Le procédé exploite par ailleurs une base multimodale Bm constituée d'un ensemble de documents multimédia M l, M2, M3 disposant chacun d'une description VI, V2, V3 selon la première modalité et d'une description Tl, T2, T3 selon une seconde modalité. Cette base permet de fournir un ensemble de points pivots bi- moda ux à même de refléter les imperfections de l'espace commun de représentation. En pratique, cette base bimodale peut correspondre à la base d'apprentissage, sans pour autant que cela ne soit nécessaire.
Dans le cadre de l'invention, les descriptions bi-modales des documents de la base multimodale Bm sont projetées dans l'espace commun de représentation Ec. Le procédé comprend ainsi une étape consistant, pour chaque document multimédia Ml, M2, M3 de la base multimodale Bm, à réaliser la projection de la description VI, V2, V3 du document selon la première modalité dans l'espace commun de représentation de manière à disposer d'un premier point PV1, PV2, PV3, et à réaliser la projection de la description Tl, T2, T3 du document selon la seconde modalité dans l'espace commun de représentation, de manière à disposer d'un second point PT1, PT2, PT3 associé au premier point.
On peut noter Λ l'ensemble des couples de premier point et second point qf résultant de cette étape de projection des descriptions des documents de la base bimodale : Λ = E Λ1 , qf E Λ1 ' , i = 1 ... m.
Le procédé selon l'invention comprend par ailleurs une étape consistant à réaliser la projection de la description VM (également notée r1) du document requête selon la première modalité dans l'espace commun de représentation Ec, de manière à disposer d'un point requête PVM. L'objectif est alors de déterminer, à partir du point requête PVM, un ou plusieurs points cible PTc de l'espace commun de représentation permettant de compléter la description (notée rT) de l'autre modalité du document requête.
Une approche naïve pourrait consister à identifier pour points cibles les k plus proches voisins de PVM parmi les points résultant d'une projection d'une description selon la seconde modalité (cet ensemble de points est noté NN^T(r')).
Sur l'exemple de la figure 2, cette approche conduirait, partant de PVM, à identifier le point PT-A renvoyant à un contenu textuel T-A stocké dans une base de référence Bref qui est a priori différente de la base d'apprentissage ayant permis de déterminer l'espace commun de représentation.
L'invention propose une autre approche selon laquelle on vient rechercher les plus proches voisins du point requête r1 dans l'espace commun de représentation, non pas parmi les seconds points, mais parmi les premiers points E Λ1 (points de même modalité). On vient ainsi identifier k premiers points, k étant un entier supérieur ou égal à 1. Il s'agit ainsi des points q-tels que (r'). L'entier k est typiquement supérieur à 10. Il est de préférence supérieur à 20. La métrique d'identification des plus proches voisins est par exemple une distance euclidienne.
Dans l'exemple de la figure 2, cette étape permet d'identifier les deux premiers voisins du point requête PVM dans la même modalité, à savoir PV1 et PV2.
Puis le procédé comprend une étape consistant à identifier, parmi les seconds points, les k seconds points associés au k premiers points identifiés. Il s'agit ainsi de l'ensemble Mc(r') = { } tels que q ) G <A (cette dernière condition implique que et qf sont les projections des deux descriptions du même document multimédia de la base multimodale).
Dans l'exemple de la figure 2, cette étape permet d'identifier les points
PT1 et PT2 qui sont les points complémentaires (i.e. ils correspondent à l'autre modalité) des premiers voisins du point requête PVM dans la même modalité, à savoir PV1 et PV2.
Le procédé comprend ensuite une étape consistant à déterminer une description rT du document requête selon la seconde modalité à partir des k seconds points associés aux k premiers points identifiés.
Dans un premier mode de réalisation possible, la détermination de la description du document requête selon la seconde modalité peut comprendre le calcul d'une moyenne pondérée des k seconds points associés au k premiers points identifiés, de manière à fournir un point cible PTc.
Prenant l'exemple d'une simple moyenne, le point cible est ∑qjeMc(r>) <ij -
Dans une variante de réalisation, le poids associé à un second point qjeMç Çr1) dans le calcul de la moyenne pondérée est fonction de la distance entre le point requête r1 et le premier point qj G (r') (l'un des plus proches voisins de r1 dans la même modalité) associé au second point sur l'espace commun de représentation. On adopte typiquement une fonction décroissance de la distance qui exprime une similarité entre le point requête et le premier point, par exemple une exponentielle décroissante du type exp (-a*de) où de est la distance euclidienne entre le point requête et le premier point, et a une constante. Une représentation « complétée » du document requête dans l'espace commun de représentation peut alors correspondre à la moyenne ou à la somme du point requête PVM et du point cible PTc. En variante, la représentation « complétée » peut correspondre à la concaténation du point requête PVM et du point cible PTc.
Une fois le point cible PTc connu, le procédé peut comprendre l'identification d'un ou plusieurs documents disposant d'une description, par exemple selon la seconde modalité, dont la projection dans l'espace commun de représentation est la plus proche du point cible. Ces documents sont typiquement stockés dans la base de référence Bref. Selon l'exemple de la figure 2, cette étape permet d'identifier le contenu textuel T-B dont la projection PT-B est proche du point cible PTc. La base de référence peut être une base bi-modale texte-image ou une base mono-modale texte ou visuelle. Prenant l'exemple d'une requête texte et d'une base de référence mono-modale texte, l'invention permet de prendre en compte un aspect multimédia. Par exemple, la requête « hawai » et le texte « floride » peuvent être rapprochés parce que des images (de la base multimodale Bm) taguées par ces mots (ou des mots proches de ces mots) se ressemblent.
Dans un second mode de réalisation possible illustré par la figure 3, l'espace commun de représentation Ec est divisé en une pluralité de régions, chaque région étant représentée par un mot de code de quantification C1-C8. Les différents points (notamment le point requête et les k seconds points associés aux k premiers points identifiés) sont codés conformément à un dictionnaire formé par les mots de code de quantification. Cette division de l'espace commun de représentation peut être réalisée au moyen d'un algorithme de partitionnement en K-moyennes qui exploite l'ensemble des projections de la base d'apprentissage, provenant à la fois de descriptions selon la première modalité et de projections selon la seconde modalité. Le partitionnement fournit trois types de mots de code (qui sont les centres des partitions). Certains sont représentatifs de la première modalité seulement, d'autres sont représentatifs de la seconde modalité seulement, tandis que certains contiennent des projections de descriptions à la fois selon la première et selon la seconde modalité. Le codage peut être réalisé au moyen de techniques connues de l'homme du métier, telles celles passées en revue dans l'article Yongzhen Huang, Zifeng Wu, Liang Wang, Tieniu Tan, "Feature Coding in I mage Classification: A Comprehensive Study," I EEE Transactions on Pattern Analysis and Machine I ntelligence, vol. 36, no. 3, pp. 493-506, March, 2014.
Le codage d'un point conformément au dictionnaire peut notamment correspondre aux différences par composante (gradient) du point avec les mots de code les plus proches dudit point da ns l'espace commun de représentation. Dans l'exemple de la figure 3, le point PT a pour mots de code les plus proches les mots de code C2, C7 et C8, tandis que le point PV a pour mots de code les plus proches les mots de code C6, C5 et Cl.
Considérant un document multimédia assimilé à un couple de vecteurs de caractéristiques (x', xT), ce dernier est projeté dans l'espace commun de représentation Ec de dimension d aux points p1 et pT. Chacun de ces points est alors encodé en v1 et vT par ces différences aux n plus proches mots de code (par exem ple au sens d'une distance euclidienne) :
v1 = [v[, ... . , vI i , ... , vI l ] ; vT = [v , ... . , vj, ... , vf]
Avec et vj des vecteurs de dimension d tels que :
où 1A est la fonction indicatrice telle que lA (x) = 1 si x eA et lA (x) = 0 sinon, et où l correspond à la taille du dictionnaire et N Nn(p) est l'ensemble des n plus proches voisins du point p.
A titre d'exemple illustratif, on peut retenir 1=16 et n=5.
Dans le cadre de ce second mode de réalisation, la détermination d'une description du document requête selon la seconde modalité est réalisée à partir du codage conformément au dictionnaire de chacun des k seconds points associés aux k premiers points identifiés. Comme pour le premier mode de réalisation, on peut réaliser une moyenne pondérée de ces codages, de manière à fournir une description codée d'un point cible PTc. Prenant l'exemple d'une simple moyenne, et d'une seconde modalité de type T (texte), on vient ainsi déterminer vT = v , ... . , vj, ... , vf], avec vj =
La pondération du codage d'un second point peut notamment prendre en compte la distance entre le point requête PVM et le premier point PV1, PV2 associé au second point sur l'espace commun de représentation.
Une représentation « complétée » du document requête dans l'espace commun de représentation peut alors correspondre à la moyenne ou à la somme de la description (codée selon le dictionnaire) du point requête PVM et du point cible PTc. Cette représentation complétée d'un document initialement décrit par sa modalité visuelle peut ainsi s'exprimer selon :
v = , ... . , 1^, ... , ^]
avec vf = (p1 - lNNn{pI)(Ci) + ∑qjeMc(rl) (qj - cf) lwwn(qj) (c;).
L'invention n'est pas limitée au procédé tel que précédemment, mais s'étend également à un produit programme d'ordinateur comprenant des instructions de code de programme permettant d'effectuer les étapes du procédé tel que précédemment décrit lorsque ledit programme est exécuté sur un ordinateur.
Et l'invention s'étend également à un système pour la génération d'une description multimodale d'un document requête disposant d'une description VM selon une première modalité. Le système comprend une base de données dans laquelle sont stockés un modèle de l'espace commun de représentation Ec et les documents multimédia Ml, M2, M3 de la base multimodale Bm. Il comprend par ailleurs un processeur configuré :
pour réaliser, pour chaque document multimédia Ml, M2, M3 de la base multimodale Bm, la projection de la description VI, V2, V3 du document selon la première modalité dans l'espace commun de représentation de manière à disposer d'un premier point PV1, PV2, PV3, et la projection de la description Tl, T2, T3 du document selon la seconde modalité dans l'espace commun de représentation, de manière à disposer d'un second point PT1, PT2, PT3 associé au premier point ; pour réaliser la projection de la description VM du document requête selon la première modalité dans l'espace commun de représentation, de manière à disposer d'un point requête PVM;
pour rechercher, parmi les premiers points, les k plus proches voisins du point requête PVM dans l'espace commun de représentation, de manière à identifier k premiers points PV1, PV2, k étant un entier supérieur ou égal à 1 ;
- identifier, parmi les seconds points, les k seconds points PTl, PT2 associés au k premiers points identifiés ;
- déterminer une description du document requête selon la seconde modalité à partir des k seconds points PTl, PT2 associés au k premiers points identifiés.
Comme illustré dans le tableau ci-dessous, l'invention permet d'améliorer les performances dans certains cas par comparaison aux techniques existantes et rend possible la résolution de certains problèmes de reconnaissance.
Base de référence
Bi-modale texte Mono-modale Mono-modale image texte visuel
Bi-modale texte image Idem ou mieux Améliore Améliore
que l'existant l'existant l'existant
<0>
13 Mono-modale texte Améliore Idem ou mieux Rend possible c
0) l'existant que l'existant
en
Mono-modale visuel Améliore Rend possible Idem ou mieux l'existant que l'existant

Claims

REVENDICATIONS
1. Procédé de génération, dans un dispositif informatique, d'une description multimodale d'un document requête à partir d'une description (VM) du document requête selon une première modalité, le procédé exploitant une base multimodale (Bm) constituée d'un ensemble de documents multimédia (Ml, M2, M3) disposant chacun d'une description (VI, V2, V3) selon la première modalité et d'une description (Tl, T2, T3) selon une seconde modalité, et un espace commun de représentation (Ec) à la fois de descriptions selon la première modalité et de descriptions selon la seconde modalité, le procédé comprenant les étapes suivantes :
- pour chaque document multimédia (Ml, M2, M3) de la base multimodale (Bm), projection de la description (VI, V2, V3) du document selon la première modalité dans l'espace commun de représentation de manière à disposer d'un premier point (PV1, PV2, PV3), et projection de la description (Tl, T2, T3) du document selon la seconde modalité dans l'espace commun de représentation, de manière à disposer d'un second point (PT1, PT2, PT3) associé au premier point ;
- projection de la description (VM) du document requête selon la première modalité dans l'espace commun de représentation, de manière à disposer d'un point requête (PVM);
le procédé étant caractérisé en ce qu'il comprend les étapes suivantes :
- recherche, parmi les premiers points, des k plus proches voisins du point requête
(PVM) dans l'espace commun de représentation, de manière à identifier k premiers points (PV1, PV2), k étant un entier supérieur ou égal à 1 ;
- identification, parmi les seconds points, des k seconds points (PT1, PT2) associés au k premiers points identifiés ;
- détermination d'une description du document requête selon la seconde modalité à partir des k seconds points (PT1, PT2) associés aux k premiers points identifiés.
2. Procédé selon la revendication 1, dans lequel la détermination d'une description du document requête selon la seconde modalité comprend le calcul d'une moyenne pondérée des k seconds points associés au k premiers points identifiés, de manière à fournir un point cible (PTc).
3. Procédé selon la revendication 1, dans lequel l'espace commun de représentation est divisé en une pluralité de régions, chaque région étant représentée par un mot de code de quantification, et dans lequel le point requête et les k seconds points associés au k premiers points identifiés sont codés conformément à un dictionnaire formé par les mots de code de quantification
4. Procédé selon la revendication 3, dans lequel le codage d'un point conformément au dictionnaire correspond aux différences par composante du point avec les mots de code les plus proches dudit point dans l'espace commun de représentation.
5. Procédé selon l'une des revendications 3 et 4, dans lequel la détermination d'une description du document requête selon la seconde modalité comprend le calcul d'une moyenne pondérée des codages des k seconds points associés au k premiers points identifiés.
6. Procédé selon l'une des revendications 2 et 5, dans lequel le poids associé à un second point dans le calcul de la moyenne pondérée est fonction de la distance entre le point requête et le premier point associé au second point sur l'espace commun de représentation.
7. Procédé selon l'une des revendications 1 à 6, comprenant une étape préalable de détermination de l'espace commun de représentation par apprentissage au moyen de descriptions de documents selon la première et la seconde modalité.
8. Produit programme d'ordinateur comprenant des instructions de code de programme permettant d'effectuer les étapes du procédé selon l'une quelconque des revendications 1 à 7 lorsque ledit programme est exécuté sur un ordinateur.
9. Système pour la génération d'une description multimodale d'un document requête disposant d'une description (VM) selon une première modalité, comprenant : une base de données dans laquelle sont stockés un modèle d'une espace commun de représentation (Ec) à la fois de descriptions selon la première modalité et de descriptions selon la seconde modalité, et un ensemble de documents multimédia (Ml, M2, M3) disposant chacun d'une description (VI, V2, V3) selon la première modalité et d'une description (Tl, T2, T3) selon une seconde modalité ; et
un processeur configuré :
pour réaliser, pour chaque document multimédia (Ml, M2, M3) dudit ensemble, la projection de la description (VI, V2, V3) du document selon la première modalité dans l'espace commun de représentation de manière à disposer d'un premier point (PV1, PV2, PV3), et la projection de la description (Tl, T2, T3) du document selon la seconde modalité dans l'espace commun de représentation, de manière à disposer d'un second point (PT1, PT2, PT3) associé au premier point ;
pour réaliser la projection de la description (VM) du document requête selon la première modalité dans l'espace commun de représentation, de manière à disposer d'un point requête (PVM);
le système étant caractérisé en ce que le processeur est en outre configuré pour mettre en œuvre les étapes suivantes :
- recherche, parmi les premiers points, des k plus proches voisins du point requête (PVM) dans l'espace commun de représentation, de manière à identifier k premiers points (PV1, PV2), k étant un entier supérieur ou égal à 1 ;
- identification, parmi les seconds points, des k seconds points (PT1, PT2) associés au k premiers points identifiés ;
- détermination d'une description du document requête selon la seconde modalité à partir des k seconds points (PT1, PT2) associés aux k premiers points identifiés.
EP17705921.9A 2016-02-26 2017-02-23 Procédé de description de documents multimedia par traduction inter-modalités, système et programme d'ordinateur associés Ceased EP3420470A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1651591A FR3048295A1 (fr) 2016-02-26 2016-02-26 Procede de description de documents multimedia par traduction inter-modalites, systeme et programme d'ordinateur associes
PCT/EP2017/054148 WO2017144577A1 (fr) 2016-02-26 2017-02-23 Procédé de description de documents multimedia par traduction inter-modalités, système et programme d'ordinateur associés

Publications (1)

Publication Number Publication Date
EP3420470A1 true EP3420470A1 (fr) 2019-01-02

Family

ID=56101592

Family Applications (1)

Application Number Title Priority Date Filing Date
EP17705921.9A Ceased EP3420470A1 (fr) 2016-02-26 2017-02-23 Procédé de description de documents multimedia par traduction inter-modalités, système et programme d'ordinateur associés

Country Status (3)

Country Link
EP (1) EP3420470A1 (fr)
FR (1) FR3048295A1 (fr)
WO (1) WO2017144577A1 (fr)

Also Published As

Publication number Publication date
FR3048295A1 (fr) 2017-09-01
WO2017144577A1 (fr) 2017-08-31

Similar Documents

Publication Publication Date Title
US11361017B1 (en) Method to differentiate and classify fingerprints using fingerprint neighborhood analysis
CN106126617B (zh) 一种视频检测方法及服务器
US8266185B2 (en) System and methods thereof for generation of searchable structures respective of multimedia data content
US6977679B2 (en) Camera meta-data for content categorization
US7539657B1 (en) Building parallel hybrid spill trees to facilitate parallel nearest-neighbor matching operations
US20140324840A1 (en) System and method for linking multimedia data elements to web pages
US20120099793A1 (en) Video summarization using sparse basis function combination
WO2012141655A1 (fr) Annotation de produit vidéo avec exploration d&#39;informations web
FR2996939A1 (fr) Procede de classification d&#39;un objet multimodal
EP1728195A1 (fr) Procede et systeme servant a effectuer la segmentation semantique de scenes d&#39;une sequence video
FR2968426A1 (fr) Calcul de comparaison asymetrique a grande echelle pour integrations binaires
KR101634395B1 (ko) 시퀀스 간의 비교 방법, 그 장치, 및 컴퓨터 프로그램 제품
WO2016102153A1 (fr) Representation semantique du contenu d&#39;une image
EP3356955A1 (fr) Procédé et système de recherche d&#39;images similaires quasi-indépendant de l&#39;échelle de la collection d&#39;images
EP2962301A2 (fr) Generation d&#39;une signature d&#39;un signal audio musical
Zhang et al. Large‐scale video retrieval via deep local convolutional features
EP2839410A1 (fr) Procede de reconnaissance d&#39;un contexte visuel d&#39;une image et dispositif correspondant
Ciaparrone et al. A comparison of deep learning models for end-to-end face-based video retrieval in unconstrained videos
WO2005093752A1 (fr) Procede et systeme de detection de changements de scenes audio et video
EP3420470A1 (fr) Procédé de description de documents multimedia par traduction inter-modalités, système et programme d&#39;ordinateur associés
WO1999040539A1 (fr) Procede de segmentation spatiale d&#39;une image en objets visuels et application
FR2830958A1 (fr) Procede d&#39;indexation, de stockage et de comparaison de documents multimedia
US12417245B2 (en) Scalable video fingerprinting for content authenticity
Sun et al. Hash length prediction for video hashing
Bhaumik et al. Keyframe Selection for Video Indexing Using Approximate Minimal Spanning Tree

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20180827

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: EXAMINATION IS IN PROGRESS

17Q First examination report despatched

Effective date: 20190709

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20200529