ES2366439T3

ES2366439T3 - Procedimiento de indexación y de identificación de documentos multimedia.

Info

Publication number: ES2366439T3
Application number: ES04805546T
Authority: ES
Inventors: Hassane Essafi; Larbi Guezouli; Salima Sayah; Ali Behloul; Clarisse Mandridake; Louafi Essafi
Original assignee: Advestigo; Hologram Industries SAS
Current assignee: Surys SA; Advestigo
Priority date: 2003-11-27
Filing date: 2004-11-25
Publication date: 2011-10-20
Anticipated expiration: 2024-11-25
Also published as: EP1697862B1; EP1697862A1; CA2547557A1; PL1697862T3; AU2004294586A1; IL175956A0; FR2863080A1; FR2863080B1; US7552120B2; US20070271224A1; WO2005055086A1; ATE510260T1

Abstract

Procedimiento de indexación de documentos multimedia, que comprende por lo menos las siguientes etapas: (a) identificar y extraer para cada documento términos ti constituidos por vectores que caracterizan propiedades del documento multimedia que debe indexarse, tales como la forma, la textura, el color o la estructura de una imagen, la energía, la tasa de oscilación o informaciones frecuenciales de una señal de audio, o un grupo de caracteres de un texto, (b) almacenar los términos ti que caracterizan propiedades del documento multimedia en una base de términos (3) que comprende P términos, caracterizado porque comprende además las siguientes etapas: (c) determinar un número máximo N de conceptos deseados que reagrupan los términos ti pertinentes, siendo N un número entero inferior a P, y estando previsto cada concepto Ci para reagrupar todos los términos próximos desde el punto de vista de sus características, (d) calcular la matriz T de distancias entre los términos ti de la base de términos, (e) descomponer el conjunto P de términos ti de la base de términos en N partes Pj (1 <= j <= N) tales que P = P1 UP2 ··· UPj... UPN, comprendiendo cada parte Pj un conjunto de términos tij y estando representada por un concepto Cj, estando los términos ti repartidos en la base de la matriz T, de tal manera que los términos más alejados unos de otros se encuentran en partes Pl, Pm distintas y los términos próximos unos de otros se encuentran en la misma parte Pl, (f) estructurar el diccionario de conceptos (5) de manera que constituye un árbol binario en el que cada hoja del árbol binario contiene un concepto Ci del diccionario y cada nudo del árbol contiene las informaciones necesarias para el escrutinio del árbol durante una etapa de identificación de un documento multimedia mediante comparación con los documentos indexados anteriormente, y (g) construir una base de huellas (25) constituida por el conjunto de los conceptos Ci que representan los términos ti de los documentos que van a indexarse, estando cada documento asociado a una huella que le es propia.

Description

La presente invención se refiere a los procedimientos de indexación y de identificación de documentos multimedia.

Desde un punto de vista general, la identificación de un documento multimedia comprende dos etapas:

•: Una etapa denominada de indexación, en la que se intenta caracterizar cada documento de una base previamente registrada por un número finito de parámetros que pueden fácilmente almacenarse y manipularse más tarde.

•: Una etapa denominada de búsqueda, en la que tras una consulta formulada por el usuario, por ejemplo la identificación de una imagen pregunta, se buscan todos los documentos multimedia similares o que responden a esta consulta.

Ya existen varios procedimientos de indexación de imágenes que ponen en práctica la extracción de los atributos de la forma de los objetos que componen la imagen si existen, así como los de la textura o del color de fondo de la imagen.

Sin embargo, los procedimientos conocidos se aplican a campos muy especializados o implican el tratamiento de una cantidad muy grande de información que conduce a una complejidad y una lentitud en el tratamiento de estas informaciones.

Se conoce en particular por el artículo de Y. Chang et al. titulado “Conceptual retrieval based on feature clustering of documents”, publicado en Proceedings of ACM Sigir Workshop on Mathematical-Formal Methods in Information Retrieval, en agosto de 2002, páginas 1-10, un procedimiento de búsqueda de documentos con por lo menos una etapa de identificación y de extracción para cada documento de términos constituidos por vectores que caracterizan las propiedades textuales del documento, y una etapa de descomposición en partes representadas por conceptos.

La presente invención tiende a remediar los inconvenientes mencionados anteriormente y a proporcionar un procedimiento de indexación y de identificación de documentos multimedia de una aplicación general que racionaliza el procedimiento de tratamiento y conduce a tiempos de tratamiento más cortos a la vez que aumenta la calidad de los resultados y su fiabilidad, lo que permite en particular proceder a búsquedas eficaces por el contenido.

Estos objetivos se alcanzan según la invención, gracias a un procedimiento de indexación de documentos multimedia, que comprende por lo menos las siguientes etapas:

(a): identificar y extraer para cada documento términos tj constituidos por vectores que caracterizan propiedades del documento multimedia que va a indexarse, tales como la forma, la textura, el color o la estructura de una imagen, la energía, la tasa de oscilación o informaciones frecuenciales de una señal de audio, o un grupo de caracteres de un texto,

(b): almacenar los términos ti que caracterizan propiedades del documento multimedia en una base de términos que comprende P términos, caracterizado porque comprende además las siguientes etapas:

(c): determinar un número máximo N de conceptos deseados que reagrupan los términos ti pertinentes, siendo N un número entero inferior a P, y estando previsto cada concepto Ci para reagrupar todos los términos próximos desde el punto de vista de sus características,

(d): calcular la matriz T de distancias entre los términos ti de la base de términos,

(e): descomponer el conjunto P de términos ti de la base de términos en N partes Pj (1≤j≤N) tales como P = P1 UP2 ··· UPj... UPN, comprendiendo cada parte Pj un conjunto de términos tij y estando representada por un concepto Cj, estando los términos ti repartidos en la base de la matriz T, de tal manera que los términos más alejados unos de otros se encuentran en partes Pl, Pm distintas y los términos próximos unos de otros se encuentran en la misma parte Pl,

(f): estructurar el diccionario de conceptos de manera que constituye un árbol binario en el que cada hoja del árbol binario contiene un concepto ci del diccionario y cada nudo del árbol contiene las informaciones necesarias para el escrutinio del árbol durante una etapa de identificación de un documento multimedia mediante comparación con los documentos indexados anteriormente, y

(g): construir una base de huellas constituida por el conjunto de conceptos ci que representan los términos ti de los documentos que van a indexarse, estando cada documento asociado con una huella que le es propia.

De manera más particular, se asocia a cada concepto ci de la base de huellas un conjunto de informaciones que comprende el número NbT de términos en los documentos en los que el concepto ci está presente.

Según un aspecto particular de la invención, para cada documento en el que está presente un concepto ci, se registra una huella del concepto ci en el documento, comprendiendo esta huella la frecuencia de aparición del concepto ci, la identificación de conceptos que están próximos al concepto ci en el documento y una puntuación que es un valor medio de medidas de similitudes entre el concepto ci y los términos ti del documento que son los más próximos al concepto ci.

Ventajosamente, el procedimiento según la invención comprende una etapa de optimización de la división del conjunto P de términos de la base de términos para descomponer este conjunto P en M clases Ci (1 ≤ i ≤ M, con M ≤ P), de manera que reduce el error del reparto del conjunto P de términos de la base de términos en N partes (P1, P2,... PN) en el que cada parte Pi se representa por el término timagen1 i que se tomará como concepto Ci, siendo el error

cometido ε tal que

imagen1 en la que

es el error cometido cuando se sustituyen los términos tj de una parte Pi por ti.

En este caso, el procedimiento puede comprender las siguientes etapas:

(i): descomponer el conjunto P de términos en dos partes P1 y P2;

(ii): determinar los dos términos más alejados ti y tj del conjunto P que corresponde a la distancia más grande Dij de la matriz T de distancias;

(iii) para cada término tk del conjunto P, examinar si la distancia Dk; entre el término tk y el término ti es más pequeña que la distancia Dkj entre el término tk y el término tj, si es así asignar el término tk a la parte Pi y si no es así asignar el término tk a la parte P2;

(iv) repetir la etapa (i) hasta obtener el número N de puntos Pi deseado y en cada iteración aplicar las etapas (ii) y (iii) en los términos de las partes Pi y P2.

El procedimiento según la invención puede caracterizarse más particularmente porque comprende una optimización a partir de las N partes desunidas {P1, P2,... PN} del conjunto P así como N términos {t1, t2, tN} que las representan para reducir el error de descomposición del conjunto P en N partes, y porque comprende las siguientes etapas:

(i): calcular los centros de gravedad Ci de las partes Pi

(ii): calcular los errores cuando se sustituyen los términos tj de la parte Pi respectivamente por Ci y por ti,

imagen2

(iii) comparar εti y εCi y sustituir ti por Ci si εCi ≤εti,

(iv) calcular la nueva matriz T de distancias entre los términos tj de la base de términos y procedimiento de descomposición del conjunto P de términos de la base de términos en N partes, salvo si se cumple una condición imagen1

de parada con < umbral, en la que εCt representa el error cometido en el instante t.

Con el fin de facilitar la búsqueda y la identificación de documentos, para efectuar una estructuración del diccionario de conceptos, se produce de manera iterativa en cada iteración una carta de navegación empezando por dividir el conjunto de conceptos en dos subconjuntos, y luego seleccionando un subconjunto en cada iteración hasta la obtención del número de grupo deseado o hasta que se satisface un criterio de parada.

El criterio de parada puede caracterizarse por el hecho de que los subconjuntos obtenidos son todos homogéneos con una pequeña desviación estándar.

De manera más particular, durante la estructuración del diccionario de conceptos, se determinan indicadores de imagen1 imagen1

navegación a partir de una matriz del conjunto C de conceptos en la que ci representa un concepto de p valores, según las siguientes etapas:

(i) calcular un representante w de la matriz M,

~

(ii) calcular la matriz de covarianza M entre los elementos de la matriz M y el representante w de la matriz M,

(iii) calcular un eje de proyección u de los elementos de la matriz M,

(iv): calcular el valor pi = d(u, Ci) -d(u, w) y descomponer el conjunto de conceptos C en dos subconjuntos C1 y C2 de la siguiente manera:

(v): almacenar en el nudo asociado con C las informaciones {u, w, |p1|, p2} en la que p1 es el máximo de todos los pi

imagen1

≤ 0 y p2 es el mínimo de todos los pi > 0, constituyendo el conjunto de las informaciones {u, w, |p1|, p2} los 10 indicadores de navegación en el diccionario de conceptos.

Según un modo particular de realización, se analizan a la vez las componentes estructurales y el complemento de estas componentes estructurales constituido por las componentes texturales de una imagen del documento, y:

15 (a) durante el análisis de las componentes estructurales de la imagen

(a1) se procede a un reparto de las zonas fronteras de las estructuras de la imagen en diferentes clases según la orientación de la variación local de intensidad de manera que define los elementos de soporte estructural (ESS) de la imagen, y

20 (a2) se procede por análisis estadístico a la construcción de términos constituidos por vectores que describen las propiedades locales y globales de los elementos de soporte estructurales,

(b) durante el análisis de las componentes texturales de la imagen 25

(b1) se procede a una detección y una caracterización paramétrica de una componente puramente aleatoria de la imagen,

(b2) se procede a una detección y una caracterización paramétrica de una componente periódica de la 30 imagen,

(b3) se procede a una detección y una caracterización paramétrica de una componente direccional de la imagen,

35 (c) se reagrupa en un número limitado de conceptos el conjunto de los elementos descriptivos de la imagen constituidos por una parte, por los términos que describen las propiedades locales y globales de los elementos de soporte estructurales y por otra parte los parámetros de las caracterizaciones paramétricas de las componentes aleatoria, periódica y direccional que definen las componentes texturales de la imagen, y

40 (d) se define para cada documento una huella a partir de las apariciones, de las posiciones y de las frecuencias de dichos conceptos.

Ventajosamente, las propiedades locales de los elementos de soporte estructurales tenidas en cuenta para la construcción de términos que comprenden por lo menos el tipo de soporte seleccionado de entre una banda lineal o

45 un arco de curva, las dimensiones de longitud y anchura del soporte, la dirección principal del soporte y la forma y las propiedades estadísticas de los píxeles que constituyen el soporte.

Las propiedades globales de los elementos de soporte estructurales tenidas en cuenta para la construcción de términos comprenden por lo menos el número de cada tipo de soportes y su disposición espacial.

50 Preferiblemente, durante el análisis de las componentes estructurales de la imagen se procede a una prueba previa de detección de la presencia de por lo menos una estructura en la imagen y, en caso de ausencia de estructura, se pasa directamente a la etapa del análisis de las componentes texturales de la imagen.

55 Ventajosamente, para proceder a una reparto de las zonas fronteras de las estructuras de la imagen en diferentes clases, a partir de la imagen digitalizada definida por el conjunto de los píxeles y(i,j) en la que (i,j) ∈ I x J, designando I y J respectivamente el número de líneas y el número de columnas de la imagen, se calcula la imagen gradiente vertical gv (i,j) con (i,j) ∈ I x J y la imagen gradiente horizontal gh con (i,j) ∈ I x J y se procede a la división de la imagen según la orientación local de su gradiente en un número finito de clases equidistantes, definiéndose la

60 imagen que contiene la orientación del gradiente por la fórmula se identifican las clases que constituyen regiones de soporte susceptibles de contener los elementos de soporte significativos, y a partir de las regiones de soporte, se determinan los elementos de soporte significativos y se catalogan según criterios predeterminados.

imagen1

Según un aspecto particular de la invención, se analiza las formas de una imagen de un documento según las siguientes etapas:

(a): proceder a una multirresolución seguida de una decimación de la imagen,

(b): definir la imagen en el espacio logarítmico polar,

(c): representar la imagen o la porción de la imagen afectada por su transformada de Fourier H,

(d): proceder a una caracterización de la transformada de Fourier H de la siguiente manera:

(d1) se proyecta H en varias direcciones para obtener un conjunto de vectores cuya dimensión es igual a la dimensión del movimiento de proyección,

(d2) se calculan las propiedades estadísticas de cada vector de proyección, y

(e) representar la forma de la imagen por un término ti constituido por los valores de las propiedades estadísticas de cada vector de proyección.

Según un aspecto particular de la invención, durante la indexación de un documento multimedia que comprende señales de vídeo, se eligen términos ti constituidos por imágenes clave que representan grupos de imágenes homogéneas consecutivas, y se determinan conceptos ci mediante reagrupamiento de términos ti.

Para determinar imágenes clave que constituyen términos ti, se elabora en primer lugar un vector de puntuación VS que comprende un conjunto de elementos VS(i) que materializan la diferencia o la similitud entre el contenido de una imagen de índice i y el de una imagen de índice i-1, y se analiza el vector de puntuación VS con el fin de determinar las imágenes clave que corresponden a los máximos de los valores de los elementos VS(i) del vector de puntuación VS.

De manera más particular, una imagen de índice j se considera como una imagen clave si el valor VS(j) del elemento correspondiente del vector de puntuación VS es un máximo y el valor VS(j) se sitúa entre dos mínimos min G y min D y el mínimo M1 tal que M1 = (|VS(j) -min G|, |VS(j) -min D|) es superior a un umbral dado.

Se considerará de nuevo la indexación de un documento multimedia, que comprende componentes de audio, se toman muestras y se descompone el documento en tramas, que se reagrupan a continuación en clips de los que cada uno se caracteriza por un término ti constituido por un vector de parámetro.

Una trama puede comprender por ejemplo entre aproximadamente 512 y 2048 muestras del documento de audio del que se han tomado muestras.

Ventajosamente, los parámetros tenidos en cuenta para la definición de los términos ti comprenden informaciones temporales que corresponden a por lo menos uno de los siguientes parámetros: la energía de las tramas de la señal de audio, la desviación estándar de las energías de las tramas en los clips, la relación de las variaciones sonoras, la relación de baja energía, la tasa de oscilación alrededor de un valor predeterminado, la alta tasa de oscilación alrededor de un valor predeterminado, la diferencia entre el número de tasa de oscilación por encima y por debajo de la tasa de oscilación media de las tramas de clips, la varianza de la tasa de oscilación, la relación de las tramas silenciosas.

Sin embargo, de manera alternativa o complementaria, de manera ventajosa, los parámetros tenidos en cuenta para la definición de los términos ti comprenden informaciones frecuenciales que corresponden a por lo menos uno de los siguientes parámetros: el centro de gravedad del espectro de frecuencia de la transformada de Fourier corta de la señal de audio, la anchura de banda de la señal de audio, la relación entre la energía en una banda de frecuencia y la energía total en toda la banda de frecuencia de la señal de audio de la que se han tomado muestras, el valor medio de la variación del espectro de dos tramas adyacentes en un clip, la frecuencia de corte de un clip.

De manera más particular, los parámetros tenidos en cuenta para la definición de los términos ti pueden comprender por lo menos la modulación de energía a 4 Hz.

Otras características y ventajas de la invención se destacarán de la siguiente descripción de modos particulares de realización, facilitados a modo de ejemplo, haciendo referencia a los dibujos adjuntos, en los que:

-la figura 1 es un diagrama de bloques que muestra el procedimiento de producción de un diccionario de conceptos a partir de una base de documentos, según la invención,

-la figura 2 muestra el principio de construcción de una base de conceptos a partir de términos,

-la figura 3 es diagrama de bloques que muestra el procedimiento de estructuración de un diccionario de conceptos, según la invención,

-la figura 4 muestra la estructuración de una base de huellas puesta en práctica en el marco del procedimiento según la invención,

-la figura 5 es un organigrama que muestra las diferentes etapas de construcción de una base de huellas,

-la figura 6 es un organigrama que muestra las diferentes etapas de identificación de documentos,

-la figura 7 es un organigrama que muestra la selección de una primera lista de respuestas,

-la figura 8 es un organigrama que muestra las diferentes etapas de una etapa de indexación de documentos según el procedimiento según la invención,

-la figura 9 es un organigrama que muestra las diferentes etapas de extracción de términos en el caso del tratamiento de imágenes,

-la figura 10 es un esquema que resume el procedimiento de descomposición de una imagen regular y homogénea,

-las figuras 11 a 13 muestran tres ejemplos de imágenes que contienen diferentes tipos de elementos,

-las figuras 14a a 14f muestran respectivamente un ejemplo de imagen original, un ejemplo de imagen después de tratamiento teniendo en cuenta el módulo de gradiente, y cuatro ejemplos de imágenes tratadas con desmantelamiento de las zonas fronteras de la imagen,

-la figura 15a representa un primer ejemplo de imagen que contiene un elemento direccional,

-la figura 15a1 es una vista 3D del espectro de imagen de la figura 15a,

-la figura 15b representa un segundo ejemplo de imagen que contiene un elemento direccional,

-la figura 15b1 es una imagen módulo de Fourier de la imagen de la figura 15b,

-la figura 15c representa un tercer ejemplo de imagen que contiene dos elementos direccionales,

-la figura 15c1 es una imagen módulo de Fourier de la imagen de la figura 15c,

-la figura 16 ilustra direcciones de proyección para pares de enteros (α,β) en el marco del cálculo de la

transformada de Fourier discreta de una imagen, -la figura 17 ilustra un ejemplo de mecanismo de proyección con el ejemplo de un par de entradas (αk, βk) = (2,

1),

-la figura 18a1 representa un ejemplo de imagen que contiene componentes periódicas,

-la figura 18a2 representa la imagen módulo de la transformada de Fourier discreta de la imagen de la figura

18a1,

-la figura 18b1 representa un ejemplo de imagen sintética que contiene una componente periódica,

-la figura 18b2 representa una vista en 3D de la transformada de Fourier discreta de la imagen de la figura 18b1,

que hace aparecer un par de picos simétricos,

-la figura 19 es un organigrama que muestra las diferentes etapas de tratamiento de una imagen con establecimiento de un vector que caracteriza la distribución espacial de las propiedades icónicas de la imagen,

-la figura 20 muestra un ejemplo de división de una imagen y de creación de un vector característico de esta imagen, -la figura 21 muestra una rotación de 90º de la imagen dividida de la figura 20 y la creación de un vector característico de esta imagen, -la figura 22 muestra la descomposición de una señal sonora en tramas en clips, -la figura 23a muestra la variación de energía de una señal de voz, -la figura 23b muestra la variación de energía de una señal de música, -la figura 24a muestra la tasa de paso por cero de una señal de voz, -la figura 24b muestra la tasa de paso por cero de una señal de música, -la figura 25a muestra el centro de gravedad del espectro de frecuencia de la transformada de Fourier corta de una señal de voz, -la figura 25b muestra el centro de gravedad del espectro de frecuencia de la transformada de Fourier corta de una señal de música, -la figura 26a muestra la anchura de banda de una señal de voz, -la figura 26b muestra la anchura de banda de una señal de música, -la figura 27a muestra para tres sub-bandas de frecuencia 1, 2, 3 la relación de energía en cada sub-banda de frecuencia con respecto a la energía total de toda la banda de frecuencia, para una señal de voz, -la figura 27b muestra para tres sub-bandas de frecuencia 1, 2, 3 la relación de energía en cada sub-banda de frecuencia con respecto a la energía total de toda la banda de frecuencia, para una señal de música, -la figura 28a muestra el flujo espectral de una señal de voz, -la figura 28b muestra el flujo espectral de una señal de música, -la figura 29 es un gráfico que ilustra la definición de la frecuencia de corte de un clip, y

-la figura 30 ilustra, para una señal de audio, la modulación de la energía alrededor de 4 Hz. Se describirá en primer lugar haciendo referencia a las figuras 1 a 5, el principio general del procedimiento de indexación de documentos multimedia según la invención, que conduce a la construcción de una base de huellas, estando asociado cada documento indexado con una huella que le es propia.

A partir de una base de documentos multimedia 1, una primera etapa 2 consiste en la identificación y la extracción, para cada documento, de términos ti constituidos por vectores que caracterizan propiedades del documento que va a indexarse.

A modo de ejemplo, se describirá, haciendo referencia a las figuras 22 a 30, la manera en que es posible identificar y

extraer términos ti para un documento sonoro. Un documento de audio 140 se descompone en primer lugar en tramas 160 que se reagrupan a continuación en clips 150 de los cuales cada uno va a caracterizarse por un término constituido por un vector de parámetros (figura 22). Un documento de audio 140 se caracterizará por tanto por un conjunto de términos ti que se almacenarán en una base de términos 3 (figura 1).

Se pueden tomar muestras de los documentos audio de los cuales se ha extraído su vector característico, por ejemplo, a 22.050 Hz con el fin de evitar el efecto de solapamiento. El documento se divide a continuación en un conjunto de tramas cuyo número de muestras por trama se fija en función del tipo de archivo que va a analizarse.

Para un documento de audio rico en frecuencias y que contiene muchas variaciones, como las películas por ejemplo, los programas de variedades o incluso los programas deportivos, el número de muestras en una trama tiene que ser pequeño, del orden de 512 muestras por ejemplo. Sin embargo, para un documento de audio homogéneo que sólo contiene voz o música por ejemplo, este número tiene que ser importante, por ejemplo del orden de 2.048 muestras.

5

15

25

35

Un clip de documento de audio puede caracterizarse por diferentes parámetros que sirven para constituir los términos y que caracterizan informaciones temporales o frecuenciales.

Es posible utilizar la totalidad o parte de los parámetros que se mencionarán más adelante para formar vectores de parámetros que constituyen los términos que identifican los clips sucesivos del documento de audio del que se han tomado muestras.

La energía de las tramas de la señal de audio constituye un primer parámetro que representa una información temporal.

La energía de la señal de audio varía mucho para la voz mientras que es bastante estable para la música. Por lo tanto, permite discriminar la voz de la música pero también detectar los silencios. La energía puede acoplarse con otro parámetro temporal tal como la tasa de oscilación (TO) alrededor de un valor, que puede corresponder por ejemplo a la tasa de paso por cero (TPZ). En efecto, una TO pequeña y una energía fuerte son sinónimos de un sonido vocal mientras que una TO elevada induce una zona no vocal.

La figura 25a representa una señal 141 que ilustra la variación de energía en el caso de una señal de voz.

La figura 23b representa una señal 142 que ilustra la variación de energía en el caso de una señal de música.

Sea N el número de muestras en una trama, el volumen o energía E(n) se define por:

imagen1

en la que Sn(i) representa el valor de la muestra i de la trama de índice n de una señal de audio.

Otros parámetros representativos de informaciones temporales se pueden deducir de la energía, como por ejemplo:

-la desviación estándar de las energías de las tramas en los clips (también denominado EEC o VSTD) que constituye un estado definido como la varianza de los volúmenes de las tramas en un clip normalizado por el máximo del volumen de las tramas del clip,

-la relación de las variaciones sonoras (RVS) que está constituida por la diferencia entre el máximo y el mínimo de los volúmenes de las tramas de un clip dividido por el máximo de los volúmenes de estas tramas,

-la relación de baja energía (o LER) que es el porcentaje de las tramas cuyo volumen es inferior a un umbral (que se fija por ejemplo al 95% del volumen medio de un clip).

Otros parámetros permiten caracterizar el aspecto temporal de un clip, en particular la tasa de oscilación alrededor de un valor predeterminado, que, cuando este valor predeterminado es cero, define una tasa de paso por cero (o TPZ).

La TPZ también puede definirse por el número de veces que la onda pasa por cero.

imagen3

Sn(i):Valor de la muestra i, de la trama n.

N: número de muestras en una trama. fs: frecuencia de toma de muestras. Esta característica se utiliza frecuentemente para la clasificación voz/música. En efecto, las variaciones bruscas de

la TPZ son significativas de la alternancia vocal/no vocal y por lo tanto de la presencia de voz. Para la voz, la TPZ es pequeña para las zonas vocales, y muy elevada para las zonas no vocales mientras que para la música, las variaciones de la TPZ son muy pequeñas.

La figura 24a muestra una curva 143 que ilustra un ejemplo de TPZ para una señal de voz. La figura 24b muestra una curva 144 que ilustra un ejemplo de TPZ para una señal de música.

Otro parámetro que caracteriza el aspecto temporal de un clip puede estar constituido por la alta tasa de oscilación alrededor de un valor predeterminado que, cuando este valor predeterminado es cero, define una alta tasa de paso por cero (o HTPZ).

La HTPZ puede definirse como la relación del número de tramas cuya TPZ es un valor α, por ejemplo 1,5 por encima de la TPZ media del clip (1s):

imagen1

10 tal que: siendo:

n: índice de la trama. 15

N: número de tramas en un clip.

Para los segmentos de voz los clips son de 0 a 200 s con una HTPZ de alrededor de 0,15.

20 Sin embargo, para los segmentos de música, los clips son de 200 a 350 s y la HTPZ varía alrededor de 0,05 y es en general casi nula.

Para el sonido ambienta los segmentos que corresponden a los clips son de 351 a 450 s.

25 La HTPZ es pequeña para el ruido blanco y grande para un sonido ensordecedor (tambor por ejemplo).

También puede definirse el parámetro DTPZ que está constituido por la diferencia entre el número de TPZ por encima y por debajo de la TPZ media de las tramas de un clip, así como el parámetro VTPZ que está constituido por la varianza de la TPZ.

30 Otro parámetro que caracteriza el aspecto temporal de un clip es la relación de las tramas silenciosas (RFS) que es el porcentaje de las tramas no silenciosas en un clip.

Una trama es no silenciosa si su volumen sobrepasa un determinado umbral (10) y si el valor de la TPZ es inferior a 35 una Tpz umbral.

Así la relación de tramas no silenciosas en un clip permite detectar el silencio.

Otras propiedades estadísticas de la TPZ puede utilizarse como parámetros característicos, tales como:

40 i) instante del tercer orden de la media, ii) el número de TPZ que sobrepasan un determinado umbral.

Los parámetros tenidos en cuenta para la definición de los términos ti también pueden comprender informaciones 45 frecuenciales que tienen en cuenta el cálculo de la transformada de Fourier rápida (FFT) de la señal de audio.

Así, un parámetro denominado centroide espectral (CS) puede definirse como el centro de gravedad del espectro de frecuencia de la transformada de Fourier corta (STFT) de la señal de audio:

imagen1

tal que Sn(i): Potencia espectral de la trama i del clip El parámetro CS es elevado para la música ya que las alturas se reparten en una zona más extendida que la de la

voz (en general 6 octavas para la música y 3 para la voz). Tiene una relación con la sensación de la claridad del sonido que se escucha. Es un atributo perceptivo importante para la caracterización del timbre.

La figura 25a muestra una curva 145 que ilustra un ejemplo de CS para una señal de voz. 5 La figura 25b muestra una curva 146 que ilustra un ejemplo de CS para una señal de música.

Otro parámetro está constituido por la anchura de banda LB que se puede calcular a partir de la varianza del parámetro anterior CS(n).

10

imagen1

La anchura de banda LB es importante tanto en música como en voz.

15 La figura 26a muestra una curva 147 que ilustra un ejemplo de anchura de banda de una señal de voz.

La figura 26b muestra una curva 148 que ilustra un ejemplo de anchura de banda de una señal de música.

Otro parámetro útil está constituido por la relación ERSB entre la energía en una sub-banda de frecuencia i y la 20 energía total en toda la banda de frecuencia de la señal de audio de la que se han tomado muestras.

Al considerar las propiedades perceptivas del oído humano, la banda de frecuencia se ha dividido en cuatro sub-bandas en las que estas últimas corresponden a los filtros de Cochlear. Cuando la frecuencia de toma de muestras es de 22025 Hz, las bandas de frecuencias son: 0-630Hz, 630-1720Hz, 1720-4400Hz y 4400-11025Hz. Para cada

25 una de estas bandas se calcula su energía ERSBi, que corresponde a la relación de la energía de esta última con respecto a la energía en toda la banda de frecuencia.

La figura 27a muestra tres curvas 151, 152, 153 que ilustran para tres sub-bandas de frecuencia 1, 2, 3 la relación de energía en cada sub-banda de frecuencia con respecto a la energía total de toda la banda de frecuencia, para un 30 ejemplo de señal de voz.

La figura 27b muestra tres curvas 154, 155, 156 que ilustran para tres sub-bandas de frecuencia 1, 2, 3 la relación de energía en cada sub-banda de frecuencia con respecto a la energía total de toda la banda de frecuencia, para un ejemplo de señal de música.

35 Otro parámetro está constituido por el flujo espectral que se define como el valor media de la variación del espectro de dos tramas adyacentes en un clip:

imagen1

40 en la que

δ Una constante de un valor pequeño,

45 Sn(i): Potencia espectral de la trama i del clip n.

El flujo espectral de la voz es en general más importante que el de la música, y el del sonido ambiental es el más grande. Varía considerablemente en comparación con las otras dos señales.

50 La figura 28a muestra una curva 157 que ilustra el flujo espectral de un ejemplo de señal de voz.

La figura 28b muestra una curva 158 que ilustra el flujo espectral de un ejemplo de señal de música.

Otro parámetro útil está constituido por la frecuencia de corte de un clip (FCC).

55 La figura 29 muestra una curva 149 que ilustra el espectro de amplitud en función de la frecuencia fe, y la frecuencia de corte fc que es la frecuencia por debajo de la cual se concentra el 95% de la energía del espectro (la potencia espectral).

5

15

25

35

45 Para determinar la frecuencia de corte del clip, se calcula la transformada de Fourier del clip DS(n)

imagen1

La frecuencia fc está determinada por:

y

imagen1

La FCC es más elevada para un sonido no vocal (sonido rico en altas frecuencias) que para un sonido vocal (presencia de voz en la que la potencia se concentra en las bajas frecuencias).

Esta medida permite caracterizar las alternancias vocales/no vocales de la voz ya que este valor es pequeño para los clips que contienen únicamente música.

También pueden tenerse en cuenta otros parámetros para la definición de los términos ti de un documento de audio, tales como la modulación de energía alrededor de 4 Hz, que constituye un parámetro procedente a la vez de un análisis frecuencial y de un análisis temporal.

La modulación de energía a 4 Hz (4 ME) se calcula a partir del contorno del volumen, según la siguiente fórmula:

imagen1

en la que Sn(i): Potencia espectral de la trama i del clip n. W(j): Ventana triangular centrada en 4Hz.

T: Anchura de un clip.

La voz presenta una 4ME más importante que la música ya que, para la voz, los cambios de sílaba se sitúan alrededor de 4 Hz.

Una sílaba es en efecto una combinación de una zona de pequeña energía (consonante) y de una zona de fuerte energía (vocal).

La figura 30 muestra una curva 161 que ilustra un ejemplo de señal de audio y una curva 162 que muestra para esta señal la modulación de la energía alrededor de 4 Hz.

Se ha descrito anteriormente el caso de documentos multimedia que comprenden componentes de audio.

En el caso de la indexación de documentos multimedia que comprenden señales de vídeo, se pueden elegir términos ti constituidos por imágenes clave que representan grupos de imágenes homogéneas consecutivas.

Los términos ti pueden a su vez representar por ejemplo colores dominantes, propiedades texturales, estructuras de zonas dominantes de las imágenes clave del documento de vídeo.

De una manera general, en el caso de las imágenes que se desarrollará con mayor detalle a continuación, los términos pueden representar colores dominantes, propiedades texturales, estructuras de las zonas dominantes de la imagen. Pueden ponerse en práctica varios procedimientos de manera alternativa o acumulativa, tanto en la totalidad de la imagen como en porciones de la imagen, para determinarlos los términos ti que deben caracterizar la imagen.

En el caso de un documento que contiene texto, los términos ti pueden estar constituidos por palabras del lenguaje hablado o escrito, por números y por otros identificadores constituidos por combinaciones de caracteres (por ejemplo de las combinaciones de letras y de cifras).

Se considerará de nuevo la indexación de un documento multimedia que comprende señales de vídeo, para el que se eligen los términos ti constituidos por imágenes clave que representan grupos de imágenes homogéneas consecutivas, y se determinan conceptos ci mediante reagrupamiento de términos ti.

La detección de las imágenes clave se basa en el reagrupamiento de las imágenes de un documento de vídeo en grupos que contienen cada uno únicamente imágenes homogéneas. De cada uno de los grupos se extrae una o varias imágenes (denominadas imágenes clave) que representan el documento de vídeo.

El reagrupamiento de las imágenes del documento de vídeo se basa en la producción de un vector de puntuación denominado VS que representa el contenido del vídeo, caracteriza la variación de las imágenes consecutivas del vídeo (el elemento VSi materializa la diferencia entre el contenido de la imagen de índice i y el de la imagen de índice i-1), VS es igual a cero cuando los contenidos imi y imi-1 son idénticos y es importante cuando la diferencia entre los dos contenidos es importante.

Para calcular la señal VS, las tres bandas de cada imagen imi RGB de índice i de vídeo se adicionan para constituir una sola imagen denominada TRi. A continuación, la imagen TRi se descompone en varias bandas de frecuencia para conservar solo la componente de baja frecuencia TRBi. Se utiliza para ello dos filtros de espejo (un filtro de paso bajo PB y un filtro de paso alto PH) que se aplican sucesivamente en las líneas y en las columnas de la imagen. Se considerarán dos tipos de filtro: ondículas de Haar y el filtro cuyo algoritmo es el siguiente:

Barrido lineal A partir de TRk se produce la imagen Bajo Para cada punto a2xi,j de la imagen TR hacer Calcular el punto bi,j de la imagen baja frecuencia bajo, bi,j adopta el valor mediano de a2xi,j-1, a2xi,j y a2x,j+1. Barrido en columnas A partir de las dos imágenes Bajo se produce la imagen TRBk Para cada punto bi,2xj de la imagen TR hacer Calcular el punto bbi,j de la imagen baja frecuencia bajo, bbi,j adopta el valor mediano de bi,2xj-1,bi,2xj y bi,2xj+1

Los barridos lineal y en columnas se aplican tantas veces como se desee. El número de iteraciones depende de la resolución de las imágenes del vídeo. Para imágenes de tamaño 512x512 puede fijarse n a tres.

La imagen resultado TRBi se proyecta en varias direcciones para obtener un conjunto de vectores Vk, k es el ángulo de proyección (el elemento j de VO, vector obtenido tras la proyección horizontal de la imagen, es igual a la suma de todos los puntos de la línea j de la imagen). Los vectores de direcciones de la imagen TRBi se comparan con los vectores de dirección de TRBi-1 para obtener una puntuación i que mide la similitud entre estas dos imágenes. Esta puntuación se obtiene mediante la media de todas las distancias de los vectores de misma dirección: para cada k se calcula la distancia entre el vector Vk de la imagen i y el vector Vk de la imagen i-1 y luego se calculan todas estas distancias.

El conjunto de todos los resultados constituye el vector de puntuación VS: el elemento i de VS mide la similitud entre la imagen TRBi y la imagen TRBi-1. El vector VS se alisa con el fin de eliminar las irregularidades debidas al ruido generado durante la manipulación del vídeo.

A continuación se describirá un ejemplo de reagrupamiento de las imágenes y de extracción de las imágenes clave.

El vector VS se analiza con el fin de determinar las imágenes clave que corresponden a los máximos de los valores de VS. Una imagen de índice j se considera como una imagen clave si el valor VS(j) es un máximo y si VS(j) se sitúa entre dos mínimos minG (mínimo izquierdo) y minD (mínimo derecho) y si el mínimo M1 tal como M1 = min (|VS(Cj)minG|, |VS(j)-min D| es superior a un umbral dado.

Para detectar las imágenes clave, se inicializa minG con VS(0) y luego se recorre el vector VS de izquierda a derecha. En cada etapa, se determina el índice j que corresponde al valor máximo situado entre dos mínimos (minG y minD) y luego en función del resultado de la ecuación que define M1 se decide considerar j como un índice de una imagen clave o no. Es posible tomar un grupo de varias imágenes clave próximas, por ejemplo de las imágenes clave de índices j-1, j y j+1.

Se presentan tres casos si el mínimo de las dos pendientes, definidas por los dos mínimos (minG y minD) y el valor máximo, no es superior al umbral:

5

15

25

35

45

55

i) Si IVS(j) -minGl es inferior al umbral y minG no corresponde a VS(o), el máximo VS(j) se ignora y minD se vuelve minG,

ii) Si |VS(j) -minG| es superior al umbral y si |VS(j)-minD| es inferior al umbral, el minD y el máximo VS(j) se conservan y minD se ignora salvo si el máximo más próximo a la derecha de min D es superior a un umbral. En este caso, también se conserva minD y se declara j como un índice de una imagen clave. En el caso en el que minD se ignora, minD adoptará el valor más próximo del mínimo situado a la derecha de minD.

iii) Si las dos pendientes son inferiores al umbral, minG se conserva y minD y j se ignoran.

Tras la selección de una imagen clave, se itera el procedimiento. En cada iteración minD se vuelve minG.

Si se hace referencia de nuevo a la figura 1, a partir de una base de términos 3 que comprende P términos, se procede en una etapa 4 a un tratamiento de los términos ti y a su reagrupamiento en conceptos Ci (figura 2) destinados a almacenarse en un diccionario de conceptos 5. Se trata en este caso de elaborar un conjunto de firmas que caracterizan una clase de documentos. Las firmas son descriptores que, por ejemplo en el caso de la imagen, representan el color, la forma y la textura. Un documento puede entonces caracterizarse y representarse por los conceptos del diccionario.

Entonces puede formarse una huella de un documento por los vectores firmas de cada concepto del diccionario 5. El vector firma está constituido por los documentos en los que el concepto Ci está presente así como por las posiciones y el peso de este concepto en el documento.

Los términos ti extraídos de una base de documentos 1 se almacenan en una base de términos 3 y se tratan en un módulo 4 de extracción de conceptos ci que se reagrupan a su vez en un diccionario de conceptos 5. La figura 2 ilustra el procedimiento de construcción de una base de conceptos ci (1 ≤ i ≤ m) a partir de términos tj (1 ≤ j ≤ n) que presentan resultados de similitud wij.

El módulo de la producción del diccionario de conceptos recibe en la entrada el conjunto P de los términos de la base 3 y el número máximo N de conceptos deseado se fija por el usuario: cada concepto ci está previsto para reagrupar todos los términos próximos desde el punto de vista de sus características.

Para producir el diccionario de conceptos, se empieza por calcular la matriz de distancia T entre los términos de la base 3, esta matriz se utiliza para crear una división cuyo cardinal es igual al número N de conceptos deseado.

La creación del diccionario de conceptos se efectúa en dos etapas: descomposición de P en N partes P =P1U P2... U PN

Procedimiento de optimización de la división que descompone P en M clases P=C1U C2... UCM siendo M inferior o igual a P.

El procedimiento de optimización tiene como objetivo de reducir el error del reparto de P en N partes {P1, P2,..., PN} en la que cada parte Pi se representa por el término ti que se tomará como concepto, el error cometido es entonces igual a la siguiente expresión:

imagen1

es el error cometido cuando se sustituyen los términos tj dePi por ti.

Se puede descomponer P en N partes de manera que se reparten los términos de tal manera que los términos más alejados se encuentran en partes distintas y los términos próximos se encuentran en la misma parte. Se describirá en primer lugar la etapa 1 de descomposición del conjunto de términos P en dos partes P1 y P2:

(a): Se determinan los dos términos más alejados ti y tj de P que corresponden a la distancia más grande Dij de la matriz T.

(b): Para cada tk de P, tk se asigna a P1 si la distancia Dki es más pequeña que la distancia Dkj y si no a P2. Se itera la etapa 1 hasta la obtención del número de partes deseado y en cada iteración se aplican las etapas (a) y

(b): en los términos del conjunto P1 y del conjunto P2. Ahora se describirá una etapa de optimización.

El procedimiento de optimización tiene como punto de partida las N partes desunidas de P {P1, P2,..., PN} así como los N términos {t1, t2,..., tN} que las representan y se utiliza con el fin de reducir el error de descomposición de P en {P1, P2,..., PN} partes.

imagen1

Se empieza por calcular los centros de gravedad Ci de Pi. A continuación se calcula el error que se compara con εci y se sustituye ti por Ci si εci es inferior a εti. Luego, después de haber calculado la nueva matriz T y si no se alcanza la convergencia, se procede a una descomposición. La condición de parada se define por imagen1

< umbral que es del orden de 10-3. Siendo εct el error cometido en el instante t que representa la 10 iteración.

A continuación se presenta una matriz T de distancias entre los términos, en la que Dij designa la distancia entre el término ti y el término tj.

t0: ti tk tj tn

t0: D00 D0i D0k D0j D0n

ti: Di0 Dii Dik Dij Din

tk: Dk0 Dki Dkk Dki Dkn

tj: Dj0 Dji Dik Dii Din

tn: Dn0 Dni Dnk Dni Dnn

15 La figura 3 ilustra, en el caso de documentos multimedia de contenido diverso, un ejemplo de estructuración del diccionario de conceptos 5.

Con el fin de facilitar la navegación dentro del diccionario 5 y de determinar rápidamente durante una etapa de

20 identificación el concepto más próximo de un término dado, se analiza el diccionario 5 y se establece un mapa 9 de navegación dentro del diccionario.

La producción de la mapa 9 de navegación se efectúa de manera iterativa. En cada iteración, se empieza por dividir el conjunto de conceptos en dos subconjuntos, y luego en cada iteración se selecciona un subconjunto hasta la

25 obtención del número de grupos deseado o bien hasta que se satisface el criterio de parada. Este criterio de parada puede ser por ejemplo que los subconjuntos obtenidos son todos homogéneos con una pequeña desviación estándar por ejemplo. El resultado final es un árbol binario en el que las hojas contienen los conceptos del diccionario y los nudos del árbol contienen las informaciones necesarias para el escrutinio del árbol durante la etapa de identificación de un documento.

30 Se describirá a continuación un ejemplo de módulo 6 de reparto de un conjunto de conceptos.

El imagen1 conjunto de conceptos C se representa en forma de una matriz con

en la que ci representa un concepto de p valores. Diferentes procedimientos son posibles para garantizar 35 un reparto axial. En este caso, se empieza por calcular el centro de gravedad C así que el eje utilizado para descomponer el conjunto en dos subconjuntos.

Las etapas de tratamiento son las siguientes:

40 Etapa 1: calcular un representante de la matriz M tal como el centroide w de la matriz

imagen1

~

Etapa 2: calcular la matriz de covarianza M entre los elementos de la matriz M y el representante de la matriz M 5

15

25

35

45

55

con, en el caso particular anterior

imagen4

Etapa 3: calcular un eje de proyección de los elementos de la matriz M, por ejemplo el vector propio U asociado al valor propio más grande de la matriz de covarianza.

Etapa 4: calcular el valor pi = uT(ci-w) y descomponer el conjunto de conceptos C en dos subconjuntos C1 y C2 de la siguiente manera:

imagen1

Las informaciones almacenadas en el nudo asociado a C son {u, w, |p1|, p2} siendo p1 el máximo de todos los pi ≤ 0 y p2 el mínimo de todos los pi> 0.

El conjunto {u, w, |p1|, p2} constituye los indicadores de navegación en el diccionario de conceptos. En efecto, para determinar, durante la etapa de identificación por ejemplo, el concepto más próximo de un término ti, se calcula el valor pti = uT (ti-w) luego se selecciona el nudo asociado a C1 si ipti|-|p1i < ipti|-p2| y si no se selecciona el nudo C2. Se itera el procedimiento hasta que se alcance una de las hojas del árbol.

Un módulo detector de singularidad 8 puede asociarse al módulo 6 de reparto de conceptos.

Este detector de singularidad permite seleccionar el conjunto Ci que va a descomponerse. Uno de los posibles procedimientos consiste en seleccionar el conjunto menos compacto.

Las figuras 4 y 5 ilustran la indexación de un documento o de una base de documentos y la construcción de una base de huellas 10.

La base de huellas 10 está constituida por el conjunto de conceptos que representa los términos de los documentos que van a protegerse. A cada concepto Ci de la base de huellas 10 se asocia una huella 11, 12, 13 constituida por un conjunto de informaciones tales como el número de términos en los documentos en los que el concepto está presente, y para cada uno de estos documentos se registra una huella 11a, 11b, 11c que comprende el índice del documento que remite a la dirección del documento, el número de términos, el número de apariciones del concepto (frecuencia), el resultado, así como los conceptos que le son próximos en el documento. La puntuación es un valor medio de las medidas de similitud entre el concepto y los términos del documento que son los más próximos al concepto. El índice de un documento dado que remite a la dirección de este documento se almacena en una base 14 de las direcciones de los documentos protegidos.

El procedimiento 20 de generación de las huellas o firmas de documentos que va a indexarse se ilustra en la figura

5.

Durante el registro de un documento, se extraen los términos pertinentes del documento (etapa 21) y se tiene en cuenta el diccionario de conceptos (etapa 22). Cada uno de los términos ti del documento se proyecta en el espacio del diccionario de conceptos con el fin de determinar el concepto Ci que representa el término ti (etapa 23).

A continuación, se actualiza la huella del concepto Ci (etapa 24). Esta actualización se efectúa según si el concepto ya se ha encontrado, es decir está presente en los documentos que ya se han registrado, o no.

Si el concepto Ci todavía no está presente en la base, se crea una nueva entrada en la base (una entrada en la base corresponde a un objeto cuyos elementos son objetos que contienen la firma del concepto en los documentos en los que este concepto está presente). Se inicializa la entrada creada con la firma del concepto. La firma de un concepto en un documento se materializa principalmente por las siguientes informaciones: dirección del documento, número de términos, frecuencia, conceptos próximos y puntuación.

Si el concepto Ci existe en la base, se añade a la entrada asociada al concepto su firma en el documento que está compuesta por (dirección del documento, número de términos, frecuencia, conceptos Próximos y puntuación).

Cuando se construye la base de huellas (etapa 25), se procede al registro de la base de huellas (etapa 26).

La figura 6 ilustra un procedimiento de identificación de un documento que se implementa en una plataforma 30 de búsqueda en línea.

La identificación de un documento tiene como objetivo determinar si un documento planteado como pregunta es la reutilización de un documento de la base. Se basa en la medida de similitud entre documentos. El objetivo es identificar los documentos que contienen elementos protegidos. La reutilización puede ser total o parcial. En este último caso, el elemento copia ha sufrido modificaciones tales como: supresión de frases en un texto, supresión de motivo en una imagen, supresión de plan o de secuencia en un documento de vídeo,... cambio de orden de los términos o sustitución de términos por otros términos en un texto.

Después de la presentación de un documento que va a identificarse (etapa 31), se procede a la extracción de los términos de este documento (etapa 32).

En conexión con una base de huellas (etapa 25), se ponen en correspondencia los conceptos calculados a partir de los términos extraídos de la pregunta, con los conceptos de base (etapa 33), con el fin de establecer una lista de documentos que tienen contenidos similares al contenido del documento pregunta.

El procedimiento de establecimiento de la lista es el siguiente:

Se indica pdj: el grado de semejanza del documento dj con el documento pregunta, con 1 ≤ j ≤ N, N es el número de documentos de la base de referencia

Se inicializan a cero todos los pdj

Para cada término ti de la pregunta proporcionada en la etapa 331 (figura 7) se determina el concepto Ci que lo representa (etapa 332).

Para cada documento dj en el que está presente el concepto se actualiza su pdj de la siguiente manera:

pdj = pdj +f(frecuencia, puntuación), pueden utilizarse varias funciones f por ejemplo f(frecuencia, puntuación)= frecuencia x puntuación, frecuencia designa el número de apariciones del concepto Ci en el documento dj y puntuación designa la media de las puntuaciones de semejanza de los términos del documento dj con el concepto Cj.

Se ordenan los pdj y se conservan los que son superiores a un umbral dado (etapa 333). Se procede a continuación a una confirmación y una validación de las respuestas (etapa 34).

Confirmación de las respuestas: se filtra la lista de las respuestas con el fin de conservar sólo las respuestas más pertinentes. El filtrado utilizado se basa en la correlación entre los términos de la pregunta y de cada una de las respuestas.

Validación: permite conservar solo las respuestas en las que hay una grande certidumbre de reutilización de contenido. En esta etapa se filtran las respuestas teniendo en cuenta las propiedades algebraicas y topológicas de los conceptos dentro de un documento: se exige que la proximidad en el documento pregunta se respete en los documentos respuesta, es decir que dos conceptos próximos en el documento pregunta tienen que estar próximos en el documento respuesta.

Entonces se proporciona la lista de los documentos respuesta (etapa 35).

Ahora se considerará más particularmente el caso de documentos multimedia que contienen imágenes.

Se describirán en particular, para la construcción de la base de huellas que servirá de herramienta para la identificación de un documento, procedimientos rápidos y eficaces de identificación de imágenes que tienen en cuenta todas las informaciones pertinentes contenidas en las imágenes desde la caracterización de las estructuras u objetos que la componen, hasta la de las zonas texturizadas y el color de fondo. Los objetos de la imagen se identifican por la producción de una tabla que resume diferentes estadísticas realizadas en informaciones de las zonas fronteras de los objetos así como informaciones en las proximidades de estas zonas fronteras. La caracterización de las zonas texturizadas puede efectuarse con la ayuda de una descripción muy fina a la vez espacial y espectral de la textura según tres características fundamentales que son su periodicidad, su orientación global y el aspecto aleatorio de su motivo. La textura se asimila en este caso a una realización de procedimiento aleatorio bidimensional. La caracterización del color es una parte importante del procedimiento. Puede utilizarse como una primera clasificación de las respuestas similares basadas en el color, o bien como una última decisión realizada para afinar la búsqueda.

En la primera parte de la etapa de construcción de huellas, se tienen en cuenta las informaciones clasificadas en forma de componentes que pertenecen a dos grandes categorías:

-las componentes denominadas estructurales que describen la percepción por el ojo de un objeto puede aislarse

o de un conjunto de objetos dispuesto según una disposición espacial (imágenes 81 y 82 de las figuras 11 y 12),

-las componentes denominadas texturales que son el complemento de las componentes estructurales y que traducen la regularidad o la homogeneidad de los motivos de textura (imágenes 82 y 83 de las figuras 12 y 13).

La figura 11 muestra así una imagen 81 que contiene elementos estructurales y que no presentan motivos de textura.

La figura 12 muestra una imagen 81 que contiene elementos estructurales y un fondo de textura.

La figura 13 muestra una imagen 83 sin elementos estructurales pero totalmente texturizada.

Tal como se ha indicado anteriormente, durante la etapa de construcción de huellas, cada documento de la base de documentos se analiza con el fin de extraer del mismo las informaciones pertinentes. Estas informaciones se catalogarán y analizarán a continuación. Este análisis se realiza según una cadena de procedimientos que se resume en tres etapas:

-Extraer para cada documento características predefinidas y almacenar estas informaciones en un vector denominado término.

-Reagrupar en un concepto todos los términos “próximos” desde el punto de vista de sus características, lo que permite hacer la búsqueda más concisa.

-Construir una huella que caracteriza este documento por un número reducido de entidades. Cada documento se asocia entonces a una huella que le es propia.

La figura 8 ilustra el caso de la indexación de un documento imagen 52 contenido en una base de imágenes 51 previamente registrada, para caracterizar esta imagen 52 por un número finito de parámetros que pueden almacenarse fácilmente y manipularse posteriormente. Se procede en la etapa 53 a la extracción de términos del documento que va a buscarse que se almacenan en una memoria intermedia (etapa 54).

Se efectúa en la etapa 55 una proyección en el espacio de los términos de la base de referencias.

En la etapa 56, se procede a una descripción vectorial que proporciona los valores de importancia de los términos en el documento que va a buscarse.

La etapa 57 consiste en un reparto de los términos en N grupos 58 de conceptos.

La etapa 59 consiste en una proyección en el espacio de conceptos de cada grupo 58 para obtener N divisiones 61.

Por último, una proyección ortogonal 62 conduce a N conjuntos 63 de descripciones vectoriales reducidas.

Durante una etapa posterior de búsqueda, después de una consulta formulada por un usuario, por ejemplo la identificación de una imagen pregunta, se buscan todos los documentos multimedia similares o que contestan a esta consulta. Para ello, tal como se ha indicado anteriormente, se calculan los términos del documento pregunta y se comparan con los conceptos de la base con el fin de deducir el o los documentos de la base que son similares al documento pregunta.

A continuación se describirá de manera más detallada la etapa de construcción de los términos de una imagen.

La etapa de construcción de los términos de una imagen pone en práctica de manera útil la caracterización de los soportes estructurales de la imagen. Los soportes estructurales son los elementos que componen la escena de la imagen. Los más significativos son los que delimitan los objetos de la escena ya que son ellos los que caracterizan las diferentes formas que se perciben cuando se observa una imagen cualquiera.

Esta etapa se refiere a la extracción de estos soportes estructurales. Consiste en un desmantelamiento de las zonas fronteras de los objetos de la imagen, que se caracterizan por sitios entre dos zonas en los que se observan fuertes variaciones de intensidad. Este desmantelamiento se efectúa por un procedimiento que consiste en repartir estas zonas fronteras entre diferentes “clases” según la orientación local del gradiente de la imagen (orientación de la variación local de intensidad). Se obtiene así una multitud de pequeños elementos denominados los “elementos de soporte estructurales” (ESS). Cada ESS que pertenece efectivamente a un contorno de una escena se caracteriza por una similitud a nivel de la orientación local de su gradiente. Esto es una primera etapa que tiende a catalogar todos los elementos de soporte estructurales de la imagen.

El siguiente enfoque se efectúa en adelante a partir de estos ESS, a saber la construcción de términos que describen las propiedades locales y globales de los ESS.

Las informaciones extraídas de cada soporte se consideran como propiedades locales. Pueden distinguirse dos tipos de soportes: los elementos de rectas rectilíneas (EDR) y los elementos de arcos de curvas (EAC).

5 Los elementos de rectas rectilíneas EDR se caracterizan por las propiedades locales que son:

•: La dimensión (longitud, anchura)

•: Dirección principal (pendiente)

• Propiedades estadísticas de los píxeles que constituyen el soporte (valor medio de energía, los instantes) 10 • Informaciones de la proximidad (transformada de Fourier local)

En cuanto a los elementos de arcos de curvas EAC se caracterizan de la misma manera que anteriormente, además de la curvatura de los arcos.

15 Las propiedades globales engloban las estadísticas tales como el número de cada tipo de soportes y sus disposiciones espaciales (asociaciones geométricas entre los soportes: conexiones, izquierda, derecha, medio...).

En resumen, para una imagen dada, las informaciones pertinentes extraídas de los objetos que la constituyen se reagrupan en la tabla 1. 20 Tabla 1

Soportes estructurales de los objetos de una imagen: Tipo

ESS: EDR EAC

Propiedades globales: N.º total n n1 n2

N.º largos (> umbral ): nl n1l n2l

N.º cortos (< umbral ): nc n1c n2c

N.º de soportes largos a una conexión izquierda o derecha: - n11gdx n21gdx

N.º de una conexión en el medio: - n11gdx n21gdx

N.º de soportes largos paralelos: - n1pll n2pll

Propiedades locales: Luminancia (>umbral ) -

Luminancia (<umbral ): -

Pendiente: -

Curvatura: -

Caracterización de la proximidad de los soportes: -

La etapa de construcción de los términos de una imagen también pone en práctica la caracterización de las 25 informaciones texturales pertinentes de la imagen. Las informaciones procedentes de la textura de la imagen se dividen según tres aspectos visuales de la imagen:

• el aspecto aleatorio (como una imagen de arena fina, o de hierba) en el que no puede detectarse ninguna

disposición particular, 30

• el aspecto periódico (como un jersey de jacquard) en el que se observa una repetición de motivos (píxel o agrupamiento de píxeles) dominantes,

• y por último el aspecto direccional en el que los motivos tienden globalmente a orientarse hacia una o varias 35 direcciones privilegiadas.

Estas informaciones se obtienen aproximándose a la imagen por modelos o representaciones paramétricas. Cada aspecto se tiene en cuenta por sus representaciones espacial y espectral que constituyen las informaciones pertinentes de esta parte de la imagen. La periodicidad y la orientación se caracterizan por los soportes espectrales

40 mientras que el aspecto aleatorio se traduce por la estimación de los parámetros de un modelo autorregresivo bidimensional.

Una vez extraídas todas las informaciones pertinentes, se puede proceder a la estructuración de los términos de las texturas. 45 Tabla 2

Soportes espectrales y parámetros autorregresivos de la textura de una imagen

Componente periódico: N.º total de elementos periódicos np

Frecuencias: par (ωp, vp), 0< p ≤ np

Amplitudes: par (Cp,Dp), 0< p ≤ np

Tabla 2 (continuación)

Componente direccional: N.º total de elementos direccionales nd

Orientaciones: par (αi, βi), 0 < i ≤ nd

Frecuencias: vi, 0 < i ≤ nd

Componentes aleatorios: Desviación estándar del ruido σ

Parámetros autorregresivos: {ai,j}, (i, j) ∈ SN,M

5 Por último, la etapa de construcción de los términos de una imagen también puede poner en práctica la caracterización del color de la imagen.

El color se representa a menudo por los histogramas de color, estos últimos son invariables a la rotación y robustos contra la oclusión y los cambios de puntos de vista de la cámara.

10 La cuantificación de los colores puede hacerse en el espacio RVB (rojo, verde, azul), TSV (tinta saturación valor), o el espacio LUV pero el procedimiento de indexación por los histogramas de colores ha demostrado sus limites ya que da una información global de la imagen, y durante la indexación pueden encontrarse imágenes que presentan el mismo histograma de color, pero que son totalmente diferentes.

15 Muchos autores proponen histogramas de colores integrando la información espacial. Esto consiste por ejemplo en distinguir los píxeles coherentes de los píxeles incoherentes, un píxel es coherente si pertenece a una región bastante grande que reagrupa píxeles idénticos, se clasifica como incoherente si forma parte de una región de tamaño reducido.

20 Se describirá a continuación un procedimiento de caracterización de la distribución espacial de los constituyentes de la imagen (por ejemplo el color) que es menos costoso en tiempos de cálculo que los procedimientos citados anteriormente, y es robusto frente a las rotaciones y a la traslación.

25 Las diferentes características extraídas de los elementos de soporte estructurales así como los parámetros de las componentes periódica, direccional y aleatoria del campo de textura así como los parámetros de la distribución espacial de los constituyentes de la imagen constituyen los términos que pueden servir a la descripción del contenido de un documento. Estos términos se reagrupan en conceptos con el fin de reducir las informaciones útiles de un documento.

30 Las apariciones de estos conceptos así como sus posiciones y sus frecuencias constituyen lo que se llama la huella de un documento. Estas huellas servirán a continuación como rasgo de unión entre un documento pregunta y los documentos de una base, durante una etapa de búsqueda de documento.

35 Una imagen no contiene necesariamente todos los elementos y las características descritas anteriormente. Por consiguiente, identificar una imagen empieza por la detección de la presencia de sus elementos constituyentes.

La figura 9 muestra un ejemplo de organigrama de un procedimiento de extracción de los términos de una imagen con una primera etapa 71 de caracterización de los objetos de la imagen en soportes estructurales, que puede en su 40 caso precederse de una prueba de detección de elementos estructurales que permite omitir esta etapa 71 en los casos en los que los elementos estructurales están ausentes.

La etapa 72 consiste en una prueba para determinar si existe un fondo de textura. Si es así, se pasa a una etapa 73 de caracterización del fondo texturizado en soportes espectrales y parámetros autorregresivos AR, y luego a una 45 etapa 74 de caracterización del color de fondo.

Si no existe un fondo estructurado, se pasa directamente de la etapa 72 a la etapa 74.

Por último, una etapa 75 reside en el almacenamiento de los términos y la construcción de huellas. 50 Se volverá ahora con más detalle a la caracterización de los elementos de soporte estructurales de una imagen.

El principio de base de esta caracterización consiste en un desmantelamiento de las zonas fronteras de los objetos de la imagen en multitudes de pequeños elementos de base denominados elementos de soportes significativos

55 (ESS) que transportan las informaciones útiles de las zonas fronteras que están compuestas por bandas lineales de tamaño variable, o codos de diferentes curvaturas. Entonces se analizarán estadísticas realizadas en estos objetos y se utilizarán para construir los términos de estos soportes estructuras.

Con el fin de describir más rigurosamente los principales procedimientos que componen este enfoque, se indicará una imagen digitalizada por el conjunto {y(i,j), (i,j) ∈ I X J}, en la que I y J son respectivamente el número de líneas y de columnas de la imagen.

A partir de las imágenes gradiente vertical {gv(i,j),(i,j) ∈ IX J}y horizontal {gh(i,j),(i,j) ∈ IX J} previamente calculadas, este enfoque consiste en dividir la imagen según la orientación local de su gradiente en un número finito de clases equidistantes. La imagen que contiene la orientación del gradiente se define por la fórmula:

imagen1

10 La división es sencillamente una subdivisión angular del plano 2D (de 0º a 360º) mediante un paso de discretización bien definido. El hecho de utilizar la orientación local del gradiente como criterio de descomposición de las zonas fronteras permite un mejor agrupamiento de los píxeles que forman parte de una misma zona frontera. Con el fin de resolver el problema de los puntos fronteras que se pueden repartir entre dos clases yuxtapuestas, se utiliza una segunda división con el mismo número de clases que anteriormente, pero desplazadas ½ clase. A partir de las

15 clases procedentes de las dos divisiones, un procedimiento sencillo consiste en elegir las que presentan en total el número más grande de píxeles. En efecto, cada píxel pertenece a dos clases cada una procedente de las dos divisiones. Sabiendo que cada píxel es un elemento potencial de un eventual ESS, vota por lo tanto para la clase que contiene más píxeles de las dos. Se trata de una región en la que la probabilidad de encontrar un ESS de tamaño más elevado es lo más grande posible. Después de los votos, se conservan únicamente las clases que

20 presentan en total más del 50% de los sufragios. Estas son las regiones de soporte susceptibles de contener los ESS.

A partir de estas regiones de soporte, se determinan los ESS, se les catalogan según criterios determinados que pueden ser:

25

•: La longitud (se determina para es un umbral lo y se contabilizan los ESS inferiores y superiores a este umbral)

•: La intensidad definida por la media del módulo del gradiente de los píxeles que componen cada ESS (por lo tanto

se define un umbral indicado I0, se catalogan los que son interiores y superiores a este umbral). 30

• El contraste definido por la diferencia entre el máximo y el mínimo de los píxeles.

En esta etapa del procedimiento, todos los elementos denominados estructurales se conocen y se catalogan según los tipos de soportes estructurales previamente identificados. Pueden extraerse de la imagen de origen para dejar

35 lugar a la caracterización del campo de texturas.

A modo de ejemplo, se considera la imagen 81 de la figura 11, reutilizada como imagen 101 de la figura 14a, las zonas fronteras se ilustran en la imagen 102 de la figura 14b. Los elementos de estas zonas fronteras se desmantelan a continuación y se reparten según la orientación de su gradiente entre diferentes clases

40 representadas por las imágenes 103 a 106 de las figuras14c a 14f. Estos diferentes elementos constituyen los elementos de soportes significativos, y sus análisis estadísticos permiten construir los términos de la componente estructural.

En el caso de las figuras 14c a 14f, a modo de ejemplo, la imagen 103 corresponde a una clase 0 (0º -45º), la

45 imagen 104 corresponde a una clase 1 (45º -90º), la imagen 105 corresponde a una clase 2 (90º -135º) y la imagen 106 corresponde a una clase 3 (135º -180º):

En ausencia de elementos estructurales, se supone que la imagen se textura con motivos más o menos regulares y se procede a una caracterización del campo de la textura. Para ello, se puede proceder a una descomposición de la

50 imagen en tres componentes que son:

• una componente textural que contiene las informaciones anárquicas o aleatorias (como una imagen de arena fina, o de hierba) en la que no puede detectarse ninguna disposición particular,

55 • una componente periódica (como un jersey de jacquard) en la que se observa una repetición de motivos dominantes,

• y por último una componente direccional en la que los motivos tienden globalmente hacia una o varias direcciones privilegiadas.

60 Al ser el objetivo caracterizar perfectamente la textura de la imagen a partir de un conjunto de parámetros, estas tres componentes se representan por modelos paramétricos.

~

y

Así, la textura de la imagen 15 regular y homogénea indicada { (i,j),(i,j) ∈ IX J} se descompone en tres componentes 16, 17, 18 tal como se ilustra en la figura 10, según la siguiente relación:

imagen5

en la que {w(i,j)} es la componente puramente aleatoria 16, {h(i,j)} es la componente armónica 17 y {e(i,j)} la componente direccional 18. La estimación de los parámetros de estas tres componentes 16, 17, 18 termina esta etapa de extracción de informaciones de un documento. En los siguientes párrafos se describen procedimientos de

10 estimación.

Se describirá en primer lugar un ejemplo de procedimiento de detección y caracterización de la componente direccional de la imagen.

15 Se trata en primer lugar de aplicar un modelo paramétrico a la componente direccional {e(i,j)}. Está constituida por una suma numerable de elementos direccionales en los que cada uno se asocia a un par de números enteros (α, β) que define una orientación de ángulo θ tal que θ = tan -1 β/α. En otras palabras, e(i, j) se define por

imagen1 en la que cada e(α, β)(i,j) se define por:

imagen6

en la que

• Ne es el número de elementos direccionales asociados a (α, β), 25 • νk es la frecuencia del elemento k,

• {sk(iα-jβ)} y {tk(iα-jβ)} son las amplitudes.

La componente direccional {e(i,j)} está por tanto perfectamente definida por el conocimiento de los parámetros contenidos en el siguiente vector E: 30

imagen1

Para estimar estos parámetros, se utiliza el hecho que la componente direccional de una imagen se representa en el ámbito espectral por un conjunto de rectas de pendientes ortogonales a las definidas por los pares de números

35 enteros (αl, βl) del modelo que se indicarán (αl, βl)⊥ . Estas rectas pueden descomponerse en un sub-conjunto de rectas de igual pendiente asociado cada uno a un elemento direccional.

A modo de ilustración, las figuras 15a y 15b muestran imágenes 84, 86 que contienen un elemento direccional y la figura 15c muestra una imagen 88 que contiene dos elementos direccionales.

40 La figura 15a1 muestra una vista 85 en tres dimensiones del espectro de la imagen 84 de la figura 15a.

Las figuras 15b1 y 15c1 muestran imágenes módulo de Fourier 87, 89, respectivamente imágenes 86 y 85 de las figuras 15b y 15c.

45 Para calcular los elementos del vector E, puede adoptarse un enfoque basado en la proyección de la imagen según diferentes direcciones. El procedimiento consiste en primer lugar en garantizar la presencia de la componente direccional antes de estimar estos parámetros.

50 La detección de la componente direccional de la imagen se basa en el conocimiento de las propiedades espectrales de ésta. Si se asimila el espectro de la imagen a una imagen 3D (X,Y, Z), en la que (X,Y) representan las coordenadas de los píxeles y Z la amplitud, las rectas que intentan detectarse se representan por un conjunto de picos concentrados a lo largo de rectas cuyas pendientes se definen por los pares (αl, βl) buscados (véase la figura 15a1). Para determinar la presencia de estas rectas, basta con contabilizar los picos predominantes. El número de

5

15

25

35

45

55

estos picos informa de la presencia o no de soportes direccionales o armónicos.

Ahora se describirá un ejemplo de procedimiento de caracterización de la componente direccional. Para ello, se procede al cálculo de los pares de dirección (αl, βl) y a la determinación del número de elementos direccionales.

Se efectúa en primer lugar el cálculo de la transformada de Fourier discreta (TFD) de la imagen seguido de una estimación de las rectas de pendiente racional observadas en la imagen transformada ψ(i,j).

Para ello, se define un conjunto de proyecciones que discretiza el ámbito frecuencial en diferentes ángulos de proyección θk, k finito. Este conjunto de proyección puede obtenerse de diferentes maneras. Por ejemplo se pueden buscar todos los pares de números enteros primeros entre ellos (αk, βk) que definen un ángulo θk, tal que

imagen1

en la que

Un orden r tal que 0 ≤ αk, βk ≤ r permite controlar el número de proyecciones. Las propiedades de simetría pueden utilizarse a continuación para obtener todos los pares hasta 2π. Estos pares se ilustran en la figura 16 para 0≤αk,βk≤3.

Se efectúan proyecciones del módulo de la TFD de la imagen según siguiente los θk. Cada proyección genera un vector de dimensión 1, V(αk, βk), indicado Vk para simplificar la notación, que contiene las informaciones direccionales buscadas.

Cada proyección Vk viene dada por la fórmula:

imagen1

siendo n = -i * βk + j*αk y0 ≤ |n| < Nk y Nk = |αk|(T-1)+|βk|(L-1)+1, en la que T*L es el tamaño de la imagen. ψ(i,j) es el módulo de transformada de Fourier de la imagen que va a caracterizarse.

Se seleccionan para cada Vk los elementos de fuertes energías así como sus posiciones espaciales. Estos elementos de fuerte energía son los que presentan un valor máximo con respecto a un umbral calculado según el tamaño de la imagen.

En esta etapa de cálculo, se conoce el número de rectas. De ello se deduce el número de componentes direccionales Ne utilizando las propiedades espectrales simples de la componente direccional de una imagen texturizada. Estas propiedades son:

1.: Las rectas observadas en el ámbito espectral de una componente direccional son simétricas con respecto al origen. Por consiguiente se puede reducir el ámbito de investigación en solo una mitad del ámbito considerado.

2.: Los máximos retenidos en el vector son candidatos para representar rectas que pertenecen a elementos direccionales. A partir de la conocimiento de las posiciones respectivas de las rectas en el módulo de transformada de Fourier discreta TFD, se deduce el número exacto de elementos direccionales. La posición del máximo recto corresponde al argumento del máximo del vector Vk, las otras rectas del mismo elemento se sitúan cada min{L/T}.

El mecanismo de proyección se ilustra en la figura 17 para (αk, βk) = (2, -1).

ˆ

αˆ ,β

Después del tratamiento de los vectores Vk y la producción de los pares de dirección ( kk ) se obtienen los números de rectas asociados a cada par.

Por tanto puede contarse el número total de elementos direccionales utilizando las dos propiedades mencionadas

ˆ

αˆ ,β

anteriormente y se identifican los pares de números enteros ( kk ) asociados a estos componentes que son las direcciones ortogonales a las que se han retenido.

ˆ

αˆ ,β

Para todos estos pares ( kk ) la estimación de las frecuencias de cada elemento detectado es inmediata. En efecto, si se consideran únicamente los puntos de la imagen de originen a lo largo de la recta de ecuación

iαˆ jβˆ = c

kk ,c es la posición del máximo en Vk, y estos puntos constituyen una señal monodimensional (1-D) armónica de amplitud constante y que presenta como frecuencia

imagen1 Por lo tanto basta con estimar la frecuencia de esta señal 1-D por un procedimiento clásico (localización del valor máximo en la TFD 1-D de esta nueva señal).

En resumen, puede ponerse en práctica el procedimiento que comprende las siguientes etapas: 5 Determinar el máximo de cada proyección.

Filtrar los máximos con el fin de conservar sólo los superiores a un umbral.

ˆ

αˆ ,β

10 • Para cada máximo mi, correspondiente a un par ( kk )

• Se determina el número de rectas asociadas a este par según las propiedades descritas anteriormente.

ˆ

αˆ ,β

• Se calcula la frecuencia asociada a ( kk ) que corresponde a la intersección de la recta máxima 15 (correspondiente al máximo de la proyección retenida) con el eje horizontal.

imagen2

Ahora se describirá el cálculo de las amplitudes

que son los otros parámetros

contenidos en el vector E mencionado anteriormente.

ˆ

αˆ ,β

20 Conociendo la dirección ( kk ) y la frecuencia Vk, pueden determinarse las amplitudes

iαˆk jβˆk = c

verificando c la fórmula , utilizando un procedimiento de demodulación. En efecto,

iαˆ jβˆ = c

igual a la media de los píxeles a lo largo de la recta de ecuación imagen1 kk de la nueva imagen obtenida

~

y

multiplicando (i,j) por

Esto se traduce por la ecuación

imagen7

imagen1

en la que Ns es simplemente el número de elementos de esta nueva señal. De la misma manera, se obtiene

imagen1

aplicando la ecuación:

imagen1

30

El procedimiento descrito anteriormente puede resumirse por las siguientes etapas:

ˆ

αˆ ,β

Para cualquier elemento direccional ( kk ) 35 Para toda recta (d) calcular

imagen8

1.

Esta media corresponde a la

estimación de la amplitud

imagen8

2.

Esta media corresponde a la estimación de la amplitud La tabla 3 a continuación recapitula las etapas principales del procedimiento de proyección. Tabla 3

Etapa 1. Calcular el conjunto de pares de proyección (αk, βk) ∈ Pr Etapa 2. Calcular el módulo de la TFD de la imagen y ~ (i,j): ψ(ω, ϖ) = |TFD(y(i,j))|

Etapa 3-Para todo ((αk, βk) ∈ Pr calcular el vector Vk: la proyección de ψ(ω, v) según (αk, βk) según la fórmula (19)

Etapa 4-Detección de rectas: Para todo (αk, βk) ∈ Pr • determinar: • calcular nk: el número de píxeles de valores significativos encontrados a lo largo de la proyección • guardar nk y jmax el índice del máximo en Vk. • seleccionar las direcciones que justifican el criterio en la que se es un umbral que va a definirse, dependiendo del tamaño de la imagen. Las direcciones retenidas se consideran como las de rectas buscadas.

Etapa 5-Guardar los pares ( kαˆ , βk) buscados que son los ortogonales de los pares (ak, βk) retenidos en la etapa 4.

A continuación se describirá la detección y la caracterización de las informaciones texturales periódicas de una 10 imagen, que están contenidas en la componente armónica {h(i,j)}. Este componente puede representarse por una suma finita de sinusoides 2-D:

imagen1

15 enlaque

•: Cp y Dp son las amplitudes.

•: (ωp,vp) es la frecuencia espacial p.

20 Se ha representado en la figura 18a1 una imagen 91 que contiene componentes periódicas y, en la figura 18b1, una imagen sintética que contiene una componente periódica. La figura 18a2 representa una imagen 92 que es una imagen módulo de la TFD que presenta un conjunto de picos.

25 La figura 18b2 representa una vista 3D, 94, de la TFD que muestra la presencia de un par de picos simétricos 95,

96.

En el ámbito espectral, la componente armónica aparece así como pares de picos aislados simétricos con respecto al origen (véase la figura 18 (a2)-(b2)). Este componente es el reflejo de la existencia de periodicidades en la 30 imagen.

Las informaciones que se busca determinar son los elementos del vector:

imagen1

Para ello se empieza por detectar la presencia de esta componente periódica en la imagen módulo de Fourier y se estiman a continuación sus parámetros.

La detección de la componente periódica consiste en determinar la presencia de picos aislados en la imagen módulo

5 de la TFD. Se actúa de la misma manera que en el caso de la determinación de la componente direccional. Según el procedimiento descrito en la tabla 1, si el valor nk obtenido en la etapa 4 del procedimiento descrito en la tabla 1 es inferior a un umbral, entonces se trata de picos aislados que caracterizan la presencia de componente armónica en vez de picos que forman una recta continua.

10 La caracterización de la componente periódica corresponde a localizar los picos aislados en la imagen módulo de la TFD.

(ωˆ ,vˆ )

Estas frecuencias espaciales pp corresponden a la posición de estos picos:

imagen9

(ˆ ˆ

C,D )

Para el cálculo de las amplitudes pp , se utiliza un procedimiento de demodulación como para estimar las amplitudes de la componente direccional.

(ωˆ p,vˆ p)

20 Para cada elemento periódico de frecuencia , la amplitud correspondiente es idéntica a la media de los

~

y cos(iωˆ , jvˆ )

píxeles de la nueva imagen obtenida multiplicando la imagen { (i,j)} por pp . Esto se traduce por las siguientes fórmulas:

imagen1

En resumen, un procedimiento de estimación de la componente periódica comprende las siguientes etapas:

Etapa 1. Localizar los picos aislados en la segunda mitad de la imagen módulo de Fourier y contar su número

Etapa 2. Para cualquier pico detectado: • Calcular su frecuencia con la ayuda de la formula (24) • Calcular su amplitud con la ayuda de la formula (25-26)

Las últimas informaciones que van a extraerse están contenidas en la componente puramente aleatoria {w(i,j)}. Esta componente puede representarse por un modelo autorregresivo 2-D de soporte semiplano no simétrico (DPNS) finito definido por la ecuación con las siguientes diferencias:

imagen10

en la que

imagen1 son los parámetros que van a determinarse para todo (k,l) que pertenece a SN,M={(k,l)/k=0,1≤l≤M}∪{(k,l)/ 1≤k≤N,-M≤l≤M}. El par (N,M) se denomina el orden del modelo.

40 • {u(i,j)} es un ruido blanco gaussiano de varianza terminada Los parámetros del modelo vienen dados por:

imagen1

Los procedimientos de estimación de los elementos de W son numerosos como por ejemplo el algoritmo de Levinson 2D o los procedimientos de adaptación del tipo mínimos cuadrados (MCR).

5 Ahora se describirá un procedimiento de caracterización del color de una imagen de la que se quieren extraer términos ti que representan características icónicas de esta imagen, siendo el color un ejemplo particular de estas características que pueden comprender otras características tales como los instantes algebraicos o geométricos, las propiedades estadísticas, las propiedades espectrales de los instantes de pseudo-Zernicke.

10 El procedimiento se basa en la caracterización perceptiva del color. En primer lugar se efectúa una transformación de las componentes del color de la imagen del espacio RVB (rojo, verde, azul) también denominado RGB, hacia el espacio TSV (tinta saturación valor) también denominado HSV. Se obtienen así tres componentes: tinta, saturación, valor. A partir de estas tres componentes se determinan N colores o componentes icónicas de la imagen. Cada componente icónica Ci se representa por un vector de M valores. Estos valores representan la distribución angular y

15 anular de los puntos que representan cada componente así que el número de puntos de la componente en cuestión.

El procedimiento desarrollado se ilustra por la figura 19 con, a modo de ejemplo, N =16 y M= 17.

En una primera etapa principal 110, a partir de una imagen 11 del espacio RGB, se procede a una transformación de 20 la imagen 111 del espacio (R,G,B) al espacio HSV (etapa 112) para obtener una imagen en el espacio HSV.

El modelo HSV puede definirse de la siguiente manera.

Tinta (H): varía de [0 360], y cada ángulo representa un tinta.

25 Saturación (S): varía de [0 1], mide la pureza de los colores, y permite distinguir los colores “vivos”, “pasteles”, o “descoloridos “.

Valor (V): Adopta valores de [0 1], indica si un color es claro u oscuro y en qué medida se acerca al blanco o al 30 negro.

El modelo HSV es una transformación no lineal del modelo del espacio (R,G,B). El ojo humano puede distinguir 128 tintas, 130 saturaciones, y 23 sombras.

35 Para el Blanco V=1 y S=0, el negro presenta una valor V=0 mientras que la tinta H y la saturación S son indeterminadadas. Cuando V=1 y S=1 se presenta un color puro.

Cada color se obtiene añadiendo blanco o negro a un color puro.

40 Para tener colores más claros se reduce S y se conservan H y V, sin embargo, para colores oscuros se añade negro reduciendo V y se conservan H y S.

El paso de la imagen en color expresada en las coordenadas (R,G,B) a una imagen expresada en el espacio (H,S,V) (tinta, saturación, valor) se efectúa de la siguiente manera:

45 Para cualquier punto de coordenada (i,j) y de valor (Rk,Bk,Gk) se produce un punto de coordenadas (i,j) y valor (Hk,Sk,Vk) con:

imagen1

G -B

k k si V es igual aR

kk

V -min(R ,G ,B )

k kkk B -R

H = 2 + k k si V es igual aG

k kk

V -min(R ,G ,B )

k kkk R -G

4 + k k si V es igual aB

kk

V -min(R ,G ,B )

k kkk

⎧ ⎪ ⎪⎪⎨⎪ ⎪⎪⎩

Se procede a continuación a una división del espacio HSV (etapa 113).

A partir de los valores de tinta, saturación, valor, se han definido N colores. En el caso en el que N es igual a 16, se presenta: negro, blanco, gris claro, gris oscuro, gris medio, rojo, rosa, naranja, marrón, oliva, amarillo, verde, azul celeste, azul verdoso, azul, púrpura, magenta.

Para cada píxel se evalúa a qué color pertenece. A continuación se calcula el número de puntos de cada color.

En una segunda etapa principal 120, se procede a una caracterización de las divisiones obtenidas durante la primera etapa principal 110.

En esta etapa 120, se busca caracterizar cada división Ci obtenida anteriormente. Una división se define por su componente icónica y por las coordenadas de los píxeles que la constituyen. La descripción de una división se basa en la caracterización del reparto espacial de estos píxeles (nube de puntos). El procedimiento empieza por el cálculo del centro de gravedad, el eje principal de la nube de puntos y el eje perpendicular a este eje. La nueva marca se utiliza como referencia en la descomposición de la división Ci en varias subdivisiones que se representan por el porcentaje de los puntos que constituyen cada una de las subdivisiones. El procedimiento de caracterización de una división Ci es el siguiente:

-: calcular el centro de gravedad y el ángulo de orientación de las componentes Ci que definen la división, marca de

-: calcular la distribución angular de los puntos de la división Ci en las N direcciones en el sentido antihosubdivisiones definidas por: rario, en N

imagen1

-dividir el espacio de la imagen en cuadraos de radios concéntricos, con cálculo en cada radio del número de puntos que corresponde a cada componente icónica.

El vector característico se obtiene a partir del número de puntos de cada reparto de color Ci, del número de puntos en los 08 subrepartos angulares así que del número de puntos de la imagen.

Por tanto, el vector característico se representa por 17 valores en el ejemplo considerado.

En la figura 19, se ha ilustrado la segunda etapa 120 de tratamiento a partir de las componentes icónicas C0 a C15 mostrando para las componentes C0 (módulo 121) y C15 (módulo 131) las diferentes etapas efectuadas, a saber la división angular 122, 132 que conduce a un número de puntos en las 8 orientaciones consideradas (etapa 123, 133) y la división anular 124, 134 que conduce a un número de puntos en los 8 radios considerados (etapa 125, 135), así como teniendo en cuenta el número de píxeles de componente C0, respectivamente C15, en la imagen (etapa 126, respectivamente 136).

Las etapas 123, 125, 126 conducen a la producción de 17 valores para el componente C0 (etapa 127) mientras que las etapas 133, 135, 136 conducen a la producción de 17 valores para la componente C15 (etapa 137).

Naturalmente, el procedimiento es análogo para las otras componentes C1 a C14.

Las figuras 20 y 21 ilustran el hecho de que el procedimiento descrito anteriormente es invariable a la rotación.

Así, en el ejemplo de la figura 20, la imagen se divide en dos subconjuntos, uno que contiene las cruces x, otro los círculos 0. Después del cálculo del centro de gravedad así que del ángulo de orientación θ, se obtiene la marca de orientación que permitirá de obtener los 04 subrepartos angulares (0º, 90º, 180º, 270º).

A continuación, se efectúa un reparto anular, se calcula el número de puntos en un radio igual a 1 y luego 2. Se obtiene el vector V0 característico de la imagen de la figura 20: 19; 6; 5; 4; 4; 8; 11.

La imagen de la figura 21 se obtiene aplicando una rotación de 90º a la imagen de la figura 20. Al aplicar el procedimiento anterior a la imagen de la figura 21, se obtiene un vector V1 que caracteriza esta última que muestra que la rotación no influye en el vector característico. Esto permite concluir que el procedimiento es invariable a la rotación.

Tal como se ha indicado anteriormente, los procedimientos que permiten obtener para una imagen los términos que representan los colores dominantes, las propiedades texturales o las estructuras de las zonas dominantes de la imagen, pueden aplicarse tanto en la totalidad de la imagen como en partes de la imagen.

A continuación se describirá brevemente el procedimiento de segmentación de un documento que permite producir las partes de la imagen que van a caracterizarse. Según una primera técnica posible, se procede a una descomposición estática. La imagen se descompone en

bloques con recubrimiento o sin recubrimiento.

Según una segunda técnica posible, se procede a una descomposición dinámica. En este caso, la descomposición de la imagen en partes es función del contenido de la imagen. Según un primer ejemplo de técnica de descomposición dinámica, las partes se producen a partir de las semillas

que son los puntos de singularidad de la imagen (los puntos de inflexiones). Se empieza por calcular las semillas, que se fusionan a continuación para que permanezca sólo un número reducido y por último los puntos de las imágenes se fusionan con las semillas que presentan las mismas propiedades visuales (estadísticas) para producir las partes o los segmentos de la imagen que van a caracterizarse.

Según otra técnica que se refiere a una segmentación jerárquica, los puntos de la imagen se fusionan para formar las n primeras clases. Luego se descomponen los puntos de cada una de las clases en m clases y así sucesivamente hasta alcanzar el número de clases deseado. Durante la fusión, los puntos se asignan a la clase más próxima. Una clase se representa por el centro de gravedad y/o un delimitador (caja envolvente, segmento, curva,...).

Ahora se describirán las etapas principales de un procedimiento de caracterización de las formas de una imagen. La caracterización de la forma se efectúa en varias etapas: Para una supresión de efecto de zoom o variación debida a los movimientos de los elementos no rígidos de la

imagen (movimiento de los labios, de las hojas de árbol,...), se procede por una multirresolución seguida de una

decimación de la imagen. Para una reducción del efecto de traslación, la imagen o la parte de la imagen se representa por su Transformada de Fourier.

Para una reducción del efecto de zoom, la imagen se define en el espacio logarítmico polar. Pueden ponerse en práctica las siguientes etapas: a/ multirresolución f = ondícula(I,n); en la que I es la imagen de salida y n es el número de descomposiciones b/ proyección de la imagen en el espacio logPolar:

g(l,m) = f(i,j) con i = I*cos(m) y j = I*sen(m) c/ cálculo de la transformada de Fourier de g: H = FFT(g); d/ caracterización de H:

d1/ proyección de H en varias direcciones (0, 45, 90,...): el resultado es un conjunto de vectores cuya dimensión es igual a la dimensión del segmento de proyección

d2/ cálculo de las propiedades estadísticas de cada vector de proyección (media, varianza, los instantes). El término que representa la forma está constituido por los valores de las propiedades estadísticas de cada vector de proyección.

Claims

REIVINDICACIONES

1. Procedimiento de indexación de documentos multimedia, que comprende por lo menos las siguientes etapas:

5 (a) identificar y extraer para cada documento términos ti constituidos por vectores que caracterizan propiedades del documento multimedia que debe indexarse, tales como la forma, la textura, el color o la estructura de una imagen, la energía, la tasa de oscilación o informaciones frecuenciales de una señal de audio, o un grupo de caracteres de un texto,

10 (b) almacenar los términos ti que caracterizan propiedades del documento multimedia en una base de términos (3) que comprende P términos, caracterizado porque comprende además las siguientes etapas:

(c) determinar un número máximo N de conceptos deseados que reagrupan los términos ti pertinentes, siendo N un

número entero inferior a P, y estando previsto cada concepto Ci para reagrupar todos los términos próximos 15 desde el punto de vista de sus características,

(d)

calcular la matriz T de distancias entre los términos ti de la base de términos,

(e)

descomponer el conjunto P de términos ti de la base de términos en N partes Pj (1 ≤ j ≤ N) tales que P = P1 UP2

20 ··· UPj... UPN, comprendiendo cada parte Pj un conjunto de términos tij y estando representada por un concepto Cj, estando los términos ti repartidos en la base de la matriz T, de tal manera que los términos más alejados unos de otros se encuentran en partes Pl, Pm distintas y los términos próximos unos de otros se encuentran en la misma parte Pl,

25 (f) estructurar el diccionario de conceptos (5) de manera que constituye un árbol binario en el que cada hoja del árbol binario contiene un concepto Ci del diccionario y cada nudo del árbol contiene las informaciones necesarias para el escrutinio del árbol durante una etapa de identificación de un documento multimedia mediante comparación con los documentos indexados anteriormente, y

30 (g) construir una base de huellas (25) constituida por el conjunto de los conceptos Ci que representan los términos ti de los documentos que van a indexarse, estando cada documento asociado a una huella que le es propia.
2. Procedimiento de indexación según la reivindicación 1, caracterizado porque se asocia a cada concepto Ci de la

base de huellas (25) un conjunto de informaciones que comprende el número NbT de términos en los documentos 35 en los que el concepto Ci está presente.
3. Procedimiento de indexación según la reivindicación 1 ó 2, caracterizado porque para cada documento en el que está presente un concepto c;, se registra una huella del concepto Ci en el documento, comprendiendo esta huella la frecuencia de aparición del concepto Ci, la identificación de los conceptos que están próximos al concepto Ci en el

40 documento y una puntuación que es un valor medio de las mediciones de similitudes entre el concepto Ci y los términos ti del documento que son los más próximos al concepto Ci.
4. Procedimiento de indexación según cualquiera de las reivindicaciones 1 a 3, caracterizado porque comprende una etapa de optimización de la división del conjunto P de los términos de la base de términos para descomponer

45 este conjunto P en M clases Ci (1 ≤ i ≤ M, siendo M ≤ P), de manera que reduce el error del reparto del conjunto P de los términos de la base de términos en N partes (P1, P2,... PN) en el que cada parte Pi se representa por el término ti

imagen1

que imagen1 se tomará como concepto Ci, siendo el error cometido ε tal que en la que

es el error cometido cuando se sustituyen los términos tj de una parte Pi por ti.

50 5. Procedimiento de indexación según la reivindicación 4, caracterizado porque comprende las siguientes etapas:

(i) descomponer el conjunto P de términos en dos partes P1 y P2;

(ii) determinar los dos términos más alejados ti y tj del conjunto P que corresponde a la distancia más grande Dij de 55 la matriz T de distancias;

(iii) para cada término tk del conjunto P, examinar si la distancia Dki entre el término tk y el término ti es más pequeña que la distancia Dkj entre el término tk y el término tj, si es así, asignar el término tk a la parte P1 y si no es así, asignar el término tk a la parte P2;

60

(iv) repetir la etapa (i) hasta obtener el número N de puntos Pi deseado y en cada iteración se aplican las etapas (ii) y

5

15

25

35

45

55

(iii) en los términos de las partes P1 y P2.
6. Procedimiento de indexación según la reivindicación 4 ó 5, caracterizado porque comprende una optimización a partir de las N partes desunidas {P1, P2,... PN} del conjunto P así como de los N términos {t1, t2, tN} que las representan para reducir el error de descomposición del conjunto P en N partes, y porque comprende las siguientes etapas:

(i) calcular los centros de gravedad Ci de las partes Pi

imagen2

cuando se sustituyen los términos tj de la parte Pi respectivamente por Ci y por ti,

(iii) comparar εti y εCi y sustitución de ti por Ci si εCi ≤εti,

(iv) calcular la nueva matriz T de distancias entre los términos ti de la base de términos y procedimiento de descomposición del conjunto P de los términos de la base de términos (3) en N partes, salvo si se cumple una

condición de parada con

imagen1 < umbral, en la que εCt representa el error cometido en el instante t.
7.

Procedimiento de indexación según cualquiera de las reivindicaciones 1 a 6, caracterizado porque para efectuar una estructuración del diccionario de conceptos (5), se produce de manera iterativa en cada iteración una carta de navegación empezando por dividir el conjunto de los conceptos en dos subconjuntos, y luego seleccionando un subconjunto en cada iteración hasta la obtención del número de grupos deseado o hasta que se satisface un criterio de parada.
8.

Procedimiento de indexación según la reivindicación 7, caracterizado porque el criterio de parada está constituido por el hecho de que los subconjuntos obtenidos son todos homogéneos con una pequeña desviación estándar.
9.

Procedimiento de indexación según la reivindicación 7 u 8, caracterizado porque durante la estructuración del diccionario de conceptos (5), se determinan indicadores de navegación a partir de una matriz

imagen1

del conjunto C de los conceptos

imagen1 en la que Ci representa un concepto de p valores, según las siguientes etapas:

(i) calcular un representante w de la matriz M

~

(ii) calcular la matriz de covarianza M entre los elementos de la matriz M y el representante w de la matriz M,

(iii) calcular un eje de proyección u de los elementos de la matriz M,

(iv)

calcular el valor pi = d(u,ci) -d(u, w) y descomponer el conjunto de conceptos C en dos subconjuntos C1 y C2 de la siguiente manera:

(v)

almacenar en el nudo asociado a C las informaciones {u, w, |p1|, p2} en la que p1 es el máximo de todos los pi ≤ 0 y p2 es el mínimo de todos los pi > 0, constituyendo el conjunto de las informaciones {u, w, |p1|, p2} los indicadores de navegación en el diccionario de conceptos (5).

imagen1
10. Procedimiento de indexación según cualquiera de las reivindicaciones 1 a 9, caracterizado porque se analizan a la vez las componentes estructurales y el complemento de estas componentes estructurales constituido por las componentes texturales de una imagen del documento, y porque:

(a) durante el análisis de las componentes estructurales de la imagen

(a1) se procede a un reparto de las zonas fronteras de las estructuras de la imagen en diferentes clases según la orientación de la variación local de intensidad de manera que define los elementos de soporte

5

15

25

35

45

55

estructural (ESS) de la imagen, y

(a2) se procede por análisis estadístico a la construcción de términos constituidos por vectores que describen las propiedades locales y globales de los elementos de soporte estructurales,

(b) durante el análisis de las componentes texturales de la imagen

(b1) se procede a una detección y una caracterización paramétrica de una componente puramente aleatoria de la imagen,

(b2) se procede a una detección y una caracterización paramétrica de una componente periódica de la imagen,

(b3) se procede a una detección y una caracterización paramétrica de una componente direccional de la imagen,

(c)

se reagrupa en un número limitado de conceptos el conjunto de los elementos descriptivos de la imagen constituidos por una parte, por los términos que describen las propiedades locales y globales de los elementos de soporte estructurales y por otra parte, por los parámetros de las caracterizaciones paramétricas de las componentes aleatoria, periódica y direccional que definen las componentes texturales de la imagen, y

(d)

se define para cada documento una huella a partir de las apariciones, de las posiciones y de las frecuencias de dichos conceptos.
11.

Procedimiento de indexación según la reivindicación 10, caracterizado porque las propiedades locales de los elementos de soporte estructurales tenidas en cuenta para la construcción de términos comprenden por lo menos el tipo de soporte seleccionado de entre una banda lineal o un arco de curva, las dimensiones de longitud y anchura del soporte, la dirección principal del soporte y la forma y las propiedades estadísticas de los píxeles que constituyen el soporte.
12.

Procedimiento de indexación según la reivindicación 10 u 11, caracterizado porque las propiedades globales de los elementos de soporte estructurales tenidas en cuenta para la construcción de términos comprenden por lo menos el número de cada tipo de soportes y su disposición espacial.
13.

Procedimiento de indexación según cualquiera de las reivindicaciones 10 a 12, caracterizado porque durante el análisis de las componentes estructurales de la imagen se procede a una prueba previa de detección de la presencia de por lo menos una estructura en la imagen y, en caso de ausencia de estructura, se pasa directamente a la etapa del análisis de las componentes texturales de la imagen.
14.

Procedimiento de indexación según cualquiera de las reivindicaciones 10 a 13, caracterizado porque para proceder a un reparto de las zonas fronteras de las estructuras de la imagen en diferentes clases, a partir de la imagen digitalizada definida por el conjunto de los píxeles y(i,j) en la que (i,j) ∈ I x J, designando I y J respectivamente el número de líneas y el número de columnas de la imagen, se calcula la imagen gradiente vertical gv (i,j) con (i,j) ∈ I X J y la imagen gradiente horizontal gh con (i,j) ∈ I x J y se procede a la división de la imagen según la orientación local de su gradiente en un número finito de clases equidistantes, definiéndose la imagen que contiene la orientación del gradiente por la fórmula

imagen1

se identifican las clases que constituyen regiones de soporte susceptibles de contener elementos de soporte significativos, y a partir de las regiones de soporte, se determinan los elementos de soporte significativos y se catalogan según criterios predeterminados.
15.

Procedimiento de indexación según cualquiera de las reivindicaciones 1 a 9, caracterizado porque durante la indexación de un documento multimedia que comprende señales de vídeo, se eligen términos ti constituidos por imágenes clave que representan grupos de imágenes homogéneas consecutivas, y se determinen conceptos Ci mediante reagrupamiento de términos ti.
16.

Procedimiento de indexación según la reivindicación 15, caracterizado porque para determinar imágenes clave que constituyen términos ti, se elabora en primer lugar un vector de puntuación VS que comprende un conjunto de elementos VS(i) que materializan la diferencia o la similitud entre el contenido de una imagen de índice i y el de una imagen de índice i-1, y se analiza el vector de puntuación VS con el fin de determinar las imágenes clave que corresponden a los máximos de los valores de los elementos VS(i) del vector de puntuación VS.
17.

Procedimiento de indexación según la reivindicación 16, caracterizado porque una imagen de índice j se considera como una imagen clave si el valor VS(j) del elemento correspondiente del vector de puntuación VS es un máximo y el valor VS(j) se sitúa entre dos mínimos min G y min D y el mínimo M1 tal que M1 = (|VS(j) -min G|, |VS(j) min D|) es superior a un umbral dado.
18.

Procedimiento de indexación según cualquiera de las reivindicaciones 1 a 9, caracterizado porque durante la indexación de un documento multimedia que comprende componentes de audio, se toman muestras y se descompone el documento en tramas, que se reagrupan a continuación en clips de los que cada uno se caracteriza por un término ti constituido por un vector de parámetro.
19.

Procedimiento de indexación según la reivindicación 18, caracterizado porque una trama comprende entre aproximadamente 512 y 2048 muestras del documento de audio del que se han tomado muestras.
20.

Procedimiento de indexación según la reivindicación 18 ó 19, caracterizado porque los parámetros tenidos en cuenta para la definición de los términos ti comprenden informaciones temporales que corresponden a por lo menos uno de los siguientes parámetros: la energía de las tramas de la señal de audio, la desviación estándar de las energías de las tramas en los clips, la relación de las variaciones sonoras, la relación de baja energía, la tasa de oscilación alrededor de un valor predeterminado, la alta tasa de oscilación alrededor de un valor predeterminado, la diferencia entre el número de tasa de oscilación por encima y por debajo de la tasa de oscilación media de las tramas de clips, la varianza de la tasa de oscilación, la relación de las tramas silenciosas.
21.

Procedimiento de indexación según cualquiera de las reivindicaciones 18 a 20, caracterizado porque los parámetros tenidos en cuenta para la definición de los términos ti comprenden informaciones frecuenciales que corresponden a por lo menos uno de los siguientes parámetros: el centro de gravedad del espectro de frecuencia de la transformada de Fourier corta de la señal de audio, la anchura de banda de la señal de audio, la relación entre la energía en una banda de frecuencia y la energía total en toda la banda de frecuencia de la señal de audio de la que se han tomado muestras, el valor medio de la variación del espectro de dos tramas adyacentes en un clip, la frecuencia de corte de un clip.
22.

Procedimiento de indexación según cualquiera de las reivindicaciones 18 a 21, caracterizado porque los parámetros tenidos en cuenta para la definición de los términos ti comprenden por lo menos la modulación de energía a 4 Hz.
23.

Procedimiento de indexación según cualquiera de las reivindicaciones 1 a 14, caracterizado porque se analizan las formas de una imagen de un documento según las siguientes etapas:

(a)

proceder a una multirresolución seguida por una decimación de la imagen,

(b)

definir la imagen en el espacio logarítmico polar,

(c)

representar la imagen o la porción de la imagen afectada por su transformada de Fourier H,

(d)

proceder a una caracterización de la transformada de Fourier H de la siguiente manera:

(d1) se proyecta H en varias direcciones para obtener un conjunto de vectores cuya dimensión es igual a la dimensión del movimiento de proyección,

(d2) se calculan las propiedades estadísticas de cada vector de proyección, y

(e) se representa la forma de la imagen por un término ti constituido por los valores de las propiedades estadísticas de cada vector de proyección.