ES2613385T3

ES2613385T3 - Sistema y procedimiento para clasificar resultados de búsqueda usando distancia de clic

Info

Publication number: ES2613385T3
Application number: ES05105110.0T
Authority: ES
Inventors: Dmitriy Meyerzon; Hugo Zaragoza
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-09-30
Filing date: 2005-06-10
Publication date: 2017-05-24
Anticipated expiration: 2025-06-10
Also published as: KR20060048716A; EP1643385B1; US8082246B2; US20100268707A1; EP1643385A2; JP2006107432A; CN1755682A; US20060074903A1; JP5369154B2; EP1643385A3; JP2011258235A; CN100565509C; KR101203312B1; JP4950444B2; US7761448B2

Abstract

Un procedimiento implementado por ordenador para clasificar resultados de búsqueda, que comprende: almacenar (502) información de documentos y de enlaces para documentos (210, 212, 214, 216) en una red; generar (504) una representación de la red a partir de la información de documentos y de enlaces almacenada, incluyendo la representación de la red unos nodos (310, 320, 330, 340) que representan los documentos y en el que más de un nodo dentro de la representación de la red se designa como un nodo de alta autoridad; inicializar (506) los valores de distancia de clic para los nodos, incluyendo: asignar a cada nodo designado como un nodo de alta autoridad un valor de distancia de clic establecido por un administrador; e inicializar el valor de distancia de clic de cada nodo no asignado en un valor máximo; calcular (520) una distancia de clic para cada uno de los nodos en la representación de la red, siendo la distancia de clic para un nodo de alta autoridad dado el valor de distancia de clic establecido por el administrador durante la inicialización, y midiéndose la distancia de clic para un nodo dado no designado como un nodo de alta autoridad a partir del nodo de alta autoridad más próximo al nodo dado; y usar (612) la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta en la clasificación de los documentos para producir los resultados de búsqueda clasificados.

Description

5

10

15

20

25

30

35

40

45

50

DESCRIPCION

Sistema y procedimiento para clasificar resultados de busqueda usando distancia de clic Antecedentes de la invencion

En una busqueda de documentos de texto, un usuario introduce habitualmente una consulta en un motor de busqueda. El motor de busqueda evalua la consulta en una base de datos de documentos indexados y devuelve la lista clasificada de documentos que mejor satisface la consulta. Una puntuacion, que representa una medida de lo bien que el documento satisface la consulta, se genera algontmicamente por el motor de busqueda. Los algoritmos de puntuacion habitualmente usados se basan en la division de la consulta en terminos de busqueda y el uso de informacion estadfstica sobre la aparicion de terminos individuales en el cuerpo de los documentos de texto a buscar. Los documentos se enumeran en orden de clasificacion de acuerdo con sus puntuaciones correspondientes, de modo que el usuario puede ver los resultados de busqueda que coinciden mejor en la parte superior de la lista de resultados de busqueda.

Otra evaluacion que ciertos motores de busqueda pueden emplear para mejorar la calidad de los resultados es modificar la clasificacion de los resultados mediante una funcion de clasificacion seleccionada. Una funcion de clasificacion de la tecnica anterior a modo de ejemplo determina que cuando una pagina enlaza con otra pagina, se emite de manera eficaz un voto para la otra pagina. Cuantos mas votos se emiten para una pagina, mas importante es la pagina. La funcion de clasificacion tambien puede tener en cuenta quien emitio el voto. Cuanto mas importante es la pagina, mas importantes son sus votos. Estos votos se acumulan y se usan como un componente de las valoraciones de las paginas en la red.

Una funcion de clasificacion se usa para mejorar la calidad de la clasificacion. Sin embargo, la eficacia de la funcion de clasificacion puede verse afectada por la topologfa de la red. Por ejemplo, la funcion de clasificacion que usa los votos descritos anteriormente puede ser menos eficaz en una configuracion de intranet. Una intranet es una red que usa algunos de los mismos protocolos que internet, pero a la que solo puede accederse por un subconjunto de usuarios, tal como los empleados de una empresa. Las paginas de una intranet no se estructuran ni se conectan exactamente como internet, por lo que la pertinencia de los resultados producidos por una funcion de clasificacion puede no reducirse en comparacion con la configuracion de internet.

Fagin R. y col.: “Searching the Workplace Web” WWW2003, del 20 al 24 de mayo de 2003, Budapest, Hungna, se refiere a la busqueda en intranet, que se reconoce como muy diferente de una busqueda en internet. Se centra en el uso de la agregacion de clasificaciones, y permite examinar los efectos de diferentes heunsticas en la clasificacion de los resultados de busqueda. Los algoritmos de agregacion de clasificaciones toman como entrada multiples listas clasificadas de las diversas heunsticas y producen una ordenacion de las paginas dirigida a minimizar el numero de “desajustes” con respecto a la ordenacion producida por las heunsticas de clasificacion individuales.

Sumario de la invencion

El objeto de la presente invencion es proporcionar un sistema y un procedimiento para clasificar resultados de busqueda de acuerdo con una nueva funcion denominada distancia de clic.

Este objeto se resuelve por el objeto de las reivindicaciones independientes.

Las realizaciones se proporcionan en las reivindicaciones dependientes.

La funcion de distancia de clic se aprovecha de la estructura jerarquica de una intranet. Una intranet normalmente sigue una estructura de arbol, con un nodo rafz y unas ramas subsiguientes que se extienden a otros nodos desde esa rafz. A menudo, el nodo rafz de la intranet se denomina su pagina principal. Otros sitios fuera de la configuracion de intranet tambien pueden basarse en una estructura jerarquica y la distancia de clic para estos sitios tambien sena muy aplicable para clasificar las paginas del sitio.

La distancia de clic es una medida de pertinencia independiente de la consulta que mide el numero de “clics” necesarios para llegar a una pagina determinada del sitio. En la estructura de arbol, el numero de clics se representa por el numero de ramas atravesadas en la ruta desde el nodo rafz. Una vez que se determina la distancia de clic para una pagina, la distancia de clic se incorpora en la puntuacion de la pagina. La puntuacion de la pagina que incorpora la distancia de clic determina la clasificacion de la pagina entre las otras paginas dentro de los resultados de busqueda.

En un aspecto de la presente invencion, en primer lugar se “rastrea” la red para generar una tabla de propiedades asociadas con los enlaces y las paginas de la red. “Rastreo” se refiere a la recopilacion automatica de varios documentos (o cualquier unidad discreta analoga de informacion) en una base de datos denominada mdice. El rastreo atraviesa multiples documentos en la red siguiendo los enlaces de referencia de documentos dentro de ciertos documentos y, a continuacion, procesando cada documento que haya encontrado. Los documentos se procesan identificando palabras clave o textos generales en los documentos para crear el mdice.

5

10

15

20

25

30

35

40

45

50

55

Un mdice a modo de ejemplo puede ser una lista invertida que tiene una columna de palabras y una columna que indica en que documentos pueden encontrarse esas palabras. Cuando un usuario introduce uno o mas terminos de busqueda, se obtienen los resultados y la presente invencion aplica un algoritmo de clasificacion que incluye la funcion de distancia de clic. La funcion de distancia de clic influye positiva o negativamente en la puntuacion de ciertas paginas, perfeccionando los resultados devueltos al usuario.

En otro aspecto de la invencion, se anade una propiedad de profundidad de URL (localizador de recursos uniforme) al algoritmo de clasificacion para perfeccionar aun mas los resultados. La propiedad de profundidad de URL mide el numero de niveles en la URL para facilitar una comprobacion con respecto a la funcion de distancia de clic y ajustar la puntuacion de la pagina en consecuencia.

Breve descripcion de los dibujos

La figura 1 ilustra un dispositivo informatico a modo de ejemplo que puede usarse en una realizacion a modo de ejemplo de la presente invencion.

La figura 2 ilustra un sistema para clasificar resultados de busqueda de acuerdo con la distancia de clic de acuerdo con la presente invencion.

La figura 3 ilustra una grafica de red a modo de ejemplo de acuerdo con la presente invencion.

La figura 4 ilustra una grafica de red jerarquica a modo de ejemplo de acuerdo con la presente invencion.

La figura 5 ilustra un diagrama de flujo logico de un procedimiento a modo de ejemplo para calcular la distancia de clic de acuerdo con la presente invencion.

La figura 6 ilustra un diagrama de flujo logico de un procedimiento a modo de ejemplo para usar la distancia de clic en la clasificacion de resultados de busqueda de acuerdo con la presente invencion.

Descripcion detallada

A continuacion, se describira con todo detalle la presente invencion con referencia a los dibujos adjuntos, que forman parte de la misma, y que muestran, a modo de ilustracion, realizaciones a modo de ejemplo espedficas para poner en practica la invencion. Sin embargo, la presente invencion puede materializarse de muchas formas diferentes y no debe interpretarse como limitada a las realizaciones expuestas en el presente documento; por el contrario, estas realizaciones se proporcionan de manera que la presente divulgacion sera minuciosa y completa, y transmitira con todo detalle el ambito de la invencion a los expertos en la materia. Entre otras cosas, la presente invencion puede materializarse como procedimientos o dispositivos. En consecuencia, la presente invencion puede adoptar la forma de una realizacion mtegramente de hardware, una realizacion mtegramente de software o una realizacion que combina aspectos de software y de hardware. Por lo tanto, la siguiente descripcion detallada no debe interpretarse en un sentido limitante.

Entorno operativo ilustrativo

Con referencia a la figura 1, un sistema a modo de ejemplo para implementar la invencion incluye un dispositivo informatico, tal como el dispositivo 100 informatico. El dispositivo 100 informatico puede estar configurado como un cliente, un servidor, un dispositivo movil, o cualquier otro dispositivo informatico. En una configuracion muy basica, el dispositivo 100 informatico incluye habitualmente al menos una unidad 102 de procesamiento y una memoria 104 de sistema. Dependiendo de la configuracion exacta y el tipo de dispositivo informatico, la memoria 104 de sistema puede ser volatil (tal como RAM), no volatil (tal como ROM, memoria flash, etc.), o alguna combinacion de las dos. La memoria 104 de sistema incluye habitualmente un sistema 105 operativo, una o mas aplicaciones 106, y puede incluir unos datos 107 de programa. En una realizacion, la aplicacion 106 incluye una aplicacion 120 de clasificacion de busqueda para implementar la funcionalidad de la presente invencion. Esta configuracion basica se ilustra en la figura 1 por los componentes dentro de la lmea 108 discontinua.

El dispositivo 100 informatico puede tener caractensticas o funcionalidades adicionales. Por ejemplo, el dispositivo 100 informatico tambien puede incluir dispositivos de almacenamiento de datos adicionales (extrafbles y/o no extrafbles) tales como, por ejemplo, discos magneticos, discos opticos o cintas. Este almacenamiento adicional se ilustra en la figura 1 mediante un almacenamiento 109 extrafble y un almacenamiento 110 no extrafble. Los medios de almacenamiento informatico pueden incluir medios volatiles y no volatiles, extrafbles y no extrafbles implementados en cualquier procedimiento o tecnologfa para el almacenamiento de informacion, tales como instrucciones legibles por ordenador, estructuras de datos, modulos de programa u otros datos. La memoria 104 de sistema, el almacenamiento 109 extrafble y el almacenamiento 110 no extrafble son todos ejemplos de medios de almacenamiento informaticos. Los medios de almacenamiento informatico incluyen, pero no se limitan a, una memoria RAM, ROM, EEPROM, memoria flash u otra tecnologfa de memoria, CD-ROM, discos versatiles digitales (DVD) u otro almacenamiento optico, casetes magneticos, cinta magnetica, almacenamiento de disco magnetico u otros dispositivos de almacenamiento magnetico o cualquier otro medio que pueda usarse para almacenar la informacion deseada y al que pueda accederse mediante el dispositivo 100 informatico. Cualquiera de estos medios de almacenamiento informaticos puede ser parte del dispositivo 100. El dispositivo 100 informatico tambien puede tener un dispositivo(s) 112 de entrada como un teclado, un raton, un puntero, un dispositivo de entrada de voz, un dispositivo de entrada tactil, etc. Tambien puede incluirse un dispositivo(s) 114 de salida tal como una pantalla, unos altavoces, una impresora, etc.

5

10

15

20

25

30

35

40

45

50

55

60

El dispositivo 100 informatico tambien contiene unas conexiones 116 de comunicacion que permiten que el dispositivo se comunique con otros dispositivos 118 informaticos, tal como a traves de una red. La conexion 116 de comunicacion es un ejemplo de medio de comunicacion. Los medios de comunicacion pueden incorporar habitualmente instrucciones legibles por ordenador, estructuras de datos, modulos de programa u otros datos en una senal de datos modulada, tal como una onda portadora u otro mecanismo de transporte, e incluyen cualquier medio de suministro de informacion. La expresion “senal de datos modulada” significa una senal que tiene una o mas de sus caractensticas establecidas o cambiadas de tal manera que codifican informacion en la senal. A modo de ejemplo, y no de limitacion, los medios de comunicacion incluyen medios cableados tales como una red cableada o una conexion directa por cable, y medios inalambricos tales como medios acusticos, RF, infrarrojos y otros medios inalambricos. La expresion medio legible por ordenador tal como se usa en el presente documento incluye tanto medios de almacenamiento como medios de comunicacion.

Realizaciones ilustrativas para clasificar busquedas por distancia de clic

Las realizaciones de la presente invencion estan relacionadas con una funcion de clasificacion para un motor de busqueda. La calidad de un motor de busqueda se determina habitualmente por la pertinencia de los documentos de acuerdo con las clasificaciones asignadas por la funcion de clasificacion. La funcion de clasificacion puede basarse en multiples caractensticas. Algunas de estas caractensticas pueden depender de la consulta, mientras que otras se consideran independientes de la consulta. La distancia de clic es el numero de “clics” que un usuario tendra que hacer desde la pagina principal de la intranet (la URL mas autorizada en la intranet o una de las URL mas autorizadas) a la pagina dada. En una grafica web, la distancia de clic puede representarse como la ruta mas corta entre la pagina principal y la pagina dada. En una realizacion, un algoritmo realiza en primer lugar un recorrido de amplitud y calcula la distancia entre un nodo dado y todos los otros nodos en la grafica. El recorrido puede tomar N iteraciones para completarse, donde N es el diametro de la grafica (distancia maxima mas corta), para calcular la distancia de clic para la intranet. La variable N en este caso es mucho menor que el numero total de nodos en la grafica. Por ejemplo, N para la presente invencion puede estar entre 5 y 60 dependiendo de la red. Otras funciones de clasificacion pueden requerir 40-50 iteraciones para cubrir la grafica (por ejemplo, clasificacion de pagina), haciendo que las otras funciones de clasificacion sean varias veces mas lentas que usar la distancia de clic.

La figura 2 ilustra un sistema para clasificar resultados de busqueda de acuerdo con una distancia de clic de acuerdo con la presente invencion. El motor 200 de busqueda recibe una consulta que contiene multiples terminos de consulta. Cada termino de consulta puede incluir multiples terminos de componente, como cuando el termino de consulta es una frase (por ejemplo, la frase “sistema de gestion de documentos” puede considerarse un unico termino de consulta). Ademas, una consulta puede incluir uno o mas operadores, tales como operadores booleanos, restricciones, etc., que se soportan habitualmente por motores de busqueda conocidos.

Una pluralidad de documentos en una red distribuida, representada por los documentos 210, 212, 214, y 216, estan disponibles para la busqueda. En la practica, un motor de busqueda puede buscar cualquier numero de documentos y, habitualmente, busca colecciones que contienen grandes numeros (por ejemplo, millones) de documentos. El volumen de documentos puede reducirse de la configuracion de internet a la configuracion de intranet, pero normalmente la reduccion es de billones a millones, de manera que el numero relativo de documentos todavfa es bastante grande. Un modulo de indexacion (no mostrado) genera estadfsticas de documento individuales (por ejemplo, 218, 220, 222 y 224) para cada documento. Las estadfsticas de documento se almacenan en un mdice 226.

El motor 200 de busqueda consulta el mdice 226 para determinar una puntuacion 228 de busqueda para cada documento basandose en la consulta y las estadfsticas de documento correspondientes. En la presente invencion, una de las estadfsticas de documento incluidas es la distancia de clic del documento. En otra realizacion, otra estadfstica de documento incluida es la profundidad de URL asociada con el documento. La distancia de clic y las profundidades de URL se combinan a continuacion con las estadfsticas dependientes de la consulta para formar la puntuacion final de un documento. Habitualmente, las puntuaciones de documento 228 se clasifican a continuacion en orden descendente para proporcionar al usuario una lista de documentos que se consideran por el algoritmo de busqueda como los mas relevantes para la consulta.

En el sistema ilustrado, el motor 200 de busqueda representa un motor de busqueda de clasificacion de distancia de clic, que considera la distancia de clic de un documento en la determinacion de la puntuacion de busqueda del documento. La valoracion de distancia de clic de un documento aprovecha la presencia del documento en un sitio estructurado jerarquicamente (vease la figura 3), midiendo la distancia desde la pagina principal del sitio al documento. En un caso, la distancia de clic desde la pagina principal es una medida de la importancia de la pagina, donde las paginas mas cercanas en la jerarqrna a la pagina principal se consideran mas importantes que las paginas inferiores en la jerarqrna. Sin embargo, pueden existir otros escenarios donde ocurre lo contrario, donde los documentos inferiores en la jerarqrna se consideran mas que las paginas superiores en la jerarqrna. Por lo tanto, la distancia de clic se considera una medida de pertinencia independiente de la consulta, ya que valora la importancia general del documento en lugar de la consulta (por ejemplo, una funcion de clasificacion dependiente de la consulta contana el numero de veces que un termino de busqueda aparece en un documento).

5

10

15

20

25

30

35

40

45

50

55

La figura 3 ilustra una grafica de red a modo de ejemplo de acuerdo con la presente invencion. La grafica de red esta compuesta de nodos (por ejemplo, 310) y bordes o enlaces (por ejemplo, 320). Los nodos (por ejemplo, 310) representan las paginas y otros recursos que estan en la red que pueden devolverse como resultados a una consulta de busqueda. Los enlaces (por ejemplo, 320) conectan entre sf cada una de estas paginas a traves del uso de los enlaces de navegacion enumerados en las paginas. Puede recopilarse un conjunto de informacion de enlace para cada pagina que puede usarse en el calculo de la distancia de clic para una pagina espedfica.

En una realizacion, el nodo 330 representa la pagina de autoridad mas alta o el nodo de rafz en la red para un grupo de documentos. La distancia de clic para las paginas restantes de la red puede calcularse desde el nodo 330. Por ejemplo, el nodo 340 tiene una distancia de clic de dos “clics” desde el nodo 330. Como se ha indicado anteriormente, “clics” se refiere al numero de ramas atravesadas en la ruta mas corta desde el nodo de autoridad mas alta. Podnan haberse elegido otras rutas desde el nodo 330 para alcanzar el nodo 340, pero la distancia de clic se refiere a la ruta mas corta.

La grafica 300 de red se muestra con unos nodos que no se ajustan a un orden espedfico, y pueden ser similares a internet en ese aspecto. Con la falta de orden, la aplicabilidad de la distancia de clic para las paginas de clasificacion puede ser diffcil de conceptualizar. Sin embargo, a menudo, la red de paginas y de recursos se ajusta a un orden aplicado como se muestra a continuacion en la figura 4.

La figura 4 ilustra una grafica de red jerarquica a modo de ejemplo de acuerdo con la presente invencion. La grafica 400 de red jerarquica es similar a la grafica 300 de red mostrada en la figura 3 porque tambien incluye nodos (por ejemplo, 410) y enlaces (por ejemplo, 420). Sin embargo, la grafica 400 de red jerarquica se basa en la jerarqma inherente de un sitio estructurado o intranet. En consecuencia, la grafica 400 de red jerarquica puede conceptualizarse como una estructura de arbol con ramas que se extienden desde un nodo rafz.

Para la grafica 400 de red jerarquica, la aplicabilidad y el calculo de la distancia de clic es mas reconocible. Por ejemplo, el nodo 330 corresponde al nodo de autoridad mas alta o nodo rafz del arbol. Por lo tanto, el nodo 340 tiene una distancia de clic asociada de 3, siendo 3 los clics o las navegaciones de usuario desde el nodo rafz. Dicho de otra manera, puesto que se requiere que un usuario atraviese 3 ramas del arbol para navegar desde el nodo 330 al nodo 340, la distancia de clic tambien es 3.

Las graficas de red representadas en las figuras 3 y 4 son ejemplos de graficas que se construyen en la memoria durante la indexacion de los documentos para calcular la distancia de clic. La construccion de una grafica durante la indexacion permite incluir la distancia de clic entre las estadfsticas de documentos almacenadas en el mdice y usarlas para clasificar las paginas. A continuacion, se describen procedimientos a modo de ejemplo para generar la propiedad de distancia de clic y usar la propiedad de distancia de clic en los documentos de clasificacion en relacion con las figuras 5 y 6.

La figura 5 ilustra un diagrama de flujo logico de un procedimiento a modo de ejemplo para calcular la distancia de clic (CD) de acuerdo con la presente invencion. El procedimiento 500 comienza en el bloque 502 donde se han indexado documentos en una red distribuida y se ha generado la grafica de red. En una realizacion, la grafica de red se genera a partir de los datos recopilados mediante un procedimiento en el que se recopila informacion de texto de enlace y de anclaje y se atribuye a documentos de destino espedficos del anclaje. El procesamiento continua en el bloque 504.

En el bloque 504, la grafica de red se carga en la memoria. Esta grafica de red es la representacion estructural de la identificacion del documento (por ejemplo, el ID del documento) y la informacion de enlace recopilada de la red. En las figuras 3 y 4, se muestran ejemplos de la grafica de red. La grafica de red representa los nodos o paginas de un sitio o de intranet. Cada nodo tiene una propiedad de distancia de clic asociada que tiene un valor o peso. En una realizacion, esta propiedad de distancia de clic se concatena en el extremo del ID de documento. El procesamiento continua en el bloque 506.

En el bloque 506, se inicializan los valores de distancia de clic (CD) de los nodos. Los nodos de autoridad mas alta se denominan nodos asignados. A estos nodos se les asigna un valor de distancia de clic de 0 (cero). Puede indicarse mas de un nodo de alta autoridad para una sola grafica de red. Por ejemplo, un administrador puede clasificar manualmente un conjunto de 100 nodos e designarlos como nodos de alta autoridad. Ademas, los nodos de alta autoridad no necesitan tener una distancia de clic de 0 (cero), puede asignarse cualquier numero por un administrador. Cambiar la distancia de clic de los nodos de alta autoridad no altera el algoritmo restante, sino que simplemente proporciona un procedimiento para designar manualmente la importancia de un nodo. Por ejemplo, un administrador puede mejorar la puntuacion de distancia de clic de algunos nodos. En otros casos, el administrador puede disminuir la puntuacion de distancia de clic (haciendo que la distancia de clic sea mayor que la calculada por el algoritmo de manera predeterminada). La distancia de clic para cada uno de los nodos no asignados se inicializa en un valor maximo. En una realizacion, el valor maximo establece esencialmente el valor de distancia de clic en infinito. Asignar el valor de infinito a un nodo lo hace facilmente reconocible como un nodo cuya distancia de clic no se ha calculado. Con las inicializaciones de los valores de distancia de clic completadas, el procesamiento se mueve al bloque 508.

5

10

15

20

25

30

35

40

45

50

55

En el bloque 508, los nodos que tienen una distancia de clic asociada distinta del valor maximo se insertan en una cola. En un ejemplo, esta etapa solo se produce en una primera iteracion. Los nodos insertados en la cola corresponden a los nodos de autoridad mas alta ya que sus valores de distancia de clic se establecen en 0 (cero), un valor distinto del valor maximo. Una vez que los nodos con valor de distancia de clic distinto del maximo se anaden a la cola, el procesamiento continua en el bloque 510 de decision.

En el bloque 510 de decision, se realiza una determinacion de si la cola esta vada. Una cola vada significa que no hay mas nodos que necesiten calcular la distancia de clic de sus nodos destino. Si la cola esta vada, el procesamiento se mueve al bloque 512 donde termina el procedimiento 500. Sin embargo, si la cola no esta vada, el procesamiento continua en el bloque 514.

En el bloque 514, se elimina un nodo de la cola. La eliminacion del nodo de la cola inicia el calculo de las distancias de clic para los nodos destino asociados con ese documento. Los nodos destino corresponden a los documentos que tienen un enlace con los mismos desde un documento de origen. En este caso, el documento de origen es el documento correspondiente al nodo eliminado de la cola. Una vez eliminado este nodo, el procesamiento se mueve al bloque 516.

En el bloque 516, se obtiene el siguiente nodo destino. El siguiente nodo destino hace referencia al documento siguiente entre los documentos vinculados por el documento de origen. Una vez que se obtiene el siguiente nodo destino, el procesamiento continua al bloque 518 de decision.

En el bloque 518 de decision, se realiza una determinacion de si la distancia de clic asociada con el nodo destino es mayor que la distancia de clic de la pagina actual mas uno (CD + 1). En una realizacion, la unica forma en que se cumple la condicion en el bloque 518 es cuando el nodo destino tiene una distancia de clic de infinito (suponiendo que el nodo de alta autoridad se establezca en cero y un administrador no haya establecido manualmente una distancia de clic). Por ejemplo, si la distancia de clic actual es 1, entonces CD + 1 = 2. Una distancia de clic de 2 es menor que infinito y se cumple la condicion. Determinar si la distancia de clic destino es mayor que la distancia de clic mas uno evita que se cambien los documentos destino con una distancia de clic menor. Usando el ejemplo anterior, si la distancia de clic del nodo destino es 1 y la distancia de clic actual tambien es 1, entonces la distancia de clic destino no es mayor que CD + 1 = 2. En este caso, la ruta mas corta hacia el nodo destino ya se ha registrado y, por lo tanto, no necesita actualizarse. En consecuencia, cuando la distancia de clic destino no es mayor que la distancia de clic actual mas uno, el procesamiento avanza al bloque 522 de decision. Sin embargo, si la distancia de clic destino es mayor que la distancia de clic actual mas uno, el procesamiento se mueve al bloque 520.

En el bloque 520, se actualiza el valor de distancia de clic del nodo destino y se anade el nodo destino a la cola como un nodo cuando es necesario hacer el calculo de distancia de clic de sus destinos. El nodo destino se actualiza con un nuevo valor de distancia de clic para eliminar el valor de infinito y establecer el valor de distancia de clic calculado de los nodos. En una realizacion, el valor de distancia de clic del nodo se establece en el valor de distancia de clic actual mas uno (CD + 1). El procesamiento continua en el bloque 522 de decision.

En el bloque 522 de decision, se realiza una determinacion de si se han obtenido todos los nodos destino para el nodo actual eliminado de la cola. Si hay nodos destino a obtener para el nodo actual, el procesamiento vuelve al bloque 516 donde se obtiene el siguiente nodo destino. Sin embargo, si se han obtenido todos los nodos destino correspondientes al nodo actual, el procesamiento vuelve al bloque 510 de decision para volver a comprobar si la cola esta vada. De nuevo, una vez que la cola esta vada, el procesamiento se mueve al bloque 512, donde termina el procedimiento 500.

Es posible que no todos los nodos de una red esten conectados a los nodos de alta autoridad iniciales. En consecuencia, en otra realizacion de la presente invencion, se supone que los nodos que no estan conectados a los nodos de alta autoridad tienen una importancia baja y se les asigna una distancia de clic que es menor que la media para la grafica de red.

La figura 6 ilustra un diagrama de flujo logico de un procedimiento a modo de ejemplo para usar la distancia de clic en la clasificacion de los resultados de busqueda de acuerdo con la presente invencion. El procedimiento 600 comienza en el bloque 602 donde se ha solicitado una consulta y se ha calculado la distancia de clic para cada uno de los documentos de la red. El procesamiento continua en el bloque 604.

En el bloque 604, el valor de distancia de clic para cada uno de los documentos se combina con las otras estadfsticas de documento (vease la figura 2) en el mdice. La combinacion de los valores de distancia de clic con las otras estadfsticas de documento permite un tiempo de respuesta de consulta mas rapido ya que se agrupa toda la informacion relacionada con la clasificacion. En consecuencia, cada documento enumerado en el mdice tiene un valor de distancia de clic asociado despues de la combinacion. Una vez completada la combinacion, el procesamiento se mueve al bloque 606.

En el bloque 606, una funcion de puntuacion se rellena con el conjunto de estadfsticas de documento, incluyendo la distancia de clic, para calcular una puntuacion de un documento espedfico. La distancia de clic proporciona un factor independiente de la consulta a la funcion de puntuacion. La otra parte de la funcion de puntuacion corresponde a la parte dependiente de la consulta o relacionada con el contenido de la funcion de puntuacion. En

5

10

15

20

25

30

35

40

una realizacion, la funcion de puntuacion es una suma de funciones de puntuacion dependientes de la consulta (QD) e independientes de la consulta (QID):

Puntuacion = QD(doc,consults ) + QID(doc) ■ vU

La funcion QD puede ser cualquier funcion de puntuacion de documento. En una realizacion, la funcion de puntuacion QD corresponde a la funcion de puntuacion ponderada de campo descrita en la solicitud de patente numero de serie 10/804.326, titulada “Field Weighting in Text Document Searching”, presentada el 18 de marzo de 2004 e incorporada por referencia en el presente documento. Tal como se proporciona en la solicitud de patente 10/804.326, la siguiente es una representacion de la funcion de puntuacion ponderada de campo:

QD(doc , consults ) = V----:------+ 1)---------------------x log(^) (2)

t //i i \ t wctt . r ri

kt((l-b) + b------+

avwdl

en donde los terminos se definen de la siguiente manera: wtf es la frecuencia de termino ponderada o la suma de las frecuencias de termino de unos terminos dados multiplicados por los pesos a traves de todas las propiedades; wdl es la longitud de documento; avwdl es la longitud de documento ponderada promedio; N es el numero de documentos en la red (es decir, el numero de documentos rastreados); n es el numero de documentos que contienen el termino de consulta dado; y ki y b son unas constantes. Estos terminos y la ecuacion anterior se describen en detalle en la solicitud de patente 10/804.326.

La funcion QID puede ser cualquier transformacion de la distancia de clic y otras estadfsticas de documento (tales como la profundidad de URL). En una realizacion esta funcion es la siguiente:

imagen1

en donde los terminos de la funcion se definen de la siguiente manera: Wcd es el peso del componente independiente de la consulta; bcd es el peso de la distancia de clic; bud es el peso de la profundidad de URL; CD es la distancia de clic; UD es la profundidad de URL; y Kcd es la constante de saturacion de distancia de clic. Los terminos ponderados (Wcd, bcd, y bud) ayudan a definir la importancia de cada uno de sus terminos relacionados y, finalmente, la forma de las funciones de puntuacion. La profundidad de URL (UD) se anade al componente independiente de la consulta para suavizar el efecto de la distancia de clic en la funcion de puntuacion. En algunos casos, un documento que no es muy importante (es decir, tiene una gran profundidad de URL) puede tener una corta distancia de clic. La profundidad de URL cuenta el numero de barras en la URL de un documento. Por ejemplo,
www.example.com\d1\d2\d3\d4.htm incluye cuatro barras y, por lo tanto, tendna una profundidad de URL de 4. Sin embargo, este documento puede tener un enlace directo desde la pagina principal
www.example.com lo que da una distancia de clic de 1. Incluyendo el termino de profundidad de URL en la funcion (3) y ponderandolo con respecto a la distancia de clic, se compensa la alta puntuacion de distancia de clic para reflejar con mayor precision la clasificacion de la pagina dentro de la jerarqrna. Dependiendo de la red, una profundidad de URL de 3 o mas puede considerarse un enlace profundo. Para esta realizacion, la presente invencion anade las dos funciones de (2) y (3) para recibir la funcion de puntuacion (puntuacion), de tal manera que la nueva funcion de puntuacion se convierte en:

imagen2

En otras realizaciones, la profundidad de URL puede eliminarse de la funcion de puntuacion o pueden anadirse otros factores a la funcion de puntuacion para mejorar la precision o del componente dependiente de la consulta o del componente independiente de la consulta. Ademas, el componente independiente de la consulta puede incorporarse en otras funciones de clasificacion no mostradas para mejorar los resultados de clasificacion. Una vez que la funcion de puntuacion (4) se rellena con las estadfsticas de documento para un documento espedfico, el procedimiento avanza al bloque 608.

En el bloque 608, se ejecuta la funcion de puntuacion y se calcula la puntuacion de pertinencia para el documento. Una vez que se calcula la puntuacion de pertinencia, se almacena en la memoria y se asocia con ese documento espedfico. A continuacion, el procesamiento se mueve al bloque 610 de decision.

En el bloque 610 de decision, se realiza una determinacion de si se han calculado las puntuaciones de pertinencia 5 de todos los documentos de acuerdo con la funcion (4) de puntuacion. Las puntuaciones pueden calcularse en serie, como se muestra, o en paralelo. Si no se han calculado todas las puntuaciones, el procesamiento vuelve al bloque 606 donde la funcion de puntuacion se rellena con el siguiente conjunto de estadfsticas de documento. Sin embargo, si se han calculado todas las puntuaciones, el procesamiento continua en el bloque 612.

En el bloque 612, los resultados de busqueda de la consulta se clasifican de acuerdo con sus puntuaciones 10 correspondientes. Las puntuaciones ahora tienen en cuenta la distancia de clic y la profundidad de URL de cada uno de los documentos. En consecuencia, se ha perfeccionado la clasificacion de los documentos de manera que los documentos mas altos en la jerarqrna de una intranet o un sitio se clasifican mas alto que los otros documentos donde todos los demas factores son los mismos. Una vez que se clasifican los resultados de busqueda, el procesamiento avanza al bloque 614, donde termina el procedimiento 600.

15 Despues de que se ha completado el procedimiento 600, los documentos clasificados pueden devolverse al usuario mediante las diversas operaciones asociadas con la transmision y la visualizacion de los resultados por un motor de busqueda. A continuacion, los documentos correspondientes a los resultados de mayor precision pueden seleccionarse y verse a discrecion por el usuario.

La memoria descriptiva, los ejemplos y los datos anteriores proporcionan una descripcion completa de la fabricacion 20 y el uso de la composicion de la invencion.

Claims

5

10

15

20

25

30

35

40

45

50

REIVINDICACIONES

1. Un procedimiento implementado por ordenador para clasificar resultados de busqueda, que comprende:

almacenar (502) informacion de documentos y de enlaces para documentos (210, 212, 214, 216) en una red; generar (504) una representacion de la red a partir de la informacion de documentos y de enlaces almacenada, incluyendo la representacion de la red unos nodos (310, 320, 330, 340) que representan los documentos y en el que mas de un nodo dentro de la representacion de la red se designa como un nodo de alta autoridad; inicializar (506) los valores de distancia de clic para los nodos, incluyendo:

asignar a cada nodo designado como un nodo de alta autoridad un valor de distancia de clic establecido por un administrador; e

inicializar el valor de distancia de clic de cada nodo no asignado en un valor maximo;

calcular (520) una distancia de clic para cada uno de los nodos en la representacion de la red, siendo la distancia de clic para un nodo de alta autoridad dado el valor de distancia de clic establecido por el administrador durante la inicializacion, y midiendose la distancia de clic para un nodo dado no designado como un nodo de alta autoridad a partir del nodo de alta autoridad mas proximo al nodo dado; y

usar (612) la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta en la clasificacion de los documentos para producir los resultados de busqueda clasificados.
2. El procedimiento implementado por ordenador de la reivindicacion 1, en el que generar una representacion de la red comprende, ademas, generar una grafica (300, 400) de red y almacenar la grafica de red en la memoria.
3. El procedimiento implementado por ordenador de la reivindicacion 1, que comprende, ademas, almacenar un nodo actual de la representacion de la red en una cola de nodos hasta que se calcula la distancia de clic de los nodos destino asociados con el nodo actual.
4. El procedimiento implementado por ordenador de la reivindicacion 3, en el que la distancia de clic de uno de los nodos destino se establece en la distancia de clic del nodo actual mas una variable cuando la distancia de clic del uno de los nodos destino es mayor que la distancia de clic del nodo actual mas la variable.
5. El procedimiento implementado por ordenador de la reivindicacion 1, en el que la distancia de clic calculada asociada con cada uno de los documentos se combina con un mdice que incluye otras estadfsticas que corresponden a cada uno de los documentos.
6. El procedimiento implementado por ordenador de la reivindicacion 5, en el que una funcion de puntuacion se rellena con la distancia de clic calculada y las otras estadfsticas para producir una puntuacion por la que se clasifican los documentos.
7. El procedimiento implementado por ordenador de la reivindicacion 1, en el que usar la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta comprende, ademas, usar un componente correspondiente a la distancia de clic en una funcion de puntuacion para determinar una puntuacion de pertinencia para cada uno de los documentos.
8. El procedimiento implementado por ordenador de la reivindicacion 7, en el que la puntuacion de pertinencia se compensa con una propiedad de profundidad de localizador de recursos uniforme que suaviza el efecto de la distancia de clic en la puntuacion de pertinencia.
9. El procedimiento implementado por ordenador de la reivindicacion 1, que comprende, ademas, permitir que la distancia de clic se cambie manualmente despues que se calcule la distancia de clic.
10. El procedimiento implementado por ordenador de la reivindicacion 1, que comprende, ademas, clasificar los documentos de acuerdo con una funcion de puntuacion, puntuacion, que se determina de acuerdo con al menos: la distancia de clic calculada, CD, un peso de un componente independiente de la consulta, Wcd, un peso de la distancia de clic, bcd, un peso de una profundidad de URL, bud, la profundidad de URL, UD, y una constante de saturacion de distancia de clic, Kcd.
11. El procedimiento implementado por ordenador de la reivindicacion 1, que comprende, ademas, clasificar los documentos de acuerdo con una funcion de puntuacion, puntuacion, que se determina de acuerdo con al menos: la distancia de clic calculada, CD, una frecuencia de termino ponderada, wtf, una longitud de documento ponderada, wdl, una longitud de documento ponderada promedio, avwdl, un numero de documentos en la red, N; un numero de documentos que contienen un termino de consulta, n, un peso de un componente independiente de la consulta, Wcd, un peso de la distancia de clic, bcd, un peso de una profundidad de URL, bud, la profundidad de URL, UD, una constante de saturacion de distancia de clic, Kcd, y otras constantes, k-i, b.
12. El procedimiento implementado por ordenador de la reivindicacion 11, en el que la funcion de puntuacion, puntuacion, esta dada por:

5

10

15

20

25

30

35

40

45

50

imagen1
13. Un sistema para clasificar resultados de busqueda, que comprende:

un motor (200) de busqueda incluido en un dispositivo (100) informatico, estando el motor de busqueda configurado para ejecutar instrucciones ejecutables por ordenador, comprendiendo las instrucciones ejecutables por ordenador:

descubrir documentos (210, 212, 214, 216) en una red;

registrar informacion de documentos y de enlaces para cada uno de los documentos en la red; generar una representacion de la red a partir de la informacion de documentos y de enlaces registrada, en el que la representacion de la red incluye unos nodos (310, 320, 330, 340) que representan los documentos, y en el que mas de un nodo dentro de la representacion de la red se designa como un nodo de alta autoridad; inicializar los valores de distancia de clic para los nodos, incluyendo:

asignar a cada nodo designado como un nodo de alta autoridad un valor de distancia de clic establecido por un administrador; e

inicializar el valor de distancia de clic de cada nodo no asignado en un valor maximo;

calcular una distancia de clic para cada uno de los nodos en la representacion de la red, en el que la distancia de clic para un nodo de alta autoridad dado es el valor de distancia de clic establecido por el administrador durante la inicializacion, y midiendose la distancia de clic para un nodo dado no designado como un nodo de alta autoridad a partir del nodo de autoridad mas proximo al nodo dado;

asociar la distancia de clic calculada para cada nodo con el documento que corresponde a ese nodo; y usar la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta en la clasificacion de los documentos para producir los resultados de busqueda clasificados.
14. El sistema de la reivindicacion 13, en el que generar una representacion de la red comprende, ademas, generar una grafica de red y almacenar la grafica de red en la memoria.
15. El sistema de la reivindicacion 13, en el que asociar la distancia de clic calculada a cada nodo con el documento que corresponde a ese nodo comprende, ademas, combinar la distancia de clic calculada asociada con cada uno de los documentos con un mdice que incluye otros valores de clasificacion que corresponden a cada uno de los documentos.
16. El sistema de la reivindicacion 15, en el que una funcion de puntuacion se rellena con la distancia de clic calculada y los otros valores de clasificacion para producir una puntuacion por la que se clasifican los documentos.
17. El sistema de la reivindicacion 13, en el que usar la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta comprende, ademas, usar un componente correspondiente a la distancia de clic en una funcion de puntuacion para determinar una puntuacion de pertinencia para cada uno de los documentos.
18. El sistema de la reivindicacion 17, en el que la puntuacion de pertinencia se compensa con una propiedad de profundidad de localizador de recursos uniforme que suaviza el efecto de la distancia de clic en la funcion de puntuacion cuando la distancia de clic para un nodo es desproporcionada con respecto a la profundidad del nodo en la representacion de la red.
19. El sistema de la reivindicacion 13, que comprende, ademas, clasificar los documentos de acuerdo con una funcion de puntuacion, puntuacion, que se determina de acuerdo con al menos: la distancia de clic calculada, CD, un peso de un componente independiente de la consulta, Wcd, un peso de la distancia de clic, bcd, un peso de una profundidad de URL, bud, la profundidad de URL, UD, y una constante de saturacion de distancia de clic, Kcd.
20. El sistema de la reivindicacion 13, que comprende, ademas, clasificar los documentos de acuerdo con una funcion de puntuacion, puntuacion, que se determina de acuerdo con al menos: la distancia de clic calculada, CD, una frecuencia de termino ponderada, wtf, una longitud de documento ponderada, wdl, una longitud de documento ponderada promedio, avwdl, un numero de documentos en la red, N; un numero de documentos que contienen un termino de consulta, n, un peso de un componente independiente de la consulta, Wcd, un peso de la distancia de clic, bcd, un peso de una profundidad de URL, bud, la profundidad de URL, UD, una constante de saturacion de distancia de clic, Kcd, y otras constantes, k-i, b.
21. El sistema de la reivindicacion 20, en el que la funcion de puntuacion, puntuacion, esta dada por:

5

10

15

20

25

30

35

imagen2
22. El sistema de la reivindicacion 13, en el que generar la representacion de la red comprende, ademas, generar una representacion de la red, designandose mas de un nodo dentro de la representacion de la red como un nodo de alta autoridad.
23. El sistema de la reivindicacion 13, que comprende, ademas, permitir que la distancia de clic se cambie manualmente despues que se calcule la distancia de clic.
24. Un medio legible por ordenador que incluye instrucciones ejecutables por ordenador para clasificar resultados de busqueda, comprendiendo las instrucciones:

almacenar informacion de documentos y de enlaces para documentos (210, 212, 214, 216) en una red, de tal manera que una grafica (300, 400) de red que representa la red se genera en la memoria, designandose mas de un nodo dentro de la representacion de la red como un nodo de alta autoridad; inicializar los valores de distancia de clic para los nodos, incluyendo:

asignar a cada nodo designado como un nodo de alta autoridad un valor de distancia de clic establecido por un administrador; e

inicializar el valor de distancia de clic de cada nodo no asignado en un valor maximo;

almacenar cada documento representado en la grafica de red en una cola cuando el documento tiene un valor de distancia de clic que es diferente del valor maximo;

cuando la cola no esta vacfa:

eliminar un documento de la cola,

calcular una distancia de clic para cada documento destino asociado con el documento eliminado, en el que cada documento destino se actualiza con un nuevo valor de distancia de clic distinto del valor maximo cuando cada distancia de clic del documento destino es mayor que la distancia de clic asociada con el documento eliminado mas una variable, correspondiendo el nuevo valor de distancia de clic de un documento destino dado a un nodo dado que se mide a partir del nodo de alta autoridad mas proximo al nodo dado, y anadir cada uno de los documentos destino a la cola que se ha actualizado; y

usar la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta en la clasificacion de los documentos para producir los resultados de busqueda clasificados.
25. El medio legible por ordenador de la reivindicacion 24, en el que usar la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta comprende, ademas, usar un componente correspondiente a la distancia de clic en una funcion de puntuacion para determinar una puntuacion de pertinencia para cada uno de los documentos.
26. El medio legible por ordenador de la reivindicacion 24, en el que generar la representacion de la red comprende, ademas, generar una representacion de la red, designandose mas de un nodo dentro de la representacion de la red como un nodo de alta autoridad.
27. El medio legible por ordenador de la reivindicacion 24, que comprende ademas permitir que la distancia de clic se cambie manualmente despues de que se calcule la distancia de clic.