ES2613385T3 - Sistema y procedimiento para clasificar resultados de búsqueda usando distancia de clic - Google Patents
Sistema y procedimiento para clasificar resultados de búsqueda usando distancia de clic Download PDFInfo
- Publication number
- ES2613385T3 ES2613385T3 ES05105110.0T ES05105110T ES2613385T3 ES 2613385 T3 ES2613385 T3 ES 2613385T3 ES 05105110 T ES05105110 T ES 05105110T ES 2613385 T3 ES2613385 T3 ES 2613385T3
- Authority
- ES
- Spain
- Prior art keywords
- click distance
- documents
- node
- network
- punctuation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Un procedimiento implementado por ordenador para clasificar resultados de búsqueda, que comprende: almacenar (502) información de documentos y de enlaces para documentos (210, 212, 214, 216) en una red; generar (504) una representación de la red a partir de la información de documentos y de enlaces almacenada, incluyendo la representación de la red unos nodos (310, 320, 330, 340) que representan los documentos y en el que más de un nodo dentro de la representación de la red se designa como un nodo de alta autoridad; inicializar (506) los valores de distancia de clic para los nodos, incluyendo: asignar a cada nodo designado como un nodo de alta autoridad un valor de distancia de clic establecido por un administrador; e inicializar el valor de distancia de clic de cada nodo no asignado en un valor máximo; calcular (520) una distancia de clic para cada uno de los nodos en la representación de la red, siendo la distancia de clic para un nodo de alta autoridad dado el valor de distancia de clic establecido por el administrador durante la inicialización, y midiéndose la distancia de clic para un nodo dado no designado como un nodo de alta autoridad a partir del nodo de alta autoridad más próximo al nodo dado; y usar (612) la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta en la clasificación de los documentos para producir los resultados de búsqueda clasificados.
Description
5
10
15
20
25
30
35
40
45
50
DESCRIPCION
Sistema y procedimiento para clasificar resultados de busqueda usando distancia de clic Antecedentes de la invencion
En una busqueda de documentos de texto, un usuario introduce habitualmente una consulta en un motor de busqueda. El motor de busqueda evalua la consulta en una base de datos de documentos indexados y devuelve la lista clasificada de documentos que mejor satisface la consulta. Una puntuacion, que representa una medida de lo bien que el documento satisface la consulta, se genera algontmicamente por el motor de busqueda. Los algoritmos de puntuacion habitualmente usados se basan en la division de la consulta en terminos de busqueda y el uso de informacion estadfstica sobre la aparicion de terminos individuales en el cuerpo de los documentos de texto a buscar. Los documentos se enumeran en orden de clasificacion de acuerdo con sus puntuaciones correspondientes, de modo que el usuario puede ver los resultados de busqueda que coinciden mejor en la parte superior de la lista de resultados de busqueda.
Otra evaluacion que ciertos motores de busqueda pueden emplear para mejorar la calidad de los resultados es modificar la clasificacion de los resultados mediante una funcion de clasificacion seleccionada. Una funcion de clasificacion de la tecnica anterior a modo de ejemplo determina que cuando una pagina enlaza con otra pagina, se emite de manera eficaz un voto para la otra pagina. Cuantos mas votos se emiten para una pagina, mas importante es la pagina. La funcion de clasificacion tambien puede tener en cuenta quien emitio el voto. Cuanto mas importante es la pagina, mas importantes son sus votos. Estos votos se acumulan y se usan como un componente de las valoraciones de las paginas en la red.
Una funcion de clasificacion se usa para mejorar la calidad de la clasificacion. Sin embargo, la eficacia de la funcion de clasificacion puede verse afectada por la topologfa de la red. Por ejemplo, la funcion de clasificacion que usa los votos descritos anteriormente puede ser menos eficaz en una configuracion de intranet. Una intranet es una red que usa algunos de los mismos protocolos que internet, pero a la que solo puede accederse por un subconjunto de usuarios, tal como los empleados de una empresa. Las paginas de una intranet no se estructuran ni se conectan exactamente como internet, por lo que la pertinencia de los resultados producidos por una funcion de clasificacion puede no reducirse en comparacion con la configuracion de internet.
Fagin R. y col.: “Searching the Workplace Web” WWW2003, del 20 al 24 de mayo de 2003, Budapest, Hungna, se refiere a la busqueda en intranet, que se reconoce como muy diferente de una busqueda en internet. Se centra en el uso de la agregacion de clasificaciones, y permite examinar los efectos de diferentes heunsticas en la clasificacion de los resultados de busqueda. Los algoritmos de agregacion de clasificaciones toman como entrada multiples listas clasificadas de las diversas heunsticas y producen una ordenacion de las paginas dirigida a minimizar el numero de “desajustes” con respecto a la ordenacion producida por las heunsticas de clasificacion individuales.
Sumario de la invencion
El objeto de la presente invencion es proporcionar un sistema y un procedimiento para clasificar resultados de busqueda de acuerdo con una nueva funcion denominada distancia de clic.
Este objeto se resuelve por el objeto de las reivindicaciones independientes.
Las realizaciones se proporcionan en las reivindicaciones dependientes.
La funcion de distancia de clic se aprovecha de la estructura jerarquica de una intranet. Una intranet normalmente sigue una estructura de arbol, con un nodo rafz y unas ramas subsiguientes que se extienden a otros nodos desde esa rafz. A menudo, el nodo rafz de la intranet se denomina su pagina principal. Otros sitios fuera de la configuracion de intranet tambien pueden basarse en una estructura jerarquica y la distancia de clic para estos sitios tambien sena muy aplicable para clasificar las paginas del sitio.
La distancia de clic es una medida de pertinencia independiente de la consulta que mide el numero de “clics” necesarios para llegar a una pagina determinada del sitio. En la estructura de arbol, el numero de clics se representa por el numero de ramas atravesadas en la ruta desde el nodo rafz. Una vez que se determina la distancia de clic para una pagina, la distancia de clic se incorpora en la puntuacion de la pagina. La puntuacion de la pagina que incorpora la distancia de clic determina la clasificacion de la pagina entre las otras paginas dentro de los resultados de busqueda.
En un aspecto de la presente invencion, en primer lugar se “rastrea” la red para generar una tabla de propiedades asociadas con los enlaces y las paginas de la red. “Rastreo” se refiere a la recopilacion automatica de varios documentos (o cualquier unidad discreta analoga de informacion) en una base de datos denominada mdice. El rastreo atraviesa multiples documentos en la red siguiendo los enlaces de referencia de documentos dentro de ciertos documentos y, a continuacion, procesando cada documento que haya encontrado. Los documentos se procesan identificando palabras clave o textos generales en los documentos para crear el mdice.
5
10
15
20
25
30
35
40
45
50
55
Un mdice a modo de ejemplo puede ser una lista invertida que tiene una columna de palabras y una columna que indica en que documentos pueden encontrarse esas palabras. Cuando un usuario introduce uno o mas terminos de busqueda, se obtienen los resultados y la presente invencion aplica un algoritmo de clasificacion que incluye la funcion de distancia de clic. La funcion de distancia de clic influye positiva o negativamente en la puntuacion de ciertas paginas, perfeccionando los resultados devueltos al usuario.
En otro aspecto de la invencion, se anade una propiedad de profundidad de URL (localizador de recursos uniforme) al algoritmo de clasificacion para perfeccionar aun mas los resultados. La propiedad de profundidad de URL mide el numero de niveles en la URL para facilitar una comprobacion con respecto a la funcion de distancia de clic y ajustar la puntuacion de la pagina en consecuencia.
Breve descripcion de los dibujos
La figura 1 ilustra un dispositivo informatico a modo de ejemplo que puede usarse en una realizacion a modo de ejemplo de la presente invencion.
La figura 2 ilustra un sistema para clasificar resultados de busqueda de acuerdo con la distancia de clic de acuerdo con la presente invencion.
La figura 3 ilustra una grafica de red a modo de ejemplo de acuerdo con la presente invencion.
La figura 4 ilustra una grafica de red jerarquica a modo de ejemplo de acuerdo con la presente invencion.
La figura 5 ilustra un diagrama de flujo logico de un procedimiento a modo de ejemplo para calcular la distancia de clic de acuerdo con la presente invencion.
La figura 6 ilustra un diagrama de flujo logico de un procedimiento a modo de ejemplo para usar la distancia de clic en la clasificacion de resultados de busqueda de acuerdo con la presente invencion.
Descripcion detallada
A continuacion, se describira con todo detalle la presente invencion con referencia a los dibujos adjuntos, que forman parte de la misma, y que muestran, a modo de ilustracion, realizaciones a modo de ejemplo espedficas para poner en practica la invencion. Sin embargo, la presente invencion puede materializarse de muchas formas diferentes y no debe interpretarse como limitada a las realizaciones expuestas en el presente documento; por el contrario, estas realizaciones se proporcionan de manera que la presente divulgacion sera minuciosa y completa, y transmitira con todo detalle el ambito de la invencion a los expertos en la materia. Entre otras cosas, la presente invencion puede materializarse como procedimientos o dispositivos. En consecuencia, la presente invencion puede adoptar la forma de una realizacion mtegramente de hardware, una realizacion mtegramente de software o una realizacion que combina aspectos de software y de hardware. Por lo tanto, la siguiente descripcion detallada no debe interpretarse en un sentido limitante.
Entorno operativo ilustrativo
Con referencia a la figura 1, un sistema a modo de ejemplo para implementar la invencion incluye un dispositivo informatico, tal como el dispositivo 100 informatico. El dispositivo 100 informatico puede estar configurado como un cliente, un servidor, un dispositivo movil, o cualquier otro dispositivo informatico. En una configuracion muy basica, el dispositivo 100 informatico incluye habitualmente al menos una unidad 102 de procesamiento y una memoria 104 de sistema. Dependiendo de la configuracion exacta y el tipo de dispositivo informatico, la memoria 104 de sistema puede ser volatil (tal como RAM), no volatil (tal como ROM, memoria flash, etc.), o alguna combinacion de las dos. La memoria 104 de sistema incluye habitualmente un sistema 105 operativo, una o mas aplicaciones 106, y puede incluir unos datos 107 de programa. En una realizacion, la aplicacion 106 incluye una aplicacion 120 de clasificacion de busqueda para implementar la funcionalidad de la presente invencion. Esta configuracion basica se ilustra en la figura 1 por los componentes dentro de la lmea 108 discontinua.
El dispositivo 100 informatico puede tener caractensticas o funcionalidades adicionales. Por ejemplo, el dispositivo 100 informatico tambien puede incluir dispositivos de almacenamiento de datos adicionales (extrafbles y/o no extrafbles) tales como, por ejemplo, discos magneticos, discos opticos o cintas. Este almacenamiento adicional se ilustra en la figura 1 mediante un almacenamiento 109 extrafble y un almacenamiento 110 no extrafble. Los medios de almacenamiento informatico pueden incluir medios volatiles y no volatiles, extrafbles y no extrafbles implementados en cualquier procedimiento o tecnologfa para el almacenamiento de informacion, tales como instrucciones legibles por ordenador, estructuras de datos, modulos de programa u otros datos. La memoria 104 de sistema, el almacenamiento 109 extrafble y el almacenamiento 110 no extrafble son todos ejemplos de medios de almacenamiento informaticos. Los medios de almacenamiento informatico incluyen, pero no se limitan a, una memoria RAM, ROM, EEPROM, memoria flash u otra tecnologfa de memoria, CD-ROM, discos versatiles digitales (DVD) u otro almacenamiento optico, casetes magneticos, cinta magnetica, almacenamiento de disco magnetico u otros dispositivos de almacenamiento magnetico o cualquier otro medio que pueda usarse para almacenar la informacion deseada y al que pueda accederse mediante el dispositivo 100 informatico. Cualquiera de estos medios de almacenamiento informaticos puede ser parte del dispositivo 100. El dispositivo 100 informatico tambien puede tener un dispositivo(s) 112 de entrada como un teclado, un raton, un puntero, un dispositivo de entrada de voz, un dispositivo de entrada tactil, etc. Tambien puede incluirse un dispositivo(s) 114 de salida tal como una pantalla, unos altavoces, una impresora, etc.
5
10
15
20
25
30
35
40
45
50
55
60
El dispositivo 100 informatico tambien contiene unas conexiones 116 de comunicacion que permiten que el dispositivo se comunique con otros dispositivos 118 informaticos, tal como a traves de una red. La conexion 116 de comunicacion es un ejemplo de medio de comunicacion. Los medios de comunicacion pueden incorporar habitualmente instrucciones legibles por ordenador, estructuras de datos, modulos de programa u otros datos en una senal de datos modulada, tal como una onda portadora u otro mecanismo de transporte, e incluyen cualquier medio de suministro de informacion. La expresion “senal de datos modulada” significa una senal que tiene una o mas de sus caractensticas establecidas o cambiadas de tal manera que codifican informacion en la senal. A modo de ejemplo, y no de limitacion, los medios de comunicacion incluyen medios cableados tales como una red cableada o una conexion directa por cable, y medios inalambricos tales como medios acusticos, RF, infrarrojos y otros medios inalambricos. La expresion medio legible por ordenador tal como se usa en el presente documento incluye tanto medios de almacenamiento como medios de comunicacion.
Realizaciones ilustrativas para clasificar busquedas por distancia de clic
Las realizaciones de la presente invencion estan relacionadas con una funcion de clasificacion para un motor de busqueda. La calidad de un motor de busqueda se determina habitualmente por la pertinencia de los documentos de acuerdo con las clasificaciones asignadas por la funcion de clasificacion. La funcion de clasificacion puede basarse en multiples caractensticas. Algunas de estas caractensticas pueden depender de la consulta, mientras que otras se consideran independientes de la consulta. La distancia de clic es el numero de “clics” que un usuario tendra que hacer desde la pagina principal de la intranet (la URL mas autorizada en la intranet o una de las URL mas autorizadas) a la pagina dada. En una grafica web, la distancia de clic puede representarse como la ruta mas corta entre la pagina principal y la pagina dada. En una realizacion, un algoritmo realiza en primer lugar un recorrido de amplitud y calcula la distancia entre un nodo dado y todos los otros nodos en la grafica. El recorrido puede tomar N iteraciones para completarse, donde N es el diametro de la grafica (distancia maxima mas corta), para calcular la distancia de clic para la intranet. La variable N en este caso es mucho menor que el numero total de nodos en la grafica. Por ejemplo, N para la presente invencion puede estar entre 5 y 60 dependiendo de la red. Otras funciones de clasificacion pueden requerir 40-50 iteraciones para cubrir la grafica (por ejemplo, clasificacion de pagina), haciendo que las otras funciones de clasificacion sean varias veces mas lentas que usar la distancia de clic.
La figura 2 ilustra un sistema para clasificar resultados de busqueda de acuerdo con una distancia de clic de acuerdo con la presente invencion. El motor 200 de busqueda recibe una consulta que contiene multiples terminos de consulta. Cada termino de consulta puede incluir multiples terminos de componente, como cuando el termino de consulta es una frase (por ejemplo, la frase “sistema de gestion de documentos” puede considerarse un unico termino de consulta). Ademas, una consulta puede incluir uno o mas operadores, tales como operadores booleanos, restricciones, etc., que se soportan habitualmente por motores de busqueda conocidos.
Una pluralidad de documentos en una red distribuida, representada por los documentos 210, 212, 214, y 216, estan disponibles para la busqueda. En la practica, un motor de busqueda puede buscar cualquier numero de documentos y, habitualmente, busca colecciones que contienen grandes numeros (por ejemplo, millones) de documentos. El volumen de documentos puede reducirse de la configuracion de internet a la configuracion de intranet, pero normalmente la reduccion es de billones a millones, de manera que el numero relativo de documentos todavfa es bastante grande. Un modulo de indexacion (no mostrado) genera estadfsticas de documento individuales (por ejemplo, 218, 220, 222 y 224) para cada documento. Las estadfsticas de documento se almacenan en un mdice 226.
El motor 200 de busqueda consulta el mdice 226 para determinar una puntuacion 228 de busqueda para cada documento basandose en la consulta y las estadfsticas de documento correspondientes. En la presente invencion, una de las estadfsticas de documento incluidas es la distancia de clic del documento. En otra realizacion, otra estadfstica de documento incluida es la profundidad de URL asociada con el documento. La distancia de clic y las profundidades de URL se combinan a continuacion con las estadfsticas dependientes de la consulta para formar la puntuacion final de un documento. Habitualmente, las puntuaciones de documento 228 se clasifican a continuacion en orden descendente para proporcionar al usuario una lista de documentos que se consideran por el algoritmo de busqueda como los mas relevantes para la consulta.
En el sistema ilustrado, el motor 200 de busqueda representa un motor de busqueda de clasificacion de distancia de clic, que considera la distancia de clic de un documento en la determinacion de la puntuacion de busqueda del documento. La valoracion de distancia de clic de un documento aprovecha la presencia del documento en un sitio estructurado jerarquicamente (vease la figura 3), midiendo la distancia desde la pagina principal del sitio al documento. En un caso, la distancia de clic desde la pagina principal es una medida de la importancia de la pagina, donde las paginas mas cercanas en la jerarqrna a la pagina principal se consideran mas importantes que las paginas inferiores en la jerarqrna. Sin embargo, pueden existir otros escenarios donde ocurre lo contrario, donde los documentos inferiores en la jerarqrna se consideran mas que las paginas superiores en la jerarqrna. Por lo tanto, la distancia de clic se considera una medida de pertinencia independiente de la consulta, ya que valora la importancia general del documento en lugar de la consulta (por ejemplo, una funcion de clasificacion dependiente de la consulta contana el numero de veces que un termino de busqueda aparece en un documento).
5
10
15
20
25
30
35
40
45
50
55
La figura 3 ilustra una grafica de red a modo de ejemplo de acuerdo con la presente invencion. La grafica de red esta compuesta de nodos (por ejemplo, 310) y bordes o enlaces (por ejemplo, 320). Los nodos (por ejemplo, 310) representan las paginas y otros recursos que estan en la red que pueden devolverse como resultados a una consulta de busqueda. Los enlaces (por ejemplo, 320) conectan entre sf cada una de estas paginas a traves del uso de los enlaces de navegacion enumerados en las paginas. Puede recopilarse un conjunto de informacion de enlace para cada pagina que puede usarse en el calculo de la distancia de clic para una pagina espedfica.
En una realizacion, el nodo 330 representa la pagina de autoridad mas alta o el nodo de rafz en la red para un grupo de documentos. La distancia de clic para las paginas restantes de la red puede calcularse desde el nodo 330. Por ejemplo, el nodo 340 tiene una distancia de clic de dos “clics” desde el nodo 330. Como se ha indicado anteriormente, “clics” se refiere al numero de ramas atravesadas en la ruta mas corta desde el nodo de autoridad mas alta. Podnan haberse elegido otras rutas desde el nodo 330 para alcanzar el nodo 340, pero la distancia de clic se refiere a la ruta mas corta.
La grafica 300 de red se muestra con unos nodos que no se ajustan a un orden espedfico, y pueden ser similares a internet en ese aspecto. Con la falta de orden, la aplicabilidad de la distancia de clic para las paginas de clasificacion puede ser diffcil de conceptualizar. Sin embargo, a menudo, la red de paginas y de recursos se ajusta a un orden aplicado como se muestra a continuacion en la figura 4.
La figura 4 ilustra una grafica de red jerarquica a modo de ejemplo de acuerdo con la presente invencion. La grafica 400 de red jerarquica es similar a la grafica 300 de red mostrada en la figura 3 porque tambien incluye nodos (por ejemplo, 410) y enlaces (por ejemplo, 420). Sin embargo, la grafica 400 de red jerarquica se basa en la jerarqma inherente de un sitio estructurado o intranet. En consecuencia, la grafica 400 de red jerarquica puede conceptualizarse como una estructura de arbol con ramas que se extienden desde un nodo rafz.
Para la grafica 400 de red jerarquica, la aplicabilidad y el calculo de la distancia de clic es mas reconocible. Por ejemplo, el nodo 330 corresponde al nodo de autoridad mas alta o nodo rafz del arbol. Por lo tanto, el nodo 340 tiene una distancia de clic asociada de 3, siendo 3 los clics o las navegaciones de usuario desde el nodo rafz. Dicho de otra manera, puesto que se requiere que un usuario atraviese 3 ramas del arbol para navegar desde el nodo 330 al nodo 340, la distancia de clic tambien es 3.
Las graficas de red representadas en las figuras 3 y 4 son ejemplos de graficas que se construyen en la memoria durante la indexacion de los documentos para calcular la distancia de clic. La construccion de una grafica durante la indexacion permite incluir la distancia de clic entre las estadfsticas de documentos almacenadas en el mdice y usarlas para clasificar las paginas. A continuacion, se describen procedimientos a modo de ejemplo para generar la propiedad de distancia de clic y usar la propiedad de distancia de clic en los documentos de clasificacion en relacion con las figuras 5 y 6.
La figura 5 ilustra un diagrama de flujo logico de un procedimiento a modo de ejemplo para calcular la distancia de clic (CD) de acuerdo con la presente invencion. El procedimiento 500 comienza en el bloque 502 donde se han indexado documentos en una red distribuida y se ha generado la grafica de red. En una realizacion, la grafica de red se genera a partir de los datos recopilados mediante un procedimiento en el que se recopila informacion de texto de enlace y de anclaje y se atribuye a documentos de destino espedficos del anclaje. El procesamiento continua en el bloque 504.
En el bloque 504, la grafica de red se carga en la memoria. Esta grafica de red es la representacion estructural de la identificacion del documento (por ejemplo, el ID del documento) y la informacion de enlace recopilada de la red. En las figuras 3 y 4, se muestran ejemplos de la grafica de red. La grafica de red representa los nodos o paginas de un sitio o de intranet. Cada nodo tiene una propiedad de distancia de clic asociada que tiene un valor o peso. En una realizacion, esta propiedad de distancia de clic se concatena en el extremo del ID de documento. El procesamiento continua en el bloque 506.
En el bloque 506, se inicializan los valores de distancia de clic (CD) de los nodos. Los nodos de autoridad mas alta se denominan nodos asignados. A estos nodos se les asigna un valor de distancia de clic de 0 (cero). Puede indicarse mas de un nodo de alta autoridad para una sola grafica de red. Por ejemplo, un administrador puede clasificar manualmente un conjunto de 100 nodos e designarlos como nodos de alta autoridad. Ademas, los nodos de alta autoridad no necesitan tener una distancia de clic de 0 (cero), puede asignarse cualquier numero por un administrador. Cambiar la distancia de clic de los nodos de alta autoridad no altera el algoritmo restante, sino que simplemente proporciona un procedimiento para designar manualmente la importancia de un nodo. Por ejemplo, un administrador puede mejorar la puntuacion de distancia de clic de algunos nodos. En otros casos, el administrador puede disminuir la puntuacion de distancia de clic (haciendo que la distancia de clic sea mayor que la calculada por el algoritmo de manera predeterminada). La distancia de clic para cada uno de los nodos no asignados se inicializa en un valor maximo. En una realizacion, el valor maximo establece esencialmente el valor de distancia de clic en infinito. Asignar el valor de infinito a un nodo lo hace facilmente reconocible como un nodo cuya distancia de clic no se ha calculado. Con las inicializaciones de los valores de distancia de clic completadas, el procesamiento se mueve al bloque 508.
5
10
15
20
25
30
35
40
45
50
55
En el bloque 508, los nodos que tienen una distancia de clic asociada distinta del valor maximo se insertan en una cola. En un ejemplo, esta etapa solo se produce en una primera iteracion. Los nodos insertados en la cola corresponden a los nodos de autoridad mas alta ya que sus valores de distancia de clic se establecen en 0 (cero), un valor distinto del valor maximo. Una vez que los nodos con valor de distancia de clic distinto del maximo se anaden a la cola, el procesamiento continua en el bloque 510 de decision.
En el bloque 510 de decision, se realiza una determinacion de si la cola esta vada. Una cola vada significa que no hay mas nodos que necesiten calcular la distancia de clic de sus nodos destino. Si la cola esta vada, el procesamiento se mueve al bloque 512 donde termina el procedimiento 500. Sin embargo, si la cola no esta vada, el procesamiento continua en el bloque 514.
En el bloque 514, se elimina un nodo de la cola. La eliminacion del nodo de la cola inicia el calculo de las distancias de clic para los nodos destino asociados con ese documento. Los nodos destino corresponden a los documentos que tienen un enlace con los mismos desde un documento de origen. En este caso, el documento de origen es el documento correspondiente al nodo eliminado de la cola. Una vez eliminado este nodo, el procesamiento se mueve al bloque 516.
En el bloque 516, se obtiene el siguiente nodo destino. El siguiente nodo destino hace referencia al documento siguiente entre los documentos vinculados por el documento de origen. Una vez que se obtiene el siguiente nodo destino, el procesamiento continua al bloque 518 de decision.
En el bloque 518 de decision, se realiza una determinacion de si la distancia de clic asociada con el nodo destino es mayor que la distancia de clic de la pagina actual mas uno (CD + 1). En una realizacion, la unica forma en que se cumple la condicion en el bloque 518 es cuando el nodo destino tiene una distancia de clic de infinito (suponiendo que el nodo de alta autoridad se establezca en cero y un administrador no haya establecido manualmente una distancia de clic). Por ejemplo, si la distancia de clic actual es 1, entonces CD + 1 = 2. Una distancia de clic de 2 es menor que infinito y se cumple la condicion. Determinar si la distancia de clic destino es mayor que la distancia de clic mas uno evita que se cambien los documentos destino con una distancia de clic menor. Usando el ejemplo anterior, si la distancia de clic del nodo destino es 1 y la distancia de clic actual tambien es 1, entonces la distancia de clic destino no es mayor que CD + 1 = 2. En este caso, la ruta mas corta hacia el nodo destino ya se ha registrado y, por lo tanto, no necesita actualizarse. En consecuencia, cuando la distancia de clic destino no es mayor que la distancia de clic actual mas uno, el procesamiento avanza al bloque 522 de decision. Sin embargo, si la distancia de clic destino es mayor que la distancia de clic actual mas uno, el procesamiento se mueve al bloque 520.
En el bloque 520, se actualiza el valor de distancia de clic del nodo destino y se anade el nodo destino a la cola como un nodo cuando es necesario hacer el calculo de distancia de clic de sus destinos. El nodo destino se actualiza con un nuevo valor de distancia de clic para eliminar el valor de infinito y establecer el valor de distancia de clic calculado de los nodos. En una realizacion, el valor de distancia de clic del nodo se establece en el valor de distancia de clic actual mas uno (CD + 1). El procesamiento continua en el bloque 522 de decision.
En el bloque 522 de decision, se realiza una determinacion de si se han obtenido todos los nodos destino para el nodo actual eliminado de la cola. Si hay nodos destino a obtener para el nodo actual, el procesamiento vuelve al bloque 516 donde se obtiene el siguiente nodo destino. Sin embargo, si se han obtenido todos los nodos destino correspondientes al nodo actual, el procesamiento vuelve al bloque 510 de decision para volver a comprobar si la cola esta vada. De nuevo, una vez que la cola esta vada, el procesamiento se mueve al bloque 512, donde termina el procedimiento 500.
Es posible que no todos los nodos de una red esten conectados a los nodos de alta autoridad iniciales. En consecuencia, en otra realizacion de la presente invencion, se supone que los nodos que no estan conectados a los nodos de alta autoridad tienen una importancia baja y se les asigna una distancia de clic que es menor que la media para la grafica de red.
La figura 6 ilustra un diagrama de flujo logico de un procedimiento a modo de ejemplo para usar la distancia de clic en la clasificacion de los resultados de busqueda de acuerdo con la presente invencion. El procedimiento 600 comienza en el bloque 602 donde se ha solicitado una consulta y se ha calculado la distancia de clic para cada uno de los documentos de la red. El procesamiento continua en el bloque 604.
En el bloque 604, el valor de distancia de clic para cada uno de los documentos se combina con las otras estadfsticas de documento (vease la figura 2) en el mdice. La combinacion de los valores de distancia de clic con las otras estadfsticas de documento permite un tiempo de respuesta de consulta mas rapido ya que se agrupa toda la informacion relacionada con la clasificacion. En consecuencia, cada documento enumerado en el mdice tiene un valor de distancia de clic asociado despues de la combinacion. Una vez completada la combinacion, el procesamiento se mueve al bloque 606.
En el bloque 606, una funcion de puntuacion se rellena con el conjunto de estadfsticas de documento, incluyendo la distancia de clic, para calcular una puntuacion de un documento espedfico. La distancia de clic proporciona un factor independiente de la consulta a la funcion de puntuacion. La otra parte de la funcion de puntuacion corresponde a la parte dependiente de la consulta o relacionada con el contenido de la funcion de puntuacion. En
5
10
15
20
25
30
35
40
una realizacion, la funcion de puntuacion es una suma de funciones de puntuacion dependientes de la consulta (QD) e independientes de la consulta (QID):
Puntuacion = QD(doc,consults ) + QID(doc) ■ vU
La funcion QD puede ser cualquier funcion de puntuacion de documento. En una realizacion, la funcion de puntuacion QD corresponde a la funcion de puntuacion ponderada de campo descrita en la solicitud de patente numero de serie 10/804.326, titulada “Field Weighting in Text Document Searching”, presentada el 18 de marzo de 2004 e incorporada por referencia en el presente documento. Tal como se proporciona en la solicitud de patente 10/804.326, la siguiente es una representacion de la funcion de puntuacion ponderada de campo:
QD(doc , consults ) = V----:------+ 1)---------------------x log(^) (2)
t //i i \ t wctt . r ri
kt((l-b) + b------+
avwdl
en donde los terminos se definen de la siguiente manera: wtf es la frecuencia de termino ponderada o la suma de las frecuencias de termino de unos terminos dados multiplicados por los pesos a traves de todas las propiedades; wdl es la longitud de documento; avwdl es la longitud de documento ponderada promedio; N es el numero de documentos en la red (es decir, el numero de documentos rastreados); n es el numero de documentos que contienen el termino de consulta dado; y ki y b son unas constantes. Estos terminos y la ecuacion anterior se describen en detalle en la solicitud de patente 10/804.326.
La funcion QID puede ser cualquier transformacion de la distancia de clic y otras estadfsticas de documento (tales como la profundidad de URL). En una realizacion esta funcion es la siguiente:
en donde los terminos de la funcion se definen de la siguiente manera: Wcd es el peso del componente independiente de la consulta; bcd es el peso de la distancia de clic; bud es el peso de la profundidad de URL; CD es la distancia de clic; UD es la profundidad de URL; y Kcd es la constante de saturacion de distancia de clic. Los terminos ponderados (Wcd, bcd, y bud) ayudan a definir la importancia de cada uno de sus terminos relacionados y, finalmente, la forma de las funciones de puntuacion. La profundidad de URL (UD) se anade al componente independiente de la consulta para suavizar el efecto de la distancia de clic en la funcion de puntuacion. En algunos casos, un documento que no es muy importante (es decir, tiene una gran profundidad de URL) puede tener una corta distancia de clic. La profundidad de URL cuenta el numero de barras en la URL de un documento. Por ejemplo,
www.example.com\d1\d2\d3\d4.htm incluye cuatro barras y, por lo tanto, tendna una profundidad de URL de 4. Sin embargo, este documento puede tener un enlace directo desde la pagina principal
www.example.com lo que da una distancia de clic de 1. Incluyendo el termino de profundidad de URL en la funcion (3) y ponderandolo con respecto a la distancia de clic, se compensa la alta puntuacion de distancia de clic para reflejar con mayor precision la clasificacion de la pagina dentro de la jerarqrna. Dependiendo de la red, una profundidad de URL de 3 o mas puede considerarse un enlace profundo. Para esta realizacion, la presente invencion anade las dos funciones de (2) y (3) para recibir la funcion de puntuacion (puntuacion), de tal manera que la nueva funcion de puntuacion se convierte en:
www.example.com\d1\d2\d3\d4.htm incluye cuatro barras y, por lo tanto, tendna una profundidad de URL de 4. Sin embargo, este documento puede tener un enlace directo desde la pagina principal
www.example.com lo que da una distancia de clic de 1. Incluyendo el termino de profundidad de URL en la funcion (3) y ponderandolo con respecto a la distancia de clic, se compensa la alta puntuacion de distancia de clic para reflejar con mayor precision la clasificacion de la pagina dentro de la jerarqrna. Dependiendo de la red, una profundidad de URL de 3 o mas puede considerarse un enlace profundo. Para esta realizacion, la presente invencion anade las dos funciones de (2) y (3) para recibir la funcion de puntuacion (puntuacion), de tal manera que la nueva funcion de puntuacion se convierte en:
En otras realizaciones, la profundidad de URL puede eliminarse de la funcion de puntuacion o pueden anadirse otros factores a la funcion de puntuacion para mejorar la precision o del componente dependiente de la consulta o del componente independiente de la consulta. Ademas, el componente independiente de la consulta puede incorporarse en otras funciones de clasificacion no mostradas para mejorar los resultados de clasificacion. Una vez que la funcion de puntuacion (4) se rellena con las estadfsticas de documento para un documento espedfico, el procedimiento avanza al bloque 608.
En el bloque 608, se ejecuta la funcion de puntuacion y se calcula la puntuacion de pertinencia para el documento. Una vez que se calcula la puntuacion de pertinencia, se almacena en la memoria y se asocia con ese documento espedfico. A continuacion, el procesamiento se mueve al bloque 610 de decision.
En el bloque 610 de decision, se realiza una determinacion de si se han calculado las puntuaciones de pertinencia 5 de todos los documentos de acuerdo con la funcion (4) de puntuacion. Las puntuaciones pueden calcularse en serie, como se muestra, o en paralelo. Si no se han calculado todas las puntuaciones, el procesamiento vuelve al bloque 606 donde la funcion de puntuacion se rellena con el siguiente conjunto de estadfsticas de documento. Sin embargo, si se han calculado todas las puntuaciones, el procesamiento continua en el bloque 612.
En el bloque 612, los resultados de busqueda de la consulta se clasifican de acuerdo con sus puntuaciones 10 correspondientes. Las puntuaciones ahora tienen en cuenta la distancia de clic y la profundidad de URL de cada uno de los documentos. En consecuencia, se ha perfeccionado la clasificacion de los documentos de manera que los documentos mas altos en la jerarqrna de una intranet o un sitio se clasifican mas alto que los otros documentos donde todos los demas factores son los mismos. Una vez que se clasifican los resultados de busqueda, el procesamiento avanza al bloque 614, donde termina el procedimiento 600.
15 Despues de que se ha completado el procedimiento 600, los documentos clasificados pueden devolverse al usuario mediante las diversas operaciones asociadas con la transmision y la visualizacion de los resultados por un motor de busqueda. A continuacion, los documentos correspondientes a los resultados de mayor precision pueden seleccionarse y verse a discrecion por el usuario.
La memoria descriptiva, los ejemplos y los datos anteriores proporcionan una descripcion completa de la fabricacion 20 y el uso de la composicion de la invencion.
Claims (27)
- 5101520253035404550REIVINDICACIONES1. Un procedimiento implementado por ordenador para clasificar resultados de busqueda, que comprende:almacenar (502) informacion de documentos y de enlaces para documentos (210, 212, 214, 216) en una red; generar (504) una representacion de la red a partir de la informacion de documentos y de enlaces almacenada, incluyendo la representacion de la red unos nodos (310, 320, 330, 340) que representan los documentos y en el que mas de un nodo dentro de la representacion de la red se designa como un nodo de alta autoridad; inicializar (506) los valores de distancia de clic para los nodos, incluyendo:asignar a cada nodo designado como un nodo de alta autoridad un valor de distancia de clic establecido por un administrador; einicializar el valor de distancia de clic de cada nodo no asignado en un valor maximo;calcular (520) una distancia de clic para cada uno de los nodos en la representacion de la red, siendo la distancia de clic para un nodo de alta autoridad dado el valor de distancia de clic establecido por el administrador durante la inicializacion, y midiendose la distancia de clic para un nodo dado no designado como un nodo de alta autoridad a partir del nodo de alta autoridad mas proximo al nodo dado; yusar (612) la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta en la clasificacion de los documentos para producir los resultados de busqueda clasificados.
- 2. El procedimiento implementado por ordenador de la reivindicacion 1, en el que generar una representacion de la red comprende, ademas, generar una grafica (300, 400) de red y almacenar la grafica de red en la memoria.
- 3. El procedimiento implementado por ordenador de la reivindicacion 1, que comprende, ademas, almacenar un nodo actual de la representacion de la red en una cola de nodos hasta que se calcula la distancia de clic de los nodos destino asociados con el nodo actual.
- 4. El procedimiento implementado por ordenador de la reivindicacion 3, en el que la distancia de clic de uno de los nodos destino se establece en la distancia de clic del nodo actual mas una variable cuando la distancia de clic del uno de los nodos destino es mayor que la distancia de clic del nodo actual mas la variable.
- 5. El procedimiento implementado por ordenador de la reivindicacion 1, en el que la distancia de clic calculada asociada con cada uno de los documentos se combina con un mdice que incluye otras estadfsticas que corresponden a cada uno de los documentos.
- 6. El procedimiento implementado por ordenador de la reivindicacion 5, en el que una funcion de puntuacion se rellena con la distancia de clic calculada y las otras estadfsticas para producir una puntuacion por la que se clasifican los documentos.
- 7. El procedimiento implementado por ordenador de la reivindicacion 1, en el que usar la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta comprende, ademas, usar un componente correspondiente a la distancia de clic en una funcion de puntuacion para determinar una puntuacion de pertinencia para cada uno de los documentos.
- 8. El procedimiento implementado por ordenador de la reivindicacion 7, en el que la puntuacion de pertinencia se compensa con una propiedad de profundidad de localizador de recursos uniforme que suaviza el efecto de la distancia de clic en la puntuacion de pertinencia.
- 9. El procedimiento implementado por ordenador de la reivindicacion 1, que comprende, ademas, permitir que la distancia de clic se cambie manualmente despues que se calcule la distancia de clic.
- 10. El procedimiento implementado por ordenador de la reivindicacion 1, que comprende, ademas, clasificar los documentos de acuerdo con una funcion de puntuacion, puntuacion, que se determina de acuerdo con al menos: la distancia de clic calculada, CD, un peso de un componente independiente de la consulta, Wcd, un peso de la distancia de clic, bcd, un peso de una profundidad de URL, bud, la profundidad de URL, UD, y una constante de saturacion de distancia de clic, Kcd.
- 11. El procedimiento implementado por ordenador de la reivindicacion 1, que comprende, ademas, clasificar los documentos de acuerdo con una funcion de puntuacion, puntuacion, que se determina de acuerdo con al menos: la distancia de clic calculada, CD, una frecuencia de termino ponderada, wtf, una longitud de documento ponderada, wdl, una longitud de documento ponderada promedio, avwdl, un numero de documentos en la red, N; un numero de documentos que contienen un termino de consulta, n, un peso de un componente independiente de la consulta, Wcd, un peso de la distancia de clic, bcd, un peso de una profundidad de URL, bud, la profundidad de URL, UD, una constante de saturacion de distancia de clic, Kcd, y otras constantes, k-i, b.
- 12. El procedimiento implementado por ordenador de la reivindicacion 11, en el que la funcion de puntuacion, puntuacion, esta dada por:5101520253035404550
imagen1 - 13. Un sistema para clasificar resultados de busqueda, que comprende:un motor (200) de busqueda incluido en un dispositivo (100) informatico, estando el motor de busqueda configurado para ejecutar instrucciones ejecutables por ordenador, comprendiendo las instrucciones ejecutables por ordenador:descubrir documentos (210, 212, 214, 216) en una red;registrar informacion de documentos y de enlaces para cada uno de los documentos en la red; generar una representacion de la red a partir de la informacion de documentos y de enlaces registrada, en el que la representacion de la red incluye unos nodos (310, 320, 330, 340) que representan los documentos, y en el que mas de un nodo dentro de la representacion de la red se designa como un nodo de alta autoridad; inicializar los valores de distancia de clic para los nodos, incluyendo:asignar a cada nodo designado como un nodo de alta autoridad un valor de distancia de clic establecido por un administrador; einicializar el valor de distancia de clic de cada nodo no asignado en un valor maximo;calcular una distancia de clic para cada uno de los nodos en la representacion de la red, en el que la distancia de clic para un nodo de alta autoridad dado es el valor de distancia de clic establecido por el administrador durante la inicializacion, y midiendose la distancia de clic para un nodo dado no designado como un nodo de alta autoridad a partir del nodo de autoridad mas proximo al nodo dado;asociar la distancia de clic calculada para cada nodo con el documento que corresponde a ese nodo; y usar la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta en la clasificacion de los documentos para producir los resultados de busqueda clasificados.
- 14. El sistema de la reivindicacion 13, en el que generar una representacion de la red comprende, ademas, generar una grafica de red y almacenar la grafica de red en la memoria.
- 15. El sistema de la reivindicacion 13, en el que asociar la distancia de clic calculada a cada nodo con el documento que corresponde a ese nodo comprende, ademas, combinar la distancia de clic calculada asociada con cada uno de los documentos con un mdice que incluye otros valores de clasificacion que corresponden a cada uno de los documentos.
- 16. El sistema de la reivindicacion 15, en el que una funcion de puntuacion se rellena con la distancia de clic calculada y los otros valores de clasificacion para producir una puntuacion por la que se clasifican los documentos.
- 17. El sistema de la reivindicacion 13, en el que usar la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta comprende, ademas, usar un componente correspondiente a la distancia de clic en una funcion de puntuacion para determinar una puntuacion de pertinencia para cada uno de los documentos.
- 18. El sistema de la reivindicacion 17, en el que la puntuacion de pertinencia se compensa con una propiedad de profundidad de localizador de recursos uniforme que suaviza el efecto de la distancia de clic en la funcion de puntuacion cuando la distancia de clic para un nodo es desproporcionada con respecto a la profundidad del nodo en la representacion de la red.
- 19. El sistema de la reivindicacion 13, que comprende, ademas, clasificar los documentos de acuerdo con una funcion de puntuacion, puntuacion, que se determina de acuerdo con al menos: la distancia de clic calculada, CD, un peso de un componente independiente de la consulta, Wcd, un peso de la distancia de clic, bcd, un peso de una profundidad de URL, bud, la profundidad de URL, UD, y una constante de saturacion de distancia de clic, Kcd.
- 20. El sistema de la reivindicacion 13, que comprende, ademas, clasificar los documentos de acuerdo con una funcion de puntuacion, puntuacion, que se determina de acuerdo con al menos: la distancia de clic calculada, CD, una frecuencia de termino ponderada, wtf, una longitud de documento ponderada, wdl, una longitud de documento ponderada promedio, avwdl, un numero de documentos en la red, N; un numero de documentos que contienen un termino de consulta, n, un peso de un componente independiente de la consulta, Wcd, un peso de la distancia de clic, bcd, un peso de una profundidad de URL, bud, la profundidad de URL, UD, una constante de saturacion de distancia de clic, Kcd, y otras constantes, k-i, b.
- 21. El sistema de la reivindicacion 20, en el que la funcion de puntuacion, puntuacion, esta dada por:5101520253035
imagen2 - 22. El sistema de la reivindicacion 13, en el que generar la representacion de la red comprende, ademas, generar una representacion de la red, designandose mas de un nodo dentro de la representacion de la red como un nodo de alta autoridad.
- 23. El sistema de la reivindicacion 13, que comprende, ademas, permitir que la distancia de clic se cambie manualmente despues que se calcule la distancia de clic.
- 24. Un medio legible por ordenador que incluye instrucciones ejecutables por ordenador para clasificar resultados de busqueda, comprendiendo las instrucciones:almacenar informacion de documentos y de enlaces para documentos (210, 212, 214, 216) en una red, de tal manera que una grafica (300, 400) de red que representa la red se genera en la memoria, designandose mas de un nodo dentro de la representacion de la red como un nodo de alta autoridad; inicializar los valores de distancia de clic para los nodos, incluyendo:asignar a cada nodo designado como un nodo de alta autoridad un valor de distancia de clic establecido por un administrador; einicializar el valor de distancia de clic de cada nodo no asignado en un valor maximo;almacenar cada documento representado en la grafica de red en una cola cuando el documento tiene un valor de distancia de clic que es diferente del valor maximo;cuando la cola no esta vacfa:eliminar un documento de la cola,calcular una distancia de clic para cada documento destino asociado con el documento eliminado, en el que cada documento destino se actualiza con un nuevo valor de distancia de clic distinto del valor maximo cuando cada distancia de clic del documento destino es mayor que la distancia de clic asociada con el documento eliminado mas una variable, correspondiendo el nuevo valor de distancia de clic de un documento destino dado a un nodo dado que se mide a partir del nodo de alta autoridad mas proximo al nodo dado, y anadir cada uno de los documentos destino a la cola que se ha actualizado; yusar la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta en la clasificacion de los documentos para producir los resultados de busqueda clasificados.
- 25. El medio legible por ordenador de la reivindicacion 24, en el que usar la distancia de clic calculada asociada con cada uno de los documentos como una medida de pertinencia independiente de la consulta comprende, ademas, usar un componente correspondiente a la distancia de clic en una funcion de puntuacion para determinar una puntuacion de pertinencia para cada uno de los documentos.
- 26. El medio legible por ordenador de la reivindicacion 24, en el que generar la representacion de la red comprende, ademas, generar una representacion de la red, designandose mas de un nodo dentro de la representacion de la red como un nodo de alta autoridad.
- 27. El medio legible por ordenador de la reivindicacion 24, que comprende ademas permitir que la distancia de clic se cambie manualmente despues de que se calcule la distancia de clic.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US955983 | 1978-10-30 | ||
| US10/955,983 US7761448B2 (en) | 2004-09-30 | 2004-09-30 | System and method for ranking search results using click distance |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2613385T3 true ES2613385T3 (es) | 2017-05-24 |
Family
ID=35561746
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES05105110.0T Expired - Lifetime ES2613385T3 (es) | 2004-09-30 | 2005-06-10 | Sistema y procedimiento para clasificar resultados de búsqueda usando distancia de clic |
Country Status (6)
| Country | Link |
|---|---|
| US (2) | US7761448B2 (es) |
| EP (1) | EP1643385B1 (es) |
| JP (2) | JP4950444B2 (es) |
| KR (1) | KR101203312B1 (es) |
| CN (1) | CN100565509C (es) |
| ES (1) | ES2613385T3 (es) |
Families Citing this family (82)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
| US7827181B2 (en) * | 2004-09-30 | 2010-11-02 | Microsoft Corporation | Click distance determination |
| US7761448B2 (en) * | 2004-09-30 | 2010-07-20 | Microsoft Corporation | System and method for ranking search results using click distance |
| US8595223B2 (en) * | 2004-10-15 | 2013-11-26 | Microsoft Corporation | Method and apparatus for intranet searching |
| US7991755B2 (en) * | 2004-12-17 | 2011-08-02 | International Business Machines Corporation | Dynamically ranking nodes and labels in a hyperlinked database |
| JP5632124B2 (ja) * | 2005-03-18 | 2014-11-26 | サーチ エンジン テクノロジーズ リミテッド ライアビリティ カンパニー | 格付け方法、検索結果並び替え方法、格付けシステム及び検索結果並び替えシステム |
| US8244722B1 (en) | 2005-06-30 | 2012-08-14 | Google Inc. | Ranking documents |
| US7599917B2 (en) * | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
| US9047379B2 (en) * | 2006-06-12 | 2015-06-02 | Zalag Corporation | Methods and apparatuses for searching content |
| US7987169B2 (en) * | 2006-06-12 | 2011-07-26 | Zalag Corporation | Methods and apparatuses for searching content |
| US20160012131A1 (en) * | 2006-06-12 | 2016-01-14 | Zalag Corporation | Methods and apparatuses for searching content |
| US8140511B2 (en) * | 2006-06-12 | 2012-03-20 | Zalag Corporation | Methods and apparatuses for searching content |
| US8489574B2 (en) * | 2006-06-12 | 2013-07-16 | Zalag Corporation | Methods and apparatuses for searching content |
| WO2007146951A2 (en) * | 2006-06-12 | 2007-12-21 | Zalag Corporation | Methods and apparatus for searching content |
| US20080126331A1 (en) * | 2006-08-25 | 2008-05-29 | Xerox Corporation | System and method for ranking reference documents |
| US9165040B1 (en) | 2006-10-12 | 2015-10-20 | Google Inc. | Producing a ranking for pages using distances in a web-link graph |
| KR101622742B1 (ko) * | 2006-10-18 | 2016-06-01 | 구글 인코포레이티드 | 신디케이션에 적합한 포괄적인 온라인 랭킹 시스템 및 방법 |
| US8661029B1 (en) | 2006-11-02 | 2014-02-25 | Google Inc. | Modifying search result ranking based on implicit user feedback |
| US9110975B1 (en) * | 2006-11-02 | 2015-08-18 | Google Inc. | Search result inputs using variant generalized queries |
| US8156112B2 (en) * | 2006-11-07 | 2012-04-10 | At&T Intellectual Property I, L.P. | Determining sort order by distance |
| CN100557608C (zh) * | 2006-11-14 | 2009-11-04 | 株式会社理光 | 基于文档非内容特征的查询结果优化方法及装置 |
| KR100859710B1 (ko) * | 2006-12-07 | 2008-09-23 | 한국전자통신연구원 | 데이터에 대한 검색을 수행하기 위한 자료구조를 이용하여 데이터를 검색, 저장, 삭제하는 방법 |
| JP5194778B2 (ja) * | 2006-12-22 | 2013-05-08 | 富士通株式会社 | セッションベースクエリのためのノードのランク付け |
| US7657507B2 (en) * | 2007-03-02 | 2010-02-02 | Microsoft Corporation | Pseudo-anchor text extraction for vertical search |
| US9092510B1 (en) | 2007-04-30 | 2015-07-28 | Google Inc. | Modifying search result ranking based on a temporal element of user feedback |
| KR100898462B1 (ko) * | 2007-05-16 | 2009-05-21 | 엔에이치엔(주) | 문서 순위 결정 방법 및 이를 이용한 문서 순위 결정시스템 |
| US20090063466A1 (en) * | 2007-08-31 | 2009-03-05 | Microsoft Corporation | Resource selector, including for use in handheld devices |
| US8909655B1 (en) | 2007-10-11 | 2014-12-09 | Google Inc. | Time based ranking |
| US9224149B2 (en) * | 2007-10-15 | 2015-12-29 | Google Inc. | External referencing by portable program modules |
| US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
| US7840569B2 (en) * | 2007-10-18 | 2010-11-23 | Microsoft Corporation | Enterprise relevancy ranking using a neural network |
| US8823709B2 (en) | 2007-11-01 | 2014-09-02 | Ebay Inc. | User interface framework for viewing large scale graphs on the web |
| US8099417B2 (en) * | 2007-12-12 | 2012-01-17 | Microsoft Corporation | Semi-supervised part-of-speech tagging |
| US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
| US8825646B1 (en) * | 2008-08-08 | 2014-09-02 | Google Inc. | Scalable system for determining short paths within web link network |
| US8396865B1 (en) | 2008-12-10 | 2013-03-12 | Google Inc. | Sharing search engine relevance data between corpora |
| CA2749716A1 (en) * | 2009-01-16 | 2010-07-22 | Google Inc. | Visualizing site structure and enabling site navigation for a search result or linked page |
| US9009146B1 (en) | 2009-04-08 | 2015-04-14 | Google Inc. | Ranking search results based on similar queries |
| US20100287174A1 (en) * | 2009-05-11 | 2010-11-11 | Yahoo! Inc. | Identifying a level of desirability of hyperlinked information or other user selectable information |
| US8447760B1 (en) | 2009-07-20 | 2013-05-21 | Google Inc. | Generating a related set of documents for an initial set of documents |
| US8060497B1 (en) * | 2009-07-23 | 2011-11-15 | Google Inc. | Framework for evaluating web search scoring functions |
| US8365064B2 (en) * | 2009-08-19 | 2013-01-29 | Yahoo! Inc. | Hyperlinking web content |
| US8498974B1 (en) | 2009-08-31 | 2013-07-30 | Google Inc. | Refining search results |
| US8972391B1 (en) | 2009-10-02 | 2015-03-03 | Google Inc. | Recent interest based relevance scoring |
| US8874555B1 (en) | 2009-11-20 | 2014-10-28 | Google Inc. | Modifying scoring data based on historical changes |
| JP5094891B2 (ja) * | 2010-01-28 | 2012-12-12 | ヤフー株式会社 | 検索スコア算出装置 |
| US8924379B1 (en) | 2010-03-05 | 2014-12-30 | Google Inc. | Temporal-based score adjustments |
| US8959093B1 (en) | 2010-03-15 | 2015-02-17 | Google Inc. | Ranking search results based on anchors |
| US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
| US9623119B1 (en) | 2010-06-29 | 2017-04-18 | Google Inc. | Accentuating search results |
| US8832083B1 (en) | 2010-07-23 | 2014-09-09 | Google Inc. | Combining user feedback |
| US9183299B2 (en) * | 2010-11-19 | 2015-11-10 | International Business Machines Corporation | Search engine for ranking a set of pages returned as search results from a search query |
| US8606793B1 (en) * | 2010-11-19 | 2013-12-10 | Conductor, Inc. | Business metric score for web pages |
| US9002867B1 (en) | 2010-12-30 | 2015-04-07 | Google Inc. | Modifying ranking data based on document changes |
| US8868567B2 (en) * | 2011-02-02 | 2014-10-21 | Microsoft Corporation | Information retrieval using subject-aware document ranker |
| US8572096B1 (en) * | 2011-08-05 | 2013-10-29 | Google Inc. | Selecting keywords using co-visitation information |
| US9244931B2 (en) * | 2011-10-11 | 2016-01-26 | Microsoft Technology Licensing, Llc | Time-aware ranking adapted to a search engine application |
| US9208218B2 (en) * | 2011-10-19 | 2015-12-08 | Zalag Corporation | Methods and apparatuses for generating search expressions from content, for applying search expressions to content collections, and/or for analyzing corresponding search results |
| US9600587B2 (en) | 2011-10-19 | 2017-03-21 | Zalag Corporation | Methods and apparatuses for generating search expressions from content, for applying search expressions to content collections, and/or for analyzing corresponding search results |
| US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
| US9348846B2 (en) | 2012-07-02 | 2016-05-24 | Google Inc. | User-navigable resource representations |
| US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
| US8949216B2 (en) | 2012-12-07 | 2015-02-03 | International Business Machines Corporation | Determining characteristic parameters for web pages |
| US9576053B2 (en) | 2012-12-31 | 2017-02-21 | Charles J. Reed | Method and system for ranking content of objects for search results |
| US8621062B1 (en) * | 2013-03-15 | 2013-12-31 | Opscode, Inc. | Push signaling to run jobs on available servers |
| US9852230B2 (en) | 2013-06-29 | 2017-12-26 | Google Llc | Asynchronous message passing for large graph clustering |
| US9596295B2 (en) | 2013-06-29 | 2017-03-14 | Google Inc. | Computing connected components in large graphs |
| US9589061B2 (en) * | 2014-04-04 | 2017-03-07 | Fujitsu Limited | Collecting learning materials for informal learning |
| WO2015155820A1 (ja) * | 2014-04-07 | 2015-10-15 | 楽天株式会社 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
| US9886507B2 (en) | 2014-04-30 | 2018-02-06 | International Business Machines Corporation | Reranking search results using download time tolerance |
| US9767159B2 (en) * | 2014-06-13 | 2017-09-19 | Google Inc. | Ranking search results |
| US10013496B2 (en) | 2014-06-24 | 2018-07-03 | Google Llc | Indexing actions for resources |
| CN104484478B (zh) * | 2014-12-31 | 2018-05-29 | 中国农业银行股份有限公司 | 一种关联聚类数据瘦身方法及系统 |
| CN106933896B (zh) * | 2015-12-31 | 2021-06-22 | 北京国双科技有限公司 | 最短访问路径识别方法及装置 |
| CN106933895B (zh) * | 2015-12-31 | 2020-02-07 | 北京国双科技有限公司 | 最短访问路径识别方法及装置 |
| CN106933910A (zh) * | 2015-12-31 | 2017-07-07 | 北京国双科技有限公司 | 最短路径识别方法及装置 |
| US11226969B2 (en) * | 2016-02-27 | 2022-01-18 | Microsoft Technology Licensing, Llc | Dynamic deeplinks for navigational queries |
| US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
| US11366872B1 (en) * | 2017-07-19 | 2022-06-21 | Amazon Technologies, Inc. | Digital navigation menus with dynamic content placement |
| CN108008941B (zh) * | 2017-11-16 | 2019-06-21 | 北京大学 | 一种安卓应用的深链接口自动生成方法及深链执行方法 |
| CN110020206B (zh) * | 2019-04-12 | 2021-10-15 | 北京搜狗科技发展有限公司 | 一种搜索结果排序方法及装置 |
| US11175914B2 (en) * | 2019-06-28 | 2021-11-16 | Aras Corporation | Calculation engine for performing calculations based on dependencies in a self-describing data system |
Family Cites Families (222)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US117351A (en) * | 1871-07-25 | Improvement in reclining-chairs | ||
| US10781A (en) * | 1854-04-18 | Matthias p | ||
| US186827A (en) * | 1877-01-30 | Improvement in mail-bags | ||
| US49766A (en) * | 1865-09-05 | Gboege w | ||
| US5222236A (en) * | 1988-04-29 | 1993-06-22 | Overdrive Systems, Inc. | Multiple integrated document assembly data processing system |
| US5257577A (en) | 1991-04-01 | 1993-11-02 | Clark Melvin D | Apparatus for assist in recycling of refuse |
| US6202058B1 (en) | 1994-04-25 | 2001-03-13 | Apple Computer, Inc. | System for ranking the relevance of information objects accessed by computer users |
| US5606609A (en) * | 1994-09-19 | 1997-02-25 | Scientific-Atlanta | Electronic document verification system and method |
| US5594660A (en) * | 1994-09-30 | 1997-01-14 | Cirrus Logic, Inc. | Programmable audio-video synchronization method and apparatus for multimedia systems |
| US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
| US5933851A (en) * | 1995-09-29 | 1999-08-03 | Sony Corporation | Time-stamp and hash-based file modification monitor with multi-user notification and method thereof |
| US5974455A (en) * | 1995-12-13 | 1999-10-26 | Digital Equipment Corporation | System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table |
| US6314420B1 (en) | 1996-04-04 | 2001-11-06 | Lycos, Inc. | Collaborative/adaptive search engine |
| JP3113814B2 (ja) * | 1996-04-17 | 2000-12-04 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 情報検索方法及び情報検索装置 |
| US5920859A (en) | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
| US5745890A (en) | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Sequential searching of a database index using constraints on word-location pairs |
| US5920854A (en) | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
| WO1998014906A1 (fr) | 1996-10-02 | 1998-04-09 | Nippon Telegraph And Telephone Corporation | Procede et appareil d'affichage graphique de structure hierarchique |
| US6285999B1 (en) | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
| US5960383A (en) * | 1997-02-25 | 1999-09-28 | Digital Equipment Corporation | Extraction of key sections from texts using automatic indexing techniques |
| US5848404A (en) * | 1997-03-24 | 1998-12-08 | International Business Machines Corporation | Fast query search in large dimension database |
| US6256675B1 (en) * | 1997-05-06 | 2001-07-03 | At&T Corp. | System and method for allocating requests for objects and managing replicas of objects on a network |
| US6012053A (en) * | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
| JPH1125119A (ja) | 1997-06-30 | 1999-01-29 | Canon Inc | ハイパーテキスト閲覧システム |
| JPH1125104A (ja) | 1997-06-30 | 1999-01-29 | Canon Inc | 情報処理装置および方法 |
| US5983216A (en) | 1997-09-12 | 1999-11-09 | Infoseek Corporation | Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections |
| US6182113B1 (en) | 1997-09-16 | 2001-01-30 | International Business Machines Corporation | Dynamic multiplexing of hyperlinks and bookmarks |
| US6070191A (en) * | 1997-10-17 | 2000-05-30 | Lucent Technologies Inc. | Data distribution techniques for load-balanced fault-tolerant web access |
| US6351467B1 (en) * | 1997-10-27 | 2002-02-26 | Hughes Electronics Corporation | System and method for multicasting multimedia content |
| US6594682B2 (en) * | 1997-10-28 | 2003-07-15 | Microsoft Corporation | Client-side system for scheduling delivery of web content and locally managing the web content |
| US6128701A (en) | 1997-10-28 | 2000-10-03 | Cache Flow, Inc. | Adaptive and predictive cache refresh policy |
| US5991756A (en) | 1997-11-03 | 1999-11-23 | Yahoo, Inc. | Information retrieval from hierarchical compound documents |
| US5987457A (en) | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
| US6473752B1 (en) | 1997-12-04 | 2002-10-29 | Micron Technology, Inc. | Method and system for locating documents based on previously accessed documents |
| US6389436B1 (en) * | 1997-12-15 | 2002-05-14 | International Business Machines Corporation | Enhanced hypertext categorization using hyperlinks |
| US6145003A (en) | 1997-12-17 | 2000-11-07 | Microsoft Corporation | Method of web crawling utilizing address mapping |
| US6151624A (en) | 1998-02-03 | 2000-11-21 | Realnames Corporation | Navigating network resources based on metadata |
| KR100285265B1 (ko) | 1998-02-25 | 2001-04-02 | 윤덕용 | 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조 |
| US6185558B1 (en) * | 1998-03-03 | 2001-02-06 | Amazon.Com, Inc. | Identifying the items most relevant to a current query based on items selected in connection with similar queries |
| US6125361A (en) | 1998-04-10 | 2000-09-26 | International Business Machines Corporation | Feature diffusion across hyperlinks |
| US6151595A (en) | 1998-04-17 | 2000-11-21 | Xerox Corporation | Methods for interactive visualization of spreading activation using time tubes and disk trees |
| US6240407B1 (en) * | 1998-04-29 | 2001-05-29 | International Business Machines Corp. | Method and apparatus for creating an index in a database system |
| US6098064A (en) * | 1998-05-22 | 2000-08-01 | Xerox Corporation | Prefetching and caching documents according to probability ranked need S list |
| US6285367B1 (en) | 1998-05-26 | 2001-09-04 | International Business Machines Corporation | Method and apparatus for displaying and navigating a graph |
| US6182085B1 (en) * | 1998-05-28 | 2001-01-30 | International Business Machines Corporation | Collaborative team crawling:Large scale information gathering over the internet |
| US6208988B1 (en) | 1998-06-01 | 2001-03-27 | Bigchalk.Com, Inc. | Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes |
| JP2002517860A (ja) | 1998-06-08 | 2002-06-18 | ケイシーエスエル インク. | データベースから関連情報を検索する方法およびシステム |
| US6006225A (en) | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
| US6216123B1 (en) * | 1998-06-24 | 2001-04-10 | Novell, Inc. | Method and system for rapid retrieval in a full text indexing system |
| US6638314B1 (en) | 1998-06-26 | 2003-10-28 | Microsoft Corporation | Method of web crawling utilizing crawl numbers |
| EP1105819B1 (en) | 1998-08-26 | 2008-03-19 | Fractal Edge Limited | Methods and devices for mapping data files |
| RU2138076C1 (ru) | 1998-09-14 | 1999-09-20 | Закрытое акционерное общество "МедиаЛингва" | Система поиска информации в компьютерной сети |
| US6549897B1 (en) * | 1998-10-09 | 2003-04-15 | Microsoft Corporation | Method and system for calculating phrase-document importance |
| US6360215B1 (en) * | 1998-11-03 | 2002-03-19 | Inktomi Corporation | Method and apparatus for retrieving documents based on information other than document content |
| US6385602B1 (en) * | 1998-11-03 | 2002-05-07 | E-Centives, Inc. | Presentation of search results using dynamic categorization |
| US6574632B2 (en) | 1998-11-18 | 2003-06-03 | Harris Corporation | Multiple engine information retrieval and visualization system |
| US6628304B2 (en) | 1998-12-09 | 2003-09-30 | Cisco Technology, Inc. | Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks |
| US6167369A (en) | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
| US6922699B2 (en) * | 1999-01-26 | 2005-07-26 | Xerox Corporation | System and method for quantitatively representing data objects in vector space |
| US6418433B1 (en) * | 1999-01-28 | 2002-07-09 | International Business Machines Corporation | System and method for focussed web crawling |
| US6510406B1 (en) | 1999-03-23 | 2003-01-21 | Mathsoft, Inc. | Inverse inference engine for high performance web search |
| US6862710B1 (en) | 1999-03-23 | 2005-03-01 | Insightful Corporation | Internet navigation using soft hyperlinks |
| US6763496B1 (en) | 1999-03-31 | 2004-07-13 | Microsoft Corporation | Method for promoting contextual information to display pages containing hyperlinks |
| US6304864B1 (en) | 1999-04-20 | 2001-10-16 | Textwise Llc | System for retrieving multimedia information from the internet using multiple evolving intelligent agents |
| US6327590B1 (en) | 1999-05-05 | 2001-12-04 | Xerox Corporation | System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis |
| US7835943B2 (en) | 1999-05-28 | 2010-11-16 | Yahoo! Inc. | System and method for providing place and price protection in a search result list generated by a computer network search engine |
| US6990628B1 (en) | 1999-06-14 | 2006-01-24 | Yahoo! Inc. | Method and apparatus for measuring similarity among electronic documents |
| US7072888B1 (en) | 1999-06-16 | 2006-07-04 | Triogo, Inc. | Process for improving search engine efficiency using feedback |
| US6973490B1 (en) | 1999-06-23 | 2005-12-06 | Savvis Communications Corp. | Method and system for object-level web performance and analysis |
| US6547829B1 (en) * | 1999-06-30 | 2003-04-15 | Microsoft Corporation | Method and system for detecting duplicate documents in web crawls |
| US7181438B1 (en) * | 1999-07-21 | 2007-02-20 | Alberti Anemometer, Llc | Database access system |
| US6598047B1 (en) | 1999-07-26 | 2003-07-22 | David W. Russell | Method and system for searching text |
| JP3931496B2 (ja) * | 1999-08-11 | 2007-06-13 | 富士ゼロックス株式会社 | ハイパーテキスト解析装置 |
| US6442606B1 (en) * | 1999-08-12 | 2002-08-27 | Inktomi Corporation | Method and apparatus for identifying spoof documents |
| US6636853B1 (en) * | 1999-08-30 | 2003-10-21 | Morphism, Llc | Method and apparatus for representing and navigating search results |
| US7346604B1 (en) * | 1999-10-15 | 2008-03-18 | Hewlett-Packard Development Company, L.P. | Method for ranking hypertext search results by analysis of hyperlinks from expert documents and keyword scope |
| US7107218B1 (en) | 1999-10-29 | 2006-09-12 | British Telecommunications Public Limited Company | Method and apparatus for processing queries |
| US6351755B1 (en) * | 1999-11-02 | 2002-02-26 | Alta Vista Company | System and method for associating an extensible set of data with documents downloaded by a web crawler |
| US6263364B1 (en) * | 1999-11-02 | 2001-07-17 | Alta Vista Company | Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness |
| US6418453B1 (en) * | 1999-11-03 | 2002-07-09 | International Business Machines Corporation | Network repository service for efficient web crawling |
| US6418452B1 (en) * | 1999-11-03 | 2002-07-09 | International Business Machines Corporation | Network repository service directory for efficient web crawling |
| US6539376B1 (en) * | 1999-11-15 | 2003-03-25 | International Business Machines Corporation | System and method for the automatic mining of new relationships |
| US6886129B1 (en) | 1999-11-24 | 2005-04-26 | International Business Machines Corporation | Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages |
| US7016540B1 (en) * | 1999-11-24 | 2006-03-21 | Nec Corporation | Method and system for segmentation, classification, and summarization of video images |
| US6546388B1 (en) | 2000-01-14 | 2003-04-08 | International Business Machines Corporation | Metadata search results ranking system |
| US6883135B1 (en) | 2000-01-28 | 2005-04-19 | Microsoft Corporation | Proxy server using a statistical model |
| US7240067B2 (en) | 2000-02-08 | 2007-07-03 | Sybase, Inc. | System and methodology for extraction and aggregation of data from dynamic content |
| US6931397B1 (en) * | 2000-02-11 | 2005-08-16 | International Business Machines Corporation | System and method for automatic generation of dynamic search abstracts contain metadata by crawler |
| US6910029B1 (en) | 2000-02-22 | 2005-06-21 | International Business Machines Corporation | System for weighted indexing of hierarchical documents |
| JP2001265774A (ja) | 2000-03-16 | 2001-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム |
| US6516312B1 (en) * | 2000-04-04 | 2003-02-04 | International Business Machine Corporation | System and method for dynamically associating keywords with domain-specific search engine queries |
| US6633867B1 (en) | 2000-04-05 | 2003-10-14 | International Business Machines Corporation | System and method for providing a session query within the context of a dynamic search result set |
| US6549896B1 (en) * | 2000-04-07 | 2003-04-15 | Nec Usa, Inc. | System and method employing random walks for mining web page associations and usage to optimize user-oriented web page refresh and pre-fetch scheduling |
| US6718365B1 (en) * | 2000-04-13 | 2004-04-06 | International Business Machines Corporation | Method, system, and program for ordering search results using an importance weighting |
| US6859800B1 (en) * | 2000-04-26 | 2005-02-22 | Global Information Research And Technologies Llc | System for fulfilling an information need |
| US6741986B2 (en) * | 2000-12-08 | 2004-05-25 | Ingenuity Systems, Inc. | Method and system for performing information extraction and quality control for a knowledgebase |
| US6772160B2 (en) * | 2000-06-08 | 2004-08-03 | Ingenuity Systems, Inc. | Techniques for facilitating information acquisition and storage |
| DE10029644B4 (de) | 2000-06-16 | 2008-02-07 | Deutsche Telekom Ag | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
| JP3573688B2 (ja) | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
| US6678692B1 (en) * | 2000-07-10 | 2004-01-13 | Northrop Grumman Corporation | Hierarchy statistical analysis system and method |
| US6601075B1 (en) * | 2000-07-27 | 2003-07-29 | International Business Machines Corporation | System and method of ranking and retrieving documents based on authority scores of schemas and documents |
| US6633868B1 (en) | 2000-07-28 | 2003-10-14 | Shermann Loyall Min | System and method for context-based document retrieval |
| US7080073B1 (en) * | 2000-08-18 | 2006-07-18 | Firstrain, Inc. | Method and apparatus for focused crawling |
| US6959326B1 (en) | 2000-08-24 | 2005-10-25 | International Business Machines Corporation | Method, system, and program for gathering indexable metadata on content at a data repository |
| US20030217052A1 (en) | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
| JP3472540B2 (ja) | 2000-09-11 | 2003-12-02 | 日本電信電話株式会社 | サーバ選択装置、サーバ選択方法、及びサーバ選択プログラムを記録した記録媒体 |
| US6598051B1 (en) * | 2000-09-19 | 2003-07-22 | Altavista Company | Web page connectivity server |
| US6560600B1 (en) * | 2000-10-25 | 2003-05-06 | Alta Vista Company | Method and apparatus for ranking Web page search results |
| JP3525885B2 (ja) * | 2000-10-25 | 2004-05-10 | 日本電信電話株式会社 | 多角的検索サービス方法およびそのプログラムを記録した記録媒体 |
| US7200606B2 (en) | 2000-11-07 | 2007-04-03 | The Regents Of The University Of California | Method and system for selecting documents by measuring document quality |
| US6622140B1 (en) | 2000-11-15 | 2003-09-16 | Justsystem Corporation | Method and apparatus for analyzing affect and emotion in text |
| JP2002157271A (ja) * | 2000-11-20 | 2002-05-31 | Yozan Inc | ブラウザ装置、サーバ装置、記録媒体、検索システムおよび検索方法 |
| US6842761B2 (en) * | 2000-11-21 | 2005-01-11 | America Online, Inc. | Full-text relevancy ranking |
| US8402068B2 (en) | 2000-12-07 | 2013-03-19 | Half.Com, Inc. | System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network |
| US20020078045A1 (en) * | 2000-12-14 | 2002-06-20 | Rabindranath Dutta | System, method, and program for ranking search results using user category weighting |
| US6778997B2 (en) * | 2001-01-05 | 2004-08-17 | International Business Machines Corporation | XML: finding authoritative pages for mining communities based on page structure criteria |
| US7356530B2 (en) | 2001-01-10 | 2008-04-08 | Looksmart, Ltd. | Systems and methods of retrieving relevant information |
| US6766316B2 (en) | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
| US6417054B1 (en) * | 2001-01-26 | 2002-07-09 | Chartered Semiconductor Manufacturing Ltd. | Method for fabricating a self aligned S/D CMOS device on insulated layer by forming a trench along the STI and fill with oxide |
| US20020103798A1 (en) * | 2001-02-01 | 2002-08-01 | Abrol Mani S. | Adaptive document ranking method based on user behavior |
| US20020107886A1 (en) * | 2001-02-07 | 2002-08-08 | Gentner Donald R. | Method and apparatus for automatic document electronic versioning system |
| US7571177B2 (en) * | 2001-02-08 | 2009-08-04 | 2028, Inc. | Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication |
| US20040003028A1 (en) * | 2002-05-08 | 2004-01-01 | David Emmett | Automatic display of web content to smaller display devices: improved summarization and navigation |
| US7627596B2 (en) | 2001-02-22 | 2009-12-01 | International Business Machines Corporation | Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries |
| US7269545B2 (en) | 2001-03-30 | 2007-09-11 | Nec Laboratories America, Inc. | Method for retrieving answers from an information retrieval system |
| US20020169770A1 (en) | 2001-04-27 | 2002-11-14 | Kim Brian Seong-Gon | Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents |
| US7188106B2 (en) * | 2001-05-01 | 2007-03-06 | International Business Machines Corporation | System and method for aggregating ranking results from various sources to improve the results of web searching |
| US6738764B2 (en) * | 2001-05-08 | 2004-05-18 | Verity, Inc. | Apparatus and method for adaptively ranking search results |
| AU2002256868B2 (en) * | 2001-05-10 | 2007-08-16 | Amdocs Software Systems Limited | Intelligent internet website with hierarchical menu |
| US6782383B2 (en) | 2001-06-18 | 2004-08-24 | Siebel Systems, Inc. | System and method to implement a persistent and dismissible search center frame |
| US7519529B1 (en) * | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
| US7039234B2 (en) * | 2001-07-19 | 2006-05-02 | Microsoft Corporation | Electronic ink as a software object |
| US6928425B2 (en) | 2001-08-13 | 2005-08-09 | Xerox Corporation | System for propagating enrichment between documents |
| US6868411B2 (en) | 2001-08-13 | 2005-03-15 | Xerox Corporation | Fuzzy text categorizer |
| US7076483B2 (en) * | 2001-08-27 | 2006-07-11 | Xyleme Sa | Ranking nodes in a graph |
| US6970863B2 (en) * | 2001-09-18 | 2005-11-29 | International Business Machines Corporation | Front-end weight factor search criteria |
| US6766422B2 (en) * | 2001-09-27 | 2004-07-20 | Siemens Information And Communication Networks, Inc. | Method and system for web caching based on predictive usage |
| US6944609B2 (en) | 2001-10-18 | 2005-09-13 | Lycos, Inc. | Search results using editor feedback |
| US7428695B2 (en) | 2001-10-22 | 2008-09-23 | Hewlett-Packard Development Company, L.P. | System for automatic generation of arbitrarily indexed hyperlinked text |
| US6763362B2 (en) * | 2001-11-30 | 2004-07-13 | Micron Technology, Inc. | Method and system for updating a search engine |
| US7565367B2 (en) | 2002-01-15 | 2009-07-21 | Iac Search & Media, Inc. | Enhanced popularity ranking |
| JP3871201B2 (ja) | 2002-01-29 | 2007-01-24 | ソニー株式会社 | コンテンツ提供取得システム |
| US6829606B2 (en) | 2002-02-14 | 2004-12-07 | Infoglide Software Corporation | Similarity search engine for use with relational databases |
| JP4021681B2 (ja) | 2002-02-22 | 2007-12-12 | 日本電信電話株式会社 | ページレイティング/フィルタリング方法および装置とページレイティング/フィルタリングプログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体 |
| US6934714B2 (en) * | 2002-03-04 | 2005-08-23 | Intelesis Engineering, Inc. | Method and system for identification and maintenance of families of data records |
| US7693830B2 (en) * | 2005-08-10 | 2010-04-06 | Google Inc. | Programmable search engine |
| US20040006559A1 (en) * | 2002-05-29 | 2004-01-08 | Gange David M. | System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector |
| WO2003107321A1 (en) * | 2002-06-12 | 2003-12-24 | Jena Jordahl | Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view |
| JP2004054588A (ja) * | 2002-07-19 | 2004-02-19 | Just Syst Corp | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム |
| CA2395905A1 (en) | 2002-07-26 | 2004-01-26 | Teraxion Inc. | Multi-grating tunable chromatic dispersion compensator |
| US7152059B2 (en) | 2002-08-30 | 2006-12-19 | Emergency24, Inc. | System and method for predicting additional search results of a computerized database search user based on an initial search query |
| US7013458B2 (en) | 2002-09-09 | 2006-03-14 | Sun Microsystems, Inc. | Method and apparatus for associating metadata attributes with program elements |
| US6886010B2 (en) * | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
| US7231379B2 (en) * | 2002-11-19 | 2007-06-12 | Noema, Inc. | Navigation in a hierarchical structured transaction processing system |
| US7386527B2 (en) * | 2002-12-06 | 2008-06-10 | Kofax, Inc. | Effective multi-class support vector machine classification |
| US7020648B2 (en) | 2002-12-14 | 2006-03-28 | International Business Machines Corporation | System and method for identifying and utilizing a secondary index to access a database using a management system without an internal catalogue of online metadata |
| US20040148278A1 (en) | 2003-01-22 | 2004-07-29 | Amir Milo | System and method for providing content warehouse |
| US20040181515A1 (en) | 2003-03-13 | 2004-09-16 | International Business Machines Corporation | Group administration of universal resource identifiers with members identified in search result |
| US6947930B2 (en) | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
| US7028029B2 (en) * | 2003-03-28 | 2006-04-11 | Google Inc. | Adaptive computation of ranking |
| US7216123B2 (en) * | 2003-03-28 | 2007-05-08 | Board Of Trustees Of The Leland Stanford Junior University | Methods for ranking nodes in large directed graphs |
| US7451130B2 (en) | 2003-06-16 | 2008-11-11 | Google Inc. | System and method for providing preferred country biasing of search results |
| US7451129B2 (en) | 2003-03-31 | 2008-11-11 | Google Inc. | System and method for providing preferred language ordering of search results |
| US7051023B2 (en) | 2003-04-04 | 2006-05-23 | Yahoo! Inc. | Systems and methods for generating concept units from search queries |
| US7197497B2 (en) * | 2003-04-25 | 2007-03-27 | Overture Services, Inc. | Method and apparatus for machine learning a document relevance function |
| US7228301B2 (en) * | 2003-06-27 | 2007-06-05 | Microsoft Corporation | Method for normalizing document metadata to improve search results using an alias relationship directory service |
| US7308643B1 (en) | 2003-07-03 | 2007-12-11 | Google Inc. | Anchor tag indexing in a web crawler system |
| US20050060186A1 (en) * | 2003-08-28 | 2005-03-17 | Blowers Paul A. | Prioritized presentation of medical device events |
| US7505964B2 (en) | 2003-09-12 | 2009-03-17 | Google Inc. | Methods and systems for improving a search ranking using related queries |
| US7454417B2 (en) | 2003-09-12 | 2008-11-18 | Google Inc. | Methods and systems for improving a search ranking using population information |
| US7346839B2 (en) * | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
| US20050071328A1 (en) * | 2003-09-30 | 2005-03-31 | Lawrence Stephen R. | Personalization of web search |
| US7693827B2 (en) | 2003-09-30 | 2010-04-06 | Google Inc. | Personalization of placed content ordering in search results |
| US7552109B2 (en) * | 2003-10-15 | 2009-06-23 | International Business Machines Corporation | System, method, and service for collaborative focused crawling of documents on a network |
| US20050086192A1 (en) * | 2003-10-16 | 2005-04-21 | Hitach, Ltd. | Method and apparatus for improving the integration between a search engine and one or more file servers |
| US7346208B2 (en) | 2003-10-25 | 2008-03-18 | Hewlett-Packard Development Company, L.P. | Image artifact reduction using a neural network |
| US7231399B1 (en) * | 2003-11-14 | 2007-06-12 | Google Inc. | Ranking documents based on large data sets |
| US20060047649A1 (en) * | 2003-12-29 | 2006-03-02 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
| US20050160107A1 (en) * | 2003-12-29 | 2005-07-21 | Ping Liang | Advanced search, file system, and intelligent assistant agent |
| US7483891B2 (en) * | 2004-01-09 | 2009-01-27 | Yahoo, Inc. | Content presentation and management system associating base content and relevant additional content |
| US7392278B2 (en) | 2004-01-23 | 2008-06-24 | Microsoft Corporation | Building and using subwebs for focused search |
| US7499913B2 (en) * | 2004-01-26 | 2009-03-03 | International Business Machines Corporation | Method for handling anchor text |
| US7310632B2 (en) | 2004-02-12 | 2007-12-18 | Microsoft Corporation | Decision-theoretic web-crawling and predicting web-page change |
| US7281002B2 (en) * | 2004-03-01 | 2007-10-09 | International Business Machine Corporation | Organizing related search results |
| US7584221B2 (en) | 2004-03-18 | 2009-09-01 | Microsoft Corporation | Field weighting in text searching |
| US7343374B2 (en) | 2004-03-29 | 2008-03-11 | Yahoo! Inc. | Computation of page authority weights using personalized bookmarks |
| US7693825B2 (en) | 2004-03-31 | 2010-04-06 | Google Inc. | Systems and methods for ranking implicit search results |
| US7580568B1 (en) | 2004-03-31 | 2009-08-25 | Google Inc. | Methods and systems for identifying an image as a representative image for an article |
| US20050251499A1 (en) | 2004-05-04 | 2005-11-10 | Zezhen Huang | Method and system for searching documents using readers valuation |
| US7257577B2 (en) * | 2004-05-07 | 2007-08-14 | International Business Machines Corporation | System, method and service for ranking search results using a modular scoring system |
| US7260573B1 (en) * | 2004-05-17 | 2007-08-21 | Google Inc. | Personalizing anchor text scores in a search engine |
| US7716225B1 (en) | 2004-06-17 | 2010-05-11 | Google Inc. | Ranking documents based on user behavior and/or feature data |
| US20050283473A1 (en) | 2004-06-17 | 2005-12-22 | Armand Rousso | Apparatus, method and system of artificial intelligence for data searching applications |
| US7363296B1 (en) * | 2004-07-01 | 2008-04-22 | Microsoft Corporation | Generating a subindex with relevant attributes to improve querying |
| US7428530B2 (en) | 2004-07-01 | 2008-09-23 | Microsoft Corporation | Dispersing search engine results by using page category information |
| US20060036598A1 (en) * | 2004-08-09 | 2006-02-16 | Jie Wu | Computerized method for ranking linked information items in distributed sources |
| US7761448B2 (en) | 2004-09-30 | 2010-07-20 | Microsoft Corporation | System and method for ranking search results using click distance |
| US7827181B2 (en) * | 2004-09-30 | 2010-11-02 | Microsoft Corporation | Click distance determination |
| US7333963B2 (en) | 2004-10-07 | 2008-02-19 | Bernard Widrow | Cognitive memory and auto-associative neural network based search engine for computer and network located images and photographs |
| CN101601032A (zh) * | 2005-01-18 | 2009-12-09 | 雅虎公司 | 结合万维网搜索技术和万维网内容的被赞助搜索条目的匹配和排名 |
| US7689615B2 (en) | 2005-02-25 | 2010-03-30 | Microsoft Corporation | Ranking results using multiple nested ranking |
| US20060200460A1 (en) | 2005-03-03 | 2006-09-07 | Microsoft Corporation | System and method for ranking search results using file types |
| US7574436B2 (en) | 2005-03-10 | 2009-08-11 | Yahoo! Inc. | Reranking and increasing the relevance of the results of Internet searches |
| US20060206460A1 (en) | 2005-03-14 | 2006-09-14 | Sanjay Gadkari | Biasing search results |
| US8095487B2 (en) | 2005-03-16 | 2012-01-10 | Yahoo! Inc. | System and method for biasing search results based on topic familiarity |
| JP5632124B2 (ja) | 2005-03-18 | 2014-11-26 | サーチ エンジン テクノロジーズ リミテッド ライアビリティ カンパニー | 格付け方法、検索結果並び替え方法、格付けシステム及び検索結果並び替えシステム |
| CA2544324A1 (en) | 2005-06-10 | 2006-12-10 | Unicru, Inc. | Employee selection via adaptive assessment |
| US20060282455A1 (en) | 2005-06-13 | 2006-12-14 | It Interactive Services Inc. | System and method for ranking web content |
| US7627564B2 (en) | 2005-06-21 | 2009-12-01 | Microsoft Corporation | High scale adaptive search systems and methods |
| US7599917B2 (en) | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
| US7716226B2 (en) | 2005-09-27 | 2010-05-11 | Patentratings, Llc | Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects |
| US7689531B1 (en) | 2005-09-28 | 2010-03-30 | Trend Micro Incorporated | Automatic charset detection using support vector machines with charset grouping |
| US20070150473A1 (en) | 2005-12-22 | 2007-06-28 | Microsoft Corporation | Search By Document Type And Relevance |
| US7685091B2 (en) * | 2006-02-14 | 2010-03-23 | Accenture Global Services Gmbh | System and method for online information analysis |
| US20070260597A1 (en) | 2006-05-02 | 2007-11-08 | Mark Cramer | Dynamic search engine results employing user behavior |
| US7720830B2 (en) | 2006-07-31 | 2010-05-18 | Microsoft Corporation | Hierarchical conditional random fields for web extraction |
| US20080140641A1 (en) | 2006-12-07 | 2008-06-12 | Yahoo! Inc. | Knowledge and interests based search term ranking for search results validation |
| US7685084B2 (en) | 2007-02-09 | 2010-03-23 | Yahoo! Inc. | Term expansion using associative matching of labeled term pairs |
| US20090106221A1 (en) | 2007-10-18 | 2009-04-23 | Microsoft Corporation | Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features |
| US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
| US7840569B2 (en) | 2007-10-18 | 2010-11-23 | Microsoft Corporation | Enterprise relevancy ranking using a neural network |
| US7974974B2 (en) | 2008-03-20 | 2011-07-05 | Microsoft Corporation | Techniques to perform relative ranking for search results |
-
2004
- 2004-09-30 US US10/955,983 patent/US7761448B2/en not_active Expired - Fee Related
-
2005
- 2005-06-10 ES ES05105110.0T patent/ES2613385T3/es not_active Expired - Lifetime
- 2005-06-10 EP EP05105110.0A patent/EP1643385B1/en not_active Expired - Lifetime
- 2005-06-15 JP JP2005175172A patent/JP4950444B2/ja not_active Expired - Fee Related
- 2005-06-29 KR KR1020050057199A patent/KR101203312B1/ko not_active Expired - Fee Related
- 2005-07-29 CN CNB2005100885275A patent/CN100565509C/zh not_active Expired - Lifetime
-
2010
- 2010-07-01 US US12/828,508 patent/US8082246B2/en not_active Expired - Fee Related
-
2011
- 2011-09-07 JP JP2011194741A patent/JP5369154B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| KR20060048716A (ko) | 2006-05-18 |
| EP1643385B1 (en) | 2016-11-02 |
| US8082246B2 (en) | 2011-12-20 |
| US20100268707A1 (en) | 2010-10-21 |
| EP1643385A2 (en) | 2006-04-05 |
| JP2006107432A (ja) | 2006-04-20 |
| CN1755682A (zh) | 2006-04-05 |
| US20060074903A1 (en) | 2006-04-06 |
| JP5369154B2 (ja) | 2013-12-18 |
| EP1643385A3 (en) | 2006-09-13 |
| JP2011258235A (ja) | 2011-12-22 |
| CN100565509C (zh) | 2009-12-02 |
| KR101203312B1 (ko) | 2012-11-20 |
| JP4950444B2 (ja) | 2012-06-13 |
| US7761448B2 (en) | 2010-07-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2613385T3 (es) | Sistema y procedimiento para clasificar resultados de búsqueda usando distancia de clic | |
| Crescenzi et al. | On computing the diameter of real-world undirected graphs | |
| US8583667B2 (en) | Large graph measurement | |
| Hua et al. | Probabilistic path queries in road networks: traffic uncertainty aware path selection | |
| US7827181B2 (en) | Click distance determination | |
| US9104979B2 (en) | Entity recognition using probabilities for out-of-collection data | |
| KR101301380B1 (ko) | 네트워크 상에서의 문서의 바이어스된 클릭 거리를사용하는 순위 함수 | |
| Ashokkumar et al. | Intelligent optimal route recommendation among heterogeneous objects with keywords | |
| CN107145545A (zh) | 一种基于位置的社交网络中Top‑k区域用户文本数据推荐方法 | |
| Belazzougui et al. | Fully dynamic de Bruijn graphs | |
| US20120124060A1 (en) | Method and system of identifying adjacency data, method and system of generating a dataset for mapping adjacency data, and an adjacency data set | |
| Bercea et al. | Dynamic dictionaries for multisets and counting filters with constant time operations | |
| Sen et al. | Contrastive study of simple pagerank, hits and weighted pagerank algorithms | |
| CN101467149A (zh) | 具有可变压缩的自适应索引 | |
| Qi et al. | Similarity search with graph index on directed social network embedding | |
| Gugnani et al. | A complete survey on web document ranking | |
| Grecu | Navigability in information networks | |
| Preisinger | Graph-based algorithms for Pareto preference query evaluation | |
| Zhang et al. | A new feature selection algorithm based on category difference for text categorization | |
| Kumar et al. | Study of Preference Based Page Ranking Algorithm | |
| Boland Jr | Data discretization simplified: Randomized binary search trees for data preprocessing | |
| Mai et al. | Real-time Optimal Sequenced Route Query Computation in Road Networks | |
| Mora et al. | Prevention of Street Harassment Through Constrained Shortest Path Algorithms | |
| Gupta et al. | A comparative analysis of page ranking algorithms | |
| Groppe | External Sorting and B+-Trees |