ES2811704T3

ES2811704T3 - Método y sistema para extraer funciones de comportamiento del usuario para personalizar recomendaciones

Info

Publication number: ES2811704T3
Application number: ES14790816T
Authority: ES
Inventors: Ping Qiao; Minggang Wu
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2013-09-25
Filing date: 2014-09-24
Publication date: 2021-03-15
Anticipated expiration: 2034-09-24
Also published as: US10178190B2; EP3049912A4; WO2015048171A2; WO2015048171A3; CN104462156B; EP3049912A2; JP2016536725A; CN104462156A; TW201513019A; JP6511455B2; EP3049912B1; US20150088911A1

Abstract

Un método para extraer características del usuario con base en el comportamiento del usuario, el método comprende: obtener (101) datos de flujo de clics de un usuario actual, los datos de flujo de clics incluyen una pluralidad de puntos de datos de flujo de clics en un sitio web; dividir la pluralidad de puntos de datos de flujo de clics en el sitio web en múltiples sesiones, una diferencia entre los tiempos de clic de dos puntos de datos consecutivos en una sesión es menor o igual a un umbral de tiempo preestablecido; calcular (102) una correlación de ruta de clic entre el usuario actual y otros usuarios, usando las sesiones múltiples; seleccionar (103) X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo; configurar (104) un peso integral en relación con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados; y calcular (105) una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos integrales.

Description

DESCRIPCIÓN

Método y sistema para extraer funciones de comportamiento del usuario para personalizar recomendaciones

Campo técnico:

La presente solicitud se refiere al procesamiento de datos y, más particularmente, a la extracción de características de comportamiento del usuario y a la modalidad de recomendaciones personalizadas con base en los comportamientos del usuario.

Antecedentes de la invención

El rápido desarrollo de Internet ha llevado a las personas a la era de la sociedad de la información y la economía de red, y ha tenido una profunda influencia tanto en el desarrollo empresarial como en la vida personal. Al mismo tiempo, sin embargo, una cantidad excesiva de información dificulta que las personas obtengan eficientemente lo que necesitan, reduciendo la eficiencia de la utilización de la información.

El comercio electrónico, por ejemplo, es un nuevo modelo de negocio en un entorno de red abierto, y ofrece aplicaciones con base en navegador/servidor para permitir compras en línea, transacciones en línea entre comerciantes y pagos electrónicos en línea. Con el desarrollo explosivo de Internet, el comercio electrónico está cada vez más extendido. Sin embargo, debido al desarrollo de la cadena de suministro y la logística, los tipos y cantidades de productos en Internet son tan grandes que aumentan enormemente el costo de tiempo de las compras de los consumidores y reducen la tasa de conversión de ventas de las plataformas de comercio electrónico. Claramente, los consumidores no quieren pasar demasiado tiempo buscando en Internet mercancías infinitas. Además, las compras en línea no permiten a los compradores verificar la calidad de los productos, como en la vida real. Los compradores desean un sistema de recomendación automático que pueda hacer sugerencias de acuerdo con sus propios intereses y satisfacción. Dirigirse a recomendaciones personales de acuerdo con los diferentes perfiles de usuario o agrupando a los usuarios en diferentes grupos de usuarios, es una de las aplicaciones de tendencias actuales.

En la técnica anterior, la agrupación de usuarios se basa en una secuencia de visitas a la página web desde rutas de acceso de usuario o palabras clave de búsqueda de usuario. Debido a que el acceso del usuario generalmente se repite e interrumpe, la ruta de clic de cada visitante no puede ser exactamente la misma cada vez. Como resultado, la tecnología existente no puede equilibrar las diferencias causadas por las visitas de múltiples usuarios, lo que resulta en un efecto de agrupación de usuarios deficiente y un servicio ineficiente.

Por lo tanto, actualmente existe una necesidad apremiante de resolver el siguiente problema técnico: proporcionar recomendaciones de servicio personalizadas, que pueden medir con precisión la correlación entre los usuarios para formar un grupo de usuarios efectivo y preciso, y proporcionar servicios específicos con mayor eficiencia.

El documento de los Estados Unidos 2013/198030 (A1) describe diversos procesos para descubrir las relaciones entre los artículos en particular, como los productos representados en un catálogo electrónico, con base en los comportamientos supervisados del usuario (por ejemplo, actividades de visualización de artículos, compras de artículos, actividades de carrito de compras, etc.). Las relaciones de elementos descubiertos pueden usarse para generar recomendaciones de elementos personalizadas para los usuarios y/o para complementar las páginas de detalles de elementos de un catálogo electrónico con listas de elementos relacionados. También se describen procesos para generar recomendaciones personalizadas de artículos con base en las actividades de búsqueda de los usuarios y visitas de nodos de navegación.

El documento US 2010/0131835 (A1) describe un sistema para inferir la intención de los visitantes de un sitio web que tiene una aplicación de seguimiento de visitantes que se ejecuta desde un medio digital acoplado a un servidor que aloja el sitio web, el servidor conectado a un repositorio adaptado para almacenar datos sobre el comportamiento del visitante y un motor de inferencia para procesar los datos para inferir la intención de los visitantes. Se realiza un seguimiento del comportamiento del visitante con relación a los enlaces, y la intención de un visitante se infiere de uno o ambos, o de una combinación de análisis del comportamiento y de deducir el significado del texto de anclaje de los enlaces seleccionados.

Resumen

Este resumen se proporciona para introducir una selección de conceptos en forma simplificada que se describe en más detalle más abajo en la Descripción Detallada. Este resumen no pretende identificar todas las características clave o características esenciales del tema reivindicado, ni está destinado a ser utilizado solo como ayuda para determinar el alcance del tema reivindicado.

La presente descripción está definida por las reivindicaciones independientes. Otras modalidades se definen mediante las reivindicaciones dependientes. Una modalidad proporciona un método y un aparato para extraer características del usuario con base en el comportamiento del usuario. El método utiliza un sistema informático para obtener datos de flujo de clics de la página web de un usuario actual, calcular una correlación de ruta de clic entre el usuario actual y otros usuarios que usan los datos de flujo de clic y seleccionar X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentre entre los más altos, donde X es un entero positivo. El método configura un peso integral en relación con cada una de las etiquetas preestablecidas de las páginas web visitadas por los otros X usuarios seleccionados, y calcula una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos completos

En algunas modalidades, el método se caracteriza además porque los datos de flujo de clics tienen una pluralidad de puntos de datos de flujo de clics, cada punto de datos de flujo de clics incluye un identificador de usuario, una página web actual, una página web de origen, un tiempo de clic y una duración de la estadía. Para calcular la correlación de la ruta de clic entre el usuario actual y los otros usuarios, el método divide la pluralidad de puntos de datos de flujo de clics en una o más sesiones, en donde la diferencia entre los tiempos de clic de cualquiera de las dos sesiones adyacentes ordenadas secuencialmente por sus respectivos tiempos de clic es menor que o igual a un primer umbral de tiempo preestablecido, y genera un árbol de ruta de flujo de clics en cada sesión utilizando la página web actual respectiva y su página web de origen. El árbol de ruta de flujo de clics incluye un nodo y una ruta, donde el nodo es la página web actual, y la ruta indica una conexión entre la página web actual y su página web de origen. Luego, el método genera un gráfico dirigido ponderado mediante la fusión de los árboles de ruta de flujo de clics, asignando un peso jerárquico a cada nodo combinado y asignando un peso proporcional a cada ruta combinada, selecciona Y otros usuarios que comparten las rutas más comunes con el usuario actual, en donde Y es un número entero positivo y calcula la correlación de la ruta de clic entre el usuario actual y los otros usuarios de Y, utilizando el gráfico dirigido ponderado.

El peso jerárquico para cada nodo fusionado se puede determinar de acuerdo con la duración promedio de la permanencia del nodo, mientras que el peso proporcional a cada ruta fusionada se puede determinar de acuerdo con un número de páginas vistas respectivas pu. La duración promedio de la estadía se calcula dividiendo la duración total de la estadía del nodo por el número total de páginas vistas del nodo, donde los totales se suman sobre la pluralidad de puntos de datos de flujo de clics.

La asignación de un peso jerárquico a cada nodo fusionado se puede hacer colocando el nodo en uno de la pluralidad de niveles de peso divididos de acuerdo con las longitudes promedio de permanencia de los nodos, y asignando el peso jerárquico al nodo de acuerdo con el nivel de peso para que se coloca el nodo.

Cada nodo puede ser un nodo raíz o un nodo secundario, y la generación del árbol de ruta del flujo de clics utilizando la página web actual y la página web de origen se puede hacer haciendo coincidir la página web de origen de un punto de datos de flujo de clics actual de la pluralidad de puntos de datos de flujo de clics con el actual página web de otro punto de datos de flujo de clics de la pluralidad de puntos de datos de flujo de clics que tienen un tiempo de clic anterior al del punto de datos de flujo de clics actual, de acuerdo con un criterio de coincidencia preestablecido. Si la coincidencia es exitosa, el método hace que la página web actual del punto de datos de flujo de clics actual sea un nodo secundario de la página web actual del otro punto de datos de flujo de clics coincidente. Si la coincidencia no tiene éxito, el método genera un nuevo árbol de ruta de flujo de clics utilizando la página web actual del punto de datos de flujo de clics actual como el nodo raíz del mismo.

El criterio de coincidencia preestablecido puede incluir una coincidencia máxima preestablecida y/o una diferencia máxima preestablecida entre los tiempos de clic del punto de datos de flujo de clics actual y el punto de datos de flujo de clics correspondiente.

En una modalidad, el gráfico dirigido ponderado se define por:

donde <u¡, A> representa la página web ui y su estado de clic del usuario, u es la página web actual visitada por el usuario y Ai es el peso jerárquico de la página web u; y,

donde <ui, uj, 5ij> representa una dirección de ruta de clic del usuario desde la página web uj a la página web uj, ui es la página web actual, uj es la página web de origen y 5ij es el peso proporcional de la dirección de la ruta de clic del usuario respectivo.

La correlación de la ruta de clic entre el usuario actual y los otros usuarios Y puede calcularse utilizando la siguiente ecuación:

Z Peso mínimo de las rutas comunes

correlación = ------ ;—;-------------------------------- — --------- — -----:—;--------------------------Z Peso de las rutas no comunes Z Peso máximo de las rutas comunes donde, el peso mínimo de una ruta común es un producto de multiplicación del valor mínimo del peso proporcional de la ruta común x el valor mínimo del peso jerárquico de la página web actual indicada en la ruta común x el valor mínimo del peso jerárquico de la página web fuente indicada en la ruta común; el peso máximo de una ruta común es un producto de multiplicación del valor máximo del peso proporcional de la ruta común x el valor máximo del peso jerárquico de la página web actual indicada en la ruta común x el valor máximo del peso jerárquico del página web de origen indicada en la ruta común; y el peso de una ruta no común es un producto de multiplicación del valor del peso proporcional de la ruta no común x el valor del peso jerárquico de la página web actual indicada en la ruta no común x el valor de la jerarquía peso de la página web fuente indicada en la ruta no común.

Cada página web tiene un peso de página, cada etiqueta preestablecida en cada página web tiene un peso original y, con base en estos pesos originales, el peso completo de la etiqueta preestablecida se puede calcular utilizando la ecuación:

donde,

w es el peso integral de la etiqueta preestablecida, akes el número total de páginas web en las que aparece la etiqueta preestablecida, w¡ es el peso de una página web i, pu¡ es el número total de visitas a la página web i, wp¡ es el peso original de la etiqueta preestablecida en la página web i.

Además, la correlación de usuario entre el usuario actual y X otros usuarios se puede calcular utilizando la pregunta:

donde, Sim (i,j) es la correlación de usuario entre usuarios i y usuario j, cada usuario está representado por un vector respectivo

T = {(<7, ), (cr2, w2 ),•••, ^{{ ( J k , w k} )} 5

a representa una etiqueta preestablecida y

w representa el peso integral de la etiqueta preestablecida particular.

Otro aspecto de la descripción es un método para hacer recomendaciones personalizadas con base en el comportamiento del usuario. El método obtiene información del usuario, incluido el identificador de usuario, y selecciona a Z otros usuarios que tienen una similitud de usuario con el usuario clasificado entre los más altos, donde Z es un número entero positivo. El método hace una recomendación al usuario basada en la información de los otros Z usuarios seleccionados. La similitud del usuario se calcula mediante un proceso que se describe en los métodos anteriores, que incluye la obtención de datos de flujo de clic de la página web del usuario; calcular una correlación de ruta de clic entre el usuario y otros usuarios, utilizando los datos del flujo de clics; seleccionando X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo; configurar un peso integral en relación con cada una de las etiquetas preestablecidas de páginas web visitadas por los X usuarios seleccionados; y calcular una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos integrales.

Otro aspecto más de la descripción es un aparato informático para la extracción de características del usuario con base en el comportamiento del usuario. El aparato incluye un ordenador que tiene un procesador, memoria legible por ordenador y medio de almacenamiento (como medios legibles por ordenador) y dispositivos de E/S, donde el ordenador está programado para tener módulos funcionales que incluyen:

un módulo de adquisición de datos de flujo de clics para obtener datos de flujo de clics de la página web de un usuario actual;

un módulo de cálculo de correlación de ruta de clic para calcular una correlación de ruta de clic entre el usuario actual y otros usuarios, utilizando los datos de flujo de clics;

un primer módulo de selección para seleccionar X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo;

un módulo de configuración de peso completo para configurar un peso completo en conexión con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados; y

un módulo de cálculo de correlación de usuario para calcular una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos completos.

En algunas modalidades, el aparato informático se caracteriza además porque los datos de flujo de clics tienen una pluralidad de puntos de datos de flujo de clics, cada punto de datos de flujo de clics incluye un identificador de usuario, una página web actual, una página web de origen, un tiempo de clic y una duración de la estadía, en donde la correlación de la ruta de clic entre el usuario actual y los otros usuarios se calculó utilizando un método descrito en la presente descripción. Por ejemplo, el aparato basado en ordenador puede dividir la pluralidad de puntos de datos de flujo de clics en una o más sesiones, en donde la diferencia entre los tiempos de clic de cualquiera de las dos sesiones adyacentes ordenadas secuencialmente por sus respectivos tiempos de clic es menor o igual a un primer preajuste umbral de tiempo; generar un árbol de ruta de flujo de clics en cada sesión utilizando la página web actual respectiva y su página web de origen, donde el árbol de ruta de flujo de clics incluye un nodo y una ruta, siendo el nodo la página web actual, y la ruta indica una conexión entre la página web actual y su fuente página web; generar un gráfico dirigido ponderado fusionando los árboles de ruta del flujo de clics, asignando una ponderación jerárquica a cada nodo fusionado y asignando una ponderación proporcional a cada ruta fusionada; seleccione Y otros usuarios que comparten las rutas más comunes con el usuario actual, en donde Y es un número entero positivo; y calcule la correlación de la ruta de clic entre el usuario actual y los otros usuarios Y, utilizando el gráfico dirigido ponderado.

Del mismo modo, el peso jerárquico para cada nodo fusionado se puede determinar de acuerdo con una duración promedio de la permanencia del nodo, y el peso proporcional a cada ruta fusionada se puede determinar de acuerdo con un número de páginas vistas respectivas pu. La duración promedio de la estadía se calcula dividiendo la duración total de la estadía del nodo por el número total de páginas vistas del nodo, donde los totales se suman sobre la pluralidad de puntos de datos de flujo de clics.

También se puede programar un módulo para asignar un peso jerárquico a cada nodo fusionado colocando el nodo en uno de la pluralidad de niveles de peso divididos de acuerdo con las longitudes promedio de permanencia de los nodos, y asignando el peso jerárquico al nodo de acuerdo con el nivel de peso al que se coloca el nodo.

En algunas modalidades, cada nodo puede ser un nodo raíz o un nodo hijo, y se puede programar un módulo para generar el árbol de ruta de flujo de clics utilizando la página web actual y la página web de origen haciendo coincidir la página web de origen de un punto de datos de flujo de clics actual con la actual página web de otro punto de datos de flujo de clics que tiene un tiempo de clic anterior al del punto de datos de flujo de clics actual. La coincidencia se realiza de acuerdo con un criterio de coincidencia preestablecido. Si la coincidencia es exitosa, el módulo convierte la página web actual del punto de datos de flujo de clics actual en un nodo secundario de la página web actual del otro punto de datos de flujo de clics coincidente; y si la coincidencia no tiene éxito, el módulo genera un nuevo árbol de ruta de flujo de clics utilizando la página web actual del punto de datos de flujo de clics actual como el nodo raíz del mismo.

En algunas modalidades, el gráfico dirigido ponderado se define por:

donde <ui, Ai> representa la página web ui y su estado de clic del usuario, u es la página web actual visitada por el usuario y Ai es el peso jerárquico de la página web u¡;

y,

donde <u¡, uj, 5¡¡> representa una dirección de ruta de clic del usuario desde la página web uj a la página web u, ui es la página web actual, uj es la página web de origen y 5¡j es el peso proporcional de la dirección de la ruta de clic del usuario respectivo.

En una modalidad, la correlación de la ruta de clic entre el usuario actual y los otros usuarios Y se calcula utilizando la siguiente ecuación:

Z Peso mínimo de las rutas comunes

correlación =

Z Peso de las rutas no comunes Z Peso máximo de las rutas comunes

donde, el peso mínimo de una ruta común es un producto de multiplicación del valor mínimo del peso proporcional de la ruta común * el valor mínimo del peso jerárquico de la página web actual indicada en la ruta común * el valor mínimo del peso jerárquico de la página web fuente indicada en la ruta común; el peso máximo de una ruta común es un producto de multiplicación del valor máximo del peso proporcional de la ruta común * el valor máximo del peso jerárquico de la página web actual indicada en la ruta común * el valor máximo del peso jerárquico del página web de origen indicada en la ruta común; y el peso de una ruta no común es un producto de multiplicación del valor del peso proporcional de la ruta no común * el valor del peso jerárquico de la página web actual indicada en la ruta no común * el valor de la jerarquía peso de la página web fuente indicada en la ruta no común.

En algunas modalidades, cada página web tiene un peso de página, cada etiqueta preestablecida en cada página web tiene un peso original, y el aparato basado en ordenador está programado para calcular el peso integral de la etiqueta preestablecida con base en estos pesos originales usando la ecuación:

donde,

w es el peso integral de la etiqueta preestablecida, ak es el número total de páginas web en las que aparece la etiqueta preestablecida, w, es el peso de una página web i, pu¡ es el número total de visitas a la página web i, y wp¡ es el peso original de la etiqueta preestablecida en la página web i.

El aparato basado en ordenador puede programarse adicionalmente para calcular la correlación del usuario entre el usuario actual y otros X usuarios usando la pregunta:

donde, Sim(ij) es la correlación de usuario entre usuarios i y usuario j, cada usuario está representado por un vector respectivo

o representa una etiqueta preestablecida y

w representa el peso integral de la etiqueta preestablecida particular.

Otras características de la presente descripción y ventajas se expondrán en la siguiente descripción, y en parte serán evidentes a partir de la descripción, o se entenderán por la práctica de la aplicación. Los propósitos de esta aplicación y otras ventajas se pueden obtener mediante la descripción escrita, las reivindicaciones y los dibujos de la estructura particularmente señalada como realizada y lograda.

Breve descripción de las Figuras

La Figura 1 es un diagrama de flujo de bloques de un método descrito para extraer características del usuario con base en el comportamiento del usuario.

La Figura 2 es un diagrama ilustrativo de un árbol de ruta de flujo de clics de la primera sesión de ejemplo (S1) de la descripción.

La Figura 3 es un diagrama ilustrativo de fusión de árboles de ruta de flujo de clics de acuerdo con una segunda sesión de ejemplo (S2) de la descripción.

La Figura 4 es un diagrama ilustrativo de un gráfico dirigido ponderado según la primera sesión de ejemplo (S1) de la descripción.

La Figura 5 es un diagrama ilustrativo de un gráfico dirigido ponderado según una tercera sesión de ejemplo (S3) de la descripción.

La Figura 6 es un diagrama de flujo de bloques de un proceso que realiza recomendaciones personalizadas con base en el comportamiento del usuario.

La Figura 7 es un diagrama de bloques de un sistema para extraer características del usuario con base en el comportamiento del usuario.

La Figura 8 es un diagrama de bloques de un sistema para hacer recomendaciones personalizadas con base en el comportamiento del usuario.

Descripción detallada

Para facilitar la comprensión del propósito, las características y las ventajas anteriores de la presente descripción, la presente descripción se describe con más detalle junto con las figuras adjuntas y las modalidades de ejemplo. En la descripción, el término "técnica(s)", por ejemplo, puede referirse a un método, dispositivo, sistema y/o instrucciones legibles por ordenador de acuerdo con lo permitido por el contexto anterior y a lo largo de la presente descripción.

En esta descripción, el orden en donde se describe un proceso no debe interpretarse como una limitación, y cualquier número de los bloques de proceso descritos se puede combinar en cualquier orden para implementar el método o un método alternativo. Una modalidad se describe en etapas secuenciales solo por la conveniencia de la ilustración. A menos que cause un conflicto, los ejemplos y modalidades descritos en la presente descripción, y las características y características de los mismos, se pueden combinar libremente. Además, no se requieren todas las etapas descritos en las modalidades para practicar las técnicas de esta descripción.

La Figura 1 es un diagrama de flujo de bloques de una modalidad del método para extraer características del usuario con base en el comportamiento del usuario. La modalidad ilustrativa incluye los siguientes actos descritos en bloques.

En el bloque 101, el sistema basado en ordenador se utiliza para obtener datos de flujo de clics de la página web de un usuario actual.

Se debe señalar que los datos de flujo de clics pueden provenir de los registros del sitio web, que se utilizan para registrar los comportamientos de navegación y clics del sitio web del usuario, mientras que los datos de flujo de clics pueden representar una ruta trazada de un usuario que navega por las páginas web. Las páginas web visitadas por un usuario pueden ser de un solo sitio web, pero también pueden ser de diferentes sitios web, como cuando se proporciona un servicio multiplataforma en varios sitios web. Dichas variaciones no están limitadas en la presente descripción.

En aplicaciones específicas, los datos de flujo de clics pueden ser un registro del sitio web de un servidor Apache, que captura datos de flujo de clics originales durante un intervalo o varios intervalos. Los datos del flujo de clics pueden incluir la dirección IP visitada por el usuario, la página de entrada (la página actual que se está visitando), una página de referencia (la página de origen de la página actual), el tiempo de clic de la página actual cuando el usuario visitó, los códigos HTTP, tráfico HTTP, tiempo de respuesta HTTP, características del navegador (o agente de usuario), ID de cookie única del usuario visitante, etc.

Un ejemplo de datos de flujo de clics es el siguiente:

61.18.186.132 — [23/Feb/2013:00:00:03 0800]"GET /search.china.alibaba.com/business/k-300 _ y.htm1HTTP/1.1" 200 20406275420 " /search.china.alibaba.com/business/k-300_sortPromotion-false_n-y.html" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0,50727)" 61.15.72.11.1305814706754.4 "a=; b=mid=wold; c= c_key=300| c_sefilter=0" -

El servidor recopila registros de registro de visitas de usuarios y puede obtener, de vez en cuando (por ejemplo, periódicamente) datos de flujo de clics de los registros de registro. Los intervalos periódicos para obtener datos de flujo de clics pueden ser por hora, por día o incluso en tiempo real, sin restricciones.

Con frecuencia, el usuario que visita un sitio web puede retroceder, cambiar de página, volver a la página de inicio o hacer clic directamente en el enlace de una página. Como resultado, la ruta de visita del usuario puede ser arbitraria y desordenada.

Al obtener los datos del flujo de clics originales de un usuario que visita las páginas web, el sistema puede procesar los datos y generar para cada usuario un flujo de clics estructurado ^ = {V1, V2, ■■■, Vi -, V^n}, donde ^n representa el número total de usuarios actuales, mientras que Vi son los datos del flujo de clics del i-ésimo usuario.

El preprocesamiento puede incluir la limpieza de datos de los datos originales del flujo de clics, como el filtrado de datos confusos y visitas internas dentro de la empresa del sitio web u otros registros generales no válidos.

Los datos estructurados de flujo de clics pueden incluir un identificador de usuario, una página web actual, una página web de origen, un tiempo de clic y la duración de la estadía, etc.

Un ejemplo de estos datos estructurados de flujo de clics es el siguiente:

Se observa que el identificador de usuario puede ser una dirección IP, una ID de cookie y/o un agente, siempre que el identificador de usuario pueda tener el efecto de etiquetar al usuario. Esta descripción no tiene ninguna restricción a este respecto. La página web actual es la página que el usuario visita durante la visita. La página web de origen es la página de origen de donde proviene la visita a la página web actual. Por ejemplo, si un usuario hace clic en el enlace de una página web A y va a la página web B, entonces A es la página web de origen, mientras que B es la página web actual. En una ocasión especial, si el usuario visita una página web ingresando directamente el enlace o la URL de la página web actual a visitar, esta página web actual no tendría una página web de origen, y en este caso la página web de origen es nula.

El tiempo de clic es el momento en que el usuario visitó la página actual. La duración de la estadía es el tiempo que el usuario navega por la página web actual.

En el bloque 102, el sistema calcula una correlación de ruta de clic entre el usuario actual y otros usuarios, utilizando los datos del flujo de clics.

Se observa que una ruta de clic de las páginas web que se visitan es una pista del usuario que navega por las páginas web, y refleja en cierta medida una tendencia o inclinación de comportamiento del usuario. La correlación o similitud representa el grado en que dos usuarios están relacionados. Dos usuarios que tienen un alto grado de correlación tienen una mejor oportunidad de estar interesados en lo mismo o en cosas similares.

En la práctica, los datos de flujo de clics disponibles en el servidor pueden incluir múltiples puntos de datos de flujo de clics, que pueden incluir un identificadorde usuario, una página web actual, una página web de origen, un tiempo de clic y la duración de la estadía, etc.

El bloque 102 puede incluir las siguientes etapas.

La etapa S11 divide los puntos de datos del flujo de clics en una o varias sesiones. La diferencia entre los tiempos de clic de cualquiera de las dos sesiones adyacentes ordenadas secuencialmente por sus respectivos tiempos de clic es menor o igual a un primer umbral de tiempo preestablecido. Específicamente, los puntos de datos de flujo de clics pueden organizarse secuencialmente de acuerdo con el orden de los tiempos de clic respectivos. Si la diferencia entre los tiempos de clic de dos puntos de datos de flujo de clics consecutivos es menor o igual que el primer umbral de tiempo preestablecido, los dos puntos de datos de flujo de clics pueden fusionarse en una sola sesión.

Los datos del flujo de clics después de dividirse en sesiones pueden expresarse como:

donde los datos de flujo de clics del usuario Z se divide en Zn sesiones, l es i-ésima sesión Ambos Zn y i son enteros positivos

En una modalidad preferida, el primer umbral de tiempo preestablecido se establece en 30 min.

En la etapa S12, para cada sesión, el sistema establece un árbol de ruta de flujo de clics utilizando la página web actual y la página web de origen. El árbol de ruta del punto de datos de flujo de clics incluye un nodo y una ruta. El nodo es la página web actual, mientras que la ruta indica una conexión entre la página web actual y su página web de origen. El árbol de ruta de flujo de clics de es una representación de la pista del usuario que visita las páginas web.

En algunas modalidades, el nodo puede ser un nodo raíz o un nodo hijo. En consecuencia, la etapa S12 puede incluir además los siguientes subetapas.

La subetapa S121 hace coincidir la página web de origen del punto de datos de flujo de clics actual con la página web actual de otro punto de datos de flujo de clics que tiene un tiempo de clic anterior al del punto de datos de flujo de clics actual. La coincidencia puede continuar hasta que se cumpla un criterio de coincidencia preestablecido. Si la coincidencia es exitosa, el sistema realiza la subetapa S122; si no tiene éxito, el sistema realiza la subetapa S123.

La coincidencia puede observar dos principios, uno de los cuales requiere que la página de referencia (la página de origen) del punto de datos de flujo de clics actual sea la misma que la página de entrada (la página actual) del punto de datos de flujo de clics anterior.

En la práctica, varios puntos de datos de flujo de clics se ordenan secuencialmente de acuerdo con los tiempos de clic. Comenzando desde el último punto de datos de flujo de clics (que tiene el tiempo de clic más reciente), se hace coincidir los otros puntos de datos de flujo de clics que tengan un tiempo de clic anterior, hasta que la coincidencia llegue al primer punto de datos de flujo de clics de la sesión.

La página web actual y la página web de origen pueden tener la forma de un Localizador de recursos universal de URL), que puede tener varias longitudes. Durante la coincidencia, se pueden generar secuencias características con base en la URL original u otra información de identificación para mejorar la coincidencia y reducir el tamaño del almacenamiento persistente necesario.

Por ejemplo, si la longitud de la URL tiene 16 caracteres o menos, la URL se puede usar para la coincidencia directa. Pero si la longitud de la URL es mayor de 16 caracteres, se puede usar el algoritmo MD5 (Algoritmo de resumen de mensaje 5) para generar una cadena de 16 caracteres, que luego se usa para la coincidencia.

Por ejemplo, según la siguiente URL: http://sale.suning.com/images/advertise/zyn/130722jiuyang/index.html?utm_source=uni on & utm_medium = C & utm_campaign = 1028 & utm_content = 1027.

El algoritmo MD5 se usa para generar la siguiente cadena de 16 caracteres: B11A4C0B627B8FE4.

El método ilustrado anteriormente para generar flujos característicos más cortos es solo para fines ilustrativos. En la práctica, se puede usar cualquier otro método adecuado para lograr un propósito similar. Esta descripción no tiene restricciones a este respecto.

Otro principio de coincidencia es la proximidad en el tiempo, que busca una coincidencia exitosa más cercana en el tiempo entre los dos puntos de datos de flujo de clics coincidentes.

Por ejemplo, en el ejemplo Sesión S1, el usuario visita la página web A, permanece allí durante 5 segundos, hace clic desde la página A en la página B y permanece allí durante 2 segundos, luego hace clic desde la página B en la página C y permanece allí durante 3 segundos, luego hace clic desde la página web C a la página E y permanece allí durante 7 segundos, y luego hace clic desde la página web B a la página D, permanece allí durante 3 segundos, hace clic desde la página web D a la página C y permanece allí durante 1 segundo, y luego hace clic desde la página web C en la página web E, permanece allí durante 5 segundos.

Los datos de flujo de clics anteriores pertenecen a la misma sesión, que se puede expresar de acuerdo con el seguimiento de clics real del usuario como: A ^ B ^ C ® ^ - E ® ^ - D ^ C ® ^ E ® , donde C ® y C ® representan la primera visita y la segunda visita a los sitios web C respectivamente, mientras que E ® y E ® representan la primera visita y la segunda visita al sitio web E, respectivamente.

Usando E ® como la página actual para que coincida hacia arriba, uno encontrará C ® y C ® . Sin embargo, porque el tiempo de clic de C ® es el tiempo más cercano al clic de E ® , C ® se considera una coincidencia exitosa.

La etapa S122 toma la página actual del punto de datos de flujo de clics actual como un nodo hijo de la página actual del nuevo punto de datos de flujo de clics que coincide con éxito. En términos relativos, la página actual del nuevo punto de datos de secuencia de clics con éxito se puede llamar el nodo primario del nodo secundario.

A medida que el nodo primario y el nodo secundario coinciden con éxito, también emerge una ruta que indica la ruta de visita desde una página fuente (nodo primario) a una página actual (nodo secundario).

La etapa S123 genera un nuevo árbol de ruta de flujo de clics utilizando la página web actual del punto de datos de flujo de clics actual como el nodo raíz.

Para otro ejemplo, en el ejemplo Sesión S1, si falla la coincidencia usando el punto de datos del flujo de clics de la página A, el sistema genera un nuevo árbol de ruta de flujo de clics usando la página A como el nodo padre.

En lo anterior, los criterios para la coincidencia en la etapa S121 para detener pueden preestablecerse y pueden incluir las siguientes condiciones:

Condición uno: no hay más coincidencias si el número de coincidencias ha excedido un número de umbral máximo preestablecido. El número de umbral preestablecido puede ser determinado por un técnico de acuerdo con las condiciones y requisitos reales de la aplicación, y esta descripción no tiene ninguna restricción al respecto. En un ejemplo, el número de umbral se establece en 5000, y si el número de coincidencias excede este número, el punto de datos del flujo de clics se considera el resultado de una visita a la máquina, que generalmente se realiza mediante un software especial diseñado para visitar repetidamente un cierto sitio web para aumentar el tráfico de clics, y no se considera normal.

Condición dos: no hay coincidencia si la diferencia entre los tiempos de clic del punto de datos de flujo de clics actual y el nuevo punto de datos de flujo de clics coincidente es mayor que un segundo umbral de tiempo. Este segundo umbral de tiempo se puede usar para determinar si la coincidencia en la etapa S121 debe terminarse.

Del mismo modo, un técnico puede determinar el umbral de segundo tiempo anterior según las condiciones y los requisitos de la aplicación, y no está restringido en esta descripción. En una modalidad preferida, el segundo umbral de tiempo se establece en 30 minutos.

En otra modalidad, el bloque S12 puede incluir las siguientes etapas.

La etapa S124 elimina los nodos aislados, que son árboles de ruta de flujo de clics que contienen un solo nodo. En un nodo aislado, el nodo único es tanto un nodo primario como un nodo secundario.

El árbol de ruta del flujo de clics en una sesión se determina después de que se realiza la coincidencia.

Para la sesión S1, en la Figura 2 se ilustra una representación ejemplar de un árbol de ruta de flujo de clics. Se observa que un árbol de ruta de flujo de clics puede representarse utilizando otros métodos.

Por ejemplo, el árbol de ruta del flujo de clics puede expresarse utilizando la salida transversal de preorden como:

ecuación ®

donde, l representa el árbol de ruta del flujo de clics, que tiene ln nodos; < v¡,p¡,t¡ > es el i-ésima punto de datos de flujo de clics, 1 <i<tn, tn y i son ambos enteros positivos; v es la página web actual, pagsi es la página fuente de v¡, ti los períodos de estadía visitando v¡. En particular, cuando i = 1 el nodo es el nodo raíz del árbol de ruta del flujo de clics l. Debido a que este nodo raíz no tiene una página fuente real (es decir, ningún nodo padre), su página fuente simbólica está representada por"-", es decir, pags1 = "-".

Por ejemplo, en la Sesión S1, la ecuación anterior @ puede expresarse como:

En el tipo de representación anterior, la ruta en el árbol de ruta del flujo de clics no se muestra intuitivamente.

La etapa S13 combina árboles de ruta de flujo de clics. Específicamente, el sistema combina los árboles de ruta de flujo de clics disponibles, configura pesos y construye un modelo de gráfico dirigido ponderado para la ruta de clic del sitio web del usuario.

Cabe señalar que la fusión de árboles de ruta de flujo de clics se puede hacer con respecto a todos los nodos. Los árboles de ruta de flujo de clics que tienen los mismos nodos pueden fusionarse de acuerdo con estos mismos nodos. Para los árboles de ruta de flujo de clics que no comparten un nodo común, la fusión es aún más simple porque no hay que considerar una relación árbol-árbol. Pero este es solo un caso especial de fusión de árboles de ruta de flujo de clics. Por ejemplo, suponga que una Sesión S2 tiene tres árboles de ruta de flujo de clics, específicamente A ^ B ^ C ^ D , A ^ C ^ D y H ^ J , donde AD, H y J representan cada uno una página web diferente, mientras que las flechas representan rutas. Los árboles de ruta A ^ p ^ C ^ D y A ^ C ^ D pueden fusionarse, mientras que H ^ J permanece igual después de la fusión. El resultado de la medida se muestra en la Figura 3.

El análisis estadístico con respecto a los árboles de ruta de flujo de clics se puede hacer desde diferentes aspectos. Por ejemplo, uno puede hacerse con respecto al estado de clic de la página web del usuario, y otro con respecto a las instrucciones de clic de la página web. El primero representa un punto en el gráfico, mientras que el segundo representa un borde en el gráfico.

El estado de clic de la página web del usuario generalmente representa el número de visitas a la página pu de una determinada página web por el usuario o usuarios, y el tiempo promedio de permanencia en la página web. Intuitivamente, el número de visitas a la página pu y la duración de las estancias reflejan el nivel de interés del usuario en la página web. Una mayor pu y una mayor duración de la estadía puede indicar un gran interés por parte del usuario en la página web Las direcciones de clic de la página web se pueden usar para describir una tendencia de clic y sus proporciones. El usuario puede salir después de visitar la página actual o continuar haciendo clic en esta y en otra página. Tal información direccional es generalmente útil.

La etapa S14 asigna un peso jerárquico a cada nodo fusionado. El peso jerárquico para cada nodo combinado se puede determinar de acuerdo con la duración promedio de la permanencia del nodo, que se calcula dividiendo la duración total de la permanencia del nodo por el número total de páginas vistas del nodo, donde se suman los totales La pluralidad de flujos de clics.

La etapa S15 asigna un peso proporcional a cada ruta fusionada. El peso proporcional a cada ruta combinada se determina de acuerdo con sus números de páginas vistas pu, específicamente dividiendo el número total de vistas de página de la página de origen de la página actual en la ruta combinada por el número total de vistas de página de la página actual en la que se hizo clic desde la página de origen.

Por ejemplo, suponga que la ruta combinada tiene una página de origen N y una página actual M. Si el número total de visitas a la página pu de la página de origen N es 10, y el número total de páginas vistas de la página actual M en la que se hizo clic desde la página de origen N es 5, entonces la ruta de clic que indica la página de origen N y la página actual M tiene un peso proporcional de 5/10 = 0,5.

Una página actual puede tener múltiples páginas de origen. Sin embargo, solo puede existir una ruta desde cada página de origen a una página actual. Es decir, cada ruta corresponde a un cierto par de una página actual y una página fuente. La condición de clic del usuario puede describirse como:

U = {*" ,< Uf'PV, ,£ > ,* - *,< Uj, pv, J . >,■■■) ecuación (D

donde ui es la i-ésima página actual, ui e i ambos son enteros positivos, pv es el total de páginas vistas de u iy t es la duración promedio de la estadía de u¡,

y,

pvjt >, ■ ■"} ecuadún (g)

donde, < ui,uj,pvj > representa que se hizo clic en el total de vistas de la página de origen uj a la página actual ui es pvij. Usando la ecuación @, la sesión S1 mencionada anteriormente puede expresarse por:

U = {< uA, 1,5 >,<uB, 1,2 >,<uc,2,2 >,<uD, 1,3 >,<uE,2,6 >}

Usando la ecuación @, la Sesión S1 puede expresarse mediante:

T={< uA,uB, 1 >,< uB,uc, 1 ^{> , < uc ,ue , 2 > , < ud ,uc ,1} ^>}

Teniendo en cuenta que diferentes usuarios tienen diferentes velocidades de lectura, algunas más rápidas y otras más lentas, la duración promedio de la estadía se pondera y clasifica jerárquicamente según el usuario. Por ejemplo, se pueden usar K diferentes rangos jerárquicos (donde Kes un entero positivo). Ejemplos de K son 7 y 13.

En consecuencia, la ecuación @ puede convertirse a:

donde, ui es el i la página web actual, pv es el total de páginas vistas de uy A¡ es ui peso jerárquico

En una modalidad, la etapa S14 anterior puede incluir los siguientes subetapas.

La subetapa S141 clasifica el nodo usando una pluralidad de niveles de peso divididos de acuerdo con la duración promedio de permanencia del nodo.

La subetapa S141 asigna un peso jerárquico a cada nivel de peso.

Por ejemplo, el árbol de ruta de flujo de clics de la sesión S1 anterior se puede dividir en K = 5 niveles de peso, cada uno dado el peso jerárquico de la siguiente manera:

Á1 = 1,02, = 1,01, ^s=1, ^4 = 0,99, ^5 = 0,98.

En la práctica, los puntos de datos de flujo de clics se ordenan secuencialmente con base en su duración promedio de estadía, de la más larga a la más corta, y se dividen por igual en cinco regiones, cada región correspondiente a un nivel de peso. Los sitios web en la primera región tienen un peso jerárquico A1, los sitios web en la segunda región tienen el peso jerárquico Á2, y así.

En este caso, la Sesión S1 puede expresarse usando la ecuación © como:

U ={< uÁ, 1,1.01 >, < nB, 1,0.99 >, < uc, 2,0.99 >, < uD ,!,!>,< uE, 2,1.02 >}

Al configurar pesos proporcionales, se puede tener en cuenta que una página web actual ui tal vez un nodo secundario en el árbol de ruta del flujo de clics, y podría ser visitado directamente. En este caso, Xpv¡ < pv¡. En consecuencia, pvi¡lpv¡ es la proporción de clics que se desvían de u¡ a u, la relación se denota como 5¡¡, específicamente, un peso proporcional, donde pv¡ es el total de páginas vistas de u¡. En este caso, 5i¡ < 1. La situación especial donde i = j indica clics dirigidos desde ui a sí mismo u¡, donde la relación se denota como 5u.

La etapa S16 genera un gráfico dirigido ponderado.

En una modalidad, el estado del clic de una página web puede expresarse combinando la ecuación @ y ecuación © , tener:

ecuación (E

donde, <ui, Ai> es la condición de clic del usuario de la página web u¡ (la página web actual que se visita), A es el peso jerárquico y ui es el i-ésima página actual, Ai es el peso jerárquico de u;

y,

ecuación ©

donde, <u¡, u¡, 5¡¡ > es una ruta de clic de un usuario que hace clic desde la página web u¡ a la página web u¡, ui siendo la página web actual, u¡ la página web de origen, 5i¡ es peso proporcional 5i¡ indica que, de los clics de la página web de origen u¡, una relación de 5i¡ fueron dirigidos a la página web actual u.

El gráfico dirigido a la página web del usuario se puede generar utilizando la ecuación anterior © y ecuación © . Por ejemplo, la sesión S1 anterior se puede expresar usando la ecuación © como:

U ={< uA, 1.01 >,< uB,0.99 >,< uc,0.99 >,< uD, 1 >,< uE, 1.02 >}

La sesión S1 puede expresarse usando la ecuación © como:

T = {< uA, —, 1 >,<ug ,uA, 1 > ,< u c ,uB,0.5 > ,< uD,uB,0.5 > ,< u c ,uD, l> ,< u E,uc , l >}

La Figura 4 muestra un gráfico dirigido a la página web ponderado de la sesión S1 como resultado de las descripciones anteriores. El gráfico dirigido a la página web ponderado tiene tanto pesos jerárquicos como pesos proporcionales configurados.

Como se ilustra arriba, los datos del flujo de clics de un usuario se pueden convertir a un modelo de gráfico dirigido ponderado con base en las descripciones de la ecuación anterior © y ecuación © . Un usuario diferente puede tener un gráfico dirigido ponderado diferente que se convierte a partir de los propios datos de flujo de clics del usuario. Como resultado, la cuestión de calcular la correlación de dos usuarios se convierte en la de calcular la correlación de los gráficos dirigidos ponderados de los mismos usuarios.

En la etapa S17, el sistema selecciona Y otros usuarios que comparten el mayor número de rutas comunes con el usuario actual, donde Y es un número entero positivo. Cuando dos usuarios tienen una ruta que tiene la misma página web actual y la misma página web de origen, se considera que los dos usuarios comparten una ruta común.

En una modalidad, Y = 3N, donde N es un número entero positivo, cuyo significado quedará claro en las descripciones a continuación.

La Figura 5 muestra un gráfico dirigido a la página web ponderado de otra sesión descrita anteriormente, a saber, la sesión S3. Una comparación entre el gráfico dirigido ponderado de la sesión S3 con el de la sesión S1 muestra que los dos gráficos comparten tres rutas comunes: A ^ B , B ^ D y D ^ C .

La etapa S18 usa los gráficos de los usuarios dirigidos a los pesos para calcular las correlaciones de la ruta de visita de la página web entre el usuario actual y los otros usuarios seleccionados descritos anteriormente.

La primera tarea de calcular la correlación de gráficos dirigidos ponderados es encontrar el número de rutas comunes compartidas por los gráficos. Para dos usuarios diferentes, las rutas más comunes que comparten, mayor superposición existe entre sus gráficos dirigidos ponderados, lo que sugiere una mayor correlación entre los dos usuarios. Al mismo tiempo, cuanto más altos sean los pesos de las rutas comunes y sus nodos, mayor será la correlación del usuario.

En una modalidad preferida, la correlación de la ruta de clic entre el usuario actual y los Y usuarios seleccionados se calcula utilizando la siguiente ecuación:

Z Peso mínimo de las rutas comunes

correlación =

Z Peso de las rutas no comunes Z Peso máximo de las rutas comunes

Se debe señalar que una ruta común de dos usuarios puede tener pesos proporcionales diferentes, y la página web actual y la página web fuente de la ruta común de los dos usuarios diferentes también pueden tener pesos jerárquicos diferentes. Al calcular la correlación, los pesos proporcionales y los pesos jerárquicos se toman a su valor nominal, y no es necesario tener en cuenta que un determinado valor pertenece al gráfico dirigido ponderado de cada usuario.

En referencia a la Figura 4 y la Figura 5, la correlación de visitas a la página web entre dos usuarios se calcula de la siguiente manera:

Rutas comunes: A ^ B, B ^ D y D ^ C .

El peso mínimo de las rutas comunes se calcula como: 0,5 * 1 * 0,99 0,5 * 0,99 * 1 0,5 * 1 * 0,99 = 1,485

El peso máximo de las rutas comunes se calcula como: 1 * 1,01 * 0,99 1 * 0,99 * 1,02 1 * 1,02 * 1,01 = 3,05 Rutas no comunes: La Figura 4 tiene B ^ C, C ^ E; mientras que la Figura 5 tiene D ^ A, A ^ C.

El peso de las rutas no comunes en la Figura 4 se calcula como: 0,5 * 0,99 * 0,99 1 * 0,99 * 1,02 = 1,500.

El peso de las rutas no comunes en la Figura 5 se calcula como: 0,5 * 1,02 * 1 0,5 * 1 * 1,01 = 1,015.

Por lo tanto, la correlación entre los gráficos dirigidos ponderados en la Figura 4 y la Figura 5 es la siguiente:

1,485/ (1,500+1,015+3,05) =0,267

El proceso anterior de calcular la correlación de la ruta de visita de la página web es solo para fines ilustrativos. También se pueden usar otros métodos adecuados para calcular la correlación de ruta de acuerdo con las necesidades reales de la aplicación. Ejemplos de tales métodos para calcular después de la relación incluyen el cálculo de la correlación de coseno, el cálculo de la correlación de Pearson, etc. La descripción no impone restricciones a este respecto.

En el bloque 103, el sistema selecciona X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo.

En una modalidad, X = 2N, donde N es un número entero positivo. Usualmente, el número X es más pequeño que el número Y (= 3N en el ejemplo ilustrado arriba), porque los otros usuarios X se seleccionan de los otros usuarios Y preseleccionados.

En el bloque 104, el sistema configura un peso integral en relación con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados.

En la práctica, se puede construir una biblioteca de etiquetas de página web para recopilar las etiquetas de varias páginas web. Cada página web puede tener una o más etiquetas, cada etiqueta preestablecida puede tener su propio peso original.

Una página web puede describirse mediante una lista de etiquetas de la siguiente manera:

ecuacjón @

donde, la lista de etiquetas d tiene un total de 9n etiquetas, a¡ es el i etiqueta th, 1</On, 9n y i son ambos enteros positivos, y wp/ es el peso original de la etiqueta a¡.

Un elemento de etiqueta contiene dos elementos, una etiqueta y un peso de etiqueta. Una etiqueta puede ser un indicador de un tipo de página web, la palabra clave, una clasificación de página web, un ID, etc., donde el tipo de página web puede ser una página de inicio, una página de navegación, la página de búsqueda, la página de inicio de un producto, la página de inicio de una empresa, un producto página de descripción, una página de pedido, una página de inicio de sesión, etc .; y una identificación puede ser una identificación de producto, una identificación de compañía, una categoría de oferta (como cosméticos), etc.

Las etiquetas mencionadas anteriormente son solo ilustrativas. En la práctica, se pueden usar otras etiquetas, siempre que la etiqueta identifique las características de un sitio web. Esta descripción no impone restricciones a este respecto. Tome una página web de comercio electrónico para vender enrutadores, se pueden introducir las siguientes etiquetas: modelo de producto = DIR-616

marca de producto = D-Link

tipo de producto = enrutador

iD del producto = 22540068533

nombre del vendedor = tienda especializada dlink

donde, el lado izquierdo del signo igual es el nombre de la etiqueta, el lado derecho es el contenido de la etiqueta. Como resultado, el sitio web anterior se puede expresar como:

S = {{'DIR -616",l)("D -Link"fi.5frouter"fi3f22540068533",ifdlink specialty store",O.l)} donde, el peso original de la ID del producto y el peso original del modelo del producto son ambos 1, el peso original de la marca del producto es 0,5, el peso original del enrutador del tipo de producto es 0,3, mientras que el peso original del nombre del vendedor es 0,7.

Se entiende que los técnicos pueden determinar los pesos de origen de acuerdo con las condiciones de la aplicación, y esta descripción no impone restricciones a este respecto.

Además, una página web puede tener un peso total de página.

Utilizando ui para representar una página web, esta página web puede estar representada por el peso de la página web y una lista de etiquetas:

donde, w¡ es el peso de la página web u, &¡ es la lista de etiquetas

El peso completo de una etiqueta se calcula utilizando la siguiente pregunta:

donde,

w

es el peso integral de la etiqueta preestablecida, ak es el número total de páginas web en las que aparece la etiqueta preestablecida, w¡

% es el peso de la página de /-ésima página web pu¡ es el total de páginas vistas de la /-ésima página web, y wp¡ es el peso original de la etiqueta preestablecida en el i-ésima página web.

En el bloque 105, el sistema calcula una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos completos.

Ecuación de taponamiento ® en ecuación @ y combinando con la ecuación @ da como resultado un espacio vectorial de peso de etiqueta de dimensión k:

donde k es un entero positivo, a es una etiqueta y

w

es el peso integral de la etiqueta respectiva.

Cada etiqueta es una dimensión en el espacio vectorial de peso de etiqueta de dimensión k. Un usuario en el espacio de vector de peso de etiqueta de dimensión k se representa con un vector que tiene pesos completos como coordenadas de vector en las dimensiones de etiqueta respectivas. El cálculo de la correlación entre usuarios se convierte en el cálculo de una distancia entre los vectores representativos en el espacio vectorial de peso de etiqueta.

En una modalidad, la correlación del usuario entre el usuario actual y los otros X usuarios se calcula con base en las etiquetas preestablecidas y los pesos integrales utilizando la siguiente pregunta:

donde, Sim(ij) es la correlación entre el usuario i y usuario j,

o es una etiqueta y

w es el peso integral de la etiqueta correspondiente.

El ejemplo anterior de calcular la correlación del usuario es solo para fines ilustrativos. También se pueden usar otros métodos adecuados para calcular la correlación del usuario de acuerdo con las necesidades reales de la aplicación. Ejemplos de tales métodos para calcular después de la relación incluyen el cálculo de la correlación de coseno, el cálculo de la correlación de Pearson, etc. La descripción no impone restricciones a este respecto.

La correlación de usuario para extender representa la similitud entre los intereses de diferentes usos. Una mayor correlación del usuario indica un mayor nivel de similitud entre los intereses del usuario.

La presente descripción utiliza datos de flujo de clics para construir un modelo de gráfico dirigido ponderado para las rutas de clic del sitio web del usuario, y convierte el cálculo de la correlación del usuario en el cálculo de una similitud de los gráficos dirigidos ponderados de diferentes usuarios. La presente descripción introduce además la biblioteca de etiquetas de página web para incorporar el cálculo de la correlación del contenido de la etiqueta de página web en la correlación del usuario. El método revelado descubre de manera efectiva los hábitos de clic del usuario y las inclinaciones de comportamiento personalizadas para mejorar la precisión y la eficiencia de la agrupación de usuarios, lo que a su vez mejora la tasa de éxito y la eficiencia de las recomendaciones del usuario.

La configuración de pesos jerárquicos para los nodos en el árbol de ruta del flujo de clics reduce la influencia de los hábitos y la capacidad de lectura de los diferentes usuarios, y aumenta la precisión de la personalización.

La Figura 6 es un diagrama de flujo de bloques de un proceso que realiza recomendaciones personalizadas con base en el comportamiento del usuario. El proceso se describe en los siguientes bloques.

En el bloque 601, el sistema obtiene información del usuario, incluido el identificador de usuario.

En el bloque 602, el sistema selecciona a Z otros usuarios que tienen una similitud de usuario clasificada entre las más altas para el usuario, donde Z es un número entero positivo.

En el bloque 603, el sistema hace una recomendación al usuario basada en la información de los otros Z usuarios seleccionados, donde la similitud del usuario se genera mediante un proceso que se describe a continuación:

obtener datos de flujo de clics de la página web del usuario;

calcular una correlación de ruta de clic entre el usuario y otros usuarios, utilizando los datos del flujo de clics;

seleccionar X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo;

configurar un peso integral en relación con cada una de las etiquetas preestablecidas de páginas web visitadas por los X usuarios seleccionados; y

calcular una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos integrales.

Z es generalmente más pequeño que X. En una modalidad, Z = N, mientras que X = 2N, donde N es un número entero positivo.

La agrupación de usuarios puede preconfigurarse en la información del usuario. Cuando un usuario visita un sitio web, el sistema puede obtener directamente la información de recomendación personalizada del usuario en particular con base en la ID de usuario adquirida, mejorando así la eficiencia del uso de recursos informáticos y la eficiencia de la recomendación personalizada.

Como se describe, el método de acuerdo con la presente descripción primero selecciona Y otros usuarios que comparten el mayor número de rutas comunes con el usuario actual, calcula la correlación de ruta de clic entre el usuario actual y los otros usuarios seleccionados, luego selecciona X usuarios que tienen mayor correlación de ruta de clic con el usuario actual, y luego selecciona los usuarios Z que tienen la mayor correlación de usuario con el usuario actual. La selección está en capas, y cada capa extrae la información más relevante para el cálculo. Este enfoque aumenta la precisión y disminuye la demanda de procesamiento de datos y el uso de recursos computacionales.

En aplicaciones prácticas, se pueden hacer recomendaciones de amigos, recomendaciones de blog, recomendaciones de productos, etc., con base en la información de recomendación disponible para los X usuarios seleccionados que tienen la mayor correlación con el usuario actual.

Un técnico puede establecer las reglas y parámetros, como los distintos umbrales preestablecidos, según las necesidades reales de la aplicación. Por ejemplo, la correlación del usuario puede calcularse de vez en cuando, o periódicamente, y el cálculo puede basarse en la totalidad o en parte de los datos disponibles del flujo de clics. Los datos del flujo de clics de algunos usuarios pueden limitarse a los datos recopilados durante un cierto intervalo de tiempo o múltiples intervalos. La descripción no impone restricciones a este respecto.

En algunas modalidades, el sistema puede tener una lista negra y una lista blanca para registrar aquellos usuarios que actualmente no son de confianza y de confianza. La lista negra y la lista blanca pueden incluir usuarios, blogs o productos recomendados o no recomendados.

El sistema puede recibir comentarios de los usuarios sobre las recomendaciones hechas por el sistema al usuario, y usar los comentarios para ajustar los pesos originales, los pesos del sitio web y/o los pesos jerárquicos.

El método utilizado para extraer dimensiones de características en el espacio de agrupación de usuarios es similar al utilizado para extraer características de comportamiento del usuario, y dicho método no se repite en esta descripción, y puede referirse a las descripciones relevantes en la presente descripción.

Las técnicas descritas anteriormente pueden implementarse con la ayuda de uno o más medios legibles por ordenador que contienen instrucciones ejecutables por ordenador. Las instrucciones ejecutables por ordenador permiten que un procesador de ordenador realice acciones de acuerdo con las técnicas descritas en la presente descripción. Se aprecia que los medios legibles por ordenador pueden ser cualquiera de los dispositivos de memoria adecuados para almacenar datos del ordenador. Dichos dispositivos de memoria incluyen, entre otros, discos duros, dispositivos de memoria flash, almacenamiento de datos ópticos y disquetes. Además, los medios legibles por ordenador que contienen las instrucciones ejecutables por ordenador pueden constar de componentes en un sistema local o componentes distribuidos a través de una red de múltiples sistemas remotos. Los datos de las instrucciones ejecutables por ordenador pueden entregarse en un dispositivo de memoria física tangible o transmitirse electrónicamente. Como se define en la presente descripción, los medios legibles por ordenador no incluyen medios transitorios como señales de datos modulados y ondas portadoras, etc.

En relación con el método descrito aquí, la presente descripción también proporciona un aparato basado en ordenador para implementar el método descrito en la presente descripción.

En la descripción de presencia, un "módulo" en general se refiere a una funcionalidad diseñada para realizar una tarea o función particular. Un módulo puede ser una pieza de hardware, software, un plan o esquema, o una combinación de los mismos, para efectuar un propósito asociado con la tarea o función particular. Además, la delimitación de módulos separados no necesariamente sugiere que se usen dispositivos físicamente separados. En cambio, la delineación puede ser solo funcional, y las funciones de varios módulos pueden ser realizadas por un solo dispositivo o componente combinado. Cuando se usa en un sistema basado en ordenador, los componentes regulares del ordenador, como un procesador, un almacenamiento y una memoria, pueden programarse para funcionar como uno o más módulos para realizar las diversas funciones respectivas.

La Figura 7 es un diagrama esquemático de los bloques de funciones de un sistema de servidor que implementa el método para intercambiar información en comunicaciones interactivas.

El sistema informático del servidor 700 se puede basar en un hardware de teléfono inteligente típico que tiene uno o más procesadores 790, dispositivos de E/S 792, memoria legible por ordenador y medio de almacenamiento 794 que almacena los programas de aplicación 780. El sistema informático del servidor 700 está programado para tener los siguientes módulos funcionales.

Un módulo de adquisición de datos de flujo de clics 701 está programado para obtener datos de flujo de clics de la página web de un usuario actual;

Un módulo de cálculo de correlación de ruta de clic 702 está programado para calcular una correlación de ruta de clic entre el usuario actual y otros usuarios, utilizando los datos de flujo de clics;

Se programa un módulo de selección de usuario 703 para seleccionar X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo;

Un módulo de configuración de peso integral 704 está programado para configurar un peso integral en conexión con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados; y

Un módulo de cálculo de correlación de usuario 705 está programado para calcular una correlación de usuario entre el usuario actual y los otros X usuarios basándose en las etiquetas preestablecidas y los pesos integrales.

En la práctica, los datos de flujo de clics disponibles en el servidor pueden incluir múltiples puntos de datos de flujo de clics, que pueden incluir un identificador de usuario, una página web actual, una página web de origen, un tiempo de clic y la duración de la estadía, etc.

Los módulos están programados para realizar las funciones de los métodos descritos en esta descripción. Además, los módulos anteriores pueden tener submódulos programados para realizar diversas funciones como se describe aquí en el contexto del método descrito. Los detalles de estos módulos y submódulos no se repiten.

Por ejemplo, el módulo de cálculo de correlación de ruta de clic 702 puede incluir los siguientes submódulos.

Un submódulo de división de sesión divide los puntos de datos del flujo de clics en una o varias sesiones. La diferencia entre los tiempos de clic de cualquiera de las dos sesiones adyacentes ordenadas secuencialmente por sus respectivos tiempos de clic es menor o igual a un primer umbral de tiempo preestablecido. Específicamente, los puntos de datos de flujo de clics pueden organizarse secuencialmente de acuerdo con el orden de los tiempos de clic respectivos. Si la diferencia entre los tiempos de clic de dos puntos de datos de flujo de clics consecutivos es menor o igual que el primer umbral de tiempo preestablecido, los dos puntos de datos de flujo de clics pueden fusionarse en una sola sesión.

Un flujo de clics más allá de los tres submódulos establecidos establece, para cada sesión, un árbol de ruta de flujo de clics utilizando la página web actual y la página web de origen. La ruta del punto de datos de flujo de clics libre incluye un nodo y una ruta. El nodo es la página web actual, mientras que la ruta indica una conexión entre la página web actual y su página web de origen.

Un submódulo de combinación de árbol de ruta de flujo de clics combina los árboles de ruta de flujo de clic disponibles, configura pesos y construye un modelo de gráfico dirigido ponderado para la ruta de clic del sitio web del usuario.

Se puede programar un módulo de submódulo de asignación de peso jerárquico para asignar un peso jerárquico a cada nodo fusionado colocando el nodo en uno de la pluralidad de niveles de peso divididos de acuerdo con las longitudes promedio de permanencia de los nodos, y asignando el peso jerárquico al nodo de acuerdo con el nivel de peso al que se coloca el nodo.

Un submódulo de generación de gráfico dirigido ponderado genera un gráfico dirigido ponderado.

Un segundo submódulo de selección selecciona Y otros usuarios que comparten las rutas más comunes con el usuario actual, en donde Y es un número entero positivo.

Un submódulo de cálculo calcula la correlación de la ruta de clic entre el usuario actual y los Y usuarios seleccionados.

En particular, la Figura 8 muestra un diagrama de bloques de un sistema para hacer recomendaciones personalizadas con base en el comportamiento del usuario. El sistema de recomendación 800 puede incluir, entre otros, uno o más procesadores 801, una interfaz de red 802, memoria 803 y una interfaz de entrada/salida (E/S) 804. La memoria 803 puede incluir medios legibles por ordenador como se describió anteriormente. La memoria 803 puede incluir módulos de programa 805 y datos de programa 806. En una modalidad, los módulos de programa 805 pueden incluir un módulo de adquisición de información de usuario 807 programado para adquirir información de usuario que puede incluir un identificador de usuario; un módulo de selección de usuario 808 programado para seleccionar Z otros usuarios que tienen la mayor similitud con el usuario actual, donde Z es un número entero positivo; y un módulo de recomendación 809 programado para hacer recomendaciones personalizadas al usuario actual con base en la información de los otros usuarios Z seleccionados.

La similitud del usuario está determinada por los módulos y submódulos programados, utilizando los métodos descritos en la presente descripción.

Las modalidades anteriores del aparato están estrechamente relacionadas con las modalidades del método descrito en la presente descripción y, por lo tanto, la descripción detallada de las modalidades del método también es aplicable a las modalidades del aparato y no se repite.

La técnica descrita en la presente descripción puede implementarse en un equipo o entorno informático general o un equipo o entorno informático especializado, que incluye, pero no se limita a, ordenadores personales, servidores, dispositivos de mano o dispositivos portátiles, tabletas, sistemas multiprocesador, sistemas basados en microprocesador, decodificadores, dispositivos de consumo programables, PC en red, microordenadores y ordenadores mainframe a gran escala, o cualquier entorno distribuido que incluya uno o más de los ejemplos anteriores.

Los módulos en particular pueden implementarse utilizando módulos de programas informáticos con base en comandos y códigos ejecutables por máquina. Generalmente, un módulo de programa de ordenador puede realizar tareas particulares o implementar tipos de datos abstractos particulares de rutinas, programas, objetos, componentes, estructuras de datos, etc. Las técnicas descritas en la presente descripción también se pueden practicar en entornos informáticos distribuidos, como un entorno informático distribuido, para realizar las tareas mediante dispositivos de procesamiento remotos conectados a través de una red de comunicación. En un ambiente de computación distribuido, los módulos de programa se pueden localizar en un medio de almacenamiento para ordenador remoto y/o local incluyendo un medio de almacenamiento en memoria.

Se describen diversas modalidades de la presente especificación detalles progresivamente aumentados con ejemplos y entornos. Cada modalidad puede enfocar un cierto aspecto de la descripción y, por lo tanto, diferentes modalidades pueden diferir entre sí, pero también pueden compartir partes similares.

Los métodos y aparatos de verificación de información se han descrito en la presente descripción en detalle anteriormente. Se emplean modalidades ejemplares para ilustrar el concepto y la implementación de la presente invención en esta descripción. Las modalidades ejemplares solo se usan para una mejor comprensión del método y los conceptos centrales de la presente descripción. En base a los conceptos en esta descripción, una de las habilidades ordinarias en la técnica puede modificar las modalidades ejemplares y los campos de aplicación.

Claims

REIVINDICACIONES

i. Un método para extraer características del usuario con base en el comportamiento del usuario, el método comprende:

obtener (101) datos de flujo de clics de un usuario actual, los datos de flujo de clics incluyen una pluralidad de puntos de datos de flujo de clics en un sitio web;

dividir la pluralidad de puntos de datos de flujo de clics en el sitio web en múltiples sesiones, una diferencia entre los tiempos de clic de dos puntos de datos consecutivos en una sesión es menor o igual a un umbral de tiempo preestablecido;

calcular (102) una correlación de ruta de clic entre el usuario actual y otros usuarios, usando las sesiones múltiples; seleccionar (103) X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo;

configurar (104) un peso integral en relación con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados; y

calcular (105) una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos integrales.
2. El método como se mencionó en la reivindicación 1, en donde cada punto de datos de flujo de clics incluye un identificador de usuario, una página web actual, una página web de origen, un tiempo de clic y una duración de la estancia, en donde se calcula (102) la correlación de la ruta de clic entre el usuario actual y los otros usuarios comprende:

generar un árbol de ruta de flujo de clics en cada sesión utilizando la página web actual respectiva y su página web de origen, el árbol de ruta de flujo de clics que incluye un nodo y una ruta, siendo el nodo la página web actual y la ruta que indica una conexión entre la página web actual y su página web de origen;

generar un gráfico dirigido ponderado al fusionar los árboles de ruta del flujo de clics, asignar un peso jerárquico a cada nodo combinado y asignar un peso proporcional a cada ruta combinada;

seleccionar Y otros usuarios que comparten las rutas más comunes con el usuario actual, en donde Y es un número entero positivo; y

calcular la correlación de la ruta de clic entre el usuario actual y los otros usuarios Y, utilizando el gráfico dirigido ponderado.
3. El método como se mencionó en la reivindicación 2, en donde el peso jerárquico para cada nodo combinado se determina de acuerdo con una duración promedio de la permanencia del nodo, y el peso proporcional para cada ruta combinada se determina de acuerdo con un número de vista de página respectivo pu, y en donde la duración promedio de la estadía se calcula dividiendo la duración total de la estadía del nodo por un número total de páginas vistas del nodo, los totales se suman sobre la pluralidad de puntos de datos de flujo de clics.
4. El método como se mencionó en la reivindicación 2 o la reivindicación 3, en donde asignar un peso jerárquico a cada nodo combinado comprende:

colocar el nodo en uno de la pluralidad de niveles de peso divididos de acuerdo con las longitudes promedio de permanencia de los nodos; y

asignar el peso jerárquico al nodo de acuerdo con el nivel de peso al que se coloca el nodo.
5. El método como se mencionó en cualquiera de las reivindicaciones 2 a 4, en donde cada nodo puede ser un nodo raíz o un nodo hijo, y generar el árbol de ruta de flujo de clics utilizando la página web actual y la página web fuente comprende:

hacer coincidir la página web de origen de un punto de datos de flujo de clics actual con la página web actual de otro punto de datos de flujo de clics que tiene un tiempo de clic anterior al del punto de datos de flujo de clics actual, de acuerdo con un criterio de coincidencia preestablecido;

si la coincidencia es exitosa, hacer que la página web actual del punto de datos de flujo de clics actual sea un nodo secundario de la página web actual del otro punto de datos de flujo de clics coincidente; y

si la coincidencia no tiene éxito, generar un nuevo árbol de ruta de flujo de clics utilizando la página web actual del punto de datos de flujo de clics actual como el nodo raíz del mismo.
6. El método como se mencionó en cualquiera de las reivindicaciones 2 a 5, en donde el gráfico dirigido ponderado se define por:

donde <ui, A> representa la página web u y su estado de clic del usuario, ui es la página web actual visitada por el usuario y Ai es el peso jerárquico de la página web u;

y,

donde <ui, uj, 5ij> representa una dirección de ruta de clic del usuario desde la página web uj a la página web ui, u¡ es la página web actual, uj es la página web de origen y 5¡j es el peso proporcional de la dirección de la ruta de clic del usuario respectivo.
7. El método como se mencionó en cualquier reivindicación anterior, en donde cada página web tiene un peso de página, cada etiqueta preestablecida en cada página web tiene un peso original, y el peso integral de la etiqueta preestablecida se calcula usando la ecuación:

donde,

W es el peso integral de la etiqueta preestablecida, ok es el número total de páginas web en las que aparece la etiqueta preestablecida, w¡ es el peso de una página web i, pu¡ es el número total de visitas a la página web i, y wpi es el peso original de la etiqueta preestablecida en la página web i.
8. Un método para hacer recomendaciones personalizadas con base en el comportamiento del usuario, el método comprende:

obtener (601) información de usuario que incluye un identificador de usuario;

seleccionar (602) Z a otros usuarios que tienen una similitud de usuarios clasificados entre los más altos para el usuario, donde Z es un número entero positivo; y

hacer (603) una recomendación al usuario basada en la información de los otros Z usuarios seleccionados, en donde la similitud del usuario es generada por un proceso que comprende:

obtener (101) datos de flujo de clics del usuario, los datos de flujo de clics que incluyen una pluralidad de puntos de datos de flujo de clics en un sitio web;

dividir la pluralidad de puntos de datos de flujo de clics en el sitio web en múltiples sesiones, una diferencia entre los tiempos de clic de dos puntos de datos consecutivos en una sesión es menor o igual a un umbral de tiempo preestablecido;

calcular (102) una correlación de ruta de clic entre el usuario y otros usuarios, usando las sesiones múltiples; seleccionar (103) X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo;

configurar (104) un peso integral en relación con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados; y

calcular (105) una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos integrales.
9. Un aparato basado en ordenador (700) para la extracción de características del usuario con base en el comportamiento del usuario, el aparato comprende:

un ordenador (700) que tiene un procesador (790), memoria legible por ordenador y medio de almacenamiento (794) y dispositivos de E/S (792), el ordenador (700) está programado para tener módulos funcionales que incluyen: un módulo de adquisición de datos de flujo de clics (701) para obtener (101) datos de la página web de un usuario actual y dividir la pluralidad de puntos de datos de flujo de clics en el sitio web en varias sesiones, siendo menor la diferencia entre los tiempos de clic de dos puntos de datos consecutivos en una sesión que o igual a un umbral de tiempo preestablecido, los datos de flujo de clics que incluyen una pluralidad de puntos de datos de flujo de clics en un sitio web;

un módulo de cálculo de correlación de ruta de clic (702) para computación (102) una correlación de ruta de clic entre el usuario actual y otros usuarios, usando las sesiones múltiples;

un primer módulo de selección (703) para seleccionar (103) X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un entero positivo;

un módulo de configuración de peso completo (704) para configurar (104) un peso completo en conexión con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados; y un módulo de cálculo de correlación de usuario (705) para calcular (105) una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos integrales.
10. El aparato basado en ordenador (700) como se menciona en la reivindicación 9, en donde cada punto de datos de flujo de clics incluye un identificador de usuario, una página web actual, una página web de origen, un tiempo de clic y una duración de la estadía, en donde computar (102) la correlación de la ruta de clic entre el usuario actual y los otros usuarios comprende:

generar un árbol de ruta de flujo de clics en cada sesión utilizando la página web actual respectiva y su página web de origen, el árbol de ruta de flujo de clics que incluye un nodo y una ruta, siendo el nodo la página web actual y la ruta que indica una conexión entre la página web actual y su página web de origen;

generar un gráfico dirigido ponderado al fusionar los árboles de ruta del flujo de clics, asignar un peso jerárquico a cada nodo combinado y asignar un peso proporcional a cada ruta combinada;

seleccionar Y otros usuarios que comparten las rutas más comunes con el usuario actual, en donde Y es un número entero positivo; y

calcular la correlación de la ruta de clic entre el usuario actual y los otros usuarios Y, utilizando el gráfico dirigido ponderado.
11. El aparato basado en ordenador (700) como se mencionó en la reivindicación 10, en donde el peso jerárquico para cada nodo combinado se determina de acuerdo con una longitud promedio de permanencia del nodo, y el peso proporcional para cada ruta combinada se determina de acuerdo con una vista de página respectiva número pu, y en donde la duración promedio de la estadía se calcula dividiendo la duración total de la estadía del nodo por un número total de páginas vistas del nodo, los totales se suman sobre la pluralidad de puntos de datos de flujo de clics.
12. El aparato basado en ordenador (700) como se mencionó en la reivindicación 10 o la reivindicación 11, en donde asignar un peso jerárquico a cada nodo fusionado comprende:

colocar el nodo en uno de una pluralidad de niveles de peso divididos de acuerdo con la duración promedio de permanencia de los nodos; y

asignar el peso jerárquico al nodo de acuerdo con el nivel de peso al que se coloca el nodo.
13. El aparato basado en ordenador (700) como se mencionó en cualquiera de las reivindicaciones 10 a 12, en donde cada nodo puede ser un nodo raíz o un nodo hijo, y generar el árbol de ruta de flujo de clics usando la página web actual y la página web fuente comprende:

hacer coincidir la página web de origen de un punto de datos de flujo de clics actual de la pluralidad de puntos de datos de flujo de clics con la página web actual de otro punto de datos de flujo de clics de la pluralidad de puntos de datos de flujo de clics que tienen un tiempo de clic anterior al del punto de datos de flujo de clics actual, de acuerdo con un criterio de coincidencia preestablecido;

si la coincidencia es exitosa, hacer que la página web actual del punto de datos de flujo de clics actual sea un nodo secundario de la página web actual del otro punto de datos de flujo de clics coincidente; y

si la coincidencia no tiene éxito, generar un nuevo árbol de ruta de flujo de clics utilizando la página web actual del punto de datos de flujo de clics actual como el nodo raíz del mismo.
14. El aparato basado en ordenador (700) como se mencionó en cualquiera de las reivindicaciones 10 a 13, en donde el gráfico dirigido ponderado se define por:

donde <u, A¡> representa la página web ui y su estado de clic del usuario, ui ser la página web actual visitada por el usuario, y Á¡ el peso jerárquico de la página web u¡;

y,

donde <ui, uj, 5ij> representa una dirección de ruta de clic del usuario desde la página web uj a la página web u, ui es la página web actual, uj es la página web de origen y 5¡¡ es el peso proporcional de la dirección de la ruta de clic del usuario respectivo.
15. El aparato basado en ordenador (700) como se mencionó en cualquiera de las reivindicaciones 9 a 14, en donde cada página web tiene un peso de página, cada etiqueta preestablecida en cada página web tiene un peso original, y el peso integral de la etiqueta preestablecida se calcula usando el ecuación:

donde,

W es el peso integral de la etiqueta preestablecida, ok es el número total de páginas web en las que aparece la etiqueta preestablecida, w, es el peso de una página web i, pui es el número total de visitas a la página web i, y wp¡ es el peso original de la etiqueta preestablecida en la página web i.