ES2811704T3 - Método y sistema para extraer funciones de comportamiento del usuario para personalizar recomendaciones - Google Patents
Método y sistema para extraer funciones de comportamiento del usuario para personalizar recomendaciones Download PDFInfo
- Publication number
- ES2811704T3 ES2811704T3 ES14790816T ES14790816T ES2811704T3 ES 2811704 T3 ES2811704 T3 ES 2811704T3 ES 14790816 T ES14790816 T ES 14790816T ES 14790816 T ES14790816 T ES 14790816T ES 2811704 T3 ES2811704 T3 ES 2811704T3
- Authority
- ES
- Spain
- Prior art keywords
- web page
- user
- current
- click
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Un método para extraer características del usuario con base en el comportamiento del usuario, el método comprende: obtener (101) datos de flujo de clics de un usuario actual, los datos de flujo de clics incluyen una pluralidad de puntos de datos de flujo de clics en un sitio web; dividir la pluralidad de puntos de datos de flujo de clics en el sitio web en múltiples sesiones, una diferencia entre los tiempos de clic de dos puntos de datos consecutivos en una sesión es menor o igual a un umbral de tiempo preestablecido; calcular (102) una correlación de ruta de clic entre el usuario actual y otros usuarios, usando las sesiones múltiples; seleccionar (103) X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo; configurar (104) un peso integral en relación con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados; y calcular (105) una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos integrales.
Description
DESCRIPCIÓN
Método y sistema para extraer funciones de comportamiento del usuario para personalizar recomendaciones
Campo técnico:
La presente solicitud se refiere al procesamiento de datos y, más particularmente, a la extracción de características de comportamiento del usuario y a la modalidad de recomendaciones personalizadas con base en los comportamientos del usuario.
Antecedentes de la invención
El rápido desarrollo de Internet ha llevado a las personas a la era de la sociedad de la información y la economía de red, y ha tenido una profunda influencia tanto en el desarrollo empresarial como en la vida personal. Al mismo tiempo, sin embargo, una cantidad excesiva de información dificulta que las personas obtengan eficientemente lo que necesitan, reduciendo la eficiencia de la utilización de la información.
El comercio electrónico, por ejemplo, es un nuevo modelo de negocio en un entorno de red abierto, y ofrece aplicaciones con base en navegador/servidor para permitir compras en línea, transacciones en línea entre comerciantes y pagos electrónicos en línea. Con el desarrollo explosivo de Internet, el comercio electrónico está cada vez más extendido. Sin embargo, debido al desarrollo de la cadena de suministro y la logística, los tipos y cantidades de productos en Internet son tan grandes que aumentan enormemente el costo de tiempo de las compras de los consumidores y reducen la tasa de conversión de ventas de las plataformas de comercio electrónico. Claramente, los consumidores no quieren pasar demasiado tiempo buscando en Internet mercancías infinitas. Además, las compras en línea no permiten a los compradores verificar la calidad de los productos, como en la vida real. Los compradores desean un sistema de recomendación automático que pueda hacer sugerencias de acuerdo con sus propios intereses y satisfacción. Dirigirse a recomendaciones personales de acuerdo con los diferentes perfiles de usuario o agrupando a los usuarios en diferentes grupos de usuarios, es una de las aplicaciones de tendencias actuales.
En la técnica anterior, la agrupación de usuarios se basa en una secuencia de visitas a la página web desde rutas de acceso de usuario o palabras clave de búsqueda de usuario. Debido a que el acceso del usuario generalmente se repite e interrumpe, la ruta de clic de cada visitante no puede ser exactamente la misma cada vez. Como resultado, la tecnología existente no puede equilibrar las diferencias causadas por las visitas de múltiples usuarios, lo que resulta en un efecto de agrupación de usuarios deficiente y un servicio ineficiente.
Por lo tanto, actualmente existe una necesidad apremiante de resolver el siguiente problema técnico: proporcionar recomendaciones de servicio personalizadas, que pueden medir con precisión la correlación entre los usuarios para formar un grupo de usuarios efectivo y preciso, y proporcionar servicios específicos con mayor eficiencia.
El documento de los Estados Unidos 2013/198030 (A1) describe diversos procesos para descubrir las relaciones entre los artículos en particular, como los productos representados en un catálogo electrónico, con base en los comportamientos supervisados del usuario (por ejemplo, actividades de visualización de artículos, compras de artículos, actividades de carrito de compras, etc.). Las relaciones de elementos descubiertos pueden usarse para generar recomendaciones de elementos personalizadas para los usuarios y/o para complementar las páginas de detalles de elementos de un catálogo electrónico con listas de elementos relacionados. También se describen procesos para generar recomendaciones personalizadas de artículos con base en las actividades de búsqueda de los usuarios y visitas de nodos de navegación.
El documento US 2010/0131835 (A1) describe un sistema para inferir la intención de los visitantes de un sitio web que tiene una aplicación de seguimiento de visitantes que se ejecuta desde un medio digital acoplado a un servidor que aloja el sitio web, el servidor conectado a un repositorio adaptado para almacenar datos sobre el comportamiento del visitante y un motor de inferencia para procesar los datos para inferir la intención de los visitantes. Se realiza un seguimiento del comportamiento del visitante con relación a los enlaces, y la intención de un visitante se infiere de uno o ambos, o de una combinación de análisis del comportamiento y de deducir el significado del texto de anclaje de los enlaces seleccionados.
Resumen
Este resumen se proporciona para introducir una selección de conceptos en forma simplificada que se describe en más detalle más abajo en la Descripción Detallada. Este resumen no pretende identificar todas las características clave o características esenciales del tema reivindicado, ni está destinado a ser utilizado solo como ayuda para determinar el alcance del tema reivindicado.
La presente descripción está definida por las reivindicaciones independientes. Otras modalidades se definen mediante las reivindicaciones dependientes. Una modalidad proporciona un método y un aparato para extraer características del usuario con base en el comportamiento del usuario. El método utiliza un sistema informático para obtener datos de flujo de clics de la página web de un usuario actual, calcular una correlación de ruta de clic entre el usuario actual y otros usuarios que usan los datos de flujo de clic y seleccionar X otros usuarios cuya correlación de ruta de clic con el usuario
actual se encuentre entre los más altos, donde X es un entero positivo. El método configura un peso integral en relación con cada una de las etiquetas preestablecidas de las páginas web visitadas por los otros X usuarios seleccionados, y calcula una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos completos
En algunas modalidades, el método se caracteriza además porque los datos de flujo de clics tienen una pluralidad de puntos de datos de flujo de clics, cada punto de datos de flujo de clics incluye un identificador de usuario, una página web actual, una página web de origen, un tiempo de clic y una duración de la estadía. Para calcular la correlación de la ruta de clic entre el usuario actual y los otros usuarios, el método divide la pluralidad de puntos de datos de flujo de clics en una o más sesiones, en donde la diferencia entre los tiempos de clic de cualquiera de las dos sesiones adyacentes ordenadas secuencialmente por sus respectivos tiempos de clic es menor que o igual a un primer umbral de tiempo preestablecido, y genera un árbol de ruta de flujo de clics en cada sesión utilizando la página web actual respectiva y su página web de origen. El árbol de ruta de flujo de clics incluye un nodo y una ruta, donde el nodo es la página web actual, y la ruta indica una conexión entre la página web actual y su página web de origen. Luego, el método genera un gráfico dirigido ponderado mediante la fusión de los árboles de ruta de flujo de clics, asignando un peso jerárquico a cada nodo combinado y asignando un peso proporcional a cada ruta combinada, selecciona Y otros usuarios que comparten las rutas más comunes con el usuario actual, en donde Y es un número entero positivo y calcula la correlación de la ruta de clic entre el usuario actual y los otros usuarios de Y, utilizando el gráfico dirigido ponderado.
El peso jerárquico para cada nodo fusionado se puede determinar de acuerdo con la duración promedio de la permanencia del nodo, mientras que el peso proporcional a cada ruta fusionada se puede determinar de acuerdo con un número de páginas vistas respectivas pu. La duración promedio de la estadía se calcula dividiendo la duración total de la estadía del nodo por el número total de páginas vistas del nodo, donde los totales se suman sobre la pluralidad de puntos de datos de flujo de clics.
La asignación de un peso jerárquico a cada nodo fusionado se puede hacer colocando el nodo en uno de la pluralidad de niveles de peso divididos de acuerdo con las longitudes promedio de permanencia de los nodos, y asignando el peso jerárquico al nodo de acuerdo con el nivel de peso para que se coloca el nodo.
Cada nodo puede ser un nodo raíz o un nodo secundario, y la generación del árbol de ruta del flujo de clics utilizando la página web actual y la página web de origen se puede hacer haciendo coincidir la página web de origen de un punto de datos de flujo de clics actual de la pluralidad de puntos de datos de flujo de clics con el actual página web de otro punto de datos de flujo de clics de la pluralidad de puntos de datos de flujo de clics que tienen un tiempo de clic anterior al del punto de datos de flujo de clics actual, de acuerdo con un criterio de coincidencia preestablecido. Si la coincidencia es exitosa, el método hace que la página web actual del punto de datos de flujo de clics actual sea un nodo secundario de la página web actual del otro punto de datos de flujo de clics coincidente. Si la coincidencia no tiene éxito, el método genera un nuevo árbol de ruta de flujo de clics utilizando la página web actual del punto de datos de flujo de clics actual como el nodo raíz del mismo.
El criterio de coincidencia preestablecido puede incluir una coincidencia máxima preestablecida y/o una diferencia máxima preestablecida entre los tiempos de clic del punto de datos de flujo de clics actual y el punto de datos de flujo de clics correspondiente.
En una modalidad, el gráfico dirigido ponderado se define por:
donde <u¡, A> representa la página web ui y su estado de clic del usuario, u es la página web actual visitada por el usuario y Ai es el peso jerárquico de la página web u; y,
donde <ui, uj, 5ij> representa una dirección de ruta de clic del usuario desde la página web uj a la página web uj, ui es la página web actual, uj es la página web de origen y 5ij es el peso proporcional de la dirección de la ruta de clic del usuario respectivo.
La correlación de la ruta de clic entre el usuario actual y los otros usuarios Y puede calcularse utilizando la siguiente ecuación:
Z Peso mínimo de las rutas comunes
correlación = ------ ;—;-------------------------------- — --------- — -----:—;--------------------------Z Peso de las rutas no comunes Z Peso máximo de las rutas comunes
donde, el peso mínimo de una ruta común es un producto de multiplicación del valor mínimo del peso proporcional de la ruta común x el valor mínimo del peso jerárquico de la página web actual indicada en la ruta común x el valor mínimo del peso jerárquico de la página web fuente indicada en la ruta común; el peso máximo de una ruta común es un producto de multiplicación del valor máximo del peso proporcional de la ruta común x el valor máximo del peso jerárquico de la página web actual indicada en la ruta común x el valor máximo del peso jerárquico del página web de origen indicada en la ruta común; y el peso de una ruta no común es un producto de multiplicación del valor del peso proporcional de la ruta no común x el valor del peso jerárquico de la página web actual indicada en la ruta no común x el valor de la jerarquía peso de la página web fuente indicada en la ruta no común.
Cada página web tiene un peso de página, cada etiqueta preestablecida en cada página web tiene un peso original y, con base en estos pesos originales, el peso completo de la etiqueta preestablecida se puede calcular utilizando la ecuación:
donde,
w es el peso integral de la etiqueta preestablecida, akes el número total de páginas web en las que aparece la etiqueta preestablecida, w¡ es el peso de una página web i, pu¡ es el número total de visitas a la página web i, wp¡ es el peso original de la etiqueta preestablecida en la página web i.
Además, la correlación de usuario entre el usuario actual y X otros usuarios se puede calcular utilizando la pregunta:
donde, Sim (i,j) es la correlación de usuario entre usuarios i y usuario j, cada usuario está representado por un vector respectivo
T = {(<7, ), (cr2, w2 ),•••, { ( J k , w k )} 5
a representa una etiqueta preestablecida y
w representa el peso integral de la etiqueta preestablecida particular.
Otro aspecto de la descripción es un método para hacer recomendaciones personalizadas con base en el comportamiento del usuario. El método obtiene información del usuario, incluido el identificador de usuario, y selecciona a Z otros usuarios que tienen una similitud de usuario con el usuario clasificado entre los más altos, donde Z es un número entero positivo. El método hace una recomendación al usuario basada en la información de los otros Z usuarios seleccionados. La similitud del usuario se calcula mediante un proceso que se describe en los métodos anteriores, que incluye la obtención de datos de flujo de clic de la página web del usuario; calcular una correlación de ruta de clic entre el usuario y otros usuarios, utilizando los datos del flujo de clics; seleccionando X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo; configurar un peso integral en relación con cada una de las etiquetas preestablecidas de páginas web visitadas por los X usuarios seleccionados; y calcular una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos integrales.
Otro aspecto más de la descripción es un aparato informático para la extracción de características del usuario con base en el comportamiento del usuario. El aparato incluye un ordenador que tiene un procesador, memoria legible por ordenador y medio de almacenamiento (como medios legibles por ordenador) y dispositivos de E/S, donde el ordenador está programado para tener módulos funcionales que incluyen:
un módulo de adquisición de datos de flujo de clics para obtener datos de flujo de clics de la página web de un usuario actual;
un módulo de cálculo de correlación de ruta de clic para calcular una correlación de ruta de clic entre el usuario actual y otros usuarios, utilizando los datos de flujo de clics;
un primer módulo de selección para seleccionar X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo;
un módulo de configuración de peso completo para configurar un peso completo en conexión con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados; y
un módulo de cálculo de correlación de usuario para calcular una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos completos.
En algunas modalidades, el aparato informático se caracteriza además porque los datos de flujo de clics tienen una pluralidad de puntos de datos de flujo de clics, cada punto de datos de flujo de clics incluye un identificador de usuario, una página web actual, una página web de origen, un tiempo de clic y una duración de la estadía, en donde la correlación de la ruta de clic entre el usuario actual y los otros usuarios se calculó utilizando un método descrito en la presente descripción. Por ejemplo, el aparato basado en ordenador puede dividir la pluralidad de puntos de datos de flujo de clics en una o más sesiones, en donde la diferencia entre los tiempos de clic de cualquiera de las dos sesiones adyacentes ordenadas secuencialmente por sus respectivos tiempos de clic es menor o igual a un primer preajuste umbral de tiempo; generar un árbol de ruta de flujo de clics en cada sesión utilizando la página web actual respectiva y su página web de origen, donde el árbol de ruta de flujo de clics incluye un nodo y una ruta, siendo el nodo la página web actual, y la ruta indica una conexión entre la página web actual y su fuente página web; generar un gráfico dirigido ponderado fusionando los árboles de ruta del flujo de clics, asignando una ponderación jerárquica a cada nodo fusionado y asignando una ponderación proporcional a cada ruta fusionada; seleccione Y otros usuarios que comparten las rutas más comunes con el usuario actual, en donde Y es un número entero positivo; y calcule la correlación de la ruta de clic entre el usuario actual y los otros usuarios Y, utilizando el gráfico dirigido ponderado.
Del mismo modo, el peso jerárquico para cada nodo fusionado se puede determinar de acuerdo con una duración promedio de la permanencia del nodo, y el peso proporcional a cada ruta fusionada se puede determinar de acuerdo con un número de páginas vistas respectivas pu. La duración promedio de la estadía se calcula dividiendo la duración total de la estadía del nodo por el número total de páginas vistas del nodo, donde los totales se suman sobre la pluralidad de puntos de datos de flujo de clics.
También se puede programar un módulo para asignar un peso jerárquico a cada nodo fusionado colocando el nodo en uno de la pluralidad de niveles de peso divididos de acuerdo con las longitudes promedio de permanencia de los nodos, y asignando el peso jerárquico al nodo de acuerdo con el nivel de peso al que se coloca el nodo.
En algunas modalidades, cada nodo puede ser un nodo raíz o un nodo hijo, y se puede programar un módulo para generar el árbol de ruta de flujo de clics utilizando la página web actual y la página web de origen haciendo coincidir la página web de origen de un punto de datos de flujo de clics actual con la actual página web de otro punto de datos de flujo de clics que tiene un tiempo de clic anterior al del punto de datos de flujo de clics actual. La coincidencia se realiza de acuerdo con un criterio de coincidencia preestablecido. Si la coincidencia es exitosa, el módulo convierte la página web actual del punto de datos de flujo de clics actual en un nodo secundario de la página web actual del otro punto de datos de flujo de clics coincidente; y si la coincidencia no tiene éxito, el módulo genera un nuevo árbol de ruta de flujo de clics utilizando la página web actual del punto de datos de flujo de clics actual como el nodo raíz del mismo.
En algunas modalidades, el gráfico dirigido ponderado se define por:
donde <ui, Ai> representa la página web ui y su estado de clic del usuario, u es la página web actual visitada por el usuario y Ai es el peso jerárquico de la página web u¡;
y,
donde <u¡, uj, 5¡¡> representa una dirección de ruta de clic del usuario desde la página web uj a la página web u, ui es la página web actual, uj es la página web de origen y 5¡j es el peso proporcional de la dirección de la ruta de clic del usuario respectivo.
En una modalidad, la correlación de la ruta de clic entre el usuario actual y los otros usuarios Y se calcula utilizando la siguiente ecuación:
Z Peso mínimo de las rutas comunes
correlación =
Z Peso de las rutas no comunes Z Peso máximo de las rutas comunes
donde, el peso mínimo de una ruta común es un producto de multiplicación del valor mínimo del peso proporcional de la ruta común * el valor mínimo del peso jerárquico de la página web actual indicada en la ruta común * el valor mínimo del peso jerárquico de la página web fuente indicada en la ruta común; el peso máximo de una ruta común es un producto de multiplicación del valor máximo del peso proporcional de la ruta común * el valor máximo del peso jerárquico de la página web actual indicada en la ruta común * el valor máximo del peso jerárquico del página web de origen indicada en la ruta común; y el peso de una ruta no común es un producto de multiplicación del valor del peso proporcional de la ruta no común * el valor del peso jerárquico de la página web actual indicada en la ruta no común * el valor de la jerarquía peso de la página web fuente indicada en la ruta no común.
En algunas modalidades, cada página web tiene un peso de página, cada etiqueta preestablecida en cada página web tiene un peso original, y el aparato basado en ordenador está programado para calcular el peso integral de la etiqueta preestablecida con base en estos pesos originales usando la ecuación:
donde,
w es el peso integral de la etiqueta preestablecida, ak es el número total de páginas web en las que aparece la etiqueta preestablecida, w, es el peso de una página web i, pu¡ es el número total de visitas a la página web i, y wp¡ es el peso original de la etiqueta preestablecida en la página web i.
El aparato basado en ordenador puede programarse adicionalmente para calcular la correlación del usuario entre el usuario actual y otros X usuarios usando la pregunta:
donde, Sim(ij) es la correlación de usuario entre usuarios i y usuario j, cada usuario está representado por un vector respectivo
o representa una etiqueta preestablecida y
w representa el peso integral de la etiqueta preestablecida particular.
Otras características de la presente descripción y ventajas se expondrán en la siguiente descripción, y en parte serán evidentes a partir de la descripción, o se entenderán por la práctica de la aplicación. Los propósitos de esta aplicación y otras ventajas se pueden obtener mediante la descripción escrita, las reivindicaciones y los dibujos de la estructura particularmente señalada como realizada y lograda.
Breve descripción de las Figuras
La Figura 1 es un diagrama de flujo de bloques de un método descrito para extraer características del usuario con base en el comportamiento del usuario.
La Figura 2 es un diagrama ilustrativo de un árbol de ruta de flujo de clics de la primera sesión de ejemplo (S1) de la descripción.
La Figura 3 es un diagrama ilustrativo de fusión de árboles de ruta de flujo de clics de acuerdo con una segunda sesión de ejemplo (S2) de la descripción.
La Figura 4 es un diagrama ilustrativo de un gráfico dirigido ponderado según la primera sesión de ejemplo (S1) de la descripción.
La Figura 5 es un diagrama ilustrativo de un gráfico dirigido ponderado según una tercera sesión de ejemplo (S3) de la descripción.
La Figura 6 es un diagrama de flujo de bloques de un proceso que realiza recomendaciones personalizadas con base en el comportamiento del usuario.
La Figura 7 es un diagrama de bloques de un sistema para extraer características del usuario con base en el comportamiento del usuario.
La Figura 8 es un diagrama de bloques de un sistema para hacer recomendaciones personalizadas con base en el comportamiento del usuario.
Descripción detallada
Para facilitar la comprensión del propósito, las características y las ventajas anteriores de la presente descripción, la presente descripción se describe con más detalle junto con las figuras adjuntas y las modalidades de ejemplo. En la descripción, el término "técnica(s)", por ejemplo, puede referirse a un método, dispositivo, sistema y/o instrucciones legibles por ordenador de acuerdo con lo permitido por el contexto anterior y a lo largo de la presente descripción.
En esta descripción, el orden en donde se describe un proceso no debe interpretarse como una limitación, y cualquier número de los bloques de proceso descritos se puede combinar en cualquier orden para implementar el método o un método alternativo. Una modalidad se describe en etapas secuenciales solo por la conveniencia de la ilustración. A menos que cause un conflicto, los ejemplos y modalidades descritos en la presente descripción, y las características y características de los mismos, se pueden combinar libremente. Además, no se requieren todas las etapas descritos en las modalidades para practicar las técnicas de esta descripción.
La Figura 1 es un diagrama de flujo de bloques de una modalidad del método para extraer características del usuario con base en el comportamiento del usuario. La modalidad ilustrativa incluye los siguientes actos descritos en bloques.
En el bloque 101, el sistema basado en ordenador se utiliza para obtener datos de flujo de clics de la página web de un usuario actual.
Se debe señalar que los datos de flujo de clics pueden provenir de los registros del sitio web, que se utilizan para registrar los comportamientos de navegación y clics del sitio web del usuario, mientras que los datos de flujo de clics pueden representar una ruta trazada de un usuario que navega por las páginas web. Las páginas web visitadas por un usuario pueden ser de un solo sitio web, pero también pueden ser de diferentes sitios web, como cuando se proporciona un servicio multiplataforma en varios sitios web. Dichas variaciones no están limitadas en la presente descripción.
En aplicaciones específicas, los datos de flujo de clics pueden ser un registro del sitio web de un servidor Apache, que captura datos de flujo de clics originales durante un intervalo o varios intervalos. Los datos del flujo de clics pueden incluir la dirección IP visitada por el usuario, la página de entrada (la página actual que se está visitando), una página de referencia (la página de origen de la página actual), el tiempo de clic de la página actual cuando el usuario visitó, los códigos HTTP, tráfico HTTP, tiempo de respuesta HTTP, características del navegador (o agente de usuario), ID de cookie única del usuario visitante, etc.
Un ejemplo de datos de flujo de clics es el siguiente:
61.18.186.132 — [23/Feb/2013:00:00:03 0800]"GET /search.china.alibaba.com/business/k-300 _ y.htm1HTTP/1.1" 200 20406275420 " /search.china.alibaba.com/business/k-300_sortPromotion-false_n-y.html" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0,50727)" 61.15.72.11.1305814706754.4 "a=; b=mid=wold; c= c_key=300| c_sefilter=0" -
El servidor recopila registros de registro de visitas de usuarios y puede obtener, de vez en cuando (por ejemplo, periódicamente) datos de flujo de clics de los registros de registro. Los intervalos periódicos para obtener datos de flujo de clics pueden ser por hora, por día o incluso en tiempo real, sin restricciones.
Con frecuencia, el usuario que visita un sitio web puede retroceder, cambiar de página, volver a la página de inicio o hacer clic directamente en el enlace de una página. Como resultado, la ruta de visita del usuario puede ser arbitraria y desordenada.
Al obtener los datos del flujo de clics originales de un usuario que visita las páginas web, el sistema puede procesar los datos y generar para cada usuario un flujo de clics estructurado ^ = {V1, V2, ■■■, Vi -, V^n}, donde ^n representa el número total de usuarios actuales, mientras que Vi son los datos del flujo de clics del i-ésimo usuario.
El preprocesamiento puede incluir la limpieza de datos de los datos originales del flujo de clics, como el filtrado de datos confusos y visitas internas dentro de la empresa del sitio web u otros registros generales no válidos.
Los datos estructurados de flujo de clics pueden incluir un identificador de usuario, una página web actual, una página web de origen, un tiempo de clic y la duración de la estadía, etc.
Un ejemplo de estos datos estructurados de flujo de clics es el siguiente:
Se observa que el identificador de usuario puede ser una dirección IP, una ID de cookie y/o un agente, siempre que el identificador de usuario pueda tener el efecto de etiquetar al usuario. Esta descripción no tiene ninguna restricción a este respecto. La página web actual es la página que el usuario visita durante la visita. La página web de origen es la página
de origen de donde proviene la visita a la página web actual. Por ejemplo, si un usuario hace clic en el enlace de una página web A y va a la página web B, entonces A es la página web de origen, mientras que B es la página web actual. En una ocasión especial, si el usuario visita una página web ingresando directamente el enlace o la URL de la página web actual a visitar, esta página web actual no tendría una página web de origen, y en este caso la página web de origen es nula.
El tiempo de clic es el momento en que el usuario visitó la página actual. La duración de la estadía es el tiempo que el usuario navega por la página web actual.
En el bloque 102, el sistema calcula una correlación de ruta de clic entre el usuario actual y otros usuarios, utilizando los datos del flujo de clics.
Se observa que una ruta de clic de las páginas web que se visitan es una pista del usuario que navega por las páginas web, y refleja en cierta medida una tendencia o inclinación de comportamiento del usuario. La correlación o similitud representa el grado en que dos usuarios están relacionados. Dos usuarios que tienen un alto grado de correlación tienen una mejor oportunidad de estar interesados en lo mismo o en cosas similares.
En la práctica, los datos de flujo de clics disponibles en el servidor pueden incluir múltiples puntos de datos de flujo de clics, que pueden incluir un identificadorde usuario, una página web actual, una página web de origen, un tiempo de clic y la duración de la estadía, etc.
El bloque 102 puede incluir las siguientes etapas.
La etapa S11 divide los puntos de datos del flujo de clics en una o varias sesiones. La diferencia entre los tiempos de clic de cualquiera de las dos sesiones adyacentes ordenadas secuencialmente por sus respectivos tiempos de clic es menor o igual a un primer umbral de tiempo preestablecido. Específicamente, los puntos de datos de flujo de clics pueden organizarse secuencialmente de acuerdo con el orden de los tiempos de clic respectivos. Si la diferencia entre los tiempos de clic de dos puntos de datos de flujo de clics consecutivos es menor o igual que el primer umbral de tiempo preestablecido, los dos puntos de datos de flujo de clics pueden fusionarse en una sola sesión.
Los datos del flujo de clics después de dividirse en sesiones pueden expresarse como:
donde los datos de flujo de clics del usuario Z se divide en Zn sesiones, l es i-ésima sesión Ambos Zn y i son enteros positivos
En una modalidad preferida, el primer umbral de tiempo preestablecido se establece en 30 min.
En la etapa S12, para cada sesión, el sistema establece un árbol de ruta de flujo de clics utilizando la página web actual y la página web de origen. El árbol de ruta del punto de datos de flujo de clics incluye un nodo y una ruta. El nodo es la página web actual, mientras que la ruta indica una conexión entre la página web actual y su página web de origen. El árbol de ruta de flujo de clics de es una representación de la pista del usuario que visita las páginas web.
En algunas modalidades, el nodo puede ser un nodo raíz o un nodo hijo. En consecuencia, la etapa S12 puede incluir además los siguientes subetapas.
La subetapa S121 hace coincidir la página web de origen del punto de datos de flujo de clics actual con la página web actual de otro punto de datos de flujo de clics que tiene un tiempo de clic anterior al del punto de datos de flujo de clics actual. La coincidencia puede continuar hasta que se cumpla un criterio de coincidencia preestablecido. Si la coincidencia es exitosa, el sistema realiza la subetapa S122; si no tiene éxito, el sistema realiza la subetapa S123.
La coincidencia puede observar dos principios, uno de los cuales requiere que la página de referencia (la página de origen) del punto de datos de flujo de clics actual sea la misma que la página de entrada (la página actual) del punto de datos de flujo de clics anterior.
En la práctica, varios puntos de datos de flujo de clics se ordenan secuencialmente de acuerdo con los tiempos de clic. Comenzando desde el último punto de datos de flujo de clics (que tiene el tiempo de clic más reciente), se hace coincidir los otros puntos de datos de flujo de clics que tengan un tiempo de clic anterior, hasta que la coincidencia llegue al primer punto de datos de flujo de clics de la sesión.
La página web actual y la página web de origen pueden tener la forma de un Localizador de recursos universal de URL), que puede tener varias longitudes. Durante la coincidencia, se pueden generar secuencias características con base en la
URL original u otra información de identificación para mejorar la coincidencia y reducir el tamaño del almacenamiento persistente necesario.
Por ejemplo, si la longitud de la URL tiene 16 caracteres o menos, la URL se puede usar para la coincidencia directa. Pero si la longitud de la URL es mayor de 16 caracteres, se puede usar el algoritmo MD5 (Algoritmo de resumen de mensaje 5) para generar una cadena de 16 caracteres, que luego se usa para la coincidencia.
Por ejemplo, según la siguiente URL: http://sale.suning.com/images/advertise/zyn/130722jiuyang/index.html?utm_source=uni on & utm_medium = C & utm_campaign = 1028 & utm_content = 1027.
El algoritmo MD5 se usa para generar la siguiente cadena de 16 caracteres: B11A4C0B627B8FE4.
El método ilustrado anteriormente para generar flujos característicos más cortos es solo para fines ilustrativos. En la práctica, se puede usar cualquier otro método adecuado para lograr un propósito similar. Esta descripción no tiene restricciones a este respecto.
Otro principio de coincidencia es la proximidad en el tiempo, que busca una coincidencia exitosa más cercana en el tiempo entre los dos puntos de datos de flujo de clics coincidentes.
Por ejemplo, en el ejemplo Sesión S1, el usuario visita la página web A, permanece allí durante 5 segundos, hace clic desde la página A en la página B y permanece allí durante 2 segundos, luego hace clic desde la página B en la página C y permanece allí durante 3 segundos, luego hace clic desde la página web C a la página E y permanece allí durante 7 segundos, y luego hace clic desde la página web B a la página D, permanece allí durante 3 segundos, hace clic desde la página web D a la página C y permanece allí durante 1 segundo, y luego hace clic desde la página web C en la página web E, permanece allí durante 5 segundos.
Los datos de flujo de clics anteriores pertenecen a la misma sesión, que se puede expresar de acuerdo con el seguimiento de clics real del usuario como: A ^ B ^ C ® ^ - E ® ^ - D ^ C ® ^ E ® , donde C ® y C ® representan la primera visita y la segunda visita a los sitios web C respectivamente, mientras que E ® y E ® representan la primera visita y la segunda visita al sitio web E, respectivamente.
Usando E ® como la página actual para que coincida hacia arriba, uno encontrará C ® y C ® . Sin embargo, porque el tiempo de clic de C ® es el tiempo más cercano al clic de E ® , C ® se considera una coincidencia exitosa.
La etapa S122 toma la página actual del punto de datos de flujo de clics actual como un nodo hijo de la página actual del nuevo punto de datos de flujo de clics que coincide con éxito. En términos relativos, la página actual del nuevo punto de datos de secuencia de clics con éxito se puede llamar el nodo primario del nodo secundario.
A medida que el nodo primario y el nodo secundario coinciden con éxito, también emerge una ruta que indica la ruta de visita desde una página fuente (nodo primario) a una página actual (nodo secundario).
La etapa S123 genera un nuevo árbol de ruta de flujo de clics utilizando la página web actual del punto de datos de flujo de clics actual como el nodo raíz.
Para otro ejemplo, en el ejemplo Sesión S1, si falla la coincidencia usando el punto de datos del flujo de clics de la página A, el sistema genera un nuevo árbol de ruta de flujo de clics usando la página A como el nodo padre.
En lo anterior, los criterios para la coincidencia en la etapa S121 para detener pueden preestablecerse y pueden incluir las siguientes condiciones:
Condición uno: no hay más coincidencias si el número de coincidencias ha excedido un número de umbral máximo preestablecido. El número de umbral preestablecido puede ser determinado por un técnico de acuerdo con las condiciones y requisitos reales de la aplicación, y esta descripción no tiene ninguna restricción al respecto. En un ejemplo, el número de umbral se establece en 5000, y si el número de coincidencias excede este número, el punto de datos del flujo de clics se considera el resultado de una visita a la máquina, que generalmente se realiza mediante un software especial diseñado para visitar repetidamente un cierto sitio web para aumentar el tráfico de clics, y no se considera normal.
Condición dos: no hay coincidencia si la diferencia entre los tiempos de clic del punto de datos de flujo de clics actual y el nuevo punto de datos de flujo de clics coincidente es mayor que un segundo umbral de tiempo. Este segundo umbral de tiempo se puede usar para determinar si la coincidencia en la etapa S121 debe terminarse.
Del mismo modo, un técnico puede determinar el umbral de segundo tiempo anterior según las condiciones y los requisitos de la aplicación, y no está restringido en esta descripción. En una modalidad preferida, el segundo umbral de tiempo se establece en 30 minutos.
En otra modalidad, el bloque S12 puede incluir las siguientes etapas.
La etapa S124 elimina los nodos aislados, que son árboles de ruta de flujo de clics que contienen un solo nodo. En un nodo aislado, el nodo único es tanto un nodo primario como un nodo secundario.
El árbol de ruta del flujo de clics en una sesión se determina después de que se realiza la coincidencia.
Para la sesión S1, en la Figura 2 se ilustra una representación ejemplar de un árbol de ruta de flujo de clics. Se observa que un árbol de ruta de flujo de clics puede representarse utilizando otros métodos.
Por ejemplo, el árbol de ruta del flujo de clics puede expresarse utilizando la salida transversal de preorden como:
donde, l representa el árbol de ruta del flujo de clics, que tiene ln nodos; < v¡,p¡,t¡ > es el i-ésima punto de datos de flujo de clics, 1 <i<tn, tn y i son ambos enteros positivos; v es la página web actual, pagsi es la página fuente de v¡, ti los períodos de estadía visitando v¡. En particular, cuando i = 1 el nodo es el nodo raíz del árbol de ruta del flujo de clics l. Debido a que este nodo raíz no tiene una página fuente real (es decir, ningún nodo padre), su página fuente simbólica está representada por"-", es decir, pags1 = "-".
Por ejemplo, en la Sesión S1, la ecuación anterior @ puede expresarse como:
En el tipo de representación anterior, la ruta en el árbol de ruta del flujo de clics no se muestra intuitivamente.
La etapa S13 combina árboles de ruta de flujo de clics. Específicamente, el sistema combina los árboles de ruta de flujo de clics disponibles, configura pesos y construye un modelo de gráfico dirigido ponderado para la ruta de clic del sitio web del usuario.
Cabe señalar que la fusión de árboles de ruta de flujo de clics se puede hacer con respecto a todos los nodos. Los árboles de ruta de flujo de clics que tienen los mismos nodos pueden fusionarse de acuerdo con estos mismos nodos. Para los árboles de ruta de flujo de clics que no comparten un nodo común, la fusión es aún más simple porque no hay que considerar una relación árbol-árbol. Pero este es solo un caso especial de fusión de árboles de ruta de flujo de clics. Por ejemplo, suponga que una Sesión S2 tiene tres árboles de ruta de flujo de clics, específicamente A ^ B ^ C ^ D , A ^ C ^ D y H ^ J , donde AD, H y J representan cada uno una página web diferente, mientras que las flechas representan rutas. Los árboles de ruta A ^ p ^ C ^ D y A ^ C ^ D pueden fusionarse, mientras que H ^ J permanece igual después de la fusión. El resultado de la medida se muestra en la Figura 3.
El análisis estadístico con respecto a los árboles de ruta de flujo de clics se puede hacer desde diferentes aspectos. Por ejemplo, uno puede hacerse con respecto al estado de clic de la página web del usuario, y otro con respecto a las instrucciones de clic de la página web. El primero representa un punto en el gráfico, mientras que el segundo representa un borde en el gráfico.
El estado de clic de la página web del usuario generalmente representa el número de visitas a la página pu de una determinada página web por el usuario o usuarios, y el tiempo promedio de permanencia en la página web. Intuitivamente, el número de visitas a la página pu y la duración de las estancias reflejan el nivel de interés del usuario en la página web. Una mayor pu y una mayor duración de la estadía puede indicar un gran interés por parte del usuario en la página web Las direcciones de clic de la página web se pueden usar para describir una tendencia de clic y sus proporciones. El usuario puede salir después de visitar la página actual o continuar haciendo clic en esta y en otra página. Tal información direccional es generalmente útil.
La etapa S14 asigna un peso jerárquico a cada nodo fusionado. El peso jerárquico para cada nodo combinado se puede determinar de acuerdo con la duración promedio de la permanencia del nodo, que se calcula dividiendo la duración total de la permanencia del nodo por el número total de páginas vistas del nodo, donde se suman los totales La pluralidad de flujos de clics.
La etapa S15 asigna un peso proporcional a cada ruta fusionada. El peso proporcional a cada ruta combinada se determina de acuerdo con sus números de páginas vistas pu, específicamente dividiendo el número total de vistas de página de la página de origen de la página actual en la ruta combinada por el número total de vistas de página de la página actual en la que se hizo clic desde la página de origen.
Por ejemplo, suponga que la ruta combinada tiene una página de origen N y una página actual M. Si el número total de visitas a la página pu de la página de origen N es 10, y el número total de páginas vistas de la página actual M en la que se hizo clic desde la página de origen N es 5, entonces la ruta de clic que indica la página de origen N y la página actual M tiene un peso proporcional de 5/10 = 0,5.
Una página actual puede tener múltiples páginas de origen. Sin embargo, solo puede existir una ruta desde cada página de origen a una página actual. Es decir, cada ruta corresponde a un cierto par de una página actual y una página fuente. La condición de clic del usuario puede describirse como:
U = {*" ,< Uf'PV, ,£ > ,* - *,< Uj, pv, J . >,■■■) ecuación (D
donde ui es la i-ésima página actual, ui e i ambos son enteros positivos, pv es el total de páginas vistas de u iy t es la duración promedio de la estadía de u¡,
y,
donde, < ui,uj,pvj > representa que se hizo clic en el total de vistas de la página de origen uj a la página actual ui es pvij. Usando la ecuación @, la sesión S1 mencionada anteriormente puede expresarse por:
U = {< uA, 1,5 >,<uB, 1,2 >,<uc,2,2 >,<uD, 1,3 >,<uE,2,6 >}
Usando la ecuación @, la Sesión S1 puede expresarse mediante:
T={< uA,uB, 1 >,< uB,uc, 1 > , < uc ,ue , 2 > , < ud ,uc ,1 >}
Teniendo en cuenta que diferentes usuarios tienen diferentes velocidades de lectura, algunas más rápidas y otras más lentas, la duración promedio de la estadía se pondera y clasifica jerárquicamente según el usuario. Por ejemplo, se pueden usar K diferentes rangos jerárquicos (donde Kes un entero positivo). Ejemplos de K son 7 y 13.
En consecuencia, la ecuación @ puede convertirse a:
donde, ui es el i la página web actual, pv es el total de páginas vistas de uy A¡ es ui peso jerárquico
En una modalidad, la etapa S14 anterior puede incluir los siguientes subetapas.
La subetapa S141 clasifica el nodo usando una pluralidad de niveles de peso divididos de acuerdo con la duración promedio de permanencia del nodo.
La subetapa S141 asigna un peso jerárquico a cada nivel de peso.
Por ejemplo, el árbol de ruta de flujo de clics de la sesión S1 anterior se puede dividir en K = 5 niveles de peso, cada uno dado el peso jerárquico de la siguiente manera:
Á1 = 1,02, = 1,01, ^s=1, ^4 = 0,99, ^5 = 0,98.
En la práctica, los puntos de datos de flujo de clics se ordenan secuencialmente con base en su duración promedio de estadía, de la más larga a la más corta, y se dividen por igual en cinco regiones, cada región correspondiente a un nivel de peso. Los sitios web en la primera región tienen un peso jerárquico A1, los sitios web en la segunda región tienen el peso jerárquico Á2, y así.
En este caso, la Sesión S1 puede expresarse usando la ecuación © como:
U ={< uÁ, 1,1.01 >, < nB, 1,0.99 >, < uc, 2,0.99 >, < uD ,!,!>,< uE, 2,1.02 >}
Al configurar pesos proporcionales, se puede tener en cuenta que una página web actual ui tal vez un nodo secundario en el árbol de ruta del flujo de clics, y podría ser visitado directamente. En este caso, Xpv¡ < pv¡. En consecuencia, pvi¡lpv¡ es la proporción de clics que se desvían de u¡ a u, la relación se denota como 5¡¡, específicamente, un peso proporcional, donde pv¡ es el total de páginas vistas de u¡. En este caso, 5i¡ < 1. La situación especial donde i = j indica clics dirigidos desde ui a sí mismo u¡, donde la relación se denota como 5u.
La etapa S16 genera un gráfico dirigido ponderado.
En una modalidad, el estado del clic de una página web puede expresarse combinando la ecuación @ y ecuación © , tener:
donde, <ui, Ai> es la condición de clic del usuario de la página web u¡ (la página web actual que se visita), A es el peso jerárquico y ui es el i-ésima página actual, Ai es el peso jerárquico de u;
y,
donde, <u¡, u¡, 5¡¡ > es una ruta de clic de un usuario que hace clic desde la página web u¡ a la página web u¡, ui siendo la página web actual, u¡ la página web de origen, 5i¡ es peso proporcional 5i¡ indica que, de los clics de la página web de origen u¡, una relación de 5i¡ fueron dirigidos a la página web actual u.
El gráfico dirigido a la página web del usuario se puede generar utilizando la ecuación anterior © y ecuación © . Por ejemplo, la sesión S1 anterior se puede expresar usando la ecuación © como:
U ={< uA, 1.01 >,< uB,0.99 >,< uc,0.99 >,< uD, 1 >,< uE, 1.02 >}
La sesión S1 puede expresarse usando la ecuación © como:
T = {< uA, —, 1 >,<ug ,uA, 1 > ,< u c ,uB,0.5 > ,< uD,uB,0.5 > ,< u c ,uD, l> ,< u E,uc , l >}
La Figura 4 muestra un gráfico dirigido a la página web ponderado de la sesión S1 como resultado de las descripciones anteriores. El gráfico dirigido a la página web ponderado tiene tanto pesos jerárquicos como pesos proporcionales configurados.
Como se ilustra arriba, los datos del flujo de clics de un usuario se pueden convertir a un modelo de gráfico dirigido ponderado con base en las descripciones de la ecuación anterior © y ecuación © . Un usuario diferente puede tener un gráfico dirigido ponderado diferente que se convierte a partir de los propios datos de flujo de clics del usuario. Como resultado, la cuestión de calcular la correlación de dos usuarios se convierte en la de calcular la correlación de los gráficos dirigidos ponderados de los mismos usuarios.
En la etapa S17, el sistema selecciona Y otros usuarios que comparten el mayor número de rutas comunes con el usuario actual, donde Y es un número entero positivo. Cuando dos usuarios tienen una ruta que tiene la misma página web actual y la misma página web de origen, se considera que los dos usuarios comparten una ruta común.
En una modalidad, Y = 3N, donde N es un número entero positivo, cuyo significado quedará claro en las descripciones a continuación.
La Figura 5 muestra un gráfico dirigido a la página web ponderado de otra sesión descrita anteriormente, a saber, la sesión S3. Una comparación entre el gráfico dirigido ponderado de la sesión S3 con el de la sesión S1 muestra que los dos gráficos comparten tres rutas comunes: A ^ B , B ^ D y D ^ C .
La etapa S18 usa los gráficos de los usuarios dirigidos a los pesos para calcular las correlaciones de la ruta de visita de la página web entre el usuario actual y los otros usuarios seleccionados descritos anteriormente.
La primera tarea de calcular la correlación de gráficos dirigidos ponderados es encontrar el número de rutas comunes compartidas por los gráficos. Para dos usuarios diferentes, las rutas más comunes que comparten, mayor superposición existe entre sus gráficos dirigidos ponderados, lo que sugiere una mayor correlación entre los dos usuarios. Al mismo tiempo, cuanto más altos sean los pesos de las rutas comunes y sus nodos, mayor será la correlación del usuario.
En una modalidad preferida, la correlación de la ruta de clic entre el usuario actual y los Y usuarios seleccionados se calcula utilizando la siguiente ecuación:
Z Peso mínimo de las rutas comunes
correlación =
Z Peso de las rutas no comunes Z Peso máximo de las rutas comunes
donde, el peso mínimo de una ruta común es un producto de multiplicación del valor mínimo del peso proporcional de la ruta común * el valor mínimo del peso jerárquico de la página web actual indicada en la ruta común * el valor mínimo del peso jerárquico de la página web fuente indicada en la ruta común; el peso máximo de una ruta común es un producto de multiplicación del valor máximo del peso proporcional de la ruta común * el valor máximo del peso jerárquico de la página web actual indicada en la ruta común * el valor máximo del peso jerárquico del página web de origen indicada en la ruta común; y el peso de una ruta no común es un producto de multiplicación del valor del peso proporcional de la ruta no común * el valor del peso jerárquico de la página web actual indicada en la ruta no común * el valor de la jerarquía peso de la página web fuente indicada en la ruta no común.
Se debe señalar que una ruta común de dos usuarios puede tener pesos proporcionales diferentes, y la página web actual y la página web fuente de la ruta común de los dos usuarios diferentes también pueden tener pesos jerárquicos diferentes. Al calcular la correlación, los pesos proporcionales y los pesos jerárquicos se toman a su valor nominal, y no es necesario tener en cuenta que un determinado valor pertenece al gráfico dirigido ponderado de cada usuario.
En referencia a la Figura 4 y la Figura 5, la correlación de visitas a la página web entre dos usuarios se calcula de la siguiente manera:
Rutas comunes: A ^ B, B ^ D y D ^ C .
El peso mínimo de las rutas comunes se calcula como: 0,5 * 1 * 0,99 0,5 * 0,99 * 1 0,5 * 1 * 0,99 = 1,485
El peso máximo de las rutas comunes se calcula como: 1 * 1,01 * 0,99 1 * 0,99 * 1,02 1 * 1,02 * 1,01 = 3,05 Rutas no comunes: La Figura 4 tiene B ^ C, C ^ E; mientras que la Figura 5 tiene D ^ A, A ^ C.
El peso de las rutas no comunes en la Figura 4 se calcula como: 0,5 * 0,99 * 0,99 1 * 0,99 * 1,02 = 1,500.
El peso de las rutas no comunes en la Figura 5 se calcula como: 0,5 * 1,02 * 1 0,5 * 1 * 1,01 = 1,015.
Por lo tanto, la correlación entre los gráficos dirigidos ponderados en la Figura 4 y la Figura 5 es la siguiente:
1,485/ (1,500+1,015+3,05) =0,267
El proceso anterior de calcular la correlación de la ruta de visita de la página web es solo para fines ilustrativos. También se pueden usar otros métodos adecuados para calcular la correlación de ruta de acuerdo con las necesidades reales de la aplicación. Ejemplos de tales métodos para calcular después de la relación incluyen el cálculo de la correlación de coseno, el cálculo de la correlación de Pearson, etc. La descripción no impone restricciones a este respecto.
En el bloque 103, el sistema selecciona X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo.
En una modalidad, X = 2N, donde N es un número entero positivo. Usualmente, el número X es más pequeño que el número Y (= 3N en el ejemplo ilustrado arriba), porque los otros usuarios X se seleccionan de los otros usuarios Y preseleccionados.
En el bloque 104, el sistema configura un peso integral en relación con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados.
En la práctica, se puede construir una biblioteca de etiquetas de página web para recopilar las etiquetas de varias páginas web. Cada página web puede tener una o más etiquetas, cada etiqueta preestablecida puede tener su propio peso original.
Una página web puede describirse mediante una lista de etiquetas de la siguiente manera:
donde, la lista de etiquetas d tiene un total de 9n etiquetas, a¡ es el i etiqueta th, 1</On, 9n y i son ambos enteros positivos, y wp/ es el peso original de la etiqueta a¡.
Un elemento de etiqueta contiene dos elementos, una etiqueta y un peso de etiqueta. Una etiqueta puede ser un indicador de un tipo de página web, la palabra clave, una clasificación de página web, un ID, etc., donde el tipo de página web puede ser una página de inicio, una página de navegación, la página de búsqueda, la página de inicio de un producto, la página de inicio de una empresa, un producto página de descripción, una página de pedido, una página de inicio de sesión, etc .; y una identificación puede ser una identificación de producto, una identificación de compañía, una categoría de oferta (como cosméticos), etc.
Las etiquetas mencionadas anteriormente son solo ilustrativas. En la práctica, se pueden usar otras etiquetas, siempre que la etiqueta identifique las características de un sitio web. Esta descripción no impone restricciones a este respecto. Tome una página web de comercio electrónico para vender enrutadores, se pueden introducir las siguientes etiquetas: modelo de producto = DIR-616
marca de producto = D-Link
tipo de producto = enrutador
iD del producto = 22540068533
nombre del vendedor = tienda especializada dlink
donde, el lado izquierdo del signo igual es el nombre de la etiqueta, el lado derecho es el contenido de la etiqueta. Como resultado, el sitio web anterior se puede expresar como:
S = {{'DIR -616",l)("D -Link"fi.5frouter"fi3f22540068533",ifdlink specialty store",O.l)} donde, el peso original de la ID del producto y el peso original del modelo del producto son ambos 1, el peso original de la marca del producto es 0,5, el peso original del enrutador del tipo de producto es 0,3, mientras que el peso original del nombre del vendedor es 0,7.
Se entiende que los técnicos pueden determinar los pesos de origen de acuerdo con las condiciones de la aplicación, y esta descripción no impone restricciones a este respecto.
Además, una página web puede tener un peso total de página.
Utilizando ui para representar una página web, esta página web puede estar representada por el peso de la página web y una lista de etiquetas:
donde, w¡ es el peso de la página web u, &¡ es la lista de etiquetas
El peso completo de una etiqueta se calcula utilizando la siguiente pregunta:
donde,
w
es el peso integral de la etiqueta preestablecida, ak es el número total de páginas web en las que aparece la etiqueta preestablecida, w¡
% es el peso de la página de /-ésima página web pu¡ es el total de páginas vistas de la /-ésima página web, y wp¡ es el peso original de la etiqueta preestablecida en el i-ésima página web.
En el bloque 105, el sistema calcula una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos completos.
Ecuación de taponamiento ® en ecuación @ y combinando con la ecuación @ da como resultado un espacio vectorial de peso de etiqueta de dimensión k:
donde k es un entero positivo, a es una etiqueta y
w
es el peso integral de la etiqueta respectiva.
Cada etiqueta es una dimensión en el espacio vectorial de peso de etiqueta de dimensión k. Un usuario en el espacio de vector de peso de etiqueta de dimensión k se representa con un vector que tiene pesos completos como coordenadas de vector en las dimensiones de etiqueta respectivas. El cálculo de la correlación entre usuarios se convierte en el cálculo de una distancia entre los vectores representativos en el espacio vectorial de peso de etiqueta.
En una modalidad, la correlación del usuario entre el usuario actual y los otros X usuarios se calcula con base en las etiquetas preestablecidas y los pesos integrales utilizando la siguiente pregunta:
donde, Sim(ij) es la correlación entre el usuario i y usuario j,
o es una etiqueta y
w es el peso integral de la etiqueta correspondiente.
El ejemplo anterior de calcular la correlación del usuario es solo para fines ilustrativos. También se pueden usar otros métodos adecuados para calcular la correlación del usuario de acuerdo con las necesidades reales de la aplicación. Ejemplos de tales métodos para calcular después de la relación incluyen el cálculo de la correlación de coseno, el cálculo de la correlación de Pearson, etc. La descripción no impone restricciones a este respecto.
La correlación de usuario para extender representa la similitud entre los intereses de diferentes usos. Una mayor correlación del usuario indica un mayor nivel de similitud entre los intereses del usuario.
La presente descripción utiliza datos de flujo de clics para construir un modelo de gráfico dirigido ponderado para las rutas de clic del sitio web del usuario, y convierte el cálculo de la correlación del usuario en el cálculo de una similitud de los gráficos dirigidos ponderados de diferentes usuarios. La presente descripción introduce además la biblioteca de etiquetas de página web para incorporar el cálculo de la correlación del contenido de la etiqueta de página web en la correlación del usuario. El método revelado descubre de manera efectiva los hábitos de clic del usuario y las inclinaciones de comportamiento personalizadas para mejorar la precisión y la eficiencia de la agrupación de usuarios, lo que a su vez mejora la tasa de éxito y la eficiencia de las recomendaciones del usuario.
La configuración de pesos jerárquicos para los nodos en el árbol de ruta del flujo de clics reduce la influencia de los hábitos y la capacidad de lectura de los diferentes usuarios, y aumenta la precisión de la personalización.
La Figura 6 es un diagrama de flujo de bloques de un proceso que realiza recomendaciones personalizadas con base en el comportamiento del usuario. El proceso se describe en los siguientes bloques.
En el bloque 601, el sistema obtiene información del usuario, incluido el identificador de usuario.
En el bloque 602, el sistema selecciona a Z otros usuarios que tienen una similitud de usuario clasificada entre las más altas para el usuario, donde Z es un número entero positivo.
En el bloque 603, el sistema hace una recomendación al usuario basada en la información de los otros Z usuarios seleccionados, donde la similitud del usuario se genera mediante un proceso que se describe a continuación:
obtener datos de flujo de clics de la página web del usuario;
calcular una correlación de ruta de clic entre el usuario y otros usuarios, utilizando los datos del flujo de clics;
seleccionar X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo;
configurar un peso integral en relación con cada una de las etiquetas preestablecidas de páginas web visitadas por los X usuarios seleccionados; y
calcular una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos integrales.
Z es generalmente más pequeño que X. En una modalidad, Z = N, mientras que X = 2N, donde N es un número entero positivo.
La agrupación de usuarios puede preconfigurarse en la información del usuario. Cuando un usuario visita un sitio web, el sistema puede obtener directamente la información de recomendación personalizada del usuario en particular con base en la ID de usuario adquirida, mejorando así la eficiencia del uso de recursos informáticos y la eficiencia de la recomendación personalizada.
Como se describe, el método de acuerdo con la presente descripción primero selecciona Y otros usuarios que comparten el mayor número de rutas comunes con el usuario actual, calcula la correlación de ruta de clic entre el usuario actual y los otros usuarios seleccionados, luego selecciona X usuarios que tienen mayor correlación de ruta de clic con el usuario actual, y luego selecciona los usuarios Z que tienen la mayor correlación de usuario con el usuario actual. La selección está en capas, y cada capa extrae la información más relevante para el cálculo. Este enfoque aumenta la precisión y disminuye la demanda de procesamiento de datos y el uso de recursos computacionales.
En aplicaciones prácticas, se pueden hacer recomendaciones de amigos, recomendaciones de blog, recomendaciones de productos, etc., con base en la información de recomendación disponible para los X usuarios seleccionados que tienen la mayor correlación con el usuario actual.
Un técnico puede establecer las reglas y parámetros, como los distintos umbrales preestablecidos, según las necesidades reales de la aplicación. Por ejemplo, la correlación del usuario puede calcularse de vez en cuando, o periódicamente, y el cálculo puede basarse en la totalidad o en parte de los datos disponibles del flujo de clics. Los datos del flujo de clics de algunos usuarios pueden limitarse a los datos recopilados durante un cierto intervalo de tiempo o múltiples intervalos. La descripción no impone restricciones a este respecto.
En algunas modalidades, el sistema puede tener una lista negra y una lista blanca para registrar aquellos usuarios que actualmente no son de confianza y de confianza. La lista negra y la lista blanca pueden incluir usuarios, blogs o productos recomendados o no recomendados.
El sistema puede recibir comentarios de los usuarios sobre las recomendaciones hechas por el sistema al usuario, y usar los comentarios para ajustar los pesos originales, los pesos del sitio web y/o los pesos jerárquicos.
El método utilizado para extraer dimensiones de características en el espacio de agrupación de usuarios es similar al utilizado para extraer características de comportamiento del usuario, y dicho método no se repite en esta descripción, y puede referirse a las descripciones relevantes en la presente descripción.
Las técnicas descritas anteriormente pueden implementarse con la ayuda de uno o más medios legibles por ordenador que contienen instrucciones ejecutables por ordenador. Las instrucciones ejecutables por ordenador permiten que un procesador de ordenador realice acciones de acuerdo con las técnicas descritas en la presente descripción. Se aprecia que los medios legibles por ordenador pueden ser cualquiera de los dispositivos de memoria adecuados para almacenar datos del ordenador. Dichos dispositivos de memoria incluyen, entre otros, discos duros, dispositivos de memoria flash, almacenamiento de datos ópticos y disquetes. Además, los medios legibles por ordenador que contienen las instrucciones ejecutables por ordenador pueden constar de componentes en un sistema local o componentes distribuidos a través de una red de múltiples sistemas remotos. Los datos de las instrucciones ejecutables por ordenador pueden entregarse en un dispositivo de memoria física tangible o transmitirse electrónicamente. Como se define en la presente descripción, los medios legibles por ordenador no incluyen medios transitorios como señales de datos modulados y ondas portadoras, etc.
En relación con el método descrito aquí, la presente descripción también proporciona un aparato basado en ordenador para implementar el método descrito en la presente descripción.
En la descripción de presencia, un "módulo" en general se refiere a una funcionalidad diseñada para realizar una tarea o función particular. Un módulo puede ser una pieza de hardware, software, un plan o esquema, o una combinación de los mismos, para efectuar un propósito asociado con la tarea o función particular. Además, la delimitación de módulos separados no necesariamente sugiere que se usen dispositivos físicamente separados. En cambio, la delineación puede ser solo funcional, y las funciones de varios módulos pueden ser realizadas por un solo dispositivo o componente combinado. Cuando se usa en un sistema basado en ordenador, los componentes regulares del ordenador, como un procesador, un almacenamiento y una memoria, pueden programarse para funcionar como uno o más módulos para realizar las diversas funciones respectivas.
La Figura 7 es un diagrama esquemático de los bloques de funciones de un sistema de servidor que implementa el método para intercambiar información en comunicaciones interactivas.
El sistema informático del servidor 700 se puede basar en un hardware de teléfono inteligente típico que tiene uno o más procesadores 790, dispositivos de E/S 792, memoria legible por ordenador y medio de almacenamiento 794 que almacena los programas de aplicación 780. El sistema informático del servidor 700 está programado para tener los siguientes módulos funcionales.
Un módulo de adquisición de datos de flujo de clics 701 está programado para obtener datos de flujo de clics de la página web de un usuario actual;
Un módulo de cálculo de correlación de ruta de clic 702 está programado para calcular una correlación de ruta de clic entre el usuario actual y otros usuarios, utilizando los datos de flujo de clics;
Se programa un módulo de selección de usuario 703 para seleccionar X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo;
Un módulo de configuración de peso integral 704 está programado para configurar un peso integral en conexión con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados; y
Un módulo de cálculo de correlación de usuario 705 está programado para calcular una correlación de usuario entre el usuario actual y los otros X usuarios basándose en las etiquetas preestablecidas y los pesos integrales.
En la práctica, los datos de flujo de clics disponibles en el servidor pueden incluir múltiples puntos de datos de flujo de clics, que pueden incluir un identificador de usuario, una página web actual, una página web de origen, un tiempo de clic y la duración de la estadía, etc.
Los módulos están programados para realizar las funciones de los métodos descritos en esta descripción. Además, los módulos anteriores pueden tener submódulos programados para realizar diversas funciones como se describe aquí en el contexto del método descrito. Los detalles de estos módulos y submódulos no se repiten.
Por ejemplo, el módulo de cálculo de correlación de ruta de clic 702 puede incluir los siguientes submódulos.
Un submódulo de división de sesión divide los puntos de datos del flujo de clics en una o varias sesiones. La diferencia entre los tiempos de clic de cualquiera de las dos sesiones adyacentes ordenadas secuencialmente por sus respectivos tiempos de clic es menor o igual a un primer umbral de tiempo preestablecido. Específicamente, los puntos de datos de flujo de clics pueden organizarse secuencialmente de acuerdo con el orden de los tiempos de clic respectivos. Si la diferencia entre los tiempos de clic de dos puntos de datos de flujo de clics consecutivos es menor o igual que el primer umbral de tiempo preestablecido, los dos puntos de datos de flujo de clics pueden fusionarse en una sola sesión.
Un flujo de clics más allá de los tres submódulos establecidos establece, para cada sesión, un árbol de ruta de flujo de clics utilizando la página web actual y la página web de origen. La ruta del punto de datos de flujo de clics libre incluye un nodo y una ruta. El nodo es la página web actual, mientras que la ruta indica una conexión entre la página web actual y su página web de origen.
Un submódulo de combinación de árbol de ruta de flujo de clics combina los árboles de ruta de flujo de clic disponibles, configura pesos y construye un modelo de gráfico dirigido ponderado para la ruta de clic del sitio web del usuario.
Se puede programar un módulo de submódulo de asignación de peso jerárquico para asignar un peso jerárquico a cada nodo fusionado colocando el nodo en uno de la pluralidad de niveles de peso divididos de acuerdo con las longitudes promedio de permanencia de los nodos, y asignando el peso jerárquico al nodo de acuerdo con el nivel de peso al que se coloca el nodo.
Un submódulo de generación de gráfico dirigido ponderado genera un gráfico dirigido ponderado.
Un segundo submódulo de selección selecciona Y otros usuarios que comparten las rutas más comunes con el usuario actual, en donde Y es un número entero positivo.
Un submódulo de cálculo calcula la correlación de la ruta de clic entre el usuario actual y los Y usuarios seleccionados.
En particular, la Figura 8 muestra un diagrama de bloques de un sistema para hacer recomendaciones personalizadas con base en el comportamiento del usuario. El sistema de recomendación 800 puede incluir, entre otros, uno o más procesadores 801, una interfaz de red 802, memoria 803 y una interfaz de entrada/salida (E/S) 804. La memoria 803 puede incluir medios legibles por ordenador como se describió anteriormente. La memoria 803 puede incluir módulos de programa 805 y datos de programa 806. En una modalidad, los módulos de programa 805 pueden incluir un módulo de adquisición de información de usuario 807 programado para adquirir información de usuario que puede incluir un identificador de usuario; un módulo de selección de usuario 808 programado para seleccionar Z otros usuarios que tienen la mayor similitud con el usuario actual, donde Z es un número entero positivo; y un módulo de recomendación 809 programado para hacer recomendaciones personalizadas al usuario actual con base en la información de los otros usuarios Z seleccionados.
La similitud del usuario está determinada por los módulos y submódulos programados, utilizando los métodos descritos en la presente descripción.
Las modalidades anteriores del aparato están estrechamente relacionadas con las modalidades del método descrito en la presente descripción y, por lo tanto, la descripción detallada de las modalidades del método también es aplicable a las modalidades del aparato y no se repite.
La técnica descrita en la presente descripción puede implementarse en un equipo o entorno informático general o un equipo o entorno informático especializado, que incluye, pero no se limita a, ordenadores personales, servidores, dispositivos de mano o dispositivos portátiles, tabletas, sistemas multiprocesador, sistemas basados en microprocesador, decodificadores, dispositivos de consumo programables, PC en red, microordenadores y ordenadores mainframe a gran escala, o cualquier entorno distribuido que incluya uno o más de los ejemplos anteriores.
Los módulos en particular pueden implementarse utilizando módulos de programas informáticos con base en comandos y códigos ejecutables por máquina. Generalmente, un módulo de programa de ordenador puede realizar tareas particulares o implementar tipos de datos abstractos particulares de rutinas, programas, objetos, componentes, estructuras de datos, etc. Las técnicas descritas en la presente descripción también se pueden practicar en entornos informáticos distribuidos, como un entorno informático distribuido, para realizar las tareas mediante dispositivos de procesamiento remotos conectados a través de una red de comunicación. En un ambiente de computación distribuido, los módulos de programa se pueden localizar en un medio de almacenamiento para ordenador remoto y/o local incluyendo un medio de almacenamiento en memoria.
Se describen diversas modalidades de la presente especificación detalles progresivamente aumentados con ejemplos y entornos. Cada modalidad puede enfocar un cierto aspecto de la descripción y, por lo tanto, diferentes modalidades pueden diferir entre sí, pero también pueden compartir partes similares.
Los métodos y aparatos de verificación de información se han descrito en la presente descripción en detalle anteriormente. Se emplean modalidades ejemplares para ilustrar el concepto y la implementación de la presente invención en esta descripción. Las modalidades ejemplares solo se usan para una mejor comprensión del método y los conceptos centrales de la presente descripción. En base a los conceptos en esta descripción, una de las habilidades ordinarias en la técnica puede modificar las modalidades ejemplares y los campos de aplicación.
Claims (15)
- REIVINDICACIONESi. Un método para extraer características del usuario con base en el comportamiento del usuario, el método comprende:obtener (101) datos de flujo de clics de un usuario actual, los datos de flujo de clics incluyen una pluralidad de puntos de datos de flujo de clics en un sitio web;dividir la pluralidad de puntos de datos de flujo de clics en el sitio web en múltiples sesiones, una diferencia entre los tiempos de clic de dos puntos de datos consecutivos en una sesión es menor o igual a un umbral de tiempo preestablecido;calcular (102) una correlación de ruta de clic entre el usuario actual y otros usuarios, usando las sesiones múltiples; seleccionar (103) X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo;configurar (104) un peso integral en relación con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados; ycalcular (105) una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos integrales.
- 2. El método como se mencionó en la reivindicación 1, en donde cada punto de datos de flujo de clics incluye un identificador de usuario, una página web actual, una página web de origen, un tiempo de clic y una duración de la estancia, en donde se calcula (102) la correlación de la ruta de clic entre el usuario actual y los otros usuarios comprende:generar un árbol de ruta de flujo de clics en cada sesión utilizando la página web actual respectiva y su página web de origen, el árbol de ruta de flujo de clics que incluye un nodo y una ruta, siendo el nodo la página web actual y la ruta que indica una conexión entre la página web actual y su página web de origen;generar un gráfico dirigido ponderado al fusionar los árboles de ruta del flujo de clics, asignar un peso jerárquico a cada nodo combinado y asignar un peso proporcional a cada ruta combinada;seleccionar Y otros usuarios que comparten las rutas más comunes con el usuario actual, en donde Y es un número entero positivo; ycalcular la correlación de la ruta de clic entre el usuario actual y los otros usuarios Y, utilizando el gráfico dirigido ponderado.
- 3. El método como se mencionó en la reivindicación 2, en donde el peso jerárquico para cada nodo combinado se determina de acuerdo con una duración promedio de la permanencia del nodo, y el peso proporcional para cada ruta combinada se determina de acuerdo con un número de vista de página respectivo pu, y en donde la duración promedio de la estadía se calcula dividiendo la duración total de la estadía del nodo por un número total de páginas vistas del nodo, los totales se suman sobre la pluralidad de puntos de datos de flujo de clics.
- 4. El método como se mencionó en la reivindicación 2 o la reivindicación 3, en donde asignar un peso jerárquico a cada nodo combinado comprende:colocar el nodo en uno de la pluralidad de niveles de peso divididos de acuerdo con las longitudes promedio de permanencia de los nodos; yasignar el peso jerárquico al nodo de acuerdo con el nivel de peso al que se coloca el nodo.
- 5. El método como se mencionó en cualquiera de las reivindicaciones 2 a 4, en donde cada nodo puede ser un nodo raíz o un nodo hijo, y generar el árbol de ruta de flujo de clics utilizando la página web actual y la página web fuente comprende:hacer coincidir la página web de origen de un punto de datos de flujo de clics actual con la página web actual de otro punto de datos de flujo de clics que tiene un tiempo de clic anterior al del punto de datos de flujo de clics actual, de acuerdo con un criterio de coincidencia preestablecido;si la coincidencia es exitosa, hacer que la página web actual del punto de datos de flujo de clics actual sea un nodo secundario de la página web actual del otro punto de datos de flujo de clics coincidente; ysi la coincidencia no tiene éxito, generar un nuevo árbol de ruta de flujo de clics utilizando la página web actual del punto de datos de flujo de clics actual como el nodo raíz del mismo.
- 6. El método como se mencionó en cualquiera de las reivindicaciones 2 a 5, en donde el gráfico dirigido ponderado se define por:donde <ui, A> representa la página web u y su estado de clic del usuario, ui es la página web actual visitada por el usuario y Ai es el peso jerárquico de la página web u;y,donde <ui, uj, 5ij> representa una dirección de ruta de clic del usuario desde la página web uj a la página web ui, u¡ es la página web actual, uj es la página web de origen y 5¡j es el peso proporcional de la dirección de la ruta de clic del usuario respectivo.
- 7. El método como se mencionó en cualquier reivindicación anterior, en donde cada página web tiene un peso de página, cada etiqueta preestablecida en cada página web tiene un peso original, y el peso integral de la etiqueta preestablecida se calcula usando la ecuación:donde,W es el peso integral de la etiqueta preestablecida, ok es el número total de páginas web en las que aparece la etiqueta preestablecida, w¡ es el peso de una página web i, pu¡ es el número total de visitas a la página web i, y wpi es el peso original de la etiqueta preestablecida en la página web i.
- 8. Un método para hacer recomendaciones personalizadas con base en el comportamiento del usuario, el método comprende:obtener (601) información de usuario que incluye un identificador de usuario;seleccionar (602) Z a otros usuarios que tienen una similitud de usuarios clasificados entre los más altos para el usuario, donde Z es un número entero positivo; yhacer (603) una recomendación al usuario basada en la información de los otros Z usuarios seleccionados, en donde la similitud del usuario es generada por un proceso que comprende:obtener (101) datos de flujo de clics del usuario, los datos de flujo de clics que incluyen una pluralidad de puntos de datos de flujo de clics en un sitio web;dividir la pluralidad de puntos de datos de flujo de clics en el sitio web en múltiples sesiones, una diferencia entre los tiempos de clic de dos puntos de datos consecutivos en una sesión es menor o igual a un umbral de tiempo preestablecido;calcular (102) una correlación de ruta de clic entre el usuario y otros usuarios, usando las sesiones múltiples; seleccionar (103) X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un número entero positivo;configurar (104) un peso integral en relación con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados; ycalcular (105) una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos integrales.
- 9. Un aparato basado en ordenador (700) para la extracción de características del usuario con base en el comportamiento del usuario, el aparato comprende:un ordenador (700) que tiene un procesador (790), memoria legible por ordenador y medio de almacenamiento (794) y dispositivos de E/S (792), el ordenador (700) está programado para tener módulos funcionales que incluyen: un módulo de adquisición de datos de flujo de clics (701) para obtener (101) datos de la página web de un usuario actual y dividir la pluralidad de puntos de datos de flujo de clics en el sitio web en varias sesiones, siendo menor la diferencia entre los tiempos de clic de dos puntos de datos consecutivos en una sesión que o igual a un umbral de tiempo preestablecido, los datos de flujo de clics que incluyen una pluralidad de puntos de datos de flujo de clics en un sitio web;un módulo de cálculo de correlación de ruta de clic (702) para computación (102) una correlación de ruta de clic entre el usuario actual y otros usuarios, usando las sesiones múltiples;un primer módulo de selección (703) para seleccionar (103) X otros usuarios cuya correlación de ruta de clic con el usuario actual se encuentra entre los más altos, donde X es un entero positivo;un módulo de configuración de peso completo (704) para configurar (104) un peso completo en conexión con cada una de las etiquetas preestablecidas de páginas web visitadas por los otros X usuarios seleccionados; y un módulo de cálculo de correlación de usuario (705) para calcular (105) una correlación de usuario entre el usuario actual y los otros X usuarios con base en las etiquetas preestablecidas y los pesos integrales.
- 10. El aparato basado en ordenador (700) como se menciona en la reivindicación 9, en donde cada punto de datos de flujo de clics incluye un identificador de usuario, una página web actual, una página web de origen, un tiempo de clic y una duración de la estadía, en donde computar (102) la correlación de la ruta de clic entre el usuario actual y los otros usuarios comprende:generar un árbol de ruta de flujo de clics en cada sesión utilizando la página web actual respectiva y su página web de origen, el árbol de ruta de flujo de clics que incluye un nodo y una ruta, siendo el nodo la página web actual y la ruta que indica una conexión entre la página web actual y su página web de origen;generar un gráfico dirigido ponderado al fusionar los árboles de ruta del flujo de clics, asignar un peso jerárquico a cada nodo combinado y asignar un peso proporcional a cada ruta combinada;seleccionar Y otros usuarios que comparten las rutas más comunes con el usuario actual, en donde Y es un número entero positivo; ycalcular la correlación de la ruta de clic entre el usuario actual y los otros usuarios Y, utilizando el gráfico dirigido ponderado.
- 11. El aparato basado en ordenador (700) como se mencionó en la reivindicación 10, en donde el peso jerárquico para cada nodo combinado se determina de acuerdo con una longitud promedio de permanencia del nodo, y el peso proporcional para cada ruta combinada se determina de acuerdo con una vista de página respectiva número pu, y en donde la duración promedio de la estadía se calcula dividiendo la duración total de la estadía del nodo por un número total de páginas vistas del nodo, los totales se suman sobre la pluralidad de puntos de datos de flujo de clics.
- 12. El aparato basado en ordenador (700) como se mencionó en la reivindicación 10 o la reivindicación 11, en donde asignar un peso jerárquico a cada nodo fusionado comprende:colocar el nodo en uno de una pluralidad de niveles de peso divididos de acuerdo con la duración promedio de permanencia de los nodos; yasignar el peso jerárquico al nodo de acuerdo con el nivel de peso al que se coloca el nodo.
- 13. El aparato basado en ordenador (700) como se mencionó en cualquiera de las reivindicaciones 10 a 12, en donde cada nodo puede ser un nodo raíz o un nodo hijo, y generar el árbol de ruta de flujo de clics usando la página web actual y la página web fuente comprende:hacer coincidir la página web de origen de un punto de datos de flujo de clics actual de la pluralidad de puntos de datos de flujo de clics con la página web actual de otro punto de datos de flujo de clics de la pluralidad de puntos de datos de flujo de clics que tienen un tiempo de clic anterior al del punto de datos de flujo de clics actual, de acuerdo con un criterio de coincidencia preestablecido;si la coincidencia es exitosa, hacer que la página web actual del punto de datos de flujo de clics actual sea un nodo secundario de la página web actual del otro punto de datos de flujo de clics coincidente; ysi la coincidencia no tiene éxito, generar un nuevo árbol de ruta de flujo de clics utilizando la página web actual del punto de datos de flujo de clics actual como el nodo raíz del mismo.
- 14. El aparato basado en ordenador (700) como se mencionó en cualquiera de las reivindicaciones 10 a 13, en donde el gráfico dirigido ponderado se define por:donde <u, A¡> representa la página web ui y su estado de clic del usuario, ui ser la página web actual visitada por el usuario, y Á¡ el peso jerárquico de la página web u¡;y,donde <ui, uj, 5ij> representa una dirección de ruta de clic del usuario desde la página web uj a la página web u, ui es la página web actual, uj es la página web de origen y 5¡¡ es el peso proporcional de la dirección de la ruta de clic del usuario respectivo.
- 15. El aparato basado en ordenador (700) como se mencionó en cualquiera de las reivindicaciones 9 a 14, en donde cada página web tiene un peso de página, cada etiqueta preestablecida en cada página web tiene un peso original, y el peso integral de la etiqueta preestablecida se calcula usando el ecuación:donde,W es el peso integral de la etiqueta preestablecida, ok es el número total de páginas web en las que aparece la etiqueta preestablecida, w, es el peso de una página web i, pui es el número total de visitas a la página web i, y wp¡ es el peso original de la etiqueta preestablecida en la página web i.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201310447654.4A CN104462156B (zh) | 2013-09-25 | 2013-09-25 | 一种基于用户行为的特征提取、个性化推荐方法和系统 |
| PCT/US2014/057279 WO2015048171A2 (en) | 2013-09-25 | 2014-09-24 | Method and system for extracting user behavior features to personalize recommendations |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2811704T3 true ES2811704T3 (es) | 2021-03-15 |
Family
ID=51842765
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES14790816T Active ES2811704T3 (es) | 2013-09-25 | 2014-09-24 | Método y sistema para extraer funciones de comportamiento del usuario para personalizar recomendaciones |
Country Status (7)
| Country | Link |
|---|---|
| US (1) | US10178190B2 (es) |
| EP (1) | EP3049912B1 (es) |
| JP (1) | JP6511455B2 (es) |
| CN (1) | CN104462156B (es) |
| ES (1) | ES2811704T3 (es) |
| TW (1) | TW201513019A (es) |
| WO (1) | WO2015048171A2 (es) |
Families Citing this family (76)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4935674A (en) | 1988-12-27 | 1990-06-19 | Rca Licensing Corporation | Digitally controlled convergence system |
| US11068374B2 (en) | 2010-05-26 | 2021-07-20 | Userzoom Technologies, Inc. | Generation, administration and analysis of user experience testing |
| US11348148B2 (en) | 2010-05-26 | 2022-05-31 | Userzoom Technologies, Inc. | Systems and methods for an intelligent sourcing engine for study participants |
| US9928302B2 (en) * | 2014-11-10 | 2018-03-27 | International Business Machines Corporation | Merging data analysis paths |
| US10255358B2 (en) | 2014-12-30 | 2019-04-09 | Facebook, Inc. | Systems and methods for clustering items associated with interactions |
| US10210143B2 (en) | 2015-05-05 | 2019-02-19 | International Business Machines Corporation | Analyzing a click path in a spherical landscape viewport |
| CN106326318B (zh) * | 2015-07-10 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 搜索方法及装置 |
| CN105589914B (zh) * | 2015-07-20 | 2018-07-06 | 广州市动景计算机科技有限公司 | 一种网页页面的预读取方法、装置及智能终端设备 |
| US10210453B2 (en) * | 2015-08-17 | 2019-02-19 | Adobe Inc. | Behavioral prediction for targeted end users |
| CN105141771A (zh) * | 2015-09-08 | 2015-12-09 | 北京网诺星云科技有限公司 | 一种用户的系统级行为偏好的确定方法及装置 |
| CN106503014B (zh) | 2015-09-08 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种实时信息的推荐方法、装置和系统 |
| CN106547761B (zh) * | 2015-09-18 | 2020-01-07 | 北京国双科技有限公司 | 数据处理方法及装置 |
| US10122646B2 (en) * | 2015-11-06 | 2018-11-06 | Oath Inc. | Resource placement via a web page |
| CN105224699B (zh) * | 2015-11-17 | 2020-01-03 | Tcl集团股份有限公司 | 一种新闻推荐方法及装置 |
| US10846748B2 (en) * | 2015-11-30 | 2020-11-24 | Oath Inc. | Onboarding feature cues |
| CN107025228B (zh) * | 2016-01-29 | 2021-01-26 | 阿里巴巴集团控股有限公司 | 一种问题推荐方法及设备 |
| US10148776B2 (en) * | 2016-02-18 | 2018-12-04 | Adobe Systems Incorporated | Clickstream visual analytics based on maximal sequential patterns |
| CN107306259A (zh) * | 2016-04-22 | 2017-10-31 | 腾讯科技(深圳)有限公司 | 网页页面访问中的攻击检测方法和装置 |
| CN106372158A (zh) * | 2016-08-30 | 2017-02-01 | 百度在线网络技术(北京)有限公司 | 用户行为数据的处理方法及装置 |
| CN107784035B (zh) * | 2016-08-31 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 漏斗模型的节点的评估系统、方法和装置 |
| CN106844458B (zh) * | 2016-12-20 | 2020-06-19 | 北京华宇信息技术有限公司 | 展示用户网上行为轨迹的方法、计算装置及存储介质 |
| CN108241630A (zh) * | 2016-12-23 | 2018-07-03 | 武汉四维图新科技有限公司 | 一种行车目的地推荐方法及装置 |
| CN106815322B (zh) * | 2016-12-27 | 2020-05-22 | 东软集团股份有限公司 | 一种数据处理的方法和装置 |
| CN108322355A (zh) * | 2017-01-18 | 2018-07-24 | 北京京东尚科信息技术有限公司 | 用户流量数据处理方法、处理装置、电子设备和存储介质 |
| CN108512674B (zh) * | 2017-02-24 | 2021-03-23 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法、装置和设备 |
| CN108632050B (zh) * | 2017-03-15 | 2021-03-02 | 阿里巴巴集团控股有限公司 | 一种记录网站访问日志的方法和装置 |
| CN107066554B (zh) * | 2017-03-24 | 2020-12-15 | 国家计算机网络与信息安全管理中心 | 微博相关人物推荐方法 |
| CN107194215B (zh) * | 2017-05-05 | 2020-06-26 | 北京神州新桥科技有限公司 | 用户行为分析方法、装置、系统及机器可读存储介质 |
| CN107277118B (zh) * | 2017-05-31 | 2020-06-30 | 北京京东尚科信息技术有限公司 | 生成节点的常用访问路径的方法和装置 |
| CN107426177A (zh) * | 2017-06-13 | 2017-12-01 | 努比亚技术有限公司 | 一种用户行为聚类分析方法及终端、计算机可读存储介质 |
| CN107316250A (zh) * | 2017-07-20 | 2017-11-03 | 佛山潮伊汇服装有限公司 | 社交推荐方法及移动终端 |
| CN107609890A (zh) * | 2017-08-03 | 2018-01-19 | 北京京东尚科信息技术有限公司 | 一种订单跟踪的方法和装置 |
| CN107517203B (zh) * | 2017-08-08 | 2020-07-14 | 奇安信科技集团股份有限公司 | 一种用户行为基线建立方法及装置 |
| CN109428928B (zh) * | 2017-08-31 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 信息推送对象的选择方法、装置及设备 |
| US11240324B2 (en) * | 2017-10-19 | 2022-02-01 | Content Square Israel Ltd. | System and method analyzing actual behavior of website visitors |
| CN108039952B (zh) * | 2017-11-15 | 2020-07-21 | 黄敬易 | 资源传播方法、装置、服务器及计算机可读存储介质 |
| CN107943679B (zh) * | 2017-11-24 | 2021-02-26 | 阿里巴巴(中国)有限公司 | 路径漏斗的生成方法、装置和服务器 |
| US11188965B2 (en) | 2017-12-29 | 2021-11-30 | Samsung Electronics Co., Ltd. | Method and apparatus for recommending customer item based on visual information |
| CN110020377B (zh) * | 2018-01-02 | 2021-02-09 | 北大方正集团有限公司 | 网络阅读活动互动方法、装置、服务器、终端和存储介质 |
| CN108388911A (zh) * | 2018-01-30 | 2018-08-10 | 重庆邮电大学 | 一种面向混合属性的移动用户动态模糊聚类方法 |
| CN108446359B (zh) * | 2018-03-12 | 2021-11-02 | 百度在线网络技术(北京)有限公司 | 信息推荐方法和装置 |
| US20190289085A1 (en) * | 2018-03-13 | 2019-09-19 | Indigenous Software, Inc. | System and method for tracking online user behavior across browsers or devices |
| CN108509806B (zh) * | 2018-04-09 | 2022-03-11 | 北京东方网润科技有限公司 | 一种具有隐私保护的大数据精准营销系统及设备 |
| CN108776679B (zh) * | 2018-05-30 | 2021-12-07 | 百度在线网络技术(北京)有限公司 | 一种搜索词的分类方法、装置、服务器及存储介质 |
| US11250347B2 (en) | 2018-06-27 | 2022-02-15 | Microsoft Technology Licensing, Llc | Personalization enhanced recommendation models |
| CN109165974A (zh) * | 2018-08-06 | 2019-01-08 | 深圳乐信软件技术有限公司 | 一种商品推荐模型训练方法、装置、设备及存储介质 |
| CN110827044B (zh) * | 2018-08-07 | 2024-11-26 | 北京京东尚科信息技术有限公司 | 提取用户兴趣模式的方法和装置 |
| CN109325115B (zh) * | 2018-08-16 | 2021-03-09 | 中国传媒大学 | 一种角色分析方法及分析系统 |
| CN109523301B (zh) * | 2018-10-19 | 2023-11-07 | 中国平安人寿保险股份有限公司 | 产品交易数据处理方法、装置、计算机设备和存储介质 |
| US11323526B2 (en) * | 2019-01-24 | 2022-05-03 | Dell Products L.P. | Analysis and visualization of session paths |
| US11909100B2 (en) | 2019-01-31 | 2024-02-20 | Userzoom Technologies, Inc. | Systems and methods for the analysis of user experience testing with AI acceleration |
| CN111651336B (zh) * | 2019-03-04 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 一种数据上报方法及装置 |
| CN110825943B (zh) * | 2019-10-23 | 2023-10-10 | 支付宝(杭州)信息技术有限公司 | 一种生成用户访问路径树数据的方法、系统及设备 |
| US11507554B2 (en) | 2019-12-26 | 2022-11-22 | Yahoo Assets Llc | Tree-like metadata structure for composite datasets |
| CN111159519B (zh) * | 2019-12-26 | 2021-07-23 | 北京工业大学 | 一种基于网站点击流的公共安全舆情分析方法 |
| KR102289014B1 (ko) * | 2019-12-31 | 2021-08-11 | 연세대학교 산학협력단 | 클릭스트림 데이터를 사용하여 각각의 유저 유형별 웹사이트 사용 패턴이 반영된 각각의 유형별 퍼소나를 생성함으로써 특정 웹사이트의 유저들을 유형화하는 방법 및 장치 |
| CN111242239B (zh) * | 2020-01-21 | 2023-05-30 | 腾讯科技(深圳)有限公司 | 一种训练样本选取方法、装置、以及计算机存储介质 |
| CN111475721B (zh) * | 2020-03-31 | 2023-12-29 | 百度在线网络技术(北京)有限公司 | 信息推送方法、装置、设备及存储介质 |
| JP7204903B2 (ja) | 2020-03-31 | 2023-01-16 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 情報プッシュ方法、装置、機器及び記憶媒体 |
| CN111753208B (zh) * | 2020-06-30 | 2021-08-31 | 贝壳找房(北京)科技有限公司 | 确定用户可比属性收敛度的方法、装置、介质和电子设备 |
| CN112150307B (zh) * | 2020-09-18 | 2024-03-26 | 浙江大学 | 供热系统在线映射模型参数估计方法与系统 |
| US11729247B2 (en) * | 2020-09-24 | 2023-08-15 | Capital One Services, Llc | Systems and methods for decentralized detection of software platforms operating on website pages |
| CN112487301B (zh) * | 2020-12-21 | 2021-11-30 | 北京云思畅想科技有限公司 | 一种基于用户角色和行为自动生成应用模型的方法 |
| CN112559889B (zh) * | 2020-12-25 | 2023-02-28 | 青岛海尔科技有限公司 | 用户操作推荐方法、装置、电子设备及存储介质 |
| CN112966199B (zh) * | 2021-03-03 | 2023-08-04 | 北京百度网讯科技有限公司 | 一种页面调整收益的确定方法、装置、电子设备和介质 |
| CN113364773B (zh) * | 2021-06-04 | 2022-11-29 | 中国工商银行股份有限公司 | 安全性识别方法、装置和电子设备 |
| CN113689246B (zh) * | 2021-08-31 | 2023-09-12 | 中国平安人寿保险股份有限公司 | 基于人工智能的网站监控方法、装置、电子设备及介质 |
| CN114757709B (zh) * | 2022-04-24 | 2024-11-01 | 雄狮汽车科技(南京)有限公司 | 汽车网站的指标框架生成方法、装置、设备及存储介质 |
| CN115168170B (zh) * | 2022-07-19 | 2025-09-16 | 中国银行股份有限公司 | 用户行为采集数据的处理方法及装置 |
| CN115033801B (zh) * | 2022-08-10 | 2022-12-30 | 中国科学技术大学 | 物品推荐方法、模型训练方法及电子设备 |
| CN115658993B (zh) * | 2022-09-27 | 2023-06-06 | 观澜网络(杭州)有限公司 | 一种网页的核心内容的智能化抽取方法及系统 |
| CN116258545A (zh) * | 2022-10-09 | 2023-06-13 | 中国计量大学 | 一种基于定制行为数据的客户认知水平变化的计算方法 |
| CN116167829B (zh) * | 2023-04-26 | 2023-08-29 | 湖南惟客科技集团有限公司 | 一种多维多粒度用户行为分析方法 |
| US12169451B1 (en) * | 2023-12-21 | 2024-12-17 | Wevo, Inc | Usability click tracking with navigable click paths |
| CN120873532B (zh) * | 2025-09-26 | 2025-12-09 | 成都职业技术学院 | 一种基于特征学习的数据预管理方法及系统 |
| CN121502823A (zh) * | 2026-01-13 | 2026-02-10 | 新农创云链(北京)科技有限公司 | 基于大数据的农业信息服务系统 |
Family Cites Families (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6317722B1 (en) * | 1998-09-18 | 2001-11-13 | Amazon.Com, Inc. | Use of electronic shopping carts to generate personal recommendations |
| US6850988B1 (en) * | 2000-09-15 | 2005-02-01 | Oracle International Corporation | System and method for dynamically evaluating an electronic commerce business model through click stream analysis |
| US7962929B1 (en) * | 2002-10-03 | 2011-06-14 | Comcast Ip Holdings I, Llc | Using relevance to parse clickstreams and make recommendations |
| JP3799022B2 (ja) | 2003-02-24 | 2006-07-19 | 酒井重工業株式会社 | 振動機構及び振動ローラ |
| US8069076B2 (en) * | 2003-03-25 | 2011-11-29 | Cox Communications, Inc. | Generating audience analytics |
| US8600920B2 (en) | 2003-11-28 | 2013-12-03 | World Assets Consulting Ag, Llc | Affinity propagation in adaptive network-based systems |
| JP4629463B2 (ja) | 2005-03-10 | 2011-02-09 | 富士フイルム株式会社 | 色変換定義表示装置、色変換定義表示プログラム、および色変換定義表示方法 |
| JP2006331014A (ja) | 2005-05-25 | 2006-12-07 | Oki Electric Ind Co Ltd | 情報提供装置、情報提供方法及び情報提供プログラム |
| US7921069B2 (en) | 2007-06-28 | 2011-04-05 | Yahoo! Inc. | Granular data for behavioral targeting using predictive models |
| US7941383B2 (en) * | 2007-12-21 | 2011-05-10 | Yahoo! Inc. | Maintaining state transition data for a plurality of users, modeling, detecting, and predicting user states and behavior |
| US20090171763A1 (en) | 2007-12-31 | 2009-07-02 | Yahoo! Inc. | System and method for online advertising driven by predicting user interest |
| JP2009193465A (ja) * | 2008-02-15 | 2009-08-27 | Ntt Communications Kk | 情報処理装置、情報提供システム、情報処理方法、およびプログラム |
| US8024342B2 (en) * | 2008-07-31 | 2011-09-20 | Yahoo! Inc. | Systems and methods for determining a tag match ratio |
| US10380634B2 (en) * | 2008-11-22 | 2019-08-13 | Callidus Software, Inc. | Intent inference of website visitors and sales leads package generation |
| US20110029505A1 (en) * | 2009-07-31 | 2011-02-03 | Scholz Martin B | Method and system for characterizing web content |
| US8615442B1 (en) * | 2009-12-15 | 2013-12-24 | Project Rover, Inc. | Personalized content delivery system |
| US20130130214A1 (en) * | 2010-08-04 | 2013-05-23 | Takeo Ohno | Behavior characteristic extraction device, a behavior characteristic extraction system, a behavior characteristic extraction method and a behavior characteristic extraction program |
| WO2012031044A2 (en) | 2010-09-01 | 2012-03-08 | Google Inc. | Methods and apparatus to cluster user data |
| CN101968802A (zh) * | 2010-09-30 | 2011-02-09 | 百度在线网络技术(北京)有限公司 | 一种基于用户浏览行为进行互联网内容推荐的方法与设备 |
| US8676742B2 (en) | 2011-03-29 | 2014-03-18 | Manyworlds, Inc. | Contextual scope-based discovery systems |
| US20120290575A1 (en) * | 2011-05-09 | 2012-11-15 | Microsoft Corporation | Mining intent of queries from search log data |
| US9030498B2 (en) * | 2011-08-15 | 2015-05-12 | Apple Inc. | Combining explicit select gestures and timeclick in a non-tactile three dimensional user interface |
| US20130124298A1 (en) | 2011-11-15 | 2013-05-16 | Huajing Li | Generating clusters of similar users for advertisement targeting |
| CN102567511B (zh) * | 2011-12-27 | 2013-10-02 | 奇智软件(北京)有限公司 | 一种应用自动推荐的方法及装置 |
-
2013
- 2013-09-25 CN CN201310447654.4A patent/CN104462156B/zh active Active
- 2013-12-10 TW TW102145369A patent/TW201513019A/zh unknown
-
2014
- 2014-09-24 US US14/495,749 patent/US10178190B2/en active Active
- 2014-09-24 WO PCT/US2014/057279 patent/WO2015048171A2/en not_active Ceased
- 2014-09-24 EP EP14790816.4A patent/EP3049912B1/en active Active
- 2014-09-24 ES ES14790816T patent/ES2811704T3/es active Active
- 2014-09-24 JP JP2016545218A patent/JP6511455B2/ja active Active
Also Published As
| Publication number | Publication date |
|---|---|
| US10178190B2 (en) | 2019-01-08 |
| EP3049912A4 (en) | 2017-04-26 |
| WO2015048171A2 (en) | 2015-04-02 |
| WO2015048171A3 (en) | 2015-06-11 |
| CN104462156B (zh) | 2018-12-28 |
| EP3049912A2 (en) | 2016-08-03 |
| JP2016536725A (ja) | 2016-11-24 |
| CN104462156A (zh) | 2015-03-25 |
| TW201513019A (zh) | 2015-04-01 |
| JP6511455B2 (ja) | 2019-05-15 |
| EP3049912B1 (en) | 2020-06-17 |
| US20150088911A1 (en) | 2015-03-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2811704T3 (es) | Método y sistema para extraer funciones de comportamiento del usuario para personalizar recomendaciones | |
| Kong et al. | Inferring anchor links across multiple heterogeneous social networks | |
| Dormann et al. | A method for detecting modules in quantitative bipartite networks | |
| Kong et al. | Spot: Locating social media users based on social network context | |
| CN106952166A (zh) | 一种社交平台的用户影响力估算方法及装置 | |
| Afify et al. | A semantic-based software-as-a-service (saas) discovery and selection system | |
| Yu et al. | A real-world service mashup platform based on data integration, information synthesis, and knowledge fusion | |
| US11093565B2 (en) | Methods and systems for identifying multiple devices belonging to a single user by merging deterministic and probabilistic data to generate a cross device data structure | |
| Khan et al. | Collaborative filtering based online recommendation systems: A survey | |
| US20190018897A1 (en) | Computing a ranked feature list for content distribution in a first categorization stage and second ranking stage via machine learning | |
| Chang et al. | Identifying museum visitors via social network analysis of Instagram | |
| US20140308634A1 (en) | Method and system for actualizing progressive learning | |
| Liu et al. | Digger: Detect similar groups in heterogeneous social networks | |
| JP2017016544A (ja) | 情報処理装置、情報処理方法 | |
| Mathias et al. | Personalized sightseeing tours: a model for visits in art museums | |
| Igual et al. | Network Analysis | |
| Koliouska et al. | E-commerce in the context of protected areas development: A managerial perspective under a multi-criteria approach | |
| Zhao et al. | Crafting a time-aware point-of-interest recommendation via pairwise interaction tensor factorization | |
| CN105528704A (zh) | 一种基于阶段的动态产品推荐方法 | |
| Dhekane et al. | Talash: Friend Finding In Federated Social Networks. | |
| Li et al. | A model of social network formation under the impact of structural balance | |
| Abderrahim et al. | Towards improving recommender system: a social trust-aware approach | |
| Batura | Methods of social networks analysis | |
| CN109074365A (zh) | 使网络通信路径参数化 | |
| Tsukanova et al. | Model-based monitoring and analysis of the network community dynamics in a textured state space |


























