ES2961676T3

ES2961676T3 - Sistema de clasificación rápido y eficiente

Info

Publication number: ES2961676T3
Application number: ES18197508T
Authority: ES
Inventors: Tim Spratt; Josh Forman-Gornall
Original assignee: Permutive Ltd
Current assignee: Permutive Ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2024-03-13
Anticipated expiration: 2038-09-28
Also published as: EP3629520C0; US20220004887A1; EP3629520A1; CN113169890B; WO2020065069A1; CN113169890A; KR20210076928A; AU2019348539B2; JP2025041859A; JP2022502770A; EP3629520B1; AU2019348539A1; CA3114437A1; KR102772172B1

Abstract

Un servidor para generar un modelo de clasificación entrenado para clasificar una entidad o clasificar la similitud de la entidad con otras entidades. El servidor comprende medios de almacenamiento dispuestos para almacenar características de una primera pluralidad de entidades, en donde cada una de la primera pluralidad de entidades está clasificada con una primera clasificación. El servidor comprende un módulo de entrenamiento dispuesto para entrenar un modelo de clasificación para clasificar una entidad de entrada con la primera clasificación, o para clasificar la similitud de la entidad de entrada con la primera pluralidad de entidades, basándose en las características de la entidad de entrada. El modelo de clasificación se entrena utilizando características de la primera pluralidad de entidades como datos de entrenamiento. El servidor comprende además un transmisor dispuesto para transmitir el modelo de clasificación entrenado a un dispositivo cliente para su uso en el dispositivo cliente. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCION

Sistema de clasificación rápido y eficiente

Campo técnico

[0001] Esta divulgación se relaciona con un sistema, un método implementado por computadora y un programa de computadora para clasificar una entidad, o clasificar la similitud de la entidad con otras entidades.

Antecedentes

[0002] En los próximos años, se prevé que la cantidad de dispositivos conectados a Internet, como parte de Internet de las cosas (IoT), aumentará exponencialmente. Estos dispositivos están destinados a recopilar datos y transmitir esos datos a la 'nube'. A medida que aumenta sustancialmente la cantidad de dispositivos y la cantidad de datos que recopilan, la demanda computacional y de almacenamiento en los servidores de la nube se vuelve problemática. Además, existe el problema del ancho de banda finito, lo que significa que la transmisión de datos a la nube también puede resultar problemática.

[0003] El número de aplicaciones de aprendizaje automático también está creciendo rápidamente. Se está convirtiendo en una característica común de muchas plataformas y soluciones y es útil cuando se procesan grandes cantidades de datos, particularmente para el reconocimiento de patrones, la detección de anomalías y la formación de asociaciones de datos.

[0004] Los dispositivos electrónicos, en particular los que se conectan de forma inalámbrica a Internet, incluidos los teléfonos móviles, consumen una parte importante de su uso de energía en la conexión y transferencia de datos hacia y desde Internet a través de Wi-Fi, una red de datos de telecomunicaciones u otros medios. En dispositivos como los teléfonos móviles, la energía almacenada en la batería representa una limitación en el tiempo de uso del dispositivo cuando es necesario enviar y recibir datos con frecuencia y durante un período prolongado de tiempo hacia/desde Internet. Para las plataformas de análisis y procesamiento en la nube en general, incluidas aquellas con funciones de aprendizaje automático, es común que el dispositivo deba mantenerse en comunicación regular con la nube, de modo que los datos almacenados en la nube se mantengan actualizados. con los datos recopilados en el dispositivo. En términos de uso, por lo tanto, no es deseable que un sistema de aprendizaje automático basado en la nube a menudo requiera un alto volumen de transmisiones de datos frecuentes.

[0005] Clasificar o 'segmentar' entidades (como dispositivos o usuarios) en función de los datos asociados con estas entidades (como sus características) es un medio poderoso para identificar entidades específicas que son de interés por una razón particular. Por ejemplo, es deseable poder clasificar un dispositivo específico en un sistema como defectuoso para que se puedan tomar las medidas necesarias para que el sistema vuelva a funcionar correctamente. En otro ejemplo, es deseable poder clasificar un dispositivo, o un usuario, como representante de una amenaza a la seguridad para que se puedan tomar las precauciones adecuadas para neutralizar la amenaza.

[0006] La clasificación de entidades utilizando criterios establecidos puede ser restrictiva y potencialmente puede resultar en entidades faltantes de una clasificación particular. Por ejemplo, podría darse el caso de que algunas entidades que no cumplan con todos los criterios aún tengan suficiente relevancia como para incluirlas en un grupo o segmento de clasificación.

[0007] Es útil automatizar la decisión sobre qué entidades deben recibir una clasificación particular, particularmente para un sistema que necesita clasificar entidades casi en tiempo real. Además, se necesitaría un tiempo prohibitivamente largo para clasificar entidades manualmente y para que dicho sistema siguiera siendo escalable para grandes conjuntos de datos. Para un conjunto relevante de entidades con una clasificación particular, la decisión de incluir un usuario o dispositivo en la clase debe basarse en su relevancia o su similitud con las entidades que satisfacen los criterios de clasificación. Por ejemplo, puede darse el caso de que existan correlaciones desconocidas entre las características de las entidades, lo que puede dar como resultado que falten entidades de una clasificación particular.

[0008] Los algoritmos de aprendizaje automático se pueden entrenar con conjuntos de datos que cambian continuamente, a medida que se cargan y reciben más datos. El reentrenamiento implica aprender nuevos parámetros para el modelo, y estos nuevos parámetros del modelo pueden volver obsoletas las clasificaciones asignadas previamente a las entidades. Sin embargo, puede ser computacionalmente costoso y sensible al tiempo reclasificar todas las entidades que fueron previamente clasificadas. Por ejemplo, en un entorno de nube típico, un sistema con 100 millones de entidades clasificadas reclasificará los 100 millones de entidades para una clasificación dada que tiene nuevos parámetros de modelo.

[0009] A la luz de lo anterior, existe la necesidad de un sistema que pueda clasificar entidades de manera rápida y precisa e identificar entidades que son similares a entidades de una clasificación particular. Es deseable que esto se logre de una manera que haga un uso eficiente de los recursos de procesamiento y el ancho de banda. Además, existe la necesidad de reclasificar entidades previamente clasificadas de una manera computacionalmente eficiente.

[0010] US20180197087A1 proporciona un método implementado por computadora que incluye un sistema informático que genera un primer modelo de clasificación para determinar una clasificación de un elemento de datos. El primer modelo de clasificación se genera utilizando al menos datos de contenido de referencia o metadatos de referencia. El sistema recibe datos de contenido modificados que indican un cambio en los datos de contenido de referencia y metadatos modificados que indican un cambio en los metadatos de referencia. El sistema genera una métrica de impacto basada en al menos los datos de contenido modificados o los metadatos modificados y compara la métrica de impacto con una métrica de umbral para determinar si la métrica de impacto supera la métrica de umbral. En respuesta a la métrica de impacto que excede la métrica de impacto de umbral 2a, el sistema genera un segundo modelo de clasificación para determinar una clasificación del elemento de datos.

[0011] US7577709B1 proporciona, en un aspecto, un elemento de datos que se ingresa en un clasificador de puntuación de manera que el clasificador de puntuación indica que el elemento de datos pertenece a una primera clase. Se toma una determinación en cuanto a la cantidad de reentrenamiento del clasificador de puntuación, en base al elemento de datos, que se requiere para hacer que el clasificador de puntuación indique que el elemento de datos pertenece a una segunda clase. Se determina una medida de fiabilidad en base a la cantidad requerida de reentrenamiento y se determina una clase del elemento de datos en base, al menos en parte, a la medida de fiabilidad.

[0012] US20120101968A1 proporciona un producto de programa informático para un dispositivo de administración de red, que incluye: un medio de almacenamiento legible por computadora para almacenar un programa legible por computadora, en el que el programa legible por computadora, cuando se ejecuta en una computadora, hace que la computadora realice operaciones para la administración del servidor en una red computadora. Las operaciones incluyen: recibir datos de uso de recursos generados en un dispositivo de comunicación de red acoplado entre un servidor y un dispositivo de gestión de red, donde los datos de uso de recursos describen el uso de recursos del servidor; y clasificar el servidor en un grupo de servidores en base a los datos de uso de recursos del dispositivo de comunicación de red y una caracterización de grupo para el grupo. El grupo incluye una pluralidad de servidores con datos de uso de recursos similares, y el grupo es uno de una pluralidad de grupos gestionados por el dispositivo de gestión de red.

Resumen

[0013] En un aspecto de la invención, se proporciona un sistema para clasificar una entidad o clasificar la similitud de la entidad con otras entidades, comprendiendo el sistema;

un servidor que comprende:

medios de almacenamiento dispuestos para almacenar características de una primera pluralidad de entidades, en el que cada una de la primera pluralidad de entidades se clasifica con una primera clasificación;

un módulo de entrenamiento dispuesto para entrenar un modelo de clasificación para clasificar una entidad de entrada en función de las características de la entidad de entrada, en el que el modelo de clasificación se entrena usando las características de la primera pluralidad de entidades como datos de entrenamiento; y

un transmisor dispuesto para transmitir el modelo de clasificación entrenado a un dispositivo cliente; y

en el que el sistema comprende además el dispositivo cliente (200), en el que el dispositivo cliente comprende:

un receptor dispuesto para recibir el modelo de clasificación entrenado; y memoria dispuesta para almacenar el modelo de clasificación entrenado; y

un procesador dispuesto para procesar datos que comprenden características de al menos una entidad de entrada usando el modelo de clasificación entrenado almacenado en el dispositivo del cliente haciendo que el modelo de clasificación entrenado genere una puntuación de similitud para clasificar la similitud de al menos una entidad de entrada para la primera pluralidad de entidades, caracterizada porque el módulo de entrenamiento está dispuesto para entrenar el modelo de clasificación determinando una ponderación para cada uno de una pluralidad de parámetros, y donde la ponderación para cada uno de los parámetros indica la magnitud del efecto que el parámetro tiene en la salida del modelo de clasificación.

[0014] En la invención, un modelo de aprendizaje automático (AA) (es decir, el modelo de clasificación) se entrena utilizando características de entidades con la primera clasificación para clasificar otra entidad con la misma clasificación. De esta forma, las entidades no clasificadas se pueden clasificar con mayor precisión que utilizando un conjunto restrictivo de criterios predeterminados. Además, el modelo AA está entrenado para clasificar la similitud de la entidad con las entidades con la primera clasificación. Esto permite identificar entidades que son similares a otras entidades clasificadas.

[0015] En la invención, el modelo AA se entrena en un servidor en la nube. Luego, el modelo AA se distribuye a un dispositivo cliente y el modelo AA se ejecuta en el dispositivo cliente para generar la clasificación. Esto alivia la carga de los servidores en la nube y la red de transmisión. Esto también reduce el consumo de energía del dispositivo cliente, ya que no se requiere que el dispositivo cliente entrene el modelo AA. Además, una vez que se han recibido los parámetros del modelo en el dispositivo cliente en el borde, el dispositivo cliente puede continuar clasificando y reaccionando a los datos que se generan en el dispositivo sin necesidad de una conexión a Internet. Esto es valioso en casos donde la conectividad es variable o inestable y ante una falla del servidor central, ya que hace que la clasificación para el dispositivo sea autónoma y robusta.

[0016] El procesamiento de los datos relativos a la entidad de entrada se realiza en el procesador del dispositivo cliente, sin necesidad de enviar estos datos a la nube. Esto niega la necesidad de una comunicación constante y frecuente entre los servidores en la nube y el dispositivo del cliente. Por lo tanto, esta solución consume menos energía, lo que es particularmente útil para los dispositivos que funcionan con baterías. Esto también ayuda a evitar que se envíen datos confidenciales a entidades malintencionadas, lo que mejora la seguridad y la privacidad de los datos.

[0017] Otra ventaja de la invención es que el número de procesadores, y por lo tanto la capacidad de procesamiento del sistema, es proporcional al número de dispositivos involucrados. Además, dado que se reduce la cantidad de datos que se transmiten, las restricciones de ancho de banda se vuelven menos problemáticas. Por lo tanto, el sistema es inherentemente escalable.

[0018] Además, el tiempo necesario para procesar los datos de los dispositivos se mantiene constante, independientemente del tamaño del sistema. Desde la perspectiva del dispositivo cliente o usuario, el procesamiento se puede llevar a cabo casi en tiempo real, independientemente del tamaño de la red. En el contexto de un sistema de gestión de datos, tener una latencia insignificante entre la recopilación de datos y la salida procesada es muy ventajoso, ya que permite la interacción en vivo con dispositivos o usuarios o la reacción a ellos.

[0019] En resumen, los beneficios del sistema propuesto son: consumo de energía mejorado para el usuario final, procesamiento en tiempo real continuo, mayor velocidad para responder a un evento, uso más eficiente de los recursos de procesamiento, la capacidad de procesar datos privados, confidenciales y/o personales localmente en lugar de transmitirlos a la nube, y mayor resistencia a los problemas de conectividad.

[0020] En un ejemplo no reivindicado de la invención, hay un servidor para generar un modelo de clasificación entrenado para clasificar una entidad o clasificar la similitud de la entidad con otras entidades, comprendiendo el servidor;

medios de almacenamiento dispuestos para almacenar características de una primera pluralidad de entidades, donde cada una de la primera pluralidad de entidades se clasifica con una primera clasificación;

un módulo de entrenamiento dispuesto para entrenar un modelo de clasificación para clasificar una entidad de entrada con la primera clasificación, o para clasificar la similitud de la entidad de entrada con la primera pluralidad de entidades, en función de las características de la entidad de entrada, en el que el modelo de clasificación se entrena usando características de la primera pluralidad de entidades como datos de entrenamiento; y en el que el servidor comprende, además: un transmisor dispuesto para transmitir el modelo de clasificación entrenado a un dispositivo cliente para su uso en el dispositivo cliente.

[0021] En otro ejemplo no reivindicado de la invención, existe un dispositivo cliente para clasificar una entidad o clasificar la similitud de la entidad con otras entidades, comprendiendo el dispositivo cliente;

un receptor dispuesto para recibir un modelo de clasificación entrenado desde un servidor;

en el que el modelo de clasificación entrenado ha sido entrenado por el servidor usando características de una primera pluralidad de entidades clasificadas con una primera clasificación como datos de entrenamiento para clasificar una entidad de entrada con la primera clasificación, o para clasificar la similitud de la entidad de entrada con la primera pluralidad de entidades, en función de las características de la entidad de entrada;

en el que el dispositivo cliente comprende, además:

memoria dispuesta para almacenar el modelo de clasificación entrenado;

y un procesador dispuesto para procesar datos que comprenden características de al menos una entidad de entrada usando el modelo de clasificación entrenado almacenado en el dispositivo del cliente haciendo que el modelo de clasificación entrenado emita una señal que:

clasifica la al menos una entidad de entrada con la primera clasificación; o

clasifica la similitud de al menos una entidad de entrada con la primera pluralidad de entidades.

[0022] En otro ejemplo no reivindicado de la invención, existe un método implementado por ordenador para clasificar una entidad o clasificar la similitud de la entidad con otras entidades, comprendiendo el método;

obtener, en un servidor, características de una primera pluralidad de entidades, donde cada una de la primera pluralidad de entidades se clasifica con una primera clasificación;

entrenar, en el servidor, un modelo de clasificación para clasificar una entidad de entrada con la primera clasificación, o para clasificar la similitud de la entidad de entrada con la primera pluralidad de entidades, en función de las características de la entidad de entrada, en el que el modelo de clasificación se entrena usando características de la primera pluralidad de entidades como datos de entrenamiento;

transmitir, desde el servidor, el modelo de clasificación entrenado a un dispositivo cliente;

almacenar el modelo de clasificación entrenado en el dispositivo cliente;

y procesar datos que comprenden características de al menos una entidad de entrada usando el modelo de clasificación entrenado almacenado en el dispositivo cliente haciendo que el modelo de clasificación entrenado emita una señal que:

clasifica la al menos una entidad de entrada con la primera clasificación; o

[0023] En otro aspecto de la invención, existe un método implementado por computadora para generar un modelo de clasificación entrenado para clasificar una entidad o clasificar la similitud de la entidad con otras entidades, comprendiendo el método;

entrenar, en el servidor, un modelo de clasificación para generar una puntuación de similitud con el fin de clasificar la similitud de al menos una entidad de entrada con la primera pluralidad de entidades en función de las características de la entidad de entrada, en el que el modelo de clasificación se entrena usando el características de la primera pluralidad de entidades como datos de entrenamiento;

transmitir, desde el servidor, el modelo de clasificación entrenado a un dispositivo cliente para su uso en el dispositivo cliente,

caracterizado porque entrenar el modelo de clasificación, en el servidor, comprende determinar una ponderación para cada uno de una pluralidad de parámetros, y donde la ponderación para cada uno de los parámetros indica la magnitud del efecto que tiene el parámetro sobre la salida del modelo de clasificación.

[0024] En otro ejemplo no reivindicado de la invención, existe un método implementado por ordenador para clasificar una entidad o clasificar la similitud de la entidad con otras entidades, comprendiendo el método;

recibir, en el dispositivo del cliente, un modelo de clasificación entrenado desde un servidor;

en el que el modelo de clasificación entrenado ha sido entrenado por el servidor usando características de una primera pluralidad de entidades clasificadas con una primera clasificación como datos de entrenamiento para clasificar una entidad de entrada con la primera clasificación, o para clasificar la similitud de la entidad de entrada con la primera pluralidad de entidades, en función de las características de la entidad de entrada; almacenar el modelo de clasificación entrenado en el dispositivo cliente;

procesar datos que comprenden características de al menos una entidad de entrada utilizando el modelo de clasificación entrenado almacenado en el dispositivo cliente haciendo que el modelo de clasificación entrenado emita una señal que: clasifica la al menos una entidad de entrada con la primera clasificación;

o clasifica la similitud de al menos una entidad de entrada con la primera pluralidad de entidades.

[0025] El receptor en el dispositivo cliente puede estar dispuesto para recibir una puntuación de similitud de umbral. El procesador puede estar dispuesto para ejecutar una acción si la puntuación de similitud de al menos una entidad de entrada alcanza la puntuación de similitud umbral.

[0026] El método implementado por computadora puede comprender recibir un puntaje de similitud de umbral; y puede comprender ejecutar una acción si la puntuación de similitud de al menos una entidad de entrada alcanza la puntuación de similitud umbral.

[0027] El procesador, en el dispositivo cliente, puede estar dispuesto para ejecutar una pluralidad de acciones diferentes, en el que cada una de las acciones se ejecuta en respuesta a una puntuación de similitud diferente asociada con la al menos una entidad de entrada.

[0028] La acción a ejecutar en respuesta a la señal puede ser definida por un operador del sistema.

[0029] La acción ejecutada en respuesta a la señal puede comprender generar una instrucción de contenido para mostrar contenido en el dispositivo cliente, donde el contenido se basa en la al menos una entidad de entrada que se clasifica con la primera clasificación, o en base a la similitud de la al menos una entidad de entrada a la primera pluralidad de entidades.

[0030] La acción puede comprender transmitir un mensaje que indique que al menos una entidad de entrada está clasificada con la primera clasificación, o que indique la similitud de al menos una entidad de entrada con la primera pluralidad de entidades.

[0031] Un receptor, en el servidor, puede disponerse para obtener características de una segunda pluralidad de entidades que son diferentes a la primera pluralidad de entidades. El servidor puede comprender un analizador de modelos que está dispuesto para procesar datos que comprenden las características de la segunda pluralidad de entidades usando el modelo de clasificación entrenado para generar una puntuación de similitud para cada una de la segunda pluralidad de entidades, en donde cada puntuación de similitud generada por el el modelo de clasificación entrenado está asociado con una de la segunda pluralidad de entidades y clasifica la similitud de la entidad asociada con la primera pluralidad de entidades.

[0032] El método implementado por computadora puede comprender obtener características de una segunda pluralidad de entidades que son diferentes a la primera pluralidad de entidades. El método implementado por computadora puede comprender el procesamiento de datos que comprenden las características de la segunda pluralidad de entidades usando el modelo de clasificación entrenado para generar una puntuación de similitud para cada una de la segunda pluralidad de entidades, en el que cada puntuación de similitud generada por el modelo de clasificación rastreado está asociada con Aceite de la segunda pluralidad de elites y clasifica la similitud de la elite asociada a la primera pluralidad de elites.

[0033] El analizador de modelos se puede configurar para calcular el número de los segundos elementos asociados con cada puntaje de similitud generado por el modelo de clasificación seguido.

[0034] El método implementado por computadora puede comprender calcular el número de las segundas entidades asociadas con cada resultado de puntuación de similitud por el modelo de clasificación rastreado.

[0035] El analizador de modelos se puede configurar para calcular el número de los segundos elementos que tienen un puntaje de similitud que cumple con una pluralidad de umbrales diferentes.

[0036] El método implementado por computadora puede comprender calcular el número de las segundas entidades que tienen una puntuación de similitud que cumple con una pluralidad de umbrales diferentes.

[0037] El analizador de modelos puede configurarse para generar una pantalla gráfica que indique el número de las segundas entidades asociadas con cada puntaje de similitud generado por el modelo de clasificación rastreado.

[0038] El método implementado por computadora puede comprender generar una pantalla gráfica que indique el número de las segundas entidades asociadas con cada puntaje de similitud generado por el modelo de clasificación rastreado.

[0039] El analizador de modelos se puede configurar para generar una pantalla gráfica que indique el número de las segundas entidades que tienen una puntuación de similitud que cumple una pluralidad de umbrales diferentes.

[0040] El método implementado por ordenador puede comprender la salida de una pantalla gráfica que indica el número de las segundas entidades que tienen una puntuación de similitud que cumple una pluralidad de umbrales diferentes.

[0041] El receptor en el dispositivo cliente se puede configurar para recibir un conjunto de puntuación de similitud de umbral basado en el número de las segundas cualidades asociadas con cada resultado de puntuación de similitud.

[0042] El método implementado por computadora puede comprender recibir un conjunto de puntuación de similitud de umbral basado en el número de las segundas cualidades asociadas con cada salida de puntuación de similitud.

[0043] Se puede ordenar que el receptor en el dispositivo cliente reciba un conjunto de puntajes de similitud de umbral basado en el número de las segundas entidades que tienen un puntaje de similitud que cumple con una pluralidad de umbrales diferentes.

[0044] El método implementado por computadora puede comprender recibir un conjunto de puntajes de similitud de umbral basado en el número de las segundas entidades que tienen un puntaje de similitud que cumple con una pluralidad de umbrales diferentes.

[0045] La primera pluralidad de entidades clasificadas con la primera clasificación puede cumplir un primer conjunto de criterios predefinidos. Los criterios predefinidos pueden ser ajustables.

[0046] El sistema puede comprender además un dispositivo de operador que comprenda: una interfaz dispuesta para permitir que un operador especifique un primer conjunto de criterios para la comparación con las características de una entidad, donde una entidad que cumple con el primer conjunto de criterios se clasifica con el primer clasificación; y un transmisor dispuesto para transmitir el primer conjunto de criterios al servidor; en el que el servidor comprende además un receptor dispuesto para recibir el primer conjunto de criterios; y en el que el módulo de formación está dispuesto para comparar el primer conjunto de criterios con las características de una pluralidad de entidades y clasificar las entidades que cumplen el primer conjunto de criterios con la primera clasificación.

[0047] El método implementado por computadora puede comprender recibir un primer conjunto de criterios especificados por un operador para compararlos con las características de una entidad, donde una entidad que cumple con el primer conjunto de criterios se clasifica con la primera clasificación.

[0048] El método implementado por ordenador puede comprender la transmisión del primer conjunto de criterios al servidor.

[0049] El método implementado por computadora puede comprender recibir el primer conjunto de criterios.

[0050] El método implementado por ordenador puede comprender comparar el primer conjunto de criterios con las características de una pluralidad de entidades y clasificar entidades que cumplen el primer conjunto de criterios con la primera clasificación.

[0051] El módulo de capacitación puede organizarse para calcular el número de entidades que cumplen con el primer conjunto de criterios.

[0052] El método implementado por computadora puede comprender calcular el número de entidades que cumplen con el primer conjunto de criterios.

[0053] El módulo de capacitación puede organizarse para iniciar la capacitación del modelo de clasificación en función del número de entidades que cumplan con el primer conjunto de criterios.

[0054] El método implementado por computadora puede comprender iniciar el entrenamiento del modelo de clasificación en función del número de entidades que cumplan con el primer conjunto de criterios.

[0055] El dispositivo cliente puede comprender un transmisor dispuesto para transmitir una solicitud de elemento web indicativa de un elemento web.

[0056] El método implementado por ordenador puede comprender la transmisión de una solicitud de elemento web indicativa de un elemento web.

[0057] El sistema puede comprender además un servidor de elementos web dispuesto para transmitir el elemento web y el clasificador entrenado al dispositivo cliente, en respuesta a la solicitud del elemento web.

[0058] El método implementado por computadora puede comprender transmitir el elemento web y el clasificador entrenado al dispositivo cliente, en respuesta a la solicitud del elemento web.

[0059] Las entidades pueden ser dispositivos informáticos y, por lo tanto, las características pueden describir el rendimiento de los dispositivos informáticos.

[0060] Los dispositivos de cómputo con la primera clasificación pueden ser clasificados como defectuosos, o susceptibles de funcionar mal.

[0061] Las entidades pueden ser usuarios y las características pueden describir atributos de los usuarios y/o actividad de los usuarios.

[0062] El usuario con la primera clasificación puede ser clasificado como una posible amenaza a la seguridad.

[0063] El clasificador capacitado puede organizarse para recibir características de una entidad como entradas.

[0064] El entrenamiento del modelo de clasificación comprende determinar una ponderación para cada uno de una pluralidad de parámetros, en donde la ponderación asociada con cada parámetro indica la magnitud del efecto que el parámetro tiene sobre la señal de salida.

[0065] Opcionalmente, el método implementado por computadora comprende determinar si la ponderación asociada con al menos uno de los parámetros cumple con una ponderación umbral. El módulo de entrenamiento puede estar dispuesto para determinar si la ponderación asociada con al menos uno de los parámetros alcanza una ponderación umbral. Opcionalmente, el clasificador entrenado no utiliza el al menos un parámetro asociado con una ponderación que no cumple (o está por debajo de) una ponderación umbral para clasificar la entidad, o clasificar la similitud de al menos una entidad de entrada con la primera pluralidad de entidades Opcionalmente, el parámetro identificado no se usa porque el parámetro no está incluido en el procesamiento realizado por el modelo de clasificación entrenado. Opcionalmente, el al menos un parámetro asociado con una ponderación que no cumple (o está por debajo) de un umbral se omite del modelo entrenado. El módulo de entrenamiento en el servidor puede realizar la omisión del al menos un parámetro del modelo entrenado. Opcionalmente, el al menos un parámetro se omite porque se elimina del modelo, o porque el modelo entrenado se envía al dispositivo cliente sin el parámetro (o parámetros) omitido. La ponderación del umbral puede basarse en las ponderaciones de los parámetros. Por ejemplo, el umbral predefinido puede ser un promedio de las ponderaciones de los parámetros. La ponderación del umbral puede ser ajustable y, opcionalmente, la ponderación del umbral puede ser ajustable por un usuario.

[0066] Opcionalmente, el clasificador entrenado no utiliza un parámetro asociado con las ponderaciones más bajas para clasificar la entidad, o clasificar la similitud de al menos una entidad de entrada con la primera pluralidad de entidades.

[0067] Opcionalmente, el clasificador entrenado no utiliza un número predefinido de parámetros asociados con las ponderaciones más bajas para clasificar la entidad, o clasificar la similitud de al menos una entidad de entrada con la primera pluralidad de entidades.

[0068] El método implementado por computadora puede comprender volver a entrenar el modelo de clasificación para clasificar una entidad de entrada con la primera clasificación, o para clasificar la similitud de la entidad de entrada con la primera pluralidad de entidades. Opcionalmente, el módulo de entrenamiento está dispuesto para volver a entrenar el modelo de clasificación para clasificar una entidad de entrada con la primera clasificación, o para clasificar la similitud de la entidad de entrada con la primera pluralidad de entidades. El modelo de clasificación se puede volver a entrenar usando un segundo conjunto diferente de características de una pluralidad de entidades clasificadas con la primera clasificación como datos de entrenamiento. El modelo de clasificación puede volver a entrenarse usando un segundo conjunto diferente de características de una pluralidad de entidades, diferente a la primera pluralidad de entidades, clasificadas con la primera clasificación como datos de entrenamiento.

[0069] El método implementado por computadora puede comprender volver a entrenar el modelo de clasificación a una frecuencia predeterminada, o después de un intervalo de tiempo predeterminado. El módulo de entrenamiento puede estar dispuesto para volver a entrenar el modelo de clasificación a una frecuencia predeterminada, o después de un intervalo de tiempo predeterminado. La frecuencia predeterminada, o el intervalo de tiempo predeterminado, puede ser ajustable y, opcionalmente, la frecuencia predeterminada es ajustable por un usuario.

[0070] El método implementado por computadora puede comprender transmitir el modelo de clasificación reentrenado al dispositivo cliente. El transmisor puede estar dispuesto para transmitir el modelo de clasificación reacondicionado al dispositivo cliente.

[0071] El método implementado por computadora puede comprender recibir el modelo de clasificación reprogramado en el dispositivo cliente, almacenar el modelo de clasificación reprogramado en el dispositivo cliente; y procesar datos que comprenden características de al menos una entidad de entrada usando el modelo de clasificación reprogramado almacenado en el dispositivo cliente haciendo que el modelo de clasificación reprogramado emita una señal que: clasifica la al menos una entidad de entrada con la primera clasificación; o clasifica la similitud de al menos una entidad de entrada con la primera pluralidad de entidades.

[0072] El receptor en el dispositivo del cliente puede estar dispuesto para recibir el modelo de clasificación reacondicionado. La memoria puede disponerse para almacenar el modelo de clasificación reacondicionado. El procesador puede configurarse para procesar datos que comprenden características de al menos una entidad de entrada utilizando el modelo de clasificación reprogramado almacenado en el dispositivo cliente, lo que hace que el modelo de clasificación reprogramado emita una señal que: clasifica al menos una entidad de entrada con la primera clasificación; o clasifica la similitud de al menos una entidad de entrada con la primera pluralidad de entidades.

[0073] El método implementado por computadora puede comprender la transmisión del modelo de clasificación reentrenado al dispositivo cliente transmitiendo solo los parámetros del modelo reentrenado que difieren de los parámetros del modelo entrenado. El transmisor puede estar dispuesto para transmitir el modelo de clasificación reprogramado al dispositivo cliente transmitiendo únicamente los parámetros del modelo reprogramado que difieren de los parámetros del modelo entrenado.

[0074] El método implementado por computadora puede comprender determinar si una entidad de entrada ha sido clasificada con una clasificación inicial; y procesar datos que comprenden características de al menos una entidad de entrada usando el modelo de clasificación almacenado, solo si el modelo de clasificación almacenado difiere del modelo de clasificación usado para clasificar la entidad de entrada con la clasificación inicial.

[0075] El procesador en el dispositivo del cliente puede configurarse para determinar si una entidad de entrada ha sido clasificada con una clasificación inicial; y en el que el procesador está dispuesto para procesar datos que comprenden características de al menos una entidad de entrada utilizando el modelo de clasificación almacenado, solo si el modelo de clasificación almacenado difiere del modelo de clasificación utilizado para clasificar la entidad de entrada con la clasificación inicial.

[0076] El método implementado por computadora puede comprender determinar si una entidad de entrada ha sido clasificada con una clasificación inicial; obtener una clasificación reentrenada en el dispositivo cliente desde el servidor y procesar datos que comprenden características de al menos una entidad de entrada usando el modelo de clasificación reentrenado, solo si el modelo de clasificación entrenado más recientemente en el servidor difiere del modelo de clasificación utilizado para clasificar la entidad de entrada con la clasificación inicial.

[0077] El procesador en el dispositivo del cliente puede estar dispuesto para determinar si una entidad de entrada ha sido clasificada con una clasificación inicial; y para obtener una clasificación reentrenada del servidor y procesar datos que comprenden características de al menos una entidad de entrada utilizando el modelo de clasificación reentrenado, solo si el modelo de clasificación entrenado más recientemente en el servidor difiere del modelo de clasificación usado para clasificar la entidad de entrada con el clasificación inicial.

[0078] El modelo de clasificación entrenado puede comprender un modelo de regresión lineal.

[0079] En otro ejemplo no reivindicado de la invención, hay un programa informático que comprende instrucciones que, cuando el programa es ejecutado por una computadora, hacen que la computadora lleve a cabo el método implementado por computadora descrito en este documento.

[0080] En otro ejemplo no reivindicado de la invención, hay un medio legible por computadora que comprende instrucciones que, cuando son ejecutadas por una computadora, hacen que la computadora lleve a cabo el método implementado por computadora descrito en este documento.

[0081] En otro ejemplo no reivindicado de la invención, hay una señal portadora de datos que transporta el programa informático descrito en este documento.

Breve descripción de los dibujos

[0082] Se describirán formas de realización de la invención, a modo de ejemplo, con referencia a los siguientes dibujos, en los que:

La figura 1 ilustra una vista general de un sistema para clasificar una entidad o clasificar el similitud de la entidad con otras entidades;

La figura 2 ilustra un diagrama de flujo que describe los pasos de un método para clasificar una entidad o clasificar la similitud de la entidad con otras entidades;

La figura 3 ilustra una visualización gráfica de un resultado de un modelo de clasificación entrenado;

La figura 4 ilustra más detalles del sistema;

La figura 5 ilustra una descripción general de un método que clasifica una entidad usando el modelo de clasificación entrenado; y

La figura 6 ilustra un ejemplo de un dispositivo electrónico del sistema.

Descripción detallada

[0083] Con referencia a la Figura 1, hay un sistema 1 que comprende una red en la nube 3 que recopila datos que describen entidades de proveedores de datos de terceros 1. La red en la nube 3 ingresa los datos en una base de datos de clasificación 7 que se usa para entrenar modelos de aprendizaje automático a través de un servicio de aprendizaje automático 2 en un servidor. La nube 3 también envía información y recibe datos de un tablero en línea en la nube 4. La red en la nube 3 puede ser Internet, por ejemplo.

[0084] El servicio de aprendizaje automático 2 envía los parámetros del modelo a la red en la nube 3. Los parámetros del modelo se inyectan en porciones de código, o kits de desarrollo de software (SDK), que se envían a través de redes de entrega de contenido 5 a dispositivos cliente 6 donde se procesan los segmentos. Los dispositivos cliente 6 pueden denominarse dispositivos periféricos en el sistema 10. Cada dispositivo cliente 6 puede adoptar la forma de un teléfono móvil, una tableta, un ordenador portátil, un ordenador u otra forma 30 de dispositivo electrónico que comprenda medios de procesamiento y medios de comunicación de datos entre él e Internet.

[0085] Los datos propios se transmiten desde los dispositivos de borde 6 a la red en la nube 3. Estos datos pueden ser indicativos de las características de las entidades, como las características de los dispositivos de borde 5, las características del hardware dentro de los dispositivos de borde o las características que describen los atributos de los usuarios de los dispositivos de borde 6. Los datos transmitidos desde los dispositivos de borde 6 pueden tomar muchas formas tales como, pero sin limitarse a, datos personales y estadísticos. Estos datos se almacenan en la base de datos de clasificación 7.

[0086] Un operador del sistema puede desear analizar entidades o reaccionar a una parte específica de un conjunto de entidades. Por ejemplo, el propietario de un sitio web puede desear analizar a los usuarios o reaccionar ante tipos específicos de usuarios que visitan un sitio web. Los tipos de entidades detectadas por el sistema pueden basarse en criterios establecidos (o predeterminados) y la similitud de las entidades con las entidades que cumplen los criterios establecidos. Es deseable que la clasificación de entidades se lleve a cabo en tiempo real (o lo más cerca posible del tiempo real) para que las reacciones a una entidad con una clasificación particular se puedan hacer rápidamente.

[0087] Haciendo referencia a la figura 2, existe un método en el que un operador define una clasificación e inicia el entrenamiento de un modelo de clasificación en un servidor. El operador puede realizar este método en un dispositivo de operador 8 interactuando con el panel de control en línea en la nube 4 y el servicio de aprendizaje automático 2. El tablero en línea 4 puede mostrar análisis estadísticos y visuales además de tener la funcionalidad para alterar aspectos del sistema 10, incluida la creación y modificación de clases (o "segmentos").

[0088] En este ejemplo, se accede al tablero en línea 4 a través de Internet utilizando un navegador en un teléfono móvil, tableta, computadora portátil, computadora u otro dispositivo conectado a Internet. En el método, el tablero en línea 4 muestra el número de entidades actualmente en una clasificación definida por el operador y ofrece al operador medios para iniciar un modelo similar al aprendizaje automático (AA), o en otras palabras, para entrenar un modelo de clasificación. Un medio para que un operador interactúe con el tablero en línea es preferiblemente un botón digital o un control deslizante digital en el que el operador hace clic o arrastra usando un cursor o de otra manera, como a través de una pantalla táctil.

[0089] En el paso 100, el operador crea una clasificación (o 'segmento') definiendo criterios establecidos que las características de una entidad deben cumplir para ser incluida en el segmento. Dependiendo de los campos de datos, los criterios pueden adoptar la forma de lógica booleana o pueden requerir una lógica más compleja. La lógica booleana también puede ser necesaria para combinar criterios. Por ejemplo, un dispositivo puede clasificarse como con probabilidad de mal funcionamiento si la temperatura del dispositivo alcanza un cierto umbral y el dispositivo ha estado funcionando durante un período de tiempo determinado. En otro ejemplo, un usuario de los dispositivos cliente 6 puede clasificarse con una clasificación particular si ese usuario no tiene hijos y tiene menos de 30 años.

[0090] En el paso 101, una vez definidos los criterios para la clasificación, el dispositivo operador 8 evalúa el número de entidades que cumplen los criterios. Puede haber un número mínimo, o un número umbral, de entidades que se clasifiquen según los criterios establecidos. Si el resultado de la clasificación es que no se alcanza este umbral, el método pasa al paso 102. Si se alcanza el umbral, el método pasa al paso 105.

[0091] En el paso 102, se entrena un modelo de clasificación, usando datos de entrenamiento, para clasificar una entidad con la clasificación correspondiente con los criterios establecidos en el paso 100, o para clasificar la similitud de una entidad con entidades que cumplen los criterios establecidos en el paso 100. El modelo de clasificación entrenado toma las características de una entidad como su entrada y clasifica una entidad, o su similitud, en función de las características de entrada. El modelo de clasificación se entrena usando características de las entidades que cumplen los criterios establecidos en el paso 100 como datos de entrenamiento.

[0092] El modelo de clasificación se entrena en los datos indicativos de las características de las entidades almacenadas en la base de datos de clasificación 7. En el paso 103, una vez que se ha entrenado el modelo de clasificación, se utiliza para calcular las similitudes de las entidades basándose en los datos almacenados que describen estas entidades. El nivel de similitud de cada entidad con las entidades que cumplen los criterios preestablecidos se emite como una métrica de similitud, que puede comprender un porcentaje. Por ejemplo, si a una entidad se le da una métrica de similitud del 99 %, esto indica que la entidad es casi idéntica a las entidades que cumplen los criterios preestablecidos (al menos en términos de los criterios que se evalúan). Por otro lado, si a una entidad se le da una métrica de similitud del 1 %, esto indica que la entidad es muy diferente a las entidades que cumplen con los criterios preestablecidos (al menos en términos de los criterios que se evalúan).

[0093] El modelo de clasificación entrenado se usa para deducir cuántas entidades se incluyen en la clasificación para varios valores métricos de similitud diferentes. Una vez que se completa el cálculo, lo que puede llevar varias horas, por ejemplo, los resultados se pueden generar en forma gráfica en un gráfico de similitud, cuyo ejemplo se ilustra en la Figura 3.

[0094] La Figura 3 ilustra una pantalla gráfica que se muestra en el dispositivo del operador 8. Esta pantalla ilustra el número de entidades (cuyos datos se almacenan en la base de datos de clasificación 7) a las que se les ha asignado una métrica de similitud que cumple con un umbral particular (es decir, 90 %, 55 %, 30 %, etc.). En otras palabras, el gráfico ilustra la cantidad de entidades que tienen una puntuación similar que es igual o mayor que un umbral en particular.

[0095] Como se muestra en la figura 3, el número de entidades que alcanzan un umbral es inversamente proporcional al umbral de similitud. A medida que disminuye el número de entidades, aumenta el umbral de similitud. Por otro lado, a medida que aumenta el número de entidades, el umbral de similitud disminuye. El umbral de similitud puede tomar un valor entre 0 % y 100 %. Una puntuación de similitud del 100 % daría como resultado que se incluyera en el segmento el mismo número de entidades que se logró con los criterios establecidos antes del entrenamiento del modelo de clasificación. Al reducir el puntaje de similitud por debajo del 100 %, se agregan algunas entidades que no cumplieron con los criterios establecidos, pero cuyos datos son muy similares a los de las entidades que sí cumplieron con los criterios, dando la misma clasificación que las entidades que sí cumplieron con los criterios establecidos. A medida que se reduce el umbral de similitud, se incluyen más entidades en la clasificación, aunque con menos similitud con el conjunto original de entidades. El operador puede elegir cuán estricta o relajada se vuelve la clasificación seleccionando el umbral de similitud en consecuencia. El operador puede seleccionar un número de entidades, como se muestra en el eje y del gráfico, y la similitud correspondiente puede seleccionarse en consecuencia.

[0096] En el paso 105, después de que el operador haya especificado el número preferido de entidades para su inclusión en la clasificación o el valor umbral de similitud deseado, el operador especifica qué reacción se producirá cuando se clasifique una entidad. Una reacción puede definirse como un proceso mediante el cual las entidades en una clasificación particular pueden pasar a otras plataformas.

[0097] Aunque el sistema funciona con un número mínimo de criterios especificados por el operador, para que la puntuación de similitud del modelo similar funcione con un nivel de precisión satisfactorio, se recomienda que se especifiquen al menos diez criterios para cada clasificación.

[0098] En otro ejemplo, se puede utilizar un algoritmo para hacer que se inicien diferentes acciones dependiendo del porcentaje de similitud asignado a una entidad. Este algoritmo se puede utilizar en lugar del umbral de similitud o en combinación con este umbral.

[0099] Por ejemplo, si un usuario tiene una puntuación de similitud del 71 %, entonces el algoritmo hace que se muestre un mensaje general al usuario. Si un usuario tiene una puntuación de similitud del 89 %, se mostrará un mensaje más detallado, y si un usuario tiene una puntuación de similitud del 93 %, aparecerá un mensaje aún más detallado. Una persona experta en la técnica apreciará que este sistema es amplio en sus aplicaciones y usos potenciales y el ejemplo proporcionado es solo uno de muchos.

[0100] A continuación, se describe, con referencia a la figura 4, los procesos y el flujo de datos que se produce cuando se emplea un modelo similar al aprendizaje automático para expandir el número de entidades incluidas en una clasificación particular.

[0101] Los datos de los dispositivos cliente 200 y los datos de fuentes de terceros 201 se envían y almacenan en una base de datos centralizada 202 de un sistema en la nube 205. Los datos de los dispositivos cliente 200 y las fuentes de terceros describen características de entidades, como dispositivos o usuarios de los dispositivos. Cuando un operador solicita que el modelo de aprendizaje automático se ejecute a través del tablero en línea 204, los datos de los dispositivos cliente 200 y la fuente de terceros 201 se usan para entrenar el modelo de aprendizaje automático similar 203 usando un módulo de entrenamiento 203 en el sistema 205. Los datos para esta pantalla gráfica descrita con referencia a la figura 3 son generados por un analizador modelo 210.

[0102] Cada criterio de una entidad se conoce como una característica del modelo. Cada característica se trata como una dimensión separada en el modelo. En la forma de realización preferida, el modelo se basa en un ajuste de regresión logística. Sin embargo, se apreciará que se pueden usar muchos otros modelos alternativos con diferentes propiedades matemáticas adecuadas para diferentes implementaciones de la invención, tales como regresión lineal o redes neuronales.

[0103] El entrenamiento del modelo da como resultado ponderaciones de las características del modelo. Como parte del proceso de entrenamiento, se utiliza un regularizador para disminuir el número de parámetros (es decir, las 10 'características') utilizadas en el modelo final: se aplica un castigo (el término de regularización) por una disminución en el tamaño del modelo, que tiene el efecto de eliminar los parámetros del modelo de bajo peso (cerca de O) que no tienen un impacto significativo en las puntuaciones de similitud durante la evaluación del modelo. Las características de baja ponderación no se pueden utilizar en el sentido de que el modelo de clasificación entrenado no las utiliza para determinar la puntuación de similitud o en la clasificación de entidades.

[0104] El módulo de entrenamiento 203 en el sistema de nube 205 puede realizar un proceso de regularización que hace que los parámetros de baja ponderación que tienen poco efecto en la clasificación se eliminen del conjunto final de parámetros del modelo. Por ejemplo, los parámetros con un peso por debajo de un umbral predeterminado pueden eliminarse del modelo. Dado que los parámetros deben transmitirse a los dispositivos de borde, almacenarse y usarse durante las clasificaciones, una cantidad menor de parámetros puede dar como resultado un mejor rendimiento porque se envían menos parámetros a los dispositivos de borde. En un ejemplo específico, el tablero 204 está dispuesto para permitir que el usuario ajuste el nivel de regularización, por ejemplo, ajustando el umbral predeterminado para los pesos de los parámetros. Esto puede lograr un mejor rendimiento del dispositivo y de la red a cambio de una posible pérdida de precisión de clasificación. El sistema puede proporcionar un nivel predeterminado de regularización, como un umbral predeterminado para los pesos. De esta forma, el usuario puede elegir si requiere un ajuste manual del nivel de regularización.

[0105] Una vez que se ha completado el entrenamiento del modelo con la regularización, los parámetros de salida para el modelo se empaquetan en una parte de código 208 (o un SDK) que se envía y almacena en el dispositivo cliente 6. En la forma de realización preferida, el SDK contiene un elemento SDK genérico 209 y segmentos JavaScript inyectados 206 junto con los parámetros del modelo de aprendizaje automático inyectado 207. El SDK 208 se envía a un dispositivo de borde de cliente 200 una vez que ese dispositivo accede a un sitio web especificado por el operador, un sitio web del cual ese operador es el administrador.

[0106] Haciendo referencia a la figura 5, el modelo de clasificación entrenado se ejecuta en el dispositivo cliente 3309 en respuesta a un evento para clasificar una entidad. Un evento puede ser cualquier forma de interacción de la entidad, como un dispositivo o un usuario. Esto podría ser, por ejemplo, una visita de un usuario a una página web, la selección de un botón, un usuario que se desplaza hacia abajo en una página web.

[0107] Los eventos, indicados como ex 300, alimentan el SDK en el dispositivo cliente 309. Los eventos pasan al motor de clasificación 301 que recopila datos sobre el usuario tanto de fuentes propias como de proveedores y agregadores de datos de terceros. El motor de clasificación 301 toma los estados de clasificación de la primera parte 302 y los estados de clasificación de la tercera parte 303 y genera estados de clasificación actualizados 304. La salida se manifiesta como un vector de valores booleanos. Los estados de clasificación se ingresan en el modelo de aprendizaje automático parametrizado 306 (es decir, el modelo de clasificación entrenado) que recibe los parámetros para el modelo de los servidores de la nube a través de una red de entrega de contenido 305, como se describió anteriormente.

[0108] En la forma de realización preferida, el procesamiento del modelo implica un producto escalar entre el vector de estado del segmento y los parámetros del modelo, seguido de la aplicación en una función sigmoidea para generar una probabilidad. Sin embargo, se apreciará que se pueden usar métodos matemáticos alternativos para calcular la salida del modelo.

[0109] Los segmentos se procesan y calculan con cada evento que ocurre. Sin embargo, la actualización de los parámetros del modelo es mucho menos frecuente, por ejemplo, los parámetros del modelo en el dispositivo del cliente pueden cambiar solo cuando se vuelve a entrenar el modelo en la nube. El sistema de nube 205 solo puede transmitir los parámetros que han cambiado al actualizar el modelo en el dispositivo de cliente 309, en lugar de transmitir todos los parámetros del modelo reacondicionado, incluidos los parámetros que no han cambiado. Esto hace un uso más eficiente del ancho de banda.

[0110] Es deseable volver a entrenar los modelos a medida que se reciben y cargan nuevos datos. Sin embargo, volver a entrenar el modelo continuamente es computacionalmente costoso. Sin embargo, en el sistema descrito en este documento, el modelo se puede volver a entrenar en el servidor con una frecuencia predeterminada. Esta frecuencia predeterminada puede establecerse para mantener un equilibrio entre la precisión del modelo y el uso de los recursos de procesamiento. La frecuencia predeterminada puede ser definida por el usuario.

[0111] Cuando se entrena el modelo, algunas de las clasificaciones asignadas previamente a las entidades pueden no ser consistentes con las clasificaciones generadas por el nuevo modelo. Por lo tanto, es deseable reclasificar las entidades una vez que el modelo haya sido reentrenado. Sin embargo, la reclasificación de entidades también puede ser computacionalmente costosa. Por ejemplo, si 100 millones previamente clasificados fueran reclasificados con el modelo reentrenado, esto incurriría en una gran carga de procesamiento en el sistema. El sistema descrito en este documento mejora la eficiencia de este proceso al poner a disposición los nuevos parámetros del modelo para un dispositivo cliente cuando se requiere una clasificación en el dispositivo. Los parámetros del nuevo modelo pueden enviarse al dispositivo cliente cuando se detecta una entidad previamente clasificada para su reclasificación, por ejemplo, cuando un usuario previamente clasificado visita una página web. Una vez que se ha detectado la entidad previamente clasificada, los nuevos parámetros del modelo se extraen al dispositivo y se utilizan. En este sentido, la reclasificación sólo se realiza cuando se solicita (por ejemplo, si solo 1 millón de las 100 millones de entidades necesitan clasificación), y al distribuir simultáneamente la carga computacional a los dispositivos, es más rápido y ejerce menos presión sobre la infraestructura de nube centralizada.

[0112] El modelo de aprendizaje automático genera la métrica de similitud 307, por ejemplo, expresada en forma de porcentaje después de aplicar una función sigmoidea. La similitud se trata como cualquier otro estado y se retroalimenta al motor de clasificación 308 donde se actualizará después de un evento. Incluido en el SDK enviado al dispositivo cliente 309 está el valor de umbral de similitud (también conocido como "precisión") con el que se compararía la clasificación de similitud emitida. Esto da como resultado el estado de clasificación booleano para el modelo de aprendizaje automático; VERDADERO o FALSO. VERDADERO significa que el usuario está incluido en el segmento en función de su puntuación de similitud, FALSO significa lo contrario.

[0113] Una vez que se completa el procesamiento y se ha deducido que un usuario está en el segmento, se pueden desencadenar reacciones. Igualmente, en otra forma de realización, es concebible que se creen reacciones de tal manera que se activen si el usuario no ingresa al segmento.

[0114] En el método, los campos de datos de entidad de primera y tercera parte son entradas al modelo de aprendizaje automático. Es probable que la inclusión de un mayor número de campos en el modelo dé como resultado una puntuación de similitud más precisa, ya que las dependencias entre todos los campos se pueden evaluar y tener en cuenta. Como parte del entrenamiento del modelo, se deduce una ponderación para cada característica. Las ponderaciones indican el alcance del efecto que tiene una determinada característica en el tamaño del segmento. Las características con ponderaciones muy bajas, que indican un efecto insignificante en el tamaño del segmento, se descartan. Se pueden utilizar varios métodos para decidir qué características se eliminan. Estos pueden incluir, pero no se limitan a:

Un umbral de ponderación establecido en un cierto valor predefinido. Se descartan las características cuyas ponderaciones son menores que este umbral.

Un umbral relacionado con la distribución de ponderaciones. Por ejemplo, el umbral puede ser la ponderación media, una proporción de la ponderación media o un determinado percentil de las ponderaciones. Se descartan las características cuyas ponderaciones son menores que este umbral.

Descartar un número determinado de características con las ponderaciones más bajas.

[0115] Al representar cada característica una dimensión del modelo, la reducción del número de características a través del proceso de regularización reduce el número de dimensiones del modelo. Esto, a su vez, da como resultado que sea necesario transmitir menos parámetros a los dispositivos de borde y un cálculo de evaluación más simple. Esto reduce el costo computacional, el tiempo necesario y el uso de energía para procesar los datos en el perímetro con un efecto mínimo en la precisión del segmento.

[0116] Como parte del proceso de entrenamiento de regresión logística, uno de los parámetros del modelo aprendido es un término de sesgo constante. Incorpora la probabilidad sistémica de caer en una clasificación semilla dada la pertenencia a la clasificación de todos los usuarios conocidos. Esto aumenta la precisión en todos los segmentos similares, pero particularmente en el caso de que haya pocos o ningún dato de segmento para un usuario, el término de sesgo actúa como una probabilidad predeterminada que predice la similitud en función de los datos de toda la audiencia.

[0117] Aunque en la forma de realización descrita anteriormente los usuarios son visitantes del sitio web de un operador, esta invención tiene un alcance más amplio y se apreciará que también es aplicable a, por ejemplo, usuarios de una aplicación de juegos o un paquete de software.

[0118] La escalabilidad de la invención divulgada es muy adecuada para dispositivos IoT, lo que permite monitorear los datos del sensor y reaccionar ante ellos casi en tiempo real. Por ejemplo, en un centro de datos, puede haber una plétora de sensores de temperatura altamente sensibles distribuidos alrededor de los servidores para medir continuamente la temperatura de los chips electrónicos. Se pueden configurar segmentos para aquellos con desviaciones significativas en la temperatura. Las reacciones pueden incluir, por ejemplo: aumentar la velocidad del ventilador, ajustar el control climático del edificio o administrar la carga de trabajo de los procesadores. El modelo de aprendizaje automático puede tener en cuenta las temperaturas de funcionamiento promedio y las características del sensor. Con la segmentación que se lleva a cabo en el borde, los segmentos se pueden calcular y activar las reacciones casi en tiempo real, lo que garantiza que los chips se mantengan a la temperatura óptima.

[0119] Otro caso de uso potencial de esta invención es en la detección de anomalías, especialmente cuando el número de usuarios o dispositivos es muy grande y la anomalía necesita ser detectada rápidamente. Un excelente ejemplo de esto es el comercio electrónico, donde las transacciones fraudulentas deben detectarse y reaccionar lo más rápido posible. Con el despliegue de tarjetas inteligentes, billeteras electrónicas y teléfonos inteligentes con aplicaciones bancarias o Fintech, existe una gran cantidad de dispositivos de borde potenciales que podrían utilizarse para este propósito. La integración del aprendizaje automático para expandir segmentos en estos contextos significa que las transacciones anómalas, que no se habrían capturado en el segmento solo con los criterios de segmento establecidos, todavía se pueden descubrir.

[0120] Dado que la información privada y confidencial se mantiene y evalúa localmente, la implementación del sistema propuesto en los mercados de dispositivos de fitness y salud podría ser beneficiosa. Los usuarios pueden desconfiar de compartir sus datos personales con sistemas basados en la nube. El sistema propuesto soluciona este problema de privacidad al garantizar que los datos de usuario sin procesar (por ejemplo, frecuencia cardíaca, presión arterial) nunca se envía desde sus dispositivos personales y, por lo tanto, no puede ser accedido por terceros, como compañías de seguros o agencias de calificación crediticia.

[0121] La Figura 6 muestra un dispositivo electrónico ejemplar 801 de acuerdo con cualquiera de los dispositivos electrónicos de esta divulgación (como el proveedor de datos de terceros 1, el servicio de aprendizaje automático 2, el panel de control en línea en la nube 4, el dispositivo cliente 6, el dispositivo de clasificación de base de datos 7, el dispositivo del operador 8 o cualquiera de los dispositivos en la red en la nube 3 o la red de entrega de contenido 5). El dispositivo electrónico 801 comprende un circuito de procesamiento 810 (como un procesador) y una memoria 812. El dispositivo electrónico 801 también puede comprender uno o más de los siguientes subsistemas: una fuente de alimentación 814, una pantalla 816, un transceptor inalámbrico 820 y una entrada 826.

[0122] El circuito de procesamiento 810 puede controlar el funcionamiento del dispositivo electrónico 801 y los subsistemas 812-828. El procesador 810 está acoplado comunicativamente con los subsistemas 812-828. La memoria 812 puede comprender una o más de memoria de acceso aleatorio (RAM), memoria de solo lectura (ROM), memoria de acceso aleatorio no volátil (NVRAM), memoria flash, otra memoria volátil y otra memoria no volátil.

[0123] La pantalla 816 puede acoplarse comunicativamente con el circuito de procesamiento 810, que puede configurarse para hacer que la pantalla 816 emita imágenes. La pantalla 816 puede comprender una interfaz sensible al tacto, como una pantalla táctil. La pantalla 816 puede usarse para interactuar con el software que se ejecuta en el procesador 810 del dispositivo electrónico 801. La interfaz sensible al tacto permite que un usuario proporcione información al circuito de procesamiento 810 a través de un toque discreto, toques o uno o más gestos para controlar la operación del circuito de procesamiento y las funciones descritas en este documento. Se apreciará que otras formas de interfaz de entrada pueden emplearse adicional o alternativamente para el mismo propósito, como la entrada 826 que puede comprender un teclado o un ratón en el dispositivo de entrada.

[0124] El transceptor 820 puede comprender uno o más transceptores de RF de largo alcance que están configurados para operar de acuerdo con el estándar de comunicación como LTE, UMTS, 3G, EDGE, GPRS, GSM y Wi-Fi. Por ejemplo, el dispositivo electrónico 801 puede comprender un primer transceptor inalámbrico de largo alcance 821, como un transceptor celular, que está configurado para comunicarse con una torre celular 803 a través de un protocolo de datos celular como LTE, UMTS, 3G, EDGE, GPRs ., o GSM, y un segundo transceptor inalámbrico de largo alcance 828, como un transceptor Wi-Fi, que está configurado para comunicarse con un punto de acceso inalámbrico 804 a través de un estándar Wi-Fi como 802,11 ac/n/g/b/a. En este sentido y para los fines de todas las formas de realización del presente documento relativas a un protocolo inalámbrico de largo alcance, un protocolo inalámbrico de largo alcance puede ser un protocolo que es capaz y está diseñado para la comunicación a través de 5, 10, 20, 30, 40, 50 o 100m. Esto contrasta con el protocolo inalámbrico de corto alcance mencionado anteriormente. El protocolo inalámbrico de largo alcance puede comunicarse utilizando una potencia mayor que el protocolo inalámbrico de corto alcance. El rango (ej. distancia de línea de visión) entre los nodos finales de largo alcance (dispositivo electrónico y enrutador o estación base) para el protocolo inalámbrico de largo alcance puede ser mayor que el alcance (p. ej. distancia de línea de visión) entre los nodos finales de corto alcance (por ejemplo, dispositivo electrónico y baliza inalámbrica).

[0125] El dispositivo electrónico 801 puede configurarse para comunicarse a través del transceptor inalámbrico de largo alcance 820 con una red 840. La red 840 puede ser la red de nube 3 o cualquier red de área amplia, como Internet, o una red de área local. El dispositivo electrónico 801 puede configurarse además para comunicarse a través del transceptor inalámbrico de largo alcance 820 y la red 840 con uno o más servidores o dispositivos de usuario. Estos servidores o dispositivos de usuario pueden ser cualquiera de los descritos en este documento.

[0126] El término "que comprende" abarca "que incluye" así como "que consiste en", por ejemplo, una composición que "comprende" X puede consistir exclusivamente en X o puede incluir algo adicional, por ejemplo, X+Y.

[0127] A menos que se indique lo contrario, cada realización como se describe en el presente documento puede combinarse con otra forma de realización como se describe en el presente documento.

[0128] Los métodos descritos en este documento pueden realizarse mediante software en forma legible por máquina en un medio de almacenamiento tangible, por ejemplo, en forma de un programa informático que comprende medios de código de programa informático adaptados para realizar todos los pasos de cualquiera de los métodos descritos en este documento cuando el programa se ejecuta en una computadora y donde el programa informático puede incorporarse en un medio legible por computadora. Los ejemplos de medios de almacenamiento tangibles (o no transitorios) incluyen discos, memorias USB, tarjetas de memoria, etc. y no incluyen señales propagadas. El software puede ser adecuado para su ejecución en un procesador en paralelo o en un procesador en serie de modo que los pasos del método puedan realizarse en cualquier orden adecuado, o simultáneamente. Esto reconoce que el firmware y el software pueden ser productos valiosos que se pueden intercambiar por separado. Está destinado a abarcar software, que se ejecuta o controla hardware "tonto" o estándar, para llevar a cabo las funciones deseadas. También pretende abarcar el software que "describe" o define la configuración del hardware, como el software HDL (lenguaje de descripción de hardware), que se utiliza para diseñar chips de silicio o para configurar chips programables universales, para llevar a cabo las funciones deseadas.

[0129] Se apreciará que los módulos descritos en este documento pueden implementarse en hardware o en software. Además, los módulos pueden implementarse en varias ubicaciones en todo el sistema.

[0130] Los expertos en la técnica se darán cuenta de que los dispositivos de almacenamiento utilizados para almacenar instrucciones de programa pueden distribuirse a través de una red. Por ejemplo, una computadora de remate puede almacenar un ejemplo del proceso descrito como software. Una computadora local o terminal puede acceder a la computadora remate y descargar una parte o todo el software para ejecutar el programa. Alternativamente, la computadora local puede descargar partes del software según sea necesario, o ejecutar algunas instrucciones de software en la terminal local y algunas en la computadora remate (o red de computadoras). Los expertos en la materia también se darán cuenta de que, al utilizar técnicas convencionales conocidas por los expertos en la materia, la totalidad o una parte de las instrucciones del software pueden llevarse a cabo mediante un circuito dedicado, como un DSP, una matriz lógica programable o similares.

[0131] Cualquier rango o valor de dispositivo dado aquí puede ser ampliado o alterado sin perder el efecto buscado, como será evidente para el experto en la materia.

[0132] Se entenderá que los beneficios y ventajas descritos anteriormente pueden estar relacionados con una forma de realización o pueden estar relacionados con varias formas de realización. Las formas de realización no se limitan a aquellas que resuelven alguno o todos los problemas indicados o aquellas que tienen alguno o todos los beneficios y ventajas indicados.

[0133] Cualquier referencia a “un” artículo se refiere a uno o más de esos artículos. El término "comprende" se utiliza aquí para indicar que incluye los bloques o elementos del método identificados, pero dichos bloques o elementos no comprenden una lista exclusiva y un método o aparato puede contener bloques o elementos adicionales.

[0134] Los pasos de los métodos descritos en el presente documento pueden llevarse a cabo en cualquier orden adecuado, o simultáneamente cuando sea apropiado. Además, los bloques individuales pueden eliminarse de cualquiera de los métodos sin apartarse del alcance del tema descrito en este documento. Los aspectos de cualquiera de los ejemplos descritos anteriormente pueden combinarse con aspectos de cualquiera de los otros ejemplos descritos para formar ejemplos adicionales sin perder el efecto buscado. Cualquiera de los módulos descritos anteriormente puede implementarse en hardware o software.

Claims

REIVINDICACIONES

1. Un sistema (1) para clasificar una entidad o clasificar la similitud de la entidad con otras entidades, comprendiendo el sistema;

un servidor que comprende:

medios de almacenamiento (202) dispuestos para almacenar características de una primera pluralidad de entidades, en el que cada una de la primera pluralidad de entidades se clasifica con una primera clasificación;

un módulo de entrenamiento (203) dispuesto para entrenar un modelo de clasificación para clasificar una entidad de entrada en función de las características de la entidad de entrada, en el que el modelo de clasificación se entrena usando las características de la primera pluralidad de entidades como datos de entrenamiento; y

un transmisor dispuesto para transmitir el modelo de clasificación entrenado a un dispositivo cliente (200); y

en el que el sistema comprende el dispositivo cliente (200), en el que el dispositivo cliente comprende:

un receptor dispuesto para recibir el modelo de clasificación entrenado; y

memoria dispuesta para almacenar el modelo de clasificación entrenado; y

un procesador dispuesto para procesar datos que comprenden características de al menos una entidad de entrada usando el modelo de clasificación entrenado almacenado en el dispositivo del cliente haciendo que el modelo de clasificación entrenado genere una puntuación de similitud para clasificar la similitud de al menos una entidad de entrada para la primera pluralidad de entidades,

caracterizado porque el módulo de entrenamiento está dispuesto para entrenar el modelo de clasificación determinando una ponderación para cada uno de una pluralidad de parámetros, y porque la ponderación para cada uno de los parámetros indica la magnitud del efecto que el parámetro tiene en la salida del modelo de clasificación.

2. El sistema (1) de la reivindicación 1, en el que el receptor en el dispositivo cliente (200) está dispuesto para recibir una puntuación de similitud de umbral; y el procesador está dispuesto para ejecutar una acción si la puntuación de similitud de al menos una entidad de entrada alcanza la puntuación de similitud umbral.

3. El sistema (1) de la reivindicación 1, en el que el procesador, en el dispositivo cliente (200), está dispuesto para ejecutar una pluralidad de acciones diferentes, en el que cada una de las acciones se ejecuta en respuesta a una puntuación de similitud diferente asociada con el al menos una entidad de entrada.

4. El sistema (1) de cualquiera de las reivindicaciones 1 a 3, en el que el receptor en el dispositivo cliente (200) está dispuesto para recibir una puntuación de similitud de umbral; y el procesador está dispuesto para clasificar la al menos una entidad de entrada con la primera clasificación si la puntuación de similitud de la al menos una entidad de entrada alcanza la puntuación de similitud umbral.

5. El sistema (1) de cualquiera de las reivindicaciones anteriores, en el que un receptor, en el servidor, está dispuesto para obtener características de una segunda pluralidad de entidades que son diferentes a la primera pluralidad de entidades; y

el servidor comprende además un analizador de modelos que está dispuesto para procesar datos que comprenden las características de la segunda pluralidad de entidades usando el modelo de clasificación entrenado para generar una puntuación de similitud para cada una de la segunda pluralidad de entidades; en el que cada puntuación de similitud generada por el modelo de clasificación entrenado se asocia con una de la segunda pluralidad de entidades y clasifica la similitud de la entidad asociada con la primera pluralidad de entidades.

6. El sistema (1) de la reivindicación 5, en el que el analizador de modelos está dispuesto para calcular el número de segundas entidades asociadas con cada resultado de puntuación de similitud por el modelo de clasificación entrenado; y, opcionalmente, en el que el receptor en el dispositivo cliente (200) está dispuesto para recibir un conjunto de puntuación de similitud de umbral basado en el número de segundas entidades asociadas con cada puntuación de similitud.

7. El sistema (1) de cualquiera de las reivindicaciones anteriores, en el que el sistema comprende además un dispositivo de operador que comprende:

una interfaz dispuesta para permitir que un operador especifique un primer conjunto de criterios para la comparación con las características de una entidad, en el que una entidad que cumple con el primer conjunto de criterios se clasifica con la primera clasificación; y

un transmisor dispuesto para transmitir el primer conjunto de criterios al servidor;

en el que el servidor comprende además un receptor dispuesto para recibir el primer conjunto de criterios; y en el que el módulo de formación (203) está dispuesto para comparar el primer conjunto de criterios con las características de una pluralidad de entidades y clasificar las entidades que cumplen el primer conjunto de criterios con la primera clasificación.

8. El sistema (1) de la reivindicación 7, en el que el módulo de formación está dispuesto para calcular el número de entidades que cumplen el primer conjunto de criterios; y el módulo de formación está dispuesto para iniciar la formación del modelo de clasificación en función del número de entidades que cumplen el primer conjunto de criterios.

9. El sistema (1) de cualquiera de las reivindicaciones anteriores, en el que cada entidad es un dispositivo informático y las características describen el rendimiento de cada dispositivo informático, respectivamente.

10. El sistema (1) de cualquiera de las reivindicaciones anteriores, en el que cada entidad es un usuario y las características describen los atributos de cada usuario, respectivamente.

11. El sistema (1) de la reivindicación 1, donde el módulo de entrenamiento (203) o el procesador en el dispositivo cliente (200) está dispuesto para determinar que al menos un parámetro está asociado con una ponderación que no alcanza una ponderación umbral.

12. El sistema (1) de la reivindicación 11, en el que el procesador está dispuesto para evitar que el clasificador entrenado utilice al menos un parámetro que está asociado con una ponderación que no alcanza una ponderación umbral.

13. El sistema (1) de la reivindicación 11, en el que el módulo de entrenamiento (203) está dispuesto para omitir el 2 al menos un parámetro que está asociado con una ponderación que no alcanza el umbral de ponderación del modelo entrenado.

14. El sistema (1) de la reivindicación 8 o 13, en el que el módulo de entrenamiento (203) está dispuesto para omitir el al menos un parámetro que está asociado con una ponderación que no alcanza el umbral de ponderación del modelo entrenado, al no transmitir el al menos un parámetro al dispositivo cliente.

15. El sistema (1) de cualquiera de las reivindicaciones anteriores, en el que el módulo de entrenamiento (203) está dispuesto para volver a entrenar el modelo de clasificación para clasificar la entidad de entrada con la primera clasificación, o para clasificar la similitud de la entidad de entrada con la primera pluralidad de entidades, en el que el modelo de clasificación se vuelve a entrenar usando un segundo conjunto diferente de características de una pluralidad de entidades clasificadas con la primera clasificación como datos de entrenamiento.

16. El sistema (1) de la reivindicación 15 en el que el modelo de clasificación se vuelve a entrenar usando un segundo conjunto diferente de características de una pluralidad de entidades, diferentes a la primera pluralidad de entidades, clasificadas con la primera clasificación como datos de entrenamiento.

17. El sistema (1) de la reivindicación 15 o 16, en el que el módulo de entrenamiento (203) está dispuesto para volver a entrenar el modelo de clasificación a una frecuencia predeterminada.

18. El sistema (1) de la reivindicación 15, en el que el transmisor está dispuesto para transmitir el modelo de clasificación reeducado al dispositivo cliente (200); y

en el que el receptor en el dispositivo cliente (200) está dispuesto para recibir el modelo de clasificación reprogramado; y

la memoria está dispuesta para almacenar el modelo de clasificación reprogramado; y

el procesador está dispuesto para procesar datos que comprenden características de al menos una entidad de entrada utilizando el modelo de clasificación reprogramado almacenado en el dispositivo cliente, lo que hace que el modelo de clasificación reprogramado emita una señal que:

clasifica al menos una entidad de entrada con la primera clasificación; o

19. El sistema (1) de la reivindicación 18 en el que el transmisor está dispuesto para transmitir el modelo de clasificación reprogramado al dispositivo cliente (200) transmitiendo solo los parámetros del modelo reprogramado que difieren de los parámetros del modelo entrenado.

20. El sistema (1) de cualquiera de las reivindicaciones anteriores en el que el procesador en el dispositivo cliente (200) está dispuesto para determinar si la entidad de entrada ha sido clasificada con una clasificación inicial; y

en el que el procesador está dispuesto para procesar datos que comprenden características de la entidad de entrada utilizando el modelo de clasificación almacenado, solo si el modelo de clasificación almacenado difiere del modelo de clasificación utilizado para clasificar la entidad de entrada con la clasificación inicial.

21. El sistema (1) de cualquiera de las reivindicaciones anteriores en el que el procesador en el dispositivo cliente (200) está dispuesto para determinar si la entidad de entrada ha sido clasificada con una clasificación inicial; y para obtener un modelo de clasificación reentrenado del servidor y procesar datos que comprenden características de la entidad de entrada utilizando el modelo de clasificación reentrenado, solo si el modelo de clasificación entrenado más recientemente en el servidor difiere del modelo de clasificación utilizado para clasificar la entidad de entrada con el clasificación inicial.

22. Un método implementado por ordenador para generar un modelo de clasificación entrenado para clasificar una entidad o clasificar la similitud de la entidad con otras entidades, comprendiendo el método;

entrenar, en el servidor, un modelo de clasificación para generar una puntuación de similitud con el fin de clasificar la similitud de al menos una entidad de entrada con la primera pluralidad de entidades, en función de las características de la entidad de entrada, en el que el modelo de clasificación se entrena utilizando el características de la primera pluralidad de entidades como datos de entrenamiento;

transmitir, desde el servidor, el modelo de clasificación entrenado a un dispositivo cliente (200) para su uso en el dispositivo cliente (200),

caracterizado porque entrenar el modelo de clasificación, en el servidor, comprende determinar una ponderación para cada uno de una pluralidad de parámetros, y porque la ponderación de cada uno de los parámetros indica la magnitud del efecto que tiene el parámetro sobre la salida del modelo de clasificación.