WO2019218927A1

WO2019218927A1 - 异常用户识别

Info

Publication number: WO2019218927A1
Application number: PCT/CN2019/086232
Authority: WO
Inventors: 顾成杰; 张力
Original assignee: New H3C Security Technologies Co Ltd
Current assignee: New H3C Security Technologies Co Ltd
Priority date: 2018-05-14
Filing date: 2019-05-09
Publication date: 2019-11-21
Anticipated expiration: 2020-11-14
Also published as: JP2021524091A; JP7125514B2; US20210240822A1; CN109861953A; CN109861953B; US11671434B2; EP3771168A4; EP3771168A1; EP3771168B1

Abstract

获取多个用户的用户行为数据；提取每个用户的用户行为数据在预设的多个用户行为维度下的多个用户特征值；根据每个用户的多个用户特征值，确定每个用户的用户特征向量；通过预设的聚类算法，对多个用户的用户特征向量进行聚类处理，得到多个用户类；根据每个用户类包括的用户特征向量，确定每个用户类的中心向量；获取每个用户类的差异特征向量；其中，差异特征向量为用户类中与用户类的中心向量的距离值未在预设距离值范围内的用户特征向量；将差异特征向量所表征的用户确定为异常用户。

Description

异常用户识别

相关申请的交叉引用

本公开要求于2018年5月14日提交中国专利局、公开号为201810457994.8发明名称为“一种异常用户识别方法及装置”的中国专利公开的优先权，其全部内容通过引用结合在本公开中。

背景技术

在网络系统中，为了保证网络系统中的硬件、软件及数据得到更好的保护，使网络系统连续可靠地运行。通常在连接内网与外网的边缘路由器处架设安全设备。由安全设备对内网发出的报文或者外网发入的报文进行筛选、过滤，以保证网络系统的安全。

目前，由于用户行为的不可预测性，使得检测异常用户变得复杂。例如，针对在不同时段、不同位置的用户执行的不同种类操作的检测。在一种场景下，某一用户频繁收发邮件、打开非法网页、下载非法视频等等。

在对上述用户进行检测时，需要检测出频繁收发邮件的用户，也需要检测出频繁打开非法网页的用户，还需要检测出频繁下载非法视频的用户，等等。

附图简要说明

图1为本公开实施例提供的异常用户识别方法的一种流程示意图；

图2为本公开实施例提供的异常用户识别方法的另一种流程示意图；

图3为本公开实施例提供的特征体系的一种示意图；

图4为本公开实施例提供的用户类的一种分布图；

图5为本公开实施例提供的正态分布曲线的一种示意图；

图6为本公开实施例提供的累计概率曲线的一种示意图；

图7为本公开实施例提供的异常用户识别方法的再一种流程示意图；

图8为本公开实施例提供的异常用户识别装置的一种结构示意图；

图9为本公开实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

目前，通过设置黑名单方式可实现对内网异常用户的识别。具体的，管理人员将需要限制的用户名加入黑名单中。但通过前述设置黑名单的方式，仅能对管理人员已知的异常用户进行识别。前述设置黑名单的方式，无法对管理人员未知且无法发现异常行为的用户进行识别。

针对上述问题，本公开实施例提供了一种异常用户识别方法。该异常用户识别方法可以应用于服务器、电脑、手机、安全设备等电子设备。为便于说明，下面均以执行主体为电子设备为例进行说明。

具体的，参考图1，图1为本公开实施例提供的异常用户识别方法的一种流程示意图。本公开实施例提供的异常用户识别方法包括如下步骤。

步骤101，电子设备获取用户的用户行为数据。

本公开实施例中，电子设备可以获取多个用户的用户行为数据，也可以获取一个用户的多个用户行为数据。若电子设备获取了一个用户的多个用户行为数据，则这多个用户行为数据包括至少一个历史用户行为数据和一个当前用户行为数据。

本公开实施例中，当需要检测异常用户时，电子设备获取用户的用户行为数据。

电子设备可以从用户行为日志中，获取到用户的用户行为数据。这里，用户行为日志用于记录用户的各种网络行为。另外，电子设备也可以从用户输入的用户行为数据中获取到用户的用户行为数据。本公开实施例不限定电子设备获取用户行为数据的形式。

一个实施例中，电子设备可根据对异常用户识别的多种需求，设置不同的时间粒度。电子设备获取预设的时间粒度内用户的用户行为数据。

步骤102，电子设备提取用户行为数据在预设的多个行为维度下的多个特征值。

具体地，为了便于电子设备提取用户行为数据在多个行为维度下的特征值，可对行为维度进行划分，得到业务层特征维度和行为层特征维度。通过业务层特征维度和行为层特征维度，可使电子设备快速地在多个行为维度下提取特征值。

如图3所示的行为维度。其中，业务层特征维度可以包括：即时通讯(英文：Instant Messaging，简称：IM)、网页浏览、社区论坛、流量、文件传输和邮件等。行为层特征维度可以包括：发送信息、接收信息、发送文件、文件传输协议(英文：File Transfer Protocol，简称：FTP)流量、以安全为目标的超文本传输协议通道(英文：Hyper Text Transfer Protocol over Secure Socket Layer，简称：HTTPS)流量和接收邮件等。

电子设备通过将前述两层特征维度包括的内容进行任意组合，得到多个行为维度。如图3所示，在一个示例中，电子设备得到的行为维度包括但不限于：IM发送信息数、IM接收信息数、IM发送文件数、IM发送文件大小等。

进而，在多个行为维度下，电子设备提取到多个特征值。

步骤103，电子设备根据多个特征值，确定用户行为数据对应的特征向量。

以一个用户行为数据为例说明。电子设备对这一个用户行为数据对应的多个特征值进行组合处理，得到这一个用户行为数据对应的特征向量。

步骤104，通过预设的聚类算法，对特征向量进行聚类处理，得到多个聚合类，并获取每个聚合类的中心向量。

本公开实施例中，预设的聚类算法可以为K-means聚类算法、K-means Plus聚类算法等。电子设备通过预设的聚类算法，对特征向量进行聚类处理，得到多个聚合类。每个聚合类中包括至少一个特征向量。

以一个聚合类为例说明。电子设备计算这一个聚合类包括的多个特征向量的均值，将该均值作为这一个聚合类的中心向量。

步骤105，电子设备确定差异特征向量，差异特征向量与所属聚合类的中心向量之间的距离值未在预设距离值范围内。

本公开实施例中，预设距离值范围在先已存储至电子设备中。

具体地，与所属聚合类的中心向量的距离值未在预设距离值范围内具体是指：聚合类中特征向量与聚合类的中心向量的距离值小于预设距离值范围的最小值；或与聚合类中特征向量与聚合类的中心向量的距离值大于预设距离值范围的最大值。

可以理解的是，出现前述聚合类中特征向量与聚合类的中心向量的距离值小于预设距离值范围的最小值的情况，或出现前述聚合类中特征向量与聚合类的中心向量的距离值大于预设距离值范围的最大值的情况，电子设备确定特征向量为差异特征向量。

对于每个聚合类，以一个聚合类为例说明。电子设备计算这一个聚合类包括的每个特征向量分别与这一个聚合类的中心向量之间的距离值。电子设备得到多个距离值后，对这多个距离值进行排序。电子设备获取未在预设距离值范围内的距离值，并将获取的距离值所表征的特征向量作为差异特征向量。

步骤106，电子设备将差异特征向量所表征的用户确定为异常用户。

例如，电子设备提到用户Q ₁的用户行为数据P ₁在预设的多个行为维度下的多个特征值，并根据提到到的多个特征值，确定用户行为数据P ₁对应的特征向量111。若电子设备确定特征向量111为差异特征向量，则确定用户Q ₁确定为异常用户。

本公开实施例提供的异常用户识别方法中，电子设备通过对特征向量进行聚类处理，获取与聚合类的中心向量的距离未在预设距离值范围内的差异特征向量。电子设备根据获取的差异特征向量实现对异常用户的识别。管理人员无需再将限制的用户名加入黑名单中，电子设备也无需再通过建立黑名单的方式对异常用户进行识别，实现了对管理人员未知且无法发现异常行为的用户进行识别。

在一种实现方式中，电子设备获取的用户行为数据为多个用户的用户行为数据，本公开实施例提供了一种异常用户识别方法。参考图2，图2为本公开实施例提供的异常用户识别方法的另一种流程示意图，该方法包括如下步骤。

步骤201：电子设备获取多个用户的用户行为数据。

本公开实施例中，当需要检测异常用户时，电子设备获取多个用户的用户行为数据。

电子设备可以从用户行为日志中，获取到多个用户的用户行为数据。这里，用户行为日志用于记录用户的各种网络行为。另外，电子设备也可以从用户输入的用户行为数据中获取到多个用户的用户行为数据。本公开实施例不限定电子设备获取用户行为数据的形式。

在本公开实施例中，电子设备可以根据预先设置的时间粒度，获取不同用户的用户行为数据。其中，电子设备可根据对异常用户识别的多种需求，设置不同的时间粒度。

例如，对存在长期经营和策划的高级持续性威胁(英文：Advanced Persistent Threat，简称：APT)的用户进行识别时，电子设备可以预先设置较大的时间粒度。如，电子设备预先设置时间粒度可以为：一周、一个月等。

再例如，对在离职前突发攻击行为的用户进行识别时，电子设备可以预先设置较小的时间粒度。如，电子设备预先设置时间粒度可以为：10分钟，1小时，24小时等。

在预设的时间粒度内，电子设备获取多个用户的用户行为数据。

在一个示例中，假设当前时间为10:00，电子设备预设的时间粒度为10分钟，待识别的用户包括A、B和C。在10:00-10:10所表示的时间段内，电子设备可获取用户A的用户行为数据11、用户B的用户行为数据12和用户C的用户行为数据13。在9:50-10:00所表示的时间段内，电子设备也可获取用户A的用户行为数据21、用户B的用户行为数据22和用户C的用户行为数据23。

步骤202：电子设备提取每个用户的用户行为数据在预设的多个用户行为维度下的多个用户特征值。

具体地，为了便于电子设备提取每个用户的用户行为数据在多个用户行为维度下的用户特征值，可对用户行为维度进行划分，得到业务层特征维度和行为层特征维度。通过业务层特征维度和行为层特征维度，可使电子设备快速地在多个用户行为维度下提取用户特征值。

如图3所示的用户行为维度。其中，业务层特征维度可以包括：即IM、网页浏览、社区论坛、流量、文件传输和邮件等。行为层特征维度可以包括：发送信息、接收信息、发送文件、FTP流量、HTTPS流量和接收邮件等。

电子设备通过将前述两层特征维度包括的内容进行任意组合，得到多个用户行为维度。如图3所示，在一个示例中，电子设备得到的用户行为维度包括但不限于：IM发送信息数、IM接收信息数、IM发送文件数、IM发送文件大小等。

进而，在多个用户行为维度下，电子设备提取到多个用户中每个用户的多个用户特征值。

步骤203：电子设备根据多个用户中每个用户的多个用户特征值，确定多个用户中每个用户的用户特征向量。

对于多个用户中的每个用户，以一个用户为例说明。电子设备对这一个用户的多个用户特征值进行组合处理，得到这一个用户的用户特征向量。

具体地，按照前述步骤的示例，电子设备获取到用户A的用户行为数据11、用户B的用户行为数据12和用户C的用户行为数据13。

电子设备从用户行为数据11中提取到IM发送信息数为10、IM接收信息数为8、IM发送文件数为2、IM发送文件大小为500KB。

电子设备从用户行为数据12中提取到IM发送信息数为9、IM接收信息数为8、IM发送文件数为3、IM发送文件大小为490KB。

电子设备从用户行为数据13中提取到IM发送信息数为10、IM接收信息数为7、IM发送文件数为1、IM发送文件大小为600KB。

此时，电子设备可确定每个用户的用户特征向量为：用户A的用户特征向量01为{10，8，2，500}，用户B的用户特征向量02为{9，8，3，490}，用户C的用户特征向量03为{10，7，1，600}。

步骤204：电子设备通过预设的聚类算法，对多个用户的用户特征向量进行聚类处理，得到多个用户类。

本公开实施例中，预设的聚类算法可以为K-means聚类算法、K-means Plus聚类算法等。电子设备通过预设的聚类算法，对多个用户的用户特征向量进行聚类处理，得到多个用户类。每个用户类中包括至少一个用户特征向量。

在一个示例中，预设的聚类算法为K-means聚类算法。电子设备通过K-means聚类算法，对多个用户的用户特征向量进行聚类处理，得到K个初始用户类。其中，K为正整数。电子设备将这K个初始用户类作为K个用户类。

步骤205：电子设备根据多个用户类中每个用户类包括的用户特征向量，确定多个用户类中每个用户类的中心向量。

对于每个用户类，以一个用户类为例说明。电子设备计算这一个用户类包括的多个用户特征向量的均值，将该均值作为这一个用户类的中心向量。

按照前述步骤的示例，电子设备对用户特征向量进行聚类处理后，得到多个用户类。假设多个用户类包括用户类1，用户类1包括用户A的用户特征向量01、用户B的用户特征向量02和用户C的用户特征向量03。

电子设备计算用户特征向量01、用户特征向量02和用户特征向量03的均值t ₁，将均值t ₁确定为用户类1的中心向量。

步骤206：电子设备获取多个用户类中每个用户类的差异特征向量。

本公开实施例中，差异特征向量为：用户类中与用户类的中心向量的距离值未在预设距离值范围内的用户特征向量，即为差异特征向量与所属用户类的中心向量之间的距离值未在预设距离值范围内。预设距离值范围在先已存储至电子设备中。

具体地，用户类中与用户类的中心向量的距离值未在预设距离值范围内具体是指：用户类中用户特征向量与用户类的中心向量的距离值小于预设距离值范围的最小值；或用户类中用户特征向量与用户类的中心向量的距离值大于预设距离值范围的最大值。

可以理解的是，出现前述用户类中用户特征向量与用户类的中心向量的距离值小于预设距离值范围的最小值的情况，或出现前述用户类中用户特征向量与用户类的中心向量的距离值大于预设距离值范围的最大值的情况，电子设备确定用户特征向量为差异特征向量。

对于每个用户类，以一个用户类为例说明。电子设备计算这一个用户类包括的每个用户特征向量分别与这一个用户类的中心向量之间的距离值。电子设备得到多个距离值后，对这多个距离值进行排序。电子设备获取未在预设距离值范围内的距离值，并将获取的距离值所表征的用户特征向量作为差异特征向量。

按照前述步骤的示例，假设预设距离值范围d ₁～d ₂。用户类1包括用户A的用户特征向量01、用户B的用户特征向量02和用户C的用户特征向量03，用户类1的中心向量为t ₁。用户特征向量01与中心向量t ₁之间的距离为d ₀₁，用户特征向量02与中心向量t ₁之间的距离为d ₀₂，用户特征向量03与中心向量t ₁之间的距离为d ₀₃。若d ₀₁<d ₁，d ₁<d ₀₂<d ₂，d ₁<d ₀₃<d ₂，则电子设备将d ₀₁所表征的用户特征向量01确定为差异特征向量。

在不同的用户类中，用户特征向量的分布不同。本公开实施例中，为了提高电子设备获取差异特征向量的准确性，电子设备中可分别存储每个用户类的预设距离值范围。

步骤207：电子设备将差异特征向量所表征的用户确定为异常用户。

具体地，按照前述步骤的示例，电子设备将用户特征向量01确定为差异特征向量，则确定用户特征向量01所表征的用户确定为异常用户，即将用户A确定为异常用户。

因此，本公开实施例提供的技术方案中，电子设备通过对用户特征向量进行聚类处理，得到用户类中的差异特征向量。电子设备根据差异特征向量实现对异常用户的识别。管理人员无需再将限制的用户名加入黑名单中，电子设备也无需再通过建立黑名单的方式对异常用户进行识别。本公开实施例提供的异常用户识别方法，实现了对管理人员未知且无法发现异常行为的用户进行识别。

可选地，在一种实现方式中，为了避免用户类包括的用户特征向量的个数存在过少的情况，导致聚类效果不理想，异常用户识别不准确。电子设备存储了预先设置的数量阈值，数量阈值用于对用户类包括的用户特征向量的个数进行限制。电子设备通过预设的聚类算法，对多个用户的用户特征向量进行聚类处理，得到多个用户类(步骤204)，可包括如下步骤。

电子设备通过K-means聚类算法，对多个用户的用户特征向量进行聚类处理，得到K个初始用户类。

电子设备检测K个初始用户类中是否存在包括用户特征向量的个数小于数量阈值的初始用户类。如果不存在包括用户特征向量的个数小于数量阈值的初始用户类，则电子设备将这K个初始用户类作为K个用户类。

如果存在包括用户特征向量的个数小于数量阈值的初始用户类，则电子设备获取K个初始用户类中的第一初始用户类和第二初始用户类。

在本公开实施例中，第一初始用户类为：K个初始用户类中，包括用户特征向量的个数小于预设数量阈值的初始用户类。第二初始用户类为：K个初始用户类中，与第一初始用户类的中心向量的距离值最小的中心向量所表征的初始用户类。

之后，电子设备对第一初始用户类与第二初始用户类进行合并处理，得到合并初始用户类。

电子设备将合并初始用户类作为聚类处理后的用户类，并将K个初始用户类中未合并的其他初始用户类作为聚类处理后的用户类。进而，电子设备得到多个用户类。

例如，预设的数量阈值为10。电子设备通过K-means聚类算法，对多个用户的用户特征向量进行聚类处理，得到5个初始用户类。例如，初始用户类1，初始用户类2，初始用户类3，初始用户类4和初始用户类5。其中，初始用户类1中包括8个用户特征向量，初始用户类2中包括12个用户特征向量，初始用户类3中包括11个用户特征向量，初始用户类4中包括15个用户特征向量，初始用户类5中包括17个用户特征向量。

可见，8<10，也就是，初始用户类1包括的用户特征向量的个数小于数量阈值，初始用户类1为第一初始用户类。

电子设备计算初始用户类2的中心向量与初始用户类1的中心向量之间的距离值为d ₁₁。电子设备计算初始用户类3的中心向量与初始用户类1的中心向量之间的距离值为d ₁₂。电子设备计算初始用户类4的中心向量与初始用户类1的中心向量之间的距离值为d ₁₃。电子设备计算初始用户类5的中心向量与初始用户类1的中心向量之间的距离值为d ₁₄。

若d ₁₁<d ₁₂<d ₁₃<d ₁₄，d ₁₁为最小的距离值，且d ₁₁对应初始用户类2，则电子设备可确定初始用户类2为第二初始用户类。电子设备对初始用户类1与初始用户类2进行合并处理，得到合并初始用户类1。

电子设备将合并初始用户类1作为进行聚类处理后的用户类01，将未合并的初始用户类3作为进行聚类处理后的用户类03，将初始用户类4作为进行聚类处理后的用户类04，将初始用户类5作为进行聚类处理后的用户类05。这样，电子设备得到4个用户类。

一种实现方式中，为了获得较好地聚类效果，电子设备在得到多个用户类后，可通过计算用户特征向量的聚合值的方式，对得到的多个用户类进行合并处理。其中，聚合值用于表征用户特征向量归属于用户类的合理程度。

在一个示例中，电子设备可以采用以下步骤获得聚合值。

电子设备计算第一用户特征向量分别与每个第二用户特征向量之间的第一距离值。其中，第二用户特征向量为：第一用户特征向量所在用户类包括的除第一用户特征向量之外的用户特征向量。电子设备对多个第一距离值进行取均值处理，得到第一距离均值。

电子设备计算第一用户特征向量分别与每个第三用户特征向量之间的第二距离值。其中，第三用户特征向量为：除第一用户特征向量所在用户类之外的每个用户类包括的用户特征向量。电子设备对多个属于同一用户类的第二距离值进行取均值处理，得到多个第二距离均值。电子设备获取多个第二距离均值中的距离均值最小值。

之后，电子设备计算第一距离均值和距离均值最小值的比值，将第一距离均值和距离均值最小值的比值，作为第一用户特征向量的聚合值。

以上仅以第一用户特征向量为例进行说明，并不起限定作用。

例如，如图4所示的用户类的分布图。图4中每一黑色的圆点表示一个用户特征向量。图4中包括用户类11、用户类12和用户类13。以用户类11包括的用户特征向量L ₁₁为例，在计算聚合值时，电子设备计算L ₁₁与用户类11包括的用户特征向量L ₁₂之间的第一距离值d ₂₁，计算L ₁₁与用户类11包括的用户特征向量L ₁₃之间的第一距离值d ₂₂，计算L ₁₁与用户类11包括的用户特征向量L ₁₄之间的第一距离值d ₂₃。电子设备计算d ₂₁、d ₂₂和d ₂₃的均值，得到第一距离均值D ₁。

电子设备计算L ₁₁与用户类12包括的用户特征向量L ₂₁之间的第二距离值d ₂₄，计算L ₁₁与用户类12包括的用户特征向量L ₂₂之间的第二距离值d ₂₅，计算L ₁₁与用户类12包括的用户特征向量L ₂₃之间的第二距离值d ₂₆。电子设备计算d ₂₄、d ₂₅和d ₂₆的均值，得到第二距离均值D ₂。

电子设备计算L ₁₁与用户类13包括的用户特征向量L ₃₁之间的第二距离值d ₂₇，计算L ₁₁与用户类13包括的用户特征向量L ₃₂之间的第二距离值d ₂₈，计算L ₁₁与用户类13包括的用户特征向量L ₃₃之间的第二距离值d ₂₉。电子设备计算d ₂₇、d ₂₈和d ₂₉的均值，得到第二距离均值D ₃。

若D ₂<D ₃，则电子设备计算D ₁和D ₂的比值，即D ₁/D ₂，将D ₁/D ₂作为用户特征向量L ₁₁的聚合值J ₁₁。

同理，电子设备可以计算出用户类11包括的其他用户特征向量的聚合值，以及用户类12和用户类13包括的用户特征向量的聚合值，在此不再复述。

可选地，基于上述确定的聚合值，电子设备对得到的多个用户类进行合并处理的过程可包括如下步骤。

电子设备计算多个用户类中任意两个用户类的中心向量之间的距离值，得到多个距离值。

从得到的多个距离值中，电子设备获取最小的距离值，并确定最小的距离值所表征的第一用户类和第二用户类。

电子设备获取多个用户类中每个用户类包括的用户特征向量的第一聚合值。这里，电子设备可以得到多个第一聚合值。

另外，当电子设备将第一用户类和第二用户类作为合并用户类时，也就是，电子设备将第一用户类和第二用户类作为一个用户类时，电子设备获取合并用户类包括的用户特征向量的第二聚合值，并获取多个用户类中除合并用户类外的每个用户类包括的用户特征向量的第二聚合值。这里，电子设备可以得到多个第二聚合值。

电子设备对多个第一聚合值进行累加处理，得到第一和值。电子设备对多个第二聚合值进行累加处理，得到第二和值。这里，多个用户类包括的所有用户特征向量的聚合值的和值，用于评价聚类效果的好坏。

当第二和值小于第一和值时，电子设备确定将第一用户类和第二用户类合并后的聚类效果更好，对第一用户类和第二用户类进行合并处理。

之后，电子设备重新计算多个用户类中任意两个用户类的中心向量之间的距离值，确定得到的多个距离值中最小距离值所表征的两个用户类，对这两个用户类进行合并处理，直至第二和值不小于第一和值为止。

仍以图4为例进行说明，电子设备计算得到：用户类11的中心向量与用户类12的中心向量之间的距离值z ₁，用户类11的中心向量与用户类13的中心向量之间的距离值z ₂，用户类12的中心向量与用户类13的中心向量之间的距离值z ₃。若z ₁<z ₂<z ₃，z ₁最小，则确定z ₁所表征的用户类11作为第一用户类，z ₁所表征的用户类12作为第二用户类。

对于用户类11，电子设备计算得到：用户特征向量L ₁₁的聚合值J ₁₁，用户特征向量L ₁₂的聚合值J ₁₂，用户特征向量L ₁₃的聚合值J ₁₃，用户特征向量L ₁₄的聚合值J ₁₄。对于用户类12，电子设备计算得到：用户特征向量L ₂₁的聚合值J ₂₁，用户特征向量L ₂₂的聚合值J ₂₂，用户特征向量L ₂₃的聚合值J ₂₃。对于用户类13，电子设备计算得到：用户特征向量L ₃₁的聚合值J ₃₁，用户特征向量L ₃₂的聚合值J ₃₂，用户特征向量L ₃₃的聚合值J ₃₃。

另外，电子设备将用户类11和用户类12作为合并用户类01。对于合并用户类01，电子设备计算得到：用户特征向量L ₁₁的聚合值J ₀₁，用户特征向量L ₁₂的聚合值J ₀₂，用户特征向量L ₁₃的聚合值J ₀₃，用户特征向量L ₁₄的聚合值J ₀₄，用户特征向量L ₂₁的聚合值J ₀₅，用户特征向量L ₂₂的聚合值J ₀₆，用户特征向量L ₂₃的聚合值J ₀₇。对于用户类13，电子设备计算得到：用户特征向量L ₃₁的聚合值J ₀₈，用户特征向量L ₃₂的聚合值J ₀₉，用户特征向量L ₃₃的聚合值J ₁₀。

电子设备计算第一和值M ₁为：M ₁＝J ₁₁+J ₁₂+J ₁₃+J ₁₄+J ₂₁+J ₂₂+J ₂₃+J ₃₁+J ₃₂+J ₃₃。

电子设备计算第二和值M ₂为：M ₂＝J ₀₁+J ₀₂+J ₀₃+J ₀₄+J ₀₅+J ₀₆+J ₀₇+J ₀₈+J ₀₉+J ₁₀。

若M ₂<M ₁，则电子设备对用户类11和用户类12进行合并处理，得到合并用户类01。否则，电子设备不对用户类11和用户类12进行合并处理。

在一个示例中，为了获得较好地聚类效果，电子设备还可以采用以下步骤获得聚合值。

如上述电子设备确定第一距离均值，以及确定多个第二距离均值中的距离均值最小值的过程。电子设备在计算得到距离均值最小值和第一距离均值的比值之后，将该比值减去1，得到结果为第一用户特征向量的聚合值。

仍以图4中用户类11包括的用户特征向量L ₁₁为例进行说明。电子设备计算得到D ₁、D ₂和D ₃，其中，D ₂<D ₃。电子设备计算得到D ₂和D ₁的比值，即D ₂/D ₁。之后，电子设备将(D ₂/D ₁-1)作为用户特征向量L ₁₁的聚合值J ₁₁。

如上述电子设备确定第一距离均值，以及确定多个第二距离均值中的距离均值最小值的过程。电子设备在计算得到第一距离均值和距离均值最小值的比值之后，将1减去该比值，得到结果为第一用户特征向量的聚合值。

仍以图4中用户类11包括的用户特征向量L ₁₁为例进行说明。电子设备计算得到D ₁、D ₂和D ₃，其中，D ₂<D ₃。电子设备计算得到D ₁和D ₂的比值，即D ₁/D ₂。之后，电子设备将(1-D ₁/D ₂)作为用户特征向量L ₁₁的聚合值J ₁₁。

可选地，基于1减去比值所得到的聚合值，或比值减去1所得到的聚合值，电子设备对得到的多个用户类进行合并处理的过程可以包括如下步骤。

从得到的多个距离值中，电子设备获取最小的距离值，确定最小的距离值所表征的第一用户类和第二用户类。

电子设备对多个第一聚合值进行累加处理，得到第一和值。电子设备对多个第二聚合值进行累加处理，得到第二和值。

当第二和值大于第一和值时，电子设备确定将第一用户类和第二用户类合并后的聚类效果更好，对第一用户类和第二用户类进行合并处理。

之后，电子设备重新计算多个用户类中任意两个用户类的中心向量之间的距离值，确定得到的多个距离值中最小距离值所表征的两个用户类，对这两个用户类进行合并处理，直至第二和值不大于第一和值为止。

可选地，在一种实现方式中，为了提高聚类处理的速度，电子设备可以根据多个用户中每个用户的用户属性，先对多个用户进行粗分类，得到每个用户所属的粗分类。对于每个粗分类，以一个粗分类为例。电子设备通过预设的聚类算法，对这一个粗分类包括的多个用户特征向量进行聚类处理，得到多个用户类。

例如，用户属性包括职位属性。职位属性包括：会记、出纳、人力资源、客服、研发设计等等。根据用户的职位属性，对用户进行粗分类。如，将会记、出纳等属于财务部的用户划分至一个粗分类，将人力资源等属于人事部的用户划分至一个粗分类，将客服等属于行政部的用户划分至一个粗分类，将研发设计等属于设计部的用户划分至一个粗分类，等等。

在进行聚类处理时，电子设备通过预设的聚类算法，分别对设计部、财务部、行政部、人事部这四个粗分类中每个粗分类包括的多个用户的用户特征向量进行聚类处理，得到多个用户类。

可选地，为了提高电子设备获取差异特征向量的准确性，电子设备预先存储了每个用户类的距离值范围。距离值范围用于对用户类包括的用户特征向量与用户类的中心向量之间的距离值进行限制。

在一种实现方式中，电子设备可以采用以下步骤确定距离值范围。

电子设备计算用户类X的中心向量，分别与用户类X包括的每个用户特征向量的距离值，得到多个距离值。用户类X为任一用户类。

电子设备计算多个距离值的距离均值，作为第三距离均值。电子设备还计算多个距离值的标准差，作为第一标准差。电子设备根据第三距离均值和第一标准差，构建正态分布曲线。该正态分布曲线：用于表征用户类X的中心向量与用户类X包括的用户特征向量之间的距离值分布。

基于正态分布曲线，电子设备根据第三距离均值和第一标准差，确定第一边界值和第二边界值。其中，第一边界值小于第三距离均值，第一边界值与第三距离均值的差的绝对值为：预设倍数的第一标准差。第二边界值大于第三距离均值，第二边界值与第三距离均值的差的绝对值同样为：预设倍数的第一标准差。

电子设备将第一边界值和第二边界值组成的区间，确定为用户类X的距离值范围。

在一个例子中，预设倍数为3。此时，电子设备基于3倍标准差，确定用户类X的距离值范围，如图5所示。图5中，μ ₁为第三距离均值，s为第一标准差，距离值范围为μ ₁-3s～μ ₁+3s。

在正态分布曲线中，与第三距离均值μ ₁的距离大于3倍标准差的数据属于小概率事件，其表征不可能发生的事件。对于用户类X包括的用户特征向量，若用户特征向量与用户类X的中心向量的距离值未在距离值范围内，则电子设备可以认定这个用户特征向量为差异特征向量。

但是，在实际应用中，用户类的中心向量与用户类包括的用户特征向量的距离值分布不是均符合正态分布曲线。在另一种实现方式中，电子设备可以采用以下方式确定距离值范围。

电子设备计算用户类X的中心向量分别与用户类X包括的每个用户特征向量的距离值，得到多个距离值。

电子设备根据预设的对数函数，计算多个距离值中每个距离值的对数值。电子设备还计算多个对数值的均值，作为对数均值。电子设备还计算多个对数值的标准差，作为第二标准差。电子设备根据对数均值和第二标准差，构建正态分布曲线。该正态分布曲线：用于表征用户类X的中心向量与用户类X包括的用户特征向量之间的距离值的对数分布。

基于正态分布曲线，电子设备根据对数均值和第二标准差，确定第三边界值和第四边界值。其中，第三边界值小于对数均值，第三边界值与对数均值的差的绝对值为：预设倍数第二标准差。第四边界值大于对数均值，第二边界值与对数均值的差的绝对值同样为：预设倍数第二标准差。

电子设备根据预设的对数函数的反函数，计算第三边界值的反对数值作为第一反对数值，计算第四边界值的反对数值作为第二反对数值。例如，预设的对数函数为y＝log ₁₀x，则预设的对数函数的反函数为x＝10 ^y。

电子设备将第一反对数值和第二反对数值组成的区间，确定为用户类X的距离值范围。

可选地，在一种实现方式中，为了提高电子设备确定异常用户的准确性，根据多个用户行为维度中的每个用户行为维度，电子设备判断差异特征向量对应的用户特征值是否超过预设的特征基线值。一个例子中，每个用户行为维度，电子设备预设有一个特征基线值。

如果差异特征向量对应的用户特征值超过特征基线值，则电子设备可确定在用户行为维度下所表征的用户行为为异常用户行为，并确定差异特征向量所表征的用户为异常用户。

如果差异特征向量对应的用户特征值未超过特征基线值，则电子设备确定在用户行为维度下所表征的用户行为为正常用户行为。若差异特征向量对应的所有用户特征值均未超过特征基线值，则电子设备确定差异特征向量所表征的用户为正常用户。

例如，用户行为维度1的特征基线值为X ₁，用户行为维度2的特征基线值为X ₂，用户行为维度3的特征基线值为X ₃。差异特征向量包括用户行为维度1的用户特征值1，用户行为维度2的用户特征值2，用户行为维度3的用户特征值3。

对于用户行为维度1，若用户特征值1超过特征基线值X ₁，则电子设备可确定在用户行为维度1下所表征的用户行为为异常用户行为，差异特征向量所表征的用户为异常用户。

对于用户行为维度2，若用户特征值2超过特征基线值X ₂，则电子设备可确定在用户行为维度2下所表征的用户行为为异常用户行为，差异特征向量所表征的用户为异常用户。

对于用户行为维度3，若用户特征值3超过特征基线值X ₃，则电子设备可确定在用户行为维度3下所表征的用户行为为异常用户行为，差异特征向量所表征的用户为异常用户。

若用户特征值1未超过特征基线值X ₁，用户特征值2未超过特征基线值X ₂，且用户特征值3未超过特征基线值X ₃，则电子设备可确定差异特征向量所表征的用户为正常用户。

本公开实施例中，对于用户特征值差异性较小的用户行为维度，例如，用户行为维度1，电子设备可以直接确定用户行为维度1的特征基线值。

例如，用户切换MAC地址频率一般为1天为1次或2次，此时，电子设备可以确定MAC地址切换频率这个用户行为维度的特征基线值为2。

对于用户特征值差异性较大的用户行为维度，例如，用户行为维度2，电子设备统计多个用户行为数据在用户行为维度2下的用户特征值的概率密度分布。电子设备根据概率密度分布，确定用户行为维度2的特征基线值。

例如，如图6所示的累计概率曲线图。图6中，横轴为用户特征值，纵轴为累计概率。坐标轴内的矩形为用户特征值的概率密度。累计概率曲线为基于概率密度分布获得的。从图6中可以看出，用户特征值在20-120区间时，累计概率曲线的斜率远小于平均斜率。此时，电子设备可以确定图6所表征的用户行为维度的特征基线值为：小于20或大于120。

一种实现方式中，若电子设备获取的多个用户行为数据还可以为一个用户的多个用户行为数据，本公开实施例还提供了一种异常用户识别方法。参考图7，图7为本公开实施例提供的异常用户识别方法的再一种流程示意图，该方法包括如下步骤。

步骤701：电子设备获取待识别用户的多个用户行为数据。多个用户行为数据包括至少一个历史用户行为数据和一个当前用户行为数据。

本公开实施例中，当需要检测待识别用户是否为异常用户时，电子设备获取待识别用户的多个用户行为数据。此处仅以待识别用户为例进行说明，并不起限定作用。

电子设备可以从用户行为日志中，获取到待识别用户的多个用户行为数据。这里，用户行为日志用于记录用户的各种网络行为。另外，电子设备也可以从用户输入的用户行为数据中，获取到待识别用户的多个用户行为数据。本公开实施例不限定电子设备获取用户行为数据的形式。

电子设备按照预设的时间粒度，获取待识别用户的多个用户行为数据。

在一个示例中，假设当前时间为10:00，待识别用户为用户A1。电子设备预设的时间粒度为10分钟。电子设备可获取在9:50-10:00所表示的时间段内用户A1的用户行为数据31，在9:40-9:50所表示的时间段内用户A1的用户行为数据32，以及在9:30-9:40所表示的时间段内用户A1的用户行为数据33等。其中，用户行为数据31为用户A1的当前用户行为数据。用户行为数据32和用户行为数据33等为用户A1的历史用户行为数据。

在另一个示例中，假设当前时间为10:00，待识别用户为用户A1。电子设备预设的时间粒度为10分钟。电子设备可获取在10:00-10:10所表示的时间段内用户A1的用户行为数据41，在9:50-10:00所表示的时间段内用户A1的用户行为数据42，在9:40-9:50所表示的时间段内用户A1的用户行为数据43，以及在9:30-9:40所表示的时间段内用户A1的用户行为数据44等。其中，用户行为数据41为用户A1的当前用户行为数据。用户行为数据42、用户行为数据43和用户行为数据44等为用户A1的历史用户行为数据。

步骤702：电子设备提取每个历史用户行为数据在预设的多个用户行为维度下的多个第一数据特征值，并提取当前用户行为数据在多个用户行为维度下的多个第二数据特征值。

具体地，为了便于电子设备提取每个用户行为数据在多个用户行为维度下的数据特征值，可对用户行为维度进行划分，得到业务层特征维度和行为层特征维度。通过业务层特征维度和行为层特征维度，可使电子设备快速地在多个用户行为维度下提取数据特征值。

电子设备通过将业务层特征维度和行为层特征维度包括的内容进行任意组合，得到多个用户行为维度。如图3所示，在一个示例中，电子设备得到的用户行为维度包括但不限于：IM发送信息数、IM接收信息数、IM发送文件数、IM发送文件大小等。

进而，在多个用户行为维度下，电子设备提取到多个用户行为数据中每个历史用户行为数据的多个第一数据特征值，以及提取到多个用户行为数据中当前用户行为数据的多个第二数据特征值。

步骤703：电子设备根据多个第一数据特征值，确定每个历史用户行为数据的第一数据特征向量，并根据多个第二数据特征值，确定当前用户行为数据的第二数据特征向量。

对于多个用户行为数据中的每个历史用户行为数据，以一个历史用户行为数据为例说明。电子设备对这一个历史用户行为数据的多个第一数据特征值进行组合处理，得到这一个历史用户行为数据的第一数据特征向量。

对于多个用户行为数据中的当前用户行为数据，电子设备对当前用户行为数据的多个第二数据特征值进行组合处理，得到当前用户行为数据的第二数据特征向量。

具体地，按照前述步骤的示例，电子设备获取到用户A1的用户行为数据31、用户A1的用户行为数据32和用户A1的用户行为数据33。

电子设备从用户行为数据31中提取到IM发送信息数为10、IM接收信息数为8、IM发送文件数为2、IM发送文件大小为500KB。

电子设备从用户行为数据32中提取到IM发送信息数为9、IM接收信息数为8、IM发送文件数为3、IM发送文件大小为490KB。

电子设备从用户行为数据33中提取到IM发送信息数为10、IM接收信息数为7、IM发送文件数为1、IM发送文件大小为600KB。

此时，电子设备可以确定：用户行为数据31的数据特征向量01为{10，8，2，500}，用户行为数据32的数据特征向量02为{9，8，3，490}，用户行为数据33的数据特征向量03为{10，7，1，600}。其中，数据特征向量01为第二数据特征向量，数据特征向量02和数据特征向量03为第一数据特征向量。

步骤704：电子设备通过预设的聚类算法，对多个第一数据特征向量和第二数据特征向量进行聚类处理，得到多个数据类。

本公开实施例中，预设的聚类算法可以为K-means聚类算法、K-means Plus聚类算法等。电子设备通过预设的聚类算法，对多个第一数据特征向量和第二数据特征向量进行聚类处理，得到多个数据类。每个数据类包括至少一个数据特征向量。

在一个示例中，预设的聚类算法为K-means聚类算法。电子设备通过K-means聚类算法，对多个第一数据特征向量和第二数据特征向量进行聚类处理，得到K个初始数据类。其中，K为正整数。电子设备将这K个初始数据类作为K个数据类。

步骤705：电子设备确定第二数据特征向量所属的第一数据类的第一中心向量。

本公开实施例中，电子设备从多个数据类中，确定第二数据特征向量所属的第一数据类，计算第一数据类包括的多个数据特征向量的均值，将该均值作为第一数据类的中心向量，以确定当前待识别用户是否为异常用户。其中，第一数据类的中心向量即为第一中心向量。

按照前述步骤的示例，第一数据类中包括数据特征向量01、数据特征向量02和数据特征向量03。电子设备计算数据特征向量01、数据特征向量02和数据特征向量03的均值t ₂，将计算得到的均值t ₂确定为第一数据类的第一中心向量。

步骤706：电子设备确定第二数据特征向量与第一中心向量之间的距离值。

按照前述步骤的示例，数据特征向量01为第二数据特征向量，第一数据类的中心向量为t ₂。电子设备计算数据特征向量01与中心向量t ₂之间的距离值d _a1。

步骤707：若距离值未在预设距离范围内，电子设备确定待识别用户为异常用户。

电子设备确定第二数据特征向量与第一中心向量之间的距离值，判断确定的距离值是否在预设距离值范围内。若未在预设距离范围内，则电子设备可确定第二数据特征向量为差异特征向量，确定第二数据特征向量所表征的用户为异常用户，即确定待识别用户为异常用户。

电子设备预设有距离值范围。不同的数据类中，数据特征向量的分布不同。为了提高电子设备识别异常用户的准确性，电子设备可预先设置第一数据类的距离值范围。

本公开实施例中，对于第二数据特征向量与第一数据类的中心向量之间的距离值，电子设备若确定这个距离值未在预设距离值范围内，则确定待识别用户为异常用户。电子设备若这个距离值在预设距离值范围内，则确定待识别用户为正常用户。

按照前述步骤的示例，预设距离值范围为d _a01～d _a02。电子设备计算得到数据特征向量01与中心向量t ₂之间的距离值d _a1。若d _a1<d _a01或d _a1>d _a02，则电子设备可确定待识别用户为异常用户，即电子设备可确定用户A1为异常用户。

本公开实施例中，电子设备通过对数据特征向量进行聚类处理，得到当前用户行为数据类所属的第一数据类。电子设备根据第一数据类中第二数据特征向量与第一数据类的中心向量的距离，实现对异常用户的识别。管理人员无需再将限制的用户名加入黑名单中，电子设备也无需再通过建立黑名单的方式对异常用户进行识别。本公开实施例提供的异常用户识别方法，实现了对管理人员未知且无法发现异常行为的用户进行识别。

可选地，在一种实现方式中，为了避免一个数据类中包括的数据特征向量的个数存在过少的情况，导致聚类效果不理想，异常用户识别不准确。电子设备存储了预先设置的数量阈值，数量阈值用于对数据类包括的数据特征向量的个数进行限制。电子设备通过预设的聚类算法，对多个第一数据特征向量和第二数据特征向量进行聚类处理，得到多个数据类(步骤704)，可包括如下步骤。

电子设备通过K-means聚类算法，对多个第一数据特征向量和第二数据特征向量进行聚类处理，得到K个初始数据类。

电子设备获取K个初始数据类中的第一初始数据类。其中，第一初始数据类包括N个数据特征向量，N为正整数。第一初始数据类为：K个初始数据类中第二数据特征向量所属的初始数据类。

电子设备检测N是否小于数量阈值。如果N不小于数量阈值，则电子设备将这K个初始数据类作为K个数据类。

如果N小于预设数量阈值，则电子设备获取K个初始数据类中的第二初始数据类。其中，第二初始数据类为：K个初始数据类中，与第一初始数据类的中心向量的距离值最小的中心向量所表征的初始数据类。

之后，电子设备对第一初始数据类与第二初始数据类进行合并处理，得到合并初始数据类。

电子设备将合并初始数据类作为聚类处理后的数据类，并将K个初始数据类中未合并的其他初始数据类作为聚类处理后的数据类。进而，电子设备得到多个数据类。

一种实现方式中，为了获得较好地聚类效果，电子设备可通过计算数据特征向量的聚合值的方式，对得到的多个数据类再次进行合并处理。其中，聚合值用于表征数据特征向量归属于数据类的合理程度。

在一个示例中，在一种实现方式中，电子设备可以采用以下步骤获得聚合值。

电子设备计算第三数据特征向量分别与每个第四数据特征向量之间的第一距离值。其中，第四数据特征向量为：第三数据特征向量所在数据类包括的除第三数据特征向量之外的数据特征向量。电子设备对多个第一距离值进行取均值处理，得到第一距离均值。

电子设备计算第三数据特征向量与每个第五数据特征向量之间的第二距离值。其中，第五数据特征向量为：除第三数据特征向量所在数据类之外的每个数据类包括的数据特征向量。电子设备对多个属于同一数据类的第二距离值进行取均值处理，得到多个第二距离均值。电子设备获取多个第二距离均值中的距离均值最小值。

之后，电子设备计算第一距离均值和距离均值最小值的比值，得到第三数据特征向量的聚合值。

上述仅以第三数据特征向量为例进行说明，并不起限定作用。

在一个示例中，基于上述确定的聚合值，电子设备对得到的多个数据类进行合并处理的过程可以包括如下步骤。

电子设备计算第一中心向量与多个数据类中除第一数据类外的任意一个数据类的第二中心向量之间的距离值，得到多个距离值。即电子设备计算第一中心向量与第二中心向量之间的距离值，得到多个距离值。第二中心向量为：多个数据类中除第一数据类外的任意一个数据类的中心向量。

从得到的多个距离值中，电子设备获取最小的距离值，并确定最小的距离值所表征的第二数据类。

电子设备获取多个数据类中每个数据类包括的数据特征向量的第三聚合值。这里，电子设备可以得到多个第三聚合值。

另外，当电子设备将第一数据类和第二数据类作为合并数据类时，也就是，电子设备将第一数据类和第二数据类作为一个数据类时，获取合并数据类包括的数据特征向量的第四聚合值，并获取多个数据类中除合并数据类外的每个数据类包括的数据特征向量的第四聚合值。这里，电子设备可以得到多个第四聚合值。

电子设备对多个第三聚合值进行累加处理，得到第三和值。电子设备对多个第四聚合值进行累加处理，得到第四和值。这里，多个数据类中所有数据特征向量的聚合值的和值，用于评价聚类效果的好坏。

当第四和值小于第三和值时，电子设备确定将第一数据类和第二数据类合并后的聚类效果更好，对第一数据类和第二数据类进行合并处理。

之后，电子设备重新计算第一数据类的中心向量与多个数据类中除第一数据类外的任意一个数据类的中心向量之间的距离值，确定得到的多个距离值中最小距离值所表征的第二数据类，对第一数据类和第二数据类进行合并处理，直至第四和值不小于第三和值为止。

如上述电子设备确定第一距离均值，以及确定多个第二距离均值中的距离均值最小值的过程。电子设备在计算得到距离均值最小值和第一距离均值的比值之后，将该比值减去1，得到结果为第三数据特征向量的聚合值。

如上述电子设备确定第一距离均值，以及确定多个第二距离均值中的距离均值最小值的过程。电子设备在计算得到第一距离均值和距离均值最小值的比值之后，将1减去该比值，得到结果为第三数据特征向量的聚合值。

可选地，基于1减去比值得到的聚合值，或基于比值减去1所得到的聚合值，电子设备对得到的多个数据类进行合并处理的过程可以包括如下步骤。

从得到的多个距离值中，电子设备获取最小的距离值，确定最小的距离值所表征的第二数据类。

电子设备获取多个数据类中，每个数据类包括的数据特征向量的第三聚合值。这里，电子设备可以得到多个第三聚合值。

电子设备对多个第三聚合值进行累加处理，得到第三和值。电子设备对多个第四聚合值进行累加处理，得到第四和值。

当第四和值大于第三和值时，电子设备确定将第一数据类和第二数据类合并后的聚类效果更好，对第一数据类和第二数据类进行合并处理。

之后，电子设备重新计算第一数据类的中心向量与多个数据类中除第一数据类外的任意一个数据类的中心向量之间的距离值，确定得到的多个距离值中最小距离值所表征的第二数据类，对第一数据类和第二数据类进行合并处理，直至第四和值不大于第三和值为止。

可选地，为了提高电子设备对异常用户识别的准确性，电子设备预先存储了第一数据类的距离值范围。距离值范围用于对数据类中的数据特征向量与数据类的中心向量之间的距离值进行限制。

在一种实现方式中，电子设备可以采用以下方式确定第一数据类的距离值范围。

电子设备计算第一中心向量分别与第一数据类包括的每个数据特征向量的距离值，得到多个距离值。

电子设备计算多个距离值的距离均值，作为第三距离均值。电子设备还计算多个距离值的标准差，作为第一标准差。电子设备根据第三距离均值和第一标准差，可以构建正态分布曲线。该正态分布曲线：用于表征第一中心向量与第一数据类包括的数据特征向量之间的距离值分布。

电子设备将第一边界值和第二边界值组成的区间，确定为第一数据类的距离值范围。

在一个例子中，预设倍数为3。此时，电子设备基于3倍标准差，确定第一数据类的距离值范围，如图5所示。图5中，μ ₁为第三距离均值，s为第一标准差，距离值范围为μ ₁-3s～μ ₁+3s。

在正态分布曲线中，与第三距离均值μ ₁的距离大于3倍标准差的数据属于小概率事件，其表征不可能发生的事件。若第二数据特征向量与第一中心向量之间的距离值未在距离值范围内，则电子设备可以认定待识别用户为异常用户。

但是，在实际应用中，第一中心向量与第一数据类包括的数据特征向量的距离值分布不一定符合正态分布。另一种实现方式中，电子设备可以采用以下方式确定第一数据类的距离值范围。

电子设备根据预设的对数函数，计算多个距离值中每个距离值的对数值。电子设备还计算多个对数值的均值，作为对数均值。电子设备还计算得到的多个对数值的标准差，作为第二标准差。电子设备根据对数均值和第二标准差，可以构建正态分布曲线。该正态分布曲线：用于表征第一中心向量与第一数据类中的数据特征向量之间的距离值的对数分布。

基于正态分布曲线，电子设备根据对数均值和第二标准差，确定第三边界值和第四边界值。其中，第三边界值小于对数均值，第三边界值与对数均值的差的绝对值为：预设倍数的第二标准差。第四边界值大于对数均值，第二边界值与对数均值的差的绝对值同样为：预设倍数的第二标准差。

电子设备将第一反对数值和第二反对数值组成的区间，确定为第一数据类的距离值范围。

可选地，在一种实现方式中，为了提高电子设备识别异常用户的准确性，根据多个用户行为维度中的每个用户行为维度，电子设备判断第二数据特征向量对应的数据特征值是否超过预设的特征基线值。一个例子中，每个用户行为维度，电子设备预设有一个特征基线值。此处，第二数据特征向量即为差异特征向量。

如果第二数据特征向量对应的数据特征值超过特征基线值，则电子设备可确定在用户行为维度下所表征的用户行为为异常用户行为，并确定待识别用户为异常用户。

如果第二数据特征向量对应的数据特征值未超过特征基线值，则电子设备可确定在用户行为维度下所表征的用户行为为正常用户行为。若第二数据特征向量对应的所有数据特征值均未超过特征基线值，则电子设备确定待识别用户为正常用户。

本公开实施例中，对于数据特征值差异性较小的用户行为维度，例如，用户行为维度1，电子设备可以直接确定用户行为维度1的特征基线值。例如，用户切换MAC地址频率一般为1天为1次或2次，此时，电子设备可以确定MAC地址切换频率这个用户行为维度的特征基线值为2。

对于数据特征值差异性较大的用户行为维度，例如，用户行为维度2，电子设备统计多个用户行为数据在用户行为维度2下的数据特征值的概率密度分布。电子设备根据概率密度分布，确定用户行为维度2的特征基线值。

基于相同的发明构思，根据上述异常用户识别方法，本公开实施例还提供了一种异常用户识别装置。参考图8，图8为本公开实施例提供的异常用户识别装置的第一种结构示意图，该装置包括：获取单元801、提取单元802、第一确定单元803、聚类单元804、第二确定单元805和第三确定单元806。

获取单元801，用于获取用户的用户行为数据；

提取单元802，用于提取用户行为数据在预设的多个行为维度下的多个特征值；

第一确定单元803，用于根据多个特征值，确定用户行为数据对应的特征向量；

聚类单元804，用于通过预设的聚类算法，对特征向量进行聚类处理，得到多个聚合类，并获取每个聚合类的中心向量；

第二确定单元805，用于确定差异特征向量，差异特征向量与所属聚合类的中心向量之间的距离值未在预设距离值范围内；

第三确定单元806，用于将差异特征向量所表征的用户确定为异常用户。

本公开实施例提供的异常用户识别装置中，电子设备通过对特征向量进行聚类处理，获取与聚合类的中心向量的距离未在预设距离值范围内的差异特征向量。电子设备根据获取的差异特征向量实现对异常用户的识别。管理人员无需再将限制的用户名加入黑名单中，电子设备也无需再通过建立黑名单的方式对异常用户进行识别，实现了对管理人员未知且无法发现异常行为的用户进行识别。

在一个示例中，上述用户为多个用户。

此时，获取单元801，具体可以用于获取多个用户的用户行为数据；

提取单元802，具体可以用于提取多个用户中每个用户的用户行为数据在预设的多个用户行为维度下的多个用户特征值；

第一确定单元803，具体可以用于根据多个用户中每个用户的多个用户特征值，确定多个用户中每个用户的用户特征向量；

聚类单元804，具体可以用于通过预设的聚类算法，对多个用户的用户特征向量进行聚类处理，得到多个用户类，根据多个用户类中每个用户类包括的用户特征向量，确定多个用户类中每个用户类的中心向量。

在一个示例中，聚类单元804，具体可以用于：

通过K-means聚类算法，对多个用户的用户特征向量进行聚类处理，得到K个初始用户类；K为正整数；

获取K个初始用户类中第一初始用户类和第二初始用户类；

对第一初始用户类与第二初始用户类进行合并处理，得到合并初始用户类；

将合并初始用户类和K个初始用户类中未合并的其他初始用户类，分别作为进行聚类处理后的用户类，得到多个用户类；

第一初始用户类为：K个初始用户类中，包括的用户特征向量的个数小于预设数量阈值的初始用户类；

第二初始用户类为：K个初始用户类中，与第一初始用户类的中心向量的距离值最小的中心向量所表征的初始用户类。

在一个示例中，聚类单元804，还可以用于：

计算多个用户类中任意两个用户类的中心向量之间的距离值，得到多个距离值；

确定多个距离值中最小距离值所表征的第一用户类和第二用户类；

获取多个用户类中每个用户类包括的用户特征向量的第一聚合值；

当将第一用户类和第二用户类作为合并用户类时，获取合并用户类包括的用户特征向量的第二聚合值，并获取多个用户类中，除合并用户类外的每个用户类包括的用户特征向量的第二聚合值；

对多个第一聚合值进行累加处理，得到第一和值；

对多个第二聚合值进行累加处理，得到第二和值；

当第二和值小于第一和值时，对第一用户类和第二用户类进行合并处理；

其中，聚合值用于表征用户特征向量归属于用户类中的合理程度。

在一个示例中，聚类单元804，还可以用于：

计算第一用户特征向量与每个第二用户特征向量之间的第一距离值；第二用户特征向量为：第一用户特征向量所在用户类中，除第一用户特征向量之外的用户特征向量；

计算第一用户特征向量与每个第三用户特征向量之间的第二距离值；其中，第三用户特征向量为：除第一用户特征向量所在用户类之外的每个用户类中的用户特征向量；

对多个第一距离值进行取均值处理，得到第一距离均值；

对多个属于同一用户类的第二距离值进行取均值处理，得到多个第二距离均值；

获取多个第二距离均值中的距离均值最小值；

将第一距离均值与距离均值最小值的比值，作为第一用户特征向量的聚合值。

在一个示例中，第三确定单元806，具体可以用于：

根据多个用户行为维度中的每个用户行为维度，判断差异特征向量对应的用户特征值是否超过预设的特征基线值；

如果差异特征向量对应的用户特征值超过特征基线值，则确定在用户行为维度下所表征的用户行为为异常用户行为，并确定差异特征向量所表征的用户为异常用户。

在一个示例中，上述用户为一个用户，用户行为数据可以包括：所述用户的至少一个历史用户行为数据和一个当前用户行为数据。

此时，获取单元801，具体可以用于获取待识别用户的多个用户行为数据，多个用户行为数据包括：至少一个历史用户行为数据和一个当前用户行为数据；

提取单元802，具体可以用于提取至少一个历史用户行为数据中，每个历史用户行为数据在预设的多个行为维度下的多个第一数据特征值，并提取当前用户行为数据在多个行为维度下的多个第二数据特征值；

第一确定单元803，具体可以用于根据多个第一数据特征值，确定至少一个历史用户行为数据中，每个历史用户行为数据的第一数据特征向量，并根据多个第二数据特征值，确定当前用户行为数据的第二数据特征向量；

聚类单元804，具体可以用于通过预设的聚类算法，对多个第一数据特征向量和第二数据特征向量进行聚类处理，得到多个数据类；确定第二数据特征向量所属的第一数据类的中心向量；

第二确定单元805，用于判断第二数据特征向量与第一数据类的中心向量之间的距离值是否在预设距离值范围内；若否，则确定第二数据特征向量为差异特征向量。

在一个示例中，聚类单元804，具体可以用于：

通过K-means聚类算法，对多个第一数据特征向量和第二数据特征向量进行聚类处理，得到K个初始数据类；K为正整数；

获取K个初始数据类中的第一初始数据类，第一初始数据类包括N个数据特征向量，N为正整数；

若N小于预设数量阈值，则获取K个初始数据类中的第二初始数据类；

对第一初始数据类与第二初始数据类进行合并处理，得到合并初始数据类；

将合并初始数据类和K个初始数据类中未合并的其他初始数据类，分别作为进行聚类处理后的数据类，得到多个数据类；

第一初始数据类为：第二数据特征向量所属的初始数据类；

第二初始数据类为：所述K个初始数据类中，与第一初始数据类的中心向量的距离值最小的中心向量所表征的初始数据类。

在一个示例中，聚类单元804，还可以用于：

计算第一中心向量与多个数据类中除第一数据类外的任意一个数据类的第二中心向量之间的距离值，得到多个距离值；

确定多个距离值中最小距离值所表征的第二数据类；

获取多个数据类中每个数据类包括的数据特征向量的第三聚合值；

当将第一数据类和第二数据类作为合并数据类时，获取合并数据类包括的数据特征向量的第四聚合值，并获取多个数据类中除合并数据类外的每个数据类包括的数据特征向量的第四聚合值；

对多个第三聚合值进行累加处理，得到第三和值；

对多个第四聚合值进行累加处理，得到第四和值；

当第四和值小于第三和值时，对第一数据类和第二数据类进行合并处理；

其中，聚合值用于表征数据特征向量归属于数据类中的合理程度。

在一个示例中，聚类单元804，还可以用于：

计算第三数据特征向量与每个第四数据特征向量之间的第一距离值；第四数据特征向量为：第三数据特征向量所在数据类中，除第三数据特征向量之外的数据特征向量；

计算第三数据特征向量与每个第五数据特征向量之间的第二距离值；第五数据特征向量为：除第三数据特征向量所在数据类之外的每个数据类中的数据特征向量；

对多个第一距离值进行取均值处理，得到第一距离均值；

获取多个第二距离均值中的距离均值最小值；

将第一距离均值与距离均值最小值的比值，作为第三数据特征向量的聚合值。

在一个示例中，第三确定单元806，具体可以用于：

根据多个用户行为维度中的每个用户行为维度，判断第二数据特征向量对应的数据特征值是否超过预设的特征基线值；其中，第二数据特征向量为差异特征向量；

如果第二数据特征向量对应的数据特征值超过特征基线值，则确定在用户行为维度下所表征的用户行为为异常用户行为，并确定待识别用户为异常用户。

基于相同的发明构思，根据上述异常用户识别方法，本公开实施例还提供了一种电子设备，如图9所示，包括处理器901和机器可读存储介质902，机器可读存储介质902存储有能够被处理器901执行的机器可执行指令。机器可执行指令促使处理器901：

获取用户的用户行为数据；

提取用户行为数据在预设的多个行为维度下的多个特征值；

根据多个特征值，确定用户行为数据对应的特征向量；

通过预设的聚类算法，对特征向量进行聚类处理，得到多个聚合类，并获取每个聚合类的中心向量；

确定差异特征向量，差异特征向量与所属聚合类的中心向量之间的距离值未在预设距离值范围内；

将差异特征向量所表征的用户确定为异常用户。

本公开实施例提供的电子设备中，电子设备通过对特征向量进行聚类处理，获取与聚合类的中心向量的距离未在预设距离值范围内的差异特征向量。电子设备根据获取的差异特征向量实现对异常用户的识别。管理人员无需再将限制的用户名加入黑名单中，电子设备也无需再通过建立黑名单的方式对异常用户进行识别，实现了对管理人员未知且无法发现异常行为的用户进行识别。

在一个示例中，当用户为多个用户时，机器可执行指令具体可以促使处理器901：

提取多个用户中每个用户的用户行为数据在多个用户行为维度下的多个用户特征值；

根据多个用户中每个用户的多个用户特征值，确定多个用户中每个用户的用户特征向量；

通过预设的聚类算法，对多个用户的用户特征向量进行聚类处理，得到多个用户类；

根据多个用户类中每个用户类包括的用户特征向量，确定多个用户类中每个用户类的中心向量。

在一个示例中，机器可执行指令具体可以促使处理器901：

获取K个初始用户类中第一初始用户类和第二初始用户类；

第一初始用户类为K个初始用户类中包括的用户特征向量的个数小于预设数量阈值的初始用户类；

第二初始用户类为K个初始用户类中与第一初始用户类的中心向量的距离值最小的中心向量所表征的初始用户类。

在一个示例中，机器可执行指令还可以促使处理器901：

对多个第一聚合值进行累加处理，得到第一和值；

对多个第二聚合值进行累加处理，得到第二和值；

在一个示例中，机器可执行指令还可以促使处理器901：

计算第一用户特征向量与每个第三用户特征向量之间的第二距离值；第三用户特征向量为：除第一用户特征向量所在用户类之外的每个用户类中的用户特征向量；

对多个第一距离值进行取均值处理，得到第一距离均值；

获取多个第二距离均值中的距离均值最小值；

在一个示例中，机器可执行指令具体可以促使处理器901：

在一个示例中，当所述用户为一个用户时，所述用户行为数据包括：所述用户的至少一个历史用户行为数据和一个当前用户行为数据；

机器可执行指令具体可以促使处理器901：

提取所述至少一个历史用户行为数据中每个历史用户行为数据在多个行为维度下的多个第一数据特征值，并提取所述当前用户行为数据在多个行为维度下的多个第二数据特征值；

根据所述多个第一数据特征值，确定每个历史用户行为数据的第一数据特征向量，并根据所述多个第二数据特征值，确定所述当前用户行为数据的第二数据特征向量；

通过预设的聚类算法，对所述多个第一数据特征向量和所述第二数据特征向量进行聚类处理，得到多个数据类；

确定所述第二数据特征向量所属的第一数据类的中心向量；

判断所述第二数据特征向量与所述第一数据类的中心向量之间的距离值是否在预设距离值范围内；

若否，则确定所述第二数据特征向量为差异特征向量。

在一个示例中，机器可执行指令具体可以促使处理器901：

第一初始数据类为：第二数据特征向量所属的初始数据类；

第二初始数据类为：K个初始数据类中，与第一初始数据类的中心向量的距离值最小的中心向量所表征的初始数据类。

在一个示例中，机器可执行指令还可以促使处理器901：

确定多个距离值中最小距离值所表征的第二数据类；

对多个第三聚合值进行累加处理，得到第三和值；

对多个第四聚合值进行累加处理，得到第四和值；

在一个示例中，机器可执行指令还可以促使处理器901：

对多个第一距离值进行取均值处理，得到第一距离均值；

获取多个第二距离均值中的距离均值最小值；

在一个示例中，机器可执行指令具体可以促使处理器901：

根据多个用户行为维度中的个用户行为维度，判断第二数据特征向量对应的数据特征值是否超过预设的特征基线值；其中，第二数据特征向量为差异特征向量；

另外，如图9所示，电子设备还可以包括：通信接口903和通信总线904；其中，处理器901、机器可读存储介质902、通信接口903通过通信总线904完成相互间的通信，通信接口903用于上述电子设备与其他设备之间的通信。

上述通信总线可以是外设部件互连标准(英文：Peripheral Component Interconnect，简称：PCI)总线或扩展工业标准结构(英文：Extended Industry Standard Architecture，简称：EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

上述机器可读存储介质可以包括随机存取存储器(英文：Random Access Memory，简称：RAM)，也可以包括非易失性存储器(英文：Non-Volatile Memory，简称：NVM)，例如至少一个磁盘存储器。另外，机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器(英文：Central Processing Unit，简称：CPU)、网络处理器(英文：Network Processor，简称：NP)等；还可以是数字信号处理器(英文：Digital Signal Processing，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)、现场可编程门阵列(英文：Field-Programmable Gate Array，简称：FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于相同的发明构思，根据上述异常用户识别方法，本公开实施例还提供了一种机器可读存储介质，存储有机器可执行指令，在被处理器调用和执行时，机器可执行指令促使处理器实现上述图1-7所示的任一异常用户识别方法步骤。

基于相同的发明构思，根据上述异常用户识别方法，本公开实施例还提供了一种机器可执行指令，在被处理器调用和执行时，机器可执行指令促使处理器实现上述图1-7所示的任一异常用户识别方法步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于异常用户识别装置、电子设备、机器可读存储介质实施例而言，由于其基本相似于异常用户识别方法实施例，所以描述的比较简单，相关之处参见异常用户识别方法实施例的部分说明即可。

以上所述仅为本公开的较佳实施例而已，并非用于限定本公开的保护范围。凡在本公开的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本公开的保护范围内。

Claims

一种异常用户识别方法，所述方法包括：

获取用户的用户行为数据；

提取所述用户行为数据在预设的多个行为维度下的多个特征值；

根据所述多个特征值，确定所述用户行为数据对应的特征向量；

通过预设的聚类算法，对所述特征向量进行聚类处理，得到多个聚合类，并获取每个聚合类的中心向量；

确定差异特征向量，所述差异特征向量与所属聚合类的中心向量之间的距离值未在预设距离值范围内；

将所述差异特征向量所表征的用户确定为异常用户。
根据权利要求1所述的方法，当所述用户为多个用户时，所述提取所述用户行为数据在预设的多个行为维度下的多个特征值，包括：

提取每个用户的用户行为数据在多个用户行为维度下的多个用户特征值；

所述根据所述多个特征值，确定所述用户行为数据对应的特征向量，包括：

根据所述多个用户中每个用户的多个用户特征值，确定所述多个用户中每个用户的用户特征向量；

所述通过预设的聚类算法，对所述特征向量进行聚类处理，得到多个聚合类，并获取每个聚合类的中心向量，包括：

通过预设的聚类算法，对所述多个用户的用户特征向量进行聚类处理，得到多个用户类；

根据所述多个用户类中每个用户类包括的用户特征向量，确定所述多个用户类中每个用户类的中心向量。
根据权利要求2所述的方法，所述通过预设的聚类算法，对所述多个用户的用户特征向量进行聚类处理，得到多个用户类，包括：

通过K-means聚类算法，对所述多个用户的用户特征向量进行聚类处理，得到K个初始用户类；所述K为正整数；

获取所述K个初始用户类中第一初始用户类和第二初始用户类；

对所述第一初始用户类与所述第二初始用户类进行合并处理，得到合并初始用户类；

将所述合并初始用户类和所述K个初始用户类中未合并的其他初始用户类，分别作为进行聚类处理后的用户类，得到多个用户类；

所述第一初始用户类为所述K个初始用户类中包括的用户特征向量的个数小于预设数量阈值的初始用户类；

所述第二初始用户类为所述K个初始用户类中的初始用户类，该初始用户类的中心向量与所述第一初始用户类的中心向量的距离值最小。
根据权利要求3所述的方法，所述方法还包括：

计算所述多个用户类中任意两个用户类的中心向量之间的距离值，得到多个距离值；

确定所述多个距离值中最小距离值所表征的第一用户类和第二用户类；

获取所述多个用户类中每个用户类包括的用户特征向量的第一聚合值；

当将所述第一用户类和所述第二用户类作为合并用户类时，获取所述合并用户类包括的用户特征向量的第二聚合值，并获取所述多个用户类中除所述合并用户类外的每个用户类包括的用户特征向量的第二聚合值；

对多个第一聚合值进行累加处理，得到第一和值；

对多个第二聚合值进行累加处理，得到第二和值；

当所述第二和值小于所述第一和值时，对所述第一用户类和所述第二用户类进行合并处理；

所述聚合值用于表征用户特征向量归属于用户类的合理程度。
根据权利要求1所述的方法，当所述用户为一个用户时，所述用户行为数据包括：所述用户的至少一个历史用户行为数据和一个当前用户行为数据；

所述提取所述用户行为数据在预设的多个用户行为维度下的多个特征值，包括：

提取每个历史用户行为数据在多个用户行为维度下的多个第一数据特征值，并提取所述当前用户行为数据在多个用户行为维度下的多个第二数据特征值；

所述根据所述多个特征值，确定所述用户行为数据对应的特征向量，包括：

根据所述多个第一数据特征值，确定每个历史用户行为数据的第一数据特征向量，并根据所述多个第二数据特征值，确定所述当前用户行为数据的第二数据特征向量；

所述通过预设的聚类算法，对所述特征向量进行聚类处理，得到多个聚合类，并获取每个聚合类的中心向量，包括：

通过预设的聚类算法，对所述多个第一数据特征向量和所述第二数据特征向量进行聚类处理，得到多个数据类；确定所述第二数据特征向量所属的第一数据类的中心向量；

所述确定差异特征向量，包括：

判断所述第二数据特征向量与所述第一数据类的中心向量之间的距离值是否在预设距离值范围内；

若距离值不在预设距离值范围内，则确定所述第二数据特征向量为差异特征向量。
根据权利要求5所述的方法，所述通过预设的聚类算法，对所述多个第一数据特征向量和所述第二数据特征向量进行聚类处理，得到多个数据类，包括：

通过K-means聚类算法，对所述多个第一数据特征向量和所述第二数据特征向量进行聚类处理，得到K个初始数据类；所述K为正整数；

获取所述K个初始数据类中的第一初始数据类，所述第一初始数据类包括N个数据特征向量，所述N为正整数；

若N小于预设数量阈值，则获取所述K个初始数据类中的第二初始数据类；

对所述第一初始数据类与所述第二初始数据类进行合并处理，得到合并初始数据类；

将所述合并初始数据类和所述K个初始数据类中未合并的其他初始数据类，分别作为进行聚类处理后的数据类，得到多个数据类；

所述第一初始数据类为所述第二数据特征向量所属的初始数据类；

所述第二初始数据类为所述K个初始数据类中与所述第一初始数据类的中心向量的距离值最小的中心向量所表征的初始数据类。
根据权利要求6所述的方法，所述方法还包括：

计算所述第一中心向量第二中心向量之间的距离值，得到多个距离值，其中，所述第二中心向量是所述多个数据类中除所述第一数据类外的任意一个数据类的中心向量；

确定所述多个距离值中最小距离值所表征的第二数据类；

获取所述多个数据类中每个数据类包括的数据特征向量的第三聚合值；

当将所述第一数据类和所述第二数据类作为合并数据类时，获取所述合并数据类包括的数据特征向量的第四聚合值，并获取所述多个数据类中除所述合并数据类外的每个数据类包括的数据特征向量的第四聚合值；

对多个第三聚合值进行累加处理，得到第三和值；

对多个第四聚合值进行累加处理，得到第四和值；

当所述第四和值小于所述第三和值时，对所述第一数据类和所述第二数据类进行合并处理；

所述聚合值用于表征数据特征向量归属于数据类的合理程度。
根据权利要求2或5所述的方法，所述确定所述差异特征向量所表征的用户为异常用户，包括：

根据所述多个用户行为维度中的每个用户行为维度，判断所述差异特征向量对应的数据特征值是否超过预设的特征基线值；

如果所述差异特征向量对应的数据特征值超过所述特征基线值，则确定在所述用户行为维度下所表征的用户行为为异常用户行为，并确定所述差异特征向量所表征的用户为异常用户。
一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；所述机器可执行指令促使所述处理器；

获取用户的用户行为数据；

提取所述用户行为数据在预设的多个行为维度下的多个特征值；

根据所述多个特征值，确定所述用户行为数据对应的特征向量；

通过预设的聚类算法，对所述特征向量进行聚类处理，得到多个聚合类，并获取每个聚合类的中心向量；

确定差异特征向量，所述差异特征向量与所属聚合类的中心向量之间的距离值未在预设距离值范围内；

将所述差异特征向量所表征的用户确定为异常用户。
根据权利要求9所述的电子设备，当所述用户为多个用户时，所述机器可执行指令具体促使所述处理器：

提取所述多个用户中每个用户的用户行为数据在多个用户行为维度下的多个用户特征值；

根据所述多个用户中每个用户的多个用户特征值，确定所述多个用户中每个用户的用户特征向量；

通过预设的聚类算法，对所述多个用户的用户特征向量进行聚类处理，得到多个用户类；

根据所述多个用户类中每个用户类包括的用户特征向量，确定所述多个用户类中每个用户类的中心向量。
根据权利要求10所述的电子设备，所述机器可执行指令具体促使所述处理器：

通过K-means聚类算法，对所述多个用户的用户特征向量进行聚类处理，得到K个初始用户类；所述K为正整数；

获取所述K个初始用户类中第一初始用户类和第二初始用户类；

对所述第一初始用户类与所述第二初始用户类进行合并处理，得到合并初始用户类；

将所述合并初始用户类和所述K个初始用户类中未合并的其他初始用户类，分别作为进行聚类处理后的用户类，得到多个用户类；

所述第一初始用户类为所述K个初始用户类中包括的用户特征向量的个数小于预设数量阈值的初始用户类；

所述第二初始用户类为所述K个初始用户类中与所述第一初始用户类的中心向量的距离值最小的中心向量所表征的初始用户类。
根据权利要求9所述的电子设备，当所述用户为一个用户时，所述用户行为数据包括：所述用户的至少一个历史用户行为数据和一个当前用户行为数据；

所述机器可执行指令具体促使所述处理器：

提取每个历史用户行为数据在多个行为维度下的多个第一数据特征值，并提取所述当前用户行为数据在多个行为维度下的多个第二数据特征值；

根据所述多个第一数据特征值，确定每个历史用户行为数据的第一数据特征向量，并根据所述多个第二数据特征值，确定所述当前用户行为数据的第二数据特征向量；

通过预设的聚类算法，对所述多个第一数据特征向量和所述第二数据特征向量进行聚类处理，得到多个数据类；

确定所述第二数据特征向量所属的第一数据类的中心向量；

判断所述第二数据特征向量与所述第一数据类的中心向量之间的距离值是否在预设距离值范围内；

若距离值不在预设距离值范围内，则确定所述第二数据特征向量为差异特征向量。
根据权利要求12所述的电子设备，所述机器可执行指令具体促使所述处理器：

通过K-means聚类算法，对所述多个第一数据特征向量和所述第二数据特征向量进行聚类处理，得到K个初始数据类；所述K为正整数；

获取所述K个初始数据类中的第一初始数据类，所述第一初始数据类包括N个数据特征向量；所述N为正整数；

若N小于预设数量阈值，则获取所述K个初始数据类中的第二初始数据类；

对所述第一初始数据类与所述第二初始数据类进行合并处理，得到合并初始数据类；

将所述合并初始数据类和所述K个初始数据类中未合并的其他初始数据类，分别作为进行聚类处理后的数据类，得到多个数据类；

所述第一初始数据类为所述第二数据特征向量所属的初始数据类；

所述第二初始数据类为所述K个初始数据类中与所述第一初始数据类的中心向量的距离值最小的中心向量所表征的初始数据类。
根据权利要求10或12所述的电子设备，所述机器可执行指令具体促使所述处理器：

根据所述多个用户行为维度中的每一用户行为维度，判断所述差异特征向量对应的数据特征值是否超过预设的特征基线值；

如果所述差异特征向量对应的数据特征值超过所述特征基线值，则确定在所述用户行为维度下所表征的用户行为为异常用户行为，并确定所述差异特征向量所表征的用户为异常用户。
一种机器可读存储介质，存储有机器可执行指令，在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-8任一项所述的方法。