WO2020098606A1

WO2020098606A1 - 节点分类方法、模型训练方法、装置、设备及存储介质

Info

Publication number: WO2020098606A1
Application number: PCT/CN2019/117173
Authority: WO
Inventors: 黄文炳; 荣钰; 黄俊洲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-15
Filing date: 2019-11-11
Publication date: 2020-05-22
Anticipated expiration: 2021-05-15
Also published as: JP2021533474A; EP3882820A4; CN109460793B; JP7183385B2; EP3882820A1; US20210142108A1; US11853882B2; CN109460793A

Abstract

一种节点分类方法、模型训练方法、装置、设备及存储介质，涉及互联网技术领域，该方法包括：获取目标节点集合中的待分类节点（101）；从目标节点集合中获取所述待分类节点的邻居节点集合，其中，邻居节点集合包括至少一个邻居节点，邻居节点与待分类节点之间具有关联关系（102）；通过节点分类模型根据所述邻居节点集合提取所述待分类节点的目标特征信息（103）；根据目标特征信息确定所述待分类节点的分类结果，其中，节点分类模型为根据至少一个样本节点子集合训练得到的模型，该样本节点子集合为样本节点集合的子集，样本节点集合中的节点标注有节点类别（104）。对于大规模图谱而言，该方法可以仅基于一部分节点进行训练，每一次迭代计算图谱中的部分节点，无需遍历图谱中的每个节点，大幅地降低了计算开销，且节省计算资源。

Description

节点分类方法、模型训练方法、装置、设备及存储介质

本申请要求于2018年11月15日提交的申请号为201811361409.0、发明名称为“一种节点分类的方法、模型训练的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，尤其涉及一种节点分类方法、模型训练方法、装置、设备及存储介质。

背景技术

随着机器学习技术的发展，图片分类任务得到了瞩目的进展，相关技术已经应用到自动驾驶、安防以及游戏等诸多场景。与图片类似，图谱也是一种常见的数据，例如社交网络、知识图谱以及药物分子结构等。

相关技术中，针对大规模图谱，对图谱节点信息整合需要设置专门的迭代计算。请参阅图1，图1为相关技术中面向图谱节点分类的图卷积神经网络(graph convolutional networks，GCN)分类模型一个示意图，如图所示，v表示节点，a表示连接两个节点的边，对输入层的每个节点进行特征向量的计算，就可以更新整个图谱信息，得到第一层信息，采用softmax函数对第一层信息中的每个节点预测节点类别。

对于大规模图谱而言，往往含有千万级甚至亿级以上的节点数，以及含有数十亿级以上的连边。然而，为了更新每个节点的特征信息，GCN需要在一次特征信息计算中遍历每个节点，导致计算代价过高，计算资源消耗过大。

发明内容

本申请实施例提供了一种节点分类方法、模型训练方法、装置、设备及存储介质，可以解决GCN需要在一次特征信息计算中遍历每个节点，导致计算代价过高，计算资源消耗过大的问题。

一方面，提供了一种节点分类的方法，应用于计算机设备中，所述方法包括：

获取目标节点集合中的待分类节点，所述待分类节点中包括所述目标节点集合中的至少一个节点，且所述待分类节点的数量小于所述目标节点集合中节点的数量；

从所述目标节点集合中获取所述待分类节点的邻居节点集合，其中，所述邻居节点集合中包括至少一个邻居节点，所述邻居节点与所述待分类节点之间具有关联关系；

通过节点分类模型根据所述邻居节点集合提取所述待分类节点的目标特征信息；

根据所述目标特征信息确定所述待分类节点的分类结果，其中，所述节点分类模型为通过至少一个样本节点子集合训练得到的模型，所述样本节点子集合为样本节点集合的子集，所述样本节点集合中的节点标注有节点类别。

另一方面，提供了一种模型训练的方法，应用于计算机设备中，所述方法包括：

从标注有目标节点类别的样本节点集合中获取目标节点子集合和与所述目标节点子集合对应的邻居节点子集合，所述邻居节点子集合中的邻居节点与所述目标节点子集合中的目标节点具有关联关系；

结合所述邻居节点子集合通过节点分类模型提取所述目标节点子集合的节点特征子集合，其中，所述节点特征子集合中包括所述目标节点的节点特征向量；

根据所述节点特征子集合对所述目标节点进行类别预测，得到预测类别概率子集合；

根据所述预测类别概率子集合和所述目标节点的所述目标节点类别对所述节点分类模型的目标模型参数进行训练。

另一方面，提供了一种节点分类的装置，应用于计算机设备中，所述装置包括：

获取模块，用于获取目标节点集合中的待分类节点；

所述获取模块，还用于从所述目标节点集合中获取所述待分类节点的邻居节点集合，其中，所述邻居节点集合中包括至少一个邻居节点，所述邻居节点与所述待分类节点之间具有关联关系；

提取模块，用于通过节点分类模型根据所述邻居节点集合提取所述待分类节点的目标特征信息；

确定模块，用于根据所述目标特征信息确定所述待分类节点的分类结果，其中，所述节点分类模型为通过至少一个样本节点子集合训练得到的模型，所述样本节点子集合为样本节点集合的子集，所述样本节点集合中的节点标注有节点类别。

另一方面，提供了一种模型训练的装置，应用于计算机设备中，所述装置包括：

获取模块，用于从标注有目标节点类别的样本节点集合中获取目标节点子集合和与所述目标节点子集合对应的邻居节点子集合，所述邻居节点子集合中的邻居节点与所述目标节点子集合中的目标节点具有关联关系；

提取模块，用于结合所述邻居节点子集合通过节点分类模型提取所述目标节点子集合的节点特征子集合，其中，所述节点特征子集合中包括所述目标节点的节点特征向量；

预测模块，用于根据所述节点特征子集合对所述目标节点进行类别预测，得到预测类别概率子集合；

训练模块，用于根据所述预测类别概率子集合和所述目标节点的所述目标节点类别对所述节点分类模型的目标模型参数进行训练。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的节点分类的方法或模型训练的方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的节点分类的方法或模型训练的方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述本申请实施例中任一所述的节点分类的方法或模型训练的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，在节点分类过程中对节点进行特征更新时，从目标节点集合中选择待分类节点，并根据该待分类节点的邻居节点集合对该待分类节点的节点特征进行确定，从而根据节点特征获取节点分类结果，通过上述方式，对于大规模图谱而言，每一次迭代计算图谱中的部分节点，无需遍历图谱中的每个节点，大幅地降低了计算开销，且节省计算资源。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为相关技术中面向图谱节点分类的图卷积神经网络分类模型一个示意图；

图2为本申请实施例中大规模图谱的一个示意图；

图3为本申请实施例中节点分类系统的一个架构示意图；

图4为本申请实施例中节点分类方法的实施例示意图；

图5为本申请实施例中模型训练方法的实施例示意图；

图6为本申请实施例中对图谱的节点进行采样的一个实施例示意图；

图7为本申请实施例中对图谱节点进行模型训练的一个流程示意图；

图8为本申请实施例中根据预测类别概率子集合和目标节点的目标节点类别对节点分类模型的目标模型参数进行训练的流程图；

图9为本申请实施例中对图谱节点进行模型训练的一个流程示意图；

图10是本申请一个示例性实施例提供的节点分类的装置的结构框图；

图11是本申请一个示例性实施例提供的模型训练的装置的结构框图；

图12为本申请实施例中服务器一个结构示意图。

具体实施方式

本申请实施例提供了一种节点分类的方法、模型训练的方法及装置，对于大规模图谱而言，可以仅基于一部分节点进行训练，每一次迭代计算图谱中的部分节点，无需遍历图谱中的每个节点，大幅地降低了计算开销，且节省计算资源。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请实施例主要应用于大规模图谱，可以面向大规模图谱节点进行分类和学习。图谱是指由许多节点通过相互之间的连接而组成的一种数据结构，请参阅图2，图2为本申请实施例中大规模图谱的一个示意图，如图所示，每个节点代表一个成员，两个节点之间的连线称为连边，该连边用于表示被连接的两个节点对应的两个成员相互认识，其中，A1所指示的成员属于同一个分类，A2所指示的成员属于同一个分类，A3所指示的成员属于同一个分类，A4所指示的成员属于同一个分类。

可选地，节点通常是指人或组织，节点之间的连接(边)往往表示某种社会关系(如亲属关系或者交易行为等)。每个节点可以被赋予一个特征向量，如v节点的特征向量为h(v)，用于刻画该节点的属性。每个边可以带有权重值a，用于刻画连接的紧密程度，权重值a越大，表示节点之间的关联越紧密。其中，每个边可以是带有方向的，用于表示连接的方向性。可选地，本申请实施例中的图谱连边未限定方向性。

在实际应用中，为了实现用户推荐、好友分类以及网络安防系统监控等功能，还需要对图谱中的节点之间的分类。即根据节点的特征向量以及节点之间的连接关系，把相似的节点分到同一类别的任务称为图节点分类，即将节点v分到类别c(v)。例如，在社交类应用程序(一种大规模的图谱)中，可以根据用户画像以及用户的好友关系把用户划分为不同运动的爱好者，如篮球爱好者、足球爱好者或者排球爱好者等。

可以理解的是，本申请应用广泛，除了上述提及的几类场景以外，还可以应用于捕捉支付网络中黑产用户(如传销和赌博等)，也可以应用于好友归类、关系挖掘以及商品推荐等场景，此处不做限定。

应理解，本申请实施例所介绍的节点分类系统如图3所示，图3为本申请实施例中节点分类系统的一个架构示意图，将节点分类的方法和模型训练的方法均部署于服务器310中，而服务器310接收大量终端设备320发送的信息，假设一个终端设备320对应于一个用户，那么每个用户即表示为一个节点，该用户的信息(如社交信息)表示为节点信息。服务器采集大量的节点所对应的节点信息，从而形成一个大规模图谱。可以理解的是，图3所示的服务器310可以是一台服务器，也可以是集成了多台服务器的系统。而终端设备320包含但不仅限于智能手机、平板电脑、个人电脑(personal computer，PC)、笔记本电脑以及掌上电脑，此处仅为一个示意，不应理解为对本申请的限定。

结合上述说明，对本申请中节点分类的方法进行介绍，请参阅图4，其示出了本申请一个示例性实施例提供的节点分类的方法的流程图，以该方法应用于如图3所示的服务器310中为例进行说明，该方法包括：

101、获取目标节点集合中的待分类节点。

可选地，该待分类节点中包括目标节点集合中的至少一个节点，且待分类节点的数量小于目标节点集合中节点的数量。

可选地，从目标节点集合中选择部分节点作为待分类节点。

本实施例中，服务器首先需要获取待分类的节点，其中，一个节点对应图谱中的一个用户，因此，该待分类节点也可以认为是一个需要被划分类型的目标用户。

102、从目标节点集合中获取待分类节点的邻居节点集合，其中，邻居节点集合包括至少一个邻居节点，邻居节点与待分类节点之间具有关联关系；

本实施例中，在服务器获取到待分类节点之后，即可根据该待分类节点获取与之关联的至少一个邻居节点，这些邻居节点组成一个邻居节点集合。以待分类节点为目标用户为例，与该目标用户相关的邻居节点通常可以是该目标用户的好友。

可以理解的是，邻居节点除了可以是与待分类节点具有直接联系(即待分类节点与邻居节点具有边)的节点以外，还可以是与待分类节点具有间接联系的节点，此处不做限定。

可选地，该待分类节点的邻居节点集合中的邻居节点，为与至少两个待分类节点存在关联关系的节点，或，与n个待分类节点存在关联关系的节点，n为正整数。

可选地，确定邻居节点集合时，首先根据待分类节点计算目标节点集合中每个候选邻居节点的第一候选概率，并根据每个候选邻居节点的第一候选概率确定邻居节点集合。其中，通过待分类节点与第u个候选邻居节点之间的连边权重，以及待分类节点与目标节点集合中的节点的连边权重，确定第u个候选邻居节点的第一候选概率，u为正整数。

可选地，该候选邻居节点的第一候选概率计算方式请参考如下公式一：

公式一：

其中，p(u)表示第u个候选邻居节点的第一候选概率，v _j表示目标节点集合中第j个节点，w表示待分类节点，b表示待分类节点的节点个数，N表示目标节点集合的节点个数，i表示从1至b的整数，j表示从1至N的整数，

表示第i个待分类节点与第u个候选邻居节点之间的连边权重，

表示第i个待分类节点与目标节点集合中第j个节点之间的连边权重。

本实施例中，首先从大规模图谱所对应的目标节点集合中获取待分类节点，然后每次只对该部分的待分类节点进行更新，同时根据这部分待分类节点采集出特定个数的共同关联节点(即邻居节点集合)进行信息整合。

以待分类节点为目标用户为例，与该目标用户相关的邻居节点通常可以是该目标用户的好友。可以理解的是，邻居节点除了可以是与待分类节点具有直接联系(即待分类节点与邻居节点具有连边)的节点以外，还可以是与目标节点具有间接联系的节点，此处不做限定。

103、通过节点分类模型根据邻居节点集合提取待分类节点的目标特征信息；

本实施例中，服务器可以通过邻居节点集合来强化待分类节点的特征，从而得到该待分类节点所对应的目标特征信息。

具体地，可以采用如下公式二得到待分类节点的目标特征信息：

公式二：

其中，v ₁表示待分类节点，h'(v ₁)表示待分类节点的目标特征信息(即特征向量)，d表示邻居节点集合中的节点个数，n表示从1至d的整数，u _n表示第n个邻居节点，h(u _n)表示第n个邻居节点的多维特征向量，

表示待分类节点和第n个邻居节点的连边权重，W ₁表示节点分类模型的模型参数。

由此可见，为了更新待分类节点的目标特征信息，可以对该待分类节点所对应的邻居节点乘一个模型参数，再求和得到目标特征信息，从而使得更新后的目标特征信息整合其所有邻居节点的特征，并且丰富信息量。

104、根据目标特征信息确定待分类节点的分类结果，其中，节点分类模型为根据至少一个样本节点子集合训练得到的模型，该样本节点子集合为样本节点集合的自己，样本节点集合中的节点标注有节点类别。

本实施例中，节点分类模型计算得到的目标特征信息后，根据该目标特征信息输出该待分类节点所对应的分类结果，如，输出的分类结果为待分类节点属于异常节点，或，输出的分类结果为待分类节点属于篮球爱好者节点。

其中，节点分类模型为根据至少一个样本节点子集合训练得到的，每个样本节点子集合的节点个数小于样本节点集合的节点个数，也就是说，节点分类模型基于一部分节点进行训练，且每一次迭代计算部分节点，直到迭代次数达到门限值。在机器学习中，分类模型是指对输入数据进行某种信息整合后输出相应类别。分类模型包含一组模型参数，这些模型参数可以通过训练进行优化调整。

需要说明的是，在实际应用中，机器学习方法往往需要通过多次迭代来更新每个节点的模型参数，而每次迭代仅针对从目标节点集合中采样出来的待分类节点。尽管每次迭代只用到小部分数据，但是经过多次迭代后(每次迭代采样得到的待分类节点不一样)，就能遍历目标节点集合中所有的节点。

本申请实施例中，提供了一种节点分类的方法，在节点分类过程中对节点进行特征更新时，从目标节点集合中选择待分类节点，并根据该待分类节点的邻居节点集合对该待分类节点的节点特征进行确定，从而根据节点特征获取节点分类结果，通过上述方式，对于大规模图谱而言，每一次迭代计算图谱中的部分节点，无需遍历图谱中的每个节点，大幅地降低了计算开销，且节省计算资源。

针对上述节点分类模型，对该节点分类模型的训练过程进行说明，图5是本申请一个示例性实施例提供的模型训练的方法的流程图，以该方法应用于如图3所示的服务器310中为例进行说明，请参阅图5，该方法包括：

201、从标注有目标节点类别的样本节点集合中获取目标节点子集合和与目标节点子集合对应的邻居节点子集合，邻居节点子集合中的邻居节点与目标节点子集合中的目标节点具有关联关系。

本实施例中，首先从大规模图谱所对应的样本节点集合中获取样本节点集合，然后每次只对部分的节点(即目标节点子集合)进行更新，同时根据这部分节点(目标节点子集合)采用出特定个数的共同关联节点(即邻居节点子集合)进行信息整合。

为了便于理解，请参阅图6，图6为本申请实施例中对图谱的节点进行采样的一个实施例示意图，如图所示，假设从样本节点集合中获取包括10个节点的样本节点子集合，其中，样本节点子集合包括2个目标节点(即图中的节点M和节点N)，并根据目标节点获取与之关联的8个邻居节点(即图中波点图案节点)，图6中的白色节点虽然属于样本节点集合中的节点，但是并未选取作为本次训练的对象。

以目标节点为目标用户为例，与该目标用户相关的邻居节点通常可以是该目标用户的好友。可以理解的是，邻居节点除了可以是与目标节点具有直接联系(即目标节点与邻居节点具有边)的节点以外，还可以是与目标节点具有间接联系的节点，此处不做限定。

可选地，该获取目标节点子集合和邻居节点子集合的方式包括：从样本节点集合中获取目标节点子集合，根据目标节点子集合计算样本节点集合中每个候选邻居节点的第二候选概率；根据待选择邻居节点的第二候选概率确定邻居节点子集合。其中，通过目标节点子集合中的目标节点与第u个待选择邻居节点之间的连边权重，以及目标节点与样本节点集合中的节点的连边权重，确定第u个待选择邻居节点的第二候选概率，u为正整数。可选地，该待选择邻居节点的选择方式请参考如上步骤102中示出的公式一，本实施例中不再赘述。

可选地，与目标节点关联的节点可能较多，这个时候，需要根据目标节点子集合计算样本节点集合中每个待选择邻居节点的概率，然后选择概率较大的待选择邻居节点作为邻居节点子集合。

需要说明的是，每次训练的时候，所选的目标节点不重复，但选择的邻居节点可能会重复。在对目标节点进行采样的时候是随机选择的，在极端条件下可能会导致采样出来的目标节点的共有邻居很少，此时，可以将非共有邻居节点作为邻居节点。

202、结合邻居节点子集合通过节点分类模型提取目标节点子集合的节点特征子集合，其中，节点特征子集合中包括目标节点的节点特征向量。

本实施例中，服务器根据目标节点子集合以及邻居节点子集合，利用邻居节点子集合来更新目标节点子集合中每个目标节点的特征，且每个目标节点对应于一个节点特征向量，那么各个目标节点的节点特征向量构成节点特征子集合。

203、根据节点特征子集合对目标节点进行类别预测，得到预测类别概率子集合。

本实施例中，在服务器获取到目标节点子集合以及节点特征子集合之后，即可根据各个目标节点及其对应的节点特征向量，计算得到每个目标节点的预测类别概率，各个目标节点的预测类别概率构成一个预测类别概率子集合。

其中，预测类别概率用于表示目标节点预测为某一个类别的概率，于是，在预测的时候，通常选择概率最大的类别作为该目标节点的类别。

204、根据预测类别概率子集合和目标节点的目标节点类别对节点分类模型的目标模型参数进行训练。

本实施例中，服务器根据预测类别概率子集合与目标节点类别之间的差异对该节点分类模型的目标模型参数进行调整。

其中，该目标模型参数可以对应有初始化数值，也就是预先定义的一个参数，或，该目标模型参数也可以是对前一次采样的节点计算得到的模型参数。这里相当于利用各个目标节点的预测类别概率对第目标模型参数进行优化，从而得到更趋近于实际模型所对应的目标模型参数。

本实施例中，最后，服务器利用本次训练得到的第二模型参数来训练得到节点分类模型。

需要说明的是，在实际应用中，机器学习方法往往需要通过多次迭代来训练模型参数，而每次迭代只需要用到采样出来的较小节点集合。尽管每次迭代只用到小部分数据，但是经过多次迭代后(每次迭代用到的数据不一样，即每次迭代训练用采样出的目标节点是不一样的，邻居节点也不完全一样)，就能遍历图谱中所有的节点。

本申请实施例中，提供了一种基于大规模图谱的模型训练方法，首先，服务器从样本节点集合中获取样本节点子集合，然后根据样本节点子集合确定节点特性向量子集合，服务器再根据目标节点子集合以及节点特性向量子集合确定预测类别概率子集合，其中，预测类别概率子集合包括至少一个预测类别概率，预测类别概率与目标节点具有对应关系，最后根据预测类别概率子集合以及第一模型参数确定第二模型参数，并根据第二模型参数训练得到节点分类模型。通过上述方式，对于大规模图谱而言，可以仅基于一部分节点进行训练，每一次迭代计算图谱中的部分节点，无需遍历图谱中的每个节点，大幅地降低了计算开销，且节省计算资源。

可选地，在上述图5对应的实施例的基础上，本申请实施例提供模型训练方法的可选实施例中，结合邻居节点子集合通过节点分类模型提取目标节点子集合的节点特征子集合，也即上述步骤202还可以包括如下步骤2021至步骤2022，请参考图7：

2021、确定节点分类模型的目标模型参数，该目标模型参数为待训练的模型参数。

2022、根据目标模型参数和邻居节点子集合提取目标节点子集合的节点特征子集合。

可选地，根据目标模型参数以及邻居节点子集合，计算节点特征子集合时，针对第i个目标节点，根据该第i个目标节点和邻居节点之间的连边权重、邻居节点的特征向量以及目标模型参数，确定第i个目标节点的节点特征，i为正整数，示意性的，该计算过程请参考如下公式三：

公式三：

其中，w _i表示第i个目标节点，h'(w _i)表示第i个目标节点的节点特征，b表示目标节点子集合的节点个数，i表示从1至b的整数，u _j表示第j个邻居节点，h(u _j)表示第j个邻居节点的特征向量，

表示第i个目标节点和第j个邻居节点的连边权重，W'表示目标模型参数。

可选地，在上述图5对应的实施例的基础上，本申请实施例提供模型训练方法的可选实施例中，根据预测类别概率子集合和目标节点的目标节点类别对节点分类模型的目标模型参数进行训练，也即上述步骤204还可以包括如下步骤2041至步骤2043，请参考图8：

2041、根据预测类别概率子集合和目标节点的目标节点类别确定目标损失值。

可选地，该目标损失值为通过损失函数或代价函数计算得到的数值，其中，损失函数或代价函数都可以来度量预测错误程度。也就是说，评价一个算法是否是比较好的算法，需要提前定义一个损失函数，来判断这个算法是否是最优的，而后面不断的优化求梯度下降，使得损失函数最小。

可选地，该目标损失值的计算方式请参考如下公式四：

公式四：

其中，L表示目标损失值，b表示目标节点子集合的节点个数，i表示从1至b的整数，w _i表示第i个目标节点，h ¹(w _i)表示第i个目标节点的n维特征向量，

表示第i个目标节点的第k维特征向量，exp()表示指数函数，

表示h ¹(w _i)的第c(w _i)个分量，c(w _i)表示第i个目标节点的真实类别信息，

表示第i个目标节点的第k个预测类别概率等于真实类别信息的概率。

可选地，第i个目标节点的预测类别概率的计算方式请参考如下公式五：

公式五：

可选地，在预测的时候，选择概率最大对应的类别作为该目标节点的类别，即：

其中，c'(w _i)表示第i个目标节点的预测类别。

2042、根据目标损失值确定模型参数梯度。

可选地，该模型参数梯度的计算方式请参考如下公式六：

公式六：

其中，

表示模型参数梯度，其中，每个

的计算方式请参考如下公式七：

公式七：

其中，L表示目标损失，

表示第k维特征向量的梯度，n表示第i个目标节点的特征向量的维数，b表示目标节点子集合的节点个数，i表示从1至b的整数，j表示从1至b的整数，

表示第i个目标节点的第k维特征向量，c(w _i)表示第i个目标节点真实类别信息，δ()表示判断函数，u _j表示第j个邻居节点，h(u _j)表示第j个邻居节点的特征向量，exp()表示指数函数。

可选地，该模型参数梯度的推导过程如下：

2043、根据模型参数梯度对目标模型参数进行训练。

可选地，将模型参数梯度与预设学习率的乘积作为对目标模型参数的调整差值，并以该调整差值对目标模型参数进行调整。

可选地，该目标模型参数的调整方式请参考如下公式八：

公式八：

其中，W表示调整后的目标模型参数，W'表示调整前的模型参数，α表示预设学习率，

表示模型参数梯度。

可选地，在模型训练过程中，通常可以根据训练轮数设置动态变化的学习率，比如一开始进行模型训练时，学习率控制在0.01至0.001，迭代一定轮数时候学习率逐渐减缓，在训练接近结束的时候，学习速率的衰减通常在100倍以上。

学习率主要用于控制模型的学习进度，可以根据数据集的大小来选择合适的学习率，当使用平方误差和作为成本函数时，随着数据量的增多，学习率应该被设置为相应更小的值。

在不同的迭代中选择不同的学习率，在最初的迭代中，学习率可以大一些，快接近时，学习率小一些。在每次迭代后，使用估计的模型参数来查看误差函数的值，如果相对于上一次迭代，错误率减少了，就可以增大学习率如果相对于上一次迭代，错误率增大了，那么应该重新设置上一轮迭代的值，并且减少学习率到之前的50％。因此，这是一种学习率自适应调节的方法。

需要说明的是，本实施例中的学习率α可以设置为0.01，在实际应用中，学习率α还可以设置为0.00001、0.0001、0.001、0.003、0.03、0.1，0.3、1、3或者10等，此处不做限定。

可选地，本申请实施例中，提供了一种对目标模型参数进行训练的方法，即服务器根据预测类别概率子集合以及真实类别信息子集合计算目标损失，然后根据目标损失确定模型参数梯度，最后结合模型参数梯度对模型参数进行调整。通过上述方式，采用随机梯度下降通过每个样本来迭代更新一次参数，可未遍历整个样本就已经找到最优解，从而大幅提高了算法的收敛速度，此外，最小化每个样本的损失函数，虽然每次迭代结果不一定都是全局最优解，却总是沿着这个方向发展，故最终结果总是接近全局最优解。

为了便于介绍，请参阅图9，图9为本申请实施例中对图谱节点进行模型训练的一个流程示意图，如图所示，具体地：

步骤S1中，进入模型训练的流程。

步骤S2中，令迭代计数器t＝1，设定取样的节点数量b＝128，迭代计数器是记录了程序执行了多少次迭代，当t＝1时，程序开始执行第1次迭代，即从步骤S2到步骤S10，然后迭代数加1，并判断迭代计数器所记录的迭代数是否够10 ⁶，如果不够再进行第2次迭代。

步骤S3中，判断迭代计数器所记录的迭代数是否大于10 ⁶，若迭代数大于10 ⁶，则跳转至步骤S12，反之，如果迭代数小于或怎样10 ⁶，则进入步骤S4，即开始一轮迭代计算。

步骤S4中，从样本节点集合中采用出128个目标节点，即w ₁,w ₂,…,w _b。

步骤S5中，利用如上公式一采集出128个邻居节点u ₁,u ₂,…,u _b。

步骤S6中，利用如上公式三采集出128个目标节点的特征向量h ¹(w ₁),…,h ¹(w _b)。

步骤S7中，利用如上公式五得到目标节点的预测类别为

步骤S8中，根据交叉熵对比预测类别和真实类别的损失值。

步骤S9中，利用如上公式七计算模型参数的梯度。

步骤S10中，利用如上公式八更新模型参数。

步骤S11中，迭代计数器加1，即t＝t+1。

步骤S12中，在满足t大于10 ⁶时，即可输出模型参数。

步骤S13中，结束模型训练的流程。

基于本申请所提供的模型训练方法，已针对真实社交网络进行试验，其中，该网络共有31965个节点以及11606919条边，每个节点的特征维数是602，该网络共有类别种类个数为41。如果两个节点之间具有连边，则权重设置为1，反之，如果两个节点之间无连边，则权重设置为0。为了实现模型训练，构建了节点个数为152410的训练集，训练集中的节点类别已知。

此外，还构造了一个节点个数为55334的测试集，用来测试分类模型的预测精度。目前，采用预测精度来评价分类模型的预测能力：

其中，corrects表示在测试集中类别预测正确的节点个数，acc表示预测能力，acc越大，则预测能力越强。此外，还可以通过比较模型的每一次训练时间来评价运行速度。

接下来，将对本申请实施例所采用的方法与现有方案中采用的GCN进行对比，请参阅表1，在同样的实验条件下两者之间的比对示意如下：

表1

采用的方法	预测精度	运行时间(秒)
GCN	0.9568	100
本申请	0.9501	2

可以看出，本申请实施例所采用的方法所对应的预测精度与GCN非常接近，但是运行时间大幅降低。因此，基于采样的假设算法，使得每一次节点特征更新只需要在一个较小的节点子集上进行，大幅提高了实际运行速度，也降低了内存。在真实的社交网络数据上，得到的预测精度与GCN接近，但是速度提高了大约50倍。

图10是本申请一个示例性实施例提供的节点分类的装置的结构框图，以该装置应用于计算机设备中为例，如图10所示，该装置包括：获取模块1010、提取模块1020和确定模块1030；

获取模块1010，用于获取目标节点集合中的待分类节点；

所述获取模块1010，还用于从所述目标节点集合中获取所述待分类节点的邻居节点集合，其中，所述邻居节点集合中包括至少一个邻居节点，所述邻居节点与所述待分类节点之间具有关联关系；

提取模块1020，用于通过节点分类模型根据所述邻居节点集合提取所述待分类节点的目标特征信息；

确定模块1030，用于根据所述目标特征信息确定所述待分类节点的分类结果，其中，所述节点分类模型为通过至少一个样本节点子集合训练得到的模型，所述样本节点子集合为样本节点集合的子集，所述样本节点集合中的节点标注有节点类别。

在一个可选的实施例中，所述获取模块1010，还用于根据所述待分类节点计算所述目标节点集合中每个候选邻居节点的第一候选概率；根据每个所述候选邻居节点的所述第一候选概率确定所述邻居节点集合。

在一个可选的实施例中，所述获取模块1010，还用于通过所述待分类节点与第u个所述候选邻居节点之间的连边权重，以及所述待分类节点与所述目标节点集合中的节点的连边权重，确定第u个所述待选择邻居节点的所述第一候选概率，u为正整数。

综上所述，本实施例提供的节点分类的装置，在节点分类过程中对节点进行特征更新时，从目标节点集合中选择待分类节点，并根据该待分类节点的邻居节点集合对该待分类节点的节点特征进行确定，从而根据节点特征获取节点分类结果，通过上述方式，对于大规模图谱而言，每一次迭代计算图谱中的部分节点，无需遍历图谱中的每个节点，大幅地降低了计算开销，且节省计算资源。

图11是本申请一个示例性实施例提供的模型训练的装置的结构框图，以该装置应用于计算机设备中为例，如图11所示，该装置包括：获取模块1110、提取模块1120、预测模块1130和训练模块1140；

获取模块1110，用于从标注有目标节点类别的样本节点集合中获取目标节点子集合和与所述目标节点子集合对应的邻居节点子集合，所述邻居节点子集合中的邻居节点与所述目标节点子集合中的目标节点具有关联关系；

提取模块1120，用于结合所述邻居节点子集合通过节点分类模型提取所述目标节点子集合的节点特征子集合，其中，所述节点特征子集合中包括所述目标节点的节点特征向量；

预测模块1130，用于根据所述节点特征子集合对所述目标节点进行类别预测，得到预测类别概率子集合；

训练模块1140，用于根据所述预测类别概率子集合和所述目标节点的所述目标节点类别对所述节点分类模型的目标模型参数进行训练。

在一个可选的实施例中，所述获取模块1110，还用于从所述样本节点集合中获取所述目标节点子集合；根据所述目标节点子集合计算所述样本节点集合中待选择邻居节点的第二候选概率；根据所述待选择邻居节点的所述第二候选概率确定所述邻居节点子集合。

在一个可选的实施例中，所述获取模块1110，还用于通过所述目标节点子集合中的所述目标节点与第u个所述待选择邻居节点之间的连边权重，以及所述目标节点与所述样本节点集合中的节点的连边权重，确定第u个所述待选择邻居节点的所述第二候选概率，u为正整数。

在一个可选的实施例中，所述提取模块1120，还用于确定所述节点分类模型的目标模型参数，其中，所述目标模型参数为待训练的模型参数；根据所述目标模型参数和所述邻居节点子集合提取所述目标节点子集合的节点特征子集合。

在一个可选的实施例中，所述提取模块1120，还用于根据第i个所述目标节点和所述邻居节点之间的连边权重、所述邻居节点的特征向量以及所述目标模型参数，确定第i个所述目标节点的节点特征，i为正整数。

在一个可选的实施例中，所述训练模块1140，还用于根据所述预测类别概率子集合和所述目标节点的所述目标节点类别确定目标损失值；根据所述目标损失值确定所述模型参数梯度；根据所述模型参数梯度对所述目标模型参数进行训练。

在一个可选的实施例中，所述训练模块1140，还用于将所述模型参数梯度与预设学习率的乘积作为对所述目标模型参数的调整差值；以所述调整差值对所述目标模型参数进行调整。

综上所述，本实施例提供的模型训练的装置，在节点分类过程中对节点进行特征更新时，从目标节点集合中选择待分类节点，并根据该待分类节点的邻居节点集合对该待分类节点的节点特征进行确定，从而根据节点特征获取节点分类结果，通过上述方式，对于大规模图谱而言，每一次迭代计算图谱中的部分节点，无需遍历图谱中的每个节点，大幅地降低了计算开销，且节省计算资源。

图12示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以是图3示出的服务器310。具体来讲：

服务器1200包括中央处理单元(CPU，Central Processing Unit)1201、包括随机存取存储器(RAM，Random Access Memory)1202和只读存储器(ROM，Read Only Memory)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统，Input Output System)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元 1201。基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说，大容量存储设备1207可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM，Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(DVD，Digital Versatile Disc)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

根据本申请的各种实施例，服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算手机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的节点分类的方法或模型训练的方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的节点分类的方法或模型训练的方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种节点分类的方法，其特征在于，应用于计算机设备中，所述方法包括：

获取目标节点集合中的待分类节点，所述待分类节点中包括所述目标节点集合中的至少一个节点，且所述待分类节点的数量小于所述目标节点集合中节点的数量；

从所述目标节点集合中获取所述待分类节点的邻居节点集合，其中，所述邻居节点集合中包括至少一个邻居节点，所述邻居节点与所述待分类节点之间具有关联关系；

通过节点分类模型根据所述邻居节点集合提取所述待分类节点的目标特征信息；

根据所述目标特征信息确定所述待分类节点的分类结果，其中，所述节点分类模型为通过至少一个样本节点子集合训练得到的模型，所述样本节点子集合为样本节点集合的子集，所述样本节点集合中的节点标注有节点类别。
根据权利要求1所述的方法，其特征在于，所述从所述目标节点集合中获取所述待分类节点的邻居节点集合，包括：

根据所述待分类节点计算所述目标节点集合中每个候选邻居节点的第一候选概率；

根据每个所述候选邻居节点的所述第一候选概率确定所述邻居节点集合。
根据权利要求2所述的方法，其特征在于，所述根据所述待分类节点计算所述目标节点集合中每个候选邻居节点的第一候选概率，包括：

通过所述待分类节点与第u个所述候选邻居节点之间的连边权重，以及所述待分类节点与所述目标节点集合中的节点的连边权重，确定第u个所述待选择邻居节点的所述第一候选概率，u为正整数。
一种模型训练的方法，其特征在于，应用于计算机设备中，所述方法包括：

从标注有目标节点类别的样本节点集合中获取目标节点子集合和与所述目标节点子集合对应的邻居节点子集合，所述邻居节点子集合中的邻居节点与所述目标节点子集合中的目标节点具有关联关系；

结合所述邻居节点子集合通过节点分类模型提取所述目标节点子集合的节点特征子集合，其中，所述节点特征子集合中包括所述目标节点的节点特征向量；

根据所述节点特征子集合对所述目标节点进行类别预测，得到预测类别概率子集合；

根据所述预测类别概率子集合和所述目标节点的所述目标节点类别对所述节点分类模型的目标模型参数进行训练。
根据权利要求4所述的方法，其特征在于，所述从标注有目标节点类别的样本节点集合中获取目标节点子集合和与所述目标节点子集合对应的邻居节点子集合，包括：

从所述样本节点集合中获取所述目标节点子集合；

根据所述目标节点子集合计算所述样本节点集合中待选择邻居节点的第二候选概率；

根据所述待选择邻居节点的所述第二候选概率确定所述邻居节点子集合。
根据权利要求5所述的方法，其特征在于，所述根据所述目标节点子集合计算所述样本节点集合中每个待选择邻居节点的第二候选概率，包括：

通过所述目标节点子集合中的所述目标节点与第u个所述待选择邻居节点之间的连边权重，以及所述目标节点与所述样本节点集合中的节点的连边权重，确定第u个所述待选择邻居节点的所述第二候选概率，u为正整数。
根据权利要求4所述的方法，其特征在于，所述结合所述邻居节点子集合通过节点分类模型提取所述目标节点子集合的节点特征子集合，包括：

确定所述节点分类模型的目标模型参数，其中，所述目标模型参数为待训练的模型参数；

根据所述目标模型参数和所述邻居节点子集合提取所述目标节点子集合的节点特征子集合。
根据权利要求7所述的方法，其特征在于，所述根据所述目标模型参数和所述邻居节点子集合提取所述目标节点子集合的节点特征子集合，包括：

根据第i个所述目标节点和所述邻居节点之间的连边权重、所述邻居节点的特征向量以及所述目标模型参数，确定第i个所述目标节点的节点特征，i为正整数。
根据权利要求4至8任一所述的方法，其特征在于，所述根据所述预测类别概率子集合和所述目标节点的所述目标节点类别对所述节点分类模型的目标模型参数进行训练，包括：

根据所述预测类别概率子集合和所述目标节点的所述目标节点类别确定目标损失值；

根据所述目标损失值确定所述模型参数梯度；

根据所述模型参数梯度对所述目标模型参数进行训练。
根据权利要求9所述的方法，其特征在于，所述根据所述模型参数梯度对所述目标模型参数进行训练，包括：

将所述模型参数梯度与预设学习率的乘积作为对所述目标模型参数的调整差值；

以所述调整差值对所述目标模型参数进行调整。
一种节点分类的装置，其特征在于，应用于计算机设备中，所述装置包括：

获取模块，用于获取目标节点集合中的待分类节点；

所述获取模块，还用于从所述目标节点集合中获取所述待分类节点的邻居节点集合，其中，所述邻居节点集合中包括至少一个邻居节点，所述邻居节点与所述待分类节点之间具有关联关系；

提取模块，用于通过节点分类模型根据所述邻居节点集合提取所述待分类节点的目标特征信息；

确定模块，用于根据所述目标特征信息确定所述待分类节点的分类结果，其中，所述节点分类模型为通过至少一个样本节点子集合训练得到的模型，所述样本节点子集合为样本节点集合的子集，所述样本节点集合中的节点标注有节点类别。
根据权利要求11所述的装置，其特征在于，所述获取模块，还用于根据所述待分类节点计算所述目标节点集合中每个候选邻居节点的第一候选概率；根据每个所述候选邻居节点的所述第一候选概率确定所述邻居节点集合。
根据权利要求12所述的装置，其特征在于，所述获取模块，还用于通过所述待分类节点与第u个所述候选邻居节点之间的连边权重，以及所述待分类节点与所述目标节点集合中的节点的连边权重，确定第u个所述待选择邻居节点的所述第一候选概率，u为正整数。
一种模型训练的装置，其特征在于，应用于计算机设备中，所述装置包括：

获取模块，用于从标注有目标节点类别的样本节点集合中获取目标节点子集合和与所述目标节点子集合对应的邻居节点子集合，所述邻居节点子集合中的邻居节点与所述目标节点子集合中的目标节点具有关联关系；

提取模块，用于结合所述邻居节点子集合通过节点分类模型提取所述目标节点子集合的节点特征子集合，其中，所述节点特征子集合中包括所述目标节点的节点特征向量；

预测模块，用于根据所述节点特征子集合对所述目标节点进行类别预测，得到预测类别概率子集合；

训练模块，用于根据所述预测类别概率子集合和所述目标节点的所述目标节点类别对所述节点分类模型的目标模型参数进行训练。
根据权利要求14所述的装置，其特征在于，所述获取模块，还用于从所述样本节点集合中获取所述目标节点子集合；根据所述目标节点子集合计算所述样本节点集合中待选择邻居节点的第二候选概率；根据所述待选择邻居节点的所述第二候选概率确定所述邻居节点子集合。
根据权利要求15所述的装置，其特征在于，所述获取模块，还用于通过所述目标节点子集合中的所述目标节点与第u个所述待选择邻居节点之间的连边权重，以及所述目标节点与所述样本节点集合中的节点的连边权重，确定第u个所述待选择邻居节点的所述第二候选概率，u为正整数。
根据权利要求14所述的装置，其特征在于，所述提取模块，还用于确定所述节点分类模型的目标模型参数，其中，所述目标模型参数为待训练的模型参数；根据所述目标模型参数和所述邻居节点子集合提取所述目标节点子集合的节点特征子集合。
根据权利要求17所述的装置，其特征在于，所述提取模块，还用于根据第i个所述目标节点和所述邻居节点之间的连边权重、所述邻居节点的特征向量以及所述目标模型参数，确定第i个所述目标节点的节点特征，i为正整数。
根据权利要求14至18任一所述的装置，其特征在于，所述训练模块，还用于根据所述预测类别概率子集合和所述目标节点的所述目标节点类别确定目标损失值；根据所述目标损失值确定所述模型参数梯度；根据所述模型参数梯度对所述目标模型参数进行训练。
根据权利要求19所述的装置，其特征在于，所述训练模块，还用于将所述模型参数梯度与预设学习率的乘积作为对所述目标模型参数的调整差值；以所述调整差值对所述目标模型参数进行调整。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至3任一所述的节点分类的方法或权利要求4至10任一所述的模型训练的方法。
计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至3任一所述的节点分类的方法或权利要求4至10任一所述的模型训练的方法。