WO2021164254A1

WO2021164254A1 - 训练分类器的方法和装置

Info

Publication number: WO2021164254A1
Application number: PCT/CN2020/117613
Authority: WO
Inventors: 王硕; 岳俊; 刘健庄; 田奇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-02-23
Filing date: 2020-09-25
Publication date: 2021-08-26
Anticipated expiration: 2022-08-23
Also published as: US20230177390A1; CN111382782B; EP4109335A4; EP4109335A1; US12536471B2; CN111382782A

Abstract

本申请提供了一种训练分类器的方法，包括：获取第一训练样本，所述第一训练样本包括相应的语义标签；获取多个第二训练样本，每个所述第二训练样本包括相应的语义标签；根据所述第一训练样本和所述多个第二训练样本的语义相似度从所述多个第二训练样本中确定目标样本；根据所述第一训练样本、所述目标样本、所述第一训练样本和所述目标样本的语义相似度训练分类器。基于语义相似度训练分类器能够提高分类器的训练效率和性能。此外，由于上述方法在特征提取时未使用语义标签进行学习，无需改变特征提取器的网络结构，从而能够提高神经网络的训练效率。

Description

训练分类器的方法和装置

本申请要求于2020年02月23日提交中国专利局、申请号为202010109899.6、申请名称为“训练分类器的方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，尤其涉及一种训练分类器的方法和装置。

背景技术

神经网络是实现人工智能的工具，神经网络在应用前需要经过大量样本的训练才能实现特定的功能，当需要神经网络实现新的功能时，通常还需要使用大量新样本训练神经网络。

一种减小再次训练神经网络的工作量的方法是知识迁移。神经网络基于大量样本完成训练后，学习到了知识；当使用新(novel)样本训练神经网络时，可以利用已经学习到的知识处理新样本，这样可以较少的新样本完成神经网络的再次训练，提升神经网络的性能。相比于新样本，上述大量样本可以称为基础(base)样本，

在利用知识迁移和新样本训练神经网络时，通常利用特征提取器从新样本中提取特征，并基于特征对新样本进行分类等处理，当新样本的类别改变时，特征提取器需要重新学习新类别的新样本的特征，导致训练工作量增大。

发明内容

本申请提供了一种训练分类器的方法和装置，能够分类器的训练效率和性能。

第一方面，提供了一种训练分类器的方法，包括：获取第一训练样本，所述第一训练样本包括相应的语义标签；获取多个第二训练样本，每个所述第二训练样本包括相应的语义标签；根据所述第一训练样本和所述多个第二训练样本的语义相似度从所述多个第二训练样本中确定目标样本；根据所述第一训练样本、所述目标样本、所述第一训练样本和所述目标样本的语义相似度训练分类器。

语义相似度用于衡量知识迁移的难易程度，例如，花猫与虎皮猫的语义相似度较高，表示花猫图像和虎皮猫图像的特征相似度较高，分类器通过虎皮猫图像特征学习到的分类知识更容易迁移到花猫图像的分类过程中，可以使用更多虎皮猫图像训练分类器；花猫与猎犬的语义相似度较低，表示花猫图像与猎犬图像的特征相似度较低，分类器通过猎犬图像特征学习到的分类知识难以迁移到花猫图像的分类过程中，可以减少猎犬图像在分类器训练过程中的使用量。因此，基于语义相似度训练分类器能够提高分类器的训练效率和性能。此外，由于上述方法在特征提取时未使用语义标签进行学习，无需改变特征提取器的网络结构，从而能够提高神经网络(包含分类器)的训练效率。

可选地，所述根据所述第一训练样本、所述目标样本、所述第一训练样本和所述目标样本的语义相似度训练分类器，包括：通过所述分类器确定所述第一训练样本的预测得分；根据所述预测得分、所述第一训练样本与所述目标样本的语义相似度确定所述分类器的语义迁移损失函数L _semantic，所述目标样本与所述第一训练样本的语义相似度用于确定所述预测得分对所述L _semantic的影响程度；根据所述L _semantic训练所述分类器。

根据语义相似度训练分类器能够提高分类器的性能。

可选地，当所述目标样本与所述第一训练样本的语义相似度大于等于语义迁移强度时，所述预测得分对所述L _semantic的影响程度为100％；或者，当所述目标样本与所述第一训练样本的语义相似度小于语义迁移强度时，所述预测得分对所述L _semantic的影响程度为0。

语义迁移强度可以根据经验设置，使得分类器学习到正确的分类知识，避免分类器被错误的分类知识误导。

可选地，所述根据所述第一训练样本、所述目标样本、所述第一训练样本和所述目标样本的语义相似度训练分类器，包括：通过所述分类器确定所述第一训练样本的预测得分S ⁿ；通过所述分类器确定所述目标训练样本的预测得分S ^b；根据所述S ⁿ、所述S ^b和平衡性学习强度确定所述分类器的平衡性学习损失函数L _IC，所述平衡性学习强度用于调整所述S ⁿ和所述S ^b对所述L _IC的影响程度；根据所述L _IC训练所述分类器。

在分类器的训练过程中，由于基础样本的数量通常比新样本的数量多，分类器基于基础样本学习到的知识倾向于将新样本预测到基础样本的类别中，导致分类器性能下降。基于平衡性学习强度调整S ⁿ和S ^b对L _IC的影响程度，能够使得分类器更加专注于学习新样本的分类知识，最终获得性能更好的分类器。

可选地，所述平衡性学习强度用于调整所述S ⁿ和所述S ^b对所述L _IC的影响程度，包括：所述平衡性学习强度用于增大所述S ⁿ对所述L _IC的影响程度，以及减小所述S ^b对所述L _IC的影响程度。

上述方案使得分类器能够专注于学习新样本的分类知识，提高S ⁿ的值以缩小L _IC，最终获得性能更好的分类器。

可选地，所述根据所述第一训练样本、所述目标样本、所述第一训练样本和所述目标样本的语义相似度训练分类器，包括：获取所述第一训练样本和所述目标样本的多视角特征；根据所述多视角特征训练所述分类器。

在训练的过程中，特征提取器可以从原图中提取图像特征，将图像特征输入分类器进行训练，由于目标样本的数量较多，特征提取器使用目标样本进行提取学习后，再提取第一训练样本的图像特征时，更倾向于基于已学习到的知识从第一训练样本中提取特征，而忽略了第一训练样本中的新内容。为此，本申请提供了一种提取特征的方法，将每个样本转变为多视角图像(例如，原图、前景图像和背景图像)，多视角图像的细节更加丰富，特征提取器从多视角图像中提取图像特征，能够避免特征提取器忽略第一训练样本中的新内容，提取到更加准确的特征，进而获得性能更好的分类器。

可选地，所述获取所述第一训练样本和所述目标样本的多视角特征，包括：从所述第一训练样本和所述目标样本中的每个样本中分离出多个图像，所述每个样本的多个图像的视角互不相同；根据所述每个样本的多个图像获取所述每个样本的多个特征；拼接所述每个样本的多个特征得到所述多视角特征。

可选地，所述根据所述第一训练样本、所述目标样本、所述第一训练样本和所述目标样本的语义相似度训练分类器，包括：通过所述分类器确定所述第一训练样本的预测得分；根据所述预测得分确定所述分类器的分类损失函数L _CE；根据所述L _CE训练所述分类器。

第二方面，提供了一种图像分类方法，包括：获取待分类图像的特征；将所述特征输入神经网络进行分类，所述神经网络包括分类器，所述分类器是通过第一训练样本、所述第一训练样本对应的目标样本、所述第一训练样本和所述目标样本的语义相似度训练得到的，所述目标样本是根据所述第一训练样本和多个第二训练样本的语义相似度从所述多个第二训练样本中确定的；获取所述待分类图像的分类结果。

基于语义相似度训练分类器能够提高分类器的性能，因此，使用该分类器对待分类图像的分类结果更加准确。

可选地，所述待分类图像的特征为多视角特征。

多视角图像的细节更加丰富，特征提取器从多视角图像中提取图像特征，能够避免特征提取器忽略待分类图像中的新内容，提取到更加准确的特征，进而获得更准确的分类结果。

可选地，所述获取待分类图像的特征，包括：从所述待分类图像种获取多个不同视角的图像；获取所述多个不同视角的图像中每个图像的特征；拼接所述每个图像的特征得到所述待分类图像的多视角特征。

可选地，所述分类器是通过第一训练样本、所述第一训练样本对应的目标样本、所述第一训练样本和所述目标样本的语义相似度训练得到的，包括：通过所述分类器确定所述第一训练样本的预测得分；根据所述预测得分、所述第一训练样本与所述目标样本的语义相似度确定所述分类器的语义迁移损失函数L _semantic，所述目标样本与所述第一训练样本的语义相似度用于确定所述预测得分对所述L _semantic的影响程度；根据所述L _semantic训练所述分类器。

根据语义相似度训练分类器能够提高分类器的性能。

可选地，当所述目标样本与所述第一训练样本的语义相似度大于等于语义迁移强度时，所述预测得分对所述L _semantic的影响程度为100％；当所述目标样本与所述第一训练样本的语义相似度小于所述语义迁移强度时，所述预测得分对所述L _semantic的影响程度为0。

可选地，所述分类器是通过第一训练样本、所述第一训练样本对应的目标样本、所述第一训练样本和所述目标样本的语义相似度训练得到的，包括：通过所述分类器确定所述第一训练样本的预测得分S ⁿ；通过所述分类器确定所述目标训练样本的预测得分S ^b；根据所述S ⁿ、所述S ^b和平衡性学习强度确定所述分类器的平衡性学习损失函数L _IC，所述平衡性学习强度用于调整所述S ⁿ和所述S ^b对所述L _IC的影响程度；根据所述L _IC训练所述分类器。

可选地，所述分类器是通过第一训练样本、所述第一训练样本对应的目标样本、所述第一训练样本和所述目标样本的语义相似度训练得到的，包括：获取所述第一训练样本和所述目标样本的多视角特征；根据所述多视角特征训练所述分类器。

可选地，所述获取所述第一训练样本和所述目标样本的多视角特征，包括：从所述第一训练样本和所述目标样本中的每个样本中分离出多个图像，所述每个样本的多个图像的视角互不相同；根据所述每个样本的多个图像获取每个样本的多个特征；拼接所述每个样本的所述多个特征得到所述目标样本的多视角特征。

可选地，所述分类器是通过第一训练样本、所述第一训练样本对应的目标样本、所述第一训练样本和所述目标样本的语义相似度训练得到的，包括：通过所述分类器确定所述第一训练样本的预测得分；根据所述预测得分确定所述分类器的分类损失函数L _CE；根据所述L _CE训练所述分类器。

第三方面，提供了另一种图像分类方法，包括：从待分类图像中获取多个不同视角的图像；获取所述多个不同视角的图像中每个图像的特征；将所述每个图像的特征输入神经网络进行分类，所述神经网络包括分类器；获取所述待分类图像的分类结果。

可选地，所述多个不同视角的图像包括所述待分类图像，所述待分类图像中的前景图像，所述待分类图像中的背景图像。

可选地，所述将所述每个图像的特征输入神经网络进行分类，包括：将所述每个图像的特征拼接后输入所述神经网络进行分类。

可选地，所述分类器是通过第一方面中任一项所述的方法训练得到的。

第四方面，提供了一种训练分类器的装置，包括用于执行第一方面中任一种方法的单元。

第五方面，提供了一种图像分类装置，包括用于执行第二方面中任一种方法的单元。

第六方面，提供了一种图像分类装置，包括用于执行第三方面中任一种方法的单元。

第七方面，提供了一种训练分类器的设备，包括处理器和存储器，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得该设备执行第一方面中任一种方法。

第八方面，提供了一种图像分类设备，包括处理器和存储器，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得该设备执行第二方面中任一种方法。

第九方面，提供了一种图像分类设备，包括处理器和存储器，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得该设备执行第三方面中任一种方法。

第十方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被训练分类器的装置运行时，使得该装置执行第一方面中任一种方法。

第十一方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被分类装置运行时，使得该装置执行第二方面中任一种方法。

第十二方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被分类装置运行时，使得该装置执行第三方面中任一种方法。

第十三方面，提供了一种计算机可读介质，所述计算机可读介质存储有程序代码，所述程序代码包括用于执行第一方面中任一种方法的指令。

第十四方面，提供了一种计算机可读介质，所述计算机可读介质存储有程序代码，所述程序代码包括用于执行第二方面中任一种方法的指令。

第十五方面，提供了一种计算机可读介质，所述计算机可读介质存储有程序代码，所述程序代码包括用于执行第三方面中任一种方法的指令。

附图说明

图1是本申请提供的一种神经网络的示意图；

图2是本申请提供的一种训练分类器的方法的示意图；

图3是本申请提供的一种基于语义标签确定目标样本的示意图；

图4是本申请提供的一种训练分类器的装置的示意图；

图5是本申请提供的一种图像分类装置的示意图；

图6是本申请提供的另一种图像分类装置的示意图；

图7是本申请提供的一种电子设备的示意图。

具体实施方式

为了便于理解本申请的技术方案，首先对本申请涉及的概念做简要介绍。

人工神经网络(artificial neural network，ANN)，简称为神经网络(neural network，NN)或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。人工神经网络可以包括卷积神经网络(convolutional neural network，CNN)、深度神经网络(deep neural network，DNN)、多层感知器(multilayer perceptron，MLP)等神经网络。

图1是本申请本申请提供的一种神经网络的示意图。该神经网络100包括多视角图像提取器110、特征提取器120和分类器130。

在训练阶段，将带语义标签的训练图像输入多视角图像提取器110，多视角图像提取器110将该训练图像转变为多张不同视角的图像，如前景图像和背景图像，多视角图像提取器110可以通过显著性检测网络和多视角分类器将训练图像转变为前景图像和背景图像，本申请对多视角图像提取器110的具体工作方式不做限定，对多视角图像的具体视角也不做限定。在上述处理过程中，多视角图像提取器110可以对多视角分类器进行训练，提高多视角分类性能。

特征提取器120获取上述多张不同视角的图像后，从多张不同视角的图像中分别提取图像特征，由于特征提取器120获得的多张不同视角的图像属于一张图像，例如，多张不同视角的图像可以包括图像原图、图像的前景图、图像的背景图。因此，特征提取器120可以学习到更多的知识。特征提取器120可以将这些图像特征拼接在一起输入分类器130，或者，也可以将这些图像特征分别输入分类器130。

分类器130用于根据图像特征确定训练图像所属的类别，随后，根据分类结果和该训练图像的语义标签确定损失函数，并根据该损失函数进行训练。

神经网络100训练完成之后，可以应用于图像分类。图像分类过程与训练过程类似，待分类图像输入多视角图像提取器110后，转变为多张不同视角的图像；特征提取器120从该多张不同视角的图像中提取每一张图像的图像特征，然后将每一张图像的图像特征输入分类器130，例如，可以将每一张图像的图像特征拼接后形成多视角特征输入分类器130；分类器130根据输入的图像特征确定该待分类图像所属的类别，即，确定待分类图像的语义标签。

下面，介绍本申请提供的训练分类器的方法。

如图2所示，方法200可以由处理器执行，方法200包括：

S210，获取第一训练样本，所述第一训练样本包括相应的语义标签。

S220，获取多个第二训练样本，每个所述第二训练样本包括相应的语义标签。

第一训练样本例如是新样本，第二训练样本例如是基础样本，第一训练样本和多个第二训练样本均是携带语义标签的图像。获取第一训练样本和多个第二训练样本之后，处理器可以执行下列步骤。

S230，根据所述第一训练样本和所述多个第二训练样本的语义相似度从所述多个第二训练样本中确定目标样本。

语义标签在一定程度上描述了训练样本之间的相似度，因此，可以利用训练样本携带的语义标签确定训练样本之间的相似度。

图3示出了一种根据语义标签确定训练样本之间的相似度的示例。

第一训练样本的语义标签为花猫(tabby cat)，八个第二训练样本的语义标签分别为虎皮猫(tiger cat)、熊猫(bear cat)、波斯猫(Persian cat)、埃及猫(Egyptian cat)、暹罗猫(Siamese cat)、猎犬(coonhound)、爱斯基摩狗(Eskimo dog)和马耳他狗(Maltese dog)。可以使用预训练的语言模型将这些语义标签转变成特征向量，并分别计算花猫的特征向量和其它八个语义标签的特征向量之间的余弦相似度。余弦相似度越高，表示语义标签之间的相似度越高，结果如图3中的数字所示，其中，爱斯基摩狗和马耳他狗的特征向量与花猫的特征向量之间的余弦相似度过低，分类器难以将通过爱斯基摩狗图像和马耳他狗图像学习到分类知识迁移到花猫图像的分类过程中，因此，可以舍弃这两个训练样本，确定其余六个训练样本为目标训练样本。上述分类知识例如是权重、神经元之间的连接关系等。

确定相似度和目标样本之后，处理器可以执行下列步骤。

S240，根据所述第一训练样本、所述目标样本、所述第一训练样本和所述目标样本的语义相似度训练分类器。

语义相似度用于衡量知识迁移的难易程度，例如，花猫与虎皮猫的语义相似度较高，表示花猫图像和虎皮猫图像的特征相似度较高，分类器通过虎皮猫图像特征学习到的分类知识更容易迁移到花猫图像的分类过程中，可以使用更多虎皮猫图像训练分类器；花猫与猎犬的语义相似度较低，表示花猫图像与猎犬图像的特征相似度较低，分类器通过猎犬图像特征学习到的分类知识难以迁移到花猫图像的分类过程中，可以减少猎犬图像在分类器训练过程中的使用量。因此，基于语义相似度训练分类器能够提高分类器的训练效率和性能。此外，由于上述方法在特征提取时未使用语义标签进行学习，无需改变特征提取器的网络结构，从而能够提高神经网络(如神经网络100)的训练效率。

在训练的过程中，特征提取器可以从原图中提取图像特征，将图像特征输入分类器进行训练，由于目标样本的数量较多，特征提取器使用目标样本进行提取学习后，再提取第一训练样本的图像特征时，更倾向于基于已学习到的知识从第一训练样本中提取特征，而忽略了第一训练样本中的新内容。为此，本申请提供了一种提取特征的方法，将每个样本转变为多视角图像(如前景图像和背景图像)，多视角图像的细节更加丰富，特征提取器从多视角图像中提取图像特征，能够避免特征提取器忽略第一训练样本中的新内容，提取到更加准确的特征，进而获得性能更好的分类器。

可选地，在分类器的训练过程中，处理器可以通过分类器确定第一训练样本的预测得分；随后，根据该预测得分、第一训练样本与目标样本的语义相似度确定分类器的语义迁移损失函数L _semantic；随后，根据L _semantic训练分类器。

目标样本与第一训练样本的语义相似度用于确定预测得分对L _semantic的影响程度。语义相似度越高，影响程度越大；语义相似度越低，影响程度越小。即，语义相似度与影响程度正相关。

可以设置一个语义迁移强度，当目标样本与第一训练样本的语义相似度大于等于语义迁移强度时，预测得分对L _semantic的影响程度为100％；当目标样本与第一训练样本的语义相似度小于语义迁移强度时，预测得分对L _semantic的影响程度为0。

可以基于公式(1)确定L _semantic。

其中，C _base表示目标样本的类别个数；base表示一类目标样本；s _j为使用训练样本j的知识对第一训练样本进行分类的得分，

R表示实数，C _novel表示新样本的类别个数；l _j为训练样本j与第一训练样本之间的语义相似度，

α为语义迁移强度。

当l _j≥α时，说明训练样本j与第一训练样本的语义相似度较高，可以将s _j作为影响L _semantic的因子，使得分类器学习到正确的分类知识；当l _j<α时，说明训练样本j与第一训练样本的语义相似度较低，可以无需考虑s _j对L _semantic的影响，避免分类器被错误的分类知识误导。

由上可知，根据语义相似度训练分类器能够提高分类器的性能。

在分类器的训练过程中，由于基础样本的数量通常比新样本的数量多，分类器基于基础样本学习到的知识倾向于将新样本预测到基础样本的类别中，导致分类器性能下降。

可选地，可以在分类器的训练过程中引入平衡性学习损失函数L _IC来解决这一问题。当分类器对第一训练样本的预测得分为S ⁿ，对目标训练样本的预测得分为S ^b时，处理器可以根据S ⁿ、S ^b和平衡性学习强度确定L _IC，随后，根据L _IC训练分类器。

可以根据公式(2)确定L _IC。

其中，

s ^b为实数(单个样本的得分)或向量(多个样本的得分)；

s ⁿ为实数(单个样本的得分)或向量(多个样本的得分)；<s ^b,s ⁿ>表示s ^b与s ⁿ的乘积；||s ^b||表示实数s ^b的绝对值或向量s ^b的模；||s ⁿ||表示实数s ⁿ的绝对值或向量s ⁿ的模；β表示平衡性学习强度。

平衡性学习强度用于调整S ⁿ和S ^b对L _IC的影响程度。例如，平衡性学习强度用于增大S ⁿ对L _IC的影响程度，以及减小S ^b对L _IC的影响程度，这样，分类器需要更加专注于学习新样本的分类知识，提高S ⁿ的值以缩小L _IC，最终获得性能更好的分类器。

除了上述L _semantic和L _IC之外，处理器还可以根据对新样本进行分类的预测得分确定分类器的分类损失函数L _CE，并根据L _CE训练分类器。例如，处理器可以通过最小化L _semantic+L _IC+L _CE完成分类器的训练。

下面给出几个本申请的有益效果的示例。

表1是使用L _CE和L _IC训练的分类器与仅使用L _CE训练的分类器的测试结果的对比。

表1

由表1可以看出，通过L _CE和L _IC训练的分类器的预测得分普遍高于仅使用L _CE训练的分类器的预测得分。

表2是方法200在公开的大规模小样本数据集上的测试结果。

表2

由表2可以看出，方法200的增益相比于其它方法有了大幅度的提高。

表3是方法200与现有的大规模小样本识别方法结合后的效果。

表3

由表3可以看出，方法200与现有的大规模小样本识别方法结合后，提升了准确性。

方法200除了可以应用于大规模小样本识别任务中，还可看应用在传统的小样本识别任务中，具体实验结果如表4所示。

表4

MiniImageNet	特征提取器	K＝1	K＝5
RelationNet[CVPR 2018]	Conv-4-64	50.40±0.80％	65.30±0.70％
MetaGAN[NeurIPS 2018]	Conv-4-64	52.71±0.64％	68.63±0.67％
R2-D2[ICLR 2019]	Conv-4-64	48.70±0.60％	65.50±0.60％
DN4[CVPR2019]	Conv-4-64	51.24±0.74％	71.02±0.64％
MetaNet[ICML 2017]	ResNets-12	57.10±0.70％	70.04±0.63％
TADAM[NeurIPS 2018]	ResNets-12	58.05±0.30％	76.70±0.30％
MTL[CVPR2019]	ResNets-12	61.20±1.20％	75.50±0.80％
PPA[CVPR2018]	WRN-28-10	59.60±0.41％	73.74±0.19％
LEO[ICLR 2019]	WRN-28-10	61.76±0.08％	77.59±0.12％
LwoF[CVPR2018]	WRN-28-10	60.06±0.14％	76.39±0.11％
wDAE-GNN[CVPR 2019]	WRN-28-10	62.96±0.15％	78.85±0.10％
方法200	WRN-28-10	64.40±0.43％	83.05±0.28％

上文详细介绍了本申请提供的训练分类器的方法以及图像分类方法的示例。可以理解的是，相应的装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请可以根据上述方法示例对训练分类器的装置以及图像分类装置进行功能单元的划分，例如，可以将各个功能划分为各个功能单元，也可以将两个或两个以上的功能集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图4是本申请提供的一种训练分类器的装置的结构示意图。该装置400包括处理器410和存储单元420，存储器420用于存储计算机程序，处理器410用于从存储器420中调用并运行所述计算机程序执行：获取第一训练样本，所述第一训练样本包括相应的语义标签；获取多个第二训练样本，每个所述第二训练样本包括相应的语义标签；根据所述第一训练样本和所述多个第二训练样本的语义相似度从所述多个第二训练样本中确定目标样本；根据所述第一训练样本、所述目标样本、所述第一训练样本和所述目标样本的语义相似度训练分类器。

可选地，所述处理器410具体用于：通过所述分类器确定所述第一训练样本的预测得分；根据所述预测得分、所述第一训练样本与所述目标样本的语义相似度确定所述分类器的语义迁移损失函数L _semantic，所述目标样本与所述第一训练样本的语义相似度用于确定所述预测得分对L _semantic的影响程度；根据L _semantic训练所述分类器。

可选地，当所述目标样本与所述第一训练样本的语义相似度大于等于语义迁移强度时，所述预测得分对L _semantic的影响程度为100％；或者，当所述目标样本与所述第一训练样本的语义相似度小于语义迁移强度时，所述预测得分对L _semantic的影响程度为0。

可选地，所述处理器410具体用于：通过所述分类器确定所述第一训练样本的预测得分S ⁿ；通过所述分类器确定所述目标训练样本的预测得分S ^b；根据S ⁿ、S ^b和平衡性学习强度确定所述分类器的平衡性学习损失函数L _IC，所述平衡性学习强度用于调整S ⁿ和S ^b对L _IC的影响程度；根据L _IC训练所述分类器。

可选地，所述处理器410用于：所述平衡性学习强度用于增大S ⁿ对L _IC的影响程度，以及减小S ^b对L _IC的影响程度。

可选地，所述处理器410具体用于：获取所述第一训练样本和所述目标样本的多视角特征；根据所述多视角特征训练所述分类器。

可选地，所述处理器410具体用于：从所述第一训练样本和所述目标样本中的每个样本中分离出多个图像，所述多个图像的视角互不相同；根据所述多个图像获取所述第一训练样本和所述目标样本中的每个样本的多个特征；拼接所述多个特征得到所述多视角特征。

可选地，所述处理器410具体用于：通过所述分类器确定所述第一训练样本的预测得分；根据所述预测得分确定所述分类器的分类损失函数L _CE；根据L _CE训练所述分类器。

装置400执行训练分类器的方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。

图5是本申请提供的一种图像分类装置的结构示意图。该装置500包括处理器510和存储器520，存储器520用于存储计算机程序，处理器510用于从存储器520中调用并运行所述计算机程序执行：获取待分类图像的特征；将所述特征输入神经网络进行分类，所述神经网络包括分类器，所述分类器是通过方法200训练得到的；获取所述待分类图像的分类结果。

可选地，所述预测图像的特征为多视角特征。

可选地，处理器510具体用于：从所述待分类图像中获取多个不同视角的图像；获取所述多个不同视角的图像中每个图像的特征；拼接所述每个图像的特征得到所述待分类图像的多视角特征。

装置500执行图像分类方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。

可选地，装置500和装置400为相同的装置。

图6是本申请提供的另一种图像分类装置的结构示意图。该装置600包括处理器610和存储器620，存储器620用于存储计算机程序，处理器610用于从存储器620中调用并运行所述计算机程序执行：从待分类图像中获取多个不同视角的图像；获取所述多个不同视角的图像中每个图像的特征；将所述每个图像的特征输入神经网络进行分类，所述神经网络包括分类器；获取所述待分类图像的分类结果。

可选地，所述多个不同视角的图像包括所述待分类图像，所述待分类图像中的前景图像，所述待分类图像中的背景图像中的至少两个。

可选地，所述分类器是通过方法200训练得到的。

装置600执行图像分类方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。

可选地，装置600和装置400为相同的装置。

图7示出了本申请提供的一种电子设备的结构示意图。图7中的虚线表示该单元或该模块为可选的。设备700可用于实现上述方法实施例中描述的方法。设备700可以是终端设备或服务器或芯片。

设备700包括一个或多个处理器701，该一个或多个处理器701可支持设备700实现方法实施例中的方法。处理器701可以是通用处理器或者专用处理器。例如，处理器701可以是中央处理器(central processing unit，CPU)。CPU可以用于对设备700进行控制，执行软件程序，处理软件程序的数据。设备700还可以包括通信单元705，用以实现信号的输入(接收)和输出(发送)。

例如，设备700可以是芯片，通信单元705可以是该芯片的输入和/或输出电路，或者，通信单元705可以是该芯片的通信接口，该芯片可以作为终端设备或网络设备或其它电子设备的组成部分。

又例如，设备700可以是终端设备或服务器，通信单元705可以是该终端设备或该服务器的收发器，或者，通信单元705可以是该终端设备或该服务器的收发电路。

设备700中可以包括一个或多个存储器702，其上存有程序704，程序704可被处理器701运行，生成指令703，使得处理器701根据指令703执行上述方法实施例中描述的方法。可选地，存储器702中还可以存储有数据。可选地，处理器701还可以读取存储器702中存储的数据，该数据可以与程序704存储在相同的存储地址，该数据也可以与程序704存储在不同的存储地址。

处理器701和存储器702可以单独设置，也可以集成在一起，例如，集成在终端设备的系统级芯片(system on chip，SOC)上。

设备700还可以包括天线706。通信单元705用于通过天线706实现设备700的收发功能。

处理器701执行训练分类器的方法以及图像分类方法的具体方式可以参见方法实施例中的相关描述。

应理解，上述方法实施例的各步骤可以通过处理器701中的硬件形式的逻辑电路或者软件形式的指令完成。处理器701可以是CPU、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件，例如，分立门、晶体管逻辑器件或分立硬件组件。

本申请还提供了一种计算机程序产品，该计算机程序产品被处理器701执行时实现本申请中任一方法实施例所述的方法。

该计算机程序产品可以存储在存储器702中，例如是程序704，程序704经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器701执行的可执行目标文件。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现本申请中任一方法实施例所述的方法。该计算机程序可以是高级语言程序，也可以是可执行目标程序。

该计算机可读存储介质例如是存储器702。存储器702可以是易失性存储器或非易失性存储器，或者，存储器702可以同时包括易失性存储器和非易失性存储器。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和设备的具体工作过程以及产生的技术效果，可以参考前述方法实施例中对应的过程和技术效果，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例的一些特征可以忽略，或不执行。以上所描述的装置实施例仅仅是示意性的，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统。另外，各单元之间的耦合或各个组件之间的耦合可以是直接耦合，也可以是间接耦合，上述耦合包括电的、机械的或其它形式的连接。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

另外，本文中术语“系统”和“网络”在本文中常被可互换使用。本文中的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

总之，以上所述仅为本申请技术方案的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种训练分类器的方法，其特征在于，包括：

获取第一训练样本，所述第一训练样本包括相应的语义标签；

获取多个第二训练样本，每个所述第二训练样本包括相应的语义标签；

根据所述第一训练样本和所述多个第二训练样本的语义相似度从所述多个第二训练样本中确定目标样本；

根据所述第一训练样本、所述目标样本、所述第一训练样本和所述目标样本的语义相似度训练分类器。
根据权利要求1所述的方法，其特征在于，所述根据所述第一训练样本、所述目标样本、所述第一训练样本和所述目标样本的语义相似度训练分类器，包括：

通过所述分类器确定所述第一训练样本的预测得分；

根据所述预测得分、所述第一训练样本与所述目标样本的语义相似度确定所述分类器的语义迁移损失函数L _semantic，所述目标样本与所述第一训练样本的语义相似度用于确定所述预测得分对所述L _semantic的影响程度；

根据所述L _semantic训练所述分类器。
根据权利要求2所述的方法，其特征在于，

当所述目标样本与所述第一训练样本的语义相似度大于等于语义迁移强度时，所述预测得分对所述L _semantic的影响程度为100％；

当所述目标样本与所述第一训练样本的语义相似度小于所述语义迁移强度时，所述预测得分对所述L _semantic的影响程度为0。
根据权利要求1至3中任一项所述的方法，其特征在于，所述根据所述第一训练样本、所述目标样本、所述第一训练样本和所述目标样本的语义相似度训练分类器，包括：

通过所述分类器确定所述第一训练样本的预测得分S ⁿ；

通过所述分类器确定所述目标训练样本的预测得分S ^b；

根据所述S ⁿ、所述S ^b和平衡性学习强度确定所述分类器的平衡性学习损失函数L _IC，所述平衡性学习强度用于调整所述S ⁿ和所述S ^b对所述L _IC的影响程度；

根据所述L _IC训练所述分类器。
根据权利要求4所述的方法，其特征在于，所述平衡性学习强度用于调整所述S ⁿ和所述S ^b对所述L _IC的影响程度，包括：

所述平衡性学习强度用于增大所述S ⁿ对所述L _IC的影响程度，以及减小所述S ^b对所述L _IC的影响程度。
根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述第一训练样本、所述目标样本、所述第一训练样本和所述目标样本的语义相似度训练分类器，包括：

获取所述第一训练样本和所述目标样本的多视角特征；

根据所述多视角特征训练所述分类器。
根据权利要求6所述的方法，其特征在于，所述获取所述第一训练样本和所述目标样本的多视角特征，包括：

从所述第一训练样本和所述目标样本中的每个样本中分离出多个图像，所述每个样本的多个图像的视角互不相同；

根据所述每个样本的多个图像获取所述每个样本的多个特征；

拼接所述每个样本的所述多个特征得到所述多视角特征。
根据权利要求1至7中任一项所述的方法，其特征在于，所述根据所述第一训练样本、所述目标样本、所述第一训练样本和所述目标样本的语义相似度训练分类器，包括：

通过所述分类器确定所述第一训练样本的预测得分；

根据所述预测得分确定所述分类器的分类损失函数L _CE；

根据所述L _CE训练所述分类器。
一种图像分类方法，其特征在于，包括：

获取待分类图像的特征；

将所述特征输入神经网络进行分类，所述神经网络包括分类器，所述分类器是通过第一训练样本、所述第一训练样本对应的目标样本、所述第一训练样本和所述目标样本的语义相似度训练得到的，所述目标样本是根据所述第一训练样本和多个第二训练样本的语义相似度从所述多个第二训练样本中确定的；

获取所述待分类图像的分类结果。
根据权利要求9所述的方法，其特征在于，所述带分类图像的特征为多视角特征。
根据权利要求10所述的方法，其特征在于，所述获取待分类图像的特征，包括：

从所述待分类图像中获取多个不同视角的图像；

获取所述多个不同视角的图像中每个图像的特征；

拼接所述每个图像的特征得到所述待分类图像的多视角特征。
根据权利要求9至11中任一项所述的方法，其特征在于，所述分类器是通过第一训练样本、所述第一训练样本对应的目标样本、所述第一训练样本和所述目标样本的语义相似度训练得到的，包括：

通过所述分类器确定所述第一训练样本的预测得分；

根据所述预测得分、所述第一训练样本与所述目标样本的语义相似度确定所述分类器的语义迁移损失函数L _semantic，所述目标样本与所述第一训练样本的语义相似度用于确定所述预测得分对所述L _semantic的影响程度；

根据所述L _semantic训练所述分类器。
根据权利要求12所述的方法，其特征在于，

当所述目标样本与所述第一训练样本的语义相似度大于等于语义迁移强度时，所述预测得分对所述L _semantic的影响程度为100％；

当所述目标样本与所述第一训练样本的语义相似度小于所述语义迁移强度时，所述预测得分对所述L _semantic的影响程度为0。
根据权利要求9至13中任一项所述的方法，其特征在于，所述分类器是通过第一训练样本、所述第一训练样本对应的目标样本、所述第一训练样本和所述目标样本的语义相似度训练得到的，包括：

通过所述分类器确定所述第一训练样本的预测得分S ⁿ；

通过所述分类器确定所述目标训练样本的预测得分S ^b；

根据所述S ⁿ、所述S ^b和平衡性学习强度确定所述分类器的平衡性学习损失函数L _IC，所述平衡性学习强度用于调整所述S ⁿ和所述S ^b对所述L _IC的影响程度；

根据所述L _IC训练所述分类器。
根据权利要求14所述的方法，其特征在于，所述平衡性学习强度用于调整所述S ⁿ和所述S ^b对所述L _IC的影响程度，包括：

所述平衡性学习强度用于增大所述S ⁿ对所述L _IC的影响程度，以及减小所述S ^b对所述L _IC的影响程度。
根据权利要求9至15中任一项所述的方法，其特征在于，所述分类器是通过第一训练样本、所述第一训练样本对应的目标样本、所述第一训练样本和所述目标样本的语义相似度训练得到的，包括：

获取所述第一训练样本和所述目标样本的多视角特征；

根据所述多视角特征训练所述分类器。
根据权利要求16所述的方法，其特征在于，所述获取所述第一训练样本和所述目标样本的多视角特征，包括：

从所述第一训练样本和所述目标样本中的每个样本中分离出多个图像，所述每个样本的多个图像的视角互不相同；

根据所述每个样本的多个图像获取所述每个样本的多个特征；

拼接所述每个样本的所述多个特征得到所述目标样本的多视角特征。
根据权利要求9至17中任一项所述的方法，其特征在于，所述分类器是通过第一训练样本、所述第一训练样本对应的目标样本、所述第一训练样本和所述目标样本的语义相似度训练得到的，包括：

通过所述分类器确定所述第一训练样本的预测得分；

根据所述预测得分确定所述分类器的分类损失函数L _CE；

根据所述L _CE训练所述分类器。
一种图像分类方法，其特征在于，包括：

从待分类图像中获取多个不同视角的图像；

获取所述多个不同视角的图像中每个图像的特征；

将所述每个图像的特征输入神经网络进行分类，所述神经网络包括分类器；

获取所述待分类图像的分类结果。
根据权利要求19所述的方法，其特征在于，所述多个不同视角的图像包括以下至少两个：所述待分类图像，所述待分类图像中的前景图像或所述待分类图像中的背景图像。
根据权利要求19或20所述的方法，其特征在于，所述将所述每个图像的特征输入神经网络进行分类，包括：

将所述每个图像的特征拼接后输入所述神经网络进行分类。
根据权利要求19至21中任一项所述的方法，其特征在于，所述分类器是通过权利要求1至8中任一项所述的方法训练得到的。
一种训练分类器的装置，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序执行权利要求 1至8中任一项所述的方法。
一种图像分类装置，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序执行权利要求9至22中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储了计算机程序，当所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至8中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储了计算机程序，当所述计算机程序被处理器执行时，使得所述处理器执行权利要求9至22中任一项所述的方法。