WO2023020214A1

WO2023020214A1 - 检索模型的训练和检索方法、装置、设备及介质

Info

Publication number: WO2023020214A1
Application number: PCT/CN2022/107973
Authority: WO
Inventors: 郭卉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-17
Filing date: 2022-07-26
Publication date: 2023-02-23
Anticipated expiration: 2024-02-17
Also published as: CN114282035B; EP4386579A1; CN114282035A; EP4386579B1; US12493649B2; EP4386579A4; US20230252070A1

Abstract

本申请公开了一种检索模型的训练和检索方法、装置、设备及介质，属于人工智能领域。检索模型包括嵌入向量网络和量化索引网络，前述方法包括：获取用于训练检索模型的n个样本三元组(320)；将n个样本三元组的基础特征向量输入嵌入向量网络；根据嵌入向量网络输出的特征向量的误差，筛选出用于训练量化索引网络的第一样本三元组集合(340)；将n个样本三元组的基础特征向量输入量化索引网络；根据量化索引网络输出的量化索引的误差，筛选出用于训练嵌入向量网络的第二样本三元组集合(360)；基于第一样本三元组集合训练量化索引网络(381)；基于第二样本三元组集合训练嵌入向量网络(382)。上述方法提高了检索模型的准确率。

Description

检索模型的训练和检索方法、装置、设备及介质

本申请要求于2021年08月17日提交的申请号为202110945262.5、发明名称为“图像检索模型的训练和检索方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，特别涉及一种检索模型的训练和检索方法、装置、设备及介质。

背景技术

在基于查询图像进行图像检索时，往往通过召回多个候选图像进行排序选取置信度较高的候选图像作为检索结果。

相关技术中，常常先通过嵌入向量网络获取查询图像的特征向量，对特征向量进行PQ量化(Product Quantization，乘积量化)得到量化索引，再从量化码本中找到与量化索引匹配的m个特征向量，召回与m个特征向量对应的m个候选图像，再根据m个候选图像的特征向量与查询图像的特征向量之间的距离排序结果，选取排名较高的候选图像作为最终召回的图像。

相关技术中，PQ量化把特征向量的每个维度的数值切分成多段，每段用不同的数码表征(如某位值为0～1间的浮点数，则可能切分为0.1、…0.9、1.0共10段，分别用1～10的数字表示每一段的量化方法)，检索时将量化到相同段的候选图像召回。然而，PQ量化的方法容易造成相似的特征被割裂到两个相邻的段中，临界样本容易漏召回或多召回(如段1、段2的临界样本可能跟段1相似也可能跟段2相似，而单独召回任何一段都存在漏召回，而召回两段又会使误召回增多)。

发明内容

本申请提供了一种检索模型的训练和检索方法、装置、设备及介质，能够提高检索的准确率。所述技术方案如下：

根据本申请的一个方面，提供了一种检索模型的训练方法，该方法由计算机设备执行，检索模型包括嵌入向量网络和量化索引网络，嵌入向量网络用于获取检索对象的特征向量，量化索引网络用于提取检索对象的量化索引；所述方法包括：

获取用于训练检索模型的n个样本三元组；样本三元组包括训练样本、与训练样本构成相似样本对的正样本、以及与训练样本不构成相似样本对的负样本；n为大于1的正整数；

将n个样本三元组的基础特征向量输入嵌入向量网络；根据嵌入向量网络输出的特征向量的误差，筛选出用于训练量化索引网络的第一样本三元组集合；

将n个样本三元组的基础特征向量输入量化索引网络；根据量化索引网络输出的量化索引的误差，筛选出用于训练嵌入向量网络的第二样本三元组集合；

基于第一样本三元组集合训练量化索引网络，以及基于第二样本三元组集合训练嵌入向量网络。

根据本申请的另一方面，提供了一种对象检索方法，该方法由计算机设备执行，所述方法包括：

获取查询对象的基础特征向量；

将基础特征向量输入至量化索引网络和嵌入向量网络；

通过量化索引网络获取查询对象的量化索引，以及通过嵌入向量网络获取查询对象的特征向量；

基于量化索引，从量化码本中索引得到m个候选对象的特征向量；量化码本存储有量化索引与m个候选对象的特征向量之间的映射关系；m为正整数；

分别计算m个候选图像的特征向量与查询对象的特征向量的第五距离，得到m个第五距离；

在m个第五距离由小到大的排序结果中，筛选出排序在前z％的第五距离对应的候选图像。

根据本申请的另一方面，提供了一种检索模型的训练装置，检索模型包括嵌入向量网络和量化索引网络，嵌入向量网络用于获取检索对象的特征向量，量化索引网络用于提取检索对象的量化索引；装置包括：

获取模块，用于获取用于训练检索模型的n个样本三元组；样本三元组包括训练样本、与训练样本构成相似样本对的正样本、以及与训练样本不构成相似样本对的负样本；

筛选模块，用于将n个样本三元组的基础特征向量输入嵌入向量网络；根据嵌入向量网络输出的特征向量，筛选出用于训练量化索引网络的第一样本三元组集合；

筛选模块，还用于将n个样本三元组的基础特征向量输入量化索引网络；根据量化索引网络输出的量化索引，筛选出用于训练嵌入向量网络的第二样本三元组集合；

训练模块，用于基于第一样本三元组集合训练量化索引网络，以及基于第二样本三元组集合训练嵌入向量网络。

根据本申请的另一方面，提供了一种对象检索装置，所述装置包括：

获取模块，用于获取查询对象的基础特征向量；

输入模块，用于将基础特征向量输入至量化索引网络和嵌入向量网络；

获取模块，还用于通过量化索引网络获取查询对象的量化索引，以及通过嵌入向量网络获取查询对象的特征向量；

索引模块，用于基于量化索引，从量化码本中索引得到m个候选对象的特征向量；量化码本存储有量化索引与m个候选对象的特征向量之间的映射关系；

计算模块，用于分别计算m个候选对象的特征向量与查询对象的特征向量的第五距离，得到m个第五距离；

筛选模块，用于在m个第五距离由小到大的排序结果中，筛选出排序在前z％的第五距离对应的候选对象。

根据本申请的一个方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如上所述的检索模型的训练方法，和/或，对象检索方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上所述的检索模型的训练方法，和/或，对象检索方法。

根据本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述检索模型的训练方法，和/或，对象检索方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过样本三元组训练嵌入向量网络和量化索引网络，不仅将通过嵌入向量网络筛选得到的第一样本三元组集合作为训练量化索引网络的样本三元组，还将通过量化索引网络筛选得到的第二样本三元组集合作为训练嵌入向量网络的样本三元组。由于不同网络的噪声识别能力不同，嵌入向量网络和量化索引网络能够通过筛选处理去掉样本三元组中的噪声，并使用第一样本三元组集合训练量化索引网络，让量化索引网络能够学习到嵌入向量网络的噪声识别能力，使用第二样本三元组集合训练嵌入向量网络，让嵌入向量网络能够学习到量化索引网络的噪声识别能力，促进嵌入向量网络和量化索引网络的噪声识别能力的共同进步。因此，上述检索模型的训练方法剔除了样本三元组中噪声样本三元组的影响，同时使得量化索引网络与嵌入向量网络对正负样本的预测效果相似，通过双分支预测噪声样本三元组，并使得双分支彼此学习表现优异的样本三元组，实现去噪学习，使得双分支具有相似的预测效果。

附图说明

图1是本申请一个示例性实施例提供的PQ量化的示意图；

图2是本申请一个示例性实施例的检索模型的实施环境的示意图；

图3是本申请一个示例性实施例的检索模型的训练方法的流程图；

图4是本申请一个示例性实施例的检索模型的训练系统的示意图；

图5是本申请另一个示例性实施例的检索模型的训练方法的流程图；

图6是本申请另一个示例性实施例的检索模型的训练方法的流程图；

图7是本申请另一个示例性实施例的检索模型的训练方法的流程图；

图8是本申请另一个示例性实施例的检索模型的训练系统的示意图；

图9是本申请另一个示例性实施例的检索模型的训练方法的流程图；

图10是本申请的一个示例性实施例提供的图像检索方法的流程图；

图11是本申请一个示例性实施例提供的检索模型的使用系统的示意图；

图12是本申请的一个示例性实施例提供的音频检索方法的流程图；

图13是本申请的一个示例性实施例提供的视频检索方法的流程图；

图14是本申请一个示例性实施例提供的检索模型的训练装置的结构框图；

图15是本申请一个示例性实施例提供的对象检索装置的结构框图；

图16是本申请一个示例性实施例提供的计算机设备的结构框图；

图17是本申请一个示例性实施例提供的数据共享系统的示意图；

图18是本申请一个示例性实施例提供的区块链结构的示意图；

图19是本申请一个示例性实施例提供的新区块生成过程的示意图。

具体实施方式

首先，对本申请实施例中涉及的名词进行简单介绍：

PQ量化：在训练阶段，参考图1，针对N个训练样本，假设样本维度为128维，将其切分为4个子空间，则每一个子空间的维度为32维，在每一个子空间中，对特征向量采用k-means(一种聚类算法)对其进行聚类(图1所示256个聚类中心)，针对每一个子空间都能得到一个码本。且每个训练样本的每个子段，都可以用子空间的聚类中心来近似，对应的编码即为聚类中心的数值。最终得到的N个训练样本构成一个索引码本。对于待量化的样本，将其进行相同的切分，然后在各个子空间里逐一找到距离它们最近的聚类中心，然后用聚类中心的数值来表示每个子段，即完成了待量化样本的索引向量。

在检索阶段，将查询图像的特征向量分成4个子段，然后在每个子空间中，计算子段到该子空间中所有聚类中心的距离，可以得到4*256个距离，将这些算好的距离作为距离表。在计算某个样本到查询向量的距离时，比如编码为(124，56，132，222)这个样本到查询向量的距离时，我们分别到距离表中取各个子段对应的距离即可，比如编码为124这个子段，在第1个算出的256个距离里面把编号为124的那个距离取出来就可，所有子段对应的距离取出来后，将这些子段的距离求和相加，即得到该样本到查询样本间的非对称距离。所有距离算好后，召回距离排序靠前的样本。

在本申请中，考虑到PQ量化的方式计算速度较慢，且容易造成相似的基础特征被割裂到两个相邻的聚类中心，采用构建深度符号量化网络的方式。

深度符号量化网络(量化索引网络)：首先，对于N个训练样本的D维特征向量，向量归一化后每维的取值范围为-1～1的浮点数，把D维特征向量压缩到指定位数取值为0、1的二进制码，为符号量化。如，对4维的特征向量归一化后得到(-1，1，0.5，-0.2)，符号量化后得到(0，1，1，0)量化索引。

计算机视觉技术(Computer Vision,CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，计算机文字识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

人工智能云服务：所谓人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI(Artificial Intelligence，人工智能)服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API(Application Program Interface，应用程序接口)接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的检索对象都是在充分授权的情况下获取的。

本申请实施例的方案包括检索模型的训练阶段和检索阶段，图2示出了本申请一个示例性实施例提供的检索模型的训练方法和使用方法所在的计算机系统200。其中，终端220用于训练检索模型和/或使用检索模型，服务器240用于训练检索模型和/或使用检索模型。

终端220安装和运行有支持检索对象的客户端。该客户端可以是支持检索对象的应用程序、网页和小程序中的任意一种。示例性的，被检索的对象包括但不限于图像、视频、音频、文本中的至少一种。终端220可以训练检索模型和/或使用检索模型。可选的，终端220上安装的客户端是操作系统平台(安卓或IOS)上的客户端。终端220可以泛指多个终端中的一个，本实施例仅以终端220举例说明。终端220的设备类型包括：智能手机、智能手表、智能电视、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

终端220通过无线网络或有线网络与服务器240相连。

服务器240包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示例性的，服务器240包括处理器244和存储器242，存储器242又包括接收模块2421、控制模块2422和发送模块2423，接收模块2421用于接收客户端发送的请求，如训练检索模型和使用检索模型；控制模块2422用于控制检索模型的训练和使用；发送模块2423用于向终端发送响应，如向客户端返回检索得到的对象，或返回训练完成的检索模型。服务器240用于为对象检索和/或检索模型训练提供后台服务。可选地，服务器240承担主要计算工作，终端220承担次要计算工作；或者，服务器240承担次要计算工作，终端220和第二终端160承担主要计算工作；或者，服务器240、终端220之间采用分布式计算架构进行协同计算。

下述以检索模型的训练方法、检索方法可以由计算机设备执行进行举例说明，可选的，计算机设备可以为终端或服务器，本申请对检索模型的训练方法和检索方法的执行主体并不加以限制。

为实现通过构建深度量化网络进行对象检索，图3是本申请一个示例性实施例的检索模型的训练方法的流程图。本实施例以该方法由图2所示的计算机设备来执行进行举例说明，其中，检索模型包括嵌入向量网络和量化索引网络，嵌入向量网络用于获取检索对象的特征向量，量化索引网络用于提取检索对象的量化索引，所述方法包括：

步骤320，获取用于训练检索模型的n个样本三元组；

其中，样本三元组包括训练样本、与训练样本构成相似样本对的正样本、以及与训练样本不构成相似样本对的负样本，n为大于1的正整数。

图像检索：通过查询图像的特征向量，得到量化索引，再从量化码本中找到与量化索引匹配的m个特征向量，计算m个特征向量与查询图像的特征向量的距离，选取与排名靠前的距离对应的图像作为最终筛选出的图像，m为正整数。

音频检索：通过查询音频的特征向量，得到量化索引，再从量化码本中找到与量化索引匹配的a个特征向量，计算a个特征向量与查询音频的特征向量的距离，选取与排名靠前的距离对应的音频作为最终筛选出的音频，a为正整数。

视频检索：通过查询视频的特征向量，得到量化索引，再从量化码本中找到与量化索引匹配的b个特征向量，计算b个特征向量与查询视频的特征向量的距离，选取与排名靠前的距离对应的视频作为最终筛选出的视频，b为正整数。

量化索引：指量化得到的用于检索出检索对象的索引。在一些实施例中，以图像为例，一个量化索引对应一类图像，比如，所有的样本图像的图像类别分为：人物类别和动物类别，则存在一个量化索引与人物类型相对应，存在另一个量化索引与动物类别相对应。示例性的，样本图像包括狗图像和猫图像，其中，狗图像的量化索引是(1，0，1)，猫图像的量化索引是(1，1，1)，若检索图像的量化检索是(1，0，1)，则可以通过量化检索确定该检索图像属于狗图像。

量化索引网络：指用于提取检索对象的量化索引的神经网络。

嵌入特征网络：指用于获取检索对象的特征向量的神经网络。可选地，嵌入特征网络对输入的基础特征向量进行二次编码处理，得到三元组特征向量。示例性的，输入的基础特征向量的尺寸为1×2048，嵌入特征网络对输入的基础特征向量进行二次编码处理，减小基础特征向量的尺寸，得到三元组特征向量，三元组特征向量的尺寸为1×64。

可选地，检索对象包括但不限于图像、视频和音频中的至少一种。本申请实施例以检索对象对图像为例进行说明。

需要说明的是，为了更好地训练量化索引网络和尽可能地让检索模型在量化索引和特征向量的距离计算上表现优异，往往采用样本三元组对检索模型进行训练。

步骤340，将n个样本三元组的基础特征向量输入嵌入向量网络；根据嵌入向量网络输出的特征向量的误差，筛选出用于训练量化索引网络的第一样本三元组集合；

基础特征向量：指样本三元组内的图像基础特征的向量，图像基础特征包括但不限于颜色特征、纹理特征、形状特征和空间关系特征。

其中，嵌入向量网络由n个样本三元组的基础特征向量生成n组三元组特征向量，基于n组三元组特征向量筛选出用于训练量化索引网络的第一样本三元组集合。

步骤360，将n个样本三元组的基础特征向量输入量化索引网络；根据量化索引网络输出的量化索引的误差，筛选出用于训练嵌入向量网络的第二样本三元组集合；

量化索引网络由n个样本三元组的基础特征向量生成n组三元组量化索引，筛选出用于训练嵌入向量网络的第二样本三元组集合。

步骤381，基于第一样本三元组集合训练量化索引网络；

步骤382，基于第二样本三元组集合训练嵌入向量网络。

可选地，将第一样本三元组集合输入量化索引网络得到n ₁个第三误差损失；基于n ₁个第三误差损失，训练量化索引网络，n ₁为小于n的正整数。

可选地，将第二样本三元组集合输入嵌入向量网络得到n ₂个第四误差损失；基于n ₂个第四误差损失，训练嵌入向量网络，n ₂为小于n的正整数。

综上所述，通过样本三元组训练嵌入向量网络和量化索引网络，不仅将通过嵌入向量网络筛选得到的第一样本三元组集合作为训练量化索引网络的样本三元组，还将通过量化索引网络筛选得到的第二样本三元组集合作为训练嵌入向量网络的样本三元组，上述检索模型的训练方法剔除了样本三元组中噪声样本三元组的影响，同时使得量化索引网络与嵌入向量网络对正负样本的预测效果相似，通过双分支预测噪声样本三元组，并使得双分支彼此学习表现优异的样本三元组，实现去噪学习，使得双分支具有相似的预测效果。

图4是本申请一个示例性实施例提供的检索模型的训练系统，其中检索模型的训练系统包括嵌入向量网络401和量化索引网络402。

嵌入向量网络401用于由n个样本三元组的基础特征向量生成n组三元组特征向量，三元组特征向量可用于计算样本三元组内训练样本、正样本和负样本之间的相似度距离。

量化索引网络402用于由n个样本三元组的基础特征向量生成n组三元组量化索引，三元组量化索引用于量化样本三元组。

图4所示的检索模型的训练系统，由样本构建得到样本三元组，并将构建得到的n个样本三元组分别输入嵌入向量网络401和量化索引网络402，之后进行筛选样本三元组，通过嵌入向量网络401筛选得到的第一样本三元组集合计算量化索引网络的损失函数，并基于损失函数值训练量化损失网络402；通过量化索引网络402筛选得到的第二样本三元组集合计算嵌入向量网络的损失函数，并基于损失函数值训练嵌入向量网络401。

值得说明的一点是，上述通过两个分支对n个样本三元组进行筛选，原理在于：噪声样本三元组(负样本与训练样本构成正样本对的样本三元组)在嵌入向量网络401和量化索引网络402的表现并不一定一致，如：噪声样本三元组中的负样本与训练样本通过嵌入向量网络401被认为构成正样本对，即产生高损失函数值，噪声样本三元组中的负样本与训练样本通过量化索引网络402被认为构成负样本对，产生低损失函数值。此时若把表现不一致的噪声样本三元组剔除，即可更好地训练嵌入向量网络401和量化索引网络402。

针对步骤320，获取用于训练检索模型的n个样本三元组。

在本申请的检索模型中，为训练嵌入向量网络和量化索引网络需引入样本三元组，样本三元组通过若干个相似样本对构建得到。

相似样本对：在本申请的检索模型中，为训练嵌入向量网络和量化索引网络需引入相似样本对。可选地，相似样本对中包含目标图像，与目标图像极度相似或相同的正样本，例如，视频中相邻的两帧图像可构建相似样本对。可选地，相似样本对中包含目标视频，与目标视频极度相似或相同的正样本。可选地，相似样本对中包含目标音频，与目标音频极度相似或相同的正样本，例如，相邻的两秒音频可构建相似样本对。

样本三元组：在本申请的检索模型中，为生成n个样本三元组，在每批训练(batch)的R个相似样本对中，针对每个相似样本对中的训练样本，从其余的(R-1)个相似样本对的每个相似样本对中随机选择一张图像，分别计算(R-1)张图像的特征向量与训练样本的特征向量的距离，将(R-1)个距离从小到大排序，选取与前n个距离对应的图像与训练样本所在的相似样本对构成n个样本三元组。即，获取用于训练检索模型的n个样本三元组。

示意性的，构建样本三元组的方法如下：

26个相似样本对包括(A，A’)、(B，B’)、(C，C’)、(D，D’)、…、(Z，Z’)，针对相似样本对(A，A’)，A为训练样本(anchor)，A’为正样本(positive)，从其余的相似样本对(B，B’)、(C，C’)、(D，D’)、…、(Z，Z’)中每个相似样本对随机选择一张图像，如选择B、C’、D、E’…、Z，分别计算B、C’、D、E’…、Z的特征向量与训练样本A的特征向量的距离，得到25个距离，将25个距离从小到大排序，选取与前20个距离对应的图像与训练样本A所在的相似样本对(A，A’)构成20个样本三元组。即，获取用于训练检索模型的20个样本三元组。

综上所述，上述方法实现了由相似样本对构建n个样本三元组，使得得到的n个样本三元组可用于本申请提供的检索模型的训练。

图5示出了本申请一个示例性实施例提供的检索模型的训练方法，以该方法应用于图2所示的计算机设备为例进行说明，其中步骤320、步骤360、步骤381和步骤382均与图3所示一致。

针对步骤340，将n个样本三元组的基础特征向量输入嵌入向量网络；根据嵌入向量网络输出的特征向量的误差，筛选出用于训练量化索引网络的第一样本三元组集合。

步骤340可以包括以下步骤：

步骤341，获取嵌入向量网络对n个样本三元组输出的n组三元组特征向量；

通过将n个样本三元组输入至嵌入向量网络401，嵌入向量网络401输出n组三元组特征向量。

步骤342，计算n组三元组特征向量对应的n个第一误差损失；

其中，计算n组三元组特征向量对应的n个第一误差损失包括：

针对每组三元组特征向量，计算训练样本的特征向量和正样本的特征向量之间的第一距离；针对每组三元组特征向量，计算训练样本的特征向量和负样本的特征向量之间的第二距离；计算第一距离和第二距离之间的差值与第一距离阈值之间的第一误差损失，第一距离阈值是训练样本与正样本之间的距离和训练样本与负样本之间的距离的差值的阈值。

示意性的，在每组三元组(a，p，n)中，对三元组特征向量进行L2范式归一化，然后计算第一误差损失。a(anchor)表示训练样本，p(positive)表示正样本，n(nagative)表示负样本。

第一误差损失的计算如下：

l _tri＝max(||X _a-X _p||-||X _a-X _n||+α，0)； (1)

其中，l _tri表示第一误差损失，X _a表示训练样本的特征向量，X _p表示正样本的特征向量，X _n表示负样本的特征向量，α表示第一距离阈值，||X _a-X _p||表示第一距离、||X _a-X _n||表示第二距离，可选的，α值为4，表示训练样本的特征向量与负样本的特征向量之间的距离，比，训练样本的特征向量与正样本的特征向量之间的距离大于4；采用L2归一化的目的是使得三元组样本的特征空间在0～1范围中，避免特征空间过大不利于优化训练检索模型。

步骤343，在n个第一误差损失由小到大的排序结果中，筛选出排序在第一选取范围内的n ₁个第一误差损失所对应的样本三元组，添加至用于训练量化索引网络的第一样本三元组集合。

通过步骤342，可以获得n个第一误差损失，将n个第一误差损失进行由小到大的排序，筛选出排序在第一选取范围内的n ₁个第一误差损失所对应的样本三元组，添加至用于训练量化索引网络的第一样本三元组集合，其中，n ₁为小于n的正整数。

可选的，在n个第一误差损失由小到大的排序结果中，根据预设的x值，筛选出排序在前x％的n ₁个第一误差损失所对应的样本三元组，添加至用于训练量化索引网络的第一样本三元组集合。示意性的，x值是基于噪声样本三元组占n个样本三元组的比例设置的，可选的，该比例基于预测或者标定得到。示意性的，x值略大于噪声样本三元组所占n个样本三元组的比例。x为正数。

示意性的，n个第一误差损失的排序结果构成Lem_list，选取Lem_list中排在前85％的n ₁个第一误差损失所对应的n ₁个样本三元组，作为第一样本三元组集合。

值得说明的一点是，在训练检索模型时，根据多次试验的结果可预测n个样本三元组中存在10％的噪声样本三元组(即n个样本三元组中对某个相似样本对而言，可能存在10％的其他相似样本对中的图像能与训练样本构成正样本对)，则选取Lem_list中排在前85％的n ₁个第一误差损失所对应的n ₁个样本三元组，作为第一样本三元组集合。但是，在每轮(epoch)检索模型的训练中，并不能始终保证噪声样本三元组都排在最后的10％中，尤其在刚开始训练的前几轮，故少取5％可一定程度避免取到噪声样本三元组。

综上所述，上述方法通过设计嵌入向量网络的损失函数，实现了计算n个样本三元组的n组三元组特征向量的损失函数值，并基于损失函数值筛选用于训练量化索引网络的第一样本三元组集合，进一步采用更干净的样本三元组优化量化索引网络的量化效果。

图6示出了本申请一个示例性实施例提供的检索模型的训练方法，以该方法应用于图2所示的计算机设备为例进行说明，其中步骤320、步骤340、步骤381和步骤382均与图3所示一致。

针对步骤360，将n个样本三元组的基础特征向量输入量化索引网络；根据量化索引网络输出的量化索引的误差，筛选出用于训练嵌入向量网络的第二样本三元组集合；

步骤360可以包括以下步骤：

步骤361，获取量化索引网络对n个样本三元组输出的n组三元组量化索引；

通过将n个样本三元组的基础特征向量输入量化索引网络，输出n组三元组量化索引。

步骤362，计算n组三元组量化索引对应的n个第二误差损失；

其中，计算n组三元组量化索引对应的n个第二误差损失的方法包括：

针对每组三元组量化索引，计算三元组量化索引的第一三元组损失；针对每组三元组量化索引，计算三元组量化索引的第一量化误差损失；对第一三元组损失和第一量化误差损失进行加权求和，得到第二误差损失。

计算第一三元组损失，示意性的，将三元组量化索引通过激活函数激活，再计算量化索引的第一三元组损失，为保证样本三元组在量化空间可区分，故样本三元组的训练样本与负样本的距离需要足够大，可选的，设置margin(公式(1)中的α)为160。

第一三元组损失的计算方式与上述第一误差损失的计算方式类似，不再赘述，此处的区别在于三元组量化索引的维度与三元组特征向量的维度不一致。

量化索引网络402输出的n组三元组量化索引，可选的，三元组量化索引为256维，通过激活函数将每维转化为(-1，1)的值，之后再进行符号量化，最后得到256维的三元组量化索引。

计算第一量化误差损失，为更好的训练量化索引网络，欲采用的三元组量化索引的每维数值尽可能接近-1或1(若每维数值处于临界值，即0附近，容易造成相似的基础特征向量量化至不同段)，因此设置量化损失函数如下式(2)(3)，首先计算：

其中u _i为未进行符号量化(小于0的数值量化为0，大于0的数值量化为1)的三元组量化索引每维的数值，u _i的范围为(-1，1)，b _i为转化后三元组量化索引每维的数值(-1或1)；

然后计算b _i和u _i之间的回归损失，

其中，L _coding为第一量化误差损失。

其中上述激活函数可设置为Tanh函数或sgn函数，值得说明的一点是，sgn函数在0位置是不可导的(+0和-0)，即没法进行梯度计算(从而不能用于基于sgd梯度回传的深度学习中)，而采用Tanh激活则可导并且可映射到-1到1之间。另外激活函数也可以采用sigmoid(激活到0～1之间)，然后把0、1作为量化的目标(而非-1、1)。其中tanh由于更快能获得(-1，1)，训练效果更好。

计算第二误差损失，基于上述已求得的第一三元组损失和第一量化误差损失，进行加权求和可得第二误差损失。

L _q＝w ₂₁L _triplet+w ₂₂L _coding； (4)

其中，此时L _q输出为第二误差损失，L _triplet为第一三元组损失，L _coding为第一量化误差损失，w ₂₁和w ₂₂为权重，可选的，由于第一量化误差损失收敛比第一三元组损失收敛快，为了保证第一三元组损失在整体第二误差损失中处于主导地位，从而保证嵌入向量网络始终具有相似度度量的能力，故此处w ₂₁设为1，w ₂₂设为0.5。

值得说明的一点是，上述w ₂₁和w ₂₂的值并不固定，只需保证w ₂₂的值小于w ₂₁即可。

步骤363，在n个第二误差损失由小到大的排序结果中，筛选出排序在第二选取范围内的n ₂个第二误差损失所对应的样本三元组，添加至用于训练嵌入向量网络的第二样本三元组集合。

通过步骤362，可以获得n个第二误差损失，将n个第二误差损失进行由小到大的排序，筛选出排序在第二选取范围内的n ₂个第二误差损失所对应的样本三元组，添加至用于训练量化索引网络的第二样本三元组集合。

可选的，在n个第二误差损失由小到大的排序结果中，根据预设的y值，筛选出排序在前y％的n ₂个第二误差损失所对应的样本三元组，添加至用于训练量化索引网络的第二样本三元组集合。示意性的，y值是基于噪声样本三元组占n个样本三元组的比例设置的，可选的，该比例基于预测或者标定得到。示意性的，y值略大于噪声样本三元组所占n个样本三元组的比例。y为正数。

示意性的，n个第二误差损失的排序结果构成Lq_list，选取Lq_list中排在前85％的n ₂个第二误差损失所对应的n ₂个样本三元组，作为第二样本三元组集合，n ₂为小于n的正整数。

值得说明的一点是，在训练检索模型时，根据多次试验的结果可预测n个样本三元组中存在10％的噪声样本三元组(即n个样本三元组中对某个相似样本对而言，可能存在10％的其他相似样本对中的图像能与训练样本构成正样本对)，则选取Lq_list中排在前85％的n ₂个第二误差损失所对应的n ₂个样本三元组，作为第二样本三元组集合。但是，在每轮(epoch)检索模型的训练中，并不能始终保证噪声样本三元组都排在最后的10％中，尤其在刚开始训练的前几轮，故少取5％可一定程度避免取到噪声样本三元组。

综上所述，上述方法通过设计量化索引网络的损失函数，实现了计算n个样本三元组的n组三元组量化索引的损失函数值，并基于损失函数值筛选用于训练嵌入向量网络的第二样本三元组集合，进一步采用更干净的样本三元组优化嵌入向量网络的特征向量的计算效果。

图7示出了本申请一个示例性实施例提供的检索模型的训练方法，以该方法应用于图2所示的计算机设备为例进行说明，其中步骤320、步骤340和步骤360均与图3所示一致。

针对步骤381，基于第一样本三元组集合训练量化索引网络，包括：

步骤381-1，将第一样本三元组集合输入量化索引网络得到n ₁个第三误差损失；

其中，第一样本三元组集合包括n ₁个样本三元组，第一样本三元组是基于嵌入向量网络401输出的n组三元组特征向量的第一误差损失排序得到的，具体参考上述“针对步骤340”。

其中，将第一样本三元组集合输入量化索引网络得到n ₁个第三误差损失包括：

针对第一样本三元组集合的每个样本三元组，通过量化索引网络计算三元组特征向量的第二三元组损失，其中，三元组特征向量是嵌入向量网络输出的特征向量；针对第一样本三元组集合的每个样本三元组，通过量化索引网络计算三元组特征向量的第二量化误差损失；对第二三元组损失和第二量化误差损失进行加权求和，得到第三误差损失。

计算n ₁个第三误差损失的方法与上述步骤362中计算n个第二误差损失的方式相类似，不再赘述。

步骤381-2，基于n ₁个第三误差损失，训练量化索引网络。

计算机设备基于n ₁个第三误差损失，训练量化索引网络。

针对步骤382，基于第二样本三元组集合训练嵌入向量网络，包括：

步骤382-1，将第二样本三元组集合输入嵌入向量网络得到n ₂个第四误差损失；

其中，第二样本三元组集合包括n ₂个样本三元组，第二样本三元组是基于量化索引网络402输出的n组三元组量化索引的第二误差损失排序得到的，具体参考上述“针对步骤360”。

其中，将第二样本三元组集合输入嵌入向量网络得到n ₂个第四误差损失包括：

针对第二样本三元组集合的每个样本三元组，通过嵌入向量网络计算训练样本的特征向量和正样本的特征向量之间的第三距离；

针对第二样本三元组集合的每个样本三元组，通过嵌入向量网络计算训练样本的特征向量和负样本的特征向量之间的第四距离；

计算第三距离和第四距离之间的差值与第二距离阈值之间的第四误差损失，第二距离阈值是训练样本与正样本之间的距离和训练样本与负样本的距离的差值的阈值。

计算n ₂个第四误差损失的方法与上述步骤342中计算n个第一误差损失的方式相类似，不再赘述。

步骤382-2，基于n ₂个第四误差损失，训练嵌入向量网络。

计算机设备基于n ₂个第四误差损失，训练嵌入向量网络。

综上所述，采用第一样本三元组集合训练量化索引网络，以及采用第二样本三元组集合训练嵌入向量网络，优化了量化索引网络的量化效果和嵌入向量网络的特征向量计算效果。

图8示出了本申请一个示例性实施例提供的检索模型的训练系统，其比图4所示的检索模型的训练系统多增加了基础特征网络403。

基于图3所示的检索模型的训练方法，在步骤320和步骤340之间还包括：通过基础特征网络，获取n个样本三元组的基础特征向量。

基础特征网络403用于提取输入的样本三元组的图像基础特征，基础特征包括但不限于颜色特征、纹理特征、形状特征和空间关系特征。

图9示出了本申请一个示例性实施例提供的检索模型的训练方法的示意图，以该方法应用于图2所示的计算机设备进行举例说明，该方法包括：

步骤320，获取用于训练检索模型的n个样本三元组；

计算机设备获取用于训练检索模型的n个样本三元组。

关于步骤320的详细介绍，可参考上述“针对步骤320”。

步骤330，通过基础特征网络，获取n个样本三元组的基础特征向量；

通过基础特征网络，计算机设备获取n个样本三元组的基础特征向量。

计算机设备获取嵌入向量网络对n个样本三元组输出的n组三元组特征向量。

步骤342，计算n组三元组特征向量对应的n个第一误差损失；

计算机设备计算n组三元组特征向量对应的n个第一误差损失。

在n个第一误差损失由小到大的排序结果中，计算机设备筛选出排序在第一选取范围内的n ₁个第一误差损失所对应的样本三元组，添加至用于训练量化索引网络的第一样本三元组集合。

关于步骤341、步骤342和步骤343的详细介绍，可参考图5所示的实施例。

计算机设备将第一样本三元组集合输入量化索引网络得到n ₁个第三误差损失。其中，将第一样本三元组集合输入量化索引网络得到n ₁个第三误差损失包括：

针对第一样本三元组集合的每个样本三元组，计算机设备计算三元组特征向量的第二三元组损失；针对第一样本三元组集合的每个样本三元组，计算机设备计算三元组特征向量的第二量化误差损失；计算机设备对第二三元组损失和第二量化误差损失进行加权求和，得到第三误差损失。

步骤381-2，基于n ₁个第三误差损失，训练量化索引网络；

计算机设备基于n ₁个第三误差损失，训练量化索引网络。

计算机设备通过将n个样本三元组的基础特征向量输入量化索引网络，输出n组三元组量化索引。

步骤362，计算n组三元组量化索引对应的n个第二误差损失；

计算机设备计算n组三元组量化索引对应的n个第二误差损失的方法包括：

针对每组三元组量化索引，计算机设备计算三元组量化索引的第一三元组损失；针对每组三元组量化索引，计算机设备计算三元组量化索引的第一量化误差损失；计算机设备对第一三元组损失和第一量化误差损失进行加权求和，得到第二误差损失。

步骤363，在n个第二误差损失由小到大的排序结果中，筛选出排序在第二选取范围内的n ₂个第二误差损失所对应的样本三元组，添加至用于训练嵌入向量网络的第二样本三元组集合；

计算机设备在n个第二误差损失由小到大的排序结果中，筛选出排序在前y％的n ₂个第二误差损失所对应的样本三元组，添加至用于训练量化索引网络的第二样本三元组集合。

关于步骤361、步骤362和步骤363的详细介绍，可参考图6所示的实施例。

计算机设备将第二样本三元组集合输入嵌入向量网络得到n ₂个第四误差损失。

步骤382-2，基于n ₂个第四误差损失，训练嵌入向量网络。

计算机设备基于n ₂个第四误差损失，训练嵌入向量网络。

关于步骤381-1、步骤381-2、步骤382-1和步骤382-2的详细介绍，可参考图7所示的实施例。

综上所述，通过样本三元组训练嵌入向量网络和量化索引网络，不仅将通过嵌入向量网络筛选得到的第一样本三元组集合作为训练量化索引网络的样本三元组，还将通过量化索引网络筛选得到的第二样本三元组集合作为训练嵌入向量网络的样本三元组，上述方法使得嵌入向量网络支持计算m个候选图像的特征向量与查询图像的特征向量之间的距离，还使得量化索引网络得到的查询图像的量化索引更加准确。上述检索模型的训练方法剔除了噪声样本三元组，同时使得量化索引网络与嵌入向量网络对正负样本的预测效果相似，通过双分支预测噪声样本三元组，并使得双分支彼此学习表现优异的样本三元组，实现去噪学习，使得双分支具有相似的预测效果。

基于上述，已完整论述了本申请的技术方案，接下来介绍检索模型的相关训练参数。

针对基础特征网络，可选的，基础特征网络是resnet101网络(一种卷积神经网络)，即，基础特征网络可采用resnet101网络训练，具体参数详见下表1，其中基础特征网络的Conv1-Conv5采用在ImageNet(大型通用物体识别开源数据集)数据集上预训练的ResNet101的参数，可选的，基础特征网络还可以采用resnet18CNN网络。

表1

针对嵌入向量网络，采用如下表2的参数训练，嵌入向量网络也可称为Embedding网络，嵌入向量网络采用方差为0.01，均值为0的高斯分布进行初始化，可选的，嵌入向量网络还可以采用多层Fc连接，嵌入向量网络输出64维向量。

表2

针对量化索引网络，采用如下表3所示的参数训练，量化索引网络采用方差为0.01，均值为0的高斯分布进行初始化。

表3

针对检索模型：

设置学习参数：在更新检索模型时，第一阶段训练嵌入向量网络时需要更新底层基础特征，设置学习参数如表1和表2所示。第二阶段训练量化索引网络时，不需要更新基础特征网络和嵌入向量网络。

设置学习率：基础特征网络、嵌入向量网络和量化索引网络均采用lr1＝0.005学习率，每经过10轮迭代后lr变为原来的0.1倍。

设置学习过程：对全量样本，进行epoch轮迭代，每轮迭代分批次处理全量样本，直到某epoch下平均epoch损失(由上述第三误差损失和第四误差损失加权求和得到的检索模型的总损失)不再下降。

设置每轮迭代中的具体操作：将所有的相似样本对按批尺寸(batch-size)分为Nb个批次，对于每批次，获取到上述n个样本三元组。

设置模型参数更新：采用SGD(一种梯度下降方法)随机梯度下降法，把上一批次得到的损失函数值进行梯度后向计算得到嵌入向量网络和量化索引网络的参数的更新值，并更新网络。

为实现通过构建深度量化网络进行对象检索，可选地，实现对象检索包括以下步骤：1、获取查询对象的基础特征向量；2、将基础特征向量输入至量化索引网络和嵌入向量网络；3、通过量化索引网络获取查询对象的量化索引，以及通过嵌入向量网络获取查询对象的特征向量；4、、基于量化索引，从量化码本中索引得到m个候选对象的特征向量；量化码本存储有量化索引与m个候选对象的特征向量之间的映射关系，m为正整数；5、分别计算m个候选对象的特征向量与查询对象的特征向量的第五距离，得到m个第五距离；6、在m个第五距离由小到大的排序结果中，根据预设的z值，筛选出排序在前z％的第五距离对应的候选对象，z为正数。接下来，以查询对象是查询图像为例进行具体说明。图10是本申请一个示例性实施例提供的图像检索方法的流程图。本实施例以该方法由图2所示的计算机设备来执行进行举例说明，所述方法包括：

步骤1001，获取查询图像的基础特征向量；

查询图像是用于图像检索的图像。

在一个实施例中，检索模型还包括基础特征网络，通过基础特征网络，获取n个样本三元组的基础特征向量，示意性的，图11示出了本申请一个示例性实施例提供的检索模型的使用系统的示意图，其中，将查询图像1101输入基础特征网络403，即可获的查询图像1101的基础特征向量。

步骤1002，将基础特征向量输入至量化索引网络和嵌入向量网络；

结合参考图11，将查询图像1101的基础特征向量输入至量化索引网络402和嵌入向量网络401。

步骤1003，通过量化索引网络获取查询图像的量化索引，以及通过嵌入向量网络获取查询图像的特征向量；

结合参考图11，通过量化索引网络402获取查询图像1101的量化索引(1，0，0)，以及，通过嵌入向量网络401获取查询图像1101的特征向量(0.2，0.8，0.3，0.3)。

步骤1004，基于量化索引，从量化码本中索引得到m个候选图像的特征向量；

其中，量化码本存储有量化索引与m个候选图像的特征向量之间的映射关系，m为正整数。

结合参考图11，基于量化索引(1，0，0)，从量化码本中索引得到3个候选图像的特征向量：(0.2，0.7，0.3，0.3)、(0.1，0.5，0.2，0.2)和(0.2，0.4，0.2，0.3)。

图11还示出了本申请一个示例性实施例提供的量化码本的构建过程，将图像库中的所有图像进行特征提取，得到量化索引和特征向量。

在一个实施例中，量化码本是由以下步骤构建的：

第一、对图像库中任意一个图像i输入上述检索模型，其中可由嵌入向量网络401得到特征向量e，由量化索引网络402得到量化索引q(q是经符号函数得到的每维度为0或1的向量)，纪录图像i嵌入向量网络401的映射表T[i:e](其中i表示图像的序号，e表示图像i经嵌入向量网络输出的特征向量)。

第二、将具有相同q的图像序号记录到q的映射表Linvert[i:q]，如，{q1：[图像1，图像2，图像5]，q2：[图像3]，q3：[图像4]}，保存所有量化索引的列表Lindex：[q1，q2，q3]。

第三、对于新加入图像库的图像i’，可以计算其qi’和ei’，当qi’存在于列表Lindex中时，直接把i’加入到Lindex下qi’对应的映射表Linvert中，把图像序号i’和ei’加入到T映射表(新增一个序号与特征的记录，如i’：ei’)。

上述量化索引的列表Lindex、q的映射表Linvert和T列表共同组成了一个量化码本。

在一个实施例中，基于量化索引，从量化码本中索引得到m个候选图像的特征向量包括：计算得到查询图像的量化索引，从列表Lindex中确定与查询图像的量化索引的汉明距离小于阈值的若干个量化索引，并从映射表Linvert中确定与若干个量化索引对应的m个候选图像，通过T映射表中确定m个候选图像的特征向量。

步骤1005，分别计算m个候选图像的特征向量与查询图像的特征向量的第五距离，得到m个第五距离；

结合参考图11，分别计算查询图像1101的特征向量(0.2，0.8，0.3，0.3)与3个候选图像的特征向量：(0.2，0.7，0.3，0.3)、(0.1，0.5，0.2，0.2)和(0.2，0.4，0.2，0.3)的第五距离，得到3个第五距离。第五距离为欧式距离。

步骤1006，在m个第五距离由小到大的排序结果中，根据预设的z值，筛选出排序在前z％的第五距离对应的候选图像。

结合参考图11，在3个第五距离由小到大的排序结果中，根据预设的z值，筛选出排序在前z％的第五距离对应的候选图像，其中，z％可由预先配置检索模型得到，可选的，根据检索需求可合理设置z值，使得筛选得到的候选图像满足检索模型的检索预期。z为正数。

在一个实施例中，计算机设备还将筛选得到的候选图像发送至运行有图像检索功能的客户端。

综上所述，上述方法通过包含有基础特征网络、嵌入向量网络和量化索引网络的检索模型，可进行查询图像与m个候选图像的距离排序并筛选出排序靠前的图像，上述方法不仅实现了筛选得到的图像更接近查询图像，还避免了在确定m个候选图像时丢失或额外增加候选图像。

图12是本申请一个示例性实施例提供的音频检索方法的流程图。本实施例以该方法由图2所示的计算机设备来执行进行举例说明，所述方法包括：

步骤1201，获取查询音频的基础特征向量；

查询音频是用于音频检索的音频。

在一个实施例中，检索模型还包括基础特征网络，通过基础特征网络，获取n个样本三元组的基础特征向量。

步骤1202，将基础特征向量输入至量化索引网络和嵌入向量网络；

示例性的，将查询音频的基础特征向量输入至量化索引网络和嵌入向量网络。

步骤1203，通过量化索引网络获取查询音频的量化索引，以及通过嵌入向量网络获取查询音频的特征向量；

示例性的，通过量化索引网络获取查询音频的量化索引(1，0，0)，以及，通过嵌入向量网络获取查询音频的特征向量(0.2，0.8，0.3，0.3)。

步骤1204，基于量化索引，从量化码本中索引得到m个候选音频的特征向量；

其中，量化码本存储有量化索引与m个候选音频的特征向量之间的映射关系，m为正整数。

示例性的，基于量化索引(1，0，0)，从量化码本中索引得到3个候选音频的特征向量：(0.2，0.7，0.3，0.3)、(0.1，0.5，0.2，0.2)和(0.2，0.4，0.2，0.3)。

在一个实施例中，量化码本是由以下步骤构建的：

第一、对音频库中任意一个音频i输入上述检索模型，其中可由嵌入向量网络401得到特征向量e，由量化索引网络402得到量化索引q(q是经符号函数得到的每维度为0或1的向量)，纪录音频i嵌入向量网络401的映射表T[i:e](其中i表示音频的序号，e表示音频i经嵌入向量网络输出的特征向量)。

第二、将具有相同q的音频序号记录到q的映射表Linvert[i:q]，如，{q1：[音频1，音频2，音频5]，q2：[音频3]，q3：[音频4]}，保存所有量化索引的列表Lindex：[q1，q2，q3]。

第三、对于新加入音频库的音频i’，可以计算其qi’和ei’，当qi’存在于列表Lindex中时，直接把i’加入到Lindex下qi’对应的映射表Linvert中，把音频序号i’和ei’加入到T映射表 (新增一个序号与特征的记录，如i’：ei’)。

在一个实施例中，基于量化索引，从量化码本中索引得到m个候选音频的特征向量包括：计算得到查询音频的量化索引，从列表Lindex中确定与查询音频的量化索引的汉明距离小于阈值的若干个量化索引，并从映射表Linvert中确定与若干个量化索引对应的m个候选音频，通过T映射表中确定m个候选音频的特征向量。

步骤1205，分别计算m个候选音频的特征向量与查询音频的特征向量的第五距离，得到m个第五距离；

示例性的，分别计算查询音频1101的特征向量(0.2，0.8，0.3，0.3)与3个候选音频的特征向量：(0.2，0.7，0.3，0.3)、(0.1，0.5，0.2，0.2)和(0.2，0.4，0.2，0.3)的第五距离，得到3个第五距离。第五距离为欧式距离。

步骤1206，在m个第五距离由小到大的排序结果中，根据预设的z值，筛选出排序在前z％的第五距离对应的候选音频。

示例性的，在3个第五距离由小到大的排序结果中，根据预设的z值，筛选出排序在前z％的第五距离对应的候选音频，其中，z％可由预先配置检索模型得到，可选的，根据检索需求可合理设置z值，使得筛选得到的候选音频满足检索模型的检索预期。z为正数。

在一个实施例中，计算机设备还将筛选得到的候选音频发送至运行有音频检索功能的客户端。

综上所述，上述方法通过包含有基础特征网络、嵌入向量网络和量化索引网络的检索模型，可进行查询音频与m个候选音频的距离排序并筛选出排序靠前的音频，上述方法不仅实现了筛选得到的音频更接近查询音频，还避免了在确定m个候选音频时丢失或额外增加候选音频。

图13是本申请一个示例性实施例提供的视频检索方法的流程图。本实施例以该方法由图2所示的计算机设备来执行进行举例说明，所述方法包括：

步骤1301，获取查询视频的基础特征向量；

查询视频是用于视频检索的视频。

步骤1302，将基础特征向量输入至量化索引网络和嵌入向量网络；

示例性的，将查询视频的基础特征向量输入至量化索引网络和嵌入向量网络。

步骤1303，通过量化索引网络获取查询视频的量化索引，以及通过嵌入向量网络获取查询视频的特征向量；

示例性的，通过量化索引网络获取查询视频的量化索引(1，0，0)，以及，通过嵌入向量网络获取查询视频的特征向量(0.2，0.8，0.3，0.3)。

步骤1304，基于量化索引，从量化码本中索引得到m个候选视频的特征向量；

其中，量化码本存储有量化索引与m个候选视频的特征向量之间的映射关系，m为正整数。

示例性的，基于量化索引(1，0，0)，从量化码本中索引得到3个候选视频的特征向量：(0.2，0.7，0.3，0.3)、(0.1，0.5，0.2，0.2)和(0.2，0.4，0.2，0.3)。

在一个实施例中，量化码本是由以下步骤构建的：

第一、对视频库中任意一个视频i输入上述检索模型，其中可由嵌入向量网络401得到特征向量e，由量化索引网络402得到量化索引q(q是经符号函数得到的每维度为0或1的向量)，纪录视频i嵌入向量网络401的映射表T[i:e](其中i表示视频的序号，e表示视频i经嵌入向量网络输出的特征向量)。

第二、将具有相同q的视频序号记录到q的映射表Linvert[i:q]，如，{q1：[视频1，视频2，视频5]，q2：[视频3]，q3：[视频4]}，保存所有量化索引的列表Lindex：[q1，q2，q3]。

第三、对于新加入视频库的视频i’，可以计算其qi’和ei’，当qi’存在于列表Lindex中时，直接把i’加入到Lindex下qi’对应的映射表Linvert中，把视频序号i’和ei’加入到T映射表(新增一个序号与特征的记录，如i’：ei’)。

在一个实施例中，基于量化索引，从量化码本中索引得到m个候选视频的特征向量包括：计算得到查询视频的量化索引，从列表Lindex中确定与查询视频的量化索引的汉明距离小于阈值的若干个量化索引，并从映射表Linvert中确定与若干个量化索引对应的m个候选视频，通过T映射表中确定m个候选视频的特征向量。

步骤1305，分别计算m个候选视频的特征向量与查询视频的特征向量的第五距离，得到m个第五距离；

示例性的，分别计算查询视频1101的特征向量(0.2，0.8，0.3，0.3)与3个候选视频的特征向量：(0.2，0.7，0.3，0.3)、(0.1，0.5，0.2，0.2)和(0.2，0.4，0.2，0.3)的第五距离，得到3个第五距离。第五距离为欧式距离。

步骤1306，在m个第五距离由小到大的排序结果中，根据预设的z值，筛选出排序在前z％的第五距离对应的候选视频。

示例性的，在3个第五距离由小到大的排序结果中，根据预设的z值，筛选出排序在前z％的第五距离对应的候选视频，其中，z％可由预先配置检索模型得到，可选的，根据检索需求可合理设置z值，使得筛选得到的候选视频满足检索模型的检索预期。z为正数。

在一个实施例中，计算机设备还将筛选得到的候选视频发送至运行有视频检索功能的客户端。

综上所述，上述方法通过包含有基础特征网络、嵌入向量网络和量化索引网络的检索模型，可进行查询视频与m个候选视频的距离排序并筛选出排序靠前的视频，上述方法不仅实现了筛选得到的视频更接近查询视频，还避免了在确定m个候选视频时丢失或额外增加候选视频。

图14是本申请一个示例性实施例提供的检索模型的训练装置的结构框图，检索模型包括嵌入向量网络和量化索引网络，嵌入向量网络用于获取图像的特征向量，量化索引网络用于提取图像的量化索引，该检索模型的训练装置包括：

获取模块1401，用于获取用于训练检索模型的n个样本三元组；样本三元组包括训练样本、与训练样本构成相似样本对的正样本、以及与训练样本不构成相似样本对的负样本，n为大于1的正整数；

筛选模块1402，用于将n个样本三元组的基础特征向量输入嵌入向量网络；根据嵌入向量网络输出的特征向量的误差，筛选出用于训练量化索引网络的第一样本三元组集合；

筛选模块1402，还用于将n个样本三元组的基础特征向量输入量化索引网络；根据量化索引网络输出的量化索引的误差，筛选出用于训练嵌入向量网络的第二样本三元组集合；

训练模块1403，用于基于第一样本三元组集合训练量化索引网络，以及基于第二样本三元组集合训练嵌入向量网络。

在一个可选的实施例中，筛选模块1402，还用于获取嵌入向量网络对n个样本三元组输出的n组三元组特征向量。

在一个可选的实施例中，筛选模块1402，还用于计算n组三元组特征向量对应的n个第一误差损失。

在一个可选的实施例中，筛选模块1402，还用于在n个第一误差损失由小到大的排序结果中，筛选出排序在第一选取范围内的n ₁个第一误差损失所对应的样本三元组，添加至用于训练量化索引网络的第一样本三元组集合。

在一个可选的实施例中，筛选模块1402，还用于针对每组三元组特征向量，计算训练样本的特征向量和正样本的特征向量之间的第一距离。

在一个可选的实施例中，筛选模块1402，还用于针对每组三元组特征向量，计算训练样本的特征向量和负样本的特征向量之间的第二距离。

在一个可选的实施例中，筛选模块1402，还用于计算第一距离和第二距离之间的差值与第一距离阈值之间的第一误差损失，第一距离阈值是训练样本与正样本之间的距离和训练样本与负样本之间的距离的差值的阈值。

在一个可选的实施例中，筛选模块1402，还用于在n个第一误差损失由小到大的排序结果中，根据预设的x值，筛选出排序在前x％的n ₁个第一误差损失所对应的样本三元组，添加至用于训练量化索引网络的第一样本三元组集合，n ₁为小于n的正整数。x为正数。

在一个可选的实施例中，筛选模块1402，还用于获取量化索引网络对n个样本三元组输出的n组三元组量化索引。

在一个可选的实施例中，筛选模块1402，还用于计算n组三元组量化索引对应的n个第二误差损失。

在一个可选的实施例中，筛选模块1402，还用于在n个第二误差损失由小到大的排序结果中，筛选出排序在第二选取范围内的n ₂个第二误差损失所对应的样本三元组，添加至用于训练嵌入向量网络的第二样本三元组集合，n ₂为小于n的正整数。

在一个可选的实施例中，筛选模块1402，还用于针对每组三元组量化索引，计算三元组量化索引的第一三元组损失。

在一个可选的实施例中，筛选模块1402，还用于针对每组三元组量化索引，计算三元组量化索引的第一量化误差损失。

在一个可选的实施例中，筛选模块1402，还用于对第一三元组损失和第一量化误差损失进行加权求和，得到第二误差损失。

在一个可选的实施例中，筛选模块1402，还用于在n个第二误差损失由小到大的排序结果中，根据预设的y值，筛选出排序在前y％的n ₂个第二误差损失所对应的样本三元组，添加至用于训练量化索引网络的第二样本三元组集合。y为正数。

在一个可选的实施例中，训练模块1403，还用于将第一样本三元组集合输入量化索引网络得到n ₁个第三误差损失。

在一个可选的实施例中，训练模块1403，还用于基于n ₁个第三误差损失，训练量化索引网络。

在一个可选的实施例中，训练模块1403，还用于针对第一样本三元组集合的每个样本三元组，计算三元组特征向量的第二三元组损失。

在一个可选的实施例中，训练模块1403，还用于针对第一样本三元组集合的每个样本三元组，计算三元组特征向量的第二量化误差损失。

在一个可选的实施例中，训练模块1403，还用于对第二三元组损失和第二量化误差损失进行加权求和，得到第三误差损失。

在一个可选的实施例中，训练模块1403，还用于将第二样本三元组集合输入嵌入向量网络得到n ₂个第四误差损失。

在一个可选的实施例中，训练模块1403，还用于基于n ₂个第四误差损失，训练嵌入向量网络。

在一个可选的实施例中，训练模块1403，还用于针对第二样本三元组集合的每个样本三元组，计算训练样本的特征向量和正样本的特征向量之间的第三距离。

在一个可选的实施例中，训练模块1403，还用于针对第二样本三元组集合的每个样本三元组，计算训练样本的特征向量和负样本的特征向量之间的第四距离。

在一个可选的实施例中，训练模块1403，还用于计算第三距离和第四距离之间的差值与第二距离阈值之间的第四误差损失，第二距离阈值是训练样本与正样本之间的距离和训练样本与负样本的距离的差值的阈值。

在一个可选的实施例中，检索模型还包括基础特征网络。

在一个可选的实施例中，获取模块1401，还用于通过基础特征网络，获取n个样本三元组的基础特征向量。

综上所述，上述检索模型的训练装置通过样本三元组训练嵌入向量网络和量化索引网络，不仅将通过嵌入向量网络筛选得到的第一样本三元组集合作为训练量化索引网络的样本三元组，还将通过量化索引网络筛选得到的第二样本三元组集合作为训练嵌入向量网络的样本三元组，上述检索模型的训练装置剔除了样本三元组中噪声样本三元组的影响，同时使得量化索引网络与嵌入向量网络对正负样本的预测效果相似，通过双分支预测噪声样本三元组，并使得双分支彼此学习表现优异的样本三元组，实现去噪学习，使得双分支具有相似的预测效果。

图15示出了本申请一个示例性实施例提供的对象检索装置的结构框图，该装置包括：

获取模块1501，用于获取查询对象的基础特征向量；

输入模块1502，用于将基础特征向量输入至量化索引网络和嵌入向量网络；

获取模块1501，还用于通过量化索引网络获取查询对象的量化索引，以及通过嵌入向量网络获取查询对象的特征向量；

索引模块1503，用于基于量化索引，从量化码本中索引得到m个候选对象的特征向量；量化码本存储有量化索引与m个候选对象的特征向量之间的映射关系，m为正整数；

计算模块1504，用于分别计算m个候选对象的特征向量与查询对象的特征向量的第五距离，得到m个第五距离；

筛选模块1505，用于在m个第五距离由小到大的排序结果中，根据预设的z值，筛选出排序在前z％的第五距离对应的候选对象。z为正数。

在一个可选的实施例中，获取模块1501还用于通过检索模型的基础特征网络，生成查询图像的基础特征向量。

综上所述，上述检索装置通过包含有基础特征网络、嵌入向量网络和量化索引网络的检索模型，可进行查询对象与m个候选对象的距离排序并筛选出排序靠前的对象，上述对象检索装置不仅实现了筛选出的对象更接近查询对象，还避免了在确定m个候选对象时丢失或额外增加候选对象。

需要说明的是：上述实施例提供的对象检索的训练装置和对象检索装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的检索模型的训练装置，与检索模型的训练方法实施例属于同一构思，图像检索装置与图像检索方法属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图16示出了本申请一个示例性实施例提供的计算机设备1600的结构框图。该计算机设备可以为终端或服务器，在本实施例可以简单描述为终端单独训练检索模型和/或终端单独使用检索模型，或，服务器单独训练检索模型和/或服务器单独使用检索模型，或，终端和服务器共同训练检索模型和/或终端和服务器共同使用检索模型。

通常，计算机设备1600包括有：处理器1601和存储器1602。

处理器1601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1601还可以包括AI处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1601所执行以实现本申请中方法实施例提供的检索模型的训练方法或图像检索方法。

在一些实施例中，计算机设备1600还可选包括有：外围设备接口1603和至少一个外围设备。处理器1601、存储器1602和外围设备接口1603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1603相连。具体地，外围设备包括：射频电路1604、显示屏1605、摄像头组件1606、音频电路1607、定位组件1608和电源1609中的至少一种。

外围设备接口1603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1601和存储器1602。在一些实施例中，处理器1601、存储器1602和外围设备接口1603被集成在同一芯片或电路板上；在一些其他实施例中，处理器1601、存储器1602和外围设备接口1603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。

显示屏1605用于显示UI(User Interface，用户界面)。

摄像头组件1606用于采集图像或视频。

音频电路1607可以包括麦克风和扬声器。

电源1609用于为计算机设备1600中的各个组件进行供电。

在一些实施例中，计算机设备1600还包括有一个或多个传感器1610。该一个或多个传感器1610包括但不限于：加速度传感器1611、陀螺仪传感器1612、压力传感器1613、指纹传感器1614、光学传感器1615以及接近传感器1616。

本领域技术人员可以理解，图16中示出的结构并不构成对计算机设备1600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的检索模型的训练方法或对象检索方法。

本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例提供的检索模型的训练方法或对象检索方法。

在一个实施例中，上述样本三元组、基础特征网络输出的基础特征向量、嵌入向量网络输出的特征向量和量化索引网络输出的量化索引可以存储在数据共享系统的节点中。参见图17所示的数据共享系统，数据共享系统1700是指用于进行节点与节点之间数据共享的系统，该数据共享系统中可以包括多个节点1701，多个节点1701可以是指数据共享系统中各个客户端。每个节点1701在进行正常工作可以接收到输入信息，并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通，数据共享系统中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。例如，当数据共享系统中的任意节点接收到输入信息时，数据共享系统中的其他节点便根据共识算法获取该输入信息，将该输入信息作为共享数据中的数据进行存储，使得数据共享系统中全部节点上存储的数据均一致。

对于数据共享系统中的每个节点，均具有与其对应的节点标识，而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识，以便后续根据其他节点的节点标识，将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表，将节点名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为IP(Internet Protocol，网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息，表4中仅以IP地址为例进行说明。

表4

节点名称	节点标识
节点1	117.114.151.174
节点2	117.116.189.145
…	…
节点N	119.123.789.258

数据共享系统中的每个节点均存储一条相同的区块链。区块链由多个区块组成，参见图18，区块链由多个区块组成，创始块中包括区块头和区块主体，区块头中存储有输入信息特征值、版本号、时间戳和难度值，区块主体中存储有输入信息；创始块的下一区块以创始块为父区块，下一区块中同样包括区块头和区块主体，区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值，并以此类推，使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联，保证了区块中输入信息的安全性。

在生成区块链中的各个区块时，参见图19，区块链所在的节点在接收到输入信息时，对输入信息进行校验，完成校验后，将输入信息存储至内存池中，并更新其用于记录输入信息的哈希树；之后，将更新时间戳更新为接收到输入信息的时间，并尝试不同的随机数，多次进行特征值计算，使得计算得到的特征值可以满足下述公式：

SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))＜TARGET

其中，SHA256为计算特征值所用的特征值算法；version(版本号)为区块链中相关区块协议的版本信息；prev_hash为当前区块的父区块的区块头特征值；merkle_root为输入信息的特征值；ntime为更新时间戳的更新时间；nbits为当前难度，在一段时间内为定值，并在超出固定时间段后再次进行确定；x为随机数；TARGET为特征值阈值，该特征值阈值可以根据nbits确定得到。

这样，当计算得到满足上述公式的随机数时，便可将信息对应存储，生成区块头和区块主体，得到当前区块。随后，区块链所在节点根据数据共享系统中其他节点的节点标识，将新生成的区块分别发送给其所在的数据共享系统中的其他节点，由其他节点对新生成的区块进行校验，并在完成校验后将新生成的区块添加至其存储的区块链中。

Claims

一种检索模型的训练方法，其中，所述方法由计算机设备执行，所述检索模型包括嵌入向量网络和量化索引网络，所述嵌入向量网络用于获取检索对象的特征向量，所述量化索引网络用于提取所述检索对象的量化索引；所述方法包括：

获取用于训练所述检索模型的n个样本三元组；所述样本三元组包括训练样本、与所述训练样本构成相似样本对的正样本、以及与所述训练样本不构成相似样本对的负样本，n为大于1的正整数；

将所述n个样本三元组的基础特征向量输入所述嵌入向量网络；根据所述嵌入向量网络输出的特征向量的误差，筛选出用于训练所述量化索引网络的第一样本三元组集合；

将所述n个样本三元组的基础特征向量输入所述量化索引网络；根据所述量化索引网络输出的量化索引的误差，筛选出用于训练所述嵌入向量网络的第二样本三元组集合；

基于所述第一样本三元组集合训练所述量化索引网络，以及基于所述第二样本三元组集合训练所述嵌入向量网络。
根据权利要求1所述的方法，其中，所述根据所述嵌入向量网络输出的特征向量的误差，筛选出用于训练所述量化索引网络的第一样本三元组集合，包括：

获取所述嵌入向量网络对所述n个样本三元组输出的n组三元组特征向量；

计算所述n组三元组特征向量对应的n个第一误差损失；

在所述n个第一误差损失由小到大的排序结果中，筛选出排序在第一选取范围内的n ₁个第一误差损失所对应的样本三元组，添加至用于训练所述量化索引网络的第一样本三元组集合，n ₁为小于n的正整数。
根据权利要求2所述的方法，其中，所述计算所述n组三元组特征向量对应的n个第一误差损失，包括：

针对每组所述三元组特征向量，计算所述训练样本的特征向量和所述正样本的特征向量之间的第一距离；

针对每组所述三元组特征向量，计算所述训练样本的特征向量和所述负样本的特征向量之间的第二距离；

计算所述第一距离和所述第二距离之间的差值与第一距离阈值之间的第一误差损失，所述第一距离阈值是所述训练样本与所述正样本之间的距离和所述训练样本与所述负样本之间的距离的差值的阈值。
根据权利要求2所述的方法，其中，所述在所述n个第一误差损失由小到大的排序结果中，筛选出排序在第一选取范围内的n ₁个第一误差损失所对应的样本三元组，添加至用于训练所述量化索引网络的第一样本三元组集合，包括：

在所述n个第一误差损失由小到大的排序结果中，根据预设的x值，筛选出排序在前x％的n ₁个第一误差损失所对应的样本三元组，添加至用于训练所述量化索引网络的第一样本三元组集合，x为正数。
根据权利要求1所述的方法，其中，所述根据所述量化索引网络输出的量化索引的误差，筛选出用于训练所述嵌入向量网络的第二样本三元组集合，包括：

获取所述量化索引网络对所述n个样本三元组输出的n组三元组量化索引；

计算所述n组三元组量化索引对应的n个第二误差损失；

在所述n个第二误差损失由小到大的排序结果中，筛选出排序在第二选取范围内的n ₂个第二误差损失所对应的样本三元组，添加至用于训练所述嵌入向量网络的第二样本三元组集合，n ₂为小于n的正整数。
根据权利要求5所述的方法，其中，所述计算所述n组三元组量化索引对应的n个第二误差损失，包括：

针对每组三元组量化索引，计算所述三元组量化索引的第一三元组损失；

针对每组三元组量化索引，计算所述三元组量化索引的第一量化误差损失；

对所述第一三元组损失和所述第一量化误差损失进行加权求和，得到所述第二误差损失。
根据权利要求5所述的方法，其中，所述在所述n个第二误差损失由小到大的排序结果中，筛选出排序在第二选取范围内的n ₂个第二误差损失所对应的样本三元组，添加至用于训练所述嵌入向量网络的第二样本三元组集合，包括：

在所述n个第二误差损失由小到大的排序结果中，根据预设的y值，筛选出排序在前y％的n ₂个第二误差损失所对应的样本三元组，添加至用于训练所述量化索引网络的第二样本三元组集合，y为正数。
根据权利要求1至7任一所述的方法，其中，所述基于所述第一样本三元组集合训练所述量化索引网络，包括：

针对所述第一样本三元组集合的每个所述样本三元组，通过所述量化索引网络计算三元组特征向量的第二三元组损失，所述三元组特征向量是所述嵌入向量网络输出的特征向量，所述第一样本三元组集合包括n ₁个样本三元组；

针对所述第一样本三元组集合的每个所述样本三元组，通过所述量化索引网络计算所述三元组特征向量的第二量化误差损失；

对所述第二三元组损失和所述第二量化误差损失进行加权求和，得到所述第三误差损失；

基于n ₁个所述第三误差损失，训练所述量化索引网络。
根据权利要求1至7任一所述的方法，其中，所述基于所述第二样本三元组集合训练所述嵌入向量网络，包括：

针对所述第二样本三元组集合的每个所述样本三元组，通过所述嵌入向量网络计算所述训练样本的特征向量和所述正样本的特征向量之间的第三距离，所述第二样本三元组集合包括n ₂个样本三元组；

针对所述第二样本三元组集合的每个所述样本三元组，通过所述嵌入向量网络计算所述训练样本的特征向量和所述负样本的特征向量之间的第四距离；

计算所述第三距离和所述第四距离之间的差值与第二距离阈值之间的第四误差损失，所述第二距离阈值是所述训练样本与所述正样本之间的距离和所述训练样本与所述负样本的距离的差值的阈值；

基于n ₂个所述第四误差损失，训练所述嵌入向量网络。
根据权利要求1所述的方法，其中，所述检索模型还包括基础特征网络；

所述方法还包括：

通过所述基础特征网络，获取所述n个样本三元组的基础特征向量。
根据权利要求1至7任一项的方法，其特征在于，所述检索模型是图像检索模型，所述检索对象是图像。
一种对象检索方法，其中，所述方法由计算机设备执行，所述方法应用于权利要求1至10任一项训练得到的检索模型，所述方法包括：

获取查询对象的基础特征向量；

将所述基础特征向量输入至所述量化索引网络和所述嵌入向量网络；

通过所述量化索引网络获取所述查询对象的量化索引，以及通过所述嵌入向量网络获取所述查询对象的特征向量；

基于所述量化索引，从量化码本中索引得到m个候选对象的特征向量；所述量化码本存储有所述量化索引与所述m个候选对象的特征向量之间的映射关系，m为正整数；

分别计算所述m个候选对象的特征向量与所述查询对象的特征向量的第五距离，得到m个第五距离；

在所述m个第五距离由小到大的排序结果中，根据预设的z值，筛选出排序在前z％的第五距离对应的候选对象，z为正数。
一种检索模型的训练装置，其中，所述检索模型包括嵌入向量网络和量化索引网络，所述嵌入向量网络用于获取检索对象的特征向量，所述量化索引网络用于提取所述检索对象的量化索引；所述装置包括：

获取模块，用于获取用于训练所述检索模型的n个样本三元组；所述样本三元组包括训练样本、与所述训练样本构成相似样本对的正样本、以及与所述训练样本不构成相似样本对的负样本，n为大于1的正整数；

筛选模块，用于将所述n个样本三元组的基础特征向量输入所述嵌入向量网络；根据所述嵌入向量网络输出的特征向量，筛选出用于训练所述量化索引网络的第一样本三元组集合；

筛选模块，还用于将所述n个样本三元组的基础特征向量输入所述量化索引网络；根据所述量化索引网络输出的量化索引，筛选出用于训练所述嵌入向量网络的第二样本三元组集合；

训练模块，用于基于所述第一样本三元组集合训练所述量化索引网络，以及基于所述第二样本三元组集合训练所述嵌入向量网络。
根据权利要求13所述的装置，其特征在于，

所述筛选模块，还用于获取所述嵌入向量网络对所述n个样本三元组输出的n组三元组特征向量；

所述筛选模块，还用于计算所述n组三元组特征向量对应的n个第一误差损失；

所述筛选模块，还用于在所述n个第一误差损失由小到大的排序结果中，筛选出排序在第一选取范围内的n ₁个第一误差损失所对应的样本三元组，添加至用于训练所述量化索引网络的第一样本三元组集合，n ₁为小于n的正整数。
根据权利要求14所述的装置，其特征在于，

所述筛选模块，还用于针对每组所述三元组特征向量，计算所述训练样本的特征向量和所述正样本的特征向量之间的第一距离；

所述筛选模块，还用于针对每组所述三元组特征向量，计算所述训练样本的特征向量和所述负样本的特征向量之间的第二距离；

所述筛选模块，还用于计算所述第一距离和所述第二距离之间的差值与第一距离阈值之间的第一误差损失，所述第一距离阈值是所述训练样本与所述正样本之间的距离和所述训练样本与所述负样本之间的距离的差值的阈值。
根据权利要求14所述的装置，其特征在于，

所述筛选模块，还用于在所述n个第一误差损失由小到大的排序结果中，根据预设的x 值，筛选出排序在前x％的n ₁个第一误差损失所对应的样本三元组，添加至用于训练所述量化索引网络的第一样本三元组集合，x为正数。
一种对象检索装置，其中，所述装置应用于权利要求1至11任一项训练得到的检索模型，所述装置包括：

获取模块，用于获取查询对象的基础特征向量；

输入模块，用于将所述基础特征向量输入至所述量化索引网络和所述嵌入向量网络；

获取模块，还用于通过所述量化索引网络获取所述查询对象的量化索引，以及通过所述嵌入向量网络获取所述查询对象的特征向量；

索引模块，用于基于所述量化索引，从量化码本中索引得到m个候选对象的特征向量；所述量化码本存储有所述量化索引与所述m个候选对象的特征向量之间的映射关系，m为正整数；

计算模块，用于分别计算所述m个候选对象的特征向量与所述查询对象的特征向量的第五距离，得到m个第五距离；

筛选模块，用于在所述m个第五距离由小到大的排序结果中，根据预设的z值，筛选出排序在前z％的第五距离对应的候选对象，z为正数。
一种计算机设备，其中，所述计算机设备包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至11任一所述的检索模型的训练方法，和/或，权利要求12所述对象检索方法。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至11任一所述的检索模型的训练方法，和/或，权利要求12所述对象检索方法。
一种计算机程序产品，包括计算机程序或指令，其中，所述计算机程序或指令被处理器执行时实现如权利要求1至11任一所述的检索模型的训练方法，和/或，权利要求12所述对象检索方法。