WO2020228525A1

WO2020228525A1 - 地点识别及其模型训练的方法和装置以及电子设备

Info

Publication number: WO2020228525A1
Application number: PCT/CN2020/087308
Authority: WO
Inventors: 白栋栋; 凌永根; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-10
Filing date: 2020-04-27
Publication date: 2020-11-19
Anticipated expiration: 2021-11-10
Also published as: EP3968179A1; US12100192B2; CN110209859A; EP3968179B1; CN110209859B; US20210342643A1; EP3968179A4

Abstract

一种地点识别及其模型训练的方法和装置、计算机可读存储介质以及电子设备。方法包括：基于CNN模型的第一部分提取样本图像的局部特征（310）；基于CNN模型的第二部分将局部特征聚合成具有第一维数的特征向量（330）；基于CNN模型的第三部分得到特征向量的压缩表示向量，压缩表示向量具有小于第一维数的第二维数（350）；以及以使得在同一地点拍摄的多个图像对应的压缩表示向量之间的距离最小化为目标，调整第一至第三部分的模型参数（370）。该方法通过在CNN模型中引入参数可训练的压缩过程，能够真正实现端到端的训练地点识别模型，得到的CNN模型能够直接获得低维度的图像特征，从而基于人工智能提高地点识别的性能。

Description

地点识别及其模型训练的方法和装置以及电子设备

本申请要求于2019年05月10日提交的申请号为201910390693.2、发明名称为“地点识别及其模型训练的方法和装置以及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及一种地点识别及其模型训练的方法和装置、计算机可读存储介质以及电子设备。

背景技术

随着图像处理技术的进步，地点识别(PlaceRecognition)得到了越来越广泛的应用。例如，在地图应用中，通过地点识别可辨别相同的位置，从而修正地图建立过程中可能存在的地点和位置错误。又例如，在视频应用中，通过地点识别可对图像片段进行分类，据此对视频进行抽象和切分，以提取视频精华。再例如，地点识别还可用于各种移动端应用的增强现实(AugmentedReality，AR)功能，在用户使用移动端拍摄所看到的景物时，可通过地点识别确定对应的景物名称，然后触发相应的简介、AR浏览功能。

地点识别主要面临条件变化、视角变化和效率要求三种挑战。为了应对这些困难，业内目前发展出三类实现方式。

第一类方式是基于人工设计的描述子(Descriptor)对地点图像进行特征提取；这种方式对于视角变化具有较强的鲁棒性，但无法针对应用场景变化进行自动调整。

第二类方式是使用预训练的卷积神经网络(ConvolutionalNeuralNetwork，CNN)作为地点图像的特征提取器；这种方式与前一种相比提升了对抗条件变化的能力，但由于其使用的CNN模型原本是在其他领域进行的预训练，因此性能提升有限。

第三类方式是直接将地点识别作为训练目标，首先使用常见网络提取地点图像的描述子，然后聚合成特定维数的特征向量；这类算法明显提高了地点识别对条件和视角变化的鲁棒性，但由于获得的图像特征通常具有较高的维度，因而计算处理的成本较高，往往难以满足地点识别的效率要求。

发明内容

本申请提供了一种地点识别及其模型训练的方法和装置、计算机可读存储介质以及电子设备。

根据本申请的实施例，提供一种用于地点识别的模型训练方法，所述方法包括：基于CNN模型的第一部分提取样本图像的局部特征，所述样本图像包括至少一组在同一地点拍摄的多个图像；基于所述CNN模型的第二部分将所述局部特征聚合成具有第一维数的特征向量；基于所述CNN模型的第三部分得到所述特征向量的压缩表示向量，所述压缩表示向量具有小于所述第一维数的第二维数；以及以使得所述在同一地点拍摄的多个图像对应的压缩表示向量之间的距离最小化为目标，调整所述第一部分、所述第二部分和所述第三部分的模型参数，直至得到满足预设条件的CNN模型。

根据本申请的实施例，提供一种地点识别方法，包括：使用CNN模型对采集的图像提取压缩表示向量，所述CNN模型根据如上所述的用于地点识别的模型训练方法训练得到；以及基于所述提取的压缩表示向量进行地点识别。

根据本申请的实施例，提供一种用于地点识别的模型训练装置，包括：特征提取模块，设置为基于CNN模型的第一部分提取样本图像的局部特征，所述样本图像包括至少一组在同一地点拍摄的多个图像；特征聚合模块，设置为基于所述CNN模型的第二部分将所述局部特征聚合成具有第一维数的特征向量；特征压缩模块，设置为基于所述CNN模型的第三部分得到所述特征向量的压缩表示向量，所述压缩表示向量具有小于所述第一维数的第二维数；以及模型训练模块，设置为以使得所述在同一地点拍摄的多个图像对应的压缩表示向量之间的距离最小化为目标，调整所述第一部分、所述第二部分和所述第三部分的模型参数，直至得到满足预设条件的CNN模型。

根据本申请的实施例，提供一种地点识别装置，包括：提取模块，设置为使用CNN模型对采集的图像提取压缩表示向量，所述CNN模型根据如上所述的用于地点识别的模型训练方法训练得到；以及识别模块，设置为基于所述提取的压缩表示向量进行地点识别。

根据本申请的实施例，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的用于地点识别的模型训练方法或者如上所述的地点识别方法。

根据本申请的实施例，提供一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的用于地点识别的模型训练方法或者如上所述的地点识别方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

基于本申请实施例提供的模型训练及地点识别方案，通过在CNN模型中引入参数可训练的压缩过程，能够真正实现端到端的训练地点识别模型，得到的CNN模型能够直接获得低维度的图像特征，从而提高地点识别的性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并于说明书一起用于解释本申请的原理。

图1示出了可以应用本申请实施例的模型训练方法或装置、或者地点识别方法或装置的示例性系统架构的示意图。

图2示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

图3是根据一示例性实施例示出的一种用于地点识别的模型训练方法的流程图。

图4是根据另一示例性实施例示出的一种用于地点识别的模型训练方法的流程图。

图5是图4所示实施例的基础网络结构示意图。

图6是图4所示实施例中步骤490的示意性流程图。

图7-图8示例性示出本申请实施例与相关技术中地点识别模型的性能比较。

图9是根据一示例性实施例示出的一种地点识别方法的流程图。

图10是图9所示实施例中步骤920的示意性实施场景图。

图11是根据一示例性实施例示出的一种用于地点识别的模型训练装置的框图。

图12是根据一示例性实施例示出的一种地点识别装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本申请实施例的用于地点识别的模型训练方法或装置、或者地点识别方法或装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105 可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。服务器105可以是提供各种服务的服务器。

例如，用户利用终端设备103(也可以是终端设备101或102)向服务器105上传了样本图像序列，该样本图像序列中包括至少一组在同一地点拍摄的多个图像；服务器105可以基于上述样本图像序列，基于CNN模型的第一部分提取样本图像的局部特征；基于所述CNN模型的第二部分将所述局部特征聚合成具有第一维数的特征向量；基于所述CNN模型的第三部分得到所述特征向量的压缩表示向量，所述压缩表示向量具有小于所述第一维数的第二维数；以及以使得所述多个图像对应的压缩表示向量之间的距离最小化为目标，调整所述第一部分、所述第二部分和所述第三部分的模型参数，直至得到满足预设条件的CNN模型。

又例如，用户利用终端设备101(也可以是终端设备102或103)在某一地点拍摄图像，并上传至服务器105；服务器105使用前述训练好的CNN模型对该图像提取压缩表示向量，并基于提取的压缩表示向量进行地点识别。

在一些实施例中，本申请实施例所提供的用于地点识别的模型训练方法或者地点识别方法一般由服务器105执行，相应地，用于地点识别的模型训练装置或者地点识别装置一般设置于服务器105中。在另一些实施例中，某些终端可以具有与服务器相似的功能从而执行本方法。因此，本申请实施例所提供的用于地点识别的模型训练方法或者地点识别方法不限定在服务器端执行。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU 201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本申请的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图3至图6所示的各个步骤。

本申请各个实施例所示的方案，可以通过人工智能(Artificial Intelligence，AI)来进行准确的图像特征提取。在详细阐述本申请的实施例的技术方案之前，以下介绍一些相关的技术方案、术语和原理。

人工智能AI

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，ORC)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

卷积神经网络(Convolutional Neural Network，CNN)

CNN是一种多层的监督学习神经网络，常用来处理图像相关的机器学习问题。

典型的CNN由卷积层(Convolution)、池化层(Pooling)和全连接层(Fully Connection)组成。其中，低隐层一般由卷积层和池化层交替组成，卷积层的作用是通过卷积运算使图像的原信号特征增强并降低噪音，池化层的作用在于根据图像局部相关性的原理减少计算量同时保持图像旋转不变性。全连接层位于CNN的高层，其输入是由卷积层和池化层进行特征提取得到的特征图像，输出可连接分类器，通过采用逻辑回归、Softmax回归、或者是支持向量机(Support Vector Machine，SVM)对输入图像进行分类。

CNN的训练过程一般采用梯度下降法最小化损失函数，通过全连接层后连接的损失层，对网络中各层的权重参数逐层反向传播加以调节，并通过频繁的迭代训练提高网络的精度。CNN的训练样本集通常由形如“输入向量，理想输出向量”的向量对构成，在开始训练前，网络所有层的权重参数可以用一些不同的小随机数进行初始化。由于CNN本质上可视为一种输入到输出的映射，能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确数学表达式，因此可以用已知向量对组成的训练样本集对CNN加以训练，使其具有输入输出对之间的映射能力。

地点识别

就应用场景而言，地点识别常用于同时定位与地图构建(Simultaneous Localization and Mapping，SLAM)中的回环检测以及基于图像的定位。

在视觉SLAM问题中，位姿的估计往往是一个递推的过程，即由上一帧位姿计算当前帧位姿，这样一帧一帧的传递下去不可避免的会产生累计误差。回环检测的关键，就是如何有效的检测出相机经过同一个地方，其关系到估计的轨迹和地图在长时间下的正确性。由于回环检测提供了当前数据与所有历史数据的关联，因此可以大大减小SLAM前端产生的累计误差，构建一个几何一致的地图。地点识别在回环检测中就是起到识别相机是否回到同一个地方的作用。由于回环检测有矫正视觉SLAM前端累计误差的作用，因此可以应用在与AR相关的应用上，用来矫正由于视觉里程计长时间运行导致的位姿不准确和定位丢失的问题。

基于图像的定位，就是根据图像获取其对应的地理位置，其应用场景也很广阔。例如，可以将终端拍摄的图片上传到标有地理位置的图像数据库或搜索引擎，通过地点识别技术来获得拍摄人对应的高精度地理位置。基于图像的定位例如可以在GPS信号较弱或地形复杂的地方发挥作用，在这种情况下手机定位难免出现偏差，从而可以使用手机拍摄一张当前位置照片，通过地点识别技术来获取精确的定位。

就技术实现而言，地点识别目的在于识别查询图像对应的空间位置。对于一个标记位置的图像数据库和待查询的图像，地点识别通过图像特征提取器，将这些图像都投影到特征空间中，然后计算待查询图像的图像特征与数据库中样本图像的相似度，如果待查询图像与数据库中最相似的图像之间的相似度满足某个阈值，则认为数据库中该图像的位置即待查询图像的位置。因此，地点识别中最关键的部分就是获取恰当的图像特征提取器。

图像特征提取器的构建通常建模成示例检索问题，主要包含三个步骤。首先，提取图像的局部描述子；然后，将局部描述子聚合成具有固定维数的特征向量；最后，将特征向量压缩到合适的维度。

然而，如背景技术部分所述，相关技术中基于训练的地点识别算法，都仅针对前两个步骤进行训练，最后的特征压缩步骤只是作为模型训练完成后的后处理过程。这样一来，模型输出的图像特征维度很高，从而会造成两个问题。一是易陷入维度灾难效应，使算法出现过拟合，并且会降低欧氏距离的区分度，恶化模型的性能。二是直接使用高维度图像特征计算图像间相似度，计算开销过大，而在获得高维度图像特征后再使用压缩算法进行后处理，往往也需要较长的计算时间，达不到地点识别的效率要求。

为解决上述问题，本申请实施例提供一种地点识别及其模型训练的方法和装置、计算机可读存储介质以及电子设备。

以下对本申请实施例的技术方案的原理和实现细节进行详细阐述。

图3是根据一示例性实施例示出的一种用于地点识别的模型训练方法的流程图。如图3所示，该模型训练方法可以由任意计算设备执行，可包括以下步骤310-370。

在步骤310中，基于CNN模型的第一部分提取样本图像的局部特征。

这里的样本图像包括至少一组在同一地点拍摄的多个图像。在一个实施例中，所述样本图像包括在不同地点拍摄的多组图像，而每组都包括在同一地点拍摄的多个图像。

如前文所述，地点识别的目的在于识别查询图像对应的空间位置。因此，用于训练模型的样本图像可带有已标记的地理位置信息，例如GPS信息。

举例而言，对于样本图像中的一个图像，可以将样本图像中与其拍摄地点相同的多个图像标记为正样本，而将与其拍摄地点不同的多个图像标记为负样本。地点识别模型的训练过程，就是通过不断调整模型参数，使最终得到的模型对于样本图像中每个图像的向量表示与其正样本向量表示之间的距离最小化，而与其负样本向量表示之间的距离满足预设边界。

需要说明的是，本申请实施例中所述的拍摄地点相同和不同，只是为了便于描述，而并非指图像的位置信息完全一致。在一个实施例中，拍摄地点相同是指两个图像的地理位置信息(例如GPS信息)之间的差值小于第一预设值，拍摄地点不同是指两个图像的地理位置信息(例如GPS信息)之间的差值大于第二预设值。

接续，从一般意义上来说，这里的特征提取是图象处理中的初级运算。换言之，特征提取是对一个图像进行的第一个运算处理，其主要用于确定每个像素是否代表一个特征。作为特征提取的前提运算，输入的样本图像还可通过高斯模糊核在尺度空间中被平滑，此后通过局部导数运算来计算图像的一个或多个特征。

这里的局部特征从总体上说是图像中一些有别于其周围的地方。局部特征通常是描述图像中的特定区域，使图像能具有高可区分度。因此，上述的特征提取实质上就是为了提取图像的局部特征，其结果直接决定后续图像分类、识别的性能。

在图像处理领域中，计算机视觉研究过去长期集中在如尺度不变特征变换(Scale-invariant feature transform，SIFT)和方向梯度直方图(Histogram of Oriented Gradient,HOG)等基于人工标定的图像特征提取器上。例如背景技术部分提及的第一类地点识别实现方式，便是基于人工设计的描述子对图像进行特征提取。

随着深度学习(Deep Learning)研究的不断深入，图像处理中越来越普遍的将自动特征提取作为基础层，随之产生出如AlexNet和VGGNet等诸多特征提取网络模型。这些模型逐渐取代人工标定的特征图像提取器，实现了自动学习和提取图像特征。例如背景技术部分提及的第二类和第三类地点识别实现方式，就采用了可训练的CNN模型来实现自动学习和提取图像特征。

在一个实施例中，步骤310中采用可训练的CNN模型中的一部分来实现样本图像的特征提取，得到样本图像的局部描述子。

接续如图3所示，在步骤330中，基于CNN模型的第二部分将局部特征聚合成具有第一维数的特征向量。

在地点识别的实际应用中，待查询图像需要与数据库的海量图像进行特征比对。虽然步骤310得到的局部描述子已经是样本图像的特征表示，但即使每个描述子都只需要几比特大小，考虑每个图像对应的描述子个数和数据库中图像的数量，直接基于局部描述子进行待查询图像的地点识别很难在足够短的时间内实现。因此，本申请的实施例在步骤330中对局部描述子进行聚合处理，目标是将这些描述子聚合到特定维数的向量中去。

相关技术中使用的聚合算法包括主要词袋(Bag-of-words，BoW)、费希尔向量(Fisher Vector，FV)及局部聚合描述子向量(Vector of Locally Aggregated Descriptors，VLAD)等。BoW方法的核心思想是提取出关键点描述子后利用聚类的方法训练一个码本，随后基于每幅图片中各描述子向量在码本中各中心向量出现的次数来表示该图片。FV方法的核心思想是利用高斯混合模型，通过计算该模型中的均值、协方差等参数来表示每张图像。VLAD是一种广泛应用在示例检索与图像分类中的描述池化方法，用于抓取图像中局部特征在图像中聚合的统计信息，与BoW记录向量的出现次数不同，VLAD是记录每个描述子向量的残差和。下面以VLAD为例描述局部特征聚合的大致过程。

给定N个D维局部图像描述子x _i作为输入，K个聚类中心c _k作为VLAD的参数，VLAD的输出是一个K×D维的图像描述向量，为了方便记作V是一个K×D的矩阵，将该矩阵转换成向量表示，然后再进行归一化，计算公式如下：

其中，x _i(j)和c _k(j)分别表示第i个局部描述子和第k个聚类中心的第j个特征值。a _k(x _i)可以理解为第i个局部特征属于第k个聚类的权重；换言之，如果a _k(x _i)的值为1则表明该特征属于这个聚类的簇，反之为0则不属于。直观上看，V(j,k)表征着所有局部特征在每一个聚类簇上的残差(x _i-c _k)的和。

对于传统VLAD而言，由于a _k(x _i)的值只能是1或者0，是一个不连续的值，因此不能直接在CNN模型中通过反向传播来训练。至于BoW、FV等其他聚合算法也存在类似的问题。

为此，在一个实施例中，步骤330采用可训练的CNN模型中的一部分来实现局部特征聚合，将步骤310得到的局部特征聚合成具有第一维数的特征向量。

接续如图3所示，在步骤350中，基于CNN模型的第三部分得到特征向量的压缩表示向量。

这里的压缩表示向量具有小于第一维数的第二维数。

基于步骤320进行局部特征聚合后获得的特征向量，通常仍然具有较高的维度，难以满足地点识别的效率要求，并且容易陷入维度灾难导致图像特征的泛化性能降低。

为此，本申请的实施例在步骤350中对上述特征向量进行降维处理。

简单来说，降维是一种针对高维度特征数据的预处理方法，目的是从高维度的数据中去除噪声和不重要的特征，保留下最重要的一些特征，从而实现提升数据处理速度的目的。在图像处理场景中，降维能够节省大量的处理时间，同时将信息损失控制在一定范围内。相关的降维算法包括奇异值分解(Singular Value Decomposition，SVD)、主成分分析(Principal Component Analysis，PCA)、因子分析(Factor Analysis，FA)、独立成分分析(Independent Component Analysis，ICA)等等。下面以PCA为例描述降维压缩的大致过程。

假设步骤330中使用可训练的VLAD网络进行局部特征聚合，如前文所述，针对每个图像，其输出一个K×D维(即第一维数)的图像描述向量。给定一个包括M个图像的样本图像集，则整个图像集对应的特征表示矩阵为X∈R ^(K×D)×M。

接续，假设PCA的目标是要获得维度为L(即第二维数)的压缩表示向量。首先，基于矩阵X得到其减去均值之后的矩阵X’；然后，计算矩阵X’的协方差矩阵的特征值和正交单位特征向量，得到前L个特征值对应的单位特征向量则是矩阵X对应的前L个主成分，构成的矩阵可表示为T∈R ^(K×D)×L；最后，将矩阵T的转置T ^T乘以矩阵X，即可得到整个图像集的压缩表示Y∈R ^L×M。

上述的传统PCA算法并非可微的过程，因此不能直接在CNN模型中通过反向传播来训练。至于SVD、FA、ICA等其他降维算法也存在类似的问题。

为此，在一个实施例中，步骤350采用可训练的CNN模型中的一部分来实现降维处理，将步骤330得到的特征向量降维至维数更小的压缩表示向量。

接续如图3所示，在步骤370中，以使得在同一地点拍摄的多个图像对应的压缩表示向量之间的距离最小化为目标，调整CNN模型第一部分、第二部分和第三部分的模型参数，直至得到满足预设条件的CNN模型。

在一个实施例中，这里的CNN模型可采用典型的网络结构，上述的第一部分、第二部分和第三部分可分别包括卷积层、池化层、全连接层和Softmax层中的一层或多层。例如，第一部分可包括卷积层和池化层，第二部分可包括Softmax层，第三部分可包括全连接层。

作为模型训练的一个示例，在对卷积层和全连接层的参数赋以随机的初始值后，将步骤310的样本图像输入模型，通过步骤330、350和370可提取得到对应的压缩表示向量；基于Softmax层计算的联合损失经模型反向传播，可对卷积层和全连接层的参数进行更新，将样本图像再次输入参数更新后的模型，依此迭代直至满足预设的收敛条件，可得到训练好的CNN模型。

基于本申请实施例提供的模型训练方法，通过在CNN模型中引入参数可训练的压缩过程，能够真正实现端到端的训练地点识别模型，得到的CNN模型能够直接获得低维度的图像特征，从而提高地点识别的性能。

图4是根据另一示例性实施例示出的一种用于地点识别的模型训练方法的流程图。如图4所示，该模型训练方法可以由任意计算设备执行，可包括以下步骤410-490。

在步骤410中，构建样本图像集。

在一个实施例中，步骤410可使用公开的图像数据库来构建样本图像集，例如包括但不限于Pitts250k、Pitts30k、TokyoTM等等。

Pitts250k包含从谷歌街景收集的250k数据库图像和从街景生成的24k查询图像，这些图像是在相隔数年的不同时间拍摄。该图像集可分为三个大致相等的部分，分别用于训练，验证和测试，每个部分包含大约83k数据库图像和8k查询图像，且三个部分之间相互没有交集。

Pitts30k是Pitts250k的子集，因有助于加快训练速度而被许多算法所采用。该图像集也由三部分组成，分别用于训练，验证和测试。每组包含10k数据库图像，并且在地理上没有交集。

TokyoTM是通过收集谷歌街景全景图并将每个全景图切割成具有不同视角的12个图像获得，还包含在不同时间、同一地点拍摄的照片。因此，TokyoTM适于评估地点识别算法针对条件和视角变化鲁棒性。其包含训练集和验证集两部分。

接续如图4所示，在步骤430中，提取样本图像的局部特征。

在一个实施例中，步骤430可使用VGGNet来提取提取样本图像的局部特征。

VGGNet由牛津大学计算机视觉组合和谷歌深思(DeepMind)公司研究员一起研发的深度CNN结构，其通过反复的堆叠3*3的小型卷积核和2*2的最大池化层，构建了深度可达19层的CNN结构。

VGGNet全部使用3*3的卷积核和2*2的池化核，通过不断加深网络结构来提升性能。由于参数量主要集中在最后三个全连接层中，网络层数的增长并不会带来参数量上的爆炸。同时，两个3*3卷积层的串联相当于1个5*5的卷积层，3个3*3的卷积层串联相当于1个7*7的卷积层。换言之，3个3*3卷积层的感受野大小相当于1个7*7的卷积层，但是前者的参数量只有后者一半左右，同时前者可以有3个非线性操作，而后者只有1个非线性操作，因此使得前者对于特征的学习能力更强。

另外，VGGNet还通过使用1*1的卷积层来增加线性变换，输出的通道数量上并没有发生改变。这里1*1的卷积层还常常被用来提取特征，即多通道的特征组合在一起，凝练成较大通道或者较小通道的输出，而每张图片的大小不变。在有些衍生的网络结构中，1*1的卷积层还可以用来替代全连接层。

VGGNet包含很多级别的网络，深度从11层到19层不等，比较常用的是VGGNet-16和VGGNet-19。VGGNet将网络分为5段，每段都包括多个3*3的卷积网络串联在一起，每段卷积后接一个最大池化层，最后面是3个全连接层和一个softmax层。

换言之，本申请实施例中CNN模型的第一部分可基于VGGNet来实现。在一个实施例中，为了接入后续CNN模型的第二部分和第三部分，可将上述VGGNet基本网络中的最后一层移除。

接续如图4所示，在步骤450中，将局部特征聚合成特征向量。

如前文实施例中所述，因权重参数a _k(x _i)的取值不连续，传统VLAD无法直接接入CNN模型进行训练。因此，在一个实施例中，步骤450可使用改进后的netVLAD来进行局部特征聚合。

可选的，netVLAD采用一种近似的方式，对权重参数a _k(x _i)进行软分配(soft assignment)，如下式所示：

上述权重分配可以视作一种模糊聚类的分配方式，根据每个局部特征到聚类中心的距离来生成一个概率函数权重。对于一个局部特征描述子x _i，其在每个聚类簇下的权重范围在0-1之间，权重最高的可以理解为该特征离聚类簇中心的聚类最近，权重低表示其离簇中心较远。可以注意到，当α趋近于正无穷+∞时，式(2)就表示原始的VLAD结构。

进一步地，可以将上式(2)进行平方展开，可以得到下式：

其中，w _k′＝2αc _k，b _k＝-α‖c _k‖ ²。

将上述(3)代入式(1)，可得到最终VLAD特征向量为：

从以上推导可以看出，式(4)中的参数w _k、b _k、c _k都是可以训练的。NetVLAD通过上述在不同聚类簇上的软分配方式，能够有效聚合局部特征空间中不同部分(聚类)的一阶残差的统计量。另外，NetVLAD中包含w _k、b _k、c _k三个参数，这使得NetVLAD与仅有一个参数c _k的传统VLAD方法相比，具有更高的灵活性，并且所有的参数在特定的任务下可以通过端到端的方式来学习得到。

接续如图4所示，在步骤470中，对特征向量进行降维处理，得到对应的压缩表示向量。

如前文实施例中所述，因过程不可微，传统PCA无法直接接入CNN模型进行训练。因此，在一个实施例中，步骤470可使用如下由本申请首次提出的NetPCA来进行局部特征聚合。

本申请实施例首次提出使用神经网络来模拟PCA的功能，即NetPCA。NetPCA的核心思想在于将图像投影到正交特征空间中，使得图像表示的各个元素都线性无关，从而大大压缩图像表示中的冗余信息。与传统PCA中投影矩阵的方向是基于计算(参见步骤350中的描述)得出的主成分方向不同，NetPCA是通过端到端的训练来获得投影矩阵的方向。

在一个实施例中，将NetPCA设置为整个CNN模型中的全连接层，该层用于接收步骤450得到的特征向量输入，并具有预设数量的神经元。神经元的数量等于特征向量的压缩目标维数L(即第二维数)，因此可视需求设定。并且，每个神经元的权重被约束为单位向量，且各神经元之间的权重满足正交关系，从而保证压缩后的图像特征在单位正交空间中。

通过上述网络设计，NetPCA可实现将450得到的特征向量投影到单位正交特征空间中，得到具有目标维数的压缩表示向量。

图5示出步骤430-470对应的CNN模型基础网络架构。如图5所示，图像501首先经过VGGNet502，提取得到图像的局部特征；然后经过NetVLAD 503的局部特征聚合，得到K×D维的特征向量表示；再经过NetPCA全连接层504的降维处理，最终输出L维的压缩表示向量。

需要说明的是，这里的图像501在本实施例的模型训练过程中即为样本图像，而在后续的模型应用过程(即地点识别应用过程)中则为待查询图像。

接续如图4所示，在步骤490中，经过模型参数训练得到满足预设条件的CNN模型。

如步骤430-470中描述的网络结构，本申请实施例提出的CNN模型中，可训练的参数包括VGGNet、NetVLAD和NetPCA三个部分的权重矩阵。

为了使训练得到的CNN模型适用于地点识别任务，本申请实施例构建了合理的损失函数。

可选的，上述样本图像包括第一图像、拍摄地点与第一图像相同的多个第二图像、以及拍摄地点与第一图像不同的多个第三图像，上述特征向量包括与第一图像对应的第一特征向量、与第二图像对应的第二特征向量、以及与第三图像对应的第三特征向量；在训练CNN模型时，基于第一距离以及第二距离构建CNN模型的损失函数；其中，第一距离是第一特征向量与第二特征向量之间的距离，第二距离是第一特征向量与所述第三特征向量之间的距离。

在一个实施例中，对于样本图像中的特定图像(第一图像)q，可以将样本图像中距离该图像地理位置小于第一阈值(可视为拍摄地点相同)的图像设置为潜在正样本

而将样本图像中距离该图像地理位置大于第二阈值(可视为拍摄地点不同)的图像设置为负样本

如此一来，便可得到三元组的训练样本

接续，对于每个图像的三元组

在其潜在正样本

中至少存在一个最佳匹配图像

其满足与第一图像之间的地理位置距离d最小的条件，即：

在一个实施例中，可将模型的训练目标设计为，针对每个样本图像，都能够输出这样的压缩表示向量，使得q与最佳匹配图像

之间的距离小于其与所有负样本

之间的距离，即：

基于上述训练目标，在一个实施例中，可定义三元组排序损失函数如下式所示：

其中，L为损失函数，m为边界常数，l表示最大边界损失(HingeLoss，也称铰链损失)。换言之，l(x)＝max(x,0)。

从式(7)可以看出，在上述实施例中，损失函数被设计为关于负样本图像

的个体损失之和。对于每个负样本图像，如果特定图像q与其之间的距离大于特定图像q与最佳匹配图像

之间的距离且差值超过预设边界，则损失为零。相反，差值不满足该预设边界，则损失与差值成比例。

接续，在一个实施例中，为了约束NetPCA中各神经元之间的权重满足正交关系，可进一步在上述损失函数中添加正交约束项，正交约束项该是通过各个所述神经元的权重矩阵，以及已知的单位向量得到的。

可选的，该正交约束项G如下所示：

G＝sum(g(W ^TW-E)) (8)

其中，W为所述神经元的权重矩阵，T表示矩阵转置，E为已知的单位向量，g表示对矩阵的各个元素求平方，sum表示求和。

这样一来，NetPCA针对特征向量的最佳投影方向可通过端到端的训练来确定，当训练满足预设的收敛条件时，神经元的权重W即为确定出的最佳投影方向。

在一个实施例中，基于上述添加正交约束项G的损失函数，步骤490可使用标准的随机梯度下降算法(SGD，Stochastic Gradient Descent)进行CNN的训练，一个示例如图6所示，包括以下步骤610-650。

在步骤610中，将损失函数经CNN模型反向传播以更新CNN模型的模型参数。

以包括卷积层、池化层和全连接层的典型CNN结构为例，除了池化层可采用随机或固定的参数矩阵外，卷积层和全连接层的权重参数矩阵在CNN的训练过程中可基于损失的反向传播进行更新。就本申请实施例的网络结构而言，在整个CNN模型中，用于局部特征提取的第一部分、用于特征聚合的第二部分以及用于降维处理的第三部分中的权重参数矩阵，在CNN的训练过程中都可基于损失的反向传播进行更新。

另外，对于初始化(尚无输入数据)时的CNN模型，卷积层和全连接层的权重参数矩阵可以用一些不同的小随机数进行初始化。例如，可按照0为均值、0.01为方差的高斯分布对所有卷积层的卷积核进行初始化。

在步骤630中，基于参数经过更新的CNN模型重新进行损失函数的计算。

经过步骤610的模型参数更新，可再次执行上述步骤430-470，进行局部特征的提取和聚合以及特征向量的降维处理，并重新基于构建的损失函数进行损失计算。

在步骤650中，判断是否满足预设停止条件，若是则输出CNN模型的模型参数，否则返回步骤610。

根据模型的训练表现，针对步骤650可设置不同的预设停止条件。例如，可设置计数阈值控制训练的迭代次数，也可设置损失阈值作为预设停止条件，还可设置模型参数的收敛阈值作为预设停止条件。本申请的实施例对此并无限制。

在上述实施例中，本申请提出可微分的特征压缩层NetPCA，用于压缩CNN模型中的特征。基于该NetPCA层，整个用于地点识别的CNN模型可真正实现端到端的训练，并且最终训练得到的CNN模型可以直接获得低维度、高区分度和具有良好泛化性的图像特征。另外，将NetPCA融入CNN模型训练，与将特征压缩作为模型后处理步骤相比，能够显著减小计算开销，大大降低算法陷入过拟合的风险。

图7-图8示例性示出本申请与相关技术中地点识别模型的性能比较。图7中f _VLAD对应的曲线表示具有32k维度的NetVLAD的性能；数字512、1024、2048和4096对应的曲线分别表示，基于本申请实施例的地点识别模型(NetVLAD+NetPCA)，压缩表示向量的维度(即第二维度)分别设置为512、1024、2048和4096时的性能。图8中数字512、1024、2048和4096对应的曲线则分别表示，使用传统PCA方法将NetVLAD所输出32k维度的图像特征分别压缩至512、1024、2048和4096维度时的性能。二图均基于Pitts250k的测试集绘制，横坐标表示数据集中最佳匹配项的数目，纵坐标表示查全率(Recall，也称召回率，单位为％)。

从图7可以看出，基于本申请实施例的地点识别模型，即使将NetPCA的输出维度设置为512，仍表现出与NetVLAD的32k维度图像特征相当的性能。由此可见，本申请实施例能够以显著减小的计算开销达到NetVLAD相当的性能，实现了通过端到端训练获得高区分度的图像特征。

从图7与图8对比可以看出，在输出维度相同的情况下，本申请实施例的地点识别模型，要明显优于在NetVLAD后进行常规PCA降维处理的性能。

图9是根据一示例性实施例示出的一种地点识别方法的流程图。如图9所示，该地点识别方法可以由任意计算设备执行，可包括以下步骤910-930。

在步骤910中，使用训练得到的CNN模型对采集的图像序列提取压缩表示向量。

这里步骤910中使用的CNN模型可通过上述任一实施例所描述的用于地点识别的模型训练方法训练得到。

在步骤930中，基于提取的压缩表示向量进行地点识别。

地点识别是识别查询图像对应的空间位置，步骤930的实施可参照图10的示意。经过步骤910，CNN模型对输入图像进行局部特征提取和聚合以及降维处理(图10中简化示为图像特征提取器)，最终得到图像的压缩表示向量f，从而将已进行过标记位置的图像数据库和待查询的图像，都投影到图像特征空间中。然后，对于待查询图像的压缩表示向量与数据库中样本图像的压缩表示向量，计算二者之间的相似度，如果待查询图像与数据库中最相似的图像的相似度满足某个阈值，则认为数据库中该图像的位置即待查询图像的位置。

基于本申请实施例提供的地点识别方法，通过在CNN模型中引入参数可训练的压缩过程，能够真正实现端到端的训练地点识别模型，得到的CNN模型能够直接获得低维度的图像特征，从而提高地点识别的性能。

下述为本申请装置实施例，可以用于执行本申请上述模型训练方法及地点识别方法的实施例。对于本申请装置实施例中未披露的细节，可参照本申请上述模型训练方法及地点识别方法实施例。

图11是根据一示例性实施例示出的一种用于地点识别的模型训练装置的框图。该模型训练装置，如图11所示，包括但不限于：特征提取模块1110、特征聚合模块1120、特征压缩模块1130及模型训练模块1140。

特征提取模块1110设置为：基于卷积神经网络CNN模型的第一部分提取样本图像的局部特征，所述样本图像包括至少一组在同一地点拍摄的多个图像；

特征聚合模块1120设置为：基于所述CNN模型的第二部分将所述局部特征聚合成具有第一维数的特征向量；

特征压缩模块1130设置为：基于所述CNN模型的第三部分得到所述特征向量的压缩表示向量，所述压缩表示向量具有小于所述第一维数的第二维数；以及

模型训练模块1140设置为：以使得所述在同一地点拍摄的多个图像对应的压缩表示向量之间的距离最小化为目标，调整所述第一部分、所述第二部分和所述第三部分的模型参数，直至得到满足预设条件的CNN模型。

在一个实施例中，所述特征压缩模块1130设置为：基于所述第三部分将所述特征向量投影至单位正交空间，得到所述压缩表示向量。

在一个实施例中，所述第三部分为所述CNN模型中接收所述特征向量输入的全连接层，所述全连接层包括数量为所述第二维数的神经元，每个神经元的权重矩阵为单位向量且具有所述第一维数，所述神经元的权重矩阵之间满足正交关系。

在一个实施例中，所述模型训练模块1140设置为：基于所述权重矩阵的正交约束项构建所述CNN模型的损失函数，所述正交约束项是通过各个所述神经元的权重矩阵，以及已知的单位向量得到的；可选的，该正交约束项G的表达式如上式(8)所示。

在一个实施例中，所述样本图像包括第一图像、拍摄地点与所述第一图像相同的多个第二图像、以及拍摄地点与所述第一图像不同的多个第三图像，所述特征向量包括与所述第一图像对应的第一特征向量、与所述第二图像对应的第二特征向量、以及与所述第三图像对应的第三特征向量。相应的，所述模型训练模块1140设置为：基于第一距离以及第二距离构建所述CNN模型的损失函数；所述第一距离是所述第一特征向量与所述第二特征向量之间的距离，所述第二距离是所述第一特征向量与所述第三特征向量之间的距离；以及将所述损失函数经所述CNN模型反向传播以更新所述模型参数，直至所述CNN模型满足预设的收敛条件。

在一个实施例中，所述模型训练模块1140构建的损失函数如上式(7)所示。

在一个实施例中，所述特征提取模块1110设置为：使用VGGNet结构提取所述样本图像的局部特征。

在一个实施例中，所述特征聚合模块1120设置为：使用NetVLAD结构将所述局部特征聚合成所述特征向量。

基于本申请实施例提供的模型训练装置，通过在CNN模型中引入参数可训练的压缩过程，能够真正实现端到端的训练地点识别模型，得到的CNN模型能够直接获得低维度的图像特征，从而提高地点识别的性能。

图12是根据一示例性实施例示出的一种地点识别装置的框图。该地点识别装置，如图12所示，包括但不限于：提取模块1210和识别模块1220。

提取模块1210设置为使用训练得到的CNN模型对采集的图像提取压缩表示向量。这里，提取模块1210中使用的CNN模型可通过上述任一实施例所描述的用于地点识别的模型训练装置训练得到。

识别模块1220设置为基于提取模块1210提取的压缩表示向量进行地点识别。

在一个实施例中，提取模块1210使用训练得到的CNN模型对输入图像进行局部特征提取和聚合以及降维处理，最终得到图像的压缩表示向量f，从而将已进行过标记位置的图像数据库和待查询的图像，都投影到图像特征空间中。然后，对于待查询图像的压缩表示向量与数据库中样本图像的压缩表示向量，识别模块1220计算二者之间的相似度，如果待查询图像与数据库中最相似的图像的相似度满足某个阈值，则认为数据库中该图像的位置即待查询图像的位置。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种用于地点识别的模型训练方法，其特征在于，所述方法由计算机设备执行，所述方法包括：

基于卷积神经网络CNN模型的第一部分提取样本图像的局部特征，所述样本图像包括至少一组在同一地点拍摄的多个图像；

基于所述CNN模型的第二部分将所述局部特征聚合成具有第一维数的特征向量；

基于所述CNN模型的第三部分得到所述特征向量的压缩表示向量，所述压缩表示向量具有小于所述第一维数的第二维数；以及

以使得所述在同一地点拍摄的多个图像对应的压缩表示向量之间的距离最小化为目标，调整所述第一部分、所述第二部分和所述第三部分的模型参数，直至得到满足预设条件的CNN模型。
如权利要求1所述的方法，其特征在于，所述的基于所述CNN模型的第三部分得到所述特征向量的压缩表示向量，包括：

基于所述第三部分将所述特征向量投影至单位正交空间，得到所述压缩表示向量。
如权利要求2所述的方法，其特征在于，所述第三部分为所述CNN模型中接收所述特征向量输入的全连接层，所述全连接层包括数量为所述第二维数的神经元，每个神经元的权重矩阵为单位向量且具有所述第一维数，所述神经元的权重矩阵之间满足正交关系。
如权利要求3所述的方法，其特征在于，所述的调整所述第一部分、所述第二部分和所述第三部分的模型参数，包括：

基于所述权重矩阵的正交约束项构建所述CNN模型的损失函数，所述正交约束项是通过各个所述神经元的权重矩阵，以及已知的单位向量得到的。
如权利要求1或3所述的方法，其特征在于，所述样本图像包括第一图像、拍摄地点与所述第一图像相同的多个第二图像、以及拍摄地点与所述第一图像不同的多个第三图像，所述特征向量包括与所述第一图像对应的第一特征向量、与所述第二图像对应的第二特征向量、以及与所述第三图像对应的第三特征向量，所述的调整所述第一部分、所述第二部分和所述第三部分的模型参数，还包括：

基于第一距离以及第二距离构建所述CNN模型的损失函数；所述第一距离是所述第一特征向量与所述第二特征向量之间的距离，所述第二距离是所述第一特征向量与所述第三特征向量之间的距离；以及

将所述损失函数经所述CNN模型反向传播以更新所述模型参数，直至所述CNN模型满足预设的收敛条件。
如权利要求5所述的方法，其特征在于，所述的基于第一距离以及第二距离构建所述CNN模型的损失函数，包括：

将所述损失函数构建为

其中L为所述损失函数，l表示最大边界损失，q为所述第一特征向量，
为第i个所述第二特征向量，
为第j个所述第三特征向量，m为边界常数，d表示求向量距离，min表示求最小值。
如权利要求1-4任一项所述的方法，其特征在于，所述的基于卷积神经网络CNN模型的第一部分提取样本图像的局部特征，包括：

使用视觉几何组网络VGGNet结构提取所述样本图像的局部特征。
如权利要求1-4任一项所述的方法，其特征在于，所述的基于所述CNN模型的第二部分将所述局部特征聚合成具有第一维数的特征向量，包括：

使用局部聚合描述子向量网络NetVLAD结构将所述局部特征聚合成所述特征向量。
一种地点识别方法，其特征在于，包括：

使用卷积神经网络CNN模型对采集的图像提取压缩表示向量，所述CNN模型根据权利要求1至8中任一项所述的方法训练得到；以及

基于所述提取的压缩表示向量进行地点识别。
一种用于地点识别的模型训练装置，其特征在于，所述装置包括：

特征提取模块，设置为基于卷积神经网络CNN模型的第一部分提取样本图像的局部特征，所述样本图像包括至少一组在同一地点拍摄的多个图像；

特征聚合模块，设置为基于所述CNN模型的第二部分将所述局部特征聚合成具有第一维数的特征向量；

特征压缩模块，设置为基于所述CNN模型的第三部分得到所述特征向量的压缩表示向量，所述压缩表示向量具有小于所述第一维数的第二维数；以及

模型训练模块，设置为以使得所述在同一地点拍摄的多个图像对应的压缩表示向量之间的距离最小化为目标，调整所述第一部分、所述第二部分和所述第三部分的模型参数，直至得到满足预设条件的CNN模型。
一种地点识别装置，其特征在于，包括：

提取模块，设置为使用卷积神经网络CNN模型对采集的图像提取压缩表示向量，所述CNN模型根据权利要求1至8中任一项所述的方法训练得到；以及

识别模块，设置为基于所述提取的压缩表示向量进行地点识别。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至8中任一项所述的用于地点识别的模型训练方法或根据权利要求9所述的地点识别方法。
一种电子设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至8中任一项所述的用于地点识别的模型训练方法或根据权利要求9所述的地点识别方法。