WO2019052403A1

WO2019052403A1 - 图像文本匹配模型的训练方法、双向搜索方法及相关装置

Info

Publication number: WO2019052403A1
Application number: PCT/CN2018/104565
Authority: WO
Inventors: 马林; 姜文浩; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-12
Filing date: 2018-09-07
Publication date: 2019-03-21
Anticipated expiration: 2020-03-12
Also published as: KR102235051B1; EP3683724A4; US11087166B2; CN110532571B; JP6887026B2; EP3683724A1; KR20190129110A; US20210312211A1; US20200019807A1; CN108288067A; JP2020522791A; CN108288067B; CN110532571A; US11699298B2

Abstract

一种图像文本匹配模型的训练方法、双向搜索方法及相关装置，涉及人工智能技术领域，该训练方法包括：提取图像样本和文本样本的全局表示和局部表示（201，202），训练匹配模型，确定所述匹配模型的模型参数，所述匹配模型用以根据图像的全局表示和局部表示以及文本的全局表示和局部表示确定图像和文本之间的匹配度（203）。得到的匹配度是基于将图像的细节特征到全局特征都考量在内，得到的匹配度更加准确和全面。

Description

图像文本匹配模型的训练方法、双向搜索方法及相关装置

本申请要求于2017年9月12日提交中国专利局、申请号为201710817344.5、申请名称为“图像文本匹配模型的训练方法、双向搜索方法及相关装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及图像文本匹配模型的训练方法、双向搜索方法及相关装置。

背景技术

图像与文本的理解一直是人工智能中最为重要的研究方向之一。其中一个重要的研究就是发掘图像和文本的关联关系。例如网页新闻中新闻文本内容和新闻图像表达的是相同的主题思想。也即，图像和文本之间并非绝对独立存在的，图像和文本之间存在匹配关系。故此，如何找到与给定图像匹配的文本，或者找到与给定文本匹配的图像成为业内关注的话题。

技术内容

本申请实施例提供图像文本匹配模型的训练方法及相关装置，可以全面衡量图像和文本之间的匹配度，使得得到的匹配度更加准确和全面。

本申请实施例提供的双向搜索方法及相关装置，可以在进行图像文本双向搜索时，得到更加准确的搜索结果。

本申请实施例提供的一种图像文本匹配模型的训练方法，所述方法由计算机实施，所述方法包括：

提取图像样本的全局特征和局部特征；以及，

提取文本样本的全局特征和局部特征；

根据提取的图像样本的全局特征和局部特征以及文本样本的全局特征和局部特征，训练匹配模型，确定所述匹配模型的模型参数，其中，所述匹配模型用以根据图像的全局特征和局部特征以及文本的全局特征和局部特征确定所述图像和所述文本之间的匹配度。

本申请实施例提供一种图像文本双向搜索方法，所述方法由计算机实施，所述方法包括：

接收参考样本，所述参考样本为文本或图像；

提取所述参考样本的全局特征和局部特征；

将所述参考样本的全局特征和局部特征输入匹配模型，以使所述匹配模型计算所述参考样本与相应素材的匹配度；其中，若所述参考样本为文本，则所述相应素材为图像；若所述参考样本为图像，则所述相应素材为文本；所述匹配模型能够基于所述参考样本的全局特征和局部特征以及所述相应素材的全局特征和局部特征确定所述参考样本和所述相应素材之间的匹配度；

选取匹配度大于指定匹配度的相应素材，作为与所述参考样本匹配的素材。

本申请实施例提供一种图像文本匹配模型的训练装置，所述装置包括：

图像特征提取模块，用于提取图像样本的全局特征和局部特征；

文本特征提取模块，用于提取文本样本的全局特征和局部特征；

训练模块，用于根据提取的图像样本的全局特征和局部特征以及文本样本的全局特征和局部特征，训练匹配模型，确定所述匹配模型的模型参数，其中，所述匹配模型用以根据图像的全局特征和局部特征以及文本的全局特征和局部特征确定所述图像和所述文本之间的匹配度。

本申请实施例提供一种图像文本双向搜索装置，所述装置包括：

参考样本接收模块，用于接收参考样本，所述参考样本为文本或图像；

参考样本特征提取模块，用于提取所述参考样本的全局特征和局部特征；

搜索模块，用于将所述参考样本的全局特征和局部特征输入匹配模型，以使所述匹配模型计算所述参考参考样本与相应素材的匹配度；其中，若所述参考样本为文本，则所述相应素材为图像；若所述参考样本为图像，则所述相应素材为文本；所述匹配模型能够基于所述参考样本的全局特征和局部特征以及所述相应素材的全局特征和局部特征确定所述参考样本和所述相应素材之间的匹配度；

选择模块，用于选取匹配度大于指定匹配度的相应素材，作为与所述参考样本匹配的素材。

本申请实施例提供一种计算设备，包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序指令执行本申请实施例任一所述的图像文本匹配模型的训练方法。

本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行如本申请实施例任一所述的图像文本匹配模型的训练方法。

本申请实施例提供一种计算设备，包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如本申请实施例所述的图像文本双向搜索方法。

本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行如本申请实施例所述的图像文本双向搜索方法。

附图说明

图1所示为本申请一些实施例提供的应用场景示意图；

图2A所示为本申请一些实施例提供的图像文本匹配模型的训练方法的流程示意图；

图2B所示为本申请一些实施例提供的图像文本匹配模型的训练方法的流程示意图；

图3所示为本申请一些实施例提供的匹配模型的框图；

图4所示为本申请一些实施例提供的计算图像特征的相似度的模型的框图；

图5所示为本申请一些实施例提供的对图像信息的类别的示意图；

图6所示为本申请一些实施例提取文本的全局表示的框图；

图7所示为本申请一些实施例提供的图像文本匹配模型的训练方法的流程示意图；

图8所示为本申请一些实施例提供的图像文本双向搜索方法的流程示意图；

图9所示为本申请一些实施例提供的图像文本匹配模型的训练装置的结构示意图；

图10所示为本申请一些实施例提供的图像文本双向搜索装置的结构示意图；

图11为本申请一些实施例提供的计算设备的结构示意图。

具体实施方式

为了便于理解本申请实施例提供的技术方案，下面结合说明书附图对本申请实施例作详细描述。

在一些实例中，通过以下两种方法实现图像与文本的匹配：

方法一、提取图像和文本各自的全局表示，将全局表示映射到相同的语义空间，在该语义空间建立图像和文本的全局表示之间的匹配关系，进而实现图像和文本的匹配。其中，全局表示反映了图像的全局特性，用于描述图像的整体特征，全局表示例如是颜色特征、形状特征和纹理特征等。

方法二、通过卷积神经网络得到图像的局部信息的局部表示。通过语法树信息得到文本的局部表示，进而学习图像与文本的局部表示的匹配关系。其中，局部表示反映了图像的局部信息，用于描述图像局部的细节特征。与全局表示相比，局部表示具有在图像中蕴含数量丰富，特征间相关度小，遮挡情况下不会因为部分特征的消失而影响其他特征的检测和匹配等的特点。

然而，以上两种方法中均采用单一方面的信息来进行图像和文本的匹配，即要么单独采用全局表示，要么单独采用局部表示。无论采用局部表示还是全局表示进行图像和文本的匹配，仅能从一个层面反映图像和文本之间的匹配度。对于内容丰富的图像，全局表示也许仅能够提取颜色特征、形状特征和纹理特征等，却无法展现局部表示的细节特征，故其能够反映的特征有限。而局部表示仅能从局部考量图像文本的匹配关系、无法体现出全局表示的特征。故此，以上两种方法都无法全面衡量图像和文本之间的匹配度。

为了能够全面的对图像和文本进行匹配，得到更加准确的匹配度，本申请实施例中，根据以下方法训练图像文本匹配模型，具体的：

提取图像样本的全局特征和局部特征；以及，

提取文本样本的全局特征和局部特征；

根据提取的图像样本的全局特征和局部特征以及文本样本的全局特征和局部特征，训练匹配模型，确定所述匹配模型的模型参数，其中，所述匹配模型用以根据图像的全局特征和局部特征以及文本的全局特征和局部特征确定图像和文本之间的匹配度。

这样，得到的匹配度是基于图像和文本各自的全局表示和局部表示。将图像的细节特征到全局特征都考量在内，得到的匹配度更加准确和全面。故此，基于本申请实施例提供的匹配模型进行图像文本双向搜索时，搜索结果也会更加准确。

例如，可以参考图1，图1为本申请实施例提供的图像文本双向搜索方法的应用场景示意图。该场景例如可以包括终端设备11和服务器12。其中，所述终端设备11中可安装有各种客户端，如用于社交的博客客户端、微信客户端，用于了解时事的新闻客户端等。终端设备11的客户端和服务器12建立通信连接后，终端设备11的客户端可以对图像和/或文本提取全局特征和局部特征后发送给服务器12。或者终端设备11的客户端将图像和/或文本发送给服务器12，由服务器12提取图像和/或文本的全局特征和局部特征。然后，服务器12根据图像的全局特征和局部特征，基于该匹配模型搜索与该图像匹配的文本，或服务器12根据文本的全局特征和局部特征，基于该匹配模型搜索与该文本匹配的图像。然后，服务器12将搜索结果反馈给终端设备11。

其中，终端设备11和服务器12可通过通信网络进行通信连接，该网络可以为局域网、广域网等。终端设备11可以为手机、平板电脑、笔记本电脑、个人计算机等，服务器12可以为任何能够支持相应的图像文本匹配模型的训练和双向搜索的服务器设备。

需要说明的是，本申请实施例提供的方案，适用于任何需要根据文本检索图像，和/或，需要根据图像检索文本的场景中。例如，可以适用于云端相册管理(例如根据给定文本搜索出匹配的图像)，微信朋友圈，QQ空间，QQ众创空间，以及微信与QQ的聊天环境中的图像和/或文本的搜索。

参照图2A，为本申请实施例提供的图像文本匹配模型的训练方法的流程示意图，所述方法由计算机实施，该计算机可以为服务器12，包括以下步骤：

S21：提取图像样本的全局特征和局部特征。

S22：提取文本样本的全局特征和局部特征。

S23：根据提取的图像样本的全局特征和局部特征以及文本样本的全局特征和局部特征，训练匹配模型，确定所述匹配模型的模型参数，其中，所述匹配模型用以根据图像的全局特征和局部特征以及文本的全局特征和局部特征确定所述图像和所述文本之间的匹配度。

采用本申请提供的技术方案，根据图像样本及文本样本的全局特征及局部特征训练匹配模型，将图像及文本的局部特征到全局特征都考量在内，根据该训练得到的匹配模型确定的匹配度更加准确和全面。基于本申请实施例提供的匹配模型进行图像文本双向搜索时，搜索结果也会更加准确。

参照图2B，为本申请实施例提供的图像文本匹配模型的训练方法的流程图，该方法可以由图1所示的服务器12执行，包括以下步骤：

步骤201：提取图像样本的全局特征和局部特征。

在一些实施例中，所述全局特征为向量，用以表征对应图像的文本信息。图像样本的局部特征也为向量，向量的每一维信息表征图像的局部区域中含有对应词语类别的信息，例如，图像的局部区域中含有对应词语类别的信息的概率。步骤202：提取文本样本的全局特征和局部特征。

在一些实施例中，所述文本样本的全局特征用以表征文本样本的整体语义信息；文本样本的局部特征用以表征文本的局部语义信息的综合，其中，文本样本的局部特征更关注文本的局部信息，例如，单词，短语等。

需要说明的是，步骤201和步骤202的执行顺序不受限。

步骤203：根据提取的图像样本的全局特征和局部特征以及文本样本的全局特征和局部特征，训练匹配模型，确定所述匹配模型的模型参数，其中，所述匹配模型用以根据输入的图像的全局特征和局部特征以及输入的文本的全局特征和局部特征确定所述图像和所述文本之间的匹配度。

其中，所述方法在训练完匹配模型之后，还可根据训练的匹配模型确定图像和文本的匹配度，包括：

步骤204：针对所述输入的图像和文本，通过所述匹配模型将所述图像和所述文本各自的全局特征映射到指定语义空间，计算由所述图像和所述文本之间的全局特征的相似度；以及，将所述图像和所述文本各自的局部特征映射到所述指定语义空间，计算所述图像和所述文本之间的局部特征的相似度；并，根据全局特征的相似度的预设权值，以及局部特征的相似度的预设权值，采用加权求和的方式，确定所述图像和所述文本之间的所述匹配度。

如图3所示，为本申请实施例提供的图像文本匹配模型的一种框图：在图3中，针对输入的图像310，采用局部图像CNN(Convolutional Neural Network，卷积神经网络)311提取图像的局部表示(也称为局部特征)(如图中312所示)；并，采用全局图像CNN 313提取图像的全局表示(也称为全局特征)(如图中314所示)。针对输入的文本320，采用局部文本编码器321提取文本的局部表示(也称为局部特征)(如图中322所示)，并采用全局文本编码器323提取文本的全局表示(也称为全局特征)(如图中324所示)。在提取了图像310和文本320的局部表示和全局表示后，通过局部深度匹配将图像310和文本320各自的局部表示映射到指定语义空间，并在该指定语义空间中确定图像310和文本320构成的异构样本对(也称为图像文本对)之间的局部特征的相似度；同理，通过全局深度匹配将图像310和文本320各自的全局特征映射到指定语义空间，并在该指定语义空间中确定图像310和文本320构成的异构样本对之间的全局特征的相似度。然后，通过模型集成，根据全局特征的相似度的预设权值，以及局部特征的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度。

为便于理解，本申请实施例提供图像文本匹配模型的训练方法，通过以下内容进行说明。

1)、关于映射到指定语义空间：

在一些实施例中，为了能够准确的得到图像和文本之间的全局表示的相似度以及局部表示的相似度，本申请实施例中，将图像样本和文本样本各自的全局表示映射到指定语义空间，具体包括：

分别将图像样本和文本样本各自的全局表示通过至少两层全连接层，映射到指定语义空间；

将图像样本和文本样本各自的局部表示映射到指定语义空间，具体包括：

分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层映射到指定语义空间；

其中，全连接层是卷积神经网络的基本结构中的一层；全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来；其中，全连接层用以将图像和文本的全局特征及局部特征映射到所述指定语义空间，其中，全连接操作指通过全连接层进行映射到指定语义空间的操作。全连接层的参数根据预置目标函数训练获得，该预置目标函数用于实现语义关联的异构样本对(图像文本对)的相似度高于非语义关联的异构样本对的相似度；或者，该预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。

本申请实施例中，通过多个全连接层来准确的分析文本和图像各自的全局表示和局部表示，以便于将文本和图像的全局表示和局部表示映射到同一语义空间中。而且，全连接层的参数是根据预置目标函数确定的。通过预置目标函数能够实现根据实际情况，准确确定出异构文本对的相似度(该相似度为全局表示的相似度，或局部表示的相似度)。

此外，通过多个全连接层，可以对文本与图像描述进行多层的非线性变换，进而可以挖掘图像与文本之间的直接匹配关系。

若预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度，该预置目标函数可如公式(1)所示：

其中，

表示预置目标函数；

及

表示文本样本；

及

表示图像样本；当确定全局表示的相似度时，d()表示文本样本和图像样本的全局表示的相似度；当确定局部表示的相似度时，d()表示文本样本和图像样本的局部表示的相似度；λ ₁和λ ₂均表示预置系数；

表示语义关联的异构样本对的相似度；

和

均表示非语义关联的异构样本对的相似度；μ ₁和μ ₂均表示预设阈值。

考虑到一般一个图像都会与多个样本语义关联。例如，一幅风景图像中天空有鸟飞过，水里有鱼儿游泳，那么对应的语义可以包括鸟儿在天空飞翔和鱼儿在水里游来游去。故此，为了提高匹配模型的准确性，需要使得与同一图像语义关联的文本之间的相似度，也要高于这些文本与其他图像具有语义关联关系的文本之间的相似度。预置目标函数在满足如公式(1)所述条件的基础上，需要同时要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。为达到该目的，同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的公式如公式(2)所示：

L(S _i,S _l,S _j)＝max(0,u ₃+d(S _i,S _l)-d(S _i,S _j))

(2)其中，L(S _i,S _l,S _j)表示要求同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度的预置目标函数；S _i,S _l表示同一图像样本语义关联的文本样本；S _i,S _j表示不同图像样本关联的文本样本；当确定全局表示的相似度时，d()表示文本样本之间的全局表示的相似度；当确定局部表示的相似度时，d()表示文本样本之间的局部表示的相似度；u ₃表示预设阈值。

当然，具体实施时，可以将公式(1)和公式(2)进行整合，得到如公式(3)或公式(4)所述形式的预置目标函数，得到的预置目标函数能够满足上述如公式(1)和公式(2)所述的要求：

需要说明的是，具体实施时，可以根据预置目标函数的要求设计具体的数学表达方式，本申请实施例对此不作限定。

根据预置目标函数的作用，可以训练如图4所示的深度匹配模型。该深度匹配模型用以确定图像和文本之间的匹配度。图4中，左侧输入图像的特征向量(image embedding)(该特征向量为全局特征或局部特征的特征向量)，右侧输入文本的特征向量(sentence embeding)(该特征向量为全局特征的特征向量或局部特征的特征向量)。图像和文本的特征向量映射到同一指定语义空间后，计算特征向量之间的距离。例如，图4中，

S _m表示文本的特征向量，I ₁和I _n表示图像的特征向量。在该指定语义空间中，计算图像和文本之间的距离。若采用的特征向量为用于表示全局特征的特征向量，则计算的结果为全局特征之间的相似度，若采用的特征向量为表示局部特征的特征向量，则计算的结果为局部特征之间的相似度。

2)关于图像样本全局表示(全局特征)和局部表示(局部特征)的提取：

本申请实施例对提取图像的全局特征不作限定。例如采用图像的卷积神经网络的全连接层的特征表示图像的全局表示，如前述的CNN，这里的CNN可以选择但不限于VGG(Very Deep Convolutional Networks for Large-Scale Image Recognition，大规模图像识别的深度卷积网络)，ResNet(Residual Networks，残差网络)，Inception,Inception V3,Inception V4等。当然，也可以采用FCN(Fully Convolutional Networks for Semantic Segmentation，全卷积网络)等网络模型来提取图像的全局表示。

这里，对本申请实施例提供的提取图像样本的局部表示进行说明，具体可执行为：

将图像样本划分为指定数量的图像块，针对每个图像块，计算该图像块中包含指定类别的图像信息的概率；并，

选取指定数量的图像块中各指定类别的图像信息的最大概率；由各指定类别的图像信息的最大概率构成图像样本的局部特征。

例如，如图5所示，图5中Image CNN表示采用图像CNN提取图像块的特征。本申请的重点在于，对于给定的一幅图像，对其进行分块后，提取各图像块的特征。假设图像信息的类别共有5种，分别为人、草地、天空、狗和猫。若假设提取的图像块有4个，则针对每个图像块计算该图像块包括以上5种类别的图像信息的概率。然后，针对每种类别，从4个图像块的该类别的概率中选取最大概率。由各类别的最大概率构成图像样本的全局表示。

当然需要说明的是，具体实施时，也可以针对每种类别，比较该类别的最大概率与对应概率阈值，来判断样本图像中是否至少有一个图像块包含该类别的图像信息。例如，对于人这一类别，其在4个图像块中最大概率为0.99，对应概率阈值为0.8，则说明4个图像块中至少有一个图像块包含人。

3)、关于文本样本全局表示(全局特征)和局部表示(局部特征)的提取：

本申请实施例中，为了能够更好的提取出文本样本的全局表示，包括以下步骤：

对文本样本进行分词；

针对每个分词，确定该分词的向量，其中，不同分词的向量长度相同；

将同一文本样本的分词的向量，输入给用于提取文本的全局特征的卷积神经网络，得到该文本样本的全局特征；其中，用于提取文本样本的全局特征的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入，该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。

例如，具体实施时可用如下公式(5)表示卷积层的卷积操作：

其中，

在公式(5)中，r表示指定大小的视野域；l-1表示第l-1层卷积层(即上一层卷积层)；l表示第l层卷积层(即下一层卷积层)；W _l,f表示乘积矩阵；f表示第f个特征；i表示第i个位置信息；

表示第l层卷积层提取的特征对应i位置的f特征。

其中，池化层的操作可以用如下公式(6)表示：

其中，

表示池化层的输出；l+1表示池化层；

表示第l层提取的第M×i特征；M表示一个常数用于控制池化操作的大小。

例如如图6所示，例如输入的文本为“a young child run through a large field of grass”，通过文本卷积神经网络(即图中的Sentence CNN)来提取文本的全局表示。具体的，该Sentence CNN中包括多个卷积层convolution来提取文本的特征，然后通过最大池化层(max-pooling)来对卷积层提取的特征进行整合降维，从而得到文本的全局表示。

这样，本申请实施例通过多个卷积层实现对文本样本特征的提取，然后通过池化层来过滤无用的特征信息。而其中，在使用多个卷积层进行卷积操作时，采用的是指定大小的视野域，由于该视野域中包括了多个分词的特征，所以相当于实现了文本样本的全局表示中学习了相邻分词之间的组织以及交互信息，使得最终提取的全局表示更加合理准确。

具体实施时，可以采用word2vec工具将每个分词用一个定长的向量来表示。

此外，用于提取文本的全局表示的神经网络可以是卷积神经网络，也可以是RNN(Recurrent Neural Networks，循环神经网络)。

文本样本的局部表示可以采用多种方法提取，可以更集中于每一个分词，譬如采用传统的TF-IDF(term frequency–inverse document frequency)表示，或者Fisher Vector作用于每一个分词的向量上，或者分词的向量的平均值。这样的表示更加集中于分词本身，而不是整体考虑每个分词跟分词之间的相关性，故此可以被认为是文本的局部表示。

下面，对本申请实施例中基于上述匹配模型的图像文本双向搜索方法进行说明。

如图7所示，为本申请实施例中提供的图像文本匹配模型的训练方法的具体实施例的流程示意图，该方法包括以下步骤：

步骤701：基于全局图像表示CNN提取图像样本的全局表示。

步骤702：将图像样本划分为指定数量的图像块，基于局部图像CNN针对每个图像块，计算该图像块中包含指定类别的图像信息的概率；并，选取指定数量的图像块中各指定类别的图像信息的最大概率；由各指定类别的图像信息的最大概率构成图像样本的局部表示。

步骤703：对文本样本进行分词；针对每个分词，确定该分词的向量，其中，不同分词的向量长度相同；将同一文本样本的分词的向量，输入给预先构建的用于提取文本的全局表示的卷积神经网络，得到该文本样本的全局表示；其中，用于提取文本样本的全局表示的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入，该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。

步骤704：提取文本样本的局部表示。

其中，步骤701-步骤704的执行顺序不受限。

步骤705：分别将图像样本和文本样本各自的全局表示通过至少两层全连接层，映射到指定语义空间，并计算由图像样本和文本样本构成的异构样本对(图像文本对)之间的全局表示的相似度，其中，全连接层的参数根据预置目标函数训练获得。

步骤706：分别将图像样本和文本样本的各自的局部表示通过至少两层全连接层，映射到指定语义空间，计算异构样本对(图像样本对)之间的局部表示的相似度，其中，全连接层的参数根据预置目标函数训练获得。

其中，步骤705和步骤706的执行顺序不受限。

此外，预置目标函数已在上述实施例中说明，此处不再赘述。

步骤707：根据全局表示的相似度的预设权值，以及局部表示的相似度的预设权值，采用加权求和的方式，确定异构样本对的匹配度。

本申请实施例中，通过图像块提取图像的局部表示，通过多个卷积层和池化层提取文本的全局表示，能够得到文本的分词之间的关联关系，使得提取的特征更加准确和全面。然后，通过预置目标函数使得语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度，从而使得最终相似度的计算更加符合实际需求，提高图像和文本匹配的准确性。

如图8所示，为基于上述实施例中的匹配模型的图像文本双向搜索方法的流程图，所述方法由计算机实施，该计算机可以为服务器12，所述方法包括以下步骤：

步骤801：接收参考样本，所述参考样本为文本或图像。

步骤802：提取所述参考样本的全局特征和局部特征。

步骤803：将所述参考样本的全局特征和局部特征输入匹配模型，以使所述匹配模型计算所述参考样本与相应素材的匹配度；其中，若所述参考样本为文本，则所述相应素材为图像；若所述参考样本为图像，则所述相应素材为文本；所述匹配模型能够基于所述参考样本的全局特征和局部特征以及所述相应素材的全局特征和局部特征确定所述参考样本和所述相应素材之间的匹配度。

其中，可以建立素材库，计算参考样本与素材库中各相应素材的匹配度。具体计算匹配度的方法已在上述实施例中说明，这里不再赘述。

步骤804：选取匹配度大于指定匹配度的相应素材，作为与所述参考样本匹配的素材。

本申请实施例实现了基于全局表示和局部表示的匹配模型来搜索参考样本的相应素材，使得最终得到的匹配结果更加准确。例如搜索与文本匹配的图像，或者搜索与图像匹配的问题。

基于与上述实施例相同的发明构思，本申请实施例还提供一种图像文本匹配模型的训练装置，该装置的原理和有益效果与上述方法实施例中所述内容相似，在此不再赘述。

如图9所示，为该装置的结构示意图，所述装置包括：

图像特征提取模块901，用于提取图像样本的全局特征和局部特征；

文本特征提取模块902，用于提取文本样本的全局特征和局部特征；

训练模块903，用于根据提取的图像样本的全局特征和局部特征以及文本样本的全局特征和局部特征，训练匹配模型，确定所述匹配模型的模型参数，其中，所述匹配模型用以根据输入的图像的全局特征和局部特征以及输入的文本的全局特征和局部特征确定所述图像和所述文本之间的匹配度。

在一些实例中，通过所述匹配模型将所述图像和所述文本各自的全局特征映射到指定语义空间，计算所述图像和所述文本之间的全局特征的相似度；以及，将所述图像和所述文本各自的局部特征映射到所述指定语义空间，计算所述图像和所述文本之间的局部特征的相似度；并，根据全局特征的相似度的预设权值，以及局部特征的相似度的预设权值，采用加权求和的方式，确定所述图像和所述文本之间的所述匹配度。

在一些实例中，所述匹配模型包括至少两层全连接层，所述匹配模型包括至少两层全连接层，所述匹配模型的模型参数包括所述至少两层全连接层的参数；

训练模块903，具体包括：

全局训练单元9031，用于将所述图像样本和所述文本样本各自的全局特征通过所述至少两层全连接层，映射到指定语义空间；；

局部训练单元9032，用于将所述图像样本和所述文本样本的各自的局部特征通过所述至少两层全连接层，映射到所述指定语义空间；

根据映射的结果及预置目标函数确定所述至少两层全连接层的参数，其中，所述预置目标函数用于实现语义关联的图像文本对的相似度高于非语义关联的图像文本对的相似度；或者，

所述预置目标函数用于实现语义关联的图像文本对的相似度高于非语义关联的图像文本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。

在一些实例中，所述预置目标函数用于实现语义关联的图像文本对的相似度高于非语义关联的图像文本对的相似度；

其中，所述映射结果包括：通过所述至少两层全连接层的参数表示的所述图像样本的全局特征及局部特征、以及通过所述至少两层全连接层的参数表示的所述文本样本的全局特征及局部特征；

所述训练模块903，用以：

根据所述至少两层全连接层参数表示的所述图像样本的全局特征及局部特征以及所述至少两层全连接层参数表示的所述文本样本的全局特征及局部特征，确定所述至少两层全连接层参数表示的语义关联的图像文本对的相似度，以及所述至少两层全连接层参数表示的非语义关联的图像文本对的相似度；

将所述至少两层全连接层参数表示的语义关联的图像文本对的相似度、所述至少两层全连接层参数表示的非语义关联的图像文本对的相似度输入所述预置目标函数，确定所述至少两层全连接层的参数。

若预置目标函数用于实现语义关联的异构样本对的相似度高于非语义关联的异构样本对的相似度，该预置目标函数为：

其中，

表示预置目标函数；

表示文本样本；

表示语义关联的异构样本对的相似度；

和

在一些实例中，所述预置目标函数用于实现语义关联的图像文本对的相似度高于非语义关联的图像文本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度；

其中，所述映射结果包括：所述至少两层全连接层参数表示的图像样本的全局特征及局部特征以及所述至少两层全连接层参数表示的文本样本的全局特征及局部特征；

所述训练模块903，用以：

根据所述至少两层全连接层参数表示的图像样本的全局特征及局部特征以及所述至少两层全连接层参数表示的文本样本的全局特征及局部特征，确定所述至少两层全连接层参数表示的语义关联的图像文本对的相似度、所述至少两层全连接层参数表示的非语义关联的图像文本对的相似度、所述至少两层全连接层参数表示的同一图像样本关联的文本样本之间的相似度、所述至少两层全连接层参数表示的不同图像样本关联的文本样本之间的相似度；

将所述至少两层全连接层参数表示的语义关联的图像文本对的相似度、所述至少两层全连接层参数表示的非语义关联的图像文本对的相似度、所述至少两层全连接层参数表示的同一图像样本关联的文本样本之间的相似度、所述至少两层全连接层参数表示的不同图像样本关联的文本样本之间的相似度输入所述预置目标函数，确定所述至少两层全连接层的参数。

在一些实例中，通过以下之一确定所述预置目标函数：

其中，

其中，其中，LY为预置目标函数，

表征语义关联的图像文本对的相似度与非语义关联的图像文本对的相似度之间的关系，L(S _i,S _l,S _j)表征同一图像样本关联的文本样本之间的相似度与不同图像样本关联的文本样本之间的相似度之间的关系；

表示文本样本；

表示图像样本；当确定全局特征的相似度时，d()表示文本样本和图像样本的全局特征的相似度；当确定局部特征的相似度时，d()表示文本样本和图像样本的局部特征的相似度；λ ₁和λ ₂均表示预置系数；

表示语义关联的异构样本对(图像文本对)的相似度；

和

均表示非语义关联的异构样本对(图像文本对)的相似度；u ₁和u ₂均表示预设阈值；

其中，L(S _i,S _l,S _j)＝max(0,u ₃+d(S _i,S _l)-d(S _i,S _j))

S _i,S _l表示同一图像样本语义关联的文本样本；S _i,S _j表示不同图像样本关联的文本样本；当确定全局特征的相似度时，d()表示文本样本之间的全局特征的相似度；当确定局部特征的相似度时，d()表示文本样本之间的局部特征的相似度；u ₃表示预设阈值。

在一些实施例中，图像特征提取模块，具体用于将图像样本划分为指定数量的图像块，针对每个图像块，计算该图像块中包含指定类别的图像信息的概率；并，

在一些实施例中，文本特征提取模块，具体用于对文本样本进行分词；

基于与上述实施例相同的发明构思，本申请实施例还提供一种图像文本双向搜索装置，该装置的原理和有益效果与上述方法实施例中所述内容相似，在此不再赘述。

如图10所示，为该装置的结构示意图，所述装置包括：

参考样本接收模块1001，用于接收参考样本，所述参考样本为文本或图像；

参考样本特征提取模块1002，用于提取所述参考样本的全局特征和局部特征；

搜索模块1003，用于将所述参考样本的全局特征和局部特征输入匹配模型，以使所述匹配模型计算所述参考样本与相应素材的匹配度；其中，若所述参考样本为文本，则所述相应素材为图像；若所述参考样本为图像，则所述相应素材为文本；所述匹配模型能够基于所述参考样本的全局特征和局部特征以及所述相应素材的全局特征和局部特征确定所述参考样本和所述相应素材之间的匹配度；

选择模块1004，用于选取匹配度大于指定匹配度的相应素材，作为与所述参考样本匹配的素材。

本申请实施例还提供了一种计算设备，该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等。如图11所示，该计算设备可以包括中央处理器(Center Processing Unit，CPU)1101、存储器1102、输入设备1103，输出设备1104等，输入设备可以包括键盘、鼠标、触摸屏等，输出设备可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本申请实施例中，存储器可以用于存储图像文本匹配模型的训练方法和/或图像文本双向搜索方法的程序指令。处理器通过调用存储器存储的程序指令，处理器用于按照获得的程序指令执行：提取图像样本的全局特征和局部特征；以及，提取文本样本的全局特征和局部特征；根据提取的图像样本的全局特征和局部特征以及文本样本的全局特征和局部特征，训练匹配模型，确定所述匹配模型的模型参数，其中，所述匹配模型用以根据输入的图像的全局特征和局部特征以及输入的文本的全局特征和局部特征确定所述图像和所述文本之间的匹配度。

或者，处理器通过调用存储器存储的程序指令，处理器用于按照获得的程序指令执行：接收参考样本，所述参考样本为文本或图像；提取所述参考样本的全局特征和局部特征；将所述参考样本的全局特征和局部特征输入匹配模型，以使所述匹配模型计算所述参考样本与相应素材的匹配度；其中，若所述参考样本为文本，则所述相应素材为图像；若所述参考样本为图像，则所述相应素材为文本；所述匹配模型能够基于所述参考样本的全局特征和局部特征以及所述相应素材的全局特征和局部特征确定所述参考样本和所述相应素材之间的匹配度；选取匹配度大于指定匹配度的相应素材，作为与所述参考样本匹配的素材。

本申请提供了一种计算机存储介质，用于储存为上述计算设备所用的计算机程序指令，其包含用于执行上述图像文本匹配模型的训练方法和/或图像文本双向搜索方法的程序。

所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种图像文本匹配模型的训练方法，所述方法由计算机实施，所述方法包括：

提取图像样本的全局特征和局部特征；以及，

提取文本样本的全局特征和局部特征；

根据提取的图像样本的全局特征和局部特征以及文本样本的全局特征和局部特征，训练匹配模型，确定所述匹配模型的模型参数，其中，所述匹配模型用以根据输入的图像的全局特征和局部特征以及输入的文本的全局特征和局部特征确定所述图像和所述文本之间的匹配度。
根据权利要求1所述的方法，进一步包括：通过所述匹配模型将所述图像和所述文本各自的全局特征映射到指定语义空间，计算所述图像和所述文本之间的全局特征的相似度；以及，将所述图像和所述文本各自的局部特征映射到所述指定语义空间，计算所述图像和所述文本之间的局部特征的相似度；并，根据全局特征的相似度的预设权值，以及局部特征的相似度的预设权值，采用加权求和的方式，确定所述图像和所述文本之间的所述匹配度。
根据权利要求1所述的方法，其中，所述匹配模型包括至少两层全连接层，所述匹配模型的模型参数包括所述至少两层全连接层的参数；

其中，所述根据提取的图像样本的全局特征和局部特征以及文本样本的全局特征和局部特征，训练匹配模型，确定所述匹配模型的模型参数包括：将所述图像样本和所述文本样本各自的全局特征通过所述至少两层全连接层，映射到指定语义空间；将所述图像样本和所述文本样本的各自的局部特征通过所述至少两层全连接层，映射到所述指定语义空间；

根据映射的结果及预置目标函数确定所述至少两层全连接层的参数，其中，所述预置目标函数用于实现语义关联的图像文本对的相似度高于非语义关联的图像文本对的相似度；或者，

所述预置目标函数用于实现语义关联的图像文本对的相似度高于非语义关联的图像文本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度。
根据权利要求3所述的方法，其中，所述预置目标函数用于实现语义关联的图像文本对的相似度高于非语义关联的图像文本对的相似度；

其中，所述映射结果包括：通过所述至少两层全连接层的参数表示的所述图像样本的全局特征及局部特征、以及通过所述至少两层全连接层的参数表示的所述文本样本的全局特征及局部特征；

所述根据映射的结果及预置目标函数确定所述至少两层全连接层的参数包括：

根据所述至少两层全连接层参数表示的所述图像样本的全局特征及局部特征以及所述至少两层全连接层参数表示的所述文本样本的全局特征及局部特征，确定所述至少两层全连接层参数表示的语义关联的图像文本对的相似度，以及所述至少两层全连接层参数表示的非语义关联的图像文本对的相似度；

将所述至少两层全连接层参数表示的语义关联的图像文本对的相似度、所述至少两层全连接层参数表示的非语义关联的图像文本对的相似度输入所述预置目标函数，确定所述至少两层全连接层的参数。
根据权利要求4所述的方法，其中，

所述预置目标函数为：

其中，
表示预置目标函数；
表示文本样本；
表示图像样本；当确定全局特征的相似度时，d()表示文本样本和图像样本的全局特征的相似度；当确定局部特征的相似度时，d()表示文本样本和图像样本的局部特征的相似度；λ ₁和λ ₂均表示预置系数；
表示语义关联的图像文本对的相似度；
和
均表示非语义关联的图像文本对的相似度；μ ₁和μ ₂均表示预设阈值。
根据权利要求3所述的方法，其中，所述预置目标函数用于实现语义关联的图像文本对的相似度高于非语义关联的图像文本对的相似度、且同一图像样本关联的文本样本之间的相似度高于不同图像样本关联的文本样本之间的相似度；

其中，所述映射结果包括：所述至少两层全连接层参数表示的图像样本的全局特征及局部特征以及所述至少两层全连接层参数表示的文本样本的全局特征及局部特征；

其中，所述根据映射的结果及预置目标函数确定所述至少两层全连接层的参数包括：

根据所述至少两层全连接层参数表示的图像样本的全局特征及局部特征以及所述至少两层全连接层参数表示的文本样本的全局特征及局部特征，确定所述至少两层全连接层参数表示的语义关联的图像文本对的相似度、所述至少两层全连接层参数表示的非语义关联的图像文本对的相似度、所述至少两层全连接层参数表示的同一图像样本关联的文本样本之间的相似度、所述至少两层全连接层参数表示的不同图像样本关联的文本样本之间的相似度；

将所述至少两层全连接层参数表示的语义关联的图像文本对的相似度、所述至少两层全连接层参数表示的非语义关联的图像文本对的相似度、所述至少两层全连接层参数表示的同一图像样本关联的文本样本之间的相似度、所述至少两层全连接层参数表示的不同图像样本关联的文本样本之间的相似度输入所述预置目标函数，确定所述至少两层全连接层的参数。
根据权利要求6所述的方法，其中，通过以下之一确定所述预置目标函数：

其中，

其中，LY为预置目标函数，
表征语义关联的图像文本对的相似度与非语义关联的图像文本对的相似度之间的关系，L(S _i,S _l,S _j)表征同一图像样本关联的文本样本之间的相似度与不同图像样本关联的文本样本之间的相似度之间的关系；
表示文本样本；
表示图像样本；当确定全局特征的相似度时，d()表示文本样本和图像样本的全局特征的相似度；当确定局部特征的相似度时，d()表示文本样本和图像样本的局部特征的相似度；λ ₁和λ ₂均表示预置系数；
表示语义关联的图像文本对的相似度；
和
均表示非语义关联的图像文本对的相似度；u ₁和u ₂均表示预设阈值；

其中，L(S _i,S _l,S _j)＝max(0,u ₃+d(S _i,S _l)-d(S _i,S _j))

S _i,S _l表示同一图像样本语义关联的文本样本；S _i,S _j表示不同图像样本关联的文本样本；当确定全局特征的相似度时，d()表示文本样本之间的全局特征的相似度；当确定局部特征的相似度时，d()表示文本样本之间的局部特征的相似度；u ₃表示预设阈值。
根据权利要求1所述的方法，其中，提取图像样本的局部特征包括：

将图像样本划分为指定数量的图像块，针对每个图像块，计算该图像块中包含指定类别的图像信息的概率；并，

选取指定数量的图像块中各指定类别的图像信息的最大概率；由各指定类别的图像信息的最大概率构成图像样本的局部特征。
根据权利要求1所述的方法，其中，提取文本样本的全局特征，具体包括：

对文本样本进行分词；

针对每个分词，确定该分词的向量，其中，不同分词的向量长度相同；

将同一文本样本的分词的向量，输入给用于提取文本的全局特征的卷积神经网络，得到该文本样本的全局特征；其中，用于提取文本样本的全局特征的神经网络中包括多个卷积层以及连接在该多个卷积层之后的池化层、且上一层卷积层的指定大小的视野域作为下一层卷积层的输入，该指定大小的视野域包括该上一层卷积层提取的至少两个分词向量的特征。
一种图像文本双向搜索方法，所述方法由计算机实施，所述方法包括：

接收参考样本，所述参考样本为文本或图像；

提取所述参考样本的全局特征和局部特征；

将所述参考样本的全局特征和局部特征输入匹配模型，以使所述匹配模型计算所述参考样本与相应素材的匹配度；其中，若所述参考样本为文本，则所述相应素材为图像；若所述参考样本为图像，则所述相应素材为文本；所述匹配模型能够基于所述参考样本的全局特征和局部特征以及所述相应素材的全局特征和局部特征确定所述参考样本和所述相应素材之间的匹配度；

选取匹配度大于指定匹配度的相应素材，作为与所述参考样本匹配的素材。
一种图像文本匹配模型的训练装置，其中，所述装置包括：

图像特征提取模块，用于提取图像样本的全局特征和局部特征；

文本特征提取模块，用于提取文本样本的全局特征和局部特征；

训练模块，用于根据提取的图像样本的全局特征和局部特征以及文本样本的全局特征和局部特征，训练匹配模型，确定所述匹配模型的模型参数，其中，所述匹配模型用以根据图像的全局特征和局部特征以及文本的全局特征和局部特征确定所述图像和所述文本之间的匹配度。
一种图像文本双向搜索装置，其中，所述装置包括：

参考样本接收模块，用于接收参考样本，所述参考样本为文本或图像；

参考样本特征提取模块，用于提取所述参考样本的全局特征和局部特征；

搜索模块，用于将所述参考样本的全局特征和局部特征输入匹配模型，以使所述匹配模型计算所述参考参考样本与相应素材的匹配度；其中，若所述参考样本为文本，则所述相应素材为图像；若所述参考样本为图像，则所述相应素材为文本；所述匹配模型能够基于所述参考样本的全局特征和局部特征以及所述相应素材的全局特征和局部特征确定所述参考样本和所述相应素材之间的匹配度；

选择模块，用于选取匹配度大于指定匹配度的相应素材，作为与所述参考样本匹配的素材。
一种计算设备，其中，包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如权利要求1-9任一所述的图像文本匹配模型的训练方法。
一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行如权利要求1-9任一所述的图像文本匹配模型的训练方法。
一种计算设备，其中，包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如权利要求10所述的图像文本双向搜索方法。
一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行如权利要求10所述的图像文本双向搜索方法。