CN106021402A

CN106021402A - 用于跨模态检索的多模态多类Boosting框架构建方法及装置

Info

Publication number: CN106021402A
Application number: CN201610316164.4A
Authority: CN
Inventors: 王世勋; 潘鹏; 孙林; 张仕光; 李源
Original assignee: Henan Normal University
Current assignee: Henan Normal University
Priority date: 2016-05-13
Filing date: 2016-05-13
Publication date: 2016-10-12

Abstract

本发明涉及用于跨模态检索的多模态多类Boosting框架构建方法及装置，该方法包括：构造目标风险函数，目标风险函数包括各个模态的模态内损耗和各个模态之间的模态间损耗；根据梯度下降策略，依次更新风险函数中每一个模态的预测器，而固定其他模态的预测器，当所有模态的预测器均被更新后，称为一次循环迭代，如此经过T次循环迭代，学习出使目标函数最小的各个模态的最优预测器；利用Sigmoid函数将各个模态的最优预测器所产生的拟边缘转换到一个共同的语义空间，以实现跨模态检索。本发明的方法考虑到模态间的语义相关性，在一定程度上可以增强那些质量较差的模态内语义信息，在跨模态检索的任务中拥有较好的性能。

Description

用于跨模态检索的多模态多类Boosting框架构建方法及装置

技术领域

本发明属于信息检索领域，具体涉及一种用于跨模态检索的多模态多类Boosting框架构建方法及装置。

背景技术

Boosting分类方法核心思想是把多个弱分类器结合成一个强分类器，该方法已经在计算机视觉与模式识别等应用领域得到了广泛的研究，并取得了较好的效果。尽管如此，传统的Boosting方法仅从单个模态的数据集中学习分类规则，并不能直接地处理多模态数据集。一般而言，通过把每个模态的数据集单独地映射到语义空间，传统的Boosting方法可以应用于跨模态检索。但是，这个方案并没有考虑至关重要的模态间信息，从而在一定程度上降低了检索的性能。

目前，如何表示多媒体数据的底层特征是信息检索领域的重要环节。在这种背景下，众多的研究学者已取得了大量的研究成果，例如图像的SIFT特征、文本的LDA特征以及音频的MFCC特征。然而上述的底层内容特征在维度与属性方面均不相同，这使得不同模态的多媒体数据之间存在异构性与不可比性。实际上，根据一段叙述“黄鹤楼”历史背景的文本数据，用户可能想检索到一幅描述“黄鹤楼”画面的图像数据。在此情况下，虽然文本与图像数据都可以表达出“黄鹤楼”的语义信息，但是传统的单模态检索方法并不能在底层特征上直接计算出它们的相关性。如果关于“黄鹤楼”的文本与图像数据被映射到一个共同的语义空间，那么用户的跨模态检索需求便很容易地得到执行。

在语义空间的学习过程中，词汇表与映射机制均起到了重要的作用。前者限定了语义空间的维度，而后者可以把底层的内容特征投影成高层的语义特征。假设V＝{v₁,...,v_K}表示由K个不同语义概念所组成的语汇表，这些词汇是令人感兴趣的语义类，例如具体的主题与对象的属性。利用这个词汇表，我们可以从数据集中学习出一个映射机制。对于任意的单模态数据x，该映射机制可以给出它属于每一个语义概念v_k的得分。语义空间的每一维对应于词汇表中的每一个概念，因此得分向量π可看作单模态数据在语义空间的语义特征表示。

根据语义标签变量s的不同取值，单模态数据x可以拥有两种不同类型的语义特征表示。如果标签变量s∈{1,...,K}，那么单模态数据x的语义特征表示是后验的类概率向量，即得分向量π的元素和等于1。在这种情况下，词汇表中的语义概念是互相排斥的，因此单模态数据x只能属于一个语义类。如果标签变量s∈{0,1}^K，那么得分向量π的元素和不等于1。在这种情况下，词汇表中的语义概念不是互相排斥的，因而单模态数据x可以同时属于多个语义类别。这两种语义表示分别反映了单模态数据集的两个意图：1)利用具体的语义类别，单模态数据集可以被划分为多个不相交的集合；2)众多的单模态数据可以共享对象的语义属性。通过简单的两层框架，这两个语义意图可以被结合起来。首先，通过第一层的分类器，单模态数据集被表示成语义属性的得分向量；然后，这些向量被第二层的分类器映射到由具体语义类所构成的语义空间。

在语义空间中，单模态数据的语义特征表示能体现出一些优点。首先，语义的描述符是概念类的得分向量，这种表达方式给多媒体数据提供了较高层次的抽象意义。其次，与内容特征相比，语义特征拥有较低的维度与较高的判别性，这使得众多的计算机视觉任务能够被低维的分类器解决。第三，语义的特征表示可以捕获不同语义概念之间的语境关系。例如，属于“天空”类的大部分图像包含有“白云”的概念，因此，“白云”概念的出现意味着图像极有可能属于“天空”类。若“天空”与“白云”的语义特征元素拥有较高的得分，那么视觉系统就可以捕获到它们之间的语境关系。第四，文本分类器的性能通常优于图像分类器的性能，因此文本的语义特征显得更精确一些。通过跨模态的规范化调整，正则化矩阵可以用来去除图像语义特征的噪音。最后，根据语义概念的抽象性，语义空间可以为不同模态的数据提供一致的同构特征表示，这有利于跨模态检索的执行。

语义空间是一个概率单纯形(Probability Simplex)。一般情况下，对于词汇表的第k个语义概念，可以用两种类型的映射机制来计算数据x的后验概率

π_k＝P(s＝k|x) (1)

给出已标注的训练数据集，一种映射机制是学习出每个语义概念的条件分布P(x|s)，然后应用贝叶斯规则来计算公式(1)中的后验概率；另一种映射机制是学习出一个多类的分类器，使得公式(1)中的后验概率能被直接地估计出来，即直接的多类Boosting方法。

一般而言，单模态的多类Boosting方法可以把每个模态的数据单独地映射到语义空间，从而完成跨模态的匹配。但是这种方案并没有考虑模态间的相关性，在语义空间中可能会产生不理想的效果。图1给出了单模态与多模态的多类Boosting方法投影多模态数据的例子。在该图中，“Semantic Concept 1”表示“Sport”语义类，虚箭头与实箭头分别代表单模态与多模态的Boosting映射，符号“+”与“×”分别表示图像与文本在语义空间的特征表示。如果图像底层特征的质量比较差，那么由单模态的Boosting映射所产生的图像语义特征可能会偏离语义概念“Sport”。如图1的右上角所示，虽然文本的语义特征接近于正确的语义概念，但由于文本与图像的映射单独性，它并不能帮助图像提高其语义特征的质量。

为了避免这个问题，急需要一种多模态的多类Boosting方法，将模态内的语义信息与模态间的语义相关性结合起来，同时地分析多模态数据集，达到如图1的右下角所示的效果，即利用各个模态在语义空间的相关性，质量较好的模态语义特征可以增强其他语义特征的质量，使得模态间的语义距离缩短。

发明内容

本发明提供了用于跨模态检索的多模态多类Boosting框架构建方法及装置，旨在解决传统的Boosting方法应用于跨模态检索时检索性能不高的问题。

为解决上述技术问题，本发明的用于跨模态检索的多模态多类Boosting框架构建方法包括如下步骤：

1)构造目标风险函数R[f₁,...,f_M]，目标风险函数包括各个模态的模态内损耗和各个模态之间的模态间损耗，其中，f₁为第一个模态的预测器，f_M为第M个模态的预测器，M≥2；

2)根据梯度下降策略，依次更新目标风险函数中每一个模态的预测器，而固定其他M-1个模态的预测器，当所有模态的预测器均被更新后，称为一次循环迭代，如此经过T次循环迭代后，学习出使目标风险函数最小的各模态的最优预测器，其中T≥1；

3)将各模态的最优预测器所产生的拟边缘转换到一个共同的语义空间，以实现跨模态检索。

所述步骤2)中一次循环迭代的过程为：

A)根据梯度下降策略，计算各个模态文档的权重；

B)根据每一个模态文档的权重，求出在更新的预测器的邻近区域内，沿着多类学习器的方向的目标风险函数的一阶泛函偏导数，进而在泛函空间找到最大程度地减少风险的多类学习器，即在泛函空间找到最优方向；

C)利用步骤B)中所求出的多类学习器，求出沿着最优方向的最佳步长，根据最佳步长更新预测器。

步骤A)中在计算各个模态的权重时是基于各模态的多类指数损耗，某个模态的多类指数损耗定义为：其中，f(x)为某模态的预测器，K为语义词汇表中语义类的个数，＜f(x),c^k-c^s＞表示某模态的预测器关于第k个与第s个语义类的拟边缘差，c^k和c^s分别表示与第k个和第s个语义类对应的码本向量。

步骤A)中在计算各个模态的权重时是基于各模态的多类逻辑损耗，某个模态的多类逻辑损耗定义为：其中，f(x)为某模态的预测器，K为语义词汇表中语义类的个数，＜f(x),c^k-c^s＞表示某模态的预测器关于第k个与第s个语义类的拟边缘差，c^k和c^s分别表示与第k个和第s个语义类对应的码本向量。

所述风险函数R[f₁,...,f_M]表示为：

\begin{matrix} R [f_{1}, ..., f_{M}] = Σ_{m = 1}^{M} R_{m} [f_{m} (z^{m})] + Σ_{m = 1}^{M} Σ_{j > m}^{M} R_{m j} [f_{m} (z^{m}), f_{j} (z^{j})] \\ = Σ_{m = 1}^{M} Σ_{i = 1}^{N} L_{m} [s_{i}, f_{m} (z_{i}^{m})] + Σ_{m = 1}^{M} Σ_{j > m}^{M} Σ_{i = 1}^{N} | | C^{T} [f_{m} (z_{i}^{m}) - f_{j} (z_{z}^{j})] | |_{2}^{2} \end{matrix}

其中，表示第m个模态的第i个数据对象，而L_m[·]与f_m(·)分别表示第m个模态的多类损耗函数与预测器，表示第m个与第j个模态关于第i个数据的模态间损耗。

本发明的用于跨模态检索的多模态多类Boosting框架构建装置包括目标函数构建模块、最优预测器学习模块和语义空间转换模块；

目标函数构建模块，用于构造目标风险函数R[f₁,...,f_M]，目标风险函数包括各个模态的模态内损耗和各个模态之间的模态间损耗，其中，f₁为第一个模态的预测器，f_M为第M个模态的预测器，M≥2；

最优预测器学习模块，用于根据梯度下降策略，依次更新目标风险函数中每一个模态的预测器，而固定其他M-1个模态的预测器，当所有模态的预测器均被更新后，称为一次循环迭代，如此经过T次循环迭代后，学习出使目标风险函数最小的各模态的最优预测器，其中T≥1；

语义空间转换模块，用于将各模态的最优预测器所产生的拟边缘转换到一个共同的语义空间，以实现跨模态检索。

所述一次循环迭代的过程为：

A)根据梯度下降策略，计算各个模态文档的权重；

在计算各个模态的权重时是基于各模态的多类指数损耗，某个模态的多类指数损耗定义为：其中，f(x)为某模态的预测器，K为语义词汇表中语义类的个数，＜f(x),c^k-c^s＞表示某模态的预测器关于第k个与第s个语义类的拟边缘差，c^k和c^s分别表示与第k个和第s个语义类对应的码本向量。

在计算各个模态的权重时是基于各模态的多类逻辑损耗，某个模态的多类逻辑损耗定义为：其中，f(x)为某模态的预测器，K为语义词汇表中语义类的个数，＜f(x),c^k-c^s＞表示某模态的预测器关于第k个与第s个语义类的拟边缘差，c^k和c^s分别表示与第k个和第s个语义类对应的码本向量。

所述风险函数R[f₁,...,f_M]表示为：

\begin{matrix} R [f_{1}, ..., f_{M}] = Σ_{m = 1}^{M} R_{m} [f_{m} (z^{m})] + Σ_{m = 1}^{M} Σ_{j > m}^{M} R_{m j} [f_{m} (z^{m}), f_{j} (z^{j})] \\ = Σ_{m = 1}^{M} Σ_{i = 1}^{N} L_{m} [s_{i}, f_{m} (z_{i}^{m})] + Σ_{m = 1}^{M} Σ_{j > m}^{M} Σ_{i = 1}^{N} | | C^{T} [f_{m} (z_{i}^{m}) - f_{j} (z_{z}^{j})] | |_{2}^{2} \end{matrix}

本发明的有益效果是：本发明构造一个以实验为依据的目标风险函数，该风险结合了模态内与模态间的损耗。通过最小化目标函数，多模态多类的Boosting框架(Multimodal Multiclass Boosting，MMB)可以挖掘出模态内的语义信息与模态间的语义相关性。这两种类型的语义信息在一定程度上具有互补性，因此它们的结合有利于跨模态检索性能的提高。通过利用梯度下降策略来轮流地更新每一个模态的预测器，MMB框架可以轻松地解决多维泛函空间内的优化问题。基于Sigmoid函数，最优预测器所产生的拟边缘可以转换为语义概念类的后验概率，使得跨模态检索能够在语义空间中被执行。该方法一方面，模态内的语义信息反映了每个模态的语义表达能力，而通过最小化模态间损耗得到的模态间语义信息更关注于不同模态之间的相关性。这两种类型的语义信息在跨模态检索的过程中都有重要的作用，并且二者是互补的。因此，它们的结合有益于检索性能的提高。另一方面，通过最小化模态内的损耗，拥有高质量底层特征的模态数据能够获得质量较好的模态内语义信息；同时，模态间的语义相关性在一定程度上可以增强那些质量较差的模态内语义信息。因此，MMB框架在跨模态检索的任务中拥有较好的性能。

附图说明

图1为单模态与多模态的多类Boosting方法投影多模态数据的样例示意图；

图2为Wiki数据集上的PR曲线图，其中，左边的图是文本查询图像，右边的图是图像查询文本；

图3为Wiki数据集上的召回率曲线，其中，左边的图是文本查询图像，右边的图是图像查询文本；

图4为NUS-WIDE数据集上的PR曲线，其中，左边的图是文本查询图像，右边的图是图像查询文本；

图5为NUS-WIDE数据集上的召回率曲线，其中，左边的图是文本查询图像，右边的图是图像查询文本。

具体实施方式

下面结合附图，对本发明的技术方案作进一步详细介绍。

本发明的用于跨模态检索的多模态多类Boosting框架构建方法实施例

本实施例的用于跨模态检索的多模态多类Boosting框架构建方法将不同模态的数据映射到一个共同的语义空间，妥善地保存模态内的语义信息与模态间的语义相关性，具体步骤包括：

2)根据梯度下降策略，依次更新风险函数中每一个模态的预测器，而固定其他M-1个模态的预测器，当所有模态的预测器均被更新后，称为一次循环迭代，如此经过T次循环迭代，学习出使目标函数最小的各个模态的最优预测器；

3)利用Sigmoid函数将各个模态的最优预测器所产生的拟边缘转换到一个共同的语义空间，以实现跨模态检索。

本实施例的MMB框架可以应用于多种媒体信息检索中，如文本、图像、音频、视频等等，假设M表示模态的数目，那么以实验为依据的风险函数R[f₁,...,f_M]被相应地定义成如下的形式

\begin{matrix} R [f_{1}, ..., f_{M}] = Σ_{m = 1}^{M} R_{m} [f_{m} (z^{m})] + Σ_{m = 1}^{M} Σ_{j > m}^{M} R_{m j} [f_{m} (z^{m}), f_{j} (z^{j})] \\ = Σ_{m = 1}^{M} Σ_{i = 1}^{N} L_{m} [s_{i}, f_{m} (z_{i}^{m})] + Σ_{m = 1}^{M} Σ_{j > m}^{M} Σ_{i = 1}^{N} | | C^{T} [f_{m} (z_{i}^{m}) - f_{j} (z_{z}^{j})] | |_{2}^{2} \end{matrix} - - - (24)

其中表示第m个模态的第i个数据对象，而L_m[·]与f_m(·)分别表示第m个模态的多类损耗函数与预测器。

为了最小化公式(24)中的风险，我们可以先固定所有的预测器f_i(i≠1)，进而更新第一个模态的预测器。然后，我们固定更新后的预测器f₁与其它没有被更新的预测器f_i(i≠1,2)，从而更新第二个模态的预测器。按照这种方式，我们可以更新每一个模态的预测器。当最后一个模态的预测器被更新后，迭代过程进入下一次的循环，使得所有模态的最终预测器能够被共同地学习出来。因此，通过利用Sigmoid函数把每个模态的拟边缘转换到一个共同的语义空间，我们可以解决新的跨模态检索问题。

下面以文本和图像这两种模态对本实施例的MMB框架的构成进行详细阐述：

假设多模态数据集为(X,Y,S)＝{(x₁,y₁,s₁),...,(x_N,y_N,s_N)}，其中X与Y分别代表图像集与文本集，而S与N分别代表语义词汇表与多模态文档的数目。如果语义词汇表含有K个不同的语义类，那么训练集中的每一个图像与每一个文本均带有一个语义类s_i∈{1,...,K}，其中，表示实数空间。然而，测试集中的图像与文本并没有用语义类来标注。给出测试集中的一个图像(文本)查询，跨模态检索的目标是在被检索的文本(图像)空间中，寻找出语义相似的数据对象。在此基础上，我们给出了跨模态检索的形式化定义。

定义1：给出一个查询对象与被检索的数据集假设与分别代表查询对象与任意数据i∈O的语义特征向量，而d(·,·)表示距离度量。在条件a,b∈{I,T}且a≠b下，跨模态检索的本质是对集合O内的数据对象进行排序，使得的值逐渐增加。

如果K个不同的单位向量是中心位于原点的K-1维正则形的顶点，那么这些单位向量可以构成一个码本矩阵C＝[c¹,...,c^K]。因此，每一个语义类概念k可以用单位向量来重新编码。假设与分别代表图像与文本的预测器，那么它们关于第k个语义类的拟边缘可以分别地表示成＜f(x),c^k＞与＜u(y),c^k＞，其中＜·,·＞是标准的内积。为了寻找不同模态的最优预测器，我们定义了以实验为依据的风险函数

\begin{matrix} R [f, u] = R_{1} [f (x)] + R_{2} [u (y)] + R_{3} [f (x), u (y)] \\ = Σ_{i = 1}^{N} L_{1} [s_{i}, f (x_{i})] + Σ_{i = 1}^{N} L_{2} [s_{i}, u (y_{i})] + Σ_{i = 1}^{N} | | C^{T} [f (x_{i}) - u (y_{i})] | |_{2}^{2} \end{matrix} - - - (2)

其中L[·,·]表示多类损耗函数。在公式(2)中，前两项表达式分别地代表了图像与文本的模态内损耗，而最后一项表达式揭示了图像与文本的模态间损耗。模态内损耗通常可以精确地捕获每个模态数据的语义类信息，而模态间损耗可以挖掘不同模态数据之间的语义相关性。一般情况下，风险函数的最小化可以通过如下所示的优化问题来求解

\{\begin{matrix} \underset{f, u}{m i n} & R [f (x), u (y)] \\ s . t & f (x) &Element; s p a n (H), u (y) &Element; s p a n (\overset{&OverBar;}{H}) \end{matrix} - - - (3)

其中H＝{g_i(x)}与分别代表弱学习器与的集合，而span(·)表示由多类弱学习器的线性组合所构成的泛函空间。

本实施例采用了多类指数损耗和多类逻辑损耗。采用多类指数损耗的过程为：

多类损耗是拟边缘的非负函数，因此，图像与文本的多类指数损耗可以分别地定义为

L_{1} [s, f (x)] = Σ_{k = 1}^{K} \exp (< f (x), c^{k} - c^{s} >) - - - (4)

L_{2} [s, u (y)] = Σ_{k = 1}^{K} \exp (< u (y), c^{k} - c^{s} >) - - - (5)

上述两个公式中的多类指数损耗在Boosting多分类任务中具有贝叶斯一致性、多类边缘极大化与猜测背离性的优点。

对于公式(3)的优化问题，我们很难同时求解出最优的图像预测器与文本预测器。然而通过每次仅调整一个预测器，该优化问题可以轻易地得到解决。令f^t(x)与u^t(y)分别代表第t次Boosting迭代后的图像与文本预测器，不失一般性，我们可以首先固定文本预测器，进而执行图像预测器的更改过程。在预测器f^t(x)的邻近区域内，沿着多类弱学习器g(x)的方向，目标函数R[f(x),u^t(y)]的一阶泛函偏导数可表示为

\begin{matrix} δ R [f^{t}; g] = \frac{\partial R [f^{t} + ξ g, u^{t}]}{\partial ξ} |_{ξ = 0} \\ = - Σ_{i = 1}^{N} < g (x_{i}), P_{i} > \end{matrix} - - - (6)

其中

P_{i} = Σ_{k = 1}^{K} (c^{s_{i}} - c^{k}) \exp (< f^{t} (x_{i}), c^{k} - c^{s_{i}} >) - 2 {CC}^{T} (f^{t} (x_{i}) - u^{t} (y_{i})) - - - (7)

在第t+1次图像迭代的过程中，根据梯度下降策略，最大限度地减少风险的多类弱学习器g^*(x)可以表示为

\begin{matrix} g^{*} (x) = \arg \underset{g &Element; H}{m i n} δ R [f^{t}; g] \\ = \arg \underset{g &Element; H}{m i n} Σ_{i = 1}^{N} < g (x_{i}), P_{i} > \end{matrix} - - - (8)

沿着该方向的最优步长为

因此，图像预测器被更改为

f^t+1(x)＝f^t(x)+α^*g^*(x) (10)

其次，固定已得到的图像预测器，执行文本预测器的更改过程。在预测器u^t(y)的邻近区域内，沿着多类弱学习器v(y)的方向，目标函数R[f^t+1(x),u(y)]的一阶泛函偏导数可表示为

\begin{matrix} δ R [u^{t}; v] = \frac{\partial R [f^{t + 1}, u^{t} + ϵ v]}{\partial ϵ} |_{ϵ = 0} \\ = - Σ_{i = 1}^{N} < v (y_{i}), Q_{i} > \end{matrix} - - - (11)

其中

Q_{i} = Σ_{k = 1}^{K} (c^{s_{i}} - c^{k}) \exp (< u^{t} (y_{i}), c^{k} - c^{s_{i}} >) + 2 {CC}^{T} (f^{t + 1} (x_{i}) - u^{t} (y_{i})) - - - (12)

在第t+1次文本迭代的过程中，根据梯度下降策略，最大限度地减少风险的多类弱学习器v^*(y)可以表示为

\begin{matrix} v^{*} (y) = \arg \underset{v &Element; \overset{&OverBar;}{H}}{m i n} δ R [u^{t}; v] \\ = \arg \max_{v &Element; \overset{&OverBar;}{H}} Σ_{i = 1}^{N} < v (y_{i}), Q_{i} > \end{matrix} - - - (13)

与公式(9)稍微不同，沿着方向v^*(y)的最优步长为

因此，文本预测器被更改为

u^t+1(y)＝u^t(y)+α^*v^*(y) (15)

通过这样相互交替的更改过程，我们可以寻找出最优的图像与文本预测器。基于多类指数损耗函数，我们的多模态多类Boosting框架被记为E_MMB。

表1中的算法1详细地阐述了E_MMB方法的详细步骤，在每次迭代中，E_MMB算法不是同时地学习图像与文本的预测器，而是在固定一个预测器的情况下调整另外一个预测器。例如，从算法1的第3行到第6行，文本预测器被固定，而图像预测器被调整。此时，图像预测器的调整过程是扩展的单模态多类Boosting，并且公式(2)中的第2个表达式可以被看作常量。在第3行，根据梯度下降的策略，我们能够获得每一个多模态文档的权重。该权重不仅体现了图像的语义信息，也暗含了图像向文本靠拢的趋势。在第4行，利用所有多模态文档的权重，我们可以在泛函空间内找到一个最大程度地减少风险的方向。我们在第5行计算了沿着最优方向的最佳步长，并在第6行更新了图像预测器。类似地，从算法1的第7行到第10行，我们固定了刚刚更新后的图像预测器，并且调整了文本的预测器。

总的来说，算法1包含了一个集成迭代循环，每个循环的作用是寻找最优的图像与文本预测器。对于每次循环，计算图像与文本的多类弱学习器占了主要的时间开销。一般而言，图像与文本的底层特征维度并不相同，因此计算每个多类弱学习器的代价是不一样的。若图像与文本的多类弱学习器的计算代价分别为O(μ)与O(τ)，那么E_MMB算法的时间复杂度大约为O(μλ+τλ)。

表1多模态多类Boosting(E_MMB)算法

采用多类逻辑损耗的过程为：图像与文本的多类逻辑损耗可以分别地定义为

L_{1} [s, f (x)] = Σ_{k = 1}^{K} l o g [1 + \exp (< f (x), c^{k} - c^{s} >)] - - - (16)

L_{2} [s, u (y)] = Σ_{k = 1}^{K} l o g [1 + \exp (< u (y), c^{k} - c^{s} >)] - - - (17)

根据相关知识，上述两个公式中的多类逻辑损耗在Boosting多分类任务中也具有贝叶斯一致性、多类边缘极大化与猜测背离性的优点。

类似地，我们先执行图像预测器的更改过程。在预测器f^t(x)的邻域内，沿着多类弱学习器g(x)的方向，目标函数R[f(x),u^t(y)]的一阶泛函偏导数为

δ R [f^{t}; g] = - Σ_{i = 1}^{N} < g (x_{i}), {PP}_{i} > - - - (18)

其中

{PP}_{i} = Σ_{k = 1}^{K} (c^{s_{i}} - c^{k}) \frac{\exp (< f^{t} (x_{i}), c^{k} - c^{s_{i}} >)}{1 + \exp (< f^{t} (x_{i}), c^{k} - c^{s_{i}} >)} - 2 {CC}^{T} (f^{t} (x_{i}) - u^{t} (y_{i})) - - - (19)

在第t+1次图像迭代的过程中，根据公式(19)、公式(8)与公式(9)，我们可以相应地获得最优的图像弱学习器及其步长。

接着，我们执行文本预测器的更改过程。在预测器u^t(y)的邻近区域内，沿着多类弱学习器v(y)的方向，目标函数R[f^t+1(x),u(y)]的一阶泛函偏导数为

δ R [u^{t}; v] = - Σ_{i = 1}^{N} < v (y_{i}), {QQ}_{i} > - - - (20)

其中

{QQ}_{i} = Σ_{k = 1}^{K} (c^{s_{i}} - c^{k}) \frac{\exp (< u^{t} (y_{i}), c^{k} - c^{s_{i}} >)}{1 + \exp (< u^{t} (y_{i}), c^{k} - c^{s_{i}} >)} + 2 {CC}^{T} (f^{t + 1} (x_{i}) - u^{t} (y_{i})) - - - (21)

在第t+1次文本迭代的过程中，根据公式(20)、公式(13)与公式(14)，我们可以相应地获得最优的多类文本弱学习器及其步长。随着迭代次数的增加，我们能够交替地寻找出最优的图像与文本预测器。为了在下文中方便地叙述，我们把基于多类逻辑损耗函数的多模态多类Boosting框架记为L_MMB。

另外，对于表1的第3行与第7行，如果表达式PP_i与QQ_i分别地代替了表达式P_i与Q_i，那么我们就可以轻松地得到L_MMB算法。L_MMB算法与E_MMB算法有相同级别的时间复杂度。

此外，当单独地集成图像或文本的多类弱学习器时，单模态的多类Boosting算法的时间复杂度为O(μλ)或O(τλ)，这意味着它与本实施例的MMB算法有等量的时间复杂度。

在单模态的Boosting方法中，如果单模态数据对象具有较低质量的底层内容特征，那么该对象的模态内语义信息并不能很好地被挖掘。另外，单模态的Boosting方法没有涉及到模态间的语义信息。在从底层特征到高层语义特征投影的过程中，一个有效的映射机制应该结合所有的模态，使得模态内与模态间的语义信息被保留下来。在多模态的Boosting方法中，一对多模态数据可以通过最小化模态间的损耗来缩短它们之间的拟边缘距离，这使得语义相关的对象在语义空间中能够聚集在一起。为了挖掘每个模态的内部语义信息，模态内的损耗也被尽量地减少。除此之外，如果模态内的语义信息来自于较低质量的数据对象，那么通过补充相应的模态间语义相关性，这些语义信息可以在一定程度上得到增强。

步骤3)中，对于任意的图像数据x，我们可以用图像预测器f^λ(x)来计算该图像关于第k个语义类的后验概率

π_{k}^{I} = P (s = k | x) = \frac{σ (< f^{λ} (x), c^{k} >)}{Σ_{k} σ (< f^{λ} (x), c^{k} >)} - - - (22)

其中σ(·)是Sigmoid函数。类似地，文本数据y关于第k个语义类的后验概率为

π_{k}^{T} = P (s = k | y) = \frac{σ (< u^{λ} (y), c^{k} >)}{Σ_{k} σ (< u^{λ} (y), c^{k} >)} - - - (23)

给出一个模态的查询数据q与另一个模态的被检索对象，根据公式(22)与公式(23)的映射机制，我们可以得到这些数据的语义特征向量。在语义空间内，传统的距离度量可以被用来执行跨模态检索。

本发明的用于跨模态检索的多模态多类Boosting框架构建装置实施例

本实施例的装置用于实施上述用于跨模态检索的多模态多类Boosting框架构建方法，该装置包括目标函数构建模块、最优预测器学习模块和语义空间转换模块；

最优预测器学习模块，用于根据梯度下降策略，依次更新目标风险函数中每一个模态的预测器，而固定其他M-1个模态的预测器，当所有模态的预测器均被更新后，称为一次循环迭代，如此经过T次循环迭代后，学习出使目标函数最小的各模态的最优预测器，其中T≥1；

为了进一步展示本实施例的MMB框架的跨模态检索方法的优良性能，将现有技术中的SM、SCM、LCMH算法与本申请中的MMB算法进行比较分析。前两个方法的映射机制被替换成单模态的多类Boosting方法，而第三个方法可以作为一个没有考虑语义特征向量的例子。所有实验的硬件环境：2.93Ghz的主频，双核的CPU(E7500)与2GB内存的台式机；软件环境：Windows XP，开发工具为MATLAB(R2012b)。

实验时，进行了两种任务的检索，第一个是用一个文本查询来检索相关的图像数据，第二个是用一个图像查询来检索相关的文本数据。

我们采用了两个基准数据集，即Wiki数据集与NUS-WIDE数据集。Wiki数据集是含有2866个图像文本对的多模态文档集，而每一个文档的语义类取自于最常见的10个语义概念。训练集与测试集分别包含了2173与693个多模态文档，图像与文本的底层特征分别表示成128维的视觉词袋向量与10个主题的概率分布。NUS-WIDE数据集的来源是Flickr上的图像与标注，该数据集最初含有269648幅图像以及由81个真实语义概念所组成的词汇表。Flickr为所有的图像均提供了一些有意义的标注，因此每一个图像与其对应的标注构成了一个多模态文档，即图像文本对。基于数据集中出现频率最高的15个语义概念，我们随机地抽取了4800个多模态文档。每一个多模态文档只能属于一个语义概念类，例如“Animal”、“Buildings”与“Flowers”等。每一个语义概念类涵盖了320个多模态文档，最终的训练集与测试集分别包含了3750与1050个多模态文档。我们的实验分别采用了500维的SIFT特征向量与1000维的词频向量来表示图像与文本的底层特征。

为了保持一致性，我们在SM与SCM方法中采用了规范化的相关性(NC)作为度量，在LCMH方法中采用了汉明距离(HD)作为度量。在MMB框架中，我们用NC来度量查询对象与被检索对象之间的相似性。除此之外，图像与文本的多类弱学习器均是深度为2的决策树，算法1的循环迭代次数被设置为100。如果一个查询对象与返回的某个目标对象都属于相同的语义类，那么这两个对象是相关的。在信息检索领域，精确度(Precision)与召回率(Recall)是衡量检索性能的基础尺度。给出一个查询对象与被检索的对象集，如果检索算法根据相关性的度量输出一个大小为W的序列O_W，那么精确度与召回率的定义分别为

基于公式(25)，平均精确度(Average Precision)的定义如下

A P = \frac{1}{E} Σ_{i = 1}^{W} p r e c i s i o n (i) \cdot γ (i) - - - (27)

其中E表示序列O_W中相关对象的个数。在公式(27)中，如果序列O_W的第i个对象与查询对象是相关的，那么γ(i)的值为1，否则值为0。通过平均所有查询对象的AP值，我们可以得到MAP(Mean Average Precision)得分。MAP是标准的信息检索度量，较大的MAP值表示较好的检索性能。对于所有跨模态检索方法，本实施例采用的评估度量包括MAP值、PR曲线(11-point Interpolated Precision-recall Curve)与召回率曲线(Recall Curve)。

在Wiki数据集上，我们对比了MMB方法与其他3个跨模态检索方法。表2列出了所有跨模态检索方法的MAP值，其中W表示返回文档的数目，而黑体数值表示最好的检索性能。从该表中可以清楚地看到，E_MMB与L_MMB方法在跨模态检索的两个任务中均超越了其他3个跨模态检索方法，并且获得了较好的平均检索性能。例如，当W＝50时，与SCM的平均MAP值相比，L_MMB的平均MAP值为0.31，大约提高了20.2％；当测试集内的所有对象被返回时，与SCM的平均MAP值相比，L_MMB的平均MAP值大约提高了19.8％，达到了0.23。

表2各种跨模态检索方法在Wiki数据集上的性能对比(MAP)

单模态的Boosting方法并没有考虑模态间的语义信息，这可能使得图像文本对在语义空间内有较远的距离，因此SM与SCM产生较小的MAP值。一方面，模态内的语义信息反映了每个模态的语义表达能力，而通过最小化模态间损耗得到的模态间语义信息更关注于不同模态之间的相关性。这两种类型的语义信息在跨模态检索的过程中都有重要的作用，并且二者是互补的。因此，它们的结合有益于检索性能的提高。另一方面，通过最小化模态内的损耗，拥有高质量底层特征的模态数据能够获得质量较好的模态内语义信息；同时，模态间的语义相关性在一定程度上可以增强那些质量较差的模态内语义信息。这些原因使得MMB框架在跨模态检索的任务中拥有较好的性能。此外，与SM或SCM方法相比，LCMH在跨模态检索的两个任务中拥有较小的MAP值。产生这种现象的原因是，SM与SCM通过单模态的Boosting方法获得了图像与文本的高层语义特征，而LCMH并没有考虑语义概率空间内的语义信息。

为了获得更详细的分析，图2画出了LCMH、SM、SCM、E_MMB与L_MMB在Wiki数据集上的PR曲线。从该图中可以看出，MMB框架又一次在跨模态检索的两个任务中超越了其他3个跨模态检索方法。例如，MMB的精确度在图像查询的任务中获得了大辐度的提高，并且这些收益出现在所有的召回率水平上。图2的实验结果表明，MMB框架具有较高的准确率与较好的泛化能力。在返回的序列中，随着被检索对象的数目增加，召回率曲线可以反映召回率的具体变化。图3给出了LCMH、SM、SCM、E_MMB与L_MMB在Wiki数据集上的召回率曲线。从该图中可以看到，MMB框架的召回率曲线一直在其他跨模态检索方法的召回率曲线上方。这个实验结果表明，当被检验对象的数目相同时，MMB框架可以获得较好的召回率。也就是说，MMB框架能够把更多的相关对象放在返回序列的前部分。总体而言，通过结合模态内的语义信息与模态间的语义相关性，MMB框架可以有效地提高跨模态检索的性能。

我们也在NUS-WIDE数据集上对比了MMB框架与其他3个跨模态检索方法的评估性能。表3给出了所有跨模态检索方法的MAP值，其中W表示被检验对象的数目，而黑体数值表示最高的性能。可以看出，MMB框架再次超越了其他的跨模态检索方法，并且达到了最好的平均检索性能。例如，与SM的平均MAP值相比，当W＝50时，L_MMB的平均MAP值约为0.24，大约提高了39.3％；当测试集内的所有对象被返回时，L_MMB的平均MAP值大约提高了40.7％，达到了0.17。

表3各种跨模态检索方法在NUS-WIDE数据集上的性能对比(MAP)

类似地，图4与图5分别画出了LCMH、SM、SCM、E_MMB与L_MMB在NUS-WIDE数据集上的PR曲线与召回率曲线。可以看出，MMB框架再次表现出最好的跨模态检索性能。此外，对于PR曲线与召回率曲线，MMB框架在NUS-WIDE数据集与Wiki数据集上保持了高度一致性。例如，在图2与图4的所有召回率水平上，E_MMB与L_MMB的PR曲线在图像查询的任务中均超过其他方法的PR曲线，获得了较大辐度的收益。对于NUS-WIDE数据集上的实验结果，其主要原因在于MMB框架结合了模态内的语义信息与模态间的语义相关性。

Claims

1.用于跨模态检索的多模态多类Boosting框架构建方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的用于跨模态检索的多模态多类Boosting框架构建方法，其特征在于，所述步骤2)中一次循环迭代的过程为：

A)根据梯度下降策略，计算各个模态文档的权重；

B)根据每一个模态文档的权重，求出在更新的预测器的邻近区域内，沿着多类学习器的方向的目标函数的一阶泛函偏导数，进而在泛函空间找到最大程度地减少风险的多类学习器，即在泛函空间找到最优方向；

3.根据权利要求2所述的用于跨模态检索的多模态多类Boosting框架构建方法，其特征在于，步骤A)中在计算各个模态的权重时是基于各模态的多类指数损耗，某个模态的多类指数损耗定义为：其中，f(x)为某模态的预测器，K为语义词汇表中语义类的个数，＜f(x),c^k-c^s＞表示某模态的预测器关于第k个与第s个语义类的拟边缘差，c^k和c^s分别表示与第k个和第s个语义类对应的码本向量。

4.根据权利要求2所述的用于跨模态检索的多模态多类Boosting框架构建方法，其特征在于，步骤A)中在计算各个模态的权重时是基于各模态的多类逻辑损耗，某个模态的多类逻辑损耗定义为：其中，f(x)为某模态的预测器，K为语义词汇表中语义类的个数，＜f(x),c^k-c^s＞表示某模态的预测器关于第k个与第s个语义类的拟边缘差，c^k和c^s分别表示与第k个和第s个语义类对应的码本向量。

5.根据权利要求1所述的用于跨模态检索的多模态多类Boosting框架构建方法，其特征在于，所述风险函数R[f₁,...,f_M]表示为：

\begin{matrix} R [f_{1}, ..., f_{M}] = Σ_{m = 1}^{M} R_{m} [f_{m} (z^{m})] + Σ_{m = 1}^{M} Σ_{j > m}^{M} R_{m j} [f_{m} (z^{m}), f_{j} (z^{j})] \\ = Σ_{m = 1}^{M} Σ_{i = 1}^{N} L_{m} [s_{i}, f_{m} (z_{i}^{m})] + Σ_{m = 1}^{M} Σ_{j > m}^{M} Σ_{i = 1}^{N} | | C^{T} [f_{m} (z_{i}^{m}) - f_{j} (z_{i}^{j})] | |_{2}^{2} \end{matrix}

6.用于跨模态检索的多模态多类Boosting框架构建装置，其特征在于，该装置包括目标函数构建模块、最优预测器学习模块和语义空间转换模块；

7.根据权利要求6所述用于跨模态检索的多模态多类Boosting框架构建装置，其特征在于，所述一次循环迭代的过程为：

A)根据梯度下降策略，计算各个模态文档的权重；

8.根据权利要求7所述用于跨模态检索的多模态多类Boosting框架构建装置，其特征在于，在计算各个模态的权重时是基于各模态的多类指数损耗，某个模态的多类指数损耗定义为：其中，f(x)为某模态的预测器，K为语义词汇表中语义类的个数，＜f(x),c^k-c^s＞表示某模态的预测器关于第k个与第s个语义类的拟边缘差，c^k和c^s分别表示与第k个和第s个语义类对应的码本向量。

9.根据权利要求7所述的用于跨模态检索的多模态多类Boosting框架构建装置，其特征在于，在计算各个模态的权重时是基于各模态的多类逻辑损耗，某个模态的多类逻辑损耗定义为：其中，f(x)为某模态的预测器，K为语义词汇表中语义类的个数，＜f(x),c^k-c^s＞表示某模态的预测器关于第k个与第s个语义类的拟边缘差，c^k和c^s分别表示与第k个和第s个语义类对应的码本向量。

10.根据权利要求6所述的用于跨模态检索的多模态多类Boosting框架构建装置，其特征在于，所述风险函数R[f₁,...,f_M]表示为：

\begin{matrix} R [f_{1}, ..., f_{M}] = Σ_{m = 1}^{M} R_{m} [f_{m} (z^{m})] + Σ_{m = 1}^{M} Σ_{j > m}^{M} R_{m j} [f_{m} (z^{m}), f_{j} (z^{j})] \\ = Σ_{m = 1}^{M} Σ_{i = 1}^{N} L_{m} [s_{i}, f_{m} (z_{i}^{m})] + Σ_{m = 1}^{M} Σ_{j > m}^{M} Σ_{i = 1}^{N} | | C^{T} [f_{m} (z_{i}^{m}) - f_{j} (z_{i}^{j})] | |_{2}^{2} \end{matrix}