WO2023151237A1

WO2023151237A1 - 人脸位姿估计方法、装置、电子设备及存储介质

Info

Publication number: WO2023151237A1
Application number: PCT/CN2022/107825
Authority: WO
Inventors: 杨战波; 黄泽元; 祁晓婷; 蒋召
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2022-02-11
Filing date: 2022-07-26
Publication date: 2023-08-17
Anticipated expiration: 2024-08-11
Also published as: CN114519881B; EP4471737A4; EP4471737B1; EP4471737A1; CN114519881A; KR20240144139A; US20250037305A1; JP2025504056A; JP7770581B2

Abstract

本公开提供一种人脸位姿估计方法、装置、电子设备及存储介质。方法包括：获取包含人脸信息的目标图像，并将目标图像输入到预先构建的位姿估计模型中；利用浅层密集连接层对目标图像进行特征提取，得到包含浅层特征信息的多个第一特征图；利用深层特征复用层分别对多个第一特征图执行信息融合操作得到第二特征图，以便在浅层特征信息中融入深层特征信息；利用注意力层对第二特征图中的人脸位姿信息进行提取，得到包含人脸位姿信息的第三特征图，利用分类器对第三特征图进行预测，得到第三特征图对应人脸位姿的预测结果，根据预测结果确定目标图像中的人脸位姿。本公开能够充分获取人脸位姿的关键信息，提升人脸位姿估计结果的准确性。

Description

人脸位姿估计方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种人脸位姿估计方法、装置、电子设备及存储介质。

背景技术

人脸位姿估计是计算机视觉领域的一个重要研究方向，人脸位姿变化也是影响人脸识别效果的一个关键因素。对人脸图像进行有效的位姿估计，才能够进一步减弱人脸位姿对人脸识别效果的影响。人脸位姿估计在计算机视觉领域中也有广泛的应用，比如活体识别、人机交互、虚拟现实、智能监控等。

目前传统的人脸位姿估计方法中，通过捕捉位姿角度信息而忽略一些无关的面部特征，因此无法充分利用人脸及周围信息进行模型优化，并且传统的基于通用识别模型的进行人脸位姿识别的方式，无法充分获取人脸位姿的关键信息。传统的人脸位姿估计方法直接以检测到的人脸框作为输入，没有考虑到人脸框的不准确性，导致传统的人脸位姿估计方法在直接对位姿角度进行回归或分类时难以获得最优的预测效果，从而降低人脸位姿估计结果的准确性。

发明内容

有鉴于此，本公开实施例提供了一种人脸位姿估计方法、装置、电子设备及存储介质，以解决现有技术存在的无法充分获取人脸位姿的关键信息，人脸位姿估计结果的准确性较差的问题。

本公开实施例的第一方面，提供了一种人脸位姿估计方法，包括：获取包含人脸信息的目标图像，并将目标图像输入到预先构建的位姿估计模型中；在位姿估计模型中，利用浅层密集连接层对目标图像进行特征提取，得到包含浅层特征信息的多个第一特征图；将多个第一特征图作为深层特征复用层的输入，利用深层特征复用层分别对多个第一特征图执行信息融合操作得到第二特征图，以便在浅层特征信息中融入深层特征信息；利用注意力层对第二特征图中的人脸位姿信息进行提取，得到包含人脸位姿信息的第三特征图，利用分类器对第三特征图进行预测，得到第三特征图对应人脸位姿的预测结果，根据预测结果确定目标图像中的人脸位姿。

本公开实施例的第二方面，提供了一种人脸位姿估计装置，包括：获取模块，被配置为获取包含人脸信息的目标图像，并将目标图像输入到预先构建的位姿估计模型中；提取模块，被配置为在位姿估计模型中，利用浅层密集连接层对目标图像进行特征提取，得到包含浅层特征信息的多个第一特征图；融合模块，被配置为将多个第一特征图作为深层特征复用层的输入，利用深层特征复用层分别对多个第一特征图执行信息融合操作得到第二特征图，以便在浅层特征信息中融入深层特征信息；预测模块，被配置为利用注意力层对第二特征图中的人脸位姿信息进行提取，得到包含人脸位姿信息的第三特征图，利用分类器对第三特征图进行预测，得到第三特征图对应人脸位姿的预测结果，根据预测结果确定目标图像中的人脸位姿。

本公开实施例的第三方面，提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过获取包含人脸信息的目标图像，并将目标图像输入到预先构建的位姿估计模型中；在位姿估计模型中，利用浅层密集连接层对目标图像进行特征提取，得到包含浅层特征信息的多个第一特征图；将多个第一特征图作为深层特征复用层的输入，利用深层特征复用层分别对多个第一特征图执行信息融合操作得到第二特征图，以便在浅层特征信息中融入深层特征信息；利用注意力层对第二特征图中的人脸位姿信息进行提取，得到包含人脸位姿信息的第三特征图，利用分类器对第三特征图进行预测，得到第三特征图对应人脸位姿的预测结果，根据预测结果确定目标图像中的人脸位姿。本公开能够充分获取人脸位姿的关键信息，使人脸位姿估计结果更加精准。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例提供的位姿估计模型的网络结构示意图；

图2是本公开实施例提供的人脸位姿估计方法的流程示意图；

图3是本公开实施例提供的人脸位姿估计装置的结构示意图；

图4是本公开实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

在人脸位姿估计任务中，由于图像中人脸位置和大小的多样性，不同人脸在各个角度下的差异性，以及复杂的背景环境等因素，对算法精确估计人脸位姿角度带来困难。

在传统的人脸位姿估计算法中，通过直接以检测到的人脸框作为输入，没有考虑到人脸框的不准确性，不能充分利用人脸及周围信息进行模型优化。位姿估计需要捕捉位姿角度信息而忽略一些无关的面部特征，传统基于通用识别模型的骨干网络和neck模块由于缺乏有效设计，不能充分获取位姿关键信息。另外，传统直接对角度进行回归或分类的做法过于直接，难以获得最优效果。导致传统的人脸位姿估计方法在直接对位姿角度进行回归或分类时难以获得最优的预测效果，从而降低人脸位姿估计结果的准确性。

鉴于以上现有技术中的问题，本公开提出一种全新的基于神经网络的位姿估计模型的人脸位姿估计方法，本公开的神经网络模型中主要包含骨干网络、Neck模块和Head模块。在对位姿估计模型进行训练时，所采用的训练集中包含人脸框以及多个点位的位姿标注，包括由多个人脸框的标注点以及多个位姿角度所组成的位姿标注信息。并且通过保留原始图像，并基于原始图像进行数据增广，从而实现对位姿估计模型的增广训练。利用位姿估计模型中的浅层密集连接层及深层特征复用层所组成的骨干网络，对人脸图像中的浅层特征和深层特征进行融合，基于注意力模块以及分组角度回归模块精确估计图片中人脸的位姿角度。

下面结合附图对本公开中位姿估计模型的网络结构进行详细说明，图1是本公开实施例提供的位姿估计模型的网络结构示意图；如图1所示，该位姿估计模型的网络结构具体可以包括：

在骨干网络中包含浅层密集连接层(对应C1～C5)及深层特征复用层(对应P3～P5)，浅层密集连接层主要用于提取人脸图像中的前向特征，密集连接是指每个模块的输出除了作为下一个模块的输入，还作为其后其他模块的输入；深层特征复用层用于在进行特征表达时，将提取到的浅层特征信息中融入深层特征信息，从而得到包含更多语义信息(即位姿信息)的特征图。

Neck模块由SE注意力模块和基于Transformer的特征变换模块组成，SE注意力模块通过给不同通道的特征进行加权来放大重要特征，同时抑制相对不重要的特征。Transformer 通过巧妙的结构设计，具有较强的特征提取能力，通过多头注意力机制提取有效特征，从而突出特征图中的重要特征，并抑制干扰特征。

Head模块对应分组角度回归模块(即分类器)，通过对每种人脸位姿设置多个分类器，每个分类器分别预测多个角度对应的概率值，通过每个角度对应的概率值计算分类器的预测结果，最后将全部分类器的预测结果相加得到最终的估计结果。从而确定人脸图像中全部位姿对应的角度值。

图2是本公开实施例提供的人脸位姿估计方法的流程示意图。图2的人脸位姿估计方法可以由服务器执行。如图2所示，该人脸位姿估计方法具体可以包括：

S201，获取包含人脸信息的目标图像，并将目标图像输入到预先构建的位姿估计模型中；

S202，在位姿估计模型中，利用浅层密集连接层对目标图像进行特征提取，得到包含浅层特征信息的多个第一特征图；

S203，将多个第一特征图作为深层特征复用层的输入，利用深层特征复用层分别对多个第一特征图执行信息融合操作得到第二特征图，以便在浅层特征信息中融入深层特征信息；

S204，利用注意力层对第二特征图中的人脸位姿信息进行提取，得到包含人脸位姿信息的第三特征图，利用分类器对第三特征图进行预测，得到第三特征图对应人脸位姿的预测结果，根据预测结果确定目标图像中的人脸位姿。

具体地，本公开实施例的目标图像是指对采集到的原始图像进行人脸检测后的人脸图像，即位姿估计模型的输入是人脸检测后的人脸图像，而并非原始图像。在利用位姿估计模型进行位姿角度的预测之前，需要先构建位姿估计模型并进行训练，之后将训练后的位姿估计模型作为实际使用时的模型。

进一步地，在本公开实施例的人脸位姿估计方法中，通过将检测后的人脸图像(即目标图像)作为位姿估计模型的输入，利用位姿估计模型进行预测，输出3个位姿角度，即俯仰角、偏航角和翻滚角。由于不同人脸及人脸检测模型的差异性，人脸边界不具有完全统一的标准，因此利用检测后的人脸图像进行训练得到的位姿估计模型具有更好的鲁棒性。

根据本公开实施例提供的技术方案，本公开通过获取包含人脸信息的目标图像，并将目标图像输入到预先构建的位姿估计模型中；在位姿估计模型中，利用浅层密集连接层对目标图像进行特征提取，得到包含浅层特征信息的多个第一特征图；将多个第一特征图作为深层特征复用层的输入，利用深层特征复用层分别对多个第一特征图执行信息融合操作得到第二特征图，以便在浅层特征信息中融入深层特征信息；利用注意力层对第二特征图中的人脸位姿信息进行提取，得到包含人脸位姿信息的第三特征图，利用分类器对第三特征图进行预测，得到第三特征图对应人脸位姿的预测结果，根据预测结果确定目标图像中的人脸位姿。本公开能够充分获取人脸位姿的关键信息，使人脸位姿估计结果更加精准。

在一些实施例中，采用以下方式构建位姿估计模型，包括：获取包含人脸信息的原始图像，利用人脸检测模型对原始图像进行检测，得到原始图像对应的人脸图像以及人脸框，并获取原始图像中的人脸位姿信息，利用人脸图像、人脸框的位置坐标、以及人脸位姿信息生成第一数据集；基于原始图像以及人脸框的位置坐标，利用预设的裁剪方式对原始图像进行裁剪，得到裁剪后的人脸图像，利用裁剪后的人脸图像、人脸框的位置坐标、以及人脸位姿信息生成第二数据集；对第一数据集以及第二数据集进行组合得到训练集，利用训练集对位姿估计模型进行训练，得到训练后的位姿估计模型。

具体地，位姿估计模型的训练主要包括两部分，即数据集的标注以及训练时的数据增广，下面结合具体实施例分别对这两部分的内容进行详细介绍，具体可以包括以下内容：

在数据集的标注过程中，对于一批待标注数据集，首先使用传统算法获取每张原始图像X中人脸对应的3个位姿角度，分别记为p(俯仰角)、y(偏航角)和r(翻滚角)。然后使用RetinaFace模型进行人脸检测得到人脸框，并确定人脸框对应的左上角坐标(x1,y1)，以及人脸框的宽(w)和高(h)。通过保留原始图像X，并将图像标签记录为Y＝[p,y,r,x1,y1,w,h]。

进一步地，在经过人脸检测后得到的人脸框中，除了可以用上述的左上角坐标以及的宽和高作为检测框(即人脸框)对应的4个标注点之外，还可以将人脸框的矩形对应的四个顶点坐标作为4个标注点。如此一来，训练集中的标注信息就包含了7点位姿标注，即4个检测框的标注点以及3个位姿角度。将上述检测后的人脸图像以及由7点位姿标注组成的标注信息作为第一数据集。

在训练时的数据增广操作中，通过随机裁剪的增广方式，基于原始图像，按照一定的裁剪比例(比如0.5倍)对原始图像中的人脸图像进行随机范围的裁剪，比如随机裁剪比人脸检测框略大一点(1.0～1.2倍)的人脸图像，从而产生与第一数据集中的人脸图像相似的人脸图像，将新产生的人脸图像以及该人脸图像对应的由7点位姿标注组成的标注信息作为第二数据集。

在本公开实施例中，通过数据增广的方式，扩大了训练数据集的规模，在利用增广后的训练集对位姿估计模型进行训练时，不仅减小了标注框不准确带来的影响，还扩充了数据量提高模型的鲁棒性。

在一些实施例中，训练集中包含人脸图像以及标注信息，将标注信息用于作为模型训练时的标签，标注信息中包含人脸框对应的多个标注点，以及多个位姿角度；其中，人脸框的标注点包括人脸框对应的任一角点坐标、以及人脸框的宽度和高度，位姿角度包括俯仰角、偏航角和翻滚角。

在一些实施例中，利用浅层密集连接层对目标图像进行特征提取，得到包含浅层特征信息的多个第一特征图，包括：浅层密集连接层中包含多个依次连接的卷积模块，利用每个卷积模块依次对输入到卷积模块的特征图执行卷积运算，并且将每个卷积模块的输出作为下一个卷积模块的输入，每个卷积模块的输入中还包含之前卷积模块的输出，将浅层密集连接层中最后多个卷积模块的输出作为第一特征图。

具体地，由于人脸位姿分类需要考虑五官位置和头像的整体角度，因此人脸图像中的部分浅层信息和深层抽象信息都具有重要作用，因此本公开实施例提出一种由浅层密集连接层及深层特征复用层所组成的骨干网络。通过骨干网络提取人脸图像中的浅层特征信息和深层特征信息，并将浅层特征信息融入到深层特征信息中，得到包含更多语义信息的特征图。

进一步地，在浅层密集连接层中进行前向特征的提取时，在位姿估计模型中将浅层密集连接层分为C1、C2、C3、C4和C5共5个卷积模块，密集连接是指每个卷积模块的输出除了作为下一个卷积模块的输入外，还作为后面其他卷积模块的输入。这样不仅使深层特征复用层可以接收到更多的浅层信息，同时提高特征的对位姿信息的表达能力，另外提高了特征的利用效率，每部分提取的特征都可以被更多模块利用。

在一些实施例中，利用深层特征复用层分别对多个第一特征图执行信息融合操作得到第二特征图，以便在浅层特征信息中融入深层特征信息，包括：深层特征复用层中包含与第一特征图的数量相对应的卷积模块，利用深层特征复用层的卷积模块，对第一特征图进行卷积变换得到第二特征图，以便在包含浅层特征信息的第二特征图中融入深层特征信息，对第二特征图进行全局平均池化，得到全局平均池化后对应的第二特征图。

具体地，在利用深层特征复用层进行特征表达时，通过将浅层特征信息融入到深层特征信息中去，如图1所示，使用卷积模块C3、C4、C5的输出分别做3个不同层次的特征表达，即P3、P4和P5，从而在C3、C4、C5输出的特征图中融入深层特征信息。下面结合上述实施例中的图1对深层特征复用层的实现方式进行详细说明，具体可以包括以下内容：

C3、C4和C5对应浅层密集连接层中的卷积模块，将C3、C4和C5的输出作为P3、P4和P5的输入，利用深层特征复用层中的卷积模块对C3、C4和C5输出的特征图进行卷积运算，输出包含语义信息(即位姿信息)的特征图。在对P3、P4和P5进行卷积运算时，采用以下规则：在计算P3时，将C3、C4和C5分别做1x1卷积变换到(28，28，512)的特征图，从而使P3融合C3、C4和C5的信息；在计算P4时，将C4、C5分别做1x1卷积变换到(14，14，512)的特征图，从而融合C4和C5的信息；在计算P5时，将C5做1x1 卷积变换到(7，7，512)的特征图，只使用C5的信息。最后将P3、P4和P5分别做全局平均池化，分别得到长度为128、256和512的特征向量，并输入注意力层中。

在一些实施例中，注意力层包括SE注意力模块和特征变换模块，利用注意力层对第二特征图中的人脸位姿信息进行提取，得到包含人脸位姿信息的第三特征图，包括：利用SE注意力模块对第二特征图中的特征通道进行权重计算，并根据通道权重对特征通道进行加权得到加权后的第二特征图；利用特征变换模块对加权后的第二特征图进行特征提取，得到包含有效特征信息的第三特征图，有效特征信息包含人脸位姿信息。

具体地，为了更好地从骨干网络提取的特征信息中抽取位姿信息，本公开提供了基于SE注意力模块和Transformer的Neck模块。其中，利用SE注意力模块给不同通道的特征进行加权来放大重要特征，同时抑制相对不重要的特征。而Transformer具有较强的特征提取能力，能够突出重要特征，抑制干扰特征。

进一步地，SE注意力模块中包含两个全连接层和一个sigmoid层(即归一化层)，假设输入到SE注意力模块中的第二特征图的通道数为c，那么将通道数为c的第二特征图，经过两个全连接层和一个sigmoid层处理得到每个特征通道的通道权重，然后将每个通道权重与其对应的特征通道相乘，得到加权后的特征图。

进一步地，在Transformer(特征变换模块)中，将输入的加权后的特征图，经过多头注意力(Multi-Head Attention)和多层全连接层MLP的处理，得到变换后的c组特征图。通过Transformer的多头注意力机制能够提取特征图中的有效特征，从而更加突出重要特征。

在一些实施例中，利用分类器对第三特征图进行预测，得到第三特征图对应人脸位姿的预测结果，根据预测结果确定目标图像中的人脸位姿，包括：每一种人脸位姿对应多个第三特征图，每个第三特征图对应多个分类器，每个分类器用于根据第三特征图预测若干数量的角度值，根据若干数量的角度值计算每个分类器预测的位姿角度，将全部分类器预测的位姿角度进行求和，得到每一种人脸位姿对应的位姿角度，将三种人脸位姿对应的位姿角度作为对目标图像中人脸位姿的估计结果。

具体地，为了得到精确的位姿角度，本公开在位姿估计模型中添加了分组角度回归模块，也称为分类器模块，即图1中的Head模块部分。对于每种位姿角度，每组特征可以包含3个分类器，而每个分类器预测10个角度值。例如第一个分类器预测0°到9°的概率值，利用模型预测这10个角度的概率值(p00,p01,…,p09)，则该分类器的预测结果为angle0＝p01*0+p02*1+…+p09*9。最后将9个分类器的结果相加，即可得到最终的位姿角度。分别对3个位姿角度做如上计算，得到最终预测的三个位姿角度。

进一步地，输入到Head模块中的每个第三特征图分别对应三个分类器，每个分类器用于预测不同的10个角度值，根据每个分类器的预测结果，计算全部分类器(共9个分类器)的最终预测结果，将Head模块的最终预测结果作为当前位姿角度对应的角度值。针对每一个位姿角度，模型均会输出一个角度值，将全部位姿角度对应的角度值作为对目标图像中人脸位姿的估计结果。

根据本公开实施例提供的技术方案，本公开采用7点位姿标注(4个检测框标注点和3个位姿角度)的数据集格式，并基于该标注方案设计了人脸图像的数据增广，从而扩大训练集的数据量。本公开基于对人脸图像位姿特征的分析，设计了浅层密集连接及深层特征复用的骨干网络，提高了特征的利用效率和表达能力。本公开还公开了基于SE注意力和Transformer的Neck模块，从而进一步抽取了位姿的关键信息。本公开在模型中添加分组角度回归模块，通过27个分类器对3个位姿角度进行更加精准的预测。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图3是本公开实施例提供的人脸位姿估计装置的结构示意图。如图3所示，该人脸位姿估计装置包括：

获取模块301，被配置为获取包含人脸信息的目标图像，并将目标图像输入到预先构建的位姿估计模型中；

提取模块302，被配置为在位姿估计模型中，利用浅层密集连接层对目标图像进行特征提取，得到包含浅层特征信息的多个第一特征图；

融合模块303，被配置为将多个第一特征图作为深层特征复用层的输入，利用深层特征复用层分别对多个第一特征图执行信息融合操作得到第二特征图，以便在浅层特征信息中融入深层特征信息；

预测模块304，被配置为利用注意力层对第二特征图中的人脸位姿信息进行提取，得到包含人脸位姿信息的第三特征图，利用分类器对第三特征图进行预测，得到第三特征图对应人脸位姿的预测结果，根据预测结果确定目标图像中的人脸位姿。

在一些实施例中，图3的获取模块301还采用以下方式构建位姿估计模型，包括：获取包含人脸信息的原始图像，利用人脸检测模型对原始图像进行检测，得到原始图像对应的人脸图像以及人脸框，并获取原始图像中的人脸位姿信息，利用人脸图像、人脸框的位置坐标、以及人脸位姿信息生成第一数据集；基于原始图像以及人脸框的位置坐标，利用预设的裁剪方式对原始图像进行裁剪，得到裁剪后的人脸图像，利用裁剪后的人脸图像、人脸框的位置坐标、以及人脸位姿信息生成第二数据集；对第一数据集以及第二数据集进行组合得到训练集，利用训练集对位姿估计模型进行训练，得到训练后的位姿估计模型。

在一些实施例中，浅层密集连接层中包含多个依次连接的卷积模块，图3的提取模块302利用每个卷积模块依次对输入到卷积模块的特征图执行卷积运算，并且将每个卷积模块的输出作为下一个卷积模块的输入，每个卷积模块的输入中还包含之前卷积模块的输出，将浅层密集连接层中最后多个卷积模块的输出作为第一特征图。

在一些实施例中，深层特征复用层中包含与第一特征图的数量相对应的卷积模块，图3的融合模块303利用深层特征复用层的卷积模块，对第一特征图进行卷积变换得到第二特征图，以便在包含浅层特征信息的第二特征图中融入深层特征信息，对第二特征图进行全局平均池化，得到全局平均池化后对应的第二特征图。

在一些实施例中，注意力层包括SE注意力模块和特征变换模块，图3的预测模块304利用SE注意力模块对第二特征图中的特征通道进行权重计算，并根据通道权重对特征通道进行加权得到加权后的第二特征图；利用特征变换模块对加权后的第二特征图进行特征提取，得到包含有效特征信息的第三特征图，有效特征信息包含人脸位姿信息。

在一些实施例中，每一种人脸位姿对应多个第三特征图，每个第三特征图对应多个分类器，每个分类器用于根据第三特征图预测若干数量的角度值，根据若干数量的角度值计算每个分类器预测的位姿角度，将全部分类器预测的位姿角度进行求和，得到每一种人脸位姿对应的位姿角度，将三种人脸位姿对应的位姿角度作为对目标图像中人脸位姿的估计结果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图4是本公开实施例提供的电子设备4的结构示意图。如图4所示，该实施例的电子设备4包括：处理器401、存储器402以及存储在该存储器402中并且可以在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者，处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。

示例性地，计算机程序403可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器402中，并由处理器401执行，以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序403在电子设备4中的执行过程。

电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解，图4仅仅是电子设备4的示例，并不构成对电子设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，电子设备还可以包括输入输出设备、网络接入设备、总线等。

处理器401可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器402可以是电子设备4的内部存储单元，例如，电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备，例如，电子设备4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。存储器402还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

一种人脸位姿估计方法，其特征在于，包括：

获取包含人脸信息的目标图像，并将所述目标图像输入到预先构建的位姿估计模型中；

在所述位姿估计模型中，利用浅层密集连接层对所述目标图像进行特征提取，得到包含浅层特征信息的多个第一特征图；

将多个所述第一特征图作为深层特征复用层的输入，利用所述深层特征复用层分别对多个所述第一特征图执行信息融合操作得到第二特征图，以便在所述浅层特征信息中融入深层特征信息；

利用注意力层对所述第二特征图中的人脸位姿信息进行提取，得到包含所述人脸位姿信息的第三特征图，利用分类器对所述第三特征图进行预测，得到所述第三特征图对应人脸位姿的预测结果，根据所述预测结果确定所述目标图像中的人脸位姿。
根据权利要求1所述的方法，其特征在于，采用以下方式构建所述位姿估计模型，包括：

获取包含人脸信息的原始图像，利用人脸检测模型对所述原始图像进行检测，得到所述原始图像对应的人脸图像以及人脸框，并获取所述原始图像中的人脸位姿信息，利用所述人脸图像、所述人脸框的位置坐标、以及所述人脸位姿信息生成第一数据集；

基于所述原始图像以及所述人脸框的位置坐标，利用预设的裁剪方式对所述原始图像进行裁剪，得到裁剪后的人脸图像，利用所述裁剪后的人脸图像、所述人脸框的位置坐标、以及所述人脸位姿信息生成第二数据集；

对所述第一数据集以及所述第二数据集进行组合得到训练集，利用所述训练集对位姿估计模型进行训练，得到训练后的位姿估计模型。
根据权利要求2所述的方法，其特征在于，所述训练集中包含人脸图像以及标注信息，将所述标注信息用于作为模型训练时的标签，所述标注信息中包含所述人脸框对应的多个标注点，以及多个位姿角度；

其中，所述人脸框的标注点包括人脸框对应的任一角点坐标、以及所述人脸框的宽度和高度，所述位姿角度包括俯仰角、偏航角和翻滚角。
根据权利要求1所述的方法，其特征在于，所述利用浅层密集连接层对所述目标图像进行特征提取，得到包含浅层特征信息的多个第一特征图，包括：

所述浅层密集连接层中包含多个依次连接的卷积模块，利用每个卷积模块依次对输入到所述卷积模块的特征图执行卷积运算，并且将每个所述卷积模块的输出作为下一个卷积模块的输入，每个所述卷积模块的输入中还包含之前卷积模块的输出，将所述浅层密集连接层中最后多个卷积模块的输出作为所述第一特征图。
根据权利要求1所述的方法，其特征在于，所述利用所述深层特征复用层分别对多个所述第一特征图执行信息融合操作得到第二特征图，以便在所述浅层特征信息中融入深层特征信息，包括：

所述深层特征复用层中包含与所述第一特征图的数量相对应的卷积模块，利用所述深层特征复用层的卷积模块，对所述第一特征图进行卷积变换得到第二特征图，以便在包含所述浅层特征信息的第二特征图中融入所述深层特征信息，对所述第二特征图进行全局平均池化，得到所述全局平均池化后对应的第二特征图。
根据权利要求1所述的方法，其特征在于，所述注意力层包括SE注意力模块和特征变换模块，所述利用注意力层对所述第二特征图中的人脸位姿信息进行提取，得到包含所述人脸位姿信息的第三特征图，包括：

利用所述SE注意力模块对所述第二特征图中的特征通道进行权重计算，并根据通道权重对所述特征通道进行加权得到加权后的第二特征图；

利用所述特征变换模块对所述加权后的第二特征图进行特征提取，得到包含有效特征信息的第三特征图，所述有效特征信息包含人脸位姿信息。
根据权利要求1所述的方法，其特征在于，所述利用分类器对所述第三特征图进行预测，得到所述第三特征图对应人脸位姿的预测结果，根据所述预测结果确定所述目标图像中的人脸位姿，包括：

每一种人脸位姿对应多个所述第三特征图，每个所述第三特征图对应多个分类器，每个分类器用于根据所述第三特征图预测若干数量的角度值，根据所述若干数量的角度值计算每个所述分类器预测的位姿角度，将全部所述分类器预测的位姿角度进行求和，得到每一种所述人脸位姿对应的位姿角度，将三种所述人脸位姿对应的位姿角度作为对所述目标图像中人脸位姿的估计结果。
一种人脸位姿估计装置，其特征在于，包括：

获取模块，被配置为获取包含人脸信息的目标图像，并将所述目标图像输入到预先构建的位姿估计模型中；

提取模块，被配置为在所述位姿估计模型中，利用浅层密集连接层对所述目标图像进行特征提取，得到包含浅层特征信息的多个第一特征图；

融合模块，被配置为将多个所述第一特征图作为深层特征复用层的输入，利用所述深层特征复用层分别对多个所述第一特征图执行信息融合操作得到第二特征图，以便在所述浅层特征信息中融入深层特征信息；

预测模块，被配置为利用注意力层对所述第二特征图中的人脸位姿信息进行提取，得到包含所述人脸位姿信息的第三特征图，利用分类器对所述第三特征图进行预测，得到所述第三特征图对应人脸位姿的预测结果，根据所述预测结果确定所述目标图像中的人脸位姿。
一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1所述的方法。