WO2026044925A1

WO2026044925A1 - 一种嘘声手势检测方法、装置、电子设备和存储介质

Info

Publication number: WO2026044925A1
Application number: PCT/CN2024/130280
Authority: WO
Inventors: 郭锡; 杨一泓; 刘国清
Original assignee: Hangzhou Ruijian Zhixing Technology Co Ltd
Current assignee: Hangzhou Ruijian Zhixing Technology Co Ltd
Priority date: 2024-08-26
Filing date: 2024-11-06
Publication date: 2026-03-05
Anticipated expiration: 2027-02-26
Also published as: EP4730281A1; CN118675204A; EP4730281A4; CN118675204B

Abstract

本申请提供了一种嘘声手势检测方法、装置、电子设备和存储介质，本申请通过手势来完成车辆中目标可控部件的控制，其可以更加快捷的完成控制，有利于提高交互效率，且由于手势的方式相对于语音控制方式，受环境影响较小，有利于提高在车舱环境下进行交互时的抗干扰能力。

Description

一种嘘声手势检测方法、装置、电子设备和存储介质

相关申请的交叉引用

本申请要求于2024年8月26日提交中国专利局的申请号为202411170859.7、名称为“一种嘘声手势检测方法、装置、电子设备和存储介质”的中国专利申请的优先权，上述申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种嘘声手势检测方法、装置、电子设备和存储介质。

背景技术

目前车辆中的一些功能的交互方式是通过控制按键(包括物理按键或者触控按键)来进行的，例如：暂停音乐、关闭天窗等，用户在对上述功能进行控制时，需要通过对应的按键来实现，这种控制方式需要找到对应的按键之后才能完成控制，虽然已有语音控制系统作为补充，但是当车舱内存在噪音时，语音识别的准确率和反映速度会明显降低，因此目前亟需一种抗干扰能力强，且交互方便的交互方法。

发明内容

有鉴于此，本申请实施例提供了一种嘘声手势检测方法、装置、电子设备和存储介质，以提高在车舱环境下进行交互时的抗干扰能力，且能够进行高效交互。

第一方面，本申请实施例提供了一种嘘声手势检测方法，所述方法包括：

根据车载摄像头拍摄到的车辆内部的包括人脸的人脸图像，获取所述人脸图像中人脸特征点；

根据以所述人脸特征点中的目标特征点为中心，以所述人脸特征点构成的图形的外接矩形面积的第一预设倍数为宽度，以所述宽度的预设比例为高度，以所述人脸图像中人脸的延伸方向为所述高度的倾斜方向构建的矩形区域，从所述人脸图像中截取第一目标图像，其中，所述第一预设倍数为正数，所述预设比例小于1，所述目标特征点属于嘴唇区域的特征点；

将所述第一目标图像输入到嘘声检测模型中，判断所述人脸图像中是否包含嘘声手势；

当确定所述人脸图像中包含所述嘘声手势时，控制车辆中的目标可控部件执行预设动作。

可选地，在得到所述人脸特征点后，所述方法还包括：

将所述人脸图像输入到人脸检测模型中，得到所述人脸图像中初始人脸特征点；

将所述初始人脸特征点映射到标准三维人脸模型中的同一特征点上，得到人脸重建三维模型；

将所述人脸重建三维模型映射回所述人脸图像中同一特征点上，确定所述目标特征点。

可选地，所述当确定所述人脸图像中包含所述嘘声手势时，控制车辆中的目标可控部件执行预设动作，包括：

当确定所述人脸图像中包含所述嘘声手势时，根据以距离所述目标特征点延所述延伸方向的反方向的指定距离为中心，以人脸的第二预设倍数为边长，以所述延伸方向为倾斜方向构建的菱形，从所述人脸图像中截取第二目标图像；

根据所述第二目标图像，确定所述第二目标图像中在进行嘘声时，食指所在区域的嘘声虚拟槽；

将所述第二目标图像输入到定位手部特征点模型中，得到手部特征点；

根据所述手部特征点中用于表示食指的食指特征点，以及与所述嘘声虚拟槽的位置关系，判断所述嘘声手势是否为正确的嘘声手势；

如果是正确的嘘声手势，控制车辆中的目标可控部件执行预设动作。

可选地，所述目标特征点为用于表示上嘴唇中心的嘴唇特征点，所述三维坐标系是以所述人脸重建三维模型中表示鼻尖的鼻尖特征点为原点，以双眼连线方向为X轴，以面部朝向为Z轴，与X轴和Z轴所在平面垂直的方向为Y轴构建的，所述延伸方向为所述三维坐标系的Y轴方向。

可选地，所述嘘声虚拟槽的长度是从人脸特征点中用于表示鼻尖的鼻尖特征点到所述嘴唇特征点的距离，所述嘘声虚拟槽的上端点位于所述鼻尖特征沿所述Z轴正方向0.1倍所述长度上，所述嘘声虚拟槽的下端点位于所述嘴唇特征点沿所述Z轴正方向0.1倍所述长度上。

可选地，所述指定距离为0.25倍人脸高度，第二预设倍数为数值1。

可选地，所述第一预设倍数为所述外接矩形面积的平方根，所述预设比例为三分之二。

可选地，所述控制车辆中的目标可控部件执行预设动作，包括：

当所述目标可控部件为车载电话时，则拒接所述车载电话当前的通话来电；

当所述目标可控部件为车载多媒体时，则暂停所述车载多媒体当前的播放的内容；

当所述目标可控部件为车窗时，则关闭所述车窗。

第二方面，本申请实施例提供了一种嘘声手势检测装置，所述装置包括：

获取单元，用于根据车载摄像头拍摄到的车辆内部的包括人脸的人脸图像，获取所述人脸图像中人脸特征点；

截取单元，用于根据以所述人脸特征点中的目标特征点为中心，以所述人脸特征点构成的图形的外接矩形面积的第一预设倍数为宽度，以所述宽度的预设比例为高度，以所述人脸图像中人脸的延伸方向为所述高度的倾斜方向构建的矩形区域，从所述人脸图像中截取第一目标图像，其中，所述第一预设倍数为正数，所述预设比例小于1，所述目标特征点属于嘴唇区域的特征点；

判断单元，用于将所述第一目标图像输入到嘘声检测模型中，判断所述人脸图像中是否包含嘘声手势；

控制单元，用于当确定所述人脸图像中包含所述嘘声手势时，控制车辆中的目标可控部件执行预设动作。

可选地，所述装置还包括：

处理单元，用于在得到所述人脸特征点后，将所述人脸图像输入到人脸检测模型中，得到所述人脸图像中初始人脸特征点；以及，用于将所述初始人脸特征点映射到标准三维人脸模型中的同一特征点上，得到人脸重建三维模型；以及，用于将所述人脸重建三维模型映射回所述人脸图像中同一特征点上，确定所述目标特征点。

可选地，所述控制单元用于当确定所述人脸图像中包含所述嘘声手势时，控制车辆中的目标可控部件执行预设动作时，包括：

可选地，所述控制单元用于控制车辆中的目标可控部件执行预设动作时，包括：

当所述目标可控部件为车窗时，则关闭所述车窗。

第三方面，本申请实施例提供了一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现上述第一方面中任一项所述的嘘声手势检测方法。

第四方面，本申请实施例提供了一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现上述第一方面中任一项所述的嘘声手势检测方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

在本申请中，在得到人脸特征点后，为了减少识别时的干扰，以及提高识别效率，利用构建的矩形区域从人脸图像中截取包含嘴部区域的第一目标图像，然后将第一目标图像输入到嘘声检测模型中，以确定人脸图像中是否包含嘘声手势，如果包含嘘声手指，则控制车辆中的目标可控部件执行预设动作，上述方法是通过手势来完成的，相对于现有技术，可以更加快捷的完成控制，因此有利于提高交互效率，且由于手势的方式相对于语音控制方式，受环境影响较小，有利于提高在车舱环境下进行交互时的抗干扰能力。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种嘘声手势检测方法的流程示意图；

图2为本申请实施例提供的另一种嘘声手势检测方法的流程示意图；

图3为本申请实施例提供的另一种嘘声手势检测方法的流程示意图；

图4为本申请实施例提供的一种嘘声手势检测装置的结构示意图；

图5为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种嘘声手势检测方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤101、根据车载摄像头拍摄到的车辆内部的包括人脸的人脸图像，获取所述人脸图像中人脸特征点。

步骤102、根据以所述人脸特征点中的目标特征点为中心，以所述人脸特征点构成的图形的外接矩形面积的第一预设倍数为宽度，以所述宽度的预设比例为高度，以所述人脸图像中人脸的延伸方向为所述高度的倾斜方向构建的矩形区域，从所述人脸图像中截取第一目标图像，其中，所述第一预设倍数为正数，所述预设比例小于1，所述目标特征点属于嘴唇区域的特征点。

步骤103、将所述第一目标图像输入到嘘声检测模型中，判断所述人脸图像中是否包含嘘声手势。

步骤104、当确定所述人脸图像中包含所述嘘声手势时，控制车辆中的目标可控部件执行预设动作。

具体的，车舱内设置车载摄像头，车载摄像头实时获取司机的人脸的人脸视频，对人脸视频进行抽帧，然后获取人脸图像，也可以将人脸视频中的每帧均作为人脸图像，在获得人脸图像后，获取到该人脸图像中的人脸特征点，如：包括嘴部特征点、眉毛特征点、眼睛特征点、面部轮廓特征点等。

在获取到人脸特征点后，为了提高处理速度，降低不必要的干扰，可以根据嘴唇区域的特征点从人脸图像中截取包括嘴唇区域的第一目标图像，截取时以嘴唇区域的特征点为中心，这样可以包括截取到嘴唇区域，然后以人脸特征点构成的图形的外接矩形面积的第一预设倍数为宽度，以上述宽度的预设比例为高度，以人脸图像中人脸的延伸方向为高度的倾斜方向构建的矩形区域(倾斜矩形)，从人脸图像中截取第一目标图像，这样可以保证截取到的第一目标图像不仅包括嘴唇区域，还包括了嘴唇区域前方的区域，由于嘘声手势需要通过嘴唇、手指，以及二者之间的关系来进行判断，因此截取到第一目标图像后可以判断当前的人脸图像中是否包含嘘声手势，在确定出包含嘘声手势时，可以控制对应的目标可控部件执行预设动作，例如：关闭车窗、关闭天窗、关闭声音等。

本申请是通过手势来完成的，相对于现有技术，可以更加快捷的完成控制，因此有利于提高交互效率，且由于手势的方式相对于语音控制方式，受环境影响较小，有利于提高在车舱环境下进行交互时的抗干扰能力。

在一个可行的实施方案中，图2为本申请实施例提供的另一种嘘声手势检测方法的流程示意图，如图2所示，在得到所述人脸特征点后，所述方法还包括以下步骤：

步骤201、将所述人脸图像输入到人脸检测模型中，得到所述人脸图像中初始人脸特征点。

步骤202、将所述初始人脸特征点映射到标准三维人脸模型中的同一特征点上，得到人脸重建三维模型。

步骤203、将所述人脸重建三维模型映射回所述人脸图像中同一特征点上，确定所述目标特征点。

具体的，由于三维特征点能够提供关于头部在空间中位置和方向的更多信息，这使得即使在头部相对于摄像头有不同旋转角度时，系统也能够有效地工作，比如要求侧脸做嘘声动作时食指距离嘴唇1cm，使用三维人脸特征点更容易确定出来。由于车载摄像头(属于单目摄像头)无法直接捕获三维空间中的深度信息，因此采用了solvePnP算法来估计人脸图像中的人脸特征点对应的三维坐标，这个过程从使用预先训练的深度学习模型来检测输入图像中的二维人脸特征点开始，这些二维特征点通常包括眼角、鼻尖、嘴角等显著面部特征点，它们在图像中的位置可以通过深度学习模型来精确检测。在二维图像中，坐标系原点可以为图像左上角，其中，x轴向右延伸，y轴向下延伸，坐标单位是像素，使用solvePnP算法进行头部姿态估计。为了将这些二维特征点映射到三维空间，需要一个标准的三维人脸的参考模型，即：标准三维人脸模型，标准三维人脸模型对应的三维坐标系原点为鼻尖，双眼连线向左为x轴，向前为z轴，与x轴和z轴垂直向上为y轴(该方向为人脸图像中人脸的延伸方向)。这个参考模型包含了与二维特征点相对应的三维坐标点。然后，我们使用solvePnP算法来估计人脸相对相机的姿态，它能够根据二维图像上的特征点和三维模型中的对应点计算出最佳的旋转和平移向量，从而将二维特征点转换到三维坐标系中。在计算出三维坐标后，可以通过将这些坐标投影回二维平面来验证重建的准确性。通过迭代优化算法，如Levenberg-Marquardt方法，来进一步提高三维坐标的准确性。如果投影后的二维点与原始图像中检测到的特征点紧密对齐，那么就可以认为三维重建是成功的。这样，就能够从一个普通的二维图像中重建出一个精确的三维人脸模型。

在一个可行的实施方案中，图3为本申请实施例提供的另一种嘘声手势检测方法的流程示意图，如图3所示，在执行步骤104时，可以通过以下步骤实现：

步骤301、当确定所述人脸图像中包含所述嘘声手势时，根据以距离所述目标特征点延所述延伸方向的反方向的指定距离为中心，以人脸的第二预设倍数为边长，以所述延伸方向为倾斜方向构建的菱形，从所述人脸图像中截取第二目标图像。

步骤302、根据所述第二目标图像，确定所述第二目标图像中在进行嘘声时，食指所在区域的嘘声虚拟槽。

步骤303、将所述第二目标图像输入到定位手部特征点模型中，得到手部特征点。

步骤304、根据所述手部特征点中用于表示食指的食指特征点，以及与所述嘘声虚拟槽的位置关系，判断所述嘘声手势是否为正确的嘘声手势。

步骤305、如果是正确的嘘声手势，控制车辆中的目标可控部件执行预设动作。

具体的，为了防止步骤103判断的嘘声手势存在错误，例如：将吸管、火腿肠、香烟等识别成食指，从而误判成嘘声手势，以及手势是否符合嘘声手势，即：食指的食指特征点，以及与嘘声虚拟槽的位置关系是否符合嘘声手势要求，具体包括以下几点：

1、食指是否伸直。食指包括四个关键点：指尖、第一指节、第二指节和第三指节基部。根据食指的四个关键点，计算出三段骨段向量，即指尖到第一指节、第一指节到第二指节、第二指节到第三指节基部的向量。计算相邻骨段向量之间的夹角，设定一个阈值(如10度)，若所有夹角小于该阈值，则判断食指伸直。

2、食指是否与人脸的竖直中线平行并且在人脸前方一定距离内。将嘘声虚拟槽投影到成像平面，与食指的四个特征点形成凸包，当凸包面积小于人脸面积1/40时，食指与人脸的竖直中线平行接近平行。

3、食指的方向是否向上。设食指第三指节基部到食指指尖向量为A，嘘声虚拟槽下端到上端在图像平面投影向量为B，当A与B夹角小于90度时，食指方向向上。

4、食指是否位于人脸的水平方向中心。食指四个关键点的几何中心在嘴唇的两个三分位点沿人脸数值方向形成的区域之间。

通过把嘘声虚拟槽投影到画面平面，判断嘘声虚拟槽的投影和食指的两条线段的夹角和端点距离判断嘘声虚拟槽和食指的相对位置。

为了快速完成上述检测，需要截取人脸图像中包括嘴唇区域，以及食指可能存在的区域，即：取上嘴唇中心的三维特征点，并沿着三维y轴负方向移动0.25个人头高度，在图像平面上进行投影来确定菱形区域的中心点。菱形区域的边长等于一个人头的高度，菱形区域的高方向(垂直方向)与三维人脸特征点在图像平面上的垂直方向投影平行。手部特征点是指手部图像中的特定关键位置，包括掌心和各个手指的关节和指尖。深度学习模型的输出包括两个部分：二进制分类，指画面中是否存在手部。手部关键点坐标，如果检测到手部，将输出手部各个关键点的坐标信息，具体包括掌心和所有手指的关节及指尖位置。

根据人脸三维模型，计算出理想的触发嘘声时食指应放置的位置，这个位置被称为“嘘声虚拟槽”，输入为人脸的三维特征点坐标，输出为该嘘声虚拟槽的坐标。嘘声虚拟槽是一个三维线段，由两个三维点来表示，其坐标通过人脸三维特征点计算得出。嘘声虚拟槽的长度为鼻尖到上唇中点的距离，嘘声虚拟槽的上端点位于鼻尖沿z轴正方向移动1/10嘘声虚拟槽长度，下端点位于上唇中点沿z轴正方向移动1/10嘘声虚拟槽长度。

在得到嘘声虚拟槽和食指特征点后，根据食指特征点，以及与嘘声虚拟槽的位置关系，判断嘘声手势是否为正确的嘘声手势。

在一个可行的实施方案中，所述目标特征点为用于表示上嘴唇中心的嘴唇特征点，所述三维坐标系是以所述人脸重建三维模型中表示鼻尖的鼻尖特征点为原点，以双眼连线方向为X轴，以面部朝向为Z轴，与X轴和Z轴所在平面垂直的方向为Y轴构建的，所述延伸方向为所述三维坐标系的Y轴方向。

在一个可行的实施方案中，所述嘘声虚拟槽的长度是从人脸特征点中用于表示鼻尖的鼻尖特征点到所述嘴唇特征点(具体可以为唇中)的距离，所述嘘声虚拟槽的上端点位于所述鼻尖特征沿所述Z轴正方向0.1倍嘘声虚拟槽的长度上，所述嘘声虚拟槽的下端点位于所述嘴唇特征点沿所述Z轴正方向0.1倍嘘声虚拟槽的长度上。

在一个可行的实施方案中，所述指定距离为0.25倍人脸高度，第二预设倍数为数值1。

在一个可行的实施方案中，所述第一预设倍数为所述外接矩形面积的平方根，所述预设比例为三分之二。

在一个可行的实施方案中，所述控制车辆中的目标可控部件执行预设动作，包括：

当所述目标可控部件为车窗时，则关闭所述车窗。

需要说明的是，执行的预设动作也可以关闭或暂定其他可控部件，例如：车载空调，具体的可控部件和预设动作可以根据实际需要进行设定，在此不做具体限定。

图4为本申请实施例提供的一种嘘声手势检测装置的结构示意图，如图4所示，所述装置包括：

获取单元41，用于根据车载摄像头拍摄到的车辆内部的包括人脸的人脸图像，获取所述人脸图像中人脸特征点；

截取单元42，用于根据以所述人脸特征点中的目标特征点为中心，以所述人脸特征点构成的图形的外接矩形面积的第一预设倍数为宽度，以所述宽度的预设比例为高度，以所述人脸图像中人脸的延伸方向为所述高度的倾斜方向构建的矩形区域，从所述人脸图像中截取第一目标图像，其中，所述第一预设倍数为正数，所述预设比例小于1，所述目标特征点属于嘴唇区域的特征点；

判断单元43，用于将所述第一目标图像输入到嘘声检测模型中，判断所述人脸图像中是否包含嘘声手势；

控制单元44，用于当确定所述人脸图像中包含所述嘘声手势时，控制车辆中的目标可控部件执行预设动作。

在一个可行的实施方案中，所述装置还包括：

在一个可行的实施方案中，所述控制单元用于当确定所述人脸图像中包含所述嘘声手势时，控制车辆中的目标可控部件执行预设动作时，包括：

在一个可行的实施方案中，所述嘘声虚拟槽的长度是从人脸特征点中用于表示鼻尖的鼻尖特征点到所述嘴唇特征点的距离，所述嘘声虚拟槽的上端点位于所述鼻尖特征沿所述Z轴正方向0.1倍所述长度上，所述嘘声虚拟槽的下端点位于所述嘴唇特征点沿所述Z轴正方向0.1倍所述长度上。

在一个可行的实施方案中，所述控制单元用于控制车辆中的目标可控部件执行预设动作时，包括：

当所述目标可控部件为车窗时，则关闭所述车窗。

关于嘘声手势检测装置的原理说明可参考嘘声手势检测方法的相关解释，在此不再详细说明。

图5为本申请实施例所提供的一种电子设备的结构示意图，包括：处理器501、存储介质502和总线503，所述存储介质502存储有所述处理器501可执行的机器可读指令，当电子设备运行如实施例中的一种嘘声手势检测方法时，所述处理器501与所述存储介质502之间通过总线503通信，所述处理器501执行所述机器可读指令，以执行如实施例中的步骤。

在实施例中，所述存储介质502还可以执行其它机器可读指令，以执行如实施例中其它所述的方法，关于具体执行的方法步骤和原理参见实施例的说明，在此不再详细赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述实施例所示的步骤。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

工业实用性

本申请提供了一种嘘声手势检测方法、装置、电子设备和存储介质，更加快捷地完成控制，提高交互效率，受环境影响较小，提高在车舱环境下进行交互时的抗干扰能力。

此外，可以理解的是，本申请的嘘声手势检测方法、装置、电子设备和存储介质是可以重现的，并且可以广泛应用于计算机技术领域。

Claims

一种嘘声手势检测方法，其特征在于，所述方法包括：

根据车载摄像头拍摄到的车辆内部的包括人脸的人脸图像，获取所述人脸图像中人脸特征点；

根据以所述人脸特征点中的目标特征点为中心，以所述人脸特征点构成的图形的外接矩形面积的第一预设倍数为宽度，以所述宽度的预设比例为高度，以所述人脸图像中人脸的延伸方向为所述高度的倾斜方向构建的矩形区域，从所述人脸图像中截取第一目标图像，其中，所述第一预设倍数为正数，所述预设比例小于1，所述目标特征点属于嘴唇区域的特征点；

将所述第一目标图像输入到嘘声检测模型中，判断所述人脸图像中是否包含嘘声手势；

当确定所述人脸图像中包含所述嘘声手势时，控制车辆中的目标可控部件执行预设动作。
如权利要求1所述的方法，其特征在于，在得到所述人脸特征点后，所述方法还包括：

将所述人脸图像输入到人脸检测模型中，得到所述人脸图像中初始人脸特征点；

将所述初始人脸特征点映射到标准三维人脸模型中的同一特征点上，得到人脸重建三维模型；

将所述人脸重建三维模型映射回所述人脸图像中同一特征点上，确定所述目标特征点。
如权利要求1所述的方法，其特征在于，所述当确定所述人脸图像中包含所述嘘声手势时，控制车辆中的目标可控部件执行预设动作，包括：

当确定所述人脸图像中包含所述嘘声手势时，根据以距离所述目标特征点延所述延伸方向的反方向的指定距离为中心，以人脸的第二预设倍数为边长，以所述延伸方向为倾斜方向构建的菱形，从所述人脸图像中截取第二目标图像；

根据所述第二目标图像，确定所述第二目标图像中在进行嘘声时，食指所在区域的嘘声虚拟槽；

将所述第二目标图像输入到定位手部特征点模型中，得到手部特征点；

根据所述手部特征点中用于表示食指的食指特征点，以及与所述嘘声虚拟槽的位置关系，判断所述嘘声手势是否为正确的嘘声手势；

如果是正确的嘘声手势，控制车辆中的目标可控部件执行预设动作。
如权利要求3所述的方法，其特征在于，所述目标特征点为用于表示上嘴唇中心的嘴唇特征点，三维坐标系是以所述人脸重建三维模型中表示鼻尖的鼻尖特征点为原点，以双眼连线方向为X轴，以面部朝向为Z轴，与X轴和Z轴所在平面垂直的方向为Y轴构建的，所述延伸方向为所述三维坐标系的Y轴方向。
如权利要求4所述的方法，其特征在于，所述嘘声虚拟槽的长度是从人脸特征点中用于表示鼻尖的鼻尖特征点到所述嘴唇特征点的距离，所述嘘声虚拟槽的上端点位于所述鼻尖特征沿所述Z轴正方向0.1倍所述长度上，所述嘘声虚拟槽的下端点位于所述嘴唇特征点沿所述Z轴正方向0.1倍所述长度上。
如权利要求3所述的方法，其特征在于，所述指定距离为0.25倍人脸高度，第二预设倍数为数值1。
如权利要求1所述的方法，其特征在于，所述第一预设倍数为所述外接矩形面积的平方根，所述预设比例为三分之二。
如权利要求1所述的方法，其特征在于，所述控制车辆中的目标可控部件执行预设动作，包括：

当所述目标可控部件为车载电话时，则拒接所述车载电话当前的通话来电；

当所述目标可控部件为车载多媒体时，则暂停所述车载多媒体当前的播放的内容；

当所述目标可控部件为车窗时，则关闭所述车窗。
一种嘘声手势检测装置，其特征在于，所述装置包括：

获取单元，用于根据车载摄像头拍摄到的车辆内部的包括人脸的人脸图像，获取所述人脸图像中人脸特征点；

截取单元，用于根据以所述人脸特征点中的目标特征点为中心，以所述人脸特征点构成的图形的外接矩形面积的第一预设倍数为宽度，以所述宽度的预设比例为高度，以所述人脸图像中人脸的延伸方向为所述高度的倾斜方向构建的矩形区域，从所述人脸图像中截取第一目标图像，其中，所述第一预设倍数为正数，所述预设比例小于1，所述目标特征点属于嘴唇区域的特征点；

判断单元，用于将所述第一目标图像输入到嘘声检测模型中，判断所述人脸图像中是否包含嘘声手势；

控制单元，用于当确定所述人脸图像中包含所述嘘声手势时，控制车辆中的目标可控部件执行预设动作。
一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-8中任一项所述的嘘声手势检测方法。
一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-8中任一项所述的嘘声手势检测方法。