WO2022042168A1

WO2022042168A1 - 音频处理方法及电子设备

Info

Publication number: WO2022042168A1
Application number: PCT/CN2021/108458
Authority: WO
Inventors: 卞超
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-08-26
Filing date: 2021-07-26
Publication date: 2022-03-03
Anticipated expiration: 2023-02-26
Also published as: JP2023540908A; CN113556501A; EP4192004A1; US20230328429A1; US12245006B2; EP4192004A4; JP7583914B2

Abstract

本申请提供音频处理方法及电子设备；涉及电子技术领域，通过确定视频画面中发声的人的脸或嘴的位置，并根据发声人的脸或嘴的位置确定需要加强拾音的范围，从而实现定向语音增强，既简化音频处理算法，又提高音频质量。该方法包括：在采集视频画面和第一音频的过程中，识别视频画面中发声对象的目标图像。根据目标图像，确定发声对象对应的第一拾音范围。基于第一音频和第一拾音范围，确定第二音频。第二音频中第一拾音范围内的音频音量大于第一拾音范围之外的音频音量。

Description

音频处理方法及电子设备

本申请要求于2020年08月26日提交国家知识产权局、申请号为202010868463.5、发明名称为“音频处理方法及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及电子技术领域，尤其涉及一种音频处理方法及电子设备。

背景技术

手机或平板电脑等电子设备广泛应用于视频拍摄领域，如短视频拍摄，网络直播等。在视频拍摄过程中，常常因为拍摄人物的走动或者外界杂音等原因导致收音效果不理想，造成语音质量下降。

为了提高收音效果，在利用电子设备收音的基础上，常常还需要增加外在收音设备，导致用户拍摄难度与成本的提升。此外，还提出一种语音增强方法，在视频拍摄过程中，利用音频算法对电子设备采集到的音频文件进行处理，以去除杂音。但是，由于拍摄环境较为复杂，对音频算法的处理能力要求较为苛刻。并且，复杂的音频处理过程，对电子设备硬件性能的要求也会提升。

发明内容

本申请提供的音频处理方法及电子设备，通过确定视频画面中发声的人的脸或嘴的位置，并根据发声人的脸或嘴的位置确定需要加强拾音的范围，从而实现定向语音增强，既简化音频处理算法，又提高音频质量。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请提供一种音频处理方法，该方法应用与电子设备，该方法可以包括：检测打开相机应用的第一操作。响应于第一操作，显示拍摄预览界面。检测开始录像的第二操作。响应于第二操作，采集视频画面和第一音频，并显示拍摄界面，拍摄界面包括视频画面的预览界面。识别视频画面中的目标图像，该目标图像为第一人脸图像和/或第一人嘴图像。其中，第一人脸图像为视频图像中的发声对象的人脸图像，第一人嘴图像为视频图像中的发声对象的人嘴图像。之后，根据目标图像，确定发声对象对应的第一拾音范围。根据第一拾音范围和第一音频，获得视频画面对应的第二音频。其中，第二音频中第一拾音范围内的音频音量大于第一拾音范围之外的音频音量。

其中，本申请实施例的方法可以应用于接收用户指示直接启动相机应用的场景。也可以应用于用户开启其他第三方应用(例如短视频应用、直播应用、视频通话应用等)，调用启动相机的场景。第一操作或第二操作例如包括触摸操作、按键操作、隔空手势操作或语音操作等。

可选的，在响应于第一操作，显示拍摄预览界面之后，方法还包括：检测启动语音增强模式的第六操作。响应于第六操作，启动语音增强模式。

在一些实施例中，检测到切换至录像功能后，首先询问用户是否开启语音增强模式。在用户确认开启语音增强模式后，启动语音增强模式。或者，检测到切换至录像功能后，自动启动语音增强模式。在又一些实施例中，检测到切换至录像功能后，先显示录像预览界面，之后检测到用户指示拍摄的操作后，再根据用户指示启动语音增强模式，或者自动启动语音增强模式。

在启动语音增强模式后，电子设备需要对采集到的第一音频进行处理，识别其中发声对象的音频，加强这部分音频，以获得更好的录音效果。其中，第一音频例如为采集到的初始音频信号，第二音频为经过语音增强处理后得到的音频。

可选的，通过人脸图像识别算法识别第一人脸图像或第一人嘴图像。比如，在录制视频画面的过程中，通过人脸图像识别算法确定采集到视频画面中是否包含人脸图像。若包含人脸图像，则识别出其中包含的人脸图像，并根据人脸图像的面部特征数据，如五官数据，面部轮廓数据等在预设时间段内的变化情况确定其是否正在发声。其中，人脸图像正在发声的判断标准包括判断人脸图像当前正在发声。或者，在判断人脸图像第一次发声之后的预设时间段内再次判断人脸图像发声，则确定人脸图像正在发声。可以理解的是，人的发声器官为人嘴，当可以获得发声的人嘴数据时，可以优先确定第一人嘴图像的数据，后续基于第一人嘴图像的数据确定第一拾音范围。需要说明的是，若视频画面中的人正在发声，但未能被识别，则该正在发声的人对应的图像不是目标图像。即目标图像为识别出的发声人脸和/或发声人嘴对应的图像。

如此，通过识别视频画面中发声的目标图像，确定需要增强拾音的第一拾音范围。进而基于采集到的初始音频信号以及第一拾音范围，获得第二音频。使得第二音频中，第一拾音范围内的音频音量大于第一拾音范围以外的音频音量。即增强发声的人的音量，从而提高音频录制效果。

在一种可能的实现方式中，根据目标图像，确定发声对象对应的第一拾音范围包括：根据目标图像，获得第一特征值。其中，第一特征值包括前后置属性参数，面积占比，位置信息中的一项或几项。其中，前后置属性参数，用于表示视频画面为前置摄像头拍摄的视频画面还是后置摄像头拍摄的视频画面。面积占比用于表示目标图像的面积与视频画面的面积的比值。位置信息，用于表示目标图像在视频画面中的位置。之后，根据第一特征值，确定发声对象对应的第一拾音范围。

其中，第一特征值用于描述第一人脸图像对应的真实人物的人脸与电子设备的相对位置关系，或者第一特征值用于描述第一人嘴图像对应的真实人物的人嘴与电子设备的相对位置关系。从而电子设备可以根据第一特征值，确定第一拾音范围。比如，第一人脸图像对应的真实人物位于电子设备的正前方，即第一人脸图像位于拍摄的视频画面的中心位置，则第一拾音范围为电子设备正前方的拾音范围。后续，电子设备获取包含各个方向音频信号的初始音频信号后，可以基于初始音频信号和第一拾音范围获得第一人脸图像对应的音频。

在一些实施例中，在视频画面录制过程中，第一特征值可能会发生变化。那么，第一拾音范围也会随之变化。那么，对于录制的视频中的音频来说，电子设备录制的音频至少包括第一时长音频和第二时长音频。其中，第一时长音频为第一拾音范围对应的音频，第二时长音频为变化后的拾音范围对应的音频。也就是说，电子设备可以视频画面中发声人脸或发声人嘴的变化，动态确定拾音范围，进而根据拾音范围录制音频。最终检测到用户指示停止录制的操作后，形成的视频画面的音频中可以包含按照根据时间顺序，基于变化的拾音范围录制的不同时长或相同时长的多个音频。

如此，电子设备可以根据拾音范围的变化，始终对焦于提高需要进行语音增强的部分的音频录制质量，从而保证音频录制效果。并且，在用户播放视频文件时，可以向用户展示匹配视频内容变化的声音范围等动态变化的播放体验。

在一种可能的实现方式中，根据第一特征值，确定发声对象对应的第一拾音范围，包括：当视频画面为前置视频画面时，确定第一拾音范围为前置摄像头侧的拾音范围。当视频画面为后置视频画面时，确定第一拾音范围为后置摄像头侧的拾音范围。

示例性的，假设电子设备的拾音范围包括前置180度的拾音范围和后置180度的拾音范围。那么，在确定视频画面为前置视频画面时，则将前置180度的拾音范围作为第一拾音范围。在确定视频画面为后置视频画面时，则将后置180度的拾音范围作为第一拾音范围。进一步的，在视频画面录制过程中，响应于用户切换前后置摄像头的操作，第一拾音范围也会进行前后置切换，从而确保第一拾音范围为视频画面中发声对象对应的拾音范围。

在一种可能的实现方式中，根据第一特征值，确定发声对象对应的第一拾音范围，包括：根据面积占比以及第一音频的拾音范围，确定第一拾音范围。

其中，第一音频的拾音范围例如为全景音频的拾音范围。电子设备在录像过程中，利用麦克风采集各个方向的初始音频信号，即获得全景音频的拾音范围内的初始音频信号。

具体的，用户使用手机拍摄视频画面的过程中，通常会将用户关注的人物置于视频画面中心位置，也就是说，第一人脸图像或第一人嘴图像位于取景框中心位置。不同的第一人脸图像或第一人嘴图像的面积对应的拾音范围不同，可以利用面积占比描述第一拾音范围的大小。如半径，直径，面积等。

示例性的，假设X用于表示第一人脸图像面积或者第一人嘴图像面积。Y用于表示取景框显示的视频画面的面积。N表示取景范围对应的拾音范围。那么，面积占比为X/Y，第一拾音范围为N*X/Y。也就是说，第一拾音范围与全景拾音范围的比值与面积占比成正比。

在一种可能的实现方式中，根据第一特征值，确定发声对象对应的第一拾音范围，包括：根据位置信息，确定第一拾音范围在第一音频的拾音范围中的位置。

在一些场景中，发声对象并不位于视频画面中心位置，则可以根据位置信息，获得发声对象对应的图像(即目标图像)在视频画面中的位置。可以理解的是，目标图像在视频画面中的位置与第一拾音范围在全景拾音范围中的位置，两者具有对应关系。

在一种可能的实现方式中，位置信息包括目标图像的中心点相对于第一参考点的第一偏移量，第一参考点为视频画面的中心点或对焦的焦点。根据位置信息，确定第一拾音范围在第一音频的拾音范围中的位置，包括：根据第一偏移量，确定第一拾音范围的中心点相对于第一音频的拾音范围的中心点的第二偏移量，第二偏移量与第一偏移量成正比。之后，根据第二偏移量，确定第一拾音范围在第一音频的拾音范围中的位置。

其中，偏移量例如包括偏移方向，和/或偏移角度，和/或偏移距离等。偏移方向是指第一人脸图像或第一人嘴图像的中心点相对于第一参考点向左偏移，向右偏移，向上偏移，向下偏移，向左上偏移，向右上偏移，向左下偏移或者向右下偏移等。偏移角度是指向左上偏移，向右上偏移，向左下偏移或者向右下偏移的角度。偏移距离是指向左偏移，向右偏移，向上偏移，向下偏移的距离，或者某个偏移角度上偏移的距离等。

示例性的，以第一参考点为原点，平行于手机底边(或当前取景框的底边)为x轴，垂直于x轴的方向为y构建坐标系，并且当前坐标系平行于手机显示屏。利用构建的坐标系定义第一人脸图像或第一人嘴图像的中心点相对于第一参考点的偏移方向，偏移角度和偏移距离。比如，目标图像的位置信息为取景框中心点左下方，则第一拾音范围在全景拾音范围中，且第一拾音范围的中心点在全景拾音范围中心点左下方。

在一种可能的实现方式中，视频画面的中心点为的取景框的中心点，或者视频画面的中心点为的显示屏的中心点。

其中，在有些场景中，将取景框的中心点作为第一参考点，即利用取景框中心点表示视频画面的中心点。可以理解的是，基于视频画面的显示形式，第一参考点也可以用其他形式表示。比如，将手机显示屏的全部屏幕的中心点用于表示视频画面的中心点，即作为第一参考点。

在一种可能的实现方式中，根据第一拾音范围和第一音频，获得视频画面对应的第二音频包括：增强第一音频中在第一拾音范围以内的音频信号，和/或削弱第一音频中在第一拾音范围以外的音频信号，获得第二音频。

示例性的，第一音频包括各个方向的音频信号，在确定发声对象对应的第一拾音范围之后，通过增强第一拾音范围内的音频信号，以提高录制的视频中音频质量。可选的，进一步削弱拾音范围外的音频信号，以减小外界杂音的干扰，并在音频中更加突出发声对象发出的声音。

在一种可能的实现方式中，电子设备包含一个或多个麦克风，一个或多个麦克风用于采集第一音频。根据第一拾音范围和第一音频，获得视频画面对应的第二音频，包括：当一个或多个麦克风中第一麦克风的拾音范围内包含第一拾音范围的部分或全部时，执行以下至少一个操作得到第二音频：增强第一麦克风的拾音范围中第一拾音范围内的音频信号；削弱第一麦克风的拾音范围中第一拾音范围外的音频信号；削弱一个或多个麦克风中除第一麦克风外的其他麦克风的音频信号。

示例性的，手机配置有麦克风1和麦克风2。第一拾音范围在麦克风1的拾音范围以内，则手机在利用麦克风1和麦克风2获取到初始音频信号后，可以增强该初始音频信号中麦克风1采集的第一拾音范围内的音频信号，同时削弱该初始音频信号中麦克风1采集的第一拾音范围以外的音频信号，以及削弱麦克风2采集的音频信号，获取第一人脸图像或第一人嘴图像对应的音频。又比如，手机配置有麦克风1和麦克风2。第一拾音范围包括麦克风1的拾音范围以内的拾音范围1，以及麦克风2的拾音范围以内的拾音范围2。也就是说，第一拾音范围为拾音范围1和拾音范围2的并集。那么，手机在利用麦克风1和麦克风2获取到初始音频信号后，可以增强初始音频信号中麦克风1的拾音范围1以及麦克风2的拾音范围2以内的音频信号，削弱初始音频信号中剩余的音频信号，获取第一人脸图像或第一人嘴图像对应的音频。可以理解的是，拾音范围1和拾音范围2可以全部或部分重叠。

在一种可能的实现方式中，电子设备包含至少两个麦克风，至少两个麦克风用于采集第一音频。根据第一拾音范围和第一音频，获得视频画面对应的第二音频，包括：当至少两个麦克风中第二麦克风的拾音范围不包含第一拾音范围时，关闭第二麦克风，至少两个麦克风中除第二麦克风外的其他麦克风采集的音频为第二音频。

示例性的，手机配置有麦克风1和麦克风2。第一拾音范围在麦克风1的拾音范围以内，在麦克风2的拾音范围以外。那么，手机关闭麦克风2，将麦克风1采集的音频信号处理后作为视频画面对应的音频，即第一人脸图像或第一人嘴图像对应的音频为麦克风1采集的音频。

在一种可能的实现方式中，在关闭第二麦克风时，方法还包括：增强至少两个麦克风中除第二麦克风外的其他麦克风的拾音范围中第一拾音范围内的音频信号，和/或削弱至少两个麦克风中除第二麦克风外的其他麦克风的拾音范围中第一拾音范围外的音频信号。

示例性的，手机配置有麦克风1和麦克风2。第一拾音范围在麦克风1的拾音范围以内，在麦克风2的拾音范围以外。那么，手机关闭麦克风2，将麦克风1采集的音频信号中第一拾音范围内的音频信号增强，第一拾音范围以外的音频信号削弱后，获取第一人脸图像或第一人嘴图像对应的音频。

在一种可能的实现方式中，第一人脸图像的数量为一个或多个，第一人嘴的数量为一个或多个。

其中，视频画面中正在发声的人物可以为一个或多个，那么第一人脸图像的数量为一个或多个，第一人嘴图像的数量为一个或多个。可以理解的是，若当前拍摄的视频画面中，某些人物正在发声，但手机未能识别其正在发声，则未能识别的发声的人物的人脸图像或人嘴图像不划分为上述的第一人脸图像或第一人嘴图像。

在一些实施例中，若第一人脸图像或第一人嘴图像的数量为多个。那么，在确定第一特征值的过程中，需要基于多张第一人脸图像或多张第一人嘴图像确定第一特征值。比如，在确定面积占比的过程中，将多张第一人脸图像的面积和与视频画面的面积的比值，作为目标图像的面积占比。又比如，在确定位置信息的过程中，将多张第一人脸图像所在的占位框的中心点相对于视频画面的中心点的偏移量，作为目标图像的位置信息。其中，多张第一人脸图像所在的占位框用于表示包含该多张人脸图像的最小选框。

在一种可能的实现方式中，在响应于第二操作，采集视频画面和第一音频，并显示拍摄界面之后，方法还包括：检测停止拍摄的第三操作。响应于第三操作，停止录制并生成录像视频；录像视频包括视频画面，以及第二音频。检测播放录像视频的第四操作。响应于第四操作，显示视频播放界面，播放视频画面，以及第二音频。

在一些实施例中，电子设备在录制视频画面的过程中，根据发声人脸图像或发声人嘴图像，确定第一拾音范围，进而根据第一拾音范围录制音频。后续，需要对录制的音频进行保存，用户可以播放已保存的录像的视频画面和音频。

需要说明的是，若录制视频画面的场景为直播，视频通话等实时通信场景，则其录制视频画面过程中，录制音频的方法可以参考上述方法，但是在检测到用户指示停止拍摄的操作即为停止通信的操作后，直接停止通信，不必生成录像视频。可以理解的是，某些实时通信场景中，用户也可以选择保存录像视频。电子设备响应于用户的操作，确定是否保存实时通信场景中的录像视频。

在一种可能的实现方式中，录像视频还包括第三音频，第三音频为根据第二拾音范围确定的音频，第二拾音范围为根据第一拾音范围确定，且与第一拾音范围不同的拾音范围；视频播放界面包括第一控件和第二控件，第一控件对应第二音频，第二控件对应第三音频。

在一些实施例中，由于电子设备根据第一特征值确定的第一拾音范围，与第一人脸图像或第一人嘴图像的显示范围可能存在一定的误差，因而电子设备可以在第一拾音范围附近确定一个或多个参考第一拾音范围。其中，电子设备根据第一拾音范围获得一路音频，根据参考第一拾音范围获得至少一路音频，电子设备还可以将全景音频作为一路音频。那么，电子设备基于第一拾音范围可以获得第一人脸图像或第一人嘴图像对应的多路音频。其中，一路音频可以理解为一个音频文件。

可选的，录像功能可以包括单路录像功能和多路录像功能。其中，单路录像功能是指在电子设备拍摄过程中显示一个取景框，用于录制的一路视频画面。多路录像功能是指电子设备在拍摄过程中显示至少两个取景框，每一取景框用于一路视频画面。其中，使用多路录像功能的过程中，每一路视频画面及对应的音频采集方式均可以参照单路录像功能的实现方式。

如此，电子设备可以切换播放不同拾音范围对应的音频，给用户以多种音频播放选择，实现了音频的可调节性，可以提高用户音频播放体验。

在一种可能的实现方式中，该方法还包括：响应于第四操作，播放视频画面和第二音频。第四操作包括操作播放控件的操作或操作第一控件的操作。检测操作第二控件的第五操作。响应于第五操作，播放视频画面和第三音频。

在另一种可能的实现方式中，在视频回放时，电子设备可以显示视频播放界面，且先不播放音频。电子设备在检测到用户的指示操作后，播放用户指示的音频。

在一种可能的实现方式中，该方法还包括：响应于删除第二音频或第三音频的操作，删除第二音频或第三音频。

如此，能够实现在视频回放过程中，根据用户需求删除用户不想保存的音频，提高用户使用体验。

第二方面，本申请提供一种电子设备，该电子设备包括：处理器，存储器，麦克风，摄像头和显示屏，存储器、麦克风、摄像头、显示屏与处理器耦合，存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当处理器从存储器中读取计算机指令，使得电子设备执行如下操作：检测打开相机应用的第一操作。响应于第一操作，显示拍摄预览界面。检测开始录像的第二操作。响应于第二操作，采集视频画面和第一音频，并显示拍摄界面，拍摄界面包括视频画面的预览界面。识别视频画面中的目标图像，目标图像为第一人脸图像和/或第一人嘴图像；其中，第一人脸图像为视频图像中的发声对象的人脸图像，第一人嘴图像为视频图像中的发声对象的人嘴图像。根据目标图像，确定发声对象对应的第一拾音范围。根据第一拾音范围和第一音频，获得视频画面对应的第二音频，第二音频中第一拾音范围内的音频音量大于第一拾音范围之外的音频音量。

在一种可能的实现方式中，根据目标图像，确定发声对象对应的第一拾音范围；包括：根据目标图像，获得第一特征值；其中，第一特征值包括前后置属性参数，面积占比，位置信息中的一项或几项；其中，前后置属性参数，用于表示视频画面为前置摄像头拍摄的视频画面还是后置摄像头拍摄的视频画面；面积占比用于表示目标图像的面积与视频画面的面积的比值；位置信息，用于表示目标图像在视频画面中的位置。根据第一特征值，确定发声对象对应的第一拾音范围。

在一种可能的实现方式中，位置信息包括目标图像的中心点相对于第一参考点的第一偏移量，第一参考点为视频画面的中心点或对焦的焦点。根据位置信息，确定第一拾音范围在第一音频的拾音范围中的位置，包括：根据第一偏移量，确定第一拾音范围的中心点相对于第一音频的拾音范围的中心点的第二偏移量，第二偏移量与第一偏移量成正比。根据第二偏移量，确定第一拾音范围在第一音频的拾音范围中的位置。

在一种可能的实现方式中，根据第一拾音范围和第一音频，获得视频画面对应的第二音频；包括：增强第一音频中在第一拾音范围以内的音频信号，和/或削弱第一音频中在第一拾音范围以外的音频信号，获得第二音频。

在一种可能的实现方式中，在关闭第二麦克风时，当处理器从存储器中读取计算机指令，还使得电子设备执行如下操作：增强至少两个麦克风中除第二麦克风外的其他麦克风的拾音范围中第一拾音范围内的音频信号，和/或削弱至少两个麦克风中除第二麦克风外的其他麦克风的拾音范围中第一拾音范围外的音频信号。

在一种可能的实现方式中，当处理器从存储器中读取计算机指令，还使得电子设备执行如下操作：检测停止拍摄的第三操作。响应于第三操作，停止录制并生成录像视频；录像视频包括视频画面，以及第二音频。检测播放录像视频的第四操作。响应于第四操作，显示视频播放界面，播放视频画面，以及第二音频。

在一种可能的实现方式中，当处理器从存储器中读取计算机指令，还使得电子设备执行如下操作。响应于第四操作，播放视频画面和第二音频；第四操作包括操作播放控件的操作或操作第一控件的操作。检测操作第二控件的第五操作。响应于第五操作，播放视频画面和第三音频。

在一种可能的实现方式中，当处理器从存储器中读取计算机指令，还使得电子设备执行如下操作：响应于删除第二音频或第三音频的操作，删除第二音频或第三音频。

在一种可能的实现方式中，当处理器从存储器中读取计算机指令，还使得电子设备执行如下操作：检测启动语音增强模式的第六操作。响应于第六操作，启动语音增强模式。

此外，第二方面所述的电子设备的技术效果可以参考第一方面所述的音频处理方法的技术效果，此处不再赘述。

第三方面，本申请提供一种电子设备，该电子设备具有实现如上述第一方面及其中任一种可能的实现方式中所述的音频处理方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

第四方面，本申请提供一种计算机可读存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如第一方面及其中任一种可能的实现方式中任一项所述的音频处理方法。

第五方面，本申请提供一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行如第一方面及其中任一种可能的实现方式中任一项所述的音频处理方法。

第六方面，提供一种电路系统，电路系统包括处理电路，处理电路被配置为执行如上述第一方面及其中任一种可能的实现方式中所述的音频处理方法。

第七方面，本申请实施例提供一种芯片系统，包括至少一个处理器和至少一个接口电路，至少一个接口电路用于执行收发功能，并将指令发送给至少一个处理器，当至少一个处理器执行指令时，至少一个处理器执行如上述第一方面及其中任一种可能的实现方式中所述的音频处理方法。

附图说明

图1为本申请实施例提供的电子设备的结构示意图；

图2A为本申请实施例提供的摄像头的布局示意图；

图2B为本申请实施例提供的麦克风的布局示意图；

图3为本申请实施例提供的电子设备的软件结构框图示意图；

图4为本申请实施例提供的一组界面示意图一；

图5为本申请实施例提供的拾音范围示意图一；

图6为本申请实施例提供的音频处理方法流程示意图一；

图7为本申请实施例提供的界面示意图一；

图8为本申请实施例提供的一组界面示意图二；

图9为本申请实施例提供的拾音范围示意图二；

图10为本申请实施例提供的一组界面示意图三；

图11为本申请实施例提供的一组界面示意图四；

图12为本申请实施例提供的一组界面示意图五；

图13为本申请实施例提供的坐标系示意图；

图14为本申请实施例提供的偏移角度示意图；

图15为本申请实施例提供的偏移距离示意图；

图16A为本申请实施例提供的第一拾音范围示意图一；

图16B为本申请实施例提供的第一拾音范围示意图二；

图16C为本申请实施例提供的第一拾音范围示意图三；

图17为本申请实施例提供的界面示意图二；

图18为本申请实施例提供的一组界面示意图六；

图19为本申请实施例提供的一组界面示意图七；

图20为本申请实施例提供的一组界面示意图八；

图21为本申请实施例提供的音频处理方法流程示意图二。

具体实施方式

下面结合附图对本申请实施例提供的音频处理方法及电子设备进行详细地描述。

本申请实施例提供的音频处理方法，可以应用于电子设备。例如，该电子设备具体可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、人工智能(artificial intelligence)设备或专门的照相机(例如单反相机、卡片式相机)等，本申请实施例对电子设备的具体类型不作任何限制。

示例性的，图1示出了电子设备100的一种结构示意图。电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在本申请的一些实施例中，处理器110对采集到视频画面中多帧图像进行图像识别，获得各帧图像中包含的人脸图像和/或人嘴图像数据。通过对比各帧图像中人脸图像数据和/或人嘴图像数据的变化，如上下嘴唇间距的变化，面部轮廓的变化等，确定出各帧图像中(即视频画面中)发声人脸和/或嘴的位置、占比等信息。进一步的，根据视频画面中发声人脸和/或嘴的位置、占比等信息确定待加强的拾音范围，即确定发声人的声音在全景音频中的位置区域。通过增强拾音范围内的音频信号，以提高录制的视频中音频质量。可选的，进一步削弱拾音范围外的音频信号，以减小外界杂音的干扰。

充电管理模块140用于从充电器接收充电输入。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，显示屏194，摄像头193等供电。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)等无线通信的解决方案。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

在一些实施例中，显示屏194可以显示录像模式下的拍摄预览界面、录像预览界面和拍摄界面，还可以在视频回放时显示视频播放界面等。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。例如，在本申请的实施例中，ISP可以根据拍摄参数控制感光元件进行曝光和拍照。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。

在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。其中，摄像头193可以位于电子设备的边缘区域，可以为屏下摄像头，也可以是可升降的摄像头。摄像头193可以包括后置摄像头，还可以包括前置摄像头。本申请实施例对摄像头193的具体位置和形态不予限定。

示例性的，电子设备100上摄像头的布局可以参见图2A，其中，电子设备100正面为显示屏194所在的平面。如图2A中(a)所示，摄像头1931位于电子设备100正面，则摄像头为前置摄像头。如图2A中(b)所示，摄像头1932位于电子设备100背面，则摄像头为后置摄像头。

可选的，本申请实施例的方案可以应用于具有多个显示屏的折叠屏(即显示屏194能够折叠)的电子设备100上。如图2A中(c)所示的折叠屏电子设备100。响应于用户的操作，如图2A中(d)所示，沿折叠边向内折叠(或向外折叠)显示屏，使得显示屏形成至少两个屏(例如A屏和B屏)。如图2A中(e)所示，在折叠的外侧有显示屏(例如C屏)。若电子设备100在C屏所在表面设置有摄像头。那么，在如图2A中(c)所示的电子设备100未折叠场景中，C屏上的摄像头在电子设备100的背面，可以视为后置摄像头。在如图2A中(e)所示的电子设备100已折叠场景中，C屏上的摄像头变为在电子设备100的正面，可以视为前置摄像头。也就是说，本申请中前置摄像头和后置摄像头并不对摄像头本身的性质进行限制，仅为一种位置关系的说明。

由此，电子设备100可以根据使用的摄像头在电子设备100上的位置，确定摄像头为前置摄像头或后置摄像头，进而确定采集声音的方向。比如，当前电子设备100通过位于电子设备100背面的后置摄像头采集图像，则电子设备100需要重点采集电子设备100背面的声音。又比如，当前电子设备100通过位于电子设备100正面的前置摄像头采集图像，则电子设备100需要重点采集电子设备100正面的声音。如此，确保采集到的声音能够与采集到的图像相匹配。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

在一些实施例中，NPU利用图像识别技术，识别摄像头193采集到的图像中是否包含人脸图像和/或人嘴图像。进一步的，NPU还可以根据人脸图像和/或人嘴图像的数据，确认其中的发声人脸或发声人嘴，从而确认需要进行定向录音的拾音范围。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频数据转换成模拟音频电信号输出，也用于将模拟音频电信号输入转换为数字音频数据，音频模块170可以包括模/数转换器和数 /模转换器。例如，音频模块170用于将麦克风170C输出的模拟音频电信号转换为数字音频数据。音频模块170还可以用于对音频数据进行编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将模拟音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将模拟音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为模拟音频电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。其中，该麦克风170C可以是电子设备100的内置部件，也可以是电子设备100的外接配件。

在一些实施例中，电子设备100可以包括一个或多个麦克风170C，其中每一麦克风或多个麦克风合作可以实现采集各个方向的声音信号，并将采集到的声音信号转换为模拟音频电信号的功能，还可以实现降噪，识别声音来源，或定向录音功能等。

示例性的，如图2B所示，示例性给出了两种电子设备100上多个麦克风的布局的示意以及各个麦克风对应的拾音范围。如图2B中(a)所示，当电子设备100如图中所示的位置放置时，电子设备100的正面为显示屏194所在的平面，麦克风21位于电子设备100顶部(通常为听筒、摄像头所在一侧)，麦克风22位于电子设备100右侧，麦克风23位于电子设备100的底部(图2B中(a)所示电子设备100当前角度底部部分不可见，用虚线示意性表示麦克风23位置)。

需要说明的是，后续实施例中所描述的“上”，“下”，“左”和“右”均参考图2B所示的方位，后续不再赘述。

如图2B中(b)所示的拾音范围示意图，麦克风21对应的拾音范围包括前置上方拾音范围和后置上方拾音范围，麦克风22对应的拾音范围包括前置中间拾音范围和后置中间拾音范围，麦克风23对应的拾音范围包括前置下方拾音范围和后置下方拾音范围。麦克风21-23的组合可以采集电子设备100周围各个方向的声音信号。其中，可以根据前置摄像头对应前置拾音范围，后置摄像头对应后置拾音范围。那么，当电子设备100利用前置摄像头录制视频时，则确定拾音范围为前置拾音范围。进一步的，再根据发声人脸或发声人嘴在视频画面中的位置，更加精准的确定拾音范围为前置拾音范围中包含的某个范围。具体方法见下文详细描述。

可以理解的是，电子设备100还可以包括更多数量的麦克风，如图2B中(c)所示，电子设备100包括6个麦克风。其中，麦克风24位于电子设备100顶部，麦克风25位于电子设备100的左侧，麦克风26位于电子设备100的底部，麦克风27-29位于电子设备100右侧。图2B中(c)所示电子设备100当前角度左侧部分不可见，用虚线示意性表示麦克风25和麦克风26的位置。如图2B中(d)所示的拾音范围示意图，麦克风24对应的拾音范围包括前置上方拾音范围，麦克风25对应的拾音范围包括前置中间拾音范围，麦克风26对应的拾音范围包括前置下方拾音范围，麦克风27对应的拾音范围包括后置上方拾音范围，麦克风28对应的拾音范围包括后置中间拾音范围，麦克风29对应的拾音范围包括后置下方拾音范围。麦克风24-29的组合可以采集电子设备100周围各个方向的声音信号。

其中，如图2B中(b)和(d)所示，电子设备100各个麦克风采集音频信号的拾音范围存在部分重叠，即图2B中(b)和(d)中的阴影部分。在音频录制过程中，需要对重叠部分的音频信号进行融合处理，对于同一方向来说，某个麦克风采集到的声音信号的音质可能较好(例如信噪比较高，尖峰噪声和毛刺噪声较少等)，而另一个麦克风采集到的声音信号的音质可能较差。则选取对应的方向上音质较好的音频数据进行融合处理，根据处理后的音频数据录制生成效果较好的音频。进一步的，若发声人脸或发声人嘴对应的拾音范围位于多个麦克风的拾音范围以内，则可以融合多个麦克风采集的音频数据，获得发声人脸或发声人嘴对应的音频。

在一些实施例中，该麦克风170C可以是指向性麦克风，可以针对特定方向采集声音信号。该麦克风170C还可以是非向性麦克风，实现采集各个方向上的声音信号，或者可以根据其在电子设备100上的位置，采集一定范围内的声音信号。

在另一些实施例中，麦克风170C可旋转，电子设备100可以通过旋转麦克风来调整拾音方向，针对发声的人脸或人嘴对应的拾音范围，电子设备100可以配置一个麦克风170C，通过旋转该麦克风实现对各个方向进行拾音。在电子设备100配置多个麦克风170C的情况下，可以通过不同麦克风170C的组合来拾取相应拾音范围内的音频信号。比如，可以使用其中的部分麦克风170C进行拾音，而不需要使用电子设备100全部的麦克风170C。又比如，增强部分麦克风170C采集的音频信号，削弱部分麦克风170C采集的音频信号。

本申请实施例对麦克风170C的数量不做具体限制。

其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

其中，离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。

例如，在本申请的实施例中，电子设备100可以通过触摸传感器180K检测用户指示开始和/或停止录像的操作。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图3是本发明实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将电子设备的操作系统(例如Android系统)分为四层，从下至上分别为内核层，硬件抽象层(hardware abstract layer，HAL)，应用程序框架层，以及应用程序层。

内核层是硬件和软件之间的层。内核层至少包含摄像头驱动，音频驱动，显示驱动，传感器驱动。

在一些实施例中，如在录像应用场景中，触摸传感器180K将接收的触摸操作，通过内核层的传感器驱动传至上层的相机应用。由相机应用识别出该触摸操作为开始录制视频的操作后，相机应用通过摄像头驱动调用摄像头193录制视频画面，并通过音频驱动调用麦克风170C录制音频。在上述过程中，相应的硬件中断被发给内核层，并且内核层可以将对应的操作加工成原始输入事件(例如触摸操作包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。

硬件抽象层(hardware abstract layer，HAL)位于内核层和应用程序框架层之间，用于定义驱动应用程序硬件实现的接口，将驱动硬件实现的值转化为软件实现程序语言。例如识别摄像头驱动的值，将其转化为软件程序语言上传至应用程序框架层，进而实现调用相机服务系统。

在一些实施例中，HAL可以将摄像头193采集到的视频画面，进行人脸图像识别后的原始数据上传至应用程序框架层进行进一步的处理。其中，人脸图像识别后的原始数据例如可以包括人脸图像数据和/或人嘴图像数据等。其中，人脸图像数据可以包括发声人脸图像的数量，发声人脸图像在视频画面中的位置信息等；人嘴图像数据可以包括发声人嘴图像的数量，发声人嘴图像在视频画面中的位置信息等。

示例性的，预设人脸图像数据和人嘴图像数据的优先级顺序。其中人的发声器官为人嘴，通过发声人嘴数据可以更加精准的确定拾音范围，因此设置人嘴图像数据的优先级顺序高于人脸图像数据的优先级顺序。比如，HAL根据采集到的视频画面，可以确定其中的发声人脸图像数据和发声人嘴图像数据，则根据优先级顺序，将发声人嘴数据作为原始数据上传。后续音频处理系统基于发声人嘴图像数据，根据视频画面与全景音频的对应关系，确定发声人嘴图像对应的拾音范围。又比如，HAL根据采集到的视频画面，只确定其中的发声人脸图像数据，则将发声人脸图像数据作为原始数据上传，用于确定发声人脸图像对应的拾音范围。再比如，HAL根据视频画面，只确定其中的发声人嘴图像数据，则将发声人嘴图像数据作为原始数据上传，用于确定发声人嘴图像对应的拾音范围。

应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层从内核层经由HAL获取原始输入事件，识别该输入事件所对应的控件。应用程序框架层包括一些预先定义的函数。

如图3所示，应用程序框架层可以包括相机服务系统，音频处理系统，视图系统，电话管理器，资源管理器，通知管理器，窗口管理器等。

相机服务系统服务于相机应用，用于基于内核层输入的原始事件调用相机应用采集图像。

音频处理系统，用于管理音频数据，利用不同的音频算法处理音频数据。例如，配合相机服务系统，在录像过程中，对采集到的音频信号进行处理。例如，基于人脸图像数据，确定拾音范围，加强拾音范围以内的音频信号，削弱拾音范围以外的音频信号。

在一些实施例中，相机应用调用应用框架层的相机服务系统，启动相机应用。进而通过调用内核层启动摄像头驱动，通过摄像头193捕获视频。并调用音频处理系统，用过内核层启动音频驱动，通过麦克风170C采集声音信号，并生成模拟音频电信号，以及通过音频模块170将模拟音频电信号生成数字音频数据，并根据数字音频数据生成音频。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

应用程序层可以包括一系列应用程序包。

如图3所示，应用程序包可以包括相机，视频，通话，WLAN，音乐，短信息，蓝牙，地图，日历，图库，导航等应用程序。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

以下将以电子设备为具有图1和图3所示结构的手机为例，对本申请实施例提供的音频处理方法进行阐述。

在一些实施例中，本申请实施例的方法可以应用于接收用户指示直接启动相机应用(以下也可简称为相机)的场景。也可以应用于用户开启其他第三方应用(例如短视频应用、直播应用、视频通话应用等)，调用启动相机的场景。

以下以直接启动相机的场景为例进行示例性说明。

可选的，用户可以通过触摸操作、按键操作、隔空手势操作或语音操作等方式，指示手机启动相机，并显示拍摄预览界面。示例性的，如图4中(a)所示的主界面401，手机响应于用户点击相机图标41的操作，启动相机，并显示图4中(b)所示的拍摄预览界面402。或者，手机响应于到用户打开相机的语音指示操作，启动相机，并显示图4中(b)所示的拍摄预览界面402。其中，控件421用于对手机拍摄功能进行设置，如延时拍摄等。控件422用于开启或关闭滤镜功能。控件423用于开启或关闭闪光灯功能。

其中，在拍摄预览界面，相机能够响应于用户点击不同功能控件的操作，切换不同的功能。比如，图4中(b)所示，控件431-434用于切换相机可实现的功能。如当前已选中控件432，启动拍照功能。又如，响应于用户点击控件431，切换至人像拍摄功能。或者，响应于用户点击控件433的操作，切换至录像功能。又或者，响应于用户点击控件434的操作，显示相机可切换的更多功能，如全景拍摄等。

以下以手机启动录像功能，录制视频画面以及音频为例进行说明。

一般的，手机启动相机后默认打开拍照功能，在检测到切换功能的操作后，如检测到点击录像控件的操作，启动录像功能，并显示录像预览界面。示例性的，手机启动相机后默认显示如图4中(b)所示的拍摄预览界面402，手机检测到用户点击控件433的操作后，启动录像功能，并显示图4中(c)所示的录像预览界面403。或者，在另一些示例中，手机也可以启动相机后默认打开录像功能。比如，手机启动相机后直接显示图4中(c)所示的录像预览界面403。也即手机检测到用户打开相机应用的操作后，即可启动录像功能。又一些示例中，手机通过检测隔空手势，或检测语音指示操作等方式，启动录像功能。例如，手机接收到用户语音命令“打开相机录像”，则直接启动相机的录像功能，并显示录像预览界面。又一些示例中，在另一种可能的实现方式中，手机启动相机后，默认进入上次相机关闭之前最后应用的功能，如人像拍摄功能。之后，再通过检测启动录像功能的操作，启动相机的录像功能，并显示录像预览界面。

在一些实施例中，手机检测到切换至录像功能后，首先询问用户是否开启语音增强模式。在用户确认开启语音增强模式后，启动语音增强模式。或者，手机检测到切换至录像功能后，自动启动语音增强模式。在又一些实施例中，手机检测到切换至录像功能后，先显示录像预览界面，之后检测到用户指示拍摄的操作后，再根据用户指示启动语音增强模式，或者自动启动语音增强模式。

示例性的，如图4中(b)所示，响应于用户点击录像控件433的操作，手机显示如图4中(c)所示录像预览界面403，并在录像预览界面403中显示提示框44，用于提示用户是否启动语音增强模式。若检测到用户点击是的操作，则启动语音增强模式并显示如图4中(d)所示的拍摄界面404。或者，手机由拍摄预览界面402切换至录像功能后，直接启动语音增强模式并显示如图4中(d)所示的拍摄界面404。

又示例性的，手机切换至录像功能后，只显示如图4中(c)所示的录像预览界面403。之后，响应于用户点击拍摄控件45的操作，再显示提示框44，根据用户选择确认是否启动语音增强模式。或者，手机在录像预览界面403检测到用户点击拍摄控件45的操作后，直接启动语音增强模式并显示如图4中(d)所示的拍摄界面404。

在又一些实施例中，手机在录像预览界面或者在录制视频画面的过程中，检测到用户启动或关闭语音增强模式的操作后，启动或关闭语音增强模式。其中，启动语音增强模式的操作例如可以包括点击预设控件的操作，语音操作等。

示例性的，如图4中(c)所示录像预览界面403，手机可以通过检测用户对控件46的操作，实现启动或者关闭语音增强模式。例如，当前控件46的显示状态，表示当前手机未启动语音增强模式，检测到用户点击控件46的操作后，启动语音增强模式。手机在拍摄开始之前或者拍摄过程中，通过检测用户对控件46的操作，可以实现启动或关闭语音增强模式。

在开启语音增强模式后，手机在检测到用户指示拍摄的操作后，开始录制视频画面，并可以对采集到的视频画面进行视频编码等处理，从而生成视频文件并保存。

示例性的，如图4中(c)所示的录像预览界面403，响应于用户点击拍摄控件45的操作，手机显示如图4中(d)所示的拍摄界面404，并开始进行视频画面录制。

其中，语音增强模式用于增强对视频拍摄视频画面中某些特定目标的音频的采集，从而提高音频录制效果。比如，用户在采访过程中利用相机进行录像，那么需要重点采集被采访的人物的语音。用户指示拍摄的操作例如可以包括点击拍摄控件的操作，语音指示操作等多种操作方式。

示例性的，如图5中(a)所示，大圆501用于表示手机当前所有麦克风能够拾音的最大范围(也可以描述为全景拾音范围)，小圆502用于表示用户关注的人物(通常为正在发声的人物)对应的拾音范围。再如图5中(b)所示，用户关注的人物的拾音范围(即拾音范围1)在全景拾音范围以内。本申请实施例中可以根据用户关注的人物的图像在录制的视频画面中的位置信息，确定需要加强录音的拾音范围。也即增强图5中(b)所示拾音范围1内的音频录制效果。从而减小录制的音频中，全景音频中其他杂音对用户关注的人物发声的影响。

在一些实施例中，将手机识别出的正在发声的人脸图像可以描述为第一人脸图像，正在发声的人嘴图像可以描述为第一人嘴图像。或者也可以描述为发声人脸图像或发声人嘴图像。其中，视频画面中正在发声的人物可以为一个或多个，那么第一人脸图像的数量为一个或多个，第一人嘴图像的数量为一个或多个。可以理解的是，若当前拍摄的视频画面中，某些人物正在发声，但手机未能识别其正在发声，则未能识别的发声的人物的人脸图像或人嘴图像不划分为上述的第一人脸图像或第一人嘴图像。

那么，手机在启动语音增强模式开始录制视频画面后，需要识别第一人脸图像或第一人嘴图像，根据第一人脸图像或第一人嘴图像，确定需要加强录音效果的第一拾音范围，从而获得更好的录音效果。

例如，手机在确认第一拾音范围后，调用第一拾音范围对应的麦克风，实现增强第一拾音范围内的音频信号。在一些场景中，手机包含一个或多个麦克风，一个或多个麦克风用于采集第一音频(即初始音频信号)。当一个或多个麦克风中第一麦克风的拾音范围内包含第一拾音范围的部分或全部时，增强第一麦克风的拾音范围中第一拾音范围内的音频信号；和/或削弱第一麦克风的拾音范围中第一拾音范围外的音频信号；和/或削弱一个或多个麦克风中除第一麦克风外的其他麦克风的音频信号，得到第二音频(即第一人脸图像或第一人嘴图像对应的音频)。在另一些场景中，手机包含至少两个麦克风，至少两个麦克风用于采集第一音频。当至少两个麦克风中第二麦克风的拾音范围不包含第一拾音范围时，关闭第二麦克风，至少两个麦克风中除第二麦克风外的其他麦克风采集的音频为第二音频。或者，在关闭第二麦克风时，增强至少两个麦克风中除第二麦克风外的其他麦克风的拾音范围中第一拾音范围内的音频信号，和/或削弱至少两个麦克风中除第二麦克风外的其他麦克风的拾音范围中第一拾音范围外的音频信号。

示例性的，手机配置有麦克风1和麦克风2。第一拾音范围在麦克风1的拾音范围以内，则手机在利用麦克风1和麦克风2获取到初始音频信号后，可以增强该初始音频信号中麦克风1采集的第一拾音范围内的音频信号，同时削弱该初始音频信号中麦克风1采集的第一拾音范围以外的音频信号，以及削弱麦克风2采集的音频信号，获取第一人脸图像或第一人嘴图像对应的音频。或者，手机关闭麦克风2，将麦克风1采集的音频信号中第一拾音范围内的音频信号增强，第一拾音范围以外的音频信号削弱后，获取第一人脸图像或第一人嘴图像对应的音频。又比如，手机配置有麦克风1和麦克风2。第一拾音范围包括麦克风1的拾音范围以内的拾音范围1，以及麦克风2的拾音范围以内的拾音范围2。也就是说，第一拾音范围为拾音范围1和拾音范围2的并集。那么，手机在利用麦克风1和麦克风2获取到初始音频信号后，可以增强初始音频信号中麦克风1的拾音范围1以及麦克风2的拾音范围2以内的音频信号，削弱初始音频信号中剩余的音频信号，获取第一人脸图像或第一人嘴图像对应的音频。可以理解的是，拾音范围1和拾音范围2可以全部或部分重叠。

示例性的，如图4中(d)所示拍摄界面404，拍摄界面404包含用于显示视频画面的取景框48。其中，取景框48对应的拾音范围为当前录制的视频画面的最大拾音范围。当前正在录制的视频画面中，手机识别出第一人脸图像47，假设第一人脸图像位于取景框48的中心位置，则手机确定第一拾音范围为最大拾音范围的中心位置。手机增强第一拾音范围内的音频信号。可选的，在拍摄界面404显示提示框49，用于提示用户当前已增强中间位置的录音效果。该提示框49可以在拍摄过程中持续显示，显示内容随着第一拾音范围的变化而变化，在停止拍摄后自动隐藏。或者，仅在预设时间段内显示，预设时间段后自动消失，避免遮挡取景框48的显示的视频画面。

可见，在录制音频的过程中，手机可以通过增强第一拾音范围内的音频信号，获取发声人脸或发声人嘴对应的音频，实现增强对发声人脸或发声人嘴的收音效果，以减小外界杂音的干扰。进一步的，在增强第一拾音范围内的音频信号的基础上，还可以削弱第一拾音范围以外的音频信号，获得更好的录音效果。或者，仅削弱第一拾音范围以外的音频信号，以减小外界杂音的干扰。

图6为本申请实施例提供的一种音频处理方法流程示意图。以下通过如图6所示的步骤S601-步骤S604对上述通过图4中(a)-(d)介绍的手机识别第一人脸图像或第一人嘴图像，确定需要语音增强的第一拾音范围，以及获取第一拾音范围对应音频的过程进行详细介绍。

S601、手机识别第一人脸图像或第一人嘴图像。

可选的，手机可以通过人脸图像识别算法识别第一人脸图像或第一人嘴图像。比如，手机在录制视频画面的过程中，通过人脸图像识别算法确定采集到视频画面中是否包含人脸图像。若包含人脸图像，则识别出其中包含的人脸图像，并根据人脸图像的面部特征数据，如五官数据，面部轮廓数据等在预设时间段内的变化情况确定其是否正在发声。其中，人脸图像正在发声的判断标准包括手机判断人脸图像当前正在发声。或者，手机在判断人脸图像第一次发声之后的预设时间段内再次判断人脸图像发声，则确定人脸图像正在发声。可以理解的是，人的发声器官为人嘴，当可以获得发声的人嘴数据时，可以优先确定第一人嘴图像的数据，后续基于第一人嘴图像的数据确定第一拾音范围。

示例性的，如图7所示界面701，手机采集到人脸图像71，并通过人脸图像识别算法识别出人脸图像71对应的面部特征关键点(如人脸图像71上显示的圆形特征点，从而确定其是否正在发声)。并可以获得人脸数据和/或人嘴数据。比如，面部特征点包括上嘴唇特征点和下嘴唇特征点，根据上嘴唇特征点和下嘴唇特征点可以实时获得上下嘴唇之间的距离。那么预设人脸图像上嘴唇和下嘴唇之间的距离阈值。若在第一次检测到人脸图像的上嘴唇和下嘴唇之间的距离超过距离阈值之后的预设时间段之内，手机检测到人脸图像的上嘴唇和下嘴唇之间的距离超过距离阈值的次数超过预设次数，则确定当前人脸图像正在发声。

进一步的，面部特征点还可以包括人脸轮廓特征点，那么手机可以根据人脸轮廓特征点获得如下巴变化的数据，人脸肌肉变化的数据等，进而确定人脸图像是否正在发声。比如，预设时间段之内，下巴上下移动产生的变化数据超过预设阈值的次数超过预设次数，则确定当前人脸图像正在发声。当然，手机还可以根据人嘴对应的其他数据如喉结变化数据等的变化，确定发声人脸或发声人嘴。并且手机还可以结合上述各个人脸数据和人嘴数据，实现更加准确的识别第一人脸图像或第一人嘴图像。

需要说明的是，上述人脸图像识别算法可以参见现有技术中包含的人脸图像识别算法，本申请实施例不再对人脸识别算法及其计算过程进行详细阐述。

其中，第一人脸图像的数量为一个或多个。在第一人脸图像的数量为多个的场景中，即多张人脸图像同时发声或者多张人脸图像在第一预设时间段内先后发声的场景中，手机可以排除其中人脸图像面积较小或者位于视频画面边缘的人脸图像，不认为其为第一人脸图像。一般的，用户在录制视频画面的过程中，会将摄像头对准其关注的人物，那么用户关注的人脸图像应该为面积较大的人脸图像，或者为显示在视频画面中间或中间附近的人脸图像。也就是说，用户关注的拾音范围通常是用户关注的画面范围内的声音，这一部分画面范围需要进行语音增强。其中，第一预设时间段可以为预配置的较短时间范围，如手机判断用户A发声，以用户A停止发声的时间点开始计时，在第一预设时间段内检测到用户B开始发声。进一步的，用户B停止发声后的第一预设时间段内检测到用户A又开始发声。也就是说，在录像过程中，用户A发声后用户B马上发声，或者，用户A和用户B交替发声，则可以将用户A和用户B对应的人脸图像确认为第一人脸图像。那么，可以避免在较短的时间范围内频繁确认第一人脸图像对应的拾音范围，减少数据处理量，同时提高效率。

那么，手机在识别出多张发声的人脸图像后，确认其中面积最大的人脸图像或者距离视频画面中心最近的人脸图像，将该人脸图像以及与该人脸图像面积差小于预设阈值的发声的人脸图像确认为第一人脸图像。或者，将该人脸图像以及该人脸图像附近预设范围内的发声的人脸图像确认为第一人脸图像，从而实现根据第一人脸图像确定第一拾音范围。类似的，手机确定多张第一人嘴图像的场景与确定多张第一人脸图像的场景相同，不再赘述。其中，视频画面的中心点例如包括取景框中心点，手机显示屏幕的中心点等。

S602、手机获取第一人脸图像或第一人嘴图像对应的第一特征值。

S603、手机根据第一特征值确定第一拾音范围。

其中，第一特征值用于描述第一人脸图像对应的真实人物的人脸与手机的相对位置关系，或者第一特征值用于描述第一人嘴图像对应的真实人物的人嘴与手机的相对位置关系。从而手机可以根据第一特征值，确定第一拾音范围。比如，第一人脸图像对应的真实人物位于手机的正前方，即第一人脸图像位于拍摄的视频画面的中心位置，则第一拾音范围为手机正前方的拾音范围。后续，手机获取包含各个方向音频信号的初始音频信号后，可以基于初始音频信号和第一拾音范围获得第一人脸图像对应的音频。第一特征值包括前后置属性参数，面积占比，位置信息中的一项或多项。其中，前后置属性参数，面积占比和位置信息为手机根据第一人脸图像或第一人嘴图像确定的参数，其含义详见下文描述。

以下针对第一特征值包含不同参数时手机确定第一拾音范围的具体方法进行说明。

方案一，第一特征值包括第一人脸图像的前后置属性参数，或者第一特征值包括第一人嘴图像对应的前后置属性参数。

其中，“前后置属性参数”用于表示包含第一人脸图像或第一人嘴图像的视频画面为前置摄像头拍摄的视频画面(为便于描述，本文中也称为前置视频画面)，还是后置摄像头拍摄的视频画面(为便于描述，本文中也称为后置视频画面)。该前后置属性参数可以用于确定第一拾音范围在手机前置180度的范围内还是在后置180度的范围内。示例性的，如图2B中的(b)所示，前置视频画面对应的拾音范围包括椭圆204，椭圆205以及椭圆206表示的范围，后置视频画面对应的拾音范围可以包括椭圆201，椭圆202和椭圆203表示的范围。

示例性的，手机取景框内显示的视频画面可以进行前后置摄像头采集画面的切换。如图8中(a)所示的拍摄界面801，手机处于语音增强模式，确认存在发声人脸图像81。手机确认发声人脸图像81所在的视频画面为前置摄像头采集的视频画面，即确认第一特征值为前置属性参数，则确认第一拾音范围为前置180度范围内，显示提示框82，提示用户当前已增强前置录音效果。

进一步的，拍摄界面801还包括前后置切换控件83，用于进行前后置摄像头的切换。比如，手机响应于用户点击前后置切换控件83的操作，可以将前置摄像头切换为后置摄像头。相应的，手机显示的视频画面，由图8中(a)所示的拍摄界面801显示的前置摄像头采集的视频画面，切换为如图8中(b)所示的拍摄界面802显示的后置摄像头采集的视频画面。手机识别出当前视频画面中的发声人脸图像84，则确定第一特征值为后置属性采纳数信息，第一拾音范围为手机后置180度的范围内。手机显示提示框85，提示用户当前已增强后置录音效果。

其中，如图2B中(b)所示，后置视频画面对应的拾音范围为椭圆201，椭圆202和椭圆203表示的范围，前置视频画面对应的拾音范围为椭圆204，椭圆205和椭圆206表示的范围。比如，手机根据第一特征值确认第一人脸图像对应后置视频画面，则确认第一拾音范围为椭圆201，椭圆202和椭圆203表示的范围。或者，参见图2B中(d)所示，手机根据第一特征值确认第一人脸图像对应后置视频画面，则确认第一拾音范围为麦克风27，麦克风28和麦克风29对应的拾音范围。

方案二，第一特征值包括第一人脸图像对应的面积占比，或者，第一特征值包括第一人嘴图像对应的面积占比。

其中，“面积占比”用于表示第一人脸图像面积或第一人嘴图像面积与视频画面的面积的比值。该面积占比用于衡量麦克风采集音频的半径范围(或直径范围)。

具体的，用户使用手机拍摄视频画面的过程中，通常会将用户关注的人物置于视频画面中心位置，也就是说，第一人脸图像或第一人嘴图像位于取景框中心位置。不同的第一人脸图像或第一人嘴图像的面积对应的拾音范围不同。示例性的，如图9所示，假设手机在不同时间段确定两张第一人脸图像，分别为第一人脸图像1和第一人脸图像2。两张人脸图像的面积不同，第一人脸图像1的面积大于第一人脸图像2的面积。那么，如图9所示，根据第一人脸图像1，确定的拾音范围为拾音范围1。根据第一人脸图像2，确定的拾音范围为拾音范围2。拾音范围1大于拾音范围2。

在一些实施例中，如下表1所示，其中，X用于表示第一人脸图像面积或者第一人嘴图像面积。Y用于表示取景框显示的视频画面的面积。N表示取景范围对应的拾音范围。

表1

一些实施例中，面积占比用于表示第一人脸图像面积与取景框显示的视频画面的面积的比值。其中，第一人脸图像的数量可以为一个或多个，那么第一人脸图像面积为一张人脸图像的面积或者多张人脸图像的面积和。其中，多张人脸图像的面积和可以用多张人脸图像所在的占位框的面积，即包含该多张人脸图像的最小选框的面积表示。

示例性的，如图10中(a)所示界面1001，第一人脸图像数量为1，手机在进行人脸图像识别过程中，根据人脸图像11的面部特征点中额头最上方的特征点位置，下巴最下方的特征点位置，以及左右脸最边沿不包含耳朵的特征点位置，确定框选第一人脸图像11的人脸面积的虚线框101，框选范围内的图像面积为第一人脸图像面积。即确认第一人脸面积的过程中，仅计算其中的人脸面积，排除耳朵，帽子，饰品，脖子等的影响。取景框显示的视频画面的面积为虚线框102框选范围内的图像面积。那么手机可以根据识别出的虚线框101和虚线框102对应的面积比，确定面积占比。后续，第一人脸图像面积的确定方法均可以参见当前第一人脸图像面积的确定方法，之后不再赘述。

又示例性的，如图10中的(b)所示界面1002，界面1002中显示有两张人脸图像，这两张人脸图像均被手机识别为发声的第一人脸图像。右侧的人脸图像12的面积为虚线框103框选范围内的图像面积，左侧的人脸图像13的面积为虚线框104框选范围内的图像面积，那么第一人脸图像面积为虚线框105框选范围内的图像面积，即包括所有人脸图像的最小的选框的面积(例如是根据所有人脸图像面积选框的边沿极限值确定总的框选面积)。其中，虚线框105即用于表示人脸图像12和人脸图像13所在的占位框。最终确定的第一人脸图像面积同时包含两张人脸图像对应的图像面积。取景框显示的视频画面的面积为虚线框106框选范围内的图像面积。那么手机可以根据识别出的虚线框105和虚线框106对应的面积比，确定面积占比。

其中，多人脸发声场景中，如图10中的(c)所示界面1003，若视频画面中的两个人均在发声，手机确定右侧人脸图像14的面积最大。手机可以通过预设阈值排除部分用户不关注的发声人脸图像。比如，预设阈值为小于最大人脸图像面积的20％。示例性的，在界面1003中，手机可以排除小于右侧人脸图像14的面积的20％的左侧人脸图像15。那么，第一人脸图像包括右侧的人脸图像14。又比如，预设阈值为距离最大面积的人脸图像的距离超过取景框显示的视频画面的长度或宽度的35％。示例性的，在界面1003中，手机可以排除距离右侧人脸图像14的距离超过取景框显示的视频画面的长度的35％的左侧人脸图像15。那么，第一人脸图像包括右侧人脸图像14。

又一些实施例中，面积占比用于表示第一人嘴图像的面积与取景框显示的视频画面的面积的比值。其中，第一人嘴图像的数量可以为一个或多个，那么第一人嘴图像的面积为一张人嘴图像的面积或者多张人嘴图像对应的面积和。其中，多张人嘴图像的面积和可以用多张人嘴图像所在的占位框的面积表示，即用包含该多张人嘴图像的最小选框的面积表示。

示例性的，如图11中(a)所示界面1101，第一人嘴图像数量为1，手机在进行人脸图像识别过程中，根据面部特征点中人嘴图像的特征点中最上方，左下方，最左侧和最右侧的特征点位置，确定框选第一人嘴图像16的面积的虚线框111，框选范围内的图像面积为第一人嘴图像面积。取景框显示的视频画面的面积为虚线框112框选范围内的图像面积。那么手机可以根据识别出的虚线框111和虚线框112对应的面积比，确定面积占比。后续，第一人嘴图像面积的确定方法均可以参见当前第一人脸图像面积的确定方法，之后不再赘述。

又示例性的，如图11中的(b)所示界面1102，界面1102中显示有两张人嘴图像，这两张人嘴图像均被手机识别为发声的发声人嘴图像。右侧的第一人嘴图像17的面积为虚线框113框选范围内的图像面积，左侧的第一人嘴图像18的面积为虚线框114框选范围内的图像面积，那么第一人嘴图像面积为虚线框115框选范围内的图像面积，即包括所有人嘴图像的最小的选框的面积(例如是根据所有人嘴图像面积选框的边沿极限值确定总的框选面积)。其中，虚线框115即用于表示第一人嘴图像17和第一人嘴图像18所在的占位框。最终确定的第一人嘴图像面积同时包含两张人嘴图像对应的图像面积。取景框显示的视频画面的面积为虚线框116框选范围内的图像面积。那么手机可以根据识别出的虚线框115和虚线框116对应的面积比，确定面积占比。

同样的，多人脸发声场景中，如图11中的(c)所示界面1103所示，若当前视频画面中的两个人均在发声，手机确定右侧人嘴图像面积最大。手机可以通过预设阈值排除部分用户不关注的发声人嘴图像。比如，预设阈值为小于最大人嘴图像面积的20％。又比如，预设阈值为距离最大面积的人嘴图像的距离超过取景框显示的视频画面的长度或宽度的35％。如图11中的(c)所示界面1103所示，排除左侧正在发声的人嘴图像，第一人嘴图像仅包括右侧正在发声的第一人嘴图像，根据右侧第一人嘴的面积确定第一拾音范围的半径。

示例性的，假设上述确定第一人脸图像面积的场景中，手机均采用后置摄像头采集视频画面。手机根据如图10中(a)所示的第一人脸图像的第一特征值确定的拾音范围，可以为如图9所示的拾音范围2。手机根据如图10中(b)所示的第一人脸图像的第一特征值确定的拾音范围，可以为如图9所示的拾音范围1。

需要说明的是，上述确定第一人脸图像面积和第一人嘴图像的面积的过程中，均将第一人脸图像和第一人嘴图像转化为矩形后，将矩形面积作为对应的第一人脸图像面积或第一人嘴图像的面积。可以理解的是，也可以利用不规则的几何图形对应第一人脸图像和第一人嘴图像，从而更加精确的确定对应的面积，本申请实施例中的矩形仅为一种示例性说明，对此本申请实施例不做具体限定。

需要说明的是，上述确定第一人脸图像面积占比和第一人嘴图像的面积占比的过程中，均将取景框面积作为视频画面的面积。可以理解的是，在手机为全屏手机的情况下，可以将手机显示屏面积作为视频画面面积。或者，也可以用其他面积，以及其他形状的面积作为视频画面面积，本申请实施例中的取景框面积仅为一种示例性说明，对此本申请实施例不做具体限定。

方案三，第一特征值包括第一人脸图像对应的位置信息，或者第一特征值包括第一人嘴图像对应的位置信息。

其中，“位置信息”用于表示第一人脸图像或第一人嘴图像在视频画面中的位置。位置信息包含第一人脸图像的中心点相对于第一参考点的偏移量，如偏移方向，和/或偏移角度，和/或偏移距离等。或位置信息包含第一人嘴图像的中心点相对于第一参考点的偏移量。其中，第一参考点为视频画面的中心点或对焦的焦点。偏移方向是指第一人脸图像或第一人嘴图像的中心点相对于第一参考点向左偏移，向右偏移，向上偏移，向下偏移，向左上偏移，向右上偏移，向左下偏移或者向右下偏移等。偏移角度是指向左上偏移，向右上偏移，向左下偏移或者向右下偏移的角度。偏移距离是指向左偏移，向右偏移，向上偏移，向下偏移的距离，或者某个偏移角度上偏移的距离等。

在一些实施例中，可以根据第一人脸图像各个方向上的特征点的极限位置，确定第一人脸图像的中心点坐标。如上述第一人脸图像面积的确定过程，根据第一人脸图像的面部特征点中额头最上方的特征点位置，下巴最下方的特征点位置，以及左右脸最边沿不包含耳朵的特征点位置，确定第一人脸图像中心点坐标。同样的，根据人脸图像的面部特征点中人嘴图像的特征点中最上方，左下方，最左侧和最右侧的特征点位置，确定第一人嘴图像的中心点坐标。

之后，预设第一参考点例如可以包括取景框显示的视频画面的中心点(也可以描述为取景的中心点)，取景范围内对焦的焦点等。以第一参考点为原点，平行于手机底边(或当前取景框的底边)为x轴，垂直于x轴的方向为y构建坐标系，并且当前坐标系平行于手机显示屏。利用构建的坐标系定义第一人脸图像或第一人嘴图像的中心点相对于第一参考点的偏移方向，偏移角度和偏移距离。示例性的，如图13中(a)所示，为手机竖屏显示的情况下，坐标系的情况，其中，x轴平行于手机底边(即短边)。如图13中(b)所示，为手机横屏显示的情况下，坐标系的情况其中，x轴平行于手机侧边(即长边)。其中，x轴与y轴的交点，即原点坐标为(0，0)，x轴正方向为右，y轴正方向为上。可以看出，当手机切换竖屏显示和横屏显示之后，坐标系x轴和y轴的方向发生改变，第一人脸图像或第一人嘴图像的中心点相对于第一参考点的偏移方向，偏移角度和偏移距离会随之变化。

示例性的，如图12中(a)所示的界面1201，第一人脸图像的数量为1，第一人脸图像的中心点为标识121对应的位置，取景框显示的视频画面的中心点为标识122对应的位置。其中，取景框中心点位置为根据取景框上下左右的边沿极限坐标确定。手机根据标识121和标识122的位置关系，确定第一人脸图像的位置信息。比如，界面1201显示的场景中，第一人脸图像的位置信息为取景框中心点左下方。或者，如图12中(b)所示的界面1202，第一人脸图像的数量为1，第一人嘴图像的中心点为标识123对应的位置，取景框显示的视频画面的中心点为标识124对应的位置。手机根据标识123和标识124的位置关系，确定第一人脸图像的位置信息。比如，界面1202显示的场景中，第一人嘴图像的位置信息为取景框中心点左下方。

在一些实施例中，若第一人脸图像的数量为多个，那么第一人脸图像的中心点为多张人脸图像组成的图像范围内的中心点。比如，如图10中(b)所示的场景，第一人脸图像的中心点为虚线框105框选范围的几何中心点。又比如，如图11中(b)所示的场景，第一人嘴图像的中心点为虚线框115框选范围的几何中心点。同样的，取景框显示的视频画面的中心点也为取景框的几何中心点。

需要说明的是，上述确定第一人脸图像中心点和第一人嘴图像的中心点的过程中，均将第一人脸图像和第一人嘴图像转化为矩形后，将矩形中心点作为对应的第一人脸图像中心点或第一人嘴图像的中心点。可以理解的是，也可以利用不规则的几何图形对应第一人脸图像和第一人嘴图像，从而更加精确的确定对应的中心点，本申请实施例中的矩形仅为一种示例性说明，对此本申请实施例不做具体限定。

并且，上述确定第一人脸图像或第一人嘴图像对应的位置信息的过程中，在有些场景中，将取景框的中心点作为第一参考点，即利用取景框中心点表示视频画面的中心点。可以理解的是，基于视频画面的显示形式，第一参考点也可以用其他形式表示。比如，将手机显示屏的全部屏幕的中心点用于表示视频画面的中心点，即作为第一参考点。本申请实施例中的以取景框中心点作为第一参考点仅为一种示例性说明，对此本申请实施例不做具体限定。

在有些场景中，用户在录制视频画面的过程中，可能并不会将关注的物体置于取景范围内的中心位置，而是会通过对焦的方式，选择较为关注的物体。手机通过检测对焦的焦点位置，可以获得用户意图，确定用户关注的物体。其中，对焦的焦点位置也可以为手机自动对焦获得的焦点位置。例如，手机自动识别人像，自动对焦后确定对应的焦点位置。

示例性的，如图12中(c)所示界面1203，当前场景中，第一人脸图像的数量为2，第一人脸图像的中心点为标识125对应的位置。手机检测到用户点击屏幕的操作，获得对焦的焦点位置，并显示虚线框126。虚线框126框选的范围为手机根据用户的意图确定的对焦范围。那么，对焦范围内的中心焦点为标识127对应的位置。手机根据标识125和标识127的位置关系，确定第一人脸图像的位置信息。如第一人脸图像的位置信息为焦点中心左上方。

在一种可能的实现方式中，手机可以根据第一人脸图像的中心点坐标或第一人嘴图像的中心点坐标和第一参考点坐标，确定第一人脸图像或第一人嘴图像与第一参考点的相对位置关系，进而确定第一人脸图像或第一人嘴图像在取景框显示的视频画面中的偏移方向。

示例性的，参考如图13中(a)或(b)所示的坐标系。假设第一人脸图像的中心点坐标或第一人嘴图像的中心点坐标为(X1，Y1)，第一参考点坐标为(X2，Y2)，将第一参考点设置为坐标系原点(0，0)。其中，第一人脸图像或第一人嘴图像与第一参考点的相对位置关系可以参考下表2所示。比如，X1＜X1，则表示第一人脸图像或第一人嘴图像位于第一参考点左侧，即偏移方向为向左。又比如，X1＝X2，同时Y1＝Y2，则表示第一人脸图像或第一人嘴图像的中心点与第一参考点的左右偏移量和上下偏移量均为零，即第一人脸图像中心点与第一参考点中心重合，偏移方向为未偏移。

表2

坐标关系	偏移方向
X1＜X2	向左
X1＞X2	向右
X1＝X2	左右未偏移
Y1＜Y2	向下
Y1＞Y2	向上
Y1＝Y2	上下未偏移

在另一种可能的实现方式中，手机可以根据第一人脸图像的中心点坐标或第一人嘴图像的中心点坐标和第一参考点坐标，确定第一人脸图像在取景框显示的视频画面中的偏移角度(如图14中所示的第一人脸图像的中心点坐标或第一人嘴图像的中心点坐标(X1，Y1)与第一参考点(X2，Y2)的连线，与X轴的夹角θ)。示例性的，如图14所示，大圆141用于表示手机取景框对应的最大拾音范围，将取景框中心点坐标设置为(0，0)，即将取景框中心点设置为第一参考点。将最大拾音范围划分为4个象限，如第一象限142，第二象限143，第三象限144以及第四象限145。假设偏移角度为θ，手机可以基于每一象限中(X1，Y1)和(X2，Y2)连线与x轴夹角大小，确定偏移角度θ，则0＜θ＜90°。或者，手机基于全象限确定偏移角度θ，则0＜θ＜360°。比如，在图14中，第一人脸图像显示于取景框的第二象限143，tanθ＝|Y2-Y1|/|X2-X1|，从而手机可以获得第一人脸图像在取景框显示的视频画面中的偏移角度θ。

在又一种可能的实现方式中，手机可以根据第一人脸图像的中心点坐标或第一人嘴图像的中心点坐标和第一参考点坐标，确定第一人脸图像在取景框显示的视频画面中的偏移距离。手机根据偏移距离，以及第一人脸对应的拾音范围的半径，可以确定第一人脸图像对应的拾音范围是否超出取景范围对应的拾音范围，进而确定第一拾音范围。

示例性的，如图15中(a)所示，大圆151为取景框对应的最大拾音范围，半径为R。第一参考点为取景框显示的视频画面的中心点，即最大拾音范围的中心点，坐标为(X2，Y2)，第一人脸图像中心点坐标为(X1，Y1)，手机根据面积参数比信息确定的小圆152半径为r。手机根据勾股定理，可以获得偏移距离

那么，第一人脸图像中心点距离最大拾音范围的边缘的距离S＝R-L。若第一人脸图像对应的拾音范围未超出最大拾音范围，即r≤S，那么第一拾音范围的半径r＝R*P。其中，P为第一人脸图像与取景框显示视频画面的面积的比值，即面积占比参数。若第一人脸图像对应的拾音范围部分超出最大拾音范围，即r＞S。如图15中(b)所示，超出手机最大拾音范围的部分无法拾音，那么第一人脸图像对应的拾音范围对应发生改变，保证手机能够获取声音。比如，若1.5S＞r＞S，则第一拾音范围的半径等于第一人脸图像中心点距离最大拾音范围的边缘的距离。若r≥1.5S，则第一拾音范围的半径等于全景拾音范围的半径与面积占比参数的乘积，在此情况下，手机不会对超出最大拾音范围的部分进行拾音。可以理解的是，在r＞S的情况下，通过比较r与1.5S的大小确定第一拾音范围的半径的方法仅为一种示例性说明，还可以通过其他方法确定第一拾音范围的半径，保证手机可以对第一人脸图像对应的音频数据进行拾音。比如，通过比较r与2S的大小确定第一拾音范围的半径。

需要说明的是，上述确定第一人脸图像或第一人嘴图像的中心点的确认过程中，均将第一人脸图像和第一人嘴图像转化为矩形后，将矩形的几何中心点作为对应的第一人脸图像或第一人嘴图像的中心点。可以理解的是，也可以利用不规则的几何图形对应第一人脸图像和第一人嘴图像，从而更加精确的确定对应的中心点位置，本申请实施例中的矩形仅为一种示例性说明，对此本申请实施例不做具体限定。

在一些实施例中，手机可以利用上述方案一至方案三中任一方案确定第一拾音范围。或者，手机可以将上述方案一至方案三中的多个方案相结合后，确定第一拾音范围。又或者，手机可以利用上述方案一至方案三中的一个或多个参数与其它参数结合后，确定第一拾音范围。再或者，手机可以利用其它参数，确定第一拾音范围。

比如，如下介绍一种手机将上述方案一至方案三相结合后，确认第一拾音范围的方法。

示例性的，假设当前用户选择利用后置摄像头录制视频画面，如图16A中(a)所示，那么手机根据第一人脸图像对应的视频画面的前后置属性参数，确定第一人脸图像对应的视频画面为后置视频画面。如图16A中(b)所示，第一拾音范围在手机后置180度的范围内。即椭圆161、椭圆162和椭圆163表示的范围。

之后，手机可以根据第一人脸图像对应的位置信息，进一步确定第一拾音范围。比如，如图16B中的(a)所示，第一人脸图像为左侧的人脸图像，第一人脸图像中心点164位于取景框中心点165左上方。手机根据位置信息，确定偏移方向为左上方，第一拾音范围的中心点位于后置拾音范围中心点的左上方，比如第一拾音范围可以参见图16B中的(b)所示的椭圆161和椭圆162表示的范围中的左侧。如图16B中(c)所示，大圆166为后置视频画面对应的最大拾音范围，将拾音范围沿中心虚线左右分割，即可确认对应的左右拾音范围。比如，后置左上方的第一拾音范围可以参见图16B中(c)所示的左半个椭圆1611和左半个椭圆 1621表示的范围。

在此基础上，假设位置信息还包括偏移角度和偏移距离。如偏移角度大于45度，偏移距离大于取景框显示的视频画面的半径的1/2。也即第一人脸图像位于取景框中显示视频画面中心位置的上方，并且与中心位置距离较远。如图16C中的(a)所示，第一人脸图像为左侧的人脸图像，第一人脸图像中心点166与取景框中心点167之间的偏移距离较大。那么，中间拾音范围对第一人脸图像对应的音频产生的辅助作用较小，第一拾音范围可以参见图16C中的(b)所示的椭圆161表示的范围。进一步的，第一人脸图像可以为图16B中(c)所示的左半个椭圆1611表示的范围。

示例性的，如下表3所示，示例性的说明图2B中(d)所示的多麦克风场景中，手机根据第一人脸图像对应的视频画面的前后置属性参数，以及第一人脸图像对应的位置信息，确定的拾音范围。或者手机根据第一人嘴图像对应的视频画面的前后置属性参数，以及第一人嘴图像对应的位置信息，确定的拾音范围。

表3

最后，手机可以根据第一人脸图像对应的面积占比，确定最终的第一拾音范围。手机通过面积占比，取景范围对应的拾音范围，可以确定第一人脸图像对应的第一拾音范围的半径。

示例性的，通过上述结合方案一至方案三中的方法确定第一拾音范围的过程中，比如，如图15中的(a)所示的圆152圈定第一拾音范围。其中，圆152的半径可以用于对应表示第一拾音范围的半径范围。那么，可以利用图16B中的(c)所示的左半个椭圆1611表示的范围表示第一拾音范围。又比如，如图15中的(b)所示的场景，最后确定第一拾音范围的半径为第一人脸图像中心点距离最大拾音范围的边缘的距离。那么，可以利用图16B中的(c)所示的左半个椭圆1611和左半个椭圆1612表示的范围表示第一拾音范围。

需要说明的是，在手机结合上述方案一至方案三中的多个方案，确定第一拾音范围的过程中，对于确定各个参数的先后顺序不做限制，手机可以采用不同于上述示例中的其他顺序确定各个参数。如同时确定各个参数等。

通过上述方案可以确定第一人脸图像或第一人嘴图像对应的第一拾音范围，进而后续可利用第一拾音范围获取音频，从而提高音频质量。

S604、手机根据第一拾音范围，获取音频。

其中，手机可以采用单个麦克风，或者多个麦克风采集周围各个方向的声音信号，即采集全景声音信号。手机将多个麦克风采集到的全景声音信号进行预处理后，可以获得初始音频数据，该初始音频数据包含各个方向的声音信息。而后，手机可以根据初始音频数据和第一拾音范围，录制第一人脸图像对应的音频。

可选的，手机确定第一人脸图像或第一人嘴图像对应的第一拾音范围后，可以对初始音频数据中第一拾音范围内的声音进行增强，对第一拾音范围外的声音进行抑制(或称减弱)，进而对处理后的音频数据进行录制，获得第一人脸图像或第一人嘴图像对应的音频。

如此，第一人脸图像或第一人嘴图像对应的音频录制的是第一拾音范围内的声音，而第一拾音范围是根据第一人脸图像或第一人嘴图像对应的第一特征值确定的拾音范围，因而第一拾音范围内的声音为用户关注的发声人脸或发声人嘴的对应的声音。也就是说，减小了录制视频画面中杂音对发声人脸或发声人嘴发出的声音的干扰。

进一步的，基于第一拾音范围，定向进行语音增强，能够在复杂的拍摄环境中，仅利用音频算法对部分音频信号加强处理，能够简化音频处理算法，提高处理效率，降低对手机硬件计算性能的要求。

在另一些场景中，由于手机根据第一特征值确定的第一拾音范围，与第一人脸图像或第一人嘴图像的显示范围可能存在一定的误差，因而手机可以在第一拾音范围附近确定一个或多个参考第一拾音范围。其中，手机根据第一拾音范围获得一路音频，根据参考第一拾音范围获得至少一路音频，手机还可以将全景音频作为一路音频。那么，手机基于第一拾音范围可以获得第一人脸图像或第一人嘴图像对应的多路音频。其中，一路音频可以理解为一个音频文件。

在一种可能的实现方式中，手机可以根据第一人脸图像或第一人嘴图像对应的面积占比，确定对应的一个或多个参考第一拾音范围。假设根据该面积参数占比信息，确定第一拾音范围为和参考第一拾音范围。比如，基于表1，如下表4所示，手机可以根据下表4中的规则确定第一拾音范围和参考第一拾音范围。下表4中，第一拾音范围为推荐值，参考第一拾音范围包括增强值1、增强值2和增强值3。

表4

推荐值	增强值1	增强值2	增强值3
N*X/Y	1.1NX/Y	0.95NX/Y	1.05NX/Y

在另一种可能的实现方式中，手机可以根据不同的音频处理方法确定第一拾音范围和参考第一拾音范围对应的音频。比如，基于上述确定第一拾音范围的流程，第一拾音范围对应的音频为利用杜比音效算法确定的音频，参考第一拾音范围对应的音频为根据Histen音效算法确定的音频。如下表5所示，算法1-算法4为不同的音频算法，根据不同的音频算法确定第一拾音范围和参考第一拾音范围对应的音频。其中第一拾音范围为推荐值，参考第一拾音范围包括增强值1、增强值2和增强值3。

表5

推荐值	增强值1	增强值2	增强值3
算法1	算法2	算法3	算法4

在又一种可能的实现方式中，手机可以结合第一人脸图像或第一人嘴图像对应的面积参数占比信息和音频算法，获取第一拾音范围和参考第一拾音范围对应的音频。如下表6所示，其中第一拾音范围为推荐值，参考第一拾音范围包括增强值1、增强值2和增强值3。

表6

可以理解的是，手机还可以利用其他方法确定参考第一拾音范围，本申请实施例不做具体限定。

并且，手机可以对初始音频数据进行处理，以增强参考第一拾音范围内的声音，抑制参考第一拾音范围外的声音，进而对处理后的音频数据进行录制获得第一人脸图像或第一人嘴图像对应的一路或多路音频。

如此，手机可以根据第一拾音范围和参考第一拾音范围，录制获得与第一人脸图像或第一人嘴图像对应的第一特征值以及第一人脸图像或第一人嘴图像的画面相匹配的多路音频，以供用户后续选择播放。其中，第一人脸图像或第一人嘴图像对应的每路音频数据可以保存为一个音频文件，第一人脸图像可以对应多个音频文件。

在手机根据第一拾音范围和参考第一拾音范围，录制第一人脸图像或第一人嘴图像对应的多路音频的情况下，该多路音频为用户提供的不同拾音范围内的音频数量更多，与用户关注的第一人脸图像或第一人嘴图像对应的声音匹配的可能性更大，用户音频播放的选择性也更大。

在一些实施例中，手机还可以根据用户的选择的第一拾音范围或者参考第一拾音范围，录制第一人脸图像或第一人嘴图像对应的音频。示例性的，如图17所示界面1701，手机检测到用户点击推荐值选择控件171的操作，则在录制视频画面的过程中，根据第一拾音范围和初始音频数据，录制第一人脸图像或第一人嘴图像对应的音频。同样的，若手机检测到用户点击增强值1选择控件的操作，则在录制视频画面的过程中，根据增强值1对应的参考第一拾音范围和初始音频数据，录制第一人脸图像或第一人嘴图像对应的音频。其中，若手机检测到用户点击无处理选择控件172的操作，则在录制视频画面的过程中，根据初始音频数据，融合各个方向上的音频信号，获得全景音频。即无处理选择控件172对应的音频为全景音频，也可以理解为手机处于非语音增强模式时，获取的音频。其中，界面1701中推荐值，增强值1，增强值2和增强值3确定的方法，可以参见上述表 4-表6所示，在此不再进行赘述。

在一些实施例中，用户可以在正式录制视频画面之前，体验不同拾音范围对应的录制效果，进而确定最终录制视频画面过程中，选用的拾音范围。手机可以根据用户的选择，仅保存对应的音频文件。保证满足用户需求的同时，可以节约手机存储空间。

在另一些场景中，手机在录制视频画面的过程中，第一拾音范围可能会变化为第二拾音范围。比如，由于手机在录制视频画面的过程中，检测到用户指示切换前后置摄像头的操作。切换前的拾音范围为第一拾音范围，切换后的拾音范围为第二拾音范围。那么，对于录制的视频中的音频来说，手机录制的音频至少包括第一时长音频和第二时长音频。其中，第一时长音频为第一拾音范围对应的音频，第二时长音频为第二拾音范围对应的音频。也就是说，手机可以视频画面中发声人脸或发声人嘴的变化，动态确定拾音范围，进而根据拾音范围录制音频。最终检测到用户指示停止录制的操作后，形成的视频画面的音频中可以包含按照根据时间顺序，基于变化的拾音范围录制的不同时长或相同时长的多个音频。

如此，手机可以根据拾音范围的变化，始终对焦于提高需要进行语音增强的部分的音频录制质量，从而保证音频录制效果。并且，在用户播放视频文件时，可以向用户展示匹配视频内容变化的声音范围等动态变化的播放体验。

在一种可能的实现方式中，手机在录制视频画面的过程中，第一人脸图像或第一人嘴图像对应的第一特征值变化，导致拾音范围的变化。示例性的，假设视频画面的前后置属性参数变化，导致第一拾音范围变化。如图18中(a)所示界面1801，显示前置视频画面。手机在录制到00:15时长时，检测到用户点击前后置切换控件181的操作，切换至后置摄像头拍摄，并显示如图18中(b)所示界面1802。那么，在00:15时长前后，第一人脸图像或第一人嘴图像对应的第一特征值发生变化，录制的音频中00:00-00:15时长内的音频为第一拾音范围对应的音频，00:15时长之后的音频为第二拾音范围对应的音频。或者，检测到用户选择对焦的焦点位置变化，那么第一人脸图像或第一人嘴图像对应的位置信息变化，导致第一拾音范围变化。

又或者，取景框内视频画面的画面范围和画面大小，会随着变焦倍数(即Zoom值)的变化而变化。该变焦倍数可以是预设的变焦倍数，上一次在相机关闭前使用的变焦倍数，或用户预先指示的变焦倍数等。并且，取景框对应的变焦倍数还可以根据用户的指示而变化。那么，在一种场景中，随着变焦倍数的变化，取景范围发生变化。相应的，第一人脸图像面积或第一人嘴图像面积，进而第一人脸图像面积或第一人嘴图像对应的面积占比发生改变。也就是说，变焦倍数变化，会导致拾音范围的改变。如此，在后续视频播放过程中，录制的音频可以随着视频内容显示面积等的变化而动态变化，提升用户播放体验。

比如，在其他参数相同的情况下，若变焦倍数增大为原来的2倍，则拾音范围可能缩小为原来的1/3；若变焦倍数增大为原来的3倍，则拾音范围可能缩小为原来的1/6。因而，手机可以根据变焦倍数确定取景范围对应的拾音范围，以及第一人脸图像面积占比或第一人嘴图像面积占比对应的拾音范围。如下表7所示，其中X用于表示第一人脸图像面积或者第一人嘴图像面积。Y用于表示取景框显示的视频画面的面积。在Zoom值发生变化时，X和Y的值也会发生改变。相应的拾音范围也会发生改变。

表7

需要说明的是，变焦倍数的变化，也可以不改变拾音范围。比如，在录制过程中，变焦倍数变化后，第一人脸图像未改变，说明用户关注的内容并未发生改变。比如，用户A采访用户B，并利用手机拍摄用户B的采访过程。手机确定视频画面中的第一人脸图像为用户B的人脸图像。手机检测到变焦倍数变大，但此时，视频画面中的第一人脸图像仍为用户B的人脸图像。那么，手机可以不必重新获取第一拾音范围，以降低运算量，节约功耗。或者，在预设时间范围内，手机检测到多次改变变焦倍数的操作，则可以不必改变拾音范围。比如，预设时间段为2s，手机第一次检测到改变变焦倍数的操作后，先不必重新计算拾音范围。若2s之内，手机未检测到改变变焦倍数的操作，则重新计算拾音范围。若2s之内，手机再次检测到改变变焦倍数的操作，则不必重新计算拾音范围。并以此次检测到改变变焦倍数的操作的时间节点为起点，监控下一个2s时间段内，是否会检测到改变变焦倍数的操作。

在一种可能的实现方式中，手机在录制视频画面的过程中，第一人脸图像或第一人嘴图像发生变化，则第一拾音范围改变。比如，上述前后置摄像头切换场景，也可以理解为第一人脸图像第一人嘴图像发生了变化。或者，发声的人脸图像或人嘴图像变化，造成第一人脸图像或第一人嘴图像变化。比如，如图18中的(b)所示界面1802，假设在00:16-00:20时长内，手机确认第一人脸图像为视频画面中包含的两张人脸图像。在00:21-00:30时长内，手机识别第一人脸图像为视频画面中的右侧的人脸图像182。又或者，拍摄画面移动，当前录制的视频画面不包含之前识别的第一人脸图像或第一人嘴图像，则需要利用上述方法重新识别第一拾音范围。

在一种可能的实现方式中，响应于用户改变选择第一拾音范围或者参考第一拾音范围的操作，确定第二拾音范围。示例性的，如图18中(c)所示界面1803，手机在00:30时长之前采用推荐值对应的第一拾音范围录制视频画面，在00:30时检测到用户点击增强值2选择控件183的操作。响应于该操作，手机将第二拾音范围确定为增强值2对应的拾音范围，并显示如图18中(d)所示界面1804，在00:30时长之后，采用增强值2对应的拾音范围获取音频。

在本申请的一些实施例中，手机在生成各路音频的音频文件之前，可以对每路音频进行多种音效处理，以使得录制的音频获得更高的音频质量和更好的音频处理效果。例如，该音效处理可以包括：杜比音效，Histen音效，声音恢复系统(sound retrieval system，SRS)音效，低音增强引擎(bass enhanced engine， BBE)音效，或动态低音增强引擎(dynamic bass enhanced engine，DBEE)音效等。

需要说明的是，为了防止手机抖动造成的第一特征值的频繁变化，导致第一拾音范围的频繁变化，手机可以设置预设时间阈值，在预设时间阈值以内的变化，手机不会改变第一拾音范围。比如，设置在1s内，第一特征值连续两次发生变化，则手机认为当前第一特征值的变化为手机抖动导致，不会改变对应的第一拾音范围。

可选的，手机在通过上述方法利用麦克风采集音频信号的过程中，可以边采集音频信号，边基于第一拾音范围处理音频信号，获得第一人脸图像或第一人嘴图像对应的音频。最终在视频录制结束后，直接生成最终的音频。或者，手机也可以先采集音频信号，在视频录制完成后，再根据第一拾音范围处理音频信号，获得第一人脸图像或第一人嘴图像对应的音频。又或者，手机根据第一拾音范围，调用对应的麦克风采集第一拾音范围内的音频信号，处理后获得第一人脸图像或第一人嘴图像对应的音频。

可选的，录像功能可以包括单路录像功能和多路录像功能。其中，单路录像功能是指在手机拍摄过程中显示一个取景框，用于录制的一路视频画面。多路录像功能是指手机在拍摄过程中显示至少两个取景框，每一取景框用于一路视频画面。其中，使用多路录像功能的过程中，每一路视频画面及对应的音频采集方式均可以参照单路录像功能的实现方式。上述确定根据第一人脸图像以及第一人嘴图像确定第一拾音范围，并根据第一拾音范围录音的方法中，均以拍摄界面包括一个取景框为例进行说明。此外，包含两个或两个以上取景框的多路录像功能对应的过程与此类似，不再进行赘述。

手机在录制视频画面的过程中，根据发声人脸图像或发声人嘴图像，确定第一拾音范围，进而根据第一拾音范围录制音频。后续，需要对录制的音频进行保存，用户可以播放已保存的录像的视频画面和音频。需要说明的是，若录制视频画面的场景为直播，视频通话等实时通信场景，则其录制视频画面过程中，录制音频的方法可以参考上述方法，但是在检测到用户指示停止拍摄的操作即为停止通信的操作后，直接停止通信，不必生成录像视频。可以理解的是，某些实时通信场景中，用户也可以选择保存录像视频。手机响应于用户的操作，确定是否保存实时通信场景中的录像视频。

下面对手机保存录像视频以及播放已经保存的录像视频的场景进行介绍。

可选的，手机检测到用户指示停止拍摄的操作后，停止录制视频画面和音频，并生成录像视频。其中，用户指示停止拍摄的操作可以为用户点击图4中(c)所示录像预览界面403中，显示的控件45的操作，用户语音指示停止拍摄的操作，或隔空手势操作等其他操作，本申请实施例不做具体限定。

可选的，手机检测到用户指示停止拍摄的操作后，生成录像视频并返回录像预览界面或拍摄预览界面。其中，录像视频可以包括视频画面和音频。示例性的，手机生成的录像视频的缩略图可以参见图19中的(a)所示界面1901中显示的缩略图191，或图19中的(b)所示界面1902中显示的缩略图192。

在一种可能的实现方式中，手机可以提示用户该录像视频具有多路音频。示例性的，录像视频缩略图上或录像视频的详细信息可以包括用于表示多路音频的提示信息，例如该提示信息可以是图19中的(b)所示界面1902上显示的多个喇叭的标记193，其他形式的标记，或文字信息等。其中，每一路音频可以分别对应于在第一拾音范围和参考第一拾音范围对应采集的音频。

在一种可能的实现方式中，响应于用户指示停止操作拍摄的操作，手机显示如图19中的(c)所示界面1903，用于提示用户保存需要的视频文件的音频。其中视频文件当前包含音频194-197，分别对应于不同的拾音范围录制的音频文件，或者对应于相同拾音范围不同音频算法处理后获得的音频文件。比如，对应于上表4-6所示的方法，音频194-197分别对应于推荐值，增强值1，增强值2和增强值3的音频。响应于用户指示播放的操作，手机可以播放视频文件和对应的音频。比如，手机检测到用户指示播放音频194的操作，则播放视频文件和音频194。用户在观看视频文件后，可以选择其认为音频效果较好的音频进行保存。响应于用户选择，确定用户需要保存的音频，提高用户的使用体验，并且避免保存过多的音频导致存储空间占用过多的问题。如图19中的(c)所示界面1903，当前视频文件用户选择保存音频194和音频197。手机响应于用户点击保存控件198的操作，完成视频文件的保存，并显示如图19中的(b)所示的界面1902。其中，喇叭的标记193中喇叭的数量可以对应于当前视频文件包含的音频数量。

可选的，手机检测到用户指示播放录像视频的操作后，播放录像视频的视频画面和音频。其中，用户指示播放录像视频的操作，可以为用户点击图19中(a)所示的录像预览界面中的缩略图191的操作。或者，用户指示播放录像视频的操作，可以为用户点击图19中(b)所示的图库中的缩略图192的操作。

在一种可能的实现方式中，手机检测到用户指示播放录像视频的操作后，根据上述录像过程中录制的视频画面和音频播放该录像视频。其中，在视频回放时，手机可以显示视频播放界面，该视频播放界面可以包括录制的视频画面，同时手机可以默认播放第一拾音范围对应的音频，而后可以根据用户的指示切换播放其他的音频。或者，录制过程中，用户已经选择了特定的拾音范围，那么手机自动播放用户选择的拾音范围对应的音频。

例如，在视频回放时，视频播放界面上可以包括多个音频切换控件，每个音频切换控件对应的一路音频。手机检测到用户点击某个音频切换控件的操作后，播放该音频切换控件对应的该路音频。

示例性的，在视频回放时，手机可以显示如图20中的(a)所示的视频播放界面2001，视频播放界面2001显示有视频画面。视频播放界面2001上还显示有音频切换控件201-205。如图20中的(a)所示，手机当前选中了的音频切换控件201，或者默认选择了推荐值，则播放第一拾音范围对应的音频。若手机检测到用户点击音频切换控件203的操作后，可以播放音频切换控件203对应的参考第一拾音范围对应的音频。

又示例性的，手机可以响应于用户的操作，删除视频文件对应的部分音频。如图20中的(b)所示界面2002，手机检测到用户长按音频切换控件205的操作，显示删除提示框。若用户确认删除，则删除音频切换控件205对应的音频，并显示如图20中的(c)所示界面2003。在界面2003中，不再显示用户已经确认删除的音频对应的音频控件205。如此，能够实现在视频回放过程中，根据用户需求删除用户不想保存的音频，提高用户使用体验。

在另一种可能的实现方式中，在视频回放时，手机可以显示视频播放界面，且先不播放音频。手机在检测到用户的指示操作后，播放用户指示的音频。

在上述实施例描述的方案中，在视频回放，手机可以播放第一人脸图像或第一人嘴图像对应的音频，使得播放的音频中降低杂音对发声人脸或发声人嘴发出的声音的干扰，并且播放的音频与用户关注的人脸图像实时匹配，提高用户音频体验。

并且，手机可以切换播放不同拾音范围对应的音频，给用户以多种音频播放选择，实现了音频的可调节性，可以提高用户音频播放体验。

而且，手机可以播放实时变化的第一人脸图像或第一人嘴图像以及第一特征值对应的音频，使得音频与变化的视频画面实时匹配，提高用户音频体验。

图21为本申请实施例提供的又一种音频处理方法流程示意图。该音频处理方法可应用于如图1所示的电子设备100。

在一些实施例中，电子设备检测到用户指示打开相机的操作后，启动相机，并显示拍摄预览界面。之后，在检测到用户指示拍摄的操作后，开始采集视频图像和第一音频(即初始音频信号)。

需要说明的是，电子设备摄像头采集到的图像为初始视频图像，将初始视频图像处理后，获得在显示屏上可显示的视频画面。其中，处理初始视频图像的步骤由处理器执行。图21中，摄像头采集视频画面仅为一种示例性说明。

其中，在检测到用户指示拍摄的操作之前或之后，响应于用户的操作，电子设备启动语音增强模式。或者，在检测到用户指示拍摄的操作后，电子设备启动语音增强模式。

在一些实施例中，第一音频为电子设备的一个或多个麦克风采集的各个方向上的音频信号。后续，可以基于该第一音频，获得语音增强后的音频。

示例性的，以处理器包括GPU、NPU和AP为例进行举例说明。可以理解的是，这里GPU、NPU和AP执行的步骤也可以为处理器中其他处理单元执行，本申请实施例对此不做限定。

在一些实施例中，处理器中的NPU利用图像识别技术，识别视频画面中是否包含人脸图像和/或人嘴图像。进一步的，NPU还可以根据人脸图像和/或人嘴图像的数据，确认其中的发声人脸或发声人嘴，从而确认需要进行定向录音的拾音范围。

其中，可以利用目标图像，确定目标图像的第一特征值，进而根据第一特征值确定第一拾音范围。第一特征值包括前后置属性参数，面积占比，位置信息中的一项或几项。其中，前后置属性参数，用于表示视频画面为前置摄像头拍摄的视频画面还是后置摄像头拍摄的视频画面；面积占比，用于表示目标图像的面积与视频画面的面积的比值；位置信息，用于表示目标图像在视频画面中的位置。

在一些场景中，第一特征值包括目标图像对应的前后置属性参数。也就是说，处理器中的AP确定当前目标图像所在的视频画面为前置视频画面还是后置视频画面。若为前置视频画面，则第一拾音范围为前置摄像头侧的拾音范围。若为后置视频画面，则第一拾音范围为后置摄像头侧的拾音范围。

在另一些场景中，第一特征值包括目标图像对应的面积占比。其中，“面积占比”用于表示第一人脸图像面积或第一人嘴图像面积与视频画面的面积的比值(例如用X/Y表示)。例如，电子设备根据第一人脸图像面积与取景框面积的比值，确定第一特征值。

具体的，面积占比用于衡量第一人脸图像或第一人嘴图像对应的第一拾音范围的大小，如第一拾音范围的半径范围或直径范围。因此，AP可以根据第一人脸图像的面积占比，确定第一拾音范围的半径范围；或者，AP可以根据第一人嘴图像的面积占比，确定第一拾音范围的半径范围。进而AP可以根据面积占比和第一音频的拾音范围，确定第一拾音范围(例如用N*X/Y表示)。例如，目标图像的面积/视频画面的面积＝第一拾音范围/第一音频的拾音范围。

在又一些实施例中，第一特征值包括目标图像对应的位置信息。AP根据目标图像在视频画面中的位置信息，确定目标图像对应的第一拾音范围在第一音频的拾音范围内的位置。具体的，AP确定目标图像的中心点相对于第一参考点的第一偏移量，第一参考点为视频画面的中心点或对焦的焦点。之后，AP确定第一拾音范围的中心点相对于第一音频的拾音范围的中心点的第二偏移量，第二偏移量与第一偏移量成正比，得到第一拾音范围。

其中，第一偏移量或第二偏移量包括偏移角度和/或偏移距离。比如，以第一参考点为原点，平行于电子设备底边(或当前取景框的底边)为x轴，垂直于x轴的方向为y构建坐标系，将第一参考点作为该坐标系的坐标原点，并且该坐标系平行于电子设备的显示屏。如第一偏移量为左上方45度，则第二偏移量为左上方45度。那么，第一拾音范围在第一音频的拾音范围内，且第一拾音范围中心点在第一音频的拾音范围的中心点的左上方45度。

示例性的，目标图像中心相对于参考点的偏移包括偏移角度θ1，偏移距离L1。第一拾音范围相对于第一音频拾音范围位置的偏移包括偏移角度θ2，偏移距离L2。那么，θ1＝θ2，L1/L2＝常数。

可以理解的是，AP可以利用前后置属性参数，面积占比，位置信息中的一项或任意组合，确定第一拾音范围。

在一些实施例中，处理器中的AP在确定第一拾音范围之后，利用一个或多个麦克风采集到的第一音频，增强第一拾音范围内的音频信号，和/或削弱第一拾音范围以外的音频信号，获得第一人脸图像或第一人嘴图像对应的音频，即获得第二音频。

在一些实施例中，AP可以调用第一拾音范围对应的麦克风，以增强第一拾音范围内的音频信号，使得第一拾音范围内的音量大于第一拾音范围以外的音量。

示例性的，电子设备包含一个或多个麦克风，一个或多个麦克风用于采集第一音频。当一个或多个麦克风中第一麦克风的拾音范围内包含第一拾音范围的部分或全部时，执行以下至少一个操作得到第二音频：增强第一麦克风的拾音范围中第一拾音范围内的音频信号；削弱第一麦克风的拾音范围中第一拾音范围外的音频信号；削弱一个或多个麦克风中除第一麦克风外的其他麦克风的音频信号。

又示例性的，电子设备包含至少两个麦克风，至少两个麦克风用于采集第一音频。当至少两个麦克风中的第二麦克风的拾音范围不包含第一拾音范围时，关闭第二麦克风，将至少两个麦克风中除第二麦克风外的其他麦克风采集的音频为第一人脸图像或第一人嘴图像对应的音频。或者，在关闭第二麦克风时，增强至少两个麦克风中除第二麦克风外的其他麦克风的拾音范围中第一拾音范围内的音频信号，和/或削弱至少两个麦克风中除第二麦克风外的其他麦克风的拾音范围中第一拾音范围外的音频信号。

在一些实施例中，处理器中的AP获得第二音频后，在利用获得的视频画面，获得录像视频。在检测到指示停止拍摄的操作后，获得包括第二音频和视频画面的录像视频。

在一些实施例中，录像视频可以包含多个音频文件，其中，每一音频文件包含一路音频。比如，由于电子设备根据第一特征值确定的第一拾音范围，与第一人脸图像或第一人嘴图像的显示范围可能存在一定的误差，因而电子设备可以在第一拾音范围附近确定一个或多个参考第一拾音范围。其中，电子设备根据第一拾音范围获得一路音频，根据参考第一拾音范围获得至少一路音频，电子设备还可以将全景音频作为一路音频。那么，电子设备基于第一拾音范围可以获得第一人脸图像或第一人嘴图像对应的多路音频。其中，一路音频可以理解为一个音频文件。

如此，可以为用户提供多种音频体验。并且，用户根据个人视听体验，可以选择删除其中的部分音频，保存其认为最佳的音频，提高用户使用体验，并且降低存储器的存储压力。

本申请实施例还提供一种电子设备，包括一个或多个处理器以及一个或多个存储器。该一个或多个存储器与一个或多个处理器耦合，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，使得电子设备执行上述相关方法步骤实现上述实施例中的音频处理方法。

本申请实施例还提供一种芯片系统，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得该芯片系统实现上述任一方法实施例中的方法。

可选地，该芯片系统中的处理器可以为一个或多个。该处理器可以通过硬件实现也可以通过软件实现。当通过硬件实现时，该处理器可以是逻辑电路、集成电路等。当通过软件实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现。

可选地，该芯片系统中的存储器也可以为一个或多个。该存储器可以与处理器集成在一起，也可以和处理器分离设置，本申请并不限定。示例性的，存储器可以是非瞬时性处理器，例如只读存储器ROM，其可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请对存储器的类型，以及存储器与处理器的设置方式不作具体限定。

示例性的，该芯片系统可以是现场可编程门阵列(field programmable gate array，FPGA)，可以是专用集成芯片(application specific integrated circuit，ASIC)，还可以是系统芯片(system on chip，SoC)，还可以是中央处理器(central processor unit，CPU)，还可以是网络处理器(network processor，NP)，还可以是数字信号处理电路(digital signal processor，DSP)，还可以是微控制器(micro controller unit，MCU)，还可以是可编程控制器(programmable logic device，PLD)或其他集成芯片。

应理解，上述方法实施例中的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在终端设备上运行时，使得终端设备执行上述相关方法步骤实现上述实施例中的音频处理方法。

本申请实施例还提供一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的音频处理方法。

另外，本申请的实施例还提供一种装置，该装置具体可以是组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使装置执行上述各方法实施例中的音频处理方法。

其中，本申请实施例提供的终端设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

可以理解的是，为了实现上述功能，电子设备包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法，可以通过其它的方式实现。例如，以上所描述的终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序指令的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种音频处理方法，其特征在于，所述方法应用于电子设备，所述方法包括：

检测打开相机应用的第一操作；

响应于所述第一操作，显示拍摄预览界面；

检测开始录像的第二操作；

响应于所述第二操作，采集视频画面和第一音频，并显示拍摄界面，所述拍摄界面包括所述视频画面的预览界面；

识别所述视频画面中的目标图像，所述目标图像为第一人脸图像和/或第一人嘴图像；其中，所述第一人脸图像为所述视频图像中的发声对象的人脸图像，所述第一人嘴图像为所述视频图像中的发声对象的人嘴图像；

根据所述目标图像，确定所述发声对象对应的第一拾音范围；

根据所述第一拾音范围和所述第一音频，获得所述视频画面对应的第二音频，所述第二音频中所述第一拾音范围内的音频音量大于所述第一拾音范围之外的音频音量。
根据权利要求1所述的方法，其特征在于，所述根据所述目标图像，确定所述发声对象对应的第一拾音范围；包括：

根据所述目标图像，获得第一特征值；其中，所述第一特征值包括前后置属性参数，面积占比，位置信息中的一项或几项；其中，所述前后置属性参数，用于表示所述视频画面为前置摄像头拍摄的视频画面还是后置摄像头拍摄的视频画面；所述面积占比，用于表示所述目标图像的面积与所述视频画面的面积的比值；所述位置信息，用于表示所述目标图像在所述视频画面中的位置；

根据所述第一特征值，确定所述发声对象对应的所述第一拾音范围。
根据权利要求2所述的方法，其特征在于，所述根据所述第一特征值，确定所述发声对象对应的所述第一拾音范围，包括：

当所述视频画面为前置视频画面时，确定所述第一拾音范围为前置摄像头侧的拾音范围；

当所述视频画面为后置视频画面时，确定所述第一拾音范围为后置摄像头侧的拾音范围。
根据权利要求2所述的方法，其特征在于，所述根据所述第一特征值，确定所述发声对象对应的所述第一拾音范围，包括：

根据所述面积占比以及所述第一音频的拾音范围，确定所述第一拾音范围。
根据权利要求2所述的方法，其特征在于，所述根据所述第一特征值，确定所述发声对象对应的所述第一拾音范围，包括：

根据所述位置信息，确定所述第一拾音范围在所述第一音频的拾音范围中的位置。
根据权利要求5所述的方法，其特征在于，所述位置信息包括所述目标图像的中心点相对于第一参考点的第一偏移量，所述第一参考点为所述视频画面的中心点或对焦的焦点；

所述根据所述位置信息，确定所述第一拾音范围在所述第一音频的拾音范围中的位置，包括：

根据所述第一偏移量，确定所述第一拾音范围的中心点相对于所述第一音频的拾音范围的中心点的第二偏移量，所述第二偏移量与所述第一偏移量成正比；

根据所述第二偏移量，确定所述第一拾音范围在所述第一音频的拾音范围中的位置。
根据权利要求5或6所述的方法，其特征在于，所述视频画面的中心点为的取景框的中心点，或者所述视频画面的中心点为的显示屏的中心点。
根据权利要求1-7任一项所述的方法，其特征在于，所述根据所述第一拾音范围和所述第一音频，获得所述视频画面对应的第二音频；包括：

增强所述第一音频中在所述第一拾音范围以内的音频信号，和/或削弱所述第一音频中在所述第一拾音范围以外的音频信号，获得所述第二音频。
根据权利要求8所述的方法，其特征在于，所述电子设备包含一个或多个麦克风，所述一个或多个麦克风用于采集所述第一音频；

所述根据所述第一拾音范围和所述第一音频，获得所述视频画面对应的第二音频，包括：

当所述一个或多个麦克风中第一麦克风的拾音范围内包含所述第一拾音范围的部分或全部时，执行以下至少一个操作得到所述第二音频：增强所述第一麦克风的拾音范围中所述第一拾音范围内的音频信号；削弱所述第一麦克风的拾音范围中所述第一拾音范围外的音频信号；削弱所述一个或多个麦克风中除所述第一麦克风外的其他麦克风的音频信号。
根据权利要求8所述的方法，其特征在于，所述电子设备包含至少两个麦克风，所述至少两个麦克风用于采集所述第一音频；

所述根据所述第一拾音范围和所述第一音频，获得所述视频画面对应的第二音频，包括：

当所述至少两个麦克风中第二麦克风的拾音范围不包含所述第一拾音范围时，关闭所述第二麦克风，所述至少两个麦克风中除所述第二麦克风外的其他麦克风采集的音频为所述第二音频。
根据权利要求10所述的方法，其特征在于，在关闭所述第二麦克风时，所述方法还包括：

增强所述至少两个麦克风中除所述第二麦克风外的其他麦克风的拾音范围中所述第一拾音范围内的音频信号，和/或削弱至少两个麦克风中除所述第二麦克风外的其他麦克风的拾音范围中所述第一拾音范围外的音频信号。
根据权利要求2-11任一项所述的方法，其特征在于，所述第一人脸图像的数量为一个或多个，所述第一人嘴的数量为一个或多个。
根据权利要求1-12任一项所述的方法，其特征在于，在所述响应于所述第二操作，采集视频画面和第一音频，并显示拍摄界面之后，所述方法还包括：

检测停止拍摄的第三操作；

响应于所述第三操作，停止录制并生成录像视频；所述录像视频包括所述视频画面，以及所述第二音频；

检测播放所述录像视频的第四操作；

响应于所述第四操作，显示视频播放界面，播放所述视频画面，以及所述第二音频。
根据权利要求13所述的方法，其特征在于，所述录像视频还包括第三音频，所述第三音频为根据第二拾音范围确定的音频，所述第二拾音范围为根据所述第一拾音范围确定，且与所述第一拾音范围不同的拾音范围；所述视频播放界面包括第一控件和第二控件，所述第一控件对应所述第二音频，所述第二控件对应第三音频。
根据权利要求14所述的方法，其特征在于，所述方法还包括：

响应于所述第四操作，播放所述视频画面和所述第二音频；所述第四操作包括操作播放控件的操作或操作所述第一控件的操作；

检测操作所述第二控件的第五操作；

响应于所述第五操作，播放所述视频画面和所述第三音频。
根据权利要求14或15所述的方法，其特征在于，所述方法还包括：

响应于删除所述第二音频或所述第三音频的操作，删除所述第二音频或所述第三音频。
根据权利要求1-16任一项所述的方法，其特征在于，在所述响应于所述第一操作，显示拍摄预览界面之后，所述方法还包括：

检测启动语音增强模式的第六操作；

响应于所述第六操作，启动语音增强模式。
一种电子设备，其特征在于，包括：处理器，存储器，麦克风，摄像头和显示屏，所述存储器、所述麦克风、所述摄像头、所述显示屏与所述处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器从所述存储器中读取所述计算机指令，使得所述电子设备执行如权利要求1-17任一项所述的音频处理方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1-17中任一项所述的音频处理方法。
一种包含指令的计算机程序产品，其特征在于，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行如权利要求1-17中任一项所述的音频处理方法。