WO2022068608A1

WO2022068608A1 - 信号处理的方法和电子设备

Info

Publication number: WO2022068608A1
Application number: PCT/CN2021/118948
Authority: WO
Inventors: 鲍光照; 陈礼文; 黄磊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-09-30
Filing date: 2021-09-17
Publication date: 2022-04-07
Anticipated expiration: 2023-03-30
Also published as: CN114333831B; US20230386494A1; EP4207186A4; CN114333831A; EP4207186A1; EP4207186B1

Abstract

信号处理的方法和电子设备（10），通过摄像头（140）得到第一视频（S220），结合麦克风阵列（130）得到的第一音频信号（S210），确定正在与电子设备（10）进行语音交互的目标用户所在的目标声源方向（S240），可以大幅提高目标声源方向的估计精度，以及，通过摄像头（140）获取的在目标声源方向的用户唇部视频（S250）和预设的语音增强模型，对通过麦克风阵列（130）获取的第二音频信号（S260）做语音增强处理，由于语音增强模型中集成了发音和唇型的对应关系，结合用户唇部视频和语音增强模型，可以恢复出较为干净的第三音频信号，最终，可以有效地提高语音识别效率。

Description

信号处理的方法和电子设备

本申请要求于2020年9月30日提交中国专利局、申请号为202011065346.1、申请名称为“信号处理的方法和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及声学领域，更具体地，涉及一种信号处理的方法和电子设备。

背景技术

当前，例如智能电视、智能音箱、智能电灯等智能设备都可进行远扬拾音，例如，用户在5米外说一句“关灯”的指令，智能设备拾取语音且识别语音，并控制电灯执行对应的关灯动作。

常用的远场拾音技术是利用麦克风阵列拾取音频信号，并借助波束形成技术和回声消除算法，实现对环境噪声和回声的抑制，以得到较为清晰的音频信号。但是，实际环境中可能有各种噪声和干扰，例如厨房的做菜洗碗噪声、电视节目噪声、家人聊天的干扰噪声等，以及，部分家庭的房间空旷或者装潢的墙壁采用了声反射系数大的材料，导致混响较大，声音容易发糊，所有这些不利因素都会导致采用麦克风阵列拾取的声音的清晰度大大降低，从而导致语音识别率大幅下降。

因此，需要提供一种技术，可以大幅提高语音识别效率。

发明内容

本申请实施例提供了一种信号处理的方法和电子设备，通过一个音频信号和基于摄像头获得的视频，确定正在和电子设备进行语音交互的用户所在的目标声源方向，进而，基于摄像头获得的在该目标声源方向的用户唇部视频和预设的语音增强模型，对拾取的音频信号做语音增强处理，得到或恢复出较为清晰的音频信号，可以大幅提高语音识别效率。

第一方面，提供了一种信号处理的方法，其特征在于，应用于电子设备，所述电子设备包括麦克风阵列和摄像头，所述方法包括：

对通过所述麦克风阵列获得的第一音频信号进行声源定位，获得声源方向信息；

对通过所述摄像头获得的第一视频进行处理，获得用户方向信息；

根据所述声源方向信息和所述用户方向信息，确定目标声源方向；

通过所述摄像头获得在所述目标声源方向的用户唇部视频；

通过所述麦克风阵列获得第二音频信号；

根据所述第二音频信号和所述用户唇部视频，通过语音增强模型，获得第三音频信号，所述语音增强模型包括发音和唇型的对应关系。

声源方向信息包括至少一个声源方向，该至少一个声源方向包括目标声源方向。用户方向信息包括与用户相关的一些方向，示例性地，包括与用户相关的至少一种类型的方向。目标声源方向是正在和电子设备进行语音交互的目标用户所在的方向，即，目标用户发出的声音的来源方向。

用户唇部视频中记录有用户说话过程中的多个唇型，唇型与发音具有对应关系，即，一个唇型可对应一个或多个发音，当用户不说话时，唇部处于静止状态。在目标声源方向的用户唇部视频实际上也可以理解为目标用户的唇部视频。

语音增强模型的目的是对音频信号做拾音增强处理，增强在目标声源方向的音频信号，抑制或消除其他方向的包括说话人或背景噪声等产生的音频信号，以得到或恢复出较为清晰的音频信号。本申请实施例的语音增强模型融合了音视频的信息，集成了发音和唇型的对应关系，即，一个或多个发音可对应一个唇型。

示例性地，摄像头是可旋转的摄像头，在确定目标声源方向后，可将摄像头旋转至目标声源方向，拍摄在目标声源方向的用户唇部视频。

本申请实施例的信号处理的方法，通过摄像头得到第一视频，结合麦克风阵列得到的第一音频信号，确定目标声源方向，可以大幅提高目标声源方向的估计精度，避免了仅通过音频信号确定目标声源方向时由于强烈的反射声产生的虚假声源干扰目标声源方向的确定，以及，通过摄像头获取的在目标声源方向的用户唇部视频和预设的语音增强模型，对通过麦克风阵列获取的第二音频信号做语音增强处理，由于语音增强模型中集成了发音和唇型的对应关系，结合用户唇部视频和语音增强模型，可以恢复出较为干净的第三音频信号，最终，可以有效地提高语音识别效率。

结合第一方面，在第一方面的某些实现方式中，所述电子设备还包括指向性麦克风，所述方法还包括：

通过所述指向性麦克风获得在所述目标声源方向的第四音频信号；以及，

根据所述第二音频信号和在所述目标声源方向的用户唇部视频，通过语音增强模型，获得第三音频信号，包括：

根据所述第二音频信号、所述第四音频信号和所述用户唇部视频，通过所述语音增强模块，获得所述第三音频信号。

在一些实施例中，所述指向性麦克风可固定在所述摄像头上。这样，在确定目标声源方向后，在旋转摄像头的过程中带动指向性麦克风旋转，最终旋转至目标声源方向，摄像头拍摄在目标声源方向的用户唇部视频，指向性麦克风拾取在目标声源方向的第四音频信号。

本申请实施例的信号处理的方法，在确定目标声源方向后，通过指向性麦克风获得在目标声源方向的第四音频信号，由于指向性麦克风对于混响、目标声源方向以外的干扰、显示屏本身的回声具有一定的抑制作用，且对回声消除后的回声残留有进一步抑制的作用，所以，本申请实施例利用指向性麦克风在目标声源方向获得的第四音频信号，结合麦克风阵列得到的第二音频信号，将这两个音频信号作为音频输入，可以大大提高拾音增强的效果，以提高语音识别效率。

结合第一方面，在第一方面的某些实现方式中，所述用户方向信息包括以下至少一种类型的方向：

第一类方向，所述第一类方向包括至少一个处于活动状态的唇部所在的方向；

第二类方向，所述第二类方向包括至少一个用户所在的方向；

第三类方向，所述第三类方向包括至少一个正在注视所述电子设备的用户所在的方向。

本申请实施例的信号处理的方法，对于采用第一类方向确定目标声源方向的方式，通过第一视频检测画面中是否有人的唇部在活动，也就是在检测是否有人在说话，可以有效地排除例如视频中人说话的场景，对于具有显示屏的电子设备来说，也可以在一定程度上排除干扰用户说话的场景；对于采用第二类方向确定目标声源方向的方式，通过第一视频检测画面中出现的用户，可以有效地排除其他非用户发出的干扰信号，例如，可以排除音箱发出的干扰信号；对于采用第三类方向确定目标声源方向的方式，通过第一视频检测画面中是否有用户在注视电子设备，一般情况下，尤其对于有显示屏的电子设备来说，若用户与电子设备有交互意图，大多数情况会对着电子设备发出语音指令，以便于电子设备能很好地接收到语音指令，以及，也能使得用户更快地获知电子设备是否按照指令执行或者从电子设备处得到一些反馈，例如，用户发出语音指令询问天气状态，用户需要看一下电子设备上显示的天气情况。

结合第一方面，在第一方面的某些实现方式中，所述声源方向信息包括至少一个声源方向，以及，

所述根据所述声源方向信息和所述用户方向信息，确定目标声源方向，包括：

将所述至少一个声源方向和所述至少一种类型的方向合并处理，获得合并后的至少一个方向；

从所述至少一个方向中确定所述目标声源方向。

本申请实施例的信号处理的方法，通过与至少一个声源方向和至少一种类型的方向合并处理以确定目标声源方向，可以简化计算。

结合第一方面，在第一方面的某些实现方式中，所述从所述至少一个方向中确定所述目标声源方向，包括：

根据以下至少一个参数，从所述至少一个方向中确定所述目标声源方向；

其中，所述至少一个参数包括：

所述至少一个方向中每个方向在所述声源方向和所述至少一种类型的方向中被检测到的频率的总和；

在预设时段和所述每个方向对应的预设角度范围内，所述电子设备是否和用户成功进行过语音交互，所述预设时段是当前时间与历史时间之间的时段；

所述每个方向与垂直于所述电子设备的显示屏的方向之间的夹角。

对于“每个方向在所述声源方向和所述至少一种类型的方向中被检测到的频率的总和”的参数，可以理解，哪个方向被检测到的频率的总和越多，该方向是目标声源方向的可能性最大。理想情况下，该方向基本上就是目标声源方向。

对于“在预设时段和所述每个方向对应的预设角度范围内，所述电子设备是否和用户成功进行过语音交互”的参数，每个方向对应的预设角度范围的角度不仅可以包括该方向对应的角度，也包括该角度附近的角度。该参数可以理解为在某个方向对应的角度附近，在预设时段内电子设备是否和用户成功进行过语音交互。

对于“所述每个方向与垂直于所述电子设备的显示屏的方向之间的夹角”的参数，比较适用于具有显示屏的电子设备中，该参数可以理解为用户是否在针对电子设备使用预设场景时被定义的某个特定方向附近。

本申请实施例的信号处理的方法，结合具体场景设置不同参数，通过上述至少一个参数从至少一个方向中确定目标声源方向，针对特定的电子设备(例如，智能电视)，可以进一步有效提高目标声源方向的估计精度，以提高语音识别效率。

结合第一方面，在第一方面的某些实现方式中，所述根据以下至少一个参数，从所述至少一个方向中确定所述目标声源方向，包括：

根据所述至少一个参数，确定所述每个方向的置信度；

将所述至少一个方向中数值最大的置信度对应的方向确定为所述目标声源方向。

结合第一方面，在第一方面的某些实现方式中，所述通过所述麦克风阵列获得第二音频信号，包括：

通过所述麦克风阵列，基于波束形成技术在所述目标声源方向上获得所述第二音频信号。

本申请实施例的信号处理的方法，通过波束成形技术在目标声源方向上得到第二音频信号，增强了拾音效果，有效减少了其他方向的干扰信号对语音识别的效率的影响。

结合第一方面，在第一方面的某些实现方式中，所述第一音频信号为唤醒信号。

第二方面，提供了一种电子设备，包括麦克风阵列、摄像头和处理器，所述处理器用于：

通过所述摄像头获得在所述目标声源方向的用户唇部视频；

通过所述麦克风阵列获得第二音频信号；

结合第二方面，在第一方面的某些实现方式中，所述电子设备还包括指向性麦克风，所述处理器还用于：

所述处理器具体用于：

结合第二方面，在第一方面的某些实现方式中，所述指向性麦克风与所述摄像头固定连接。

结合第二方面，在第一方面的某些实现方式中，所述用户方向信息包括以下至少一种类型的方向：

结合第二方面，在第一方面的某些实现方式中，所述声源方向信息包括至少一个声源方向，以及，

所述处理器具体用于：

从所述至少一个方向中确定所述目标声源方向。

结合第二方面，在第一方面的某些实现方式中，所述处理器具体用于：

其中，所述至少一个参数包括：

根据所述至少一个参数，确定所述每个方向的置信度；

结合第二方面，在第一方面的某些实现方式中，所述第一音频信号为唤醒信号。

结合第二方面，在第一方面的某些实现方式中，所述电子设备为智能电视。

第三方面，提供了一种芯片，包括处理器，用于从存储器中调用并运行所述存储器中存储的指令，使得安装有所述芯片的电子设备执行上述第一方面所述的方法。

第四方面，提供了一种计算机存储介质，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得所述装置执行上述第一方面所述的方法。

第五方面，本申请提供一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行如第一方面中任一项所述的方法。

可以理解，上述提供的电子设备、芯片、计算机存储介质以及计算机程序产品均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

附图说明

图1是本申请一实施例提供的电子设备的示意性结构图。

图2本申请另一实施例提供的电子设备的示意性结构图。

图3是本申请一实施例提供的摄像头拍摄视频的示意性场景图。

图4是本申请一实施例提供的电子设备的示例性框图。

图5是本申请一实施例提供的示意性场景图。

图6是本申请一实施例提供的信号处理的方法的示意性流程图。

图7是本申请另一实施例提供的信号处理的方法的示意性流程图。

图8是本申请另一实施例提供的电子设备确定目标声源方向的方法的示意性流程图。

图9是本申请另一实施例提供的信号处理的方法的示意性流程图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例提供的信号处理的方法，通过一个音频信号和基于摄像头获得的视频，确定正在和电子设备进行语音交互的用户(记为目标用户)所在的方向(记为目标声源方向)，进而，基于摄像头获得的在该方向的用户唇部视频和预设的语音增强模型，对拾取的音频信号做语音增强处理，得到或恢复出较为清晰的音频信号，可以大幅提高语音识别效率。

为了便于描述，本申请实施例定义了一些术语，下面对这些术语做一介绍。

目标用户，正在和电子设备进行语音交互的人，该目标用户正在向电子设备发出执行某个动作的语音指令。目标用户也可以理解为实际说话的人。

目标声源方向，目标用户所在的方向，即，目标用户发出的声音的来源方向。由于环境中各种干扰信号的影响，电子设备可能会拾取到多个声源方向的音频信号，所以，将目标用户所在的方向定义为目标声源方向。

用户唇部视频，用户唇部视频中记录有用户说话过程中的唇部口型(记为唇型)，当用户说话时，唇部会做出各种唇型动作，唇部视频可记录有多个唇型，唇型与发音具有对应关系，即，一个唇型可对应一个或多个发音，例如，“窝”、“我”和“握”表示三个不同的发音，但是，对应一个唇型。当用户不说话时，唇部处于静止状态。在本申请实施例中，在目标声源方向的用户唇部视频实际上也可以理解为目标用户的唇部视频。

语音增强模型的目的是对音频信号做拾音增强处理，增强在目标声源方向的音频信号，抑制或消除其他方向的包括说话人或背景噪声等产生的音频信号，以得到或恢复出较为清晰的音频信号。本申请实施例的语音增强模型融合了音视频的信息，集成了发音和唇型的对应关系，一个或多个发音可对应一个唇型。在本申请实施例中，将音频信号和用户唇部视频作为语音增强模型的输入，语音增强模型可以基于发音和唇型的对应关系和输入的用户唇部视频，对音频信号做语音增强处理，得到较为清晰的音频信号，以进行语音识别。

示例性地，语音增强模块可以对音频信号做降噪处理、消回声残留处理、去混响处理等。

本申请实施例的信号处理的方法可以应用在任何能够进行识别语音的电子设备。在一示例中，该电子设备可以是智能电视(也称为智慧屏)等语音控制设备。在另一示例中，该电子设备可以是手机、电脑等语音通话设备。

以下，先结合图1至图3，以智能电视为例，对本申请实施例的电子设备做说明。

参考图1，电子设备10包括壳体110、显示屏120、麦克风阵列130、摄像头140，显示屏120、麦克风阵列130和摄像头140安装在壳体110内。

显示屏120用于显示图像，视频等。显示屏120包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed， Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。

麦克风阵列130用于拾取音频信号，包括多个麦克风，可拾取多个方向的音频信号。示例性地，麦克风阵列130中的麦克风可以是全向性麦克风，也可以是指向性麦克风，也可以是全向性麦克风和指向性麦克风的组合，本申请实施不做任何限定。全向性麦克风可以对全部方向的音频信号进行拾取，不管说话的人在哪里，所有方向的声音都会以相同的灵敏度被拾取。指向性麦克风仅可以对特定方向的音频信号进行拾取。

麦克风阵列130可以设置在壳体110的任意位置，本申请实施例不做任何限定。

在一示例中，如图1所示，麦克风阵列130设置在壳体110内且位于显示屏120的一侧的区域，麦克风阵列130的出音孔设置在壳体110的正面上，出音孔的朝向与显示屏120的朝向相同，壳体110的正面可以理解为与显示屏120的朝向相同的一面，或者，壳体110的正面可以理解为用户在正常使用情况下壳体120朝向用户的一面。麦克风阵列130可以设置在壳体110中位于显示屏120的任一侧的区域，假设，图1所示的麦克风阵列130设置在壳体110中位于显示屏120的顶侧的区域，那么，麦克风阵列130也可以设置在壳体110中位于显示屏120的其他侧(例如，左侧、右侧或底侧)的区域。

在另一示例中，麦克风阵列130可以设置在壳体110内且位于显示屏120的顶侧的区域，麦克风阵列130的出音孔设置在壳体110的顶面(图中未示出)，壳体110的顶面与壳体110的正面相连，出音孔的朝向与显示屏120的朝向垂直。

在另一示例中，麦克风阵列130还可以设置在显示屏120的后侧，麦克风阵列130的出音孔设置在显示屏120上(图中未示出)。

在另一示例中，麦克风阵列130还可以设置在显示屏120的后侧，麦克风阵列130的出音孔设置在壳体110的正面。

麦克风阵列130可以呈如图1所示的线型结构排列，也可以呈其他结构排列，本申请实施例不做任何限定。例如，麦克风阵列130可以呈圆形结构或矩形结构等排列。

摄像头140用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备10可以包括1个或N个摄像头130，N为大于1的正整数。

在本申请实施例中，摄像头140可在预设的角度范围内旋转，以拍摄一定角度范围内的视频，该视频可用于确定目标声源方向；以及，在电子设备10确定目标声源方向后，摄像头140可旋转至目标声源方向，以使得摄像头140正对该目标声源方向，尽可能使得目标用户显示在画面的正中间，以更好地在该目标声源方向上拍摄视频，得到的用户唇部视频可用于处理输入语音增强模型的音频信号以输出较为清晰的音频信号，以进行语音识别。

在一示例中，参考图1，摄像头140设置在壳体110的顶面且伸出顶面，以更好地实现摄像头140旋转。在麦克风阵列130位于显示屏120的顶侧的区域的实施例中，摄像头140可以位于麦克风阵列130的上方。

在另一示例中，参考图2，摄像头140可以设置在壳体110的正面且位于显示屏120 的顶侧的区域。

摄像头140可以在预设的角度范围内旋转，该预设的角度范围可以是任意范围的角度。参考图3，在电子设备10为智能电视的实施例中，摄像头140可旋转的角度范围小于或等于180°，示例性地，该角度范围可以是120°，摄像头140可以在位于显示屏120的前方的120°的角度范围内旋转，此外，加上摄像头140的拍摄视场角，基本可以拍摄到位于智能电视的前方的180°范围内的所有画面。

在一些实施例中，参考图1和图2，电子设备10中还包括指向性麦克风150，指向性麦克风150可旋转，以在特定方向拾取音频信号。在电子设备10确定目标声源方向后，指向性麦克风150可旋转至该目标声源方向，在该目标声源方向上进行指向性拾音。

由于指向性麦克风150可以对目标声源方向进行无失真地拾音，能够对干扰和混响有一定的抑制作用，以及，指向性麦克风150朝前拾音，对回声也能起到很好的抑制作用。所以，在本申请实施例中，可以将通过指向性麦克风150得到的音频信号和麦克风阵列130得到的音频信号一起作为语音增强模型的音频输入，可以得到或恢复出更为清晰的音频信号。

结合摄像头140可以旋转至目标声源方向以朝向目标声源方向进行视频拍摄的实施例，在一示例中，继续参考图1和图2，指向性麦克风150可设置在摄像头140上，示例性地，指向性麦克风150固定连接在摄像头140上，在摄像头140旋转至目标声源方向时，指向性麦克风150也随着旋转至目标声源方向，实现简单且方便。电子设备10还包括处理器(图中未示出)，显示屏120、麦克风阵列130、摄像头140以及指向性麦克风150都连接至处理器，用于将各个部件采集到的信号输入到处理器，以进行下一步处理。处理器运行指令实现本申请实施例的信号处理的方法，以得到用户发出的较为清晰的音频信号，对该音频信号进行语音识别后，可控制相应部件执行该音频信号对应的指令。

应理解，上述以智能电视为例描述的电子设备10的结构仅为示意性说明，电子设备10可以有更多或更少的部件。

在一些实施例中，电子设备10可以包括麦克风阵列130、摄像头140，可选地，电子设备10还可以包括指向性麦克风150，但电子设备10可以不包括显示屏120。

在另一些实施例中，电子设备10可以包括指向性麦克风150和摄像头140，但电子设备10不包括麦克风阵列130，在该实施例中，可以采用指向性麦克风150拾取的音频信号和摄像头140拍摄的视频确定目标声源方向，以及，通过摄像头140拍摄在目标声源方向的视频和通过指向性麦克风150拾取在目标声源方向的音频信号，以通过在目标声源方向的视频和语音增强模型恢复出较为清晰的音频信号。示例性地，在确定目标声源方向之前，指向性麦克风150可以一直旋转采集音频信号。

在另一些实施例中，电子设备10除了可以包括麦克风阵列130、摄像头140以及指向性麦克风150外，还可以包括其他更多的部件，例如，电子设备10可以是手机或电脑等设备。

图4是本申请实施例提供的电子设备10的示例性框图。电子设备10可以包括上述图3所示的显示屏120、麦克风阵列130、指向性麦克风150、摄像头140，示例性地，电子设备10还可以包括以下一个或多个部件：处理器160、无线通信模块171、音频模块172、扬声器173、触摸传感器174、按键175和内部存储器176。

无线通信模块171可以提供应用在电子设备10上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块171可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块171经由天线接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器。无线通信模块171还可以从处理器接收待发送的信号，对其进行调频，放大，经天线转为电磁波辐射出去。

音频模块172用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块172还可以用于对音频信号编码和解码。在一些实施例中，音频模块172可以设置于处理器中，或将音频模块172的部分功能模块设置于处理器160中。

扬声器173也称“喇叭”，用于将音频电信号转换为声音信号。电子设备10可以通过扬声器173收听音乐或视频中的声音，在电子设备10为手机的实施例中，扬声器173还可以用于收听免提通话。

触摸传感器174也称“触控面板”。触摸传感器174可以设置于显示屏120，由触摸传感器174与显示屏120组成触摸屏，也称“触控屏”。触摸传感器174用于检测作用于其上或附近的触摸操作。触摸传感器174可以将检测到的触摸操作传递给处理器160，以确定触摸事件类型。可以通过显示屏120提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器174也可以设置于电子设备10的表面，与显示屏120所处的位置不同。

按键175包括开机键，音量键等。按键175可以是机械按键。也可以是触摸式按键。电子设备10可以接收按键175输入，产生与电子设备10的用户设置以及功能控制有关的键信号输入。

内部存储器176用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器160通过运行存储在内部存储器的指令，从而执行电子设备10的各种功能应用以及数据处理。内部存储器176可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备10使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器176可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

图5是本申请实施例提供的示意性场景图。继续以智能电视为例，参考图5，目标用户正在看电视，对着智能电视说“小艺小艺，我想看综艺节目”，智能电视接收且识别该指令，以将智能电视调至综艺节目。

在本申请实施例中，为了便于描述，可以采用角度表示某个方向，我们可以定义一个参考方向，采用某个方向与参考方向之间的夹角表示该某个方向。应理解，参考方向可以是任意的，本申请实施例不做任何限定。

以图5为例，例如，可以将电子设备10的长度方向(例如，x方向)中沿着左侧(图中0°对应的方向的箭头所指的方向)延伸的方向记为参考方向，该参考方向对应的角度为0°，目标用户正对电子设备10，目标用户所在的目标声源方向与参考方向之间的夹角为90°。

以下，结合图6至图9，对本申请实施例的信号处理的方法做说明，该方法可以由电子设备10执行。电子设备10包括麦克风阵列130，摄像头140和处理单元160，示例性地，处理单元160可以包括目标声源方向确定模块161和语音增强模块162，可选地，电子设备10还包括指向性麦克风150。

图6是本申请一实施例提供的信号处理的方法的示意性流程图。参考图6，本申请实施例的大致过程如下：

S210，目标用户开始向电子设备发出语音指令，麦克风阵列130拾取第一音频信号。

S220，摄像头140拍摄视频，得到第一视频。

S230，处理单元160对第一音频信号做声源定位，获得包括至少一个声源方向的声源方向信息，以及，处理单元160对第一视频进行处理，获得用户方向信息，该步骤可由处理单元160中的目标声源方向确定模块161执行。

S240，处理单元160根据声源方向信和用户方向信息，确定目标用户所在的目标声源方向，该步骤可由处理单元160中的目标声源方向确定模块161执行。

S250，处理单元160控制摄像头140旋转至目标声源方向，摄像头140在目标声源方向上拍摄视频，以得到在目标声源方向的用户唇部视频。

S260，麦克风阵列130继续拾取第二音频信号，该第二音频信号是实际需要语音识别的信号。

S270，在电子设备包括指向性麦克风150的实施例中，处理单元160还可以控制指向性麦克风150旋转至目标声源方向，指向性麦克风150在目标声源方向上拾取第四音频信号。

在指向性麦克风150设置在摄像头140的实施例中，处理单元160控制摄像头140和指向性麦克风150一起旋转至目标声源方向。

S280，将第二音频信号和在目标声源方向的用户唇部视频作为输入，处理单元160通过语音增强模型对第二音频信号做语音增强处理，获得增强后的较为清晰的第三音频信号，该步骤可由处理单元160中的语音增强模块162执行。

在电子设备包括指向性麦克风150的实施例中，在S280中，将第二音频信号、第四音频信号和在目标声源方向的用户唇部视频作为输入，处理单元160通过语音增强模型对第二音频信号和第四音频信号做语音增强处理，得到第三音频信号。

应理解，在本申请的方法200的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。例如，步骤S210和步骤S220可同时执行，步骤S250和步骤S260可同时执行，步骤S250、步骤S260和步骤S270可同时执行。再例如，步骤S250可以在步骤S260之前执行，也可以在步骤S260之后执行。

本申请实施例的信号处理的方法，通过摄像头得到第一视频，结合麦克风阵列得到的第一音频信号，确定正在与电子设备进行语音交互的目标用户所在的目标声源方向，可以大幅提高目标声源方向的估计精度，避免了仅通过音频信号确定目标声源方向时由于强烈的反射声产生的虚假声源干扰目标声源方向的确定，以及，通过摄像头获取的在目标声源方向的用户唇部视频和预设的语音增强模型，对通过麦克风阵列获取的第二音频信号做语音增强处理，由于语音增强模型中集成了发音和唇型的对应关系，结合用户唇部视频和语音增强模型，可以恢复出较为干净的第三音频信号，最终，可以有效地提高语音识别效率。

此外，指向性麦克风对于混响、目标声源方向以外的干扰、显示屏本身的回声具有一定的抑制作用，且对回声消除后的回声残留有进一步抑制的作用，本申请实施例利用指向性麦克风在目标声源方向拾取的第四音频信号，结合麦克风阵列得到的第二音频信号，将这两个音频信号作为音频输入，可以大大提高拾音增强的效果，以提高语音识别效率。

图7是本申请另一实施例提供的信号处理的方法300的示意性流程图，该方法可以可以由电子设备10的处理单元160执行。

在步骤S310中，对通过麦克风阵列130获得的第一音频信号进行声源定位，获得声源方向信息，该声源方向信息包括至少一个声源方向。其中，该至少一个声源方向包括目标声源方向。

用户向电子设备发出语音指令，麦克风阵列130拾取音频信号。该步骤可用于进行声源定位，第一音频信号可以是用户发出的语音指令中很少部分的内容，该很少部分的内容基本不影响后续的用于语音识别的内容。

示例性地，第一音频信号可以是唤醒信号。例如，用户发出的语音指令为“小艺小艺，我想看综艺节目”，那么，第一音频信号可以是“小艺”中的一个词或多个词或多个“小艺”，““小艺”中的一个词或多个词或多个“小艺”可以理解为唤醒信号。电子设备检测到“小艺”，可以确知用户可能需要电子设备执行语音指令，麦克风阵列130会进行声源定位，以及，会持续性拾取后续的音频信号。

当然，在没有唤醒信号的语音指令中，第一音频信号可以是语音指令中的前几个词。一般情况下，用户只要发出一个或两个词，麦克风阵列130都会检测到音频信号。例如，用户发出的语音指令为“我想看综艺节目”，第一音频信号可以是“我”。

麦克风阵列130对第一音频信号进行声源定位，目的是想要确定目标用户所在的目标声源方向，也就是实际发出语音指令的声源方向。不过，麦克风阵列130会拾取各个方向的音频信号，由于环境中的各种干扰声音的影响，导致最终确定的声源方向并不一定准确，会得到至少一个声源方向，该至少一个声源方向包括目标声源方向，还可以包括干扰信号所在的方向。例如，目标用户向电子设备发出语音指令，音箱正在播放音乐，以及，还有其他用户(记为干扰用户)正在说话，假设上述3种声音都可以被麦克风阵列130拾取到，那么，麦克风阵列130可能会确定出3个或2个或1个声源方向，结果并不准确，所以，需要结合视频进一步确定目标声源方向。

示例性地，本申请实施例的进行声源定位的技术可以是基于最大输出功率的可控波束形成技术、基于高分辨率谱图估计技术或基于声音时间差(time-delay estimation,TDE)的声源定位技术，本申请实施例不做任何限定。

如前所述，本申请实施例的某个方向可以采用角度表示，这里，声源方向可以采用角度θ表示，至少一个声源方向中任一个方向对应的角度额可以记为θ _i，i＝1，2，…，I，I为至少一个声源方向中包括的声源方向的数量。

在步骤S320中，对通过摄像头140获得的第一视频进行处理，获得用户方向信息。该用户方向信息包括一些与用户相关的方向，示例性地，该用户方向信息包括与用户相关的至少一种类型的方向。

在一些实施例中，用户向电子设备发出语音指令，摄像头140可以拍摄视频，电子设备基于得到的第一视频可用于确定目标声源方向。

示例性地，用户发出的语音指令可以作为摄像头140拍摄视频的触发条件，电子设备检测到用户发出的语音指令，控制摄像头140开始拍摄视频。由于本申请实施例的摄像头140可旋转，所以，在一些示例中，摄像头140可以边旋转边拍摄视频，以得到更多角度范围的画面。

在另一些实施例中，电子设备工作过程中，摄像头140可以一直拍摄视频，将电子设备接收到用户发出的语音指令后的一段时间的视频作为第一视频，用于确定目标声源方向。

电子设备对摄像头140拍摄的第一视频处理，检测第一视频中与用户相关的内容，

得到用户方向信息，用户方向信息包括与用户相关的至少一种类型的方向。这样，在声源方向信息的基础上，结合用户方向信息，可以很有效地排除其他非用户产生的干扰信号，例如，可以排除音箱产生的干扰信号。

应理解，用户方向信息中所涉及的用户不仅仅包括正在和电子设备进行语音交互的目标用户，也可以包括其他用户，只要是在第一视频中被检测到的用户都可以，不过，相对于目标用户，其他用户可以理解为干扰用户。

用户方向信息包括与用户相关的至少一种类型的方向，每种类型的方向包括至少一个方向。

在一些实施例中，至少一种类型的方向包括以下至少一种：

第一类方向，该第一类方向包括至少一个处于活动状态的唇部所在的方向；

第二类方向，该第二类方向包括至少一个用户所在的方向；

第三类方向，该第三类方向包括至少一个正在注视电子设备的用户所在的方向。

对于第一类方向，通过第一视频检测画面中是否有人的唇部在活动，也就是在检测是否有人在说话，可以有效地排除例如视频中人说话的场景，对于具有显示屏的电子设备10来说，也可以在一定程度上排除干扰用户说话的场景。例如，目标用户在看电视，对着电视发出语音指令，用户1也在说话，但是在低头做家务，并没有对着电视，那么，通过第一视频大部分是检测不到用户1的唇部在活动，只能检测到目标用户的唇部在活动，所以，用户1即为干扰用户，能够有效地被排除。

若环境中有多个用户(包括目标用户)在摄像头140的视角范围内说话，可能会检测到多个用户的唇部在活动，得到多个处于活动状态的唇部所在的方向。在正常情况下，该第一类方向包括目标声源方向。

这里，第一类方向采用角度γ表示，第一类方向中任一个方向对应的角度可以记为γ _l，l＝1，2，…，L，L为第一类方向中包括的方向的数量。

对于第二类方向，通过第一视频检测画面中出现的用户，可以有效地排除其他非用户发出的干扰信号，例如，可以排除音箱发出的干扰信号。

若环境中有多个用户(包括目标用户)，可以在第一视频中检测到多个用户，得到多个用户所在的方向。应理解，在正常情况下，该第二类方向包括目标声源方向。

为了便于区分，第二类方向可以采用角度α表示，第二类方向中任一个方向对应的角度可以记为α _j，j＝1，2，…，J，J为第二类方向中包括的方向的数量。

对于第三类方向，通过第一视频检测画面中是否有用户在注视电子设备，一般情况下，尤其对于有显示屏的电子设备来说，若用户与电子设备有交互意图，大多数情况会对着电子设备发出语音指令，以便于电子设备能很好地接收到语音指令，以及，也能使得用户更快地获知电子设备是否按照指令执行或者从电子设备处得到一些反馈，例如，用户发出语音指令询问天气状态，用户需要看一下电子设备上显示的天气情况。所以，通过检测注视电子设备的用户，可以有效地排除干扰用户说话的场景。例如，目标用户在看电视，对着电视发出语音指令，用户1对着目标用户说话，但是并没有注视电视，那么，通过第一视频大部分是检测不到用户1正在注视电子设备，只能检测到目标用户正在注视电子设备，所以，用户1即为干扰用户，能够有被效地排除掉。

若环境中有多个用户(包括目标用户)，可能会在第一视频中检测到多个用户注视电子设备，得到多个正在注视电子设备的用户的方向。在正常情况下，该第三类方向包括目标声源方向。

为了便于区分，第三类方向可以采用角度β表示，第三类方向中任一个方向对应的角度可以记为β _k，k＝1，2，…，K，K为第三类方向中包括的方向的数量。

应理解，用户方向信息可以包括上述三种类型的方向中的一类或两类或三类方向，本申请实施例不做任何限定。当然，用户方向信息中包括的方向的类型越多，越有利于提高确定目标声源方向的精确度。

还应理解，用户方向信息除了包括上述三种类型方向外，还可以包括其他与用户相关的方向，本申请实施例不做任何限定。例如，用户方向信息可以包括其他与用户行为相关的方向。

在步骤S330中，根据声源方向信息和用户方向信息，确定目标声源方向。

该目标声源方向为正在和电子设备进行语音交互的目标用户所在的方向。

可以理解，声源方向信息中的声源方向可以视为一种类型的方向，和与用户相关的至少一种类型的方向结合起来，共同用于确定目标声源方向。

图8是本申请另一实施例提供的电子设备确定目标声源方向的方法230的示意性流程图。

在一些实施例中，参考图8，电子设备可以采用以下方式确定目标声源方向：

在步骤S331中，将声源方向信息中的至少一个声源方向和用户方向信息中的至少一种类型的方向合并处理，获得合并后的至少一个方向；

在步骤S332中，从该至少一个方向中确定目标声源方向。

为了便于描述，以下，将声源方向和上述三种类型的方向为例，首先对获得合并后的至少一个方向的方式做说明。

在合并过程中，为了简化计算，若多个方向对应的角度之间的偏差小于一个阈值，则可以基于该多个方向确定一个方向，逻辑上可以认为该多个方向为同一个方向，最终确定的一个方向可以是该多个方向中的任一个，也可以对该多个方向取平均值得到的，本申请实施例不做任何限定。阈值可以基于实际的应用场景合理设计，示例性地，阈值可以为5°。

假设，声源方向信息包括4个声源方向，对应的角度分别为30°、60°、95°、120°，第一类方向包括1个方向，对应的角度为93°，第二类方向包括2个方向，对应的角度分别为63°、95°，第三类方向包括1个方向，对应的角度为95°。

按照从小到达的顺序罗列出所有的方向对应的角度：30°、60°、63°、93°、95°、95°、95°、120°，60°与63°、93°与95°相近或相同，以对两个方向取平均值的方式为例，合并处理得到的角度为：30°、61.5°、94.5°、120°，即，合并得到的第四类方向包括4个方向，目标声源方向是4个方向中的一个，实际上94.5°对应的方向为目标声源方向，目标用户基本正对着电子设备，与电子设备进行语音交互。

电子设备在得到合并后的至少一个方向后，从该至少一个方向中确定目标声源方向。

在本申请实施例中，可以基于远扬拾音的具体场景，设置一些参数，基于和这些参数确定目标声源方向。

在一些实施例中，在步骤S332中，电子设备可以根据以下至少一种参数，从至少一个方向中确定目标声源方向，其中，该至少一种参数包括：

每个方向在声源方向和至少一种类型的方向中被检测到的频率的总和；

在预设时段和每个方向对应的预设角度范围内，电子设备是否和用户成功进行过语音交互，预设时段是当前时间与历史时间之间的时段，预设角度范围包括每个方向对应的角度；

每个方向与垂直于电子设备的显示屏的方向之间的夹角。

以至少一种类型的方向包括上述三种类型的方向为例，以及，以上述四个声源方向和三种类型的方向对应的角度为例，对每个参数做说明。

4个声源方向，对应的角度分别为30°、60°、95°、120°，第一类方向包括1个方向，对应的角度为93°，第二类方向包括2个方向，对应的角度分别为63°、95°，第三类方向包括1个方向，对应的角度为95°，合并处理得到的4个方向对应的角度：30°、61.5°、94.5°、120°。

第一个参数：每个方向在声源方向和至少一种类型的方向中被检测到的频率的总和。

30°在声源方向、第一类方向、第二类方向和第三类方向中分别被检测到的频率为：1、0、0、0，频率的总和为1；61.5°在声源方向、第一类方向、第二类方向和第三类方向中分别被检测到的频率为：1、0、1、0，频率的总和为2；94.5°在声源方向、第一类方向、第二类方向和第三类方向中分别被检测到的频率为：1、1、1、1，频率的总和为4；120°在声源方向、第一类方向、第二类方向和第三类方向中分别被检测到的频率为：1、0、0、0，频率的总和为1。可以看出，94.5°在声源方向和至少一种类型的方向中被检测到的频率的总和最多。

可以理解，哪个方向被检测到的频率的总和越多，该方向是目标声源方向的可能性最大。理想情况下，该方向基本上就是目标声源方向。

第二个参数：在预设时段和对应每个方向的预设角度范围内，电子设备是否和用户成功进行过语音交互，预设时段是当前时间和与历史时间之间的时段，预设角度范围包括每个方向对应的角度。

每个方向对应的预设角度范围的角度不仅可以包括该方向对应的角度，也包括该角度附近的角度，例如，某个方向对应的角度30°，该预设角度范围可以是25°～35°。应理解，该预设角度范围越小，采用该参数确定的目标声源方向越精确。

预设时段是当前时间与历史时间之间的时段，历史时间是位于当前时间之前的时间，预设时段的时长一般设置的不宜过长，这样有利于较为精确地确定目标声源方向。例如，预设时段的时长可以设置为1分钟、5分钟、10分钟等，假设，当前时间为10:30，预设时段的时长为10分钟，则历史时间为10:20，预设时段为10:20到10:30之间的时段。

针对第二个参数，换句话说，可以理解为在某个方向对应的角度附近，在预设时段内电子设备是否和用户成功进行过语音交互。

在实际场景中，用户很可能在在一定时段内一直使用电子设备，尤其对于具有显示屏的例如智能电视的电子设备来说，用户在看电视时，基本不会频繁移动位置。所以，在预设时段和某个方向对应的预设角度范围内，若电子设备和用户成功进行过语音交互，意味该方向是目标声源方向的可能性较大，反之，该方向是目标声源方向的可能小较小。进一步地，若电子设备和用户成功进行语音交互的频率越多，也意味该方向是目标声源方向的可能性较大，反之则可能性较小。

第三个参数：每个方向与垂直于电子设备的显示屏的方向之间的夹角。

第三个参数比较适用于具有显示屏的电子设备中，垂直于电子设备的显示屏的方向可以理解为电子设备的厚度方向。

在实际场景中，用户观看视频时，都会在电子设备(或显示屏)的前方对着电子设备，以有着较好的观看体验。所以，若某个方向与垂直于电子设备的显示屏的方向之间的夹角越小，意味着用户很可能在对着电子设备看视频，那么该用户有很大可能发出语音指令，因此，该方向是目标声源方向的可能性也较大，反之则可能性较小。换句话说，若某个方向越靠近垂直于显示屏的方向，则该方向为目标声源方向的可能性也较大。

针对第三个参数，换句话说，可以理解为用户是否在针对电子设备使用预设场景时被定义的某个特定方向的附近位置。

应理解，电子设备可以基于上述参数中的一个或两个或三个确定目标声源方向，本申请实施例不做任何限定，以下进行说明。

在一些实施例中，至少一个参数包括第一个参数，即，至少一个参数包括：每个方向在声源方向和至少一种类型的方向中被检测到的频率的总和。示例性地，作为一个原则，可以将在声源方向和至少一种类型的方向中被检测到的频率的总和最大的方向作为目标声源方向。

在另一些实施例中，至少一个参数包括第二个参数，即，至少一个参数包括：在预设时段和对应每个方向的预设角度范围内，电子设备是否和用户成功进行过语音交互。示例性地，作为一个原则，将在预设时段和预设角度范围内电子设备和用户成功进行过语音交互的角度对应的方向确定为目标声源方向。

在另一些实施例中，至少一个参数包括第三个参数，即，至少一个参数包括：每个方向与垂直于电子设备的显示屏的方向之间的夹角。示例性地，作为一个原则，可以将与垂直于电子设备的显示屏的方向之间的夹角最小的方向确定为目标声源方向。

在另一些实施例中，至少一个参数包括任意两个或三个参数，示例性地，针对每个参数，可以基于上述对应的示例中的原则得到一个候选声源方向，将候选声源方向中重复率最高的方向作为目标声源方向。

例如，至少一个参数包括第一个参数和第二个参数，针对第一个参数，将在声源方向和至少一种类型的方向中被检测到的频率的总和最大的方向作为一个候选声源方向，假设该候选声源方向为94.5°，针对第二个参数，将在预设时段和预设角度范围内电子设备和用户成功进行过语音交互的角度对应的方向作为另一个候选声源方向，假设，该候选声源方向为94.5°，那么基于这两个候选声源方向得到的目标声源方向为94.5°。

在另一些实施例中，电子设备可以根据至少一个参数，确定每个方向的置信度，将至少一个方向中数值最大的置信度对应的方向确定为目标声源方向。其中，每个方向的置信度也可以称为每个方向的可靠度，表示该方向为目标声源方向的概率，置信度越大则表示该置信度对应的方向为目标声源方向的可能性越大。

以至少一个参数包括三个参数为例，对通过置信度确定目标声源方向的方式做一说明。应理解，在至少一个参数中包括一个或两个参数的实施例中通过置信度确定目标声源方向的方式与三个参数的实施例类似，可参考下文描述，后续不再赘述。

示例性地，可以按照三个参数的优先级，为每个参数配置一个加权值，通过计算每个方向基于每个参数得到置信度确定目标声源方向。示例性地，可以将至少一个方向中数值最大的置信度对应的方向确定为目标声源方向，

示例性地，三个参数的优先级按照由高到低的顺序依次为：第一个参数的优先级＞第二个参数的优先级＞第三个参数的优先级，对应地，第一个参数的加权值＞第二个参数的加权值＞第三个参数的加权值。

继续以上文所述的4个声源方向和三种类型的方向对应的角度为例，以及，以合并后的4个方向对应的角度(30°、61.5°、94.5°、120°)为例，对基于每个方向的置信度确定目标声源方向做说明。

假设，第一个参数的加权值为0.5，第二个参数的加权值为0.3，第三个参数的加权值为0.2，针对第一个参数，若合并后的每个方向在声源方向和三种类型的方向中被检测到，则每个方向被检测到一次的得分为10分，针对第二个参数，若在预设时段和某个方向对应的预设角度范围内电子设备与用户成功进行过语音交互，则该方向的得分也为10分。针对第三个参数，若某个方向与垂直于显示屏的方向之间的夹角小于一个阈值，则该方向的得分也为10分，例如，该阈值为10°。

其中，4个声源方向，对应的角度分别为30°、60°、95°、120°，第一类方向包括1个方向，对应的角度为93°，第二类方向包括2个方向，对应的角度分别为63°、95°，第三类方向包括1个方向，对应的角度为95°，合并处理得到的4个方向对应的角度：30°、61.5°、94.5°、120°。

在30°中，针对第一种参数，仅在声源方向中被检测到，可以得到1个10分，针对第二种参数和第三种参数，不满足条件，得分为0，置信度为10*0.5＝5。

在61.5°中，针对第一种参数，在声源方向和第二类方向中被检测到，可以得到2个10分，即20分，针对第二种参数，在61.5°对应的方向与电子设备成功进行过一次语音交互，可以得到1个10分，针对第三个参数，不满足条件，得分为0，置信度为20*0.5+10*0.3＝13。

在94.5°中，针对第一种参数，在声源方向和三类方向中被检测到，可以得到4个10分，即40分，针对第二种参数，在94.5°对应的方向与电子设备成功进行过一次语音交互，可以得到1个10分，针对第三个参数，94.5°-90°＝4.5°，4.5°小于10°，满足条件，也可以得到1个10分，因此，置信度为40*0.5+10*0.3+10*0.2＝25。

在10°中，针对第一种参数，仅在第三类方向中被检测到，可以得到1个10分，针对第二种参数和第三种参数，不满足条件，得分为0，置信度为10*0.5＝5。

综上，94.5°的置信度的数值最高，那么，将94.5°对应的方向确定为目标声源方向。

在步骤S340中，通过摄像头140获得在目标声源方向的用户唇部视频。

在确定目标声源方向后，电子设备将摄像头140旋转至目标声源方向，摄像头140在该目标声源方向上拍摄视频，该视频包括目标用户在目标声源方向的用户唇部视频。

在步骤S350中，通过麦克风阵列130获得第二音频信号。

应理解，该第二音频信号是用于指示实际的语音命令的信号。示例性地，假设，整个过程中，目标用户发出的语音指令为“小艺小艺，我想看综艺节目”，那么，第二音频信号可用于指示“我想看综艺节目”的语音指令。

为了提高拾音效果，在一些实施例中，通过麦克风阵列130，基于波束形成技术在目标声源方向上获取第二音频信号。

在步骤S350中，根据第二音频信号和用户唇部视频，通过语音增强模型，获得第三音频信号，语音增强模型包括多个发音和多个唇型的对应关系。

语音增强模型的目的是对音频信号做拾音增强处理，增强目标声源方向的音频信号，抑制或消除其他方向的音频信号，以得到或恢复出较为清晰的音频信号。语音增强模型中融合了音视频的信息，集成了发音和唇型的对应关系，即，一个或多个发音对应一个唇型，第二音频信号作为音频输入，在目标声源方向的唇部信息作为视频输入，语音增强模型可以基于发音和唇型的对应关系和输入的用户唇部视频，对音频信号做增强处理，得到或恢复出较为清晰的第三音频信号，以进行语音识别。相比于仅基于音频信息处理音频信号的方式，本申请实施例的语音增强模型中通过音视频的信息对音频信号做处理，可以得到较为干净的音频信号，大幅提高了拾音增强效果。

示例性地，语音增强模块可以对第二音频信号做降噪处理、消回声残留处理、去混响处理等。

图9是本申请另一实施例提供的信号处理的方法400的示意性流程图，该方法可以由电子设备10的处理单元160执行。

在步骤S410中，对通过麦克风阵列130获得的第一音频信号进行声源定位，获得声源方向信息，该声源方向信息包括至少一个声源方向。其中，该至少一个声源方向包括目标声源方向。

关于步骤S410的具体描述可参考上文关于步骤S310的相关描述。

在步骤S420中，对通过摄像头140获得的第一视频进行处理，获得用户方向信息，该用户方向信息包括与用户相关的至少一种类型的方向。

关于步骤S420的具体描述可参考上文关于步骤S320的相关描述。

在步骤S430中，根据声源方向信息和用户方向信息，确定目标声源方向，该目标声源方向为正在和电子设备进行语音交互的目标用户所在的方向。

关于步骤S430的具体描述可参考上文关于步骤S330的相关描述。

在步骤S440中，通过摄像头140获得在目标声源方向的用户唇部视频。

关于步骤S440的具体描述可参考上文关于步骤S340的相关描述。

在步骤S450中，通过麦克风阵列130获得第二音频信号。

关于步骤S450的具体描述可参考上文关于步骤S350的相关描述。

在步骤S460中，通过指向性麦克风150获得在目标声源方向的第四音频信号。

在电子设备确定目标声源方向后，电子设备可以控制指向性麦克风150旋转至目标声源方向，在目标声源方向上拾取第四音频信号。

在指向性麦克风150设置在摄像头140的实施例中，电子设备可以控制摄像头140和指向性麦克风150一起旋转至目标声源方向。

在步骤S470中，根据第二音频信号、第四音频信号和用户唇部视频，通过语音增强模型，获得第三音频信号。

在该步骤中，将麦克风阵列130拾取到的第二音频信号和指向性麦克风150拾取到的第四音频信号作为语音增强模型的音频输入，将用户唇部视频作为视频输入，通过语音增强模块对输入的音频信号做处理，得到较为清晰的第三音频信号。

由于指向性麦克风150可以对目标声源方向进行无失真地拾音，能够对干扰和混响有一定的抑制作用，以及，指向性麦克风150朝前拾音，对回声也能起到很好的抑制作用。

所以，将通过指向性麦克风150得到的第四音频信号和麦克风阵列130得到的第二音频信号一起作为语音增强模型的音频输入，可以得到或恢复出更为清晰的第三音频信号。

应理解，与上述方法200类似，上述方法300和400的各种实施例中，各过程的序号的大小也并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本申请实施例还提供了一种电子设备，该电子设备可以是图4所示的电子设备，该电子设备包括麦克风阵列130、可旋转的摄像头140和处理器160，处理器160用于：

对通过所述麦克风阵列130获得的第一音频信号进行声源定位，获得声源方向信息；

对通过所述摄像头140获得的第一视频进行处理，获得用户方向信息；

通过所述摄像头140获得在所述目标声源方向的用户唇部视频；

通过所述麦克风阵列130获得第二音频信号；

可选地，所述电子设备还包括指向性麦克风150，所述处理器160还用于：

通过所述指向性麦克风150获得在所述目标声源方向的第四音频信号；以及，

所述处理器160具体用于：

可选地，所述指向性麦克风150与所述摄像头140固定连接。

可选地，所述用户方向信息包括以下至少一种类型的方向：

可选地，所述声源方向信息包括至少一个声源方向，以及，所述处理器160具体用于：

从所述至少一个方向中确定所述目标声源方向。

可选地，所述处理器160具体用于：

其中，所述至少一个参数包括：

可选地，所述处理器160具体用于：

根据所述至少一个参数，确定所述每个方向的置信度；

可选地，所述处理器160具体用于：

通过所述麦克风阵列130，基于波束形成技术在所述目标声源方向上获得所述第二音频信号。

可选地，所述第一音频信号为唤醒信号。

可选地，所述电子设备为智能电视。

应理解，在本申请实施例中，除非另有明确的规定和限定，术语“连接”、“固定连接”等术语应做广义理解。对于本领域的普通技术人员而言，可以根据具体情况理解上述各种术语在本申请实施例中的具体含义。

示例性地，针对“连接”，可以是固定连接、转动连接、柔性连接、移动连接、一体成型、电连接等各种连接方式；可以是直接相连，或，可以是通过中间媒介间接相连，或，可以是两个元件内部的连通或两个元件的相互作用关系。

示例性地，针对“固定连接”，可以是一个元件可以直接或间接固定连接在另一个元件上；固定连接可以包括机械连接、焊接以及粘接等方式，其中，机械连接可以包括铆接、螺栓连接、螺纹连接、键销连接、卡扣连接、锁扣连接、插接等方式，粘接可以包括粘合剂粘接以及溶剂粘接等方式。

还应理解，本申请实施例描述的“平行”或“垂直”，可以理解为“近似平行”或“近似垂直”。

还应理解，术语““长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本实用新型的限制。

需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

在本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“元件的至少部分”是指元件的部分或全部。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请中各个实施例之间相同或相似的部分可以互相参考。在本申请中各个实施例、以及各实施例中的各个实施方式/实施方法/实现方法中，如果没有特殊说明以及逻辑冲突，不同的实施例之间、以及各实施例中的各个实施方式/实施方法/实现方法之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例、以及各实施例中的各个实施方式/实施方法/实现方法中的技术特征根据其内在的逻辑关系可以组合形成新的实施例、实施方式、实施方法、或实现方法。以上所述的本申请实施方式并不构成对本申请保护范围的限定。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种信号处理的方法，其特征在于，应用于电子设备，所述电子设备包括麦克风阵列和摄像头，所述方法包括：

对通过所述麦克风阵列获得的第一音频信号进行声源定位，获得声源方向信息；

对通过所述摄像头获得的第一视频进行处理，获得用户方向信息；

根据所述声源方向信息和所述用户方向信息，确定目标声源方向；

通过所述摄像头获得在所述目标声源方向的用户唇部视频；

通过所述麦克风阵列获得第二音频信号；

根据所述第二音频信号和所述用户唇部视频，通过语音增强模型，获得第三音频信号，所述语音增强模型包括发音和唇型的对应关系。
根据权利要求1所述的方法，其特征在于，所述电子设备还包括指向性麦克风，所述方法还包括：

通过所述指向性麦克风获得在所述目标声源方向的第四音频信号；以及，

根据所述第二音频信号和在所述目标声源方向的用户唇部视频，通过语音增强模型，获得第三音频信号，包括：

根据所述第二音频信号、所述第四音频信号和所述用户唇部视频，通过所述语音增强模块，获得所述第三音频信号。
根据权利要求1或2所述的方法，其特征在于，所述用户方向信息包括以下至少一种类型的方向：

第一类方向，所述第一类方向包括至少一个处于活动状态的唇部所在的方向；

第二类方向，所述第二类方向包括至少一个用户所在的方向；

第三类方向，所述第三类方向包括至少一个正在注视所述电子设备的用户所在的方向。
根据权利要求3所述的方法，其特征在于，所述声源方向信息包括至少一个声源方向，以及，

所述根据所述声源方向信息和所述用户方向信息，确定目标声源方向，包括：

将所述至少一个声源方向和所述至少一种类型的方向合并处理，获得合并后的至少一个方向；

从所述至少一个方向中确定所述目标声源方向。
根据权利要求4所述的方法，其特征在于，所述从所述至少一个方向中确定所述目标声源方向，包括：

根据以下至少一个参数，从所述至少一个方向中确定所述目标声源方向；

其中，所述至少一个参数包括：

所述至少一个方向中每个方向在所述声源方向和所述至少一种类型的方向中被检测到的频率的总和；

在预设时段和所述每个方向对应的预设角度范围内，所述电子设备是否和用户成功进行过语音交互，所述预设时段是当前时间与历史时间之间的时段；

所述每个方向与垂直于所述电子设备的显示屏的方向之间的夹角。
根据权利要求5所述的方法，其特征在于，所述根据以下至少一个参数，从所述至少一个方向中确定所述目标声源方向，包括：

根据所述至少一个参数，确定所述每个方向的置信度；

将所述至少一个方向中数值最大的置信度对应的方向确定为所述目标声源方向。
根据权利要求1至6中任一项所述的方法，其特征在于，所述通过所述麦克风阵列获得第二音频信号，包括：

通过所述麦克风阵列，基于波束形成技术在所述目标声源方向上获得所述第二音频信号。
根据权利要求1至7中任一项所述的方法，其特征在于，所述第一音频信号为唤醒信号。
一种电子设备，其特征在于，包括麦克风阵列、摄像头和处理器，所述处理器用于：

对通过所述麦克风阵列获得的第一音频信号进行声源定位，获得声源方向信息；

对通过所述摄像头获得的第一视频进行处理，获得用户方向信息；

根据所述声源方向信息和所述用户方向信息，确定目标声源方向；

通过所述摄像头获得在所述目标声源方向的用户唇部视频；

通过所述麦克风阵列获得第二音频信号；

根据所述第二音频信号和所述用户唇部视频，通过语音增强模型，获得第三音频信号，所述语音增强模型包括发音和唇型的对应关系。
根据权利要求9所述的电子设备，其特征在于，所述电子设备还包括指向性麦克风，所述处理器还用于：

通过所述指向性麦克风获得在所述目标声源方向的第四音频信号；以及，

所述处理器具体用于：

根据所述第二音频信号、所述第四音频信号和所述用户唇部视频，通过所述语音增强模块，获得所述第三音频信号。
根据权利要求10所述的电子设备，其特征在于，所述指向性麦克风与所述摄像头固定连接。
根据权利要求9至11中任一项所述的电子设备，其特征在于，所述用户方向信息包括以下至少一种类型的方向：

第一类方向，所述第一类方向包括至少一个处于活动状态的唇部所在的方向；

第二类方向，所述第二类方向包括至少一个用户所在的方向；

第三类方向，所述第三类方向包括至少一个正在注视所述电子设备的用户所在的方向。
根据权利要求12所述的电子设备，其特征在于，所述声源方向信息包括至少一个声源方向，以及，

所述处理器具体用于：

将所述至少一个声源方向和所述至少一种类型的方向合并处理，获得合并后的至少一个方向；

从所述至少一个方向中确定所述目标声源方向。
根据权利要求13所述的电子设备，其特征在于，所述处理器具体用于：

根据以下至少一个参数，从所述至少一个方向中确定所述目标声源方向；

其中，所述至少一个参数包括：

所述至少一个方向中每个方向在所述声源方向和所述至少一种类型的方向中被检测到的频率的总和；

在预设时段和所述每个方向对应的预设角度范围内，所述电子设备是否和用户成功进行过语音交互，所述预设时段是当前时间与历史时间之间的时段；

所述每个方向与垂直于所述电子设备的显示屏的方向之间的夹角。
根据权利要求14所述的电子设备，其特征在于，所述处理器具体用于：

根据所述至少一个参数，确定所述每个方向的置信度；

将所述至少一个方向中数值最大的置信度对应的方向确定为所述目标声源方向。
根据权利要求9至15中任一项所述的电子设备，其特征在于，所述处理器具体用于：

通过所述麦克风阵列，基于波束形成技术在所述目标声源方向上获得所述第二音频信号。
根据权利要求9至16中任一项所述的电子设备，其特征在于，所述第一音频信号为唤醒信号。
根据权利要求9至17中任一项所述的电子设备，其特征在于，所述电子设备为智能电视。
一种计算机存储介质，其特征在于，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序或指令，当所述程序或指令被所述处理器执行时，使得所述装置执行如权利要求1至8中任一项所述的方法。
一种包含指令的计算机程序产品，其特征在于，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行如权利要求1至8中任一项所述的方法。