WO2020029673A1

WO2020029673A1 - 语音处理方法、装置、存储介质及电子设备

Info

Publication number: WO2020029673A1
Application number: PCT/CN2019/090417
Authority: WO
Inventors: 陈岩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-08-08
Filing date: 2019-06-06
Publication date: 2020-02-13
Anticipated expiration: 2021-02-08
Also published as: EP3826008A1; CN110827824B; EP3826008A4; CN110827824A; US20210125616A1

Abstract

一种语音处理方法、装置、存储介质及电子设备，所述语音处理方法包括：获取用户的语音信息；根据电子设备的显示屏的显示状态获取预设关键词集合；判断所述预设关键词集合中是否包括与第一关键词相同的第二关键词；若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令。

Description

语音处理方法、装置、存储介质及电子设备

本申请要求于2018年08月08日提交中国专利局、申请号为201810898885.X、发明名称为“语音处理方法、装置、存储介质及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音处理方法、装置、存储介质及电子设备。

背景技术

随着电子技术的快速发展，诸如智能手机等电子设备的功能越来越丰富。例如，语音处理功能可以支持用户通过语音的方式实现对电子设备的操作。所以语音处理功能实现了用户更好的语音交互体验。

发明内容

本申请实施例提供一种语音处理方法、装置、存储介质及电子设备，可以提高电子设备的唤醒率。

第一方面，本申请实施例提供一种语音处理方法，包括：

获取用户的语音信息，所述语音信息包括第一关键词；

根据电子设备的显示屏的显示状态获取预设关键词集合，所述显示状态包括锁定状态和解锁状态，所述预设关键词集合包括至少一个第二关键词；

判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词；

若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令。

第二方面，本申请实施例还提供一种语音处理装置，包括：

第一获取模块，用于获取用户的语音信息，所述语音信息包括第一关键词；

第二获取模块，用于根据电子设备的显示屏的显示状态获取预设关键词集合，所述显示状态包括锁定状态和解锁状态，所述预设关键词集合包括至少一个第二关键词；

判断模块，用于判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词；

执行模块，用于若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令。

第三方面，本申请实施例还提供一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行以下步骤：

获取用户的语音信息，所述语音信息包括第一关键词；

第四方面，本申请实施例还提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行以下步骤：

获取用户的语音信息，所述语音信息包括第一关键词；

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为用户对电子设备进行语音控制的示意图。

图2为本申请实施例提供的语音处理方法的流程示意图。

图3为本申请实施例提供的语音处理方法的另一流程示意图。

图4为本申请实施例提供的语音处理方法的又一流程示意图。

图5为本申请实施例提供的语音处理方法的再一流程示意图。

图6为本申请实施例提供的语音处理装置的结构示意图。

图7为本申请实施例提供的语音处理装置的另一结构示意图。

图8为本申请实施例提供的电子设备的结构示意图。

图9为本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

本申请的说明书和权利要求书以及上述附图中的术语“第一”、“第二”、“第三”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应当理解，这样描述的对象在适当情况下可以互换。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤的过程、方法或包含了一系列模块的装置、电子设备、系统不必限于清楚地列出的那些步骤或模块，还可以包括没有清楚地列出的步骤或模块，也可以包括对于这些过程、方法、装置、电子设备或系统固有的其它步骤或模块。

参考图1，图1为用户对电子设备进行语音控制的示意图。

其中，用户输出一段语音，电子设备采集用户的语音信息。随后，电子设备将采集到的语音信息与电子设备中存储的语音识别模型进行比较。当语音信息与语音识别模型吻合时，电子设备从语音信息中识别出控制指令。随后，电子设备执行与所述控制指令对应的操作，例如亮屏、开启应用、退出应用、锁屏等操作，从而实现用户对电子设备的语音控制。

本申请实施例提供一种语音处理方法，所述语音处理方法可以应用于电子设备中。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(Augmented Reality，增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算机等设备。

本申请实施例提供一种语音处理方法，包括：

获取用户的语音信息，所述语音信息包括第一关键词；

在一些实施例中，所述根据电子设备的显示屏的显示状态获取预设关键词集合的步骤包括：

若所述显示屏的显示状态为锁定状态，则获取第一预设关键词集合；

若所述显示屏的显示状态为解锁状态，则确定当前正在运行的前台应用；

根据所述前台应用以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用与预设关键词集合之间的对应关系。

在一些实施例中，所述根据所述前台应用以及预设对应关系获取第二预设关键词集合的步骤包括：

确定所述前台应用当前显示的应用界面；

根据所述前台应用、所述应用界面以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用、应用界面与预设关键词集合之间的对应关系。

获取所述电子设备当前所处的地理位置信息；

根据所述前台应用、所述地理位置信息以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用、地理位置信息与预设关键词集合之间的对应关系。

在一些实施例中，所述第一关键词包括第一子关键词和第二子关键词；

所述判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词的步骤包括：

判断所述预设关键词集合中是否包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词；

所述若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令的步骤，包括：

若所述关键词集合中包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词，则执行与所述第一关键词对应的操作指令。

在一些实施例中，所述获取用户的语音信息的步骤之前，还包括：

获取用户的训练语音信息；

对所述训练语音信息进行训练，以得到预设语音识别模型。

在一些实施例中，所述根据电子设备的显示屏的显示状态获取预设关键词集合的步骤之前，还包括：

从所述语音信息中提取用户的声纹特征；

将所述声纹特征与所述预设语音识别模型进行匹配；

当所述声纹特征与所述预设语音识别模型匹配成功时，根据电子设备的显示屏的显示状态获取预设关键词集合。

如图2所示，所述语音处理方法，可以包括以下步骤：

110，获取用户的语音信息，所述语音信息包括第一关键词。

当电子设备开启语音处理功能后，电子设备获取用户的语音信息。例如，电子设备中可以设置有麦克风，电子设备通过麦克风采集用户的语音信息。

其中，所述语音信息包括第一关键词。服务器通过对用户语音信息中的第一关键词执行对电子设备的操作指令。例如，所述语音信息可以包括“我想要点亮屏幕”、“请开启微信”、“我想要退出淘宝”等等操作指令。所述第一关键词就为“点亮屏幕”、“开启微信”、“退出淘宝”等等。所以语音信息可以包括第一关键词也可以为第一关键词。

120，根据电子设备的显示屏的显示状态获取预设关键词集合，所述显示状态包括锁定状态和解锁状态，所述预设关键词集合包括至少一个第二关键词。

首先，确定电子设备的显示屏的显示状态，所述显示状态包括锁定状态和解锁状态。其中锁定状态包括熄屏状态和锁屏状态。在锁定状态下，需要用户的身份验证信息进行验证才能打开电子设备，然后才能在电子设备上进行操作。所述身份验证信息包括：用户输入的密码信息、用户的指纹特征、用户的脸部特征、用户的声纹特征等等。

在熄屏状态时，电子设备的显示屏不显示电子设备的任何界面，也就是说正常关闭背光熄灭屏幕节省电源的状态。例如，当电子设备已经确定所述电子设备的显示状态在熄屏状态下时，服务器获取在熄屏状态下对应的第一预设关键词集合。用户发出“打开电子设备的主界面”的语音信息之后，判断第一预设关键词集合中是否包括与“打开电子设备的主界面”相同的第二关键词，其中第二关键词为“打开电子设备的主界面”。

在锁屏状态时，电子设备被点亮屏幕并且显示了锁屏的界面，但是电子设备不能进行任何操作，需要对用户的身份验证信息进行验证并通过后才能打开锁屏。所述身份验证信息包括：用户输入的密码信息、用户的指纹特征、用户的脸部特征、用户的声纹特征等等。例如，用户点亮屏幕，但是电子设备在锁屏状态下无法进行操作。当服务器确定电子设备在锁屏状态下时，电子设备获取内部存储的第一预设关键词。然后用户发送语音信息“打开锁屏”，判断第一预设关键词中是否包括与“打开锁屏”的相同第二关键词，其中第二关键词为“打开锁屏”。

在解锁状态时，电子设备的屏幕没有被锁定可以正常使用，例如，电子设备解锁之后，可以进行打电话、发短信、打开应用等等。如果解锁电子设备而没有进行任何操作时，电子设备获取存储在内部的第三预设关键词集合，然后对电子设备进行操作。例如，在解锁状态下，电子设备没有进行任何操作，用户发送“打开电话簿”的语音信息。电子设备内部获取存储在内部的第三预设关键词集合，判断所述第三预设关键词集合中是否包括与“打开电话簿”相同的第二关键词，其中第二关键词为“打开电话簿”。

130，判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词。

第一关键词包括在用户的语音信息中。判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词。例如，用户发出语音信息“我想要拍照”，那么第一关键词就是“拍照”。服务器识别电子设备打开了XX相机的应用，那么根据所述应用，随后加载电子设备内部对应的预设关键词集合。判断预设关键词集合中是否包括与第一关键词“拍照”相同的第二关键词“拍照”。

140，若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令。

如果第一关键词与预设关键词集合中的第二关键词相同，就执行第一关键词对应的操作指令。例如，用户发出语音信息“我想要拍照”，那么第一关键词就是“拍照”。服务器识别电子设备打开了XX相机的应用，那么根据所述应用，随后加载电子设备内部对应的预设关键词集合。判断预设关键词集合中是否包括与第一关键词“拍照”相同的第二关键词。如果预设关键词集合中有“拍照”这个关键词，也就是第二关键词。电子设备执行“拍照”操作指令，在XX相机中执行拍照。

需要说明的是，所述语音信息可以为用户发出的第一关键词，也可以是包含第一关键词。但是所述步骤都需要根据第一关键词完成操作指令。

在一些实施例中，如图3所示，步骤110，获取用户的语音信息之前，还包括以下步骤：

151，获取用户的训练语音信息；

152，对所述训练语音信息进行训练，以得到预设语音识别模型；

获取用户的训练语音信息，所述语音信息包含多个关键词。对语音信息进行训练，得到预设语音识别模型。所述语音信息也可以只为关键词。当用户发出语音信息时，识别用户的语音信息，得到语音信息中的第一关键词。例如，用户发送语音信息“我想要拍照”和“打开XX视频”。那么可以对“我想要拍照”和“打开XX视频”进行训练，得到预设语音识别模型。

预设语音识别模型不仅可以识别语音信息中的关键词，也可以识别出用户的声调、语速、说话的气息等等声纹特征。例如，用户具有明亮的嗓音并发出“我想要拍照”的语音信息，那么将用户的明亮的嗓音进行训练和“我想要拍照”的语音信息进行训练，得到预设语音识别模型。

110，获取用户的语音信息，所述语音信息包括第一关键词，其中所述第一关键词包括第一子关键词和第二子关键词。

例如，用户发出语音信息“进入全景模型进行拍照”，那么第一关键词就是“进入全景模型进行拍照”。第一关键词生成的两个操作指令中，一个是“进入全景模型”，另一个是“拍照”。所以说第一关键词包括的第一子关键词为“进入全景模型”以及第二子关键词为“拍照”。

再例如用户发出语音信息“打开锁屏拍照”，那么第一关键词就是“打开锁屏拍照”。可以看出第一关键词出现两个操作指令，一个是“打开锁屏”，另一个是“拍照”。所以说第一关键词包括第一子关键词“打开锁屏”以及第二子关键词“拍照”。

在一些实施例中，如图3所示，步骤120，获取预设关键词集合之前，还包括以下步骤：

161，从所述语音信息中提取用户的声纹特征，将声纹特征与预设语音识别模型进行匹配；

162，当声纹特征与所述预设语音识别模型匹配成功时，根据电子设备的显示屏的显示状态获取预设关键词集合；

提取用户的声纹特征，所述声纹特征包括：用户发出的语调、用户声音的气息、用户的语速等等。当声纹特征能够与预设语音识别模型相匹配，那么就可以获得预设关键词集合。例如，用户发出语音信息“拍照”，服务器检测用户的声音为明亮的声调。在预设语音识别模型中存储有用户明亮的声调，那么用户发出的语音声调与预设语音识别模型中存储的语音声调相同，那么就可以直接获取预设关键词集合。

若声纹特征与预设语音识别模型不匹配时，无法获取预设关键词集合。例如，用户的朋友发出“拍照”的语音信息，但是用户的朋友具有低沉的声调。服务器在预设语音识别模型中，没有检测到所述低沉的声调。那么即使说出了“拍照”并且在预设语音识别模型中包括所述“拍照”这一关键词，也无法使电子设备执行操作。综上所述，只有声纹特征与预设语音识别模型中存储的声纹特征匹配时，才可以获取预设关键词集合。如果只是语音信息匹配而声纹特征不匹配，是不能获取预设关键词集合。这样便大大加强了电子设备的安全性，从而保护用户的私密信息等等。

当所述声纹特征与所述预设语音识别模型匹配成功时，根据电子设备的显示屏的显示状态获取预设关键词集合。首先，确定电子设备的显示屏的显示状态，所述显示状态包括锁定状态和解锁状态。其中锁定状态包括熄屏状态和锁屏状态。在锁定状态下，需要用户的身份验证信息进行验证才能打开电子设备，然后才能在电子设备上进行操作。所述身份验证信息包括：用户输入的密码信息、用户的指纹特征、用户的脸部特征、用户的声纹特征等等。

在一些实施例中，如图3所示，步骤120，获取预设关键词集合，所述预设关键词集合包括至少一个第二关键词，包括以下步骤：

121，若所述显示屏的显示状态为锁定状态，则获取第一预设关键词集合；

122，若所述显示屏的显示状态为解锁状态，则确定当前正在运行的前台应用；

123，根据所述前台应用以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用与预设关键词集合之间的对应关系。

在解锁状态时，用户打开了电子设备中的某应用。服务器就会先确定当前正在运行的前台应用，然后根据所述前台应用以及预设对应关系获取第二预设关键词集合。例如，电子设备的前台应用包括：XX相机、XX地图、XX视频等等，每个应用对应一个固定的第二预设关键词集合。当检测到电子设备打开了XX相机，从电子设备内部加载对应的第二预设关键词集合，以执行在XX相机应用中的操作指令。或者当检测电子设备打开了XX地图，从电子设备内部加载对应的第二预设关键词集合，以执行在XX地图应用中的操作指令等等。

例如，所述预设对应关系可以为如表1所示的对应关系：

表1

应用1

预设关键词集合1

应用2	预设关键词集合2
……	……

由表1所示，可以清楚的了解应用与预设关键词集合之间的对应关系。

在一些实施例中，如图4所示，123，根据所述前台应用以及预设对应关系获取第二预设关键词集合，包括以下步骤：

1231，确定所述前台应用当前显示的应用界面；

1232，根据所述前台应用、所述应用界面以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用、应用界面与预设关键词集合之间的对应关系。

在电子设备中，打开应用不仅存在主界面，还存在个人信息等界面。例如，社交软件包括：输入文字界面、通讯录界面、视频通话界面等等。那么输入文字界面对应一个预设关键词集合，通讯录对应一个预设关键词集合等等。再例如、XX购物软件包括：支付界面、浏览界面、购物车界面等等。支付界面对应一个预设关键词集合，浏览界面对应一个预设关键词集合等等。所述预设对应关系可以为表2所示的对应关系：

表2

在一些实施例中，如图5所示，123，根据所述前台应用以及预设对应关系获取第二预设关键词集合，包括以下步骤：

1233，获取所述电子设备当前所处的地理位置信息；

1234，根据所述前台应用、所述地理位置信息以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用、地理位置信息与预设关键词集合之间的对应关系。

在打开电子设备上的应用时，可以获取所述电子设备当前所处的地理位置信息。所述地理位置可以根据GPS(GlobalPositioning System，全球定位系统)定位识别。例如，服务器识别电子设备当前所处的地理位置包括：图书馆、办公室、超市等等。并且图书馆对应一个预设关键词集合，办公室对应一个预设关键词集合等等。所述对应预设关系可以为如表3所示的对应关系：

表3

在一些实施例中，如图3所示，步骤130，判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词，包括以下步骤：

131，判断所述预设关键词集合中是否包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词。

服务器获取预设关键词集合之后，将语音信息中的第一子关键词和第二子关键词与预设关键词集合比较，以根据比较结果执行下一步骤。

例如，用户发送语音信息“进入全景模式进行拍照”，那么第一子关键词为“进入全景模式”，第二子关键词为“拍照”。判断预设关键词集合中是否存在第三子关键词为“进入全景模式”和第四子关键词为“拍照”。这里第一子关键词也可以为“拍照”，第二子关键词可以为“进入全景模式”。以及第三子关键词为“拍照”，第四子关键词为“进入全景模式”。

在一些实施例中，如图3所示，步骤140，若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令包括以下步骤：

141，若所述预设关键词集合中包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词，则执行与所述第一关键词对应的操作指令。

根据步骤131的判断方法，若所述预设关键词集合中包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词，则执行与所述第一关键词对应的操作指令。

例如，用户发送语音信息“进入全景模式进行拍照”，那么第一子关键词为“进入全景模式”，第二子关键词为“拍照”。判断预设关键词集合中是否存在第三子关键词为“进入全景模式”和第四子关键词为“拍照”。这里第一子关键词也可以为“拍照”，第二子关键词可以为“进入全景模式”。以及第三子关键词为“拍照”，第四子关键词为“进入全景模式”。可以看出第一子关键词“进入全景模式”和第三子关键词“进入全景模式”相同，第二子关键词“拍照”与第四子关键词“拍照”相同。或者第一子关键词“拍照”和第三子关键词“拍照”相同，第二子关键词“进入全景模式”与第四子关键词“进入全景模式”相同。那么服务器执行“进入全景模型进行拍照”的操作指令。

具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

由上可知，本申请实施例提供的语音处理方法，包括：

获取用户的语音信息；根据电子设备的显示屏的显示状态获取预设关键词集合，所述预设关键词集合包括至少一个第二关键词；判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词；若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令。所述语音处理方法中，电子设备根据显示屏的显示状态获取预设关键词集合，使电子设备支持在显示屏的不同显示状态下获取对应的预设关键词集合。然后，电子设备内部判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词。因为预设关键词集合对应的是电子设备显示屏的不同显示状态，并且若所述第一关键词与所述预设关键词集合中的第二关键词相同，那么电子设备一定会在对应的显示状态下进行语音处理。所以所述语音处理方法提高了电子设备的唤醒率。

本申请实施例还提供一种语音处理装置，所述语音处理装置可以集成在电子设备中。

本申请实施例还提供一种语音处理装置，包括：

在一些实施例中，所述第二获取模块用于：

在一些实施例中，根据所述前台应用以及预设对应关系获取第二预设关键词集合时，所述第二获取模块用于：

确定所述前台应用当前显示的应用界面；

获取所述电子设备当前所处的地理位置信息；

所述判断模块用于：判断所述预设关键词集合中是否包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词；

所述执行模块用于：若所述关键词集合中包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词，则执行与所述第一关键词对应的操作指令。

在一些实施例中，所述语音处理装置还包括训练模块，所述训练模块用于：

获取用户的训练语音信息；

对所述训练语音信息进行训练，以得到预设语音识别模型。

在一些实施例中，所述语音处理装置还包括匹配模块，所述匹配模块用于：

从所述语音信息中提取用户的声纹特征；

将所述声纹特征与所述预设语音识别模型进行匹配；

所述第二获取模块用于：

如图6所示，语音处理装置200可以包括：第一获取模块201、第二获取模块202、判断模块203和执行模块204。

第一获取模块201，用于获取用户的语音信息，所述语音信息包括第一关键词。

其中，所述语音信息包括第一关键词。服务器通过对用户语音信息中的第一关键词执行对电子设备的操作指令。例如，所述语音信息可以包括“我想要点亮屏幕”、“请开启微信”、“我想要退出淘宝”等等操作指令。所述第一关键词就为“点亮屏幕”、“开启微信”、“退出淘宝”等等。

第二获取模块202，用于根据电子设备的显示屏的显示状态获取预设关键词集合，所述显示状态包括锁定状态和解锁状态，所述预设关键词集合包括至少一个第二关键词；

判断模块203，用于判断预设关键词集合是否包括与所述第一关键词相同的第二关键词。

第一关键词包括在用户的语音信息中。判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词。例如用户发出语音信息“我想要拍照”，那么第一关键词就是“拍照”。服务器识别电子设备打开了XX相机的应用，那么根据所述应用，随后加载电子设备内部的预设关键词集合。判断预设关键词集合中是否包括与第一关键词“拍照”相同的第二关键词“拍照”。

执行模块204，用于若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令。

如果第一关键词与预设关键词集合中的第二关键词相同，就执行第一关键词对应的操作指令。例如用户发出语音信息“我想要拍照”，那么第一关键词就是“拍照”。服务器识别电子设备打开了XX相机的应用，那么根据所述应用，随后加载电子设备内部的预设关键词集合。判断预设关键词集合中是否包括与第一关键词“拍照”相同的第二关键词。如果预设关键词集合中有“拍照”这个关键词，也就是第二关键词。电子设备执行“拍照”的操作指令，在XX相机中执行拍照。

在一些实施例中，如图7所示获取用户的语音信息之前，还包括训练模块205用于执行以下步骤：

获取用户的训练语音信息；

对所述训练语音信息进行训练，以得到预设语音识别模型。

预设语音识别模型不仅可以识别语音信息中的关键词，也可以识别出用户的声调、语速、说话的气息等等声纹特征。例如，用户具有明亮的嗓音并发送“我想要拍照”，那么将用户的明亮的嗓音和“我想要拍照”进行训练，得到预设语音识别模型。

第一获取模块201，用于获取用户的语音信息，所述语音信息包括第一关键词，其中所述第一关键词包括第一子关键词和第二子关键词。

例如用户发出语音信息“进入全景模型进行拍照”，那么第一关键词就是“进入全景模型进行拍照”。第一关键词生成的两个操作指令中，一个是“进入全景模型”，另一个是“拍照”。所以说第一关键词包括的第一子关键词为“进入全景模型”以及第二子关键词为“拍照”。

在一些实施例中，如图7所示获取预设关键词集合之前，匹配模块206用于执行以下步骤：

从语音信息中提取用户的声纹特征，将声纹特征与预设语音识别模型进行匹配；

当声纹特征与所述预设语音识别模型匹配成功时，根据电子设备的显示屏的显示状态获取预设关键词集合。

在一些实施例中，获取预设关键词集合包括以下步骤：

在解锁状态时，用户打开了电子设备中的某应用。服务器就会先确定当前正在运行的前台应用，然后根据所述前台应用以及预设对应关系获取第二预设关键词集合。例如电子设备的前台应用包括：XX相机、XX地图、XX视频等等，每个应用对应一个固定的第二预设关键词集合。当检测到电子设备打开了XX相机，从电子设备内部加载对应的第二预设关键词集合，以执行在XX相机应用中的操作指令。或者当检测电子设备打开了XX地图，从电子设备内部加载对应的第二预设关键词集合，以执行在XX地图应用中的操作指令等等。

在一些实施例中，如图6所示根据所述前台应用以及预设对应关系获取第二预设关键词集合，第二获取模块202包括以下步骤：

确定所述前台应用当前显示的应用界面；

在电子设备中，打开应用不仅存在主界面，还存在个人信息等界面。例如，社交软件包括：输入文字界面、通讯录界面、视频通话界面等等。那么输入文字界面对应一个预设关键词集合，通讯录对应一个预设关键词集合等等。再例如、XX购物软件包括：支付界面、浏览界面、购物车界面等等。支付界面对应一个预设关键词集合，浏览界面对应一个预设关键词集合等等。

在一些实施例中，如图7所示根据所述前台应用以及预设对应关系获取第二预设关键词集合，第二获取模块202包括以下步骤：

获取所述电子设备当前所处的地理位置信息；

在打开电子设备上的应用时，可以获取所述电子设备当前所处的地理位置信息。所述地理位置可以根据GPS(GlobalPositioning System，全球定位系统)定位识别。例如，服务器识别电子设备当前所处的地理位置包括：图书馆、办公室、超市等等。并且图书馆对应一个预设关键词集合，办公室对应一个预设关键词集合等等

在一些实施例中，判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词时，判断模块203用于执行以下步骤：

在一些实施例中，若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令时，执行模块204用于执行以下步骤：

若所述预设关键词集合中包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词，则执行与所述第一关键词对应的操作指令。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现。

由上可知，本申请实施例提供的语音处理装置200，通过第一获取模块201获取用户的语音信息。第二获取模块202，根据电子设备的显示屏的显示状态获取预设关键词集合，所述预设关键词集合包括至少一个第二关键词；判断模块203所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词；执行模块204，用于若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令。所述语音处理处理装置200中，电子设备根据显示屏的显示状态获取预设关键词集合，使电子设备支持在显示屏的不同显示状态下获取第二获取模块202。然后判断模块203，判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词。因为预设关键词集合对应的是电子设备显示屏的不同显示状态，并且若所述第一关键词与所述预设关键词集合中的第二关键词相同，那么电子设备一定会在对应的显示状态下进行语音处理。所以所述语音处理方法提高了电子设备的唤醒率。

本申请实施例还提供一种电子设备。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(Augmented Reality，增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。

如图8所示，电子设备300包括处理器301和存储器302。其中，处理器301与存储器302电性连接。

处理器301是电子设备300的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或调用存储在存储器302内的计算机程序，以及调用存储在存储器302内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

在本实施例中，电子设备300中的处理器301会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器302中，并由处理器301来运行存储在存储器302中的计算机程序，从而实现各种功能：

获取用户的语音信息，所述语音信息包括第一关键词；

在一些实施例中，获取用户的语音信息，所述语音信息包括第一关键词之前，处理器301执行以下步骤：

获取用户的训练语音信息；

对所述训练语音信息进行训练，以得到预设语音识别模型。

在一些实施例中，获取预设关键词集合，所述预设关键词集合包括至少一个第二关键词之前，处理器301执行以下步骤：

从所述语音信息中提取用户的声纹特征；

将所述声纹特征与预设语音识别模型进行匹配；

在一些实施例中，根据电子设备的显示屏的显示状态获取预设关键词集合时，处理器301执行以下步骤：

在一些实施例中，根据所述前台应用以及预设对应关系获取第二预设关键词集合时，处理器301执行以下步骤：

确定所述前台应用当前显示的应用界面；

获取所述电子设备当前所处的地理位置信息；

在一些实施例中，所述第一关键词包括第一子关键词和第二子关键词，判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词时，处理器301执行以下步骤：

若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令时，处理器301执行以下步骤：

存储器302可用于存储计算机程序和数据。存储器302存储的计算机程序中包含有可在处理器中执行的指令。计算机程序可以组成各种功能模块。处理器301通过调用存储在存储器302的计算机程序，从而执行各种功能应用以及数据处理。

在一些实施例中，如图8所示，电子设备300还包括：麦克风303、音频电路304以及电源305。其中，处理器301分别与麦克风303、音频电路304以及电源305电性连接。

麦克风303用于采集用户的语音信息。在本申请实施例中，所述麦克风303用于多次采集用户的语音信息。

音频电路304可以通过麦克风、扬声器、传声器等提供用户与电子设备之间的音频接口。

电源305用于给电子设备300的各个部件供电。在一些实施例中，电源305可以通过电源管理系统与处理器301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图9中未示出，电子设备300还可以包括显示屏、摄像头、射频电路、蓝牙模块等，在此不再赘述。

由上可知，本申请实施例提供了一种电子设备，所述电子设备执行以下步骤：获取用户的语音信息；根据电子设备的显示屏的显示状态获取预设关键词集合，所述预设关键词集合包括至少一个第二关键词；判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词；若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令。所述语音处理方法中，电子设备根据显示屏的显示状态获取预设关键词集合，使电子设备支持在显示屏的不同显示状态下获取对应的预设关键词集合。然后，电子设备内部判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词。因为预设关键词集合对应的是电子设备显示屏的不同显示状态，并且若所述第一关键词与所述预设关键词集合中的第二关键词相同，那么电子设备一定会在对应的显示状态下进行语音处理。所以所述语音处理方法提高了电子设备的唤醒率。

本申请实施例还提供一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，所述计算机执行上述任一实施例所述的语音处理方法。

例如，在一些实施例中，当所述计算机程序在计算机上运行时，所述计算机执行以下步骤：

获取用户的语音信息，所述语音信息包括第一关键词；

需要说明的是，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成，所述计算机程序可以存储于计算机可读存储介质中，所述存储介质可以包括但不限于：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

以上对本申请实施例所提供的语音处理方法、装置、存储介质及电子设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种语音处理方法，包括：

获取用户的语音信息，所述语音信息包括第一关键词；

根据电子设备的显示屏的显示状态获取预设关键词集合，所述显示状态包括锁定状态和解锁状态，所述预设关键词集合包括至少一个第二关键词；

判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词；

若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令。
根据权利要求1所述的语音处理方法，其中，所述根据电子设备的显示屏的显示状态获取预设关键词集合的步骤包括：

若所述显示屏的显示状态为锁定状态，则获取第一预设关键词集合；

若所述显示屏的显示状态为解锁状态，则确定当前正在运行的前台应用；

根据所述前台应用以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用与预设关键词集合之间的对应关系。
根据权利要求2所述的语音处理方法，其中，所述根据所述前台应用以及预设对应关系获取第二预设关键词集合的步骤包括：

确定所述前台应用当前显示的应用界面；

根据所述前台应用、所述应用界面以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用、应用界面与预设关键词集合之间的对应关系。
根据权利要求2所述的语音处理方法，其中，所述根据所述前台应用以及预设对应关系获取第二预设关键词集合的步骤包括：

获取所述电子设备当前所处的地理位置信息；

根据所述前台应用、所述地理位置信息以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用、地理位置信息与预设关键词集合之间的对应关系。
根据权利要求1所述的语音处理方法，其中，所述第一关键词包括第一子关键词和第二子关键词；

所述判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词的步骤包括：

判断所述预设关键词集合中是否包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词；

所述若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令的步骤，包括：

若所述关键词集合中包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词，则执行与所述第一关键词对应的操作指令。
根据权利要求1所述的语音处理方法，其中，所述获取用户的语音信息的步骤之前，还包括：

获取用户的训练语音信息；

对所述训练语音信息进行训练，以得到预设语音识别模型。
根据权利要求6所述的语音处理方法，其中，所述根据电子设备的显示屏的显示状态获取预设关键词集合的步骤之前，还包括：

从所述语音信息中提取用户的声纹特征；

将所述声纹特征与所述预设语音识别模型进行匹配；

当所述声纹特征与所述预设语音识别模型匹配成功时，根据电子设备的显示屏的显示状态获取预设关键词集合。
一种语音处理装置，包括：

第一获取模块，用于获取用户的语音信息，所述语音信息包括第一关键词；

第二获取模块，用于根据电子设备的显示屏的显示状态获取预设关键词集合，所述显示状态包括锁定状态和解锁状态，所述预设关键词集合包括至少一个第二关键词；

判断模块，用于判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词；

执行模块，用于若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令。
根据权利要求8所述的语音处理装置，其中，所述第二获取模块用于：

若所述显示屏的显示状态为锁定状态，则获取第一预设关键词集合；

若所述显示屏的显示状态为解锁状态，则确定当前正在运行的前台应用；

根据所述前台应用以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用与预设关键词集合之间的对应关系。
根据权利要求9所述的语音处理装置，其中，根据所述前台应用以及预设对应关系获取第二预设关键词集合时，所述第二获取模块用于：

确定所述前台应用当前显示的应用界面；

根据所述前台应用、所述应用界面以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用、应用界面与预设关键词集合之间的对应关系。
根据权利要求9所述的语音处理装置，其中，根据所述前台应用以及预设对应关系获取第二预设关键词集合时，所述第二获取模块用于：

获取所述电子设备当前所处的地理位置信息；

根据所述前台应用、所述地理位置信息以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用、地理位置信息与预设关键词集合之间的对应关系。
根据权利要求8所述的语音处理装置，其中，所述第一关键词包括第一子关键词和第二子关键词；

所述判断模块用于：判断所述预设关键词集合中是否包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词；

所述执行模块用于：若所述关键词集合中包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词，则执行与所述第一关键词对应的操作指令。
一种存储介质，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行以下步骤：

获取用户的语音信息，所述语音信息包括第一关键词；

根据电子设备的显示屏的显示状态获取预设关键词集合，所述显示状态包括锁定状态和解锁状态，所述预设关键词集合包括至少一个第二关键词；

判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词；

若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令。
一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行以下步骤：

获取用户的语音信息，所述语音信息包括第一关键词；

根据电子设备的显示屏的显示状态获取预设关键词集合，所述显示状态包括锁定状态和解锁状态，所述预设关键词集合包括至少一个第二关键词；

判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词；

若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令。
根据权利要求14所述的电子设备，其中，根据电子设备的显示屏的显示状态获取预设关键词集合时，所述处理器用于执行以下步骤：

若所述显示屏的显示状态为锁定状态，则获取第一预设关键词集合；

若所述显示屏的显示状态为解锁状态，则确定当前正在运行的前台应用；

根据所述前台应用以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用与预设关键词集合之间的对应关系。
根据权利要求15所述的电子设备，其中，根据所述前台应用以及预设对应关系获取第二预设关键词集合时，所述处理器用于执行以下步骤：

确定所述前台应用当前显示的应用界面；

根据所述前台应用、所述应用界面以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用、应用界面与预设关键词集合之间的对应关系。
根据权利要求15所述的电子设备，其中，根据所述前台应用以及预设对应关系获取第二预设关键词集合时，所述处理器用于执行以下步骤：

获取所述电子设备当前所处的地理位置信息；

根据所述前台应用、所述地理位置信息以及预设对应关系获取第二预设关键词集合，所述预设对应关系包括应用、地理位置信息与预设关键词集合之间的对应关系。
根据权利要求14所述的电子设备，其中，所述第一关键词包括第一子关键词和第二子关键词；

判断所述预设关键词集合中是否包括与所述第一关键词相同的第二关键词时，所述处理器用于执行以下步骤：

判断所述预设关键词集合中是否包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词；

若所述预设关键词集合中包括与所述第一关键词相同的第二关键词，则执行与所述第一关键词对应的操作指令时，所述处理器用于执行以下步骤：

若所述关键词集合中包括与所述第一子关键词相同的第三子关键词以及与所述第二子关键词对应的第四子关键词，则执行与所述第一关键词对应的操作指令。
根据权利要求14所述的电子设备，其中，获取用户的语音信息之前，所述处理器还用于执行以下步骤：

获取用户的训练语音信息；

对所述训练语音信息进行训练，以得到预设语音识别模型。
根据权利要求19所述的电子设备，其中，根据电子设备的显示屏的显示状态获取预设关键词集合之前，所述处理器还用于执行以下步骤：

从所述语音信息中提取用户的声纹特征；

将所述声纹特征与所述预设语音识别模型进行匹配；

当所述声纹特征与所述预设语音识别模型匹配成功时，根据电子设备的显示屏的显示状态获取预设关键词集合。