CN111192581A

CN111192581A - 语音唤醒方法、设备及存储介质

Info

Publication number: CN111192581A
Application number: CN202010014501.0A
Authority: CN
Inventors: 于德鸿
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-05-22

Abstract

本申请公开了语音唤醒方法、设备及存储介质，涉及人工智能技术领域。具体实现方案为：智能设备在处于带预设关键词的全双工状态的预设时长内，可以实时采集第一语音，然后在监测到上述第一语音中包含有上述预设关键词时，执行上述第一语音对应的第一指令。可见，本申请实施例中，上述智能设备在监测到包含有预设关键词的语音时，才会执行该语音对应的指令，从而可以准确地识别出用户与智能设备的语音互动，提高了用户体验。

Description

语音唤醒方法、设备及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种人工智能技术。

背景技术

随着人工智能技术的发展，智能音响的功能越来越全面。智能音箱可以是家庭消费者用语音进行上网的一个工具，比如点播歌曲、上网购物，或是了解天气预报等。它也可以对智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。

现有技术，用户可以将智能音响设置为全双工状态，以便于在需要控制智能音响的时候向智能音响输入语音以控制智能音响。但现有的智能音响无法准确识别出哪些是用于与其它用户的语音交流，哪些是用户与智能音响的语音互动，从而会导致误操作较多。

发明内容

本申请实施例提供一种语音唤醒方法、设备及存储介质，以解决现有技术的误操作较多的技术问题。

本申请实施例第一方面提供一种语音唤醒方法，所述方法应用于智能设备，所述智能设备处于带预设关键词的全双工状态，包括：

在预设时长内，采集第一语音；

在监测到所述第一语音中包含有所述预设关键词时，执行所述第一语音对应的第一指令。

本申请实施例中，上述智能设备在处于带预设关键词的全双工状态的预设时长内，可以实时采集第一语音，然后在监测到上述第一语音中包含有上述预设关键词时，执行上述第一语音对应的第一指令。可见，本申请实施例中，因为上述智能设备处于带预设关键词的全双工状态，可以在监测到包含有预设关键词的语音时，才会执行该语音对应的指令，即不执行未包含有上述预设关键词的语音所对应的指令，从而可以准确地识别出用户与智能设备的语音互动，提高了用户体验。

可选地，所述在监测到所述第一语音中包含有所述预设关键词时，执行所述第一语音对应的第一指令，包括：

将所述第一语音发送给服务器；

接收所述服务器发送的所述第一语音对应的第一指令，其中，所述第一指令为所述服务器对所述第一语音解析所得到的，且在监测到所述第一语音中包含有所述预设关键词时所发送的；

执行所述第一指令。

可选地，所述在预设时长内，采集第一语音之前，所述方法还包括：

接收开启设置请求，其中，所述开启设置请求用于指示开启所述智能设备的所述带预设关键词的全双工状态；

开启所述智能设备的所述带预设关键词的全双工状态。

在监测到带有预设唤醒词的第二语音时，发出唤醒提示信息；

采集第三语音；

执行所述第三语音对应的第二指令；

开启所述智能设备的所述带预设关键词的全双工状态，并设置定时器，其中，所述定时器的计时阈值等于所述预设时长。

可选地，所述执行所述第三语音对应的第二指令，包括：

将所述第三语音发送给服务器；

接收所述服务器发送的所述第三语音对应的第二指令，其中，所述第二指令为所述服务器对所述第三语音解析所得到的；

执行所述第二指令。

可选地，所述方法还包括：

重置所述定时器。

可选地，所述方法还包括：

若超过所述预设时长，则关闭所述智能设备的所述带预设关键词的全双工状态，使得所述智能设备处于待唤醒状态。

本申请实施例第二方面提供一种语音唤醒方法，所述方法应用于服务器，所述方法包括：

接收智能设备发送的第一语音；其中，所述智能设备处于带预设关键词的全双工状态；

对所述第一语音进行解析；

在监测到所述第一语音中包含有所述预设关键词时，将所述第一语音对应的第一指令发送给所述智能设备。

本申请实施例中，上述服务器接收上述智能设备发送的第一语音，并对上述第一语音进行解析；其中，上述第一语音为上述智能设备处于带预设关键词的全双工状态的预设时长内所采集到的语音；进一步地，上述服务器在监测到上述第一语音中包含有上述预设关键词时，将上述第一语音对应的第一指令发送给上述智能设备，以便于上述智能设备执行上述第一语音对应的第一指令。可见，本申请实施例中，上述服务器通过在监测到包含有上述预设关键词的语音时，才会将上述语音所对应的指令发送给上述智能设备，使得上述智能设备处于带预设关键词的全双工状态时，会执行包含有上述预设关键词的语音所对应的指令，即不执行未包含有上述预设关键词的语音所对应的指令，从而可以准确地识别出用户与智能设备的语音互动，提高了用户体验。

可选地，所述接收智能设备发送的第一语音之前，所述方法还包括：

向所述智能设备发送所述开启设置请求。

接收所述智能设备发送的第三语音，其中，所述第三语音为所述智能设备在监测到带有预设唤醒词的第二语音后所采集的；

对所述第三语音进行解析得到第二指令；

将所述第二指令发送给所述智能设备。

本申请实施例第三方面提供一种智能设备，所述智能设备处于带预设关键词的全双工状态，所述智能设备包括：

第一采集模块，用于在预设时长内，采集第一语音；

第一执行模块，用于在监测到所述第一语音中包含有所述预设关键词时，执行所述第一语音对应的第一指令。

可选地，所述第一执行模块，包括：

发送单元，用于将所述第一语音发送给服务器；

接收单元，用于接收所述服务器发送的所述第一语音对应的第一指令，其中，所述第一指令为所述服务器对所述第一语音解析所得到的，且在监测到所述第一语音中包含有所述预设关键词时所发送的；

执行单元，用于执行所述第一指令。

可选地，所述智能设备还包括：

接收模块，用于接收开启设置请求，其中，所述开启设置请求用于指示开启所述智能设备的所述带预设关键词的全双工状态；

第一开启模块，用于开启所述智能设备的所述带预设关键词的全双工状态。

可选地，所述智能设备还包括：

提示模块，用于在监测到带有预设唤醒词的第二语音时，发出唤醒提示信息；

第二采集模块，用于采集第三语音；

第二执行模块，用于执行所述第三语音对应的第二指令；

第二开启模块，用于开启所述智能设备的所述带预设关键词的全双工状态，并设置定时器，其中，所述定时器的计时阈值等于所述预设时长。

可选地，所述第二执行模块，包括：

发送单元，用于将所述第三语音发送给服务器；

接收单元，用于接收所述服务器发送的所述第三语音对应的第二指令，其中，所述第二指令为所述服务器对所述第三语音解析所得到的；

执行单元，用于执行所述第二指令。

可选地，所述智能设备还包括：

重置模块，用于重置所述定时器。

可选地，所述智能设备还包括：

关闭模块，用于若超过所述预设时长，则关闭所述智能设备的所述带预设关键词的全双工状态，使得所述智能设备处于待唤醒状态。

本申请实施例第四方面提供一种服务器，包括：

第一接收模块，用于接收智能设备发送的第一语音；其中，所述智能设备处于带预设关键词的全双工状态；

第一解析模块，用于对所述第一语音进行解析；

第一发送模块，用于在监测到所述第一语音中包含有所述预设关键词时，将所述第一语音对应的第一指令发送给所述智能设备。

可选地，所述服务器还包括：

第二接收模块，用于接收开启设置请求，其中，所述开启设置请求用于指示开启所述智能设备的所述带预设关键词的全双工状态；

第二发送模块，用于向所述智能设备发送所述开启设置请求。

可选地，所述服务器还包括：

第三接收模块，用于接收所述智能设备发送的第三语音，其中，所述第三语音为所述智能设备在监测到带有预设唤醒词的第二语音后所采集的；

第二解析模块，用于对所述第三语音进行解析得到第二指令；

第三发送模块，用于将所述第二指令发送给所述智能设备。

本申请实施例第五方面提供一种电子设备，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述第一方面或第二方面中任一项所述的方法。

本申请实施例第六方面提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使所述计算机执行如上述第一方面或第二方面中任一项所述的方法。

综上所述，本申请实施例相对于现有技术的有益效果：

本申请实施例提供的语音唤醒方法、设备及存储介质中，智能设备在处于带预设关键词的全双工状态的预设时长内，可以实时采集第一语音，然后在监测到上述第一语音中包含有上述预设关键词时，执行上述第一语音对应的第一指令。可见，因为智能设备处于带预设关键词的全双工状态，可以在监测到包含有上述预设关键词的语音时，才会执行上述语音对应的指令，所以克服了现有技术中误操作较多的技术问题，进而达到可以准确地识别出用户与智能设备的语音互动，提高了用户体验的技术效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的应用场景的示意图；

图2为本申请一实施例提供的语音唤醒方法的流程示意图；

图3为本申请另一实施例提供的语音唤醒方法的流程示意图；

图4为本申请另一实施例提供的语音唤醒方法的流程示意图；

图5为本申请另一实施例提供的语音唤醒方法的流程示意图；

图6为本申请另一实施例提供的语音唤醒方法的流程示意图；

图7为本申请实施例提供的智能设备的结构示意图；

图8为本申请实施例提供的智能设备的结构示意图；

图9是用来实现本申请实施例的语音唤醒方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

首先，对本申请实施例的应用场景和所涉及的部分词汇进行解释说明。

图1为本申请实施例提供的应用场景的示意图。如图1所示，本申请实施例的应用场景中可以包括：智能设备10和服务器11；当然，还可以包括其它设备，例如移动终端12等。

本申请实施例中涉及的智能设备10可以包括：智能音响，或者智能遥控器；当然，还可以包括具有语音控制功能的其它设备，本申请实施例中对此并不做限定。

本申请实施例中涉及的移动终端12可以包括：手机、平板电脑或笔记本电脑；当然，还可以包括其它设备，本申请实施例中对此并不做限定。

其中，上述智能设备10处于唤醒状态或者处于带预设关键词的全双工状态时，可以将采集到的语音发送给上述服务器11，以使上述服务器11对接收到的语音进行解析。应理解，若上述智能设备10的数据处理能力达到预设数据处理能力阈值，则上述智能设备10也可以对采集到的语音进行解析，无需发给上述服务器11进行解析。

上述服务器11可以对接收到的语音进行解析得到对应的指令，然后将上述指令发送给上述智能设备10，以使上述智能设备10执行上述指令。需要说明的是，若上述智能设备10处于带预设关键词的全双工状态时，则上述服务器11可以在监测到上述语音中包含有预设关键词时，才会将上述指令发送给上述智能设备10。

用户可以通过上述移动终端12请求上述服务器11设置上述智能设备10的相关配置，例如，开启上述智能设备10的带预设关键词的全双工状态等。应理解，用户也可以通过上述智能设备10设置上述智能设备10的相关配置。当然，用户还可以通过其它方式，设置上述智能设备10的相关配置。

本申请实施例中涉及的预设唤醒词用于唤醒上述智能设备，使得上述智能设备由待唤醒状态切换为唤醒状态。

本申请实施例中涉及的预设关键词用于标识用户与上述智能设备10互动的语音。例如，若语音1中包含有上述预设关键词，则可以确定该语音1是用户与上述智能设备10互动的语音，上述智能设备10需要执行该语音1对应的指令；若语音2中未包含有上述预设关键词，则可以确定该语音2不是用户与上述智能设备10互动的语音，上述智能设备10不需要执行该语音2对应的指令。

本申请实施例中涉及的智能设备10处于带预设关键词的全双工状态时，智能设备10可以与上述服务器11同时进行上下行信息传输，且上述智能设备10可以执行包含有上述预设关键词的语音所对应的指令，即不执行未包含有上述预设关键词的语音所对应的指令。

本申请实施例中涉及的智能设备处于唤醒状态时，上述智能设备可以采集语音，与上述服务器11同时进行上下行信息传输，并且可以执行该语音对应的指令。

本申请实施例中涉及的智能设备处于待唤醒状态时，上述智能设备可以采集语音，并且监测该语音中是否带有上述预设唤醒词。

现有技术一，用户每次使用智能音响时，都需要先采用唤醒词唤醒智能音响。然后，用户在收到智能音响的唤醒响应后才可以输入语音。可见，现有的语音互动方式中用户操作较繁琐，导致用户体验较差。

针对上述现有技术一，本申请实施例中，上述智能设备10在唤醒之后的预设时长内处于带预设关键词的全双工状态。上述智能设备10可以在上述预设时长内会采集第一语音，然后在监测到上述第一语音中包含有预设关键词时，执行上述第一语音对应的第一指令。可见，本申请实施例提供的语音互动方式，用户在唤醒智能设备之后的预设时长内再次使用智能设备时，无需再采用唤醒词唤醒智能设备，可以直接输入带预设关键词的语音来控制智能设备，以便于上述智能设备执行包含有上述预设关键词的语音所对应的指令，从而用户操作简单，优化了用户与智能设备的语音互动方式，提高了用户体验。

现有技术二，用户可以将智能音响设置为全双工状态，以便于在需要控制智能音响的时候向智能音响输入语音以控制智能音响。但现有的智能音响无法准确识别出哪些是用于与其它用户的语音交流，哪些是用户与智能音响的语音互动，从而会导致误操作较多。

针对上述现有技术二，本申请实施例中，上述智能设备10处于带预设关键词的全双工状态，可以在预设时长内会采集第一语音，然后在监测到上述第一语音中包含有预设关键词时，执行上述第一语音对应的第一指令。可见，本申请实施例中，上述智能设备10在监测到包含有预设关键词的语音时，才会执行该语音对应的指令，即不执行未包含有上述预设关键词的语音所对应的指令，从而可以准确地识别出用户与智能设备的语音互动，提高了用户体验。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本申请一实施例提供的语音唤醒方法的流程示意图。本申请实施例的执行主体可以为上述智能设备10，或者上述智能设备10中的语音唤醒装置(为了便于描述，本实施例中以执行主体为上述智能设备10为例进行说明)。示例性地，上述语音唤醒装置可以通过软件和/或硬件实现。如图2所示，本实施例提供的语音唤醒方法可以包括：

步骤S201、在预设时长内，采集第一语音。

本申请实施例中，上述智能设备10处于带预设关键词的全双工状态，以便于用户可以随时通过带有预设关键词的语音与上述智能设备10互动，上述智能设备10只有在监测到包含有上述预设关键词的语音时，才会执行该语音对应的指令。

本步骤中，上述智能设备10在预设时长内，可以实时采集第一语音。示例性地，上述智能设备10可以通过上述智能设备10中的语音采集装置(例如麦克风等)实时采集第一语音。当然，上述智能设备10还可以通过其它方式采集第一语音，本申请实施例中对此并不作限定。

步骤S202、在监测到上述第一语音中包含有上述预设关键词时，执行上述第一语音对应的第一指令。

本步骤中，上述智能设备10在监测到上述步骤S201中所采集到的第一语音中包含有上述预设关键词时，执行上述第一语音对应的第一指令。示例性地，上述智能设备10可以将上述步骤S201中所采集到的第一语音发送给上述服务器11，以使上述服务器11对上述第一语音进行解析并监测上述第一语音中是否包含有预设关键词。又一示例性地，上述智能设备10可以自己监测上述步骤S201中所采集到的第一语音中是否包含有上述预设关键词。

一种可能的实现方式中，上述智能设备10将上述第一语音发送给上述服务器11；进一步地，上述智能设备10接收上述服务器11发送的上述第一语音对应的第一指令，其中，上述第一指令为上述服务器11对上述第一语音解析所得到的，且在监测到上述第一语音中包含有上述预设关键词时所发送的；进一步地，上述智能设备执行上述第一指令。

本实现方式中，上述智能设备10可以将上述第一语音发送给上述服务器11，以使上述服务器11对接收到的上述第一语音进行解析，且在监测到上述第一语音中包含有上述预设关键词时，可以将上述第一语音对应的第一指令发送给上述智能设备10；进一步地，上述智能设备10接收上述服务器11发送的上述第一语音对应的第一指令，并执行上述第一语音对应的第一指令，从而实现了上述智能设备10在监测到包含有预设关键词的语音时，才会执行该语音对应的指令。

应理解，上述服务器11在监测到上述第一语音中未包含有上述预设关键词时，则可以摒弃上述第一语音，无需将上述第一语音对应的第一指令发送给上述智能设备10，对应地，上述智能设备10也无需执行上述第一语音对应的第一指令。

另一种可能的实现方式中，上述智能设备10可以对上述步骤S201中所采集到的第一语音进行解析，且在监测到上述第一语音中包含有上述预设关键词时，将上述第一语音发送给上述服务器11，以使上述服务器11对接收到的上述第一语音进行解析并将上述第一语音对应的第一指令发送给上述智能设备10；进一步地，上述智能设备10接收上述服务器11发送的上述第一语音对应的第一指令，并执行上述第一语音对应的第一指令，从而实现了上述智能设备10在监测到包含有预设关键词的语音时，才会执行该语音对应的指令。

应理解，上述智能设备10对上述步骤S201中所采集到的第一语音进行解析，且在监测到上述第一语音中未包含有上述预设关键词时，则可以摒弃上述第一语音，无需将上述第一语音发送给上述服务器11。

另一种可能的实现方式中，上述智能设备10可以对上述步骤S201中所采集到的第一语音进行解析，且在监测到上述第一语音中包含有上述预设关键词时，执行上述第一语音对应的第一指令，从而实现了上述智能设备10在监测到包含有预设关键词的语音时，才会执行该语音对应的指令。

应理解，上述智能设备10对上述步骤S201中所采集到的第一语音进行解析，且在监测到上述第一语音中未包含有上述预设关键词时，则可以摒弃上述第一语音。

综上所述，本申请实施例中，上述智能设备10在处于带预设关键词的全双工状态的预设时长内，可以实时采集第一语音，然后在监测到上述第一语音中包含有上述预设关键词时，执行上述第一语音对应的第一指令。可见，本申请实施例中，因为上述智能设备处于带预设关键词的全双工状态，可以在监测到包含有预设关键词的语音时，才会执行该语音对应的指令，即不执行未包含有上述预设关键词的语音所对应的指令，从而可以准确地识别出用户与智能设备的语音互动，提高了用户体验。

可选地，若超过上述预设时长，则上述智能设备10可以关闭上述智能设备的上述带预设关键词的全双工状态，使得上述智能设备处于待唤醒状态，即用户使用上述智能设备10时需要先使用预设唤醒词唤醒上述智能设备10，然后在收到上述智能设备10的唤醒提示信息(或者唤醒响应)后才可以输入语音。可见，上述智能设备10无需一直处于上述全双工状态，可以节省资源，例如上述智能设备10的电能资源、处理器资源，和/或上述智能设备10与上述服务器11之间的传输资源等。

可选地，上述智能设备10在执行上述步骤S201之前，可以开启上述带预设关键词的全双工状态，使得上述智能设备10处于上述带预设关键词的全双工状态。本申请下述实施例中对上述智能设备10的带预设关键词的全双工状态的开启方式进行介绍。

一种可能的实现方式中，接收开启设置请求，其中，上述开启设置请求用于指示开启上述智能设备的上述带预设关键词的全双工状态；进一步地，开启上述智能设备的上述带预设关键词的全双工状态。

示例性地，用户可以通过上述智能设备10中的预设按键向上述智能设备10输入上述开启设置请求，对应地，上述智能设备10可以接收上述用户输入的上述开启设置请求，然后开启上述智能设备10的上述带预设关键词的全双工状态。当然，用户还可以通过其它方式向上述智能设备10输入上述开启设置请求，本申请实施例中对此并不作限定。

又一示例性地，用户可以通过上述移动终端12中的应用程序(application，APP)向上述服务器11发送上述开启设置请求，然后上述服务器11将接收到的上述开启设置请求再发送给上述智能设备10。对应地，上述智能设备10可以接收上述服务器11发送的上述开启设置请求，然后开启上述智能设备10的上述带预设关键词的全双工状态。

应理解，上述预设关键词可以为系统预设的，或者可以为上述用户预设的(例如，上述用户可以将上述预设关键词携带在上述开启设置请求中等)；当然，上述预设关键词还可以通过其它方式设置的，本申请实施例中对此并不作限定。

应理解，上述设置请求中可以携带有上述用户设置的预设时长，也可以不用携带上述预设时长，例如，上述预设时长可以为系统预设的，或者可以为上述智能设备10接收到关闭设置请求的时间与接收到上述开启设置请求的时间之差等，其中，上述关闭设置请求用于指示关闭上述智能设备的上述带预设关键词的全双工状态。应理解，上述智能设备10接收上述关闭设置请求的方式，可以参考接收上述开启设置请求的方式，本申请实施例中对此不再赘述。

另一种可能的实现方式中，在监测到带有预设唤醒词的第二语音时，发出唤醒提示信息；进一步地，采集第三语音，然后执行上述第三语音对应的第二指令；进一步地，开启上述智能设备的上述带预设关键词的全双工状态，并设置定时器，其中，上述定时器的计时阈值等于上述预设时长。

本实现方式中，上述智能设备10初始时处于待唤醒状态，且在监测到带有预设唤醒词的第二语音时，可以切换为唤醒状态，并可以向用户发出唤醒提示信息，其中，用于提示上述用户上述智能设备10处于唤醒状态，以便于上述用户输入第三语音。示例性地，上述唤醒提示信息可以包括但不限于：语音提示信息，和/或，指示灯提示信息。

进一步地，上述智能设备10采集第三语音，并执行上述第三语音对应的第二指令。示例性地，上述智能设备10可以将上述第三语音发送给上述服务器11，以使上述服务器11对接收到的第三语音进行解析得到上述第三语音对应的第二指令；进一步地，上述智能设备10接收上述服务器11发送的上述第三语音对应的第二指令，并执行上述第二指令。又一示例性地，上述智能设备10可以对采集到的第三语音进行解析得到上述第三语音对应的第二指令，然后执行上述第三语音对应的第二指令。

为了便于用户与上述智能设备10的语音互动，上述智能设备10还可以开启上述带预设关键词的全双工状态，并设置定时器，从而上述用户在上述定时器的计时时长到达上述计时阈值(或者上述预设时长)之前，可以通过包含有上述预设关键词的语音控制上述智能设备10，使得上述智能设备10执行包含有上述预设关键词的语音所对应的指令。

需要说明的是，上述智能设备10也可以先执行开启上述带预设关键词的全双工状态和设置定时器的步骤，然后执行上述第三语音对应的第二指令的步骤，或者也可以同时执行上述步骤，本申请实施例中对上述步骤的前后执行顺序并不作限定，可以根据具体情况来确定。

可选地，上述智能设备10在执行上述步骤S202之后，还可以重置上述定时器，例如，重新设置上述定时器的计时时长等于初始默认值(如0)，或者重新设置上述定时器的计时阈值等于上述预设时长等。

图3为本申请另一实施例提供的语音唤醒方法的流程示意图。在上述实施例的基础上，本申请实施例对上述智能设备10由待唤醒状态切换为唤醒状态，然后处于带预设关键词的全双工状态的一种可实现方式进行介绍。如图3所示，本申请实施例的方法可以包括：

步骤S301、监测是否收到包含有预设唤醒词的第二语音。

本步骤中，上述智能设备10处于待唤醒状态，实时监测是否收到包含有预设唤醒词的第二语音。若监测到包含有预设唤醒词的第二语音，则执行步骤S302；否则，则返回执行上述步骤S301。

步骤S302、发出唤醒提示信息。

本步骤中，上述智能设备10向用户发出唤醒提示信息，其中，用于提示上述用户上述智能设备10处于唤醒状态，以便于上述用户输入第三语音。

步骤S303、采集第三语音，并执行上述第三语音对应的第二指令。

步骤S304、开启上述带预设关键词的全双工状态，并设置定时器。

本步骤中，上述智能设备10开启上述带预设关键词的全双工状态，并设置定时器，其中，上述定时器的计时阈值等于上述预设时长。

步骤S305、监测上述定时器的计时时长是否达到上述计时阈值。

若监测到上述定时器的计时时长达到上述计时阈值，则返回执行上述步骤S301；否则，则执行步骤S306。

步骤S306、采集第一语音。

步骤S307、监测上述第一语音中是否包含有预设关键词。

若监测到上述第一语音中包含有预设关键词，则执行步骤S308；否则，则返回执行上述步骤S305。

需要说明的是，若监测到上述第一语音中未包含有预设关键词，还可以返回上述步骤S304中重置上述定时器。

步骤S308、执行上述第一语音对应的第一指令。

需要说明的是，本实施例中各步骤的可实现方式可以参考本申请上述实施例中的相关内容，此处不再赘述。

综上所述，本申请实施例中，上述智能设备10在唤醒之后的预设时长内处于带预设关键词的全双工状态，可以实时采集第一语音，然后在监测到上述第一语音中包含有上述预设关键词时，执行上述第一语音对应的第一指令。可见，本申请实施例提供的语音互动方式，用户在唤醒智能设备之后的预设时长内再次使用智能设备时，无需再采用唤醒词唤醒智能设备，可以直接输入带预设关键词的语音来控制智能设备，以便于上述智能设备执行包含有上述预设关键词的语音所对应的指令，从而用户操作简单，优化了用户与智能设备的语音互动方式，提高了用户体验。

图4为本申请另一实施例提供的语音唤醒方法的流程示意图。在上述实施例的基础上，本申请实施例对服务器侧进行介绍。本申请实施例的执行主体可以为上述服务器11，或者上述服务器11中的语音唤醒装置(为了便于描述，本实施例中以执行主体为上述服务器11为例进行说明)。示例性地，上述语音唤醒装置可以通过软件和/或硬件实现。如图4所示，本实施例提供的语音唤醒方法可以包括：

步骤S401、接收智能设备发送的第一语音。

本步骤中，上述服务器11可以接收上述智能设备10发送的第一语音；其中，上述第一语音为上述智能设备10处于带预设关键词的全双工状态的预设时长内所采集到的语音。

步骤S402、对上述第一语音进行解析。

本步骤中，上述服务器11可以对上述步骤S401中所接收到的第一语音进行解析，其中，具体的语音解析方式可以采用现有的语音解析或语音分析方式。

步骤S403、在监测到上述第一语音中包含有上述预设关键词时，将上述第一语音对应的第一指令发送给上述智能设备。

本步骤中，上述服务器11在监测到上述第一语音中包含有上述预设关键词时，将上述第一语音对应的第一指令发送给上述智能设备10，以使上述智能设备10执行上述第一语音对应的第一指令。

综上所述，本申请实施例中，上述服务器11接收上述智能设备10发送的第一语音，并对上述第一语音进行解析；其中，上述第一语音为上述智能设备10处于带预设关键词的全双工状态的预设时长内所采集到的语音；进一步地，上述服务器11在监测到上述第一语音中包含有上述预设关键词时，将上述第一语音对应的第一指令发送给上述智能设备10，以便于上述智能设备10执行上述第一语音对应的第一指令。可见，本申请实施例中，上述服务器11通过在监测到包含有上述预设关键词的语音时，才会将上述语音所对应的指令发送给上述智能设备10，使得上述智能设备10处于带预设关键词的全双工状态时，会执行包含有上述预设关键词的语音所对应的指令，即不执行未包含有上述预设关键词的语音所对应的指令，从而可以准确地识别出用户与智能设备的语音互动，提高了用户体验。

可选地，上述服务器11在执行上述步骤S401之前，还可以接收开启设置请求，其中，上述开启设置请求用于指示开启上述智能设备10的带预设关键词的全双工状态。示例性地，上述开启设置请求可以为用户通过上述移动终端12所发送的，当然，还可以为其它设备发送的。

进一步地，上述服务器11可以向上述智能设备10发送上述开启设置请求，以使上述智能设备10开启带预设关键词的全双工状态。

可选地，上述服务器11在执行上述步骤S401之前，还可以接收上述智能设备10发送的第三语音，其中，上述第三语音可以为上述智能设备10在待唤醒状态监测到带有预设唤醒词的第二语音时切换为唤醒状态后所采集到的。进一步地，上述服务器11对上述第三语音进行解析得到上述第三语音对应的第二指令，并将上述第二指令发送给上述智能设备10，以使上述智能设备10执行上述第二指令。

图5为本申请另一实施例提供的语音唤醒方法的流程示意图。在上述实施例的基础上，本申请实施例中结合上述服务器11以及处于带预设关键词的全双工状态的上述智能设备10，对上述语音唤醒方法的一种可实现方式进行介绍。如图5所示，本申请实施例的方法可以包括：

步骤S501、上述智能设备10在预设时长内，采集第一语音。

步骤S502、上述智能设备10将上述第一语音发送给上述服务器11。

步骤S503、上述服务器11对接收到的上述第一语音进行解析。

步骤S504、上述服务器11在监测到上述第一语音中包含有上述预设关键词时，将上述第一语音对应的第一指令发送给上述智能设备10。

步骤S505、上述智能设备10执行上述第一语音对应的第一指令。

综上所述，上述智能设备10在处于带预设关键词的全双工状态的预设时长内，可以实时采集第一语音并将上述第一语音发送给上述服务器11，以便于上述服务器11对上述第一语音进行解析，且在监测到上述第一语音中包含有上述预设关键词时将上述第一语音对应的第一指令发送给上述智能设备10，使得上述智能设备10执行上述第一语音对应的第一指令。可见，本申请实施例中，上述智能设备10在监测到包含有预设关键词的语音时，才会执行该语音对应的指令，从而可以准确地识别出用户与智能设备的语音互动，提高了用户体验。

图6为本申请另一实施例提供的语音唤醒方法的流程示意图。在上述实施例的基础上，本申请实施例中结合上述智能设备10和上述服务器11，对上述语音唤醒方法的另一种可实现方式进行介绍。如图6所示，本申请实施例的方法可以包括：

步骤S601、上述智能设备10监测是否收到包含有预设唤醒词的第二语音。

本步骤中，上述智能设备10处于待唤醒状态，实时监测是否收到包含有预设唤醒词的第二语音。若监测到包含有预设唤醒词的第二语音，则执行步骤S602；否则，则返回执行上述步骤S601。

步骤S602、上述智能设备10发出唤醒提示信息。

步骤S603、上述智能设备10采集第三语音。

步骤S604、上述智能设备10将上述第三语音发送给上述服务器11。

步骤S605、上述服务器11对接收到的上述第三语音进行解析，得到上述第三语音对应的第二指令。

步骤S606、上述服务器11将上述第三语音对应的第二指令发送给上述智能设备10。

步骤S607、上述智能设备10执行上述第三语音对应的第二指令。

步骤S608、上述智能设备10开启上述带预设关键词的全双工状态，并设置定时器。

步骤S609、上述智能设备10监测上述定时器的计时时长是否达到上述计时阈值。

若监测到上述定时器的计时时长达到上述计时阈值，则返回执行上述步骤S601；否则，则执行步骤S610。

步骤S610、上述智能设备10采集第一语音。

步骤S611、上述智能设备10将上述第一语音发送给上述服务器11。

步骤S612、上述服务器11对上述第一语音进行解析。

步骤S613、上述服务器11在监测到上述第一语音中包含有上述预设关键词时，向上述智能设备11发送上述第一语音对应的第一指令。

应理解，若上述服务器11监测到上述第一语音中未包含有上述预设关键词时，则可以摒弃上述第一语音。

步骤S614、上述智能设备10执行上述第一语音对应的第一指令。

应理解，本实施例中的上述步骤S609-步骤S614可以循环执行，直至上述智能设备10监测到上述定时器的计时时长达到上述计时阈值，则返回执行上述步骤S601。

综上所述，本申请实施例中，上述智能设备10在唤醒之后的预设时长内处于带预设关键词的全双工状态，可以实时采集第一语音并将上述第一语音发送给上述服务器11，以便于上述服务器11对上述第一语音进行解析，且在监测到上述第一语音中包含有上述预设关键词时将上述第一语音对应的第一指令发送给上述智能设备10，使得上述智能设备10执行上述第一语音对应的第一指令。可见，本申请实施例提供的语音互动方式，用户在唤醒智能设备之后的预设时长内再次使用智能设备时，无需再采用唤醒词唤醒智能设备，可以直接输入带预设关键词的语音来控制智能设备，以便于上述智能设备执行包含有上述预设关键词的语音所对应的指令，从而用户操作简单，优化了用户与智能设备的语音互动方式，同时也可以准确地识别出用户与智能设备的语音互动，提高了用户体验。

图7为本申请实施例提供的智能设备的结构示意图。本申请实施例提供的智能设备处于带预设关键词的全双工状态。如图7所示，本申请实施例提供的智能设备可以包括：第一采集模块701和第一执行模块702。

其中，第一采集模块701，用于在预设时长内，采集第一语音；

第一执行模块702，用于在监测到所述第一语音中包含有所述预设关键词时，执行所述第一语音对应的第一指令。

可选地，所述第一执行模块702，包括：

发送单元，用于将所述第一语音发送给服务器；

执行单元，用于执行所述第一指令。

可选地，所述智能设备还包括：

第二采集模块，用于采集第三语音；

第二执行模块，用于执行所述第三语音对应的第二指令；

可选地，所述第二执行模块，包括：

发送单元，用于将所述第三语音发送给服务器；

执行单元，用于执行所述第二指令。

可选地，所述智能设备还包括：

重置模块，用于重置所述定时器。

可选地，所述智能设备还包括：

本实施例提供的智能设备，用于执行本申请上述语音唤醒方法实施例中关于上述智能设备10的技术方案，其技术原理和技术效果相似，此处不再赘述。

图8为本申请实施例提供的智能设备的结构示意图。如图8所示，本申请实施例提供的服务器可以包括：第一接收模块801、第一解析模块802和第一发送模块803。

其中，第一接收模块801，用于接收智能设备发送的第一语音；其中，所述智能设备处于带预设关键词的全双工状态；

第一解析模块802，用于对所述第一语音进行解析；

第一发送模块803，用于在监测到所述第一语音中包含有所述预设关键词时，将所述第一语音对应的第一指令发送给所述智能设备。

可选地，所述服务器还包括：

第三发送模块，用于将所述第二指令发送给所述智能设备。

本实施例提供的服务器，用于执行本申请上述语音唤醒方法实施例中关于上述服务器11的技术方案，其技术原理和技术效果相似，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的语音唤醒方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，智能音响、个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音唤醒方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音唤醒方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音唤醒方法对应的程序指令/模块(例如，附图7所示的第一采集模块701和第一执行模块702，或者附图8所示的第一接收模块801、第一解析模块802和第一发送模块803)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例中的语音唤醒方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据上述电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至上述电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例的语音唤醒方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与上述电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，智能设备在处于带预设关键词的全双工状态的预设时长内，可以实时采集第一语音，然后在监测到上述第一语音中包含有上述预设关键词时，执行上述第一语音对应的第一指令。可见，因为智能设备处于带预设关键词的全双工状态，可以在监测到包含有上述预设关键词的语音时，才会执行上述语音对应的指令，所以克服了现有技术中误操作较多的技术问题，进而达到可以准确地识别出用户与智能设备的语音互动，提高了用户体验的技术效果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音唤醒方法，其特征在于，所述方法应用于智能设备，所述智能设备处于带预设关键词的全双工状态，所述方法包括：

在预设时长内，采集第一语音；

2.根据权利要求1所述的方法，其特征在于，所述在监测到所述第一语音中包含有所述预设关键词时，执行所述第一语音对应的第一指令，包括：

将所述第一语音发送给服务器；

执行所述第一指令。

3.根据权利要求1或2所述的方法，其特征在于，所述在预设时长内，采集第一语音之前，所述方法还包括：

开启所述智能设备的所述带预设关键词的全双工状态。

4.根据权利要求1或2所述的方法，其特征在于，所述在预设时长内，采集第一语音之前，所述方法还包括：

采集第三语音；

执行所述第三语音对应的第二指令；

5.根据权利要求4所述的方法，其特征在于，所述执行所述第三语音对应的第二指令，包括：

将所述第三语音发送给服务器；

执行所述第二指令。

6.根据权利要求4所述的方法，其特征在于，所述执行所述第一语音对应的第一指令之后，所述方法还包括：

重置所述定时器。

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

8.一种语音唤醒方法，其特征在于，所述方法应用于服务器，所述方法包括：

对所述第一语音进行解析；

9.根据权利要求8所述的方法，其特征在于，所述接收智能设备发送的第一语音之前，所述方法还包括：

向所述智能设备发送所述开启设置请求。

10.根据权利要求8所述的方法，其特征在于，所述接收智能设备发送的第一语音之前，所述方法还包括：

对所述第三语音进行解析得到第二指令；

将所述第二指令发送给所述智能设备。

11.一种智能设备，其特征在于，所述智能设备处于带预设关键词的全双工状态，所述智能设备包括：

第一采集模块，用于在预设时长内，采集第一语音；

12.根据权利要求11所述的设备，其特征在于，所述第一执行模块，包括：

发送单元，用于将所述第一语音发送给服务器；

执行单元，用于执行所述第一指令。

13.根据权利要求11或12所述的设备，其特征在于，所述智能设备还包括：

14.根据权利要求11或12所述的设备，其特征在于，所述智能设备还包括：

第二采集模块，用于采集第三语音；

第二执行模块，用于执行所述第三语音对应的第二指令；

15.根据权利要求14所述的设备，其特征在于，所述第二执行模块，包括：

发送单元，用于将所述第三语音发送给服务器；

执行单元，用于执行所述第二指令。

16.根据权利要求14所述的设备，其特征在于，所述智能设备还包括：

重置模块，用于重置所述定时器。

17.根据权利要求14所述的设备，其特征在于，所述智能设备还包括：

18.一种服务器，包括：

第一解析模块，用于对所述第一语音进行解析；

19.根据权利要求18所述的服务器，其特征在于，所述服务器还包括：

20.根据权利要求18所述的服务器，其特征在于，所述服务器还包括：

第三发送模块，用于将所述第二指令发送给所述智能设备。

21.一种电子设备，其特征在于，包括：

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7或者8-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，计算机指令用于使所述计算机执行如权利要求1-7或者8-10中任一项所述的方法。