WO2021027267A1

WO2021027267A1 - 语音交互方法、装置、终端及存储介质

Info

Publication number: WO2021027267A1
Application number: PCT/CN2020/074988
Authority: WO
Inventors: 石子娟; 聂为然
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-08-15
Filing date: 2020-02-13
Publication date: 2021-02-18
Anticipated expiration: 2022-02-15
Also published as: EP3933830A1; EP3933830A4; EP4664269A2; US11922935B2; EP3933830B1; JP7324313B2; EP4664269A3; US20210183386A1; CN112397062B; CN119296533A; CN112397062A; JP2022534371A

Abstract

一种语音交互方法、装置、终端及存储介质，属于终端技术领域。一种免唤醒词触发语音交互的方法，根据能够触发语音交互的目标事件，来预测用户具有语音交互意图的业务类型集合，如果语音指令表达的第一业务的业务类型为业务类型集合中的目标业务类型，则执行第一业务。通过免去了语音交互过程中用户需要频繁说出唤醒词的繁琐操作，从而解决了频繁说出唤醒词造成语音交互效率过低的问题，让操作更加便捷，并且让语音交互的流程更加自然和拟人化，从而提高了语音交互的用户体验。

Description

语音交互方法、装置、终端及存储介质

本申请要求于2019年08月15日提交的申请号为201910755150.6、发明名称为“语音交互方法、装置、终端及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端技术领域，特别涉及一种语音交互方法、装置、终端及存储介质。

背景技术

随着终端技术的发展，越来越多的终端支持语音交互的功能，用户通过发出语音，即可与终端进行人机交互，从而解放了双手，提高了人机交互的效率。

目前，语音交互的流程通常包括：当用户想要与终端进行语音交互时，首先，用户说出唤醒词，终端会采集语音指令，判断语音指令是否包含唤醒词，如果语音指令包含唤醒词，终端会从待机状态切换为工作状态，也即是，终端被唤醒；之后，用户说出需要终端处理的业务，终端再次采集语音指令，根据语音指令，确定需要处理的业务，处理该业务。在一个示例性场景中，假设某车载终端的唤醒词为“你好，小华”，用户在开车的过程中，打开了电台，想要车载终端放首歌曲，则需要说出“你好，小华”，则终端被唤醒，用户说“帮忙放《东方音乐电台》的歌曲”，则车载终端会自动将电台调整至《东方音乐电台》，播放《东方音乐电台》的歌曲。

采用上述方法进行语音交互时，用户需要先说出唤醒词，才能唤醒终端处理业务，导致操作较为繁琐，效率低下。

发明内容

本申请实施例提供了一种语音交互方法、装置、终端及存储介质，能够解决相关技术中语音交互的操作繁琐、效率低下的技术问题。所述技术方案如下：

第一方面，提供了一种语音交互方法，所述方法包括：确定检测到目标事件发生，所述目标事件为能够触发语音交互的事件；根据所述目标事件，查询映射关系，得到业务类型集合，所述业务类型集合包括一个或多个目标业务类型；采集语音指令；根据所述语音指令对应的语义信息，得到所述语义信息对应的第一业务；如果所述第一业务的业务类型为所述业务类型集合中的任一目标业务类型，根据所述语音指令执行所述第一业务。

本实施例提供了一种免唤醒词触发语音交互的方法，根据能够触发语音交互的目标事件，来预测用户具有语音交互意图的业务类型集合，如果语音指令表达的第一业务的业务类型为业务类型集合中的目标业务类型，则执行第一业务。通过免去了语音交互过程中用户需要频繁说出唤醒词的繁琐操作，从而解决了频繁说出唤醒词造成语音交互效率过低的问题，让操作更加便捷，并且让语音交互的流程更加自然和拟人化，从而提高了语音交互的用户体验。

可选地，所述确定检测到目标事件发生，包括：确定检测到用户的第一操作；

所述根据所述目标事件，查询映射关系，得到业务类型集合，包括：根据所述第一操作，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为与一个或多个目标第二操作相对应的业务类型，所述一个或多个目标第二操作为所述第一操作相关联的连续性操作。

通常来讲，如果用户执行了任一操作，会连续性地执行下一个操作，因此会产生针对下一个操作对应的业务进行语音交互的意图，而通过这种可选方式，充分利用了操作具有连续性的规律，会将用户当前执行的操作，映射为一定概率下将要执行的下一个操作对应的业务类型，从而可以在用户执行操作的情况下，准确地预测出用户想要针对哪个业务类型进行语音交互，因此保证了目标业务类型的准确性。

可选地，所述确定检测到目标事件发生，包括：从操作系统或应用程序接收通知消息；

所述根据所述目标事件，查询映射关系，得到业务类型集合，包括：

根据所述通知消息，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为与所述通知消息对应的消息查看或消息处理。

通常来讲，如果终端接收到了通知消息，用户会具有查看通知消息或处理通知消息的需求，因此会产生对消息查看或消息处理的语音交互意图，而通过这种可选方式，充分考虑了用户的查看通知消息或处理通知消息的需求，会将接收到通知消息这一事件，映射为消息查看或消息处理这种业务类型，从而可以在接收到通知消息的情况下，准确地预测出用户想要针对哪个业务类型进行语音交互，因此保证了目标业务类型的准确性。

可选地，所述通知消息包括来电通知、短信、即时通信消息以及告警消息中的至少一项，所述根据所述通知消息，查询所述映射关系，得到所述业务类型集合，包括下述至少一项：

根据来电通知，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为接听来电；

根据短信或即时通信消息，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为消息查看或消息回复；

根据告警消息，查询映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为故障处理或信息查询。

可选地，所所述确定检测到目标事件发生，包括：确定当前的环境参数满足第一条件；

所述根据所述目标事件，查询映射关系，得到业务类型集合，包括：根据所述环境参数，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为调节环境参数。

通常来讲，环境会影响到用户的感知，用户会具有应对环境的需求，比如说，如果某种环境参数发生变化，用户会具有调节这种环境参数的需求，因此会产生调节环境参数的语音交互意图，而通过这种可选方式，充分考虑了用户应对环境的需求，会将环境参数满足第一条件这一事件，映射为调节环境参数这种业务类型，从而可以在环境参数满足第一条件的情况下，准确地预测出用户想要针对哪个业务类型进行语音交互，因此保证了目标业务类型的准确性。

可选地，所述确定检测到目标事件发生，包括：确定当前业务的进度满足第二条件；

所述根据所述目标事件，查询映射关系，得到业务类型集合，包括：根据所述当前业务，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为所述当前业务的业务类型。

通常来讲，当前业务的进度会影响到用户的感知，用户会具有应对当前业务的需求，比如说如果当前业务将要结束时，用户通常会想要重新执行当前业务、停止执行当前业务或者对当前业务进行调整，而通过这种可选方式，充分考虑了用户应对业务变化的需求，会将当前业务的进度满足第二条件这一事件，映射为当前业务的业务类型，从而可以在当前业务的进度满足第二条件的情况下，准确地预测出用户想要针对哪个业务类型进行语音交互，因此保证了目标业务类型的准确性。

结合上述多种可选方式，目标事件能够涵盖多个模态，任意模态的目标事件均能够触发对应业务类型的语音交互功能，从而在多种应用场景下，均可以支持免唤醒词的唤醒功能，扩展了应用范围。

可选地，所述映射关系的建立过程包括：

根据历史记录，得到与历史目标事件关联执行的历史业务，将所述历史业务的业务类型以及所述历史目标事件，写入所述映射关系；

通过这种可选方式，由于同一用户的个人行为模式具有规律性，通常情况下，用户在当前发生目标事件后产生的语音交互意图，会在很大概率上与历史时间上发生历史目标事件后产生的语音交互意图相同或相近，那么，当前发生目标事件后将要执行的业务，也就会在很大概率上与历史发生目标事件将要执行的业务相同或相近，因此通过结合历史记录，来预测当前的语音交互意图针对的目标业务类型，可以提高目标业务类型的精确性。

可选地，所述映射关系的建立过程包括：调用机器学习模型，将样本目标事件输入所述机器学习模型，输出业务类型，将输出的业务类型以及所述样本目标事件写入所述映射关系，所述机器学习模型用于根据事件预测业务类型。

通过这种可选方式，能够预先通过大量的样本进行训练，得到机器学习模型，让机器学习模型学习出事件到业务类型之间的映射关系，因此可以通过机器学习模型，构建出较为准确的映射关系。

可选地，所述根据所述语音指令对应的语义信息，得到所述语义信息对应的第一业务之后，所述方法还包括：如果所述第一业务的业务类型与所述业务类型集合中的每个目标业务类型均不同，向所述映射关系中，写入所述第一业务的业务类型。

通过这种可选方式，下一次检测到目标事件发生时，查询映射关系后，得到的业务类型集合会包括第一业务的业务类型，那么当用户通过语音指令表达第一业务的业务类型后，会响应语音指令来执行第一业务。如此，如果终端在历史运行过程中，每当检测到事件X，用户通过语音表达出对业务类型Y进行语音交互的意图，即可向映射关系中补入事件X与业务类型Y，那么，一方面，可以随着语音交互过程的执行，挖掘出事件和业务类型之间的关联性，补充和完善事件与语义信息对应的业务类型。另一方面，终端可以随着业务的扩展，向映射关系补入新增的事件和新增的业务类型，提高映射关系的可扩展性和时效性。

可选地，所述根据所述目标事件，查询映射关系，得到业务类型集合，包括：根据所述目标事件，查询所述映射关系，得到所述业务类型集合以及所述业务类型集合中每个目标业务类型对应的概率，概率表示将要执行对应目标业务类型的业务的可能性大小；所述如果所述第一业务的业务类型为所述业务类型集合中的任一目标业务类型，根据所述语音指令执行所述第一业务之前，所述方法还包括：从所述业务类型集合中，过滤掉概率不满足概率阈值的目标业务类型。

可选地，所述根据所述语音指令对应的语义信息，得到所述语义信息对应的第一业务之后，所述方法还包括：根据所述语音指令对应的语义信息，更新所述映射关系中的概率。

通过这种可选方式，每当目标事件发生时，可以根据用户本次表达的语义信息，对概率进行动态地调整，从而以自学习的方式，通过评估已预测的业务类型的正确性，通过迭代来不断修正概率，令映射关系中每个业务类型的概率可以随着目标事件的发生以及用户表达的语义，得到不断优化，逐渐更趋近于用户个人的行为习惯，保证映射关系更加精确。

可选地，所述根据所述语音指令对应的语义信息，更新所述映射关系中的概率，包括：

如果所述第一业务的业务类型为所述业务类型集合中的任一目标业务类型，增加所述映射关系中所述第一业务的业务类型对应的概率；

通过这种可选方式，如果目标事件X与目标业务类型Y对应，而每次检测到目标事件X时，用户总是通过语音要求执行目标业务类型Y的业务，表明目标业务类型Y恰好是发生目标事件X后，用户具有语音交互意图的业务类型，那么通过这种可选方式，目标业务类型Y的概率会不断增长，因此后续再次检测到该目标事件发生时，目标业务类型Y的概率会满足概率阈值，使得目标业务类型Y会被筛选出来，那么如果语音指令表达出目标业务类型Y的语义信息，终端会响应于语音指令处理业务。

如果所述语义信息对应的业务类型与所述一个或多个目标业务类型中的每个目标业务类型不同，减少所述映射关系中与所述目标事件以及所述一个或多个目标业务类型对应的概率；

通过这种可选方式，如果目标事件X与目标业务类型Y对应，而每次检测到目标事件X时，用户都没有通过语音要求执行目标业务类型Y的业务，表明目标业务类型Y并不是发生目标事件X后，用户具有语音交互意图的业务类型，那么通过这种可选方式，则目标业务类型Y的概率会不断减少，因此后续再次检测到该目标事件X时，目标业务类型Y的概率会不满足概率阈值，使得目标业务类型Y会被过滤掉，则终端不会处理目标业务类型Y的业务，从而避免误唤醒。

可选地，所述根据所述语音指令对应的语义信息，更新所述映射关系中的概率，包括：如果所述语义信息包含唤醒词，增加所述映射关系中所述第一业务的业务类型对应的概率。

通过这种可选方式，如果目标事件X与目标业务类型Y对应，而每次检测到目标事件X时，用户都说出唤醒词，表明目标业务类型Y恰好是发生目标事件X后，用户具有语音交互意图的业务类型，那么通过这种可选方式，目标业务类型Y的概率会不断增长，因此后续再次检测到该目标事件时，目标业务类型Y的概率会满足概率阈值，使得目标业务类型Y会被筛选出来，那么如果语音指令表达出目标业务类型Y的语义信息，终端会响应于语音指令处理业务。

可选地，所述根据所述语音指令对应的语义信息，得到所述语义信息对应的第一业务之后，所述方法还包括：如果所述第一业务的业务类型与所述业务类型集合中的每个目标业务类型均不同，丢弃所述语音指令。

通过这种可选方式，如果业务类型集合中不包括第一业务的业务类型，表明用户语音表达的业务类型处于预测的业务类型的范围之外，终端对业务类型预测不正确，用户并没有语音交互的意图，终端可以不响应语音指令，而是丢弃语音指令，从而避免根据语音指令进行业务处理会造成的误唤醒，并且节省语音指令占据的缓存空间。

第二方面，提供了一种语音交互装置，所述语音交互装置具有实现上述第一方面或第一方面任一种可选方式中语音交互的功能。所述装置包括至少一个模块，所述至少一个模块用于实现上述第一方面或第一方面任一种可选方式所提供的语音交互方法。

第三方面，提供一种终端，所述终端包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现上述第一方面或第一方面任一种可选方式所提供的语音交互方法。

第四方面，提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述第一方面或第一方面任一种可选方式所提供的语音交互方法。

第五方面，提供一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被终端运行时，使得所述终端执行上述第一方面或第一方面任一种可选方式所提供的语音交互方法。

第六方面，提供一种芯片，包括处理器，用于从存储器中调用并运行所述存储器中存储的指令，使得安装有所述芯片的终端执行上述第一方面或第一方面任一种可选方式所提供的语音交互方法。

第七方面，提供另一种芯片，包括：输入接口、输出接口、处理器和存储器，所述输入接口、输出接口、所述处理器以及所述存储器之间通过内部连接通路相连，所述处理器用于执行所述存储器中的代码，当所述代码被执行时，所述处理器用于执行上述第一方面或第一方面任一种可选方式所提供的语音交互方法。

附图说明

图1是本申请实施例提供的一种语音交互方法的实施环境的示意图；

图2是本申请实施例提供的一种终端100的结构示意图；

图3是本申请实施例提供的一种终端100的功能架构图；

图4是本申请实施例提供的一种语音交互方法的流程图；

图5是本申请实施例提供的一种语音交互系统的软件架构图；

图6是本申请实施例提供的一种车载终端的结构示意图；

图7是本申请实施例提供的一种语音交互装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

以下，对本申请的术语进行解释。

业务类型：为一类业务的统称，业务类型也可以称为业务领域。例如，业务类型可以包括消息查看、消息处理、调节环境参数、导航、日程咨询、空调、电台、音乐、车控、里程查询、问答咨询、游戏、系统设置、车辆控制、充电、维修保养、通讯等，该消息查看可以包括查看短信、查看即时通信应用的即时通信消息、查看资源推荐应用的推送消息，该消息处理可以包括接听来电、消息回复、故障处理、信息查询等，调节环境参数可以包括调节粉尘浓度、调节湿度、调节光照、调节噪声强度、调节温度等。

业务：为待执行的具体事务。例如，消息查看这一业务类型的业务可以是：查看用户A发来的会话消息X、查看群聊中最新发布的群公告Y、查看购物应用今天发布的优惠消息等，调节环境参数这一业务类型的业务可以是：通过空调将温度调节至25°，音乐这一业务类型的业务可以是：播放歌手B的最新歌曲Z，导航这一业务类型的业务可以是：导航至C市D区E路F小区，接听来电这一业务类型的业务可以是：接听主叫方ZZ的电话，消息回复这一业务类型的业务可以是：向联系人G回复短信“我在开车，稍后回复”，电台这一业务类型的业务可以是：打开“东方音乐电台”。

以下，对实施环境进行示例性描述。

图1是本申请实施例提供的一种语音交互方法的实施环境的示意图。该实施环境包括：终端100和语音交互平台200。

终端100通过无线网络或有线网络与语音交互平台200相连。终端100可以是智能手机、智能音箱、机器人、智能汽车、车载终端、家居设备、游戏主机、台式计算机、平板电脑、电子书阅读器、智能电视、MP3(moving picture experts group audio layer III，动态影像专家压缩标准音频层面3)播放器或MP4(moving picture experts group audio layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。终端100安装和运行有支持语音交互的应用程序。该应用程序可以是语音助手、智能问答应用等。示例性的，终端100是用户使用的终端，终端100中运行的应用程序内登录有用户账号。

语音交互平台200包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。语音交互平台200用于为支持语音交互的应用程序提供后台服务。例如，语音交互平台可以构建下述方法实施例提供的映射关系，将该映射关系发送给终端100，以便终端100基于映射关系进行语音交互。

可选地，语音交互平台200包括：语音交互服务器201和数据库202。语音交互服务器201用于提供语音交互有关的后台服务。语音交互服务器201可以是一台或多台。当语音交互服务器201是多台时，存在至少两台语音交互服务器201用于提供不同的服务，和/或，存在至少两台语音交互服务器201用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。数据库202中可以用于存储映射关系。另外，数据库202可以存储有样本事件以及样本业务类型，以便语音交互服务器201从数据库202读取样本事件以及样本业务类型，根据样本事件以及样本业务类型，训练得到机器学习模型，通过该机器学习模型建立映射关系。

终端100可以泛指多个终端中的一个，本实施例仅以终端100来举例说明。本领域技术人员可以知晓，上述终端100的数量可以更多或更少。比如上述终端100可以仅为一个，或者上述终端100为几十个或几百个，或者更多数量，此时上述语音交互系统还包括其他终端。本申请实施例对终端100的数量和设备类型不加以限定。

以下，对终端的硬件结构进行示例性描述。

图2是本申请实施例提供的一种终端100的结构示意图。

终端100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从该存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现终端100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。该I2S接口和该PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(display serial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现终端100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现终端100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为终端100充电，也可以用于终端100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他终端，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端100的结构限定。在本申请另一些实施例中，终端100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过终端100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为终端供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

终端100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端100可以通过无线通信技术与网络以及其他设备通信。该无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。该GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

终端100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，终端100可以包括1个或N个显示屏194，N为大于1的正整数。

终端100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将该电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样，终端100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，该可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行终端100的各种功能应用以及数据处理。

终端100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中，终端100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。终端100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，终端100根据压力传感器180A检测该触摸操作强度。终端100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定终端100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定终端100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测终端100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消终端100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，终端100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。终端100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当终端100是翻盖机时，终端100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测终端100在各个方向上(一般为三轴)加速度的大小。当终端100静止时可检测出重力的大小及方向。还可以用于识别终端姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。终端100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，终端100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。终端100通过发光二极管向外发射红外光。终端100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定终端100附近有物体。当检测到不充分的反射光时，终端100可以确定终端100附近没有物体。终端100可以利用接近光传感器180G检测用户手持终端100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。终端100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测终端100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。终端100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，终端100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，终端100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，终端100对电池142加热，以避免低温导致终端100异常关机。在其他一些实施例中，当温度低于又一阈值时，终端100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于终端100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于该骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音指令，实现语音功能。应用处理器可以基于该骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端100可以接收按键输入，产生与终端100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和终端100的接触和分离。终端100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。该多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端100中，不能和终端100分离。终端100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。

以分层架构的Android(安卓)系统为例，示例性说明终端100的软件结构。

图3是本申请实施例提供的一种终端100的功能架构图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图3所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图3所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。该数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供终端100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合事件检测场景，示例性说明终端100软件以及硬件的工作流程。

以目标事件为对界面进行了触摸操作为例，检测触发操作的流程可以包括：当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件，从而检测到该触摸操作发生。以该触摸操作是单击操作，该单击操作所对应的控件为音乐应用的图标为例，音乐应用调用应用框架层的接口，启动音乐应用，进而通过显示屏194显示音乐应用的界面。

以下，示例性描述本申请实施例的应用场景。

本申请实施例可以应用于唤醒终端进行语音交互的场景。相关技术中，每当用户想要终端执行某个业务时，都需要说一遍终端的唤醒词，而通过应用下述方法实施例提供的方法，可以实现免唤醒词唤醒的功能。以终端的唤醒词为“你好，小华”为例，下面结合场景一至场景八进行对比描述：

场景一、在驾驶过程中，用户想要车载终端放首歌曲。

相关技术中，该场景包括下述步骤一至步骤七：

步骤一、用户说“你好，小华”。

步骤二、车载终端采集语音指令，确定语音指令包含“你好，小华”，则车载终端被唤醒，播放语音“在呢”，从而对用户的语音指令进行响应；之后，车载终端经过预设时长未采集到语音指令，则车载终端重新休眠。

步骤三、用户打开电台开关。

步骤四、用户说“你好，小华”。

步骤五、车载终端采集语音指令，确定语音指令包含“你好，小华”，则车载终端被重新唤醒，播放语音“在呢”，从而对用户的语音指令进行响应。

步骤六、用户说“帮忙放《东方音乐电台》的歌曲”。

步骤七、车载终端采集语音指令，确定语音指令包含“你好，小华”，则车载终端会将电台调整至《东方音乐电台》，播放《东方音乐电台》的歌曲。

而通过应用本实施例提供的方法，该场景下可以包括下述步骤一至步骤四：

步骤一、用户打开电台开关。

步骤二、电台开关向车载终端发送信号，则车载终端确定检测到对电台开关的打开操作，根据对电台开关的打开操作，查询映射关系，得到的目标业务类型为音乐，从而预测出用户具有针对音乐这一业务类型的业务进行语音交互的意图。

步骤三、用户说“帮忙放《东方音乐电台》的歌曲”。

步骤四、车载终端采集语音指令，获取“帮忙放《东方音乐电台》的歌曲”对应的业务类型为音乐，判定预测出的目标业务类型与用户通过语音表达的业务类型相同，则播放《东方音乐电台》的歌曲。另外，如果步骤三中用户所说的内容和音乐无关，车载终端可以不响应用户所说的内容。

通过上述描述可以看出，用户通过打开电台开关，即可激活车载终端对音乐这一业务类型的业务的免唤醒词语音交互功能，从而免去了用户频繁说出唤醒词的步骤。

场景二、在驾驶过程中，用户想查看即时通信消息。

相关技术中，该场景包括下述步骤一至步骤七：

步骤一、手机上运行的应用程序A接收到一条即时通信消息。

步骤二、用户说“你好，小华”。

步骤三、终端采集语音指令，确定语音指令包含“你好，小华”，则手机被唤醒，播放语音“在呢”，从而对用户的语音指令进行响应；之后，手机经过预设时长未采集到语音指令，则手机重新休眠。

步骤四、用户说“你好，小华”。

步骤五、手机采集语音指令，确定语音指令包含“你好，小华”，则手机被重新唤醒，播放语音“在呢”，从而对用户的语音指令进行响应。

步骤六、用户说“看下应用程序A在说什么”。

步骤七、手机采集语音指令，确定语音指令包含“看下应用程序A在说什么”，则手机获取应用程序A接收到的即时通信消息“晚上七点去吃火锅”，则播放语音“晚上七点去吃火锅”。

步骤一、手机上运行的应用程序A接收到一条即时通信消息。

步骤二、手机根据接收到的即时通信消息，查询映射关系，得到的目标业务类型为应用程序A，从而预测出用户具有针对应用程序A类型的业务进行语音交互的意图。

步骤三、用户说“看下应用程序A在说什么”。

步骤四、手机采集语音指令，获取“看下应用程序A在说什么”对应的业务类型为应用程序A，手机判定预测出的目标业务类型与用户通过语音表达的业务类型相同，则手机获取应用程序A接收到的即时通信消息“晚上七点去吃火锅”，播放语音“晚上七点去吃火锅”。另外，如果步骤三中用户所说的内容和应用程序A无关，手机可以不响应用户所说的内容，从而避免误唤醒。

通过上述描述可以看出，如果接收到即时通信消息，即可激活手机对即时通信应用的业务的免唤醒词语音交互功能，从而免去了用户频繁说出唤醒词的步骤。

场景三、当一首歌曲快播放结束时，用户想继续播放另一首歌曲。

相关技术中，该场景包括下述步骤一至步骤五：

步骤一、智能音箱当前播放的歌曲A将要结束。

步骤二、用户说“你好，小华”。

步骤三、智能音箱采集语音指令，确定语音指令包含“你好，小华”，则智能音箱被唤醒，播放语音“在呢”，从而对用户的语音指令进行响应。

步骤四、用户说“放下歌曲B”。

步骤五、智能音箱采集语音指令，确定语音指令包含“放下歌曲B”，则智能音箱播放歌曲B。

而通过应用本实施例提供的方法，该场景下可以包括下述步骤一至步骤三：

步骤一、智能音箱当前播放的歌曲A将要结束，则智能音箱确定当前业务的进度满足条件，智能音箱根据当前业务音乐，查询映射关系，得到的目标业务类型为音乐，从而预测出用户具有针对音乐这一业务类型的业务进行语音交互的意图。

步骤二、用户说“放下歌曲B”。

步骤三、智能音箱采集语音指令，获取“放下歌曲B”对应的业务类型为音乐，则判定预测出的目标业务类型与用户通过语音表达的业务类型相同，则智能音箱播放歌曲B。另外，如果步骤二中用户所说的内容和音乐无关，智能音箱可以不响应用户所说的内容。

通过上述描述可以看出，如果当前播放的歌曲将要结束，即可激活手机对音乐这一业务类型的业务的免唤醒词语音交互功能，从而免去了用户频繁说出唤醒词的步骤。

场景四、驾驶过程中突然下雨。

相关技术中，该场景包括下述步骤一至步骤四：

步骤一、用户说“你好，小华”。

步骤二、车载终端采集语音指令，确定语音指令包含“你好，小华”，则车载终端被唤醒，播放语音“在呢”，从而对用户的语音指令进行响应。

步骤三、用户说“打开雨刷”。

步骤四、车载终端采集语音指令，确定语音指令包含“打开雨刷”，则车载终端向汽车的控制器发送信号，控制器控制雨刷的驱动电路驱动雨刷转动。

步骤一、车载终端通过雨滴传感器，确定检测到下雨，则根据下雨，查询映射关系，得到的目标业务类型为雨刷，从而预测出用户具有针对雨刷这一业务类型的业务进行语音交互的意图。

步骤二、用户说“打开雨刷”。

步骤三、车载终端采集语音指令，获取“打开雨刷”对应的业务类型为雨刷，则判定预测出的目标业务类型与用户通过语音表达的业务类型相同，则车载终端向汽车的控制器发送信号，控制器指示雨刷的驱动电路驱动雨刷转动。另外，如果步骤二中用户所说的内容和雨刷无关，车载终端可以不响应用户所说的内容。

通过上述描述可以看出，如果下雨，即可激活手机对雨刷这一业务类型的业务的免唤醒词语音交互功能，从而免去了用户频繁说出唤醒词的步骤。

场景五、在驾驶过程中，汽车的燃油不足。

相关技术中，该场景包括下述步骤一至步骤四：

步骤一、用户说“你好，小华”。

步骤二、车载终端采集语音指令，确定语音指令包含“你好，小华”，则手机被唤醒，播放语音“在呢”，从而对用户的语音指令进行响应。

步骤三、用户说“最近的加油站在哪里”。

步骤四、车载终端采集语音指令，确定语音指令包含“最近的加油站在哪里”，则车载终端调用与导航应用的接口，查询加油站地址，则播放语音“加油站地址在X区Y路”。

步骤一、车载终端检测汽车的燃油量，确定燃油量低于阈值，则根据燃油量查询映射关系，得到的业务类型集合包括加油站以及导航，从而预测出用户具有针对加油站或导航这两种业务类型的业务进行语音交互的意图。

步骤二、用户说“最近的加油站在哪里”。

步骤三、车载终端采集语音指令，得到“最近的加油站在哪里”对应的业务类型为导航，则判定预测出的目标业务类型与用户通过语音表达的业务类型相同，则车载终端调用与导航应用的接口，查询加油站地址，则播放语音“加油站地址在X区Y路”。另外，如果步骤二中用户所说的内容和导航无关，车载终端可以不响应用户所说的内容。

通过上述描述可以看出，如果汽车燃油不足，即可激活车载终端对加油站或导航这两种业务类型的业务的免唤醒词语音交互功能，从而免去了用户频繁说出唤醒词的步骤。

场景六、接听来电。

相关技术中，该场景包括下述步骤一至步骤五：

步骤一、手机接收到主叫方的呼叫请求，则手机的操作系统推送来电通知。

步骤二、用户说“你好，小华”。

步骤三、终端采集语音指令，确定语音指令包含“你好，小华”，则手机被唤醒，播放语音“在呢”。

步骤四、用户说“帮我接下电话”。

步骤五、手机采集语音指令，确定语音指令包含“帮我接下电话”，则手机接听来电。

步骤一、手机接收到主叫方的呼叫请求，则手机的操作系统推送来电通知，则手机检测到来电通知，根据来电通知，查询映射关系，得到的目标业务类型为通信，从而预测出用户具有针对通信这一业务类型的业务进行语音交互的意图。

步骤二、用户说“帮我接下电话”。

步骤三、手机采集语音指令，根据“帮我接下电话”对应的语义信息“接听电话”，得到语义信息“接听电话”对应的业务类型为通信类型，判定预测出的目标业务类型与用户通过语音表达的业务类型相同，则手机接听来电。另外，如果步骤三中用户所说的内容和通信无关，车载终端可以不响应用户所说的内容。

通过上述描述可以看出，如果手机接收到来电，即可激活手机对通信这一业务类型的业务的免唤醒词语音交互功能，从而免去了用户频繁说出唤醒词的步骤。

场景七、汽车驾驶到空气质量差的区域。

相关技术中，该场景包括下述步骤一至步骤四：

步骤一、用户说“你好，小华”。

步骤二、终端采集语音指令，确定语音指令包含“你好，小华”，则手机被唤醒，播放语音“在呢”，从而对用户的语音指令进行响应。

步骤三、用户说“打开空气净化器”。

步骤四、车载终端采集语音指令，确定语音指令包含“打开空气净化器”，则车载终端向汽车的控制器发送信号，控制器控制空气净化器开启。

步骤一、空气净化器的传感器对粉尘浓度进行检测，向车载终端发送检测到的粉尘浓度，车载终端确定粉尘浓度超过阈值，则根据粉尘浓度，查询映射关系，得到的目标业务类型为空气净化器，从而预测出用户具有针对空气净化器这一类型的业务进行语音交互的意图。

步骤二、用户说“打开空气净化器”。

步骤三、车载终端采集语音指令，获取“打开空气净化器”对应的业务类型为空气净化器，判定预测出的目标业务类型与用户通过语音表达的业务类型相同，则车载终端向汽车的控制器发送信号，控制器控制空气净化器开启。另外，如果步骤二中用户所说的内容和空气净化器无关，车载终端可以不响应用户所说的内容。

通过上述描述可以看出，如果粉尘浓度超过阈值，即可激活车载终端对空气净化器这一业务类型的业务的免唤醒词语音交互功能，从而免去了用户频繁说出唤醒词的步骤。

场景八、在驾驶过程中，汽车的遮阳帘打开到一半，用户希望遮阳帘别继续打开了。

相关技术中，该场景包括下述步骤一至步骤四：

步骤一、用户说“你好，小华”。

步骤三、用户说“停止放下遮阳帘”。

步骤四、车载终端采集语音指令，确定语音指令包含“放下遮阳帘”，则车载终端向汽车的控制器发送停止信号，停止信号用于指示停止继续打开遮阳帘，控制器接收到停止信号后，控制遮阳帘的驱动电路停止继续打开遮阳帘。

步骤一、遮阳帘向车载终端发送当前的状态，车载终端根据遮阳帘的状态，确定遮阳帘的打开程度满足条件，则根据据遮阳帘，查询映射关系，得到的目标业务类型“遮阳帘”，从而预测出用户具有针对“遮阳帘”类型的业务进行语音交互的意图。

步骤二、用户说“停止放下遮阳帘”。

步骤三、车载终端采集语音指令，根据语音指令对应的语义信息“停止放下遮阳帘”，得到语义信息“停止放下遮阳帘”对应的业务类型为遮阳帘，则车载终端向汽车的控制器发送停止信号，停止信号用于指示停止继续打开遮阳帘，控制器接收到停止信号后，控制遮阳帘的驱动电路停止继续打开遮阳帘。另外，如果步骤二中用户所说的内容和遮阳帘无关，车载终端可以不响应用户所说的内容。

通过上述描述可以看出，如果遮阳帘的打开程度满足条件，即可激活车载终端机对遮阳帘这一业务类型的业务的免唤醒词语音交互功能，从而免去了用户频繁说出唤醒词的步骤。

以下，示例性介绍本申请的方法流程。

图4是本申请实施例提供的一种语音交互方法的流程图，该实施例以执行主体为终端为例进行说明，参见图4，该方法包括：

401、终端确定检测到目标事件发生。

目标事件为能够触发语音交互的事件。如果目标事件发生，用户会有一定的概率产生语音交互的意图，具有唤醒终端进行语音交互的需求。有鉴于此，终端会对目标事件进行检测，以便在确定检测到目标事件发生时，结合目标事件以及语音指令，判定是否激活语音交互的功能。

可选地，目标事件可以具有一个或多个模态，模态是指目标事件的形式或者维度。作为示意，目标事件的模态可以是用户的操作，目标事件的模态也可以是通知消息，目标事件的模态也可以是环境参数满足第一条件，目标事件的模态也可以是当前业务的进度满足第二条件，当然，目标事件的模态还可以根据业务需求替换为其他模态，本实施例对目标事件的模态不做限定。

用户的操作可以而不限于是对物理按键的操作、对界面的操作、语音指令、浏览行为中的一项或多项。其中，物理按键可以是终端本体上的按键，也可以是与终端建立了通信连接的其他设备上的按键。例如，如果终端为车载终端，物理按键可以是汽车上搭载的任意设备上的按键，比如说，物理按键可以是汽车的空调开关、电台开关等。如果用户对物理按键进行了操作，物理按键可以向终端发送信号，则终端确定检测到对物理按键的操作。界面可以是终端的系统界面或应用程序的界面。如果用户对界面进行了操作，界面的显示屏幕可以向终端发送信号，则终端确定检测到对界面的操作。语音指令可以通过麦克风采集到。浏览行为可以是用户浏览终端的界面的行为，如果用户进行了浏览行为，终端可以通过摄像头，捕获到用户的视线，从而确定检测到浏览行为。操作可以按压操作、点击操作或者滑动操作等，本实施例对操作的具体类型不做限定。

通知消息可以为操作系统或应用程序推送的消息。例如，通知消息可以是来电通知、短信、即时通信消息、告警消息、资源推荐消息中的一项或多项。其中，告警消息可以表示终端发生了故障，比如说可以表示电量低于总电量的10％、内存不足、受到网络攻击等；告警消息也可以表示与终端建立了通信连接的其他设备发生了故障。比如说，车载终端的告警消息可以表示汽车的电机发生故障；资源推荐消息可以表示向用户推荐的资源，比如说可以是新闻应用推荐的新闻、电商应用推荐的商品或服务、游戏应用推荐的虚拟物品等。

环境参数可以而不限于是噪声、温度、湿度、亮度、粉尘浓度、油量中的一项或多项。第一条件可以而不限于是环境参数超过参数阈值或者环境参数的变化量超过变化量阈值。

关于检测环境参数满足第一条件的具体过程，传感器可以实时或周期性地采集环境参数，向终端发送采集到的环境参数。例如，温度传感器可以采集温度，向终端发送温度；湿度传感器可以采集湿度，向终端发送湿度；粉尘传感器可以采集粉尘浓度，向终端发送粉尘浓度；亮度传感器可以采集亮度，向终端发送亮度；麦克风可以采集噪声强度，向终端发送噪声强度，油量传感器可以采集车辆当前的剩余油量，向终端发送油量。终端可以从传感器接收环境参数；终端可以判断环境参数是否超过参数阈值，如果环境参数超过参数阈值，确定检测到环境参数满足第一条件。或者，终端可以根据当前获取的环境参数与历史获取到的环境参数，获取环境参数的变化量，判断环境参数的变化量是否超过变化量阈值，如果环境参数的变化量超过变化量阈值，表明环境发生了变化，则确定检测到环境参数满足第一条件。

当前业务可以是终端当前执行的业务，也可以是与终端建立了通信连接的其他设备当前执行的业务。例如，如果终端为车载终端，车载终端可以通过车辆的控制器，与车辆搭载的空调、遮阳帘、雨刷建立通信连接，则当前业务可以是车载终端当前执行的导航业务或音乐业务，也可以是空调执行的温度调节业务、雨刷执行的转动业务、遮阳帘执行的放下业务。

第二条件可以而不限于是业务的进度发生变化，比如可以是业务的进度超过阈值或者业务的进度的变化量超过变化量阈值，示意性地，第二条件可以是业务将要结束、业务执行了一半等。例如，对于空调而言，当前业务的进度满足第二条件可以是空调开始执行温度调节业务，比如空调开始设定温度、空调开始调大风量等；当前业务的进度满足第二条件也可以是空调执行的温度调节业务的进度发生变化，比如空调的温度传感器检测到温度发生了变化。

关于检测当前业务的进度满足第二条件的具体过程，终端可以获取当前业务的进度，判断当前业务的进度是否超过阈值，如果当前业务的进度是否超过阈值，确定当前业务的进度满足第二条件；或者，终端可以根据当前业务的当前进度与当前业务的历史进度，获取当前业务的进度的变化量，判断变化量是否超过变化量阈值，如果当前业务的进度的变化量超过变化量阈值，表明当前业务发生了变化，则确定当前业务的进度满足第二条件。其中，变化量以及变化量阈值可以通过变化的百分比表示，也可以通过变化的时间表示，当然还可以通过其他维度的数据表示，本实施例对此不做限定。

需要说明的一点是，用户的操作、通知消息、环境参数满足第一条件、当前业务的进度满足第二条件仅是对目标事件的举例，而不限定目标事件仅限于此。应理解，目标事件的模态可以根据终端的实际业务进行相应扩展，但凡能够触发语音交互的事件均可以提供为目标事件，本实施例对目标事件不做限定。

402、终端根据该目标事件，查询映射关系，得到业务类型集合。

业务类型集合包括一个或多个目标业务类型，每个目标业务类型为语音交互意图对应的业务类型。终端可以根据目标事件，对用户的语音交互意图进行预测，得到业务类型集合。其中，目标业务类型可以是终端执行的业务的类型，也可以是与终端建立了通信连接的其他设备执行的业务的类型，比如如果终端是车辆的控制器，目标业务类型可以是车辆搭载的空调、灯等设备执行的业务类型。例如，目标业务类型可以是导航、日程咨询、空调、电台、音乐、车控、里程查询、问答咨询、游戏、系统设置、车辆控制、充电、维修保养、通讯中的一项或多项。

映射关系可以包括一个或多个事件以及一个或多个业务类型，映射关系可以指示事件与业务类型之间的对应关系，映射关系中的每个事件可以对应于一个或多个业务类型。其中，映射关系中的事件可以为第一表项，事件对应的业务类型可以为第二表项，第一表项和第二表项的位置对应，例如第一表项和第二表项可以位于同一行中。作为示例，映射关系可以如下表1所示。

表1

终端可以以目标事件为索引，在该映射关系中，查询得到业务类型集合。例如，如果检测到的目标事件为对总开关的操作，查询表1，得到的业务类型集合为(导航、音乐、日程咨询)。可选地，映射关系具体可以包括用户的操作与操作相对应的业务类型之间的第一映射关系、通知消息与消息查看或消息处理之间的第二映射关系、环境参数与调节环境参数之间的第三映射关系以及当前业务与当前业务的业务类型之间的第四映射关系中的一项或多项。第一映射关系可以包括一个或多个操作以及一个或多个操作相对应的业务类型，任一操作可以对应一个或多个业务类型。示意性的，第一映射关系可以如下表2所示。

表2

在一些可能的实施例中，第一映射关系可以基于操作连续性规则构建。操作连续性规则是指：如果操作A与操作B为连续性操作，那么如果用户执行了操作A，可以预测用户具有执行操作B的意图。连续性操作是指：用户执行操作A之后，紧接着执行操作B。为了便于表述，在此将操作A(用户当前的操作)称为第一操作，操作B(与第一操作相关联的连续性操作)称为目标第二操作，目标第二操作为执行第一操作之后，具有一定概率将要执行的操作，目标第二操作为预测出的操作，目标第二操作可能执行也可能不执行，目标第二操作可以是第一操作之后的第一个操作。第一映射关系可以包括第一操作与一个或多个业务类型之间的映射关系，第一映射关系中的每个业务类型为目标第二操作相对应的业务类型，一个或多个目标第二操作为该第一操作相关联的连续性操作。例如，参见表2，打开总开关(第一操作)与导航到目的地(目标第二操作)为连续性操作，并且，打开总开关(第一操作)与点击歌曲播放按钮(目标第二操作)也为连续性操作，并且，打开总开关(第一操作)与查看今天日程(目标第二操作)也为连续性操作，而导航到目的地这种操作的业务类型为导航，点击歌曲播放按钮这种操作对应的业务类型为音乐，查看今天日程这种操作的业务类型为日程咨询，因此在构建第一映射关系时，可以以对总开关的操作为第一操作，以导航、音乐以及日程咨询作为目标第二操作对应的业务类型，则将对总开关的操作、导航、音乐以及日程咨询，写入第一映射关系。又如，打开导航界面(第一操作)与在导航界面上输入导航目的地(目标第二操作)为连续性操作，而输入导航目的地这种操作对应的业务类型为导航，因此在构建第一映射关系时，可以以对总开关的操作为第一操作，以导航作为目标第二操作对应的业务类型，则将打开导航界面与导航之间的映射关系，存入第一映射关系，那么，当用户打开导航界面时，终端可以将导航预测为目标业务类型。

第二映射关系包括一个或多个通知消息以及消息查看或消息处理，消息查看可以为查看短信、查看即时通信应用的即时通信消息、查看资源推荐应用的推送消息，消息处理可以包括接听来电、消息回复、故障处理以及信息查询。示意性的，第二映射关系可以如下表3所示。

表3

在一些可能的实施例中，第二映射关系可以基于用户的查看通知消息的需求或处理通知消息的需求构建。具体地，如果接收到通知消息，可以预测用户具有查看通知消息或处理通知消息的意图，因此，第二映射关系可以为通知消息与消息查看之间的映射关系，或者，第二映射关系可以为通知消息与消息处理之间的映射关系。例如，参见上表3，如果即时通信应用推送了一条即时通信消息，可以预测用户具有查看即时通信消息的意图，而查看即时通信消息对应的业务类型可以是即时通信应用，因此可以在构建第二映射关系时，可以将即时通信消息与即时通信应用的标识写入第二映射关系。

第三映射关系包括一个或多个环境参数以及调节环境参数。示意性的，第三映射关系可以如下表4所示。

表4

在一些可能的实施例中，第三映射关系可以基于用户应对环境变化的需求构建。具体来讲，考虑到环境参数满足条件时，会影响到用户的感知，因此可以预测用户具有调节环境参数的意图，因此，第三映射关系可以包括环境参数与调节环境参数对应的业务类型之间的映射关系。例如，参见上表4，如果温度的变化量满足阈值，可以预测用户具有调节温度的需求，而调节温度对应的业务类型为空调，因此在构建第三映射关系时，可以将温度的变化量满足阈值与空调之间的映射关系存入第三映射关系。

第四映射关系可以包括一个或多个当前业务以及当前业务的业务类型。示意性的，第四映射关系可以如下表5所示。

表5

在一些可能的实施例中，第四映射关系可以基于用户的应对需求构建。具体来讲，考虑到当前业务的进度满足条件时，会影响到用户的感知，因此可以预测用户具有重启当前业务、停止当前业务或调整当前业务的意图，因此，第四映射关系可以为当前业务与当前业务的业务类型之间的映射关系。例如，参见上表5，如果当前播放的音乐将要结束，可以预测用户具有播放下一首歌曲、停止播放歌曲或重新播放歌曲的需求，而播放下一首歌曲、停止播放歌曲或重新播放歌曲对应的业务类型均为音乐，因此在构建第四映射关系时，可以将音乐将要结束与音乐之间的映射关系，存入第四映射关系。

在一些可能的实施例中，映射关系的建立过程可以包括下述实现方式一至实现方式二：

实现方式一、终端根据历史记录，得到与历史目标事件关联执行的历史业务，将该历史业务的业务类型以及该历史目标事件，写入该映射关系。

本实现方式中，映射关系可以根据历史语音交互过程构建。具体来讲，如果终端在历史时间点检测到历史目标事件后，用户与终端进行了语音交互，使得终端响应于用户的语音指令，执行了某一历史业务，则终端可以建立历史目标事件与该历史业务的业务类型之间的映射关系，那么，后续终端检测到目标事件后，能够被唤醒，在语音指令对应的业务类型与历史业务的业务类型相同的情况下，响应于语音指令，来执行业务。

历史记录包括历史目标事件以及与历史目标事件关联执行的历史业务，该与历史目标事件关联执行的历史业务为检测到历史目标事件后之后执行的业务，可以为检测到历史目标事件之后第一次语音交互所执行的业务。例如，如果昨天检测到了对总开关触发的操作，之后第一次语音交互所执行的业务为导航到小区A，则历史记录可以包括对总开关触发的操作以及导航到小区A，则可以将对总开关触发的操作以及导航到小区A写入映射关系。那么，如果终端当前检测到了对总开关触发的操作，可以根据总开关的操作，查询映射关系，得到业务类型集合中的目标业务类型会包括导航。

可选地，终端可以将近期执行的历史业务的业务类型写入映射关系。具体地，终端可以根据当前时间点以及预设时长，获取历史时间段，根据历史记录，得到历史时间段内与历史目标事件关联执行的历史业务，将该历史业务的业务类型以及历史目标事件，写入该映射关系。其中，历史时间段可以为最近一天、最近一周、最近一月，具体地，历史时间段的结束点可以是当前时间点，预设时长可以是一天、一周等。通过这种方式，可以保证映射关系的时效性，让映射关系更能反映用户近期的行为习惯。

可选地，终端可以将高频执行的历史业务写入映射关系。具体地，终端可以根据历史记录，获取目标事件关联执行的每个历史业务的执行次数；终端可以从多个历史业务中选择执行次数最多的历史业务，将执行次数最多的历史业务的业务类型以及历史目标事件，写入映射关系。或者，终端可以选择执行次数超过次数阈值的历史业务，将执行次数超过次数阈值的历史业务对应的业务类型以及历史目标事件，写入映射关系。

通过实现方式一，由于同一用户的个人行为模式具有规律性，通常情况下，用户在当前发生目标事件后产生的语音交互意图，会在很大概率上与过去发生历史目标事件后产生的语音交互意图相同或相近，那么，当前发生目标事件后将要执行的业务，也就会在很大概率上与发生历史目标事件后关联执行的业务相同或相近，因此通过结合历史记录，来预测当前的语音交互意图针对的目标业务类型，可以提高目标业务类型的精确性。

实现方式二、终端调用机器学习模型，将样本目标事件输入该机器学习模型，输出业务类型，将输出的业务类型以及该样本目标事件写入该映射关系。

机器学习模型用于根据事件预测业务类型，例如，可以根据当前发生的事件，预测与事件关联执行的业务的业务类型。在一种可能的实现中，可以采用多个样本事件以及多个样本业务类型进行模型训练，得到该机器学习模型，其中，样本事件可以是样本用户的终端执行的事件，也可以是终端的历史记录中记录的事件。样本业务类型为与该样本事件关联执行的业务的业务类型。该机器学习模型可以而不限于是神经网络模型。

通过实现方式二，机器学习模型能够预先通过大量样本，学习出从事件到业务类型之间的映射关系，那么通过机器学习模型，可以根据当前的目标事件，准确预测出语音交互意图针对的目标业务类型，从而提高目标业务类型的精确性。

需要说明的一点是，映射关系可以由终端构建，也可以由终端之外的其他设备构建，再由其他设备将构建好的映射关系发送至终端，终端可以接收映射关系，从而得到映射关系。其中，其他设备可以而不限于图1所示的语音交互平台200。当然，终端也可以通过其他方式得到映射关系，比如说，映射关系可以通过某一链接地址发布，终端可以访问该链接地址，从互联网下载映射关系，本实施例对终端如何得到映射关系的方式不做具体限定。

结合事件的具体模态，步骤402可以而不限于下述情况(1)至情况(4)中的一项或多项：

情况(1)终端根据该第一操作，查询该映射关系，得到该业务类型集合，该业务类型集合包括的目标业务类型为与一个或多个目标第二操作相对应的业务类型，该一个或多个目标第二操作为该第一操作相关联的连续性操作。

如果用户执行了第一操作，可以预测用户的语音交互意图为执行目标第二操作。因此，终端可以将目标第二操作相对应的业务类型作为目标业务类型。其中，一个第一操作可以对应于一个或多个目标第二操作。例如，如果用户对空调按钮触发了确认操作，通常来讲，用户对空调按钮触发确认操作之后紧接着会调节温度，则对空调按钮的确认操作为第一操作，调节温度为目标第二操作，调节温度对应的业务类型是空调，因此终端可以将空调获取为目标业务类型；又如，如果用户点击了音乐搜索选项，通常来讲，用户点击音乐搜索选项之后紧接着会填入歌曲名称，则点击音乐搜索选项为第一操作，填入歌曲名称为目标第二操作，填入歌曲名称对应的业务类型是音乐，因此终端可以将音乐获取为目标业务类型；又如，如果用户点击了故障显示选项，通常来讲，用户点击故障显示选项之后，紧接着会根据查看的故障信息，搜索故障解决方法或解决故障，则点击故障显示选项为第一操作，搜索故障解决方法或解决故障为目标第二操作，而搜索故障解决方法或解决故障对应的业务类型是故障、车辆控制或搜索，因此终端可以将故障、车辆控制或搜索获取为目标业务类型。

通常来讲，如果用户执行了任一操作，会连续性地执行下一个操作，因此会产生针对下一个操作对应的业务进行语音交互的意图，而通过这种方式，充分利用了操作具有连续性的规律，会将用户当前执行的操作，映射为具有一定概率将要执行的下一个操作对应的业务类型，从而可以在用户执行操作的情况下，准确地预测出用户想要针对哪个业务类型进行语音交互，因此保证了目标业务类型的准确性。

关于情况(1)下获取目标业务类型的具体过程，在一种可能的实现中，终端可以根据第一操作，查询第一映射关系，得到该业务类型集合。

情况(2)终端查询该映射关系，得到该业务类型集合，该业务类型集合包括的目标业务类型为与该通知消息对应的消息查看或消息处理。

示例性地，消息查看可以是通过推送该通知消息的应用程序，查看通知消息，比如说，如果通知消息为即时通信消息，则消息查看可以是通过即时通信应用，查看即时通信消息，如果通知消息为新闻推荐消息，则消息查看可以是通过新闻应用，查看新闻消息；或者，消息查看可以是播放通知消息、在屏幕中显示通知消息或投影出通知消息等；消息处理可以是为该通知消息进行搜索、对通知消息进行回复、对通知消息对应的故障进行处理。

通常来讲，如果终端接收到了通知消息，用户会具有查看消息或处理消息的需求，因此会产生查看消息或处理消息的语音交互意图，而通过这种方式，充分考虑了用户的查看消息或处理消息的需求，会将接收到通知消息这一目标事件，映射为消息查看或消息处理这两种目标业务类型，从而可以在接收到通知消息的情况下，准确地预测出用户想要针对哪个业务类型进行语音交互，因此保证了目标业务类型的准确性。

具体地，情况(2)可以包括下述情况(2.1)至情况(2.3)中的一项或多项。

情况(2.1)根据来电通知，查询该映射关系，得到该业务类型集合，该业务类型集合包括的目标业务类型为接听来电。

情况(2.2)根据短信或即时通信消息，查询该映射关系，得到该业务类型集合，该业务类型集合包括的目标业务类型为消息查看或消息回复。

例如，消息查看可以是将短信或即时通信消息从文字转换为语音，播放语音形式的短信或即时通信消息。例如，消息回复可以是根据短信或即时通信消息，获取短信或即时通信消息对应的答复信息，将答复信息发送至短信或即时通信消息的发送用户；或者，接收用户输入的答复信息，将答复信息发送至短信或即时通信消息的发送用户。

情况(2.3)根据告警消息，查询映射关系，得到该业务类型集合，该业务类型集合包括的目标业务类型为故障处理或信息查询。

故障处理可以是输出故障的处理方案、维修保养等。例如，如果告警消息为电量低的消息，则故障处理可以是里程查询、充电站。如果告警消息为电机故障消息，则故障处理可以是问答咨询、维修电机等。信息查询可以是查询故障的处理方案、查询故障源等。

通过上述情况(2.1)至情况(2.3)，为每种通知消息分别预测出了对应的目标业务类型，从而能够支持各种接收到通知消息的应用场景，扩展了应用范围。

关于情况(2)下获取目标业务类型的具体过程，在一种可能的实现中，终端可以根据通知消息，查询第二映射关系，得到一个或多个目标业务类型。

情况(3)根据该环境参数，查询该映射关系，得到该业务类型集合，该业务类型集合包括的目标业务类型为调节环境参数。

调节环境参数可以是通过空气净化器来降低粉尘浓度、通过加湿器来提高湿度、通过空调或车窗来调节温度、通过遮阳帘或车窗来调节光线强度、通过雨刷来调节雨量等。

通常来讲，环境会影响到用户的感知，用户会具有应对环境的需求，比如说，如果某种环境参数发生变化，用户会具有调节这种环境参数的需求，因此会产生调节环境参数的语音交互意图，而通过这种方式，充分考虑了用户应对环境的需求，会将环境参数满足第一条件这一目标事件，映射为调节环境参数这种目标业务类型，从而可以在环境参数满足第一条件的情况下，准确地预测出用户想要针对哪个业务类型进行语音交互，因此保证了目标业务类型的准确性。

关于情况(3)下获取目标业务类型的具体过程，在一种可能的实现中，终端可以根据环境参数，查询第三映射关系，得到一个或多个目标业务类型。

情况(4)根据该当前业务，查询该映射关系，得到该业务类型集合，该业务类型集合包括的目标业务类型为该当前业务的业务类型。

当前业务的业务类型可以而不限于是重新执行当前业务、停止执行当前业务或者对当前业务进行调整等，比如说，如果当前业务为播放音乐，当前业务的业务类型可以是播放其他音乐、重新播放音乐、停止播放音乐等。

通常来讲，当前业务的进度会影响到用户的感知，用户会具有应对当前业务的需求，比如说如果当前业务将要结束时，用户通常会想要重新执行当前业务、停止执行当前业务或者对当前业务进行调整，而通过这种方式，充分考虑了用户应对业务变化的需求，会将当前业务的进度满足第二条件这一目标事件，映射为当前业务的业务类型，从而可以在当前业务的进度满足第二条件的情况下，准确地预测出用户想要针对哪个业务类型进行语音交互，因此保证了目标业务类型的准确性。

可选地，步骤402可以替换为：终端根据历史记录，得到与历史目标事件关联执行的历史业务，将该历史业务对应的业务类型，获取为目标业务类型。也即是，可以通过查询历史记录来得到目标业务类型，而无需根据历史记录来建立映射关系。

可选地，步骤402可以替换为：终端调用机器学习模型，将该目标事件输入该机器学习模型，输出该一个或多个目标业务类型，该机器学习模型用于根据目标事件预测目标业务类型。也即是，可以通过机器学习模型来得到目标业务类型，而无需根据机器学习模型来建立映射关系。

可选地，映射关系还可以包括每个目标业务类型的概率，步骤402可以替换为：终端根据该目标事件，查询该映射关系，得到该业务类型集合以及该业务类型集合中每个目标业务类型对应的概率。

概率表示将要执行对应目标业务类型的业务的可能性大小。概率越大，表示检测到对应事件后，将要执行对应目标业务类型的业务的可能性越大。例如，如果目标事件i、目标业务类型j、目标业务类型j对应的概率1、目标业务类型k、目标业务类型k对应的概率2之间具有映射关系，则该映射关系可以指明，如果确定检测到目标事件i发生，则预测将要执行目标业务类型j或者目标业务类型k的业务，将要执行目标业务类型j的业务的概率为概率1，将要执行目标业务类型k的业务的概率为概率2。其中，i为目标事件的标识，j和k为目标业务类型的标识。

示意性地，映射关系可以如下表6所示，其中，表6中的“/”表示无。基于表6，如果检测到对总开关的操作，可以获取业务类型集合为(导航、音乐、日程查询)，其中，导航对应的概率为0.6，音乐对应的概率为0.7，日程查询对应的概率为0.4。

表6

需要说明的一点是，表6所示的映射关系可以提供为多模态唤醒模型，该多模态唤醒模型的输入参数包括目标事件，该多模态唤醒模型的输出参数包括业务类型集合以及概率，该多模态唤醒模型可以用于根据检测到的目标事件对业务类型集合进行预测，用户可以在终端上运行该多模态唤醒模型，或者出售该多模态唤醒模型给第三方使用。

403、终端从该业务类型集合中，过滤掉概率不满足概率阈值的目标业务类型。

对于业务类型集合中的每个目标业务类型，终端可以对该目标业务类型对应的概率与概率阈值进行比较，如果目标业务类型对应的概率满足概率阈值，则终端会筛选出该目标业务类型，那么如果后续采集到的语音指令对应的第一业务的业务类型为该目标业务类型，会执行第一业务；如果目标业务类型对应的概率不满足概率阈值，则终端会过滤掉该目标业务类型，则后续不会执行该目标业务类型的业务。

在一种可能的实现中，可以为每个目标业务类型预先设置同一概率阈值，在终端中预先存储该概率阈值，则终端可以对每个目标业务类型与同一概率阈值进行比较。在另一种可能的实现中，可以为每个目标业务类型分别设置对应的概率阈值，向映射关系写入每个目标业务类型对应的概率阈值，则终端可以查询映射关系，得到每个目标业务类型对应的概率阈值，对每个目标业务类型与对应的概率阈值进行比较。其中，不同业务类型对应的概率阈值可以相同或不同，本实施例对此不做限定。

示例性地，映射关系可以包括下表7，如果业务类型集合为(导航，音乐，日程咨询)，根据上表6，得到导航对应的概率为0.6，音乐对应的概率为0.7，日程咨询对应的概率为0.4。根据表7，可以得到导航对应的概率阈值为0.5，音乐对应的概率阈值为0.5，日程咨询对应的概率阈值为0.5。对于导航来说，其概率0.6大于概率阈值0.5，对于音乐来说，其概率0.7大于概率阈值0.5，对于日程咨询来说，其概率0.4小于概率阈值0.5，因此会筛选出导航和音乐，而过滤掉日程咨询。

表7

目标业务类型	概率阈值
导航	0.5
音乐	0.5
电台	0.5
通讯	0.7
短信	0.7
微信	0.7
日程咨询	0.5
新闻	0.4
问答	0.4
空调	0.4
车控	0.8
系统	0.7
维修保养	0.5

如果目标业务类型的概率不满足概率阈值，表明该目标业务类型是用户的语音交互意图所针对的业务类型的可能性较小，如果后续处理该目标业务类型的业务，会导致误唤醒的概率较大，而如果误唤醒，会对用户产生干扰，并造成终端的负荷过大，因此通过过滤掉该目标业务类型，则后续不会响应于语义信息为该目标业务类型的业务的语音指令，从而降低误唤醒的概率，进而避免由于误唤醒而对用户产生的干扰以及对终端造成的负荷。

需要说明的一点是，步骤403为可选步骤，而非必选步骤。在一些可能的实施例中，也可以获取到一个或多个目标业务类型后，就根据获取到的所有目标业务类型执行下述步骤。

404、终端采集语音指令。

在一些可能的实施例中，终端可以当确定检测到目标事件发生时，启动监听，当经过监听时长时，结束监听。在监听期间，如果用户发出语音，终端可以通过麦克风，采集得到语音指令。其中，启动监听至结束监听的时间段可以称为接收窗口，监听时长可以根据实验、经验或需求设置，可以预先存储在终端中。可选地，可以为各个业务类型设置同一监听时长，也可以为不同业务类型设置不同的监听时长，在终端中存储业务类型与监听时长之间的映射关系，本实施例对此不做限定。

405、终端根据语音指令对应的语义信息，得到语义信息对应的第一业务。

在一些可能的实施例中，终端可以对语音指令进行语音识别(automatic speech recognition，ASR)，得到文本信息；对文本信息进行语义识别，得到语义信息；根据语义信息，查询得到第一业务。例如，如果语义信息为“小华，帮忙规划下到XX小区YY号楼的路线”，则第一业务为“导航到XX小区YY号楼”，如果语义信息为“小华，帮忙放首ZZ歌曲”，则第一业务为“播放ZZ歌曲”。

406、如果该第一业务的业务类型为该业务类型集合中的任一目标业务类型，终端根据该语音指令执行该第一业务。

终端可以对第一业务的业务类型与业务类型集合中每个目标业务类型进行比较，如果第一业务的业务类型与任一目标业务类型相同，表明用户语音表达的业务类型处于预测的业务类型的范围之内，终端对业务类型预测正确，用户的确具有语音交互的意图，则唤醒成功，终端会激活语音交互功能，响应于语音指令，根据语音指令执行该第一业务，也即是，执行语音指令所表达的业务。示例性地，如果业务类型集合为(导航，音乐)，第一业务为“导航到XX小区YY号楼”，则第一业务的业务类型为导航，第一业务的业务类型与业务类型集合中的目标业务类型导航相同，则终端会导航到XX小区YY号楼。

407、如果该第一业务的业务类型与该业务类型集合中的每个目标业务类型均不同，终端丢弃该语音指令。

如果业务类型集合中不包括第一业务的业务类型，表明用户语音表达的业务类型处于预测的业务类型的范围之外，终端对业务类型预测不正确，用户并没有语音交互的意图，终端可以不响应语音指令，而是丢弃语音指令，从而避免根据语音指令进行业务处理会造成的误唤醒，并且节省语音指令占据的缓存空间。例如，如果业务类型集合为(导航，音乐)，而第一业务为“打开空调”，则第一业务的业务类型为空调，第一业务的业务类型与业务类型集合中的每个目标业务类型均不同，则终端不会响应语音指令，即，不会打开空调。

另外，终端可以在检测到目标事件发生时开始计时，如果记录的时长达到预设时长，而终端未接收到语音指令，则终端会退出监听。

需要说明的一点是，步骤407为可选步骤，而非必选步骤。

408、终端根据该语音指令对应的语义信息，更新该映射关系中的概率。

通过这种可选方式，每当目标事件发生时，可以根据用户本次表达的语义信息，对概率进行动态地调整，从而以自学习(self-learning)的方式，通过评估已预测的目标业务类型的正确性，通过迭代来不断修正概率，令映射关系可以随着目标事件的发生以及用户表达的语义，得到不断优化，逐渐更趋近于用户个人的行为习惯，保证映射关系更加精确。

具体来讲，更新方式可以包括下述方式(1)至方式(3)中的一项或多项。

方式(1)如果该第一业务的业务类型为该业务类型集合中的任一目标业务类型，增加该映射关系中该第一业务的业务类型对应的概率。

示例性地，如果确定检测到对总开关的操作后，业务类型集合为(导航，音乐)，而第一业务的业务类型为导航，则终端会增加导航对应的概率。

如果每次检测到目标事件X时，用户总是通过语音要求执行目标业务类型Y的业务，表明目标业务类型Y恰好是发生目标事件X后，用户具有语音交互意图的业务类型，那么通过这种可选方式，目标业务类型Y的概率会不断增长，因此后续再次检测到该目标事件时，目标业务类型Y的概率会满足概率阈值，使得目标业务类型Y会被筛选出来，那么如果语音指令对应的语义信息对应的第一业务为目标业务类型Y的业务，终端会响应语音指令，执行该目标业务类型Y的业务。

需要说明的是，如果该第一业务的业务类型与该业务类型集合中的每个目标业务类型均不同，终端可以向该映射关系中，写入该第一业务的业务类型。具体地，如果映射关系中不包含目标事件，或者，映射关系中不包含第一业务的业务类型，或者，映射关系中目标事件并没有与第一业务的业务类型相互对应，则在这三种情况中的任一种情况下，终端可以向映射关系中，写入目标事件与第一业务的业务类型，以使映射关系中新增出该目标事件与第一业务的业务类型。

通过这种可选方式，下一次检测到目标事件时，可以查询该映射关系，得到第一业务的业务类型，将该第一业务的业务类型获取为目标业务类型。如此，如果终端在历史运行过程中，每当检测到事件X，用户通过语音表达出对业务类型Y进行语音交互的意图，通过向映射关系中写入事件X与业务类型Y，映射关系会新增事件X与业务类型Y，那么，一方面，可以随着语音交互过程的执行，挖掘出事件和业务类型之间的关联性，补充和完善映射关系。另一方面，终端可以随着业务的扩展，向映射关系补入新增的事件和新增的业务类型，提高映射关系的可扩展性和时效性。

此外，可选地，可以生成第一业务的业务类型对应的概率，向映射关系写入生成的概率。具体地，可以根据检测到目标事件的次数、语音指令的语义信息表示第一业务的业务类型的次数，确定概率，比如说，如果检测到A次目标事件，语义信息有B次表示第一业务的业务类型，可以获取A与B之间的比值，作为概率。例如，如果检测到10次事件X发生后，用户有7次通过语音表达出对业务类型Y进行语音交互的意图，可以获取业务类型Y对应的概率＝7/10＝0.7，则向映射关系写入业务类型Y以及概率0.7。当然，也可以将默认概率作为第一业务的业务类型对应的概率，向映射关系写入第一业务的业务类型以及默认概率，后续通过执行步骤408所示的过程，对默认概率进行调整。

方式(2)如果第一业务的业务类型与该业务类型集合中的每个目标业务类型均不同，减少该映射关系中该业务类型集合中的每个目标业务类型对应的概率。

示例性地，如果确定检测到对总开关的操作后，业务类型集合为(导航，音乐)，而第一业务的业务类型为空调，则终端会减少导航以及音乐对应的概率。

如果目标事件X与目标业务类型Y对应，而每次检测到目标事件X时，用户都没有通过语音要求执行目标业务类型Y的业务，表明目标业务类型Y并不是发生目标事件X后，用户具有语音交互意图的业务类型，那么通过这种可选方式，则目标业务类型Y的概率会不断减少，因此后续再次检测到该目标事件X时，目标业务类型Y的概率会不满足概率阈值，使得目标业务类型Y会被过滤掉，则终端不会处理目标业务类型Y的业务，从而避免误唤醒。

方式(3)如果该语义信息包含唤醒词，增加该映射关系中该第一业务的业务类型对应的概率。

示例性地，如果确定检测到对总开关的操作后，语义信息为“你好小华，导航到目的地某小区某号楼”，则终端会增加导航对应的概率。

如果目标事件X与目标业务类型Y对应，而每次检测到目标事件X时，用户都说出唤醒词，表明目标业务类型Y恰好是发生目标事件X后，用户具有语音交互意图的业务类型，那么通过这种可选方式，目标业务类型Y的概率会不断增长，因此后续再次检测到该目标事件时，目标业务类型Y的概率会满足概率阈值，使得目标业务类型Y会被筛选出来，那么如果语音指令表达出目标业务类型Y的语义信息，终端会响应于语音指令处理业务。

需要说明的一点是，步骤408为可选步骤，而非必选步骤。

本实施例提供了一种免唤醒词触发语音交互的方法，根据能够触发语音交互的目标事件，来预测用户具有语音交互意图的业务类型集合，如果语音指令表达的第一业务的业务类型为预测出的目标业务类型，则执行第一业务。通过免去了语音交互过程中用户需要频繁说出唤醒词的繁琐操作，从而解决了频繁说出唤醒词造成语音交互效率过低的问题，让操作更加便捷，并且让语音交互的流程更加自然和拟人化，从而提高了语音交互的用户体验。此外，目标事件涵盖了多个模态，任意模态的目标事件均能够触发对应业务类型的语音交互功能，从而在多种应用场景下，均可以支持免唤醒词的唤醒功能，扩展了应用范围。

结合上述方法实施例，以下示例性介绍本申请的一种具体的软件架构。

图5是本申请实施例提供的一种语音交互系统的软件架构图，该系统包括以下功能模块，每个模块可以为软件模块。

语音活动检测(voice activity detection,VAD)模块或前端语音(front-end speech)模块：用于采集音频信号，对采集到的音频信号进行降噪处理以及增强处理，并检测音频信号是否是语音指令还是非语音指令，如果音频信号是语音指令，则将语音指令输入至ASR模块，其中非语音指令可以是噪声信号、音乐信号等。

语音识别(automatic speech recognition,ASR)模块：用于从VAD模块或前端语音模块接收语音指令，将语音指令转换成文本信息，将文本信息输入对话理解模块或对话管理模块。

多模态检测模块：用于对目标事件进行检测，如果检测到目标事件，将目标事件输入用户意图预测模块。例如，多模态检测模块可以接收操作系统或者应用程序推送的通知消息，如：短信、来电、应用程序的推荐消息，告警消息；或者，用于检测一个或多个模态的操作：如对物理按键或界面的操作、语音指令；或者，用于检测环境变化或者业务变化，如：温度下降，空气污染超标，音乐即将结束等。

用户意图预测模块：用于从多模态检测模块接收目标事件，考虑用户操作连续性规则、用户查看、处理或应答的需求、环境或业务对用户感知的影响，预测用户语音交互的意图，输出业务类型集合以及业务类型集合中每个目标业务类型对应的概率。

对话理解(spoken language understanding，SLU)模块或对话管理(dialog management，DM)模块：用于根据语音识别模块的文本信息，识别用户意图，把用户意图转换成系统操作，并根据对话的上下文状态，获取对话的回复内容，将回复内容输出至答复生成模块或语音合成模块。

历史数据学习:基于用户的历史操作数据，对用户意图预测模块中的数据进行迭代更新。

答复生成(response generator，RG)模块/语音合成(text to speech，TTS)模块：用于从对话管理模块接收到的回复内容转换成文字信息，输出文字信息，或者将回复内容转换为语音指令，播放语音。

结合图5所示的系统架构，以终端为车载终端为例，该车载终端可以通过硬件和软件的结合实现，该车载终端的结构可以如图6所示，包括：

处理器(CPU)：用于访问内存或其它存储器上的各个功能模块，运行各个功能模块，另外还可以通过数据总线(D-BUS)，访问存储器和音频管理器。此外，处理器可以通过网络接口访问各种云服务以及云服务管理模块。处理器还可以通过网关访问控制器局域网络(英文： Controller Area Network，简称：CAN)总线，读取车辆以及车辆所载的各种设备的数据，以及控制车辆以及车辆所载的各种设备。

存储器包括内存和磁盘存储器，存储的内容包括图5所示的各个功能模块。

音频管理器用于对车载扬声器、麦克阵列或者其他音频设备进行管理。

以上介绍了本申请实施例的语音交互方法，以下介绍本申请实施例提供的语音交互装置，应理解，该语音交互装置具有上述语音交互方法中终端的任意功能。

图7是本申请实施例提供的一种语音交互装置的结构示意图，如图7所示，该装置包括：

确定模块701，用于执行步骤401；查询模块702，用于执行步骤402；采集模块703，用于执行步骤404；获取模块704，还用于执行步骤405；处理模块705，用于执行步骤406。

可选地，该确定模块701，用于确定检测到用户的第一操作；该查询模块702，用于执行步骤402中的情况(1)。

可选地，该确定模块701，用于从操作系统或应用程序接收通知消息；该查询模块702，用于执行步骤402中的情况(2)。

可选地，该确定模块701，用于确定当前的环境参数满足第一条件；该查询模块702，用于执行步骤402中的情况(3)。

可选地，该确定模块701，用于确定当前业务的进度满足第二条件；该查询模块702，用于执行步骤402中的情况(4)。

可选地，该装置还包括：写入模块，用于如果该第一业务的业务类型与该业务类型集合中的每个目标业务类型均不同，向该映射关系中，写入该第一业务的业务类型。

可选地，该查询模块702，还用于根据该目标事件，查询该映射关系，得到该业务类型集合以及该业务类型集合中每个目标业务类型对应的概率；

该装置还包括：过滤模块，用于执行步骤408。

可选地，该装置还包括：更新模块，用于执行步骤408。

可选地，更新模块，具体用于执行步骤408中方式(1)至方式(3)中的一项或多项。

可选地，该装置还包括：丢弃模块，用于执行步骤407。

需要说明的是：上述实施例提供的语音交互装置在语音交互时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音交互装置与语音交互方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端的处理器执行以完成上述各个实施例中的语音交互方法。该计算机可读存储介质可以是非暂态的。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、只读光盘(Compact Disc Read-Only Memory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码被终端运行时，使得该终端执行上述各个实施例中的语音交互方法。

在示例性实施例中，提供一种芯片，包括处理器，用于从存储器中调用并运行该存储器中存储的指令，使得安装有该芯片的设备执行上述各个实施例中的语音交互方法。

在示例性实施例中，提供另一种芯片，包括：输入接口、输出接口、处理器和存储器，该输入接口、输出接口、该处理器以及该存储器之间通过内部连接通路相连，该处理器用于执行该存储器中的代码，当该代码被执行时，该处理器用于执行上述各个实施例中的语音交互方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机程序指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如，数字视频光盘(digital video disc，DVD)、或者半导体介质(例如固态硬盘)等。

本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中的字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请中术语“多个”的含义是指两个或两个以上，例如，多个数据包是指两个或两个以上的数据包。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，本领域技术人员可以理解，“第一”“第二”等字样不对数量和执行顺序进行限定。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上该仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种语音交互方法，其特征在于，所述方法包括：

确定检测到目标事件发生，所述目标事件为能够触发语音交互的事件；

根据所述目标事件，查询映射关系，得到业务类型集合，所述业务类型集合包括一个或多个目标业务类型；

采集语音指令；

根据所述语音指令对应的语义信息，得到所述语义信息对应的第一业务；

如果所述第一业务的业务类型为所述业务类型集合中的任一目标业务类型，根据所述语音指令执行所述第一业务。
根据权利要求1所述的方法，其特征在于，

所述确定检测到目标事件发生，包括：确定检测到用户的第一操作；

所述根据所述目标事件，查询映射关系，得到业务类型集合，包括：根据所述第一操作，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为与一个或多个目标第二操作相对应的业务类型，所述一个或多个目标第二操作为所述第一操作相关联的连续性操作。
根据权利要求1所述的方法，其特征在于，

所述确定检测到目标事件发生，包括：从操作系统或应用程序接收通知消息；

所述根据所述目标事件，查询映射关系，得到业务类型集合，包括：

根据所述通知消息，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为与所述通知消息对应的消息查看或消息处理。
根据权利要求3所述的方法，其特征在于，所述通知消息包括来电通知、短信、即时通信消息以及告警消息中的至少一项，所述根据所述通知消息，查询所述映射关系，得到所述业务类型集合，包括下述至少一项：

根据来电通知，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为接听来电；

根据短信或即时通信消息，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为消息查看或消息回复；

根据告警消息，查询映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为故障处理或信息查询。
根据权利要求1所述的方法，其特征在于，

所述确定检测到目标事件发生，包括：确定当前的环境参数满足第一条件；

所述根据所述目标事件，查询映射关系，得到业务类型集合，包括：根据所述环境参数，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为调节环境参数。
根据权利要求1所述的方法，其特征在于，

所述确定检测到目标事件发生，包括：确定当前业务的进度满足第二条件；

所述根据所述目标事件，查询映射关系，得到业务类型集合，包括：根据所述当前业务，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为所述当前业务的业务类型。
根据权利要求1至6中任一项所述的方法，其特征在于，所述映射关系的建立过程包括：

根据历史记录，得到与历史目标事件关联执行的历史业务，将所述历史业务的业务类型以及所述历史目标事件，写入所述映射关系；

调用机器学习模型，将样本目标事件输入所述机器学习模型，输出业务类型，将输出的业务类型以及所述样本目标事件写入所述映射关系，所述机器学习模型用于根据事件预测业务类型。
根据权利要求1所述的方法，其特征在于，所述根据所述语音指令对应的语义信息，得到所述语义信息对应的第一业务之后，所述方法还包括：

如果所述第一业务的业务类型与所述业务类型集合中的每个目标业务类型均不同，向所述映射关系中，写入所述第一业务的业务类型。
根据权利要求1至8中任一项所述的方法，其特征在于，

所述根据所述目标事件，查询映射关系，得到业务类型集合，包括：根据所述目标事件，查询所述映射关系，得到所述业务类型集合以及所述业务类型集合中每个目标业务类型对应的概率，概率表示将要执行对应目标业务类型的业务的可能性大小；

所述如果所述第一业务的业务类型为所述业务类型集合中的任一目标业务类型，根据所述语音指令执行所述第一业务之前，所述方法还包括：从所述业务类型集合中，过滤掉概率不满足概率阈值的目标业务类型。
根据权利要求9所述的方法，其特征在于，所述根据所述语音指令对应的语义信息，得到所述语义信息对应的第一业务之后，所述方法还包括：

根据所述语音指令对应的语义信息，更新所述映射关系中的概率。
根据权利要求10所述的方法，其特征在于，所述根据所述语音指令对应的语义信息，更新所述映射关系中的概率，包括下述任一项：

如果所述第一业务的业务类型为所述业务类型集合中的任一目标业务类型，增加所述映射关系中所述第一业务的业务类型对应的概率；

如果所述第一业务的业务类型与所述业务类型集合中的每个目标业务类型均不同，减少所述映射关系中所述业务类型集合中的每个目标业务类型对应的概率；

如果所述语义信息包含唤醒词，增加所述映射关系中所述第一业务的业务类型对应的概率。
根据权利要求1至11中任一项所述的方法，其特征在于，所述根据所述语音指令对应的语义信息，得到所述语义信息对应的第一业务之后，所述方法还包括：

如果所述第一业务的业务类型与所述业务类型集合中的每个目标业务类型均不同，丢弃所述语音指令。
一种语音交互装置，其特征在于，所述装置包括：

确定模块，用于确定检测到目标事件发生，所述目标事件为能够触发语音交互的事件；

查询模块，用于根据所述目标事件，查询映射关系，得到业务类型集合，所述业务类型集合包括一个或多个目标业务类型；

采集模块，用于采集语音指令；

获取模块，还用于根据所述语音指令对应的语义信息，得到所述语义信息对应的业务类型；

业务执行模块，用于如果所述第一业务的业务类型为所述业务类型集合中的任一目标业务类型，根据所述语音指令执行所述第一业务。
根据权利要求13所述的装置，其特征在于，

所述确定模块，用于确定检测到用户的第一操作；

所述查询模块，用于根据所述第一操作，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为与一个或多个目标第二操作相对应的业务类型，所述一个或多个目标第二操作为所述第一操作相关联的连续性操作。
根据权利要求13所述的装置，其特征在于，

所述确定模块，用于从操作系统或应用程序接收通知消息；

所述查询模块，用于根据所述通知消息，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为与所述通知消息对应的消息查看或消息处理。
根据权利要求15所述的装置，其特征在于，所述通知消息包括来电通知、短信、即时通信消息以及告警消息中的至少一项，所述查询模块，用于执行下述至少一项：

根据来电通知，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为接听来电；

根据短信或即时通信消息，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为消息查看或消息回复；

根据告警消息，查询映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为故障处理或信息查询。
根据权利要求13所述的装置，其特征在于，

所述确定模块，用于确定当前的环境参数满足第一条件；

所述查询模块，用于根据所述环境参数，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为调节环境参数。
根据权利要求13所述的装置，其特征在于，

所述确定模块，用于确定当前业务的进度满足第二条件；

所述查询模块，用于根据所述当前业务，查询所述映射关系，得到所述业务类型集合，所述业务类型集合包括的目标业务类型为所述当前业务的业务类型。
根据权利要求13至18中任一项所述的装置，其特征在于，所述映射关系的建立过程包括：

根据历史记录，得到与历史目标事件关联执行的历史业务，将所述历史业务的业务类型以及所述历史目标事件，写入所述映射关系；

调用机器学习模型，将样本目标事件输入所述机器学习模型，输出业务类型，将输出的业务类型以及所述样本目标事件写入所述映射关系，所述机器学习模型用于根据事件预测业务类型。
根据权利要求13所述的装置，其特征在于，所述装置还包括：

写入模块，用于如果所述第一业务的业务类型与所述业务类型集合中的每个目标业务类型均不同，向所述映射关系中，写入所述第一业务的业务类型。
根据权利要求13至20中任一项所述的装置，其特征在于，所述查询模块，还用于根据所述目标事件，查询所述映射关系，得到所述业务类型集合以及所述业务类型集合中每个目标业务类型对应的概率，概率表示将要执行对应目标业务类型的业务的可能性大小；

所述装置还包括：过滤模块，用于从所述一个或多个目标业务类型中，过滤掉概率不满足概率阈值的目标业务类型。
根据权利要求21所述的装置，其特征在于，所述装置还包括：

更新模块，用于根据所述语音指令对应的语义信息，更新所述映射关系中的概率。
根据权利要求22所述的装置，其特征在于，所述更新模块，用于执行下述任一项：

如果所述第一业务的业务类型为所述业务类型集合中的任一目标业务类型，增加所述映射关系中所述第一业务的业务类型对应的概率；

如果所述第一业务的业务类型与所述业务类型集合中的每个目标业务类型均不同，减少所述映射关系中所述业务类型集合中的每个目标业务类型对应的概率；

如果所述语义信息包含唤醒词，增加所述映射关系中所述第一业务的业务类型对应的概率。
根据权利要求13至23中任一项所述的装置，其特征在于，所述装置还包括：

丢弃模块，用于如果所述第一业务的业务类型与所述业务类型集合中的每个目标业务类型均不同，丢弃所述语音指令。
一种终端，其特征在于，所述终端包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的语音交互方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的语音交互方法。