CN106992012A

CN106992012A - 语音处理方法及电子设备

Info

Publication number: CN106992012A
Application number: CN201710186085.0A
Authority: CN
Inventors: 张雅
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2017-07-28
Also published as: US10796689B2; US20180277105A1

Abstract

本公开提供了一种语音处理方法，包括：获取声音信息；从所述声音信息中提取语音信息，识别所述语音信息的语义信息；获取情境信息；以及基于所述语义信息和所述情境信息，确定响应信息。本公开还提供了一种电子设备、一种计算机可读存储介质、以及一种计算机程序。

Description

语音处理方法及电子设备

技术领域

本公开涉及一种语音处理方法及实现该方法的电子设备。

背景技术

随着生活水平的提高，人们对智能化的要求也在提高。人们希望通过语音与机器直接交流。然而，现有技术的机器有时不能准确理解人们说话的内容，并且反馈的内容比较机械，缺乏应变的能力。

发明内容

本公开提供了一种语音处理方法，包括：获取声音信息，从所述声音信息中提取语音信息，识别所述语音信息的语义信息，获取情境信息，以及基于所述语义信息和所述情境信息，确定响应信息。

可选地，所述获取情境信息包括以下任意一项或多项：接收情境信息；处理所述语音信息，得到情境信息；或处理所述声音信息中所述语音信息以外的其他信息，得到情境信息。

可选地，所述处理所述语音信息，得到情境信息包括：处理所述语音信息，获得音质信息，基于所述音质信息得到情境信息；和/或，处理所述语音信息，获得声纹信息，基于所述声纹信息得到情境信息。

可选地，所述响应信息包括语音响应信息，所述语音响应信息的音质和/或语义与所述情境信息相关联。

可选地，所述基于所述语义信息和所述情境信息，确定响应信息包括：基于所述语义信息和所述情境信息，发送获取响应信息的请求，以及接收所述响应信息。

本公开的另一个方面提供了一种电子设备，包括：处理器以及存储器，存储器存储有机器可读指令，所述指令在被处理器执行时，使得处理器：获取声音信息，从所述声音信息中提取语音信息，识别所述语音信息的语义信息，获取情境信息，以及基于所述语义信息和所述情境信息，确定响应信息。

可选地，所述处理器获取情境信息包括以下任意一项或多项：接收情境信息；处理所述语音信息，得到情境信息；或处理所述声音信息中所述语音信息以外的其他信息，得到情境信息。

可选地，所述处理器处理所述语音信息，得到情境信息包括：处理所述语音信息，获得音质信息，基于所述音质信息得到情境信息；和/或，处理所述语音信息，获得声纹信息，基于所述声纹信息得到情境信息。

可选地，所述电子设备还包括通信器，所述处理器基于所述语义信息和所述情境信息，确定响应信息包括：基于所述语义信息和所述情境信息，通过通信器发送获取响应信息的请求；以及通过通信器接收所述响应信息。

本公开的另一方面提供了一种非易失性存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开的实施例的语音处理方法流程图；

图2示意性示出了根据本公开的实施例的基于所述语义信息和所述情境信息，确定响应信息的方法流程图；

图3示意性示出了根据本公开的实施例的电子设备结构框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。

因此，本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中，计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

语音交互作为最自然方便的一种人机交互手段，是很多其他应用能够实现的基础，例如：语音拨号、语音导航，室内设备控制等。其目标是将人类的语音所表达的内容转换为计算机可读的输入信息，例如按键、二进制编码或者字符序列等。然而，现有的语音识别与机器对话的体验不佳，其主要原因在于：人类在对话时，靠语义表达的信息只占一部分，对话的情境也被用于信息的表达。也就是说，人类对话可能会根据情境不同而变得多样化。

本公开的实施例提供了一种语音处理方法及实现该方法的电子设备。

图1示意性示出了根据本公开的实施例的语音处理方法流程图。

如图1所示，该方法包括在操作S101，获取声音信息。

然后，在操作S102，从声音信息中提取语音信息，识别语音信息的语义信息。

在操作S103，获取情境信息。

在操作S104，基于语义信息和情境信息，确定响应信息。

该方法结合了语音信息和情境信息，对不同的声音信息做出多样化的响应，更加符合人类习惯，从而提升用户体验。

根据本公开实施例，在操作S101，获取声音信息，例如可以是通过声音采集装置获得声音信息。

然后，在操作S102，从声音信息中提取语音信息，识别语音信息的语义信息。声音信息中可能包含一些语音信息和其他声音，该操作首先提取语音信息，然后识别语音信息，得到语义信息。当声音信息中未包含语音信息时，该操作获得的语义信息为空。

在操作S103，获取情境信息。

情境信息描述了与当前状态有关的信息。情境信息有多种形式。以下对情境信息进行例举，应当说明的是，这些例举并不作为对本发明的限定。

情境信息可以包括时间信息，例如年、月、日、时、分、秒以及可以推算的季节、工作日或是休息日、上午或下午、星座、以及年份的天干地支等。

情境信息可以包括地点信息，例如经度、纬度，还可以是国家、城市、地区、街道、以及房间等信息。

情境信息可以包括天气信息，例如阴晴雨雪等，还可以包括气温、气湿、大气压、紫外线强度、空气污染情况等信息。

情境信息可以包括用户的信息，例如姓名、性别、年龄、籍贯、工作情况、行为习惯、日程安排、身体状况等。

情境信息还可以包括当前场景下的其他信息，例如用户当前的情绪、是否有其他人在场、以及其他设备的状态等。

根据本公开实施例，可以采用多种方法获取如上所述的情境信息，下面列举其中的三种进行介绍，当然，在具体实施中，不限于以下三种情况，并且以下三种方式可以仅选择其中一种，也可以组合使用。

(1)接收情境信息。

情境信息可以从其他装置处获得，例如时钟，定位装置，或者一些记载有相关信息的服务器等，操作S103的获取情境信息可以是从其他装置处接收情境信息。

根据本发明实施例，上述接收情境信息可以通过任何适当通信协议来实现。例如，Wi-Fi(例如802.11协议)、以太网、蓝牙TM、高频系统(例如900MHz、2.4GHz、以及5.6GHz通信系统)、蜂窝网络(例如，GSM、AMPS、GPRS、CDMA、EV-DO、EDGE、3GSM、DECT、IS-136/TDMA、iDen、LTE或任何其他适当蜂窝网络或协议)、红外线、传输控制协议/互联网协议(“TCP/IP”)(例如用在每个TCP/IP层中的任何协议)、超文本传输协议(“HTTP”)、BitTorrentTM、文件传输协议(“FTP”)、实时传输协议(“RTP”)、实时流协议(“RTSP”)、安全外壳协议(“SSH”)、网络电话(“VOIP”)、任何其他通信协议或其任意组合。还可以通过使设备能够通过无线或有线连接与另一设备(例如，计算机或附件设备)电耦合并与其通信的电路实现。

当然，情境信息也可以通过用户输入获得，通过一定的输入单元，例如语音输入单元，用户可以直接输入一些情境信息，因此，可以接收用户输入的情境信息。

相对于其他方式获取情境信息，直接接收到的情境信息更加准确，因此容易得到准确的响应信息。

(2)处理所述语音信息，得到情境信息。

在操作S102，从声音信息中提取了语音信息，通过处理这些语音信息，可以部分或全部地得到情境信息。下面列举其中的两种情况进行说明，在具体实施中，不限于以下两种情况，并且以下两种方式可以仅选择其中一种，也可以组合使用。

A.处理所述语音信息，获得音质信息，基于所述音质信息得到情境信息。

音质包括音高、响度和音色。根据本公开实施例，可以对语音信息的音高、响度或音色中的一种或多种进行分析，以获得情境信息。

例如，一般地，用户在说话的时候音高往往不会有很大变化，而唱歌时，音高变化较为丰富，因此可以通过判断音高的变化，判断用户是否正在唱歌，即获取了一个情境信息。

例如，用户在不同的情绪下，音高和响度会发生较大变化。用户情绪较为低落时，音高较低，响度较低，或者出现响度突然增高的情况。用户情绪较好时，音高与响度又有所不同，因此结合音高和响度的信息，一定程度上可以判断用户的情绪，即获取了一个情境信息。

例如，结合音高、响度和音色，可以判断用户的部分特征。例如，可以判断用户的年龄和性别等特征，即获取了一个情境信息。

基于音质信息，可以获得用户的年龄、性别、当前情绪等情境信息，具有及时性和灵活性。

B.处理所述语音信息，获得声纹信息，基于所述声纹信息得到情境信息。

声纹信息可以更加准确地识别用户的身份。根据本公开实施例，可以识别发出语音信息的主体。例如，张三说了一句话(语音信息A)，接着，李四说了一句话(语音信息B)，那么语音信息A的主体是张三，语音信息B的主体是李四，构成一个情境信息。

基于声纹信息，可以准确可靠地确定用户身份。

(3)处理所述声音信息中所述语音信息以外的其他信息，得到情境信息。

例如，其他信息可以是音乐、广播、街上嘈杂的声音、警报声音、或是动物叫声等等。

通过语音信息得到关于用户的情境信息，或通过语音信息外的其他声音信息得到其他情境信息，免去了输入过程，便捷、及时，并具有一定的准确性。

在操作S104，基于语义信息和情境信息，确定响应信息。

根据本公开实施例，响应信息可以包括语音响应信息，语音响应信息的语义与情境信息相关联。

对于每一条语义信息，可以结合一条或多条情境信息，其中，多条信息可以是同时获取的，也可以是根据需要多次获取的。下面结合几个具体实施例对操作S104进行说明。

实施例一

用户在家中的卧室，厨房有一智能电饭锅正在工作，其中，智能电饭锅带有通信装置。接收到用户发出的一段语音，“饭熟了么”。此时，可以判断是否有一从智能电饭锅处获取情境信息。得到电饭锅仍在工作(未熟)，预计两分钟后完成，电饭锅将自动停止。基于语义信息“饭熟了么”以及情境信息“未熟，预计两分钟后完成”，确定响应信息为“别急，稍等两分钟就好了”。

实施例二

接收到用户发出一段语音，“我家小猫咪明天有什么安排”。此时，获取的情境信息包括一用户习惯，用户习惯于对自己的小女儿昵称为“小猫咪”。由此可以判断用户在询问女儿明天的日程安排。因此，再次获取另一情境信息，例如用户输入的日程表，其中记载了用户女儿明天14:00-16:00有钢琴课。因此，确定响应信息为“小猫咪明天14:00-16:00有钢琴课”。

实施例三

接收到用户发出的一段语音，“鲁兴故里奈葛走”。此时，获取情境信息包括该用户为绍兴人，使用的是当地方言，因此，修正语义信息为“鲁迅故里怎么走”，再次获取包括当前地理位置和鲁迅故里的地理位置的情景信息，确定响应信息为根据上述内容为用户确定的推荐路线或导航提示信息。

实施例四

接收到用户发出的一段语音，“我不想吃饭”。此时，根据语音中的音质特征，获取情境信息包括用户可能在生气，而该用户习惯于生气时说反话，需要安慰。因此，获取用户的喜好信息，得到的信息表明用户喜欢吃草莓，而智能冰箱中正好有草莓，于是确定响应信息为“亲爱的，要不要来点草莓，冰箱里有哦”。

实施例五

接收到一段声音信息，并从中提取了一段语音信息。在识别语义信息的过程中发现该段语音信息中包含隐私关键词。此时，可以通过处理该语音信息，判断用户是否有权限获得相关响应。此外，还可以通过处理该语音信息以外的其他信息，例如同时出现的不同声纹的语音，或者是查找某一时间范围内，是否出现过不同声纹的语音，判断是否有其他人在场，以及是否具有相关权限。可以通过以上情境信息，选择给出与隐私关键词相关或是无关的响应。

实施例六

接收到用户发出的一段语音，“现在有500的预算，想利用这周末的两天休息到附近玩玩，有什么推荐的么”。此时，可以获取的情境信息包括时间信息(本周末是指哪天，属于什么季节)、地点信息(用户所处位置，周围景点位置)、天气情况(天气和污染情况)、交通情况、用户偏好、景点的评价和活动信息等等。因此，可以确定响应信息为，结合以上情境信息为用户推荐的一个方案或数个可选方案。

根据本公开实施例，响应信息可以包括语音响应信息，语音响应信息的音质与情境信息相关联。

例如，当情境信息显示用户为一个喜欢简明扼要的成年人时，语音响应信息可以仅包含一些必要信息，并选择清晰而稳定的音质，以使响应信息更加清楚精炼，符合该用户的习惯。当情境信息显示用户为一个幼儿时，语音响应信息的音调可以更加欢快和富有变化，音色可采用童声或者女声，语义部分可以更加形象，使得响应信息生动而符合幼儿教育的要求。

例如，用户希望响应信息是播放一首歌时，情境信息中包含用户情绪或用户身份对应的喜好时，响应信息可以根据以上信息，提供具有不同音质和语义的歌曲作为响应信息播放。

语音响应信息的音质和/或语义与情境信息相关联，使得语音响应信息的形式及内容，更加符合当前情境，一定程度地克服了响应的机械化，提高了人与机器的语音交互体验。

根据本公开实施例，响应信息也可以是其他形式，例如通过显示屏显示文字、图片、视频等等，本发明对此不做限制。

图2示意性示出了根据本公开的实施例的基于所述语义信息和所述情境信息，确定响应信息的方法流程图。

如图2所示，该方法包括在操作S201，基于所述语义信息和所述情境信息，发送获取响应信息的请求。

然后，在操作S202，接收所述响应信息。

发送获取响应信息的请求及接收响应信息可以由前述通信协议实现。例如，在一些实施例中，可以将获取响应信息的请求通过Wi-Fi发送给个人计算机，个人计算机将请求通过互联网发送到云端服务器，服务器处理请求，确定响应信息后，将响应信息通过互联网发送到上述个人计算机，计算机接收后，通过Wi-Fi转发回本地，并由本地设备接收。

采用图2所示意出的方法，使得声音接收部分，与分析语义和情境信息的部分分离，因此声音接收部分更易于实现。

本公开实施例还提供了一种电子设备。电子设备包括处理器和存储器，存储有机器可读指令，所述指令在被处理器执行时，使得处理器：

获取声音信息；

从声音信息中提取语音信息，识别语音信息的语义信息；

获取情境信息；以及

基于语义信息和情境信息，确定响应信息。

该电子设备能够结合语音信息和情境信息，对不同的声音信息做出多样化的响应，更加符合人类习惯，从而提升用户体验。

根据本公开实施例，电子设备例如可以通过声音采集装置，获取声音信息。

然后，电子设备的处理器从声音信息中提取语音信息，识别语音信息的语义信息。声音信息中可能包含一些语音信息和其他声音，该操作识别语音信息中的内容，得到语义信息。当声音信息中未包含语音信息时，该操作获得的语义信息为空。

电子设备获得如前面描述的各种情境信息。根据本公开实施例，可以采用多种方法获取如上所述的情境信息，下面列举其中的三种进行介绍，当然，在具体实施中，不限于以下三种情况，并且以下三种方式可以仅选择其中一种，也可以组合使用。

(1)接收情境信息。

电子设备可以包括通信器。通信器可以根据如前所述适当的通信协议，从其他装置(例如时钟装置、定位装置，或者一些记载有相关信息的服务器等)处接收情境信息。应当了解的是，在可能的情况下，上述其他装置可以内置于第一电子设备中，作为第一电子设备的一部分。

当然，情境信息也可以通过用户输入获得，通过一定的输入单元，例如语音输入单元，用户可以直接输入一些情境信息，电子设备可以接收用户输入的情境信息。

(2)处理所述语音信息，得到情境信息。

由于从声音信息中提取了语音信息，处理器通过处理这些语音信息，可以部分或全部地得到情境信息。下面列举其中的两种情况进行说明，在具体实施中，不限于以下两种情况，并且以下两种方式可以仅选择其中一种，也可以组合使用。

根据本公开实施例，处理器可以包括一音质处理模块，音质处理模块可以对语音信息的音高、响度或音色中的一种或多种进行分析，以获得情境信息。

根据本公开实施例，处理器可以包括一声纹处理模块，通过处理声纹信息可以更加准确地识别用户的身份。

获得情境信息后，处理器基于语义信息和情境信息，确定响应信息。

对于每一条语义信息，可以结合一条或多条情境信息，其中，多条信息可以是同时获取的，也可以是根据需要多次获取的。

有关处理器基于语义信息和情境信息，确定响应信息的说明，已在前文描述，此处不再赘述。

根据本公开的实施例的基于所述语义信息和所述情境信息，确定响应信息，还可以包括发送获取响应信息的请求以及接收所述响应信息。

发送获取响应信息的请求及接收响应信息可以由前述通信器及通信协议实现。采用这种方式，节省了电子设备的大量处理工作，将确定响应信息的工作交由远端的其他电子设备实现，使得本电子设备结构简单，降低了成本。

图3示意性示出了根据本公开的实施例的电子设备结构框图。

如图3所示，电子设备300包括处理器310、存储器320、以及通信器330。该电子设备300可以执行上面参考图1、图2描述的方法，以实现可以根据当前情境对声音作出灵活响应。

具体地，处理器310例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器310还可以包括用于缓存用途的板载存储器。处理器310可以是用于执行参考图1、图2描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

存储器320，包含计算机可读存储介质，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储装置，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

计算机可读存储介质可以包括计算机程序321，该计算机程序321可以包括代码/计算机可执行指令，其在由处理器310执行时使得处理器310执行例如上面结合图1、图2所描述的方法流程及其任何变形。

计算机程序321可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序321中的代码可以包括一个或多个程序模块，例如包括321A、模块321B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器310执行时，使得处理器310可以执行例如上面结合图1、图2所描述的方法流程及其任何变形。

根据本公开的实施例，处理器310可以与通信器330进行交互，来执行上面结合图1、图2所描述的方法流程及其任何变形。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种语音处理方法，包括：

获取声音信息；

从所述声音信息中提取语音信息，识别所述语音信息的语义信息；

获取情境信息；以及

基于所述语义信息和所述情境信息，确定响应信息。

2.如权利要求1所述的语音处理方法，其中，所述获取情境信息包括以下任意一项或多项：

接收情境信息；

处理所述语音信息，得到情境信息；或

处理所述声音信息中所述语音信息以外的其他信息，得到情境信息。

3.如权利要求2所述的语音处理方法，其中，所述处理所述语音信息，得到情境信息包括：

处理所述语音信息，获得音质信息，基于所述音质信息得到情境信息；和/或

处理所述语音信息，获得声纹信息，基于所述声纹信息得到情境信息。

4.如权利要求1所述的语音处理方法，其中，所述响应信息包括语音响应信息，所述语音响应信息的音质和/或语义与所述情境信息相关联。

5.如权利要求1所述的语音处理方法，其中，所述基于所述语义信息和所述情境信息，确定响应信息包括：

基于所述语义信息和所述情境信息，发送获取响应信息的请求；以及

接收所述响应信息。

6.一种电子设备，包括：

处理器；以及

存储器，存储有机器可读指令，所述指令在被处理器执行时，使得处理器：

获取声音信息；

获取情境信息；以及

基于所述语义信息和所述情境信息，确定响应信息。

7.如权利要求6所述的电子设备，其中，所述处理器获取情境信息包括以下任意一项或多项：

接收情境信息；

处理所述语音信息，得到情境信息；或

8.如权利要求7所述的电子设备，其中，所述处理器处理所述语音信息，得到情境信息包括：

9.如权利要求6所述的电子设备，其中，所述响应信息包括语音响应信息，所述语音响应信息的音质和/或语义与所述情境信息相关联。

10.如权利要求6所述的电子设备，其中，还包括通信器，所述处理器基于所述语义信息和所述情境信息，确定响应信息包括：

基于所述语义信息和所述情境信息，通过通信器发送获取响应信息的请求；以及

通过通信器接收所述响应信息。