WO2021212817A1

WO2021212817A1 - 用于语音对话的纠正方法及装置

Info

Publication number: WO2021212817A1
Application number: PCT/CN2020/129337
Authority: WO
Inventors: 林永楷; 樊帅
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-04-20
Filing date: 2020-11-17
Publication date: 2021-10-28
Anticipated expiration: 2022-10-20
Also published as: EP4141865A1; CN111540356A; JP7413568B2; EP4141865B1; US11804217B2; JP2023515897A; EP4141865A4; US20230223015A1; CN111540356B

Abstract

一种用于语音对话的纠正方法,包括：识别用户输入的对话语音的第一文本信息，其中，第一文本信息包括：由多个候选词确定的第一语义关键字(S11)；基于第一文本信息向用户反馈带有第一语义关键字的第一结果(S12)；响应于用户对第一结果内第一语义关键字的选择，将多个候选词向用户反馈(S13)；接收用户输入的第二语义关键字，基于第二语义关键字对第一文本信息进行纠正，确定纠正后的第二文本信息，基于第二文本信息向用户反馈带有第二语义关键字的第二结果(S14)。还提供一种用于语音对话的纠正装置。能够解决客观存在的真歧义问题，同时也提升了对话装置的对应错误的容忍与处理能力。

Description

用于语音对话的纠正方法及装置

技术领域

本发明涉及智能语音领域，尤其涉及一种用于语音对话的纠正方法及装置。

背景技术

随着智能语音的发展，用户与智能设备的沟通更加便捷，智能设备对用户输入的语音进行语义理解以及识别，从而获取用户的意图，进而向用户反馈相应的操作。如果识别错误时，用户通常可以对其进行纠正，例如：

用户语音的识别结果：打电话给林永凯。

聊天机器人回复：为你找到林永凯的电话是否拔打。

用户语音的识别结果：是楷模的楷。

聊天机器人回复：为你找到林永楷的电话是否拔打。

又如：

用户语音的识别结果：导航去精英公寓。

聊天机器人回复：抱歉没有找到精英公寓。

用户语音的识别结果：是草字头的菁英。

聊天机器人回复：即将为您导航到菁英公寓。

又如：

用户语音的识别结果：我要去西藏。

聊天机器人回复：即将为您导航到西藏。

用户语音的识别结果：是站台的站。

聊天机器人回复：好的，即将为您导航到西站。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

通过语音主动纠正上一轮或前几轮的说法，在使用纠正时通常需要描述清楚错误的文字，以及需要纠正后的文字,当文本比较长时，或者文本有重复时容易导致用户的表述比较困难。比如：

“我想买一张从北京西站去西藏的票”当出现识别错误时可能会变成，“我想买一张从北京新站去西站的票”，当用户想要纠正时需要说“不是北京新站是北京西站，而且也不是西站是西藏自治区的西藏”一则说法比较复杂,另外也可能无法处理纠正说法本身带来的识别错误,比如上句纠正的说法仍然可能会被误识别为“不是北京新站是北京西站,而且也不是新站是西藏自治区的西藏”。

或者是由于语言模型的原因，在上述对话中，即使用户再度重复n次“xi er qi”，也仍然会被识别成“西二奇”而不是“西二旗”。

受限于语音识别的本身的误识别,进行纠正时的说法识别结果也仍然是错误的。

进行语音纠正时，虽然用户发音正确,但是用户想要输入的词语刚好仍然不是置信度最高的那个词，仍然会被识别成其他词语。

在识别内容比较长时，容易出现多个发音相似的词语，又或者当多个语义槽识别的内容发音比较接近时，将导致不容易准确地确定需要进行纠正的词语的位置。

发明内容

为了至少解决现有技术中由于语言模型的原因，使得识别错误或识别出其他词语，对内容比较长的句子，或发音比较接近的句子，确定需要纠正词语的位置不容易确定的问题。

第一方面，本发明实施例提供一种用于语音对话的纠正方法，包括：

识别用户输入的对话语音的第一文本信息，其中，所述第一文本信息包括：由多个候选词确定的第一语义关键字；

基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果；

响应于所述用户对所述第一结果内第一语义关键字的选择，将所述多个候选词向所述用户反馈；

接收所述用户输入的第二语义关键字，基于所述第二语义关键字对所述第一文本信息进行纠正，确定纠正后的第二文本信息，基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。

第二方面，本发明实施例提供一种用于语音对话的纠正装置，包括：

语音识别程序模块，用于识别用户输入的对话语音的第一文本信息，其中，所述第一文本信息包括：由多个候选词确定的第一语义关键字；

结果反馈程序模块，用于基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果；

候选词反馈程序模块，用于响应于所述用户对所述第一结果内第一语义关键字的选择，将所述多个候选词向所述用户反馈；

纠正程序模块，用于接收所述用户输入的第二语义关键字，基于所述第二语义关键字对所述第一文本信息进行纠正，确定纠正后的第二文本信息，基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音对话的纠正方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于语音对话的纠正方法的步骤。

本发明实施例的有益效果在于：在对话系统中引入本方法的主动纠错功能后将能提高对话系统的实用性,并且能够解决客观存在的真歧义问题(在人与人的对话中同样存在)，同时也提升了对话系统的对应错误的容忍与处理能力,有助于对话系统在智能语音产品上，尤其是带屏设备，为用户提供更加优异的用户体验。

对语音识别输入法中,尤其在智能终端上,识别错误的问题一直是不可避免的。当前市场主流的产品并没有对纠错提供用户体验良好的设计，只能使用光标定位到特定位置后手动删除内容再使用文本输入法编写出正确的文本。可以遇见当语音输入法引入了基于多模态的主动纠错后，在进行纠错时就能够基于上下文直接点击或者选中词语,接着从系统反馈的高置信度的候选词中选择对应正确的词语,可以避免每次纠错都需要使用键盘进行修改,这将极大的提升语音输入法的性能瓶颈与用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于语音对话的纠正方法的流程图；

图2是本发明一实施例提供的一种用于语音对话的纠正方法的软件实现流程图；

图3是本发明一实施例提供的一种用于语音对话的纠正装置的结构示意图；

图4为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种用于语音对话的纠正方法，应用于电子设备。该电子设备可以为智能电视、智能手机、智能音箱、智能车机装置、智慧屏等，本发明对此不作限定。

如图1所示为本发明一实施例提供的一种用于语音对话的纠正方法的流程图，该方法应用于电子设备，该方法包括如下步骤：

S11：电子设备识别用户输入的对话语音的第一文本信息，其中，所述第一文本信息包括：由多个候选词确定的第一语义关键字；

S12：电子设备基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果；

S13：响应于所述用户对所述第一结果内第一语义关键字的选择，电子设备将所述多个候选词向所述用户反馈；

S14：电子设备接收所述用户输入的第二语义关键字，基于所述第二语义关键字对所述第一文本信息进行纠正，确定纠正后的第二文本信息，基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。

在本实施方式中，在对话系统开发过程中,工程师更多的是面对单轮对话，在单轮对话中,普遍倾向于输出置信度最高的识别结果以及语义解析结果。由于真岐义相对假岐义会更不频繁，因此对于歧义出现时，工程师会更多考虑如何自动消解假岐义。同时在实际使用对话系统的过程中对于“真歧义”的情况，往往是无法通过自动消歧策略来处理的。

比如：播放西游记。即可以是影视也可以是电台节目时,系统往往无法总是正确的响应用户的需求。

再比如“我想看怦然星动”与“我想看怦然心动”，一个是2015年陈国辉导演的电影，另一个则是2010罗伯·莱纳导演的电影,两个发音极为相似，无论语音识别成哪个结果,都可能不是正确的。

对于语音对话系统开发来说，比较直接的想法就是通过下一轮的交互对上一轮的错别字进行纠正,但这就存在上面背景技术中所述的问题.另外,由于各种主观或者客观的因素,比如人工智能技术的发展仍然处于比较低阶的阶段，这也导致了比较少的工程师会重视真岐义,以及纠错的功能,也因此不容易想到使用多模态进行纠正。进而本方法利用多模态进行纠正。

对于步骤S11，为了能够之别用户的对话语音，考虑到需要支持多模态，在支持多模态的对话系统的首轮通常由麦克风阵列将识别到的音频转为文本或者使用键盘直接输入文本作为输入。

其中，麦克风阵列是由一定数量的麦克风组成的，用于记录语音音频信号，通过信号处理算法,麦克风阵列能够识别声源的方向,同时还能够一定程度的将背景声音清除掉,进而提升自动语音识别的准确度。

通过利用麦克风阵列捕获音频流，并利用网络传送到云端送给自动语音识别服务获取到语音对应的文本信息，自动语音识别服务基于家居环境下的声学模型与语言模型同样也能够提高识别文本的准确度。识别得到的文本将在云端直接送给语义解析模块，语义解析模块能够将一句文本解析为语义实体。

例如，用户输入的是语音“我想看怦然心动”。在语音识别时，对于每个词都有一定量的多个候选词对该句话进行调整。例如，“怦然心动”的语音，由于用户的发音问题，或者是语言模型的原因，很容易会识别出“怦然心动”，“怦然星动”这两个词语，而这两个词语恰巧在电影语义槽中都有。通常来说，系统会选择一个置信度高的候选词，作为该句的关键字。进而，这就使得用户输入的语音是“我想看怦然心动”，然后，识别的结果为“我想看怦然星动”。

对于步骤S12，通过在步骤S11的识别确定的“我想看怦然星动”，为用户进行反馈，例如，“为你找到以下符合怦然星动的内容，请问你要看哪一部”。

对于步骤S13，由于使用了多模态，用户可以通过鼠标或者触摸屏选中语音识别结果中的“怦然星动”。当进行选中操作时，如果用户用的是点击操作，则只需要点击怦然星动中的任一个字即可。如果选中操作使用是点击后拖动的形式，则无论用户选中的是星或者星动,或者怦然星动都可以。在上述选中过程中，选中操作包括但不限于点击、点击后拖拉、画个圈等形式。

在用户选中“怦然星动”后，将识别时确定的多个候选词(怦然星动、怦然心动)向用户反馈。

作为一种实施方式，所述由多个候选词中确定的第一语义关键字包括：

从所述多个候选词中选取识别置信度最高的候选词确定为第一语义关键字；

所述将所述多个候选词向所述用户反馈包括：

将所述多个候选词按照识别置信度排序，向所述用户反馈所述多个候选词的列表窗口。

在本实施方式中，例如与用户交流的是带有图形界面的智能设备，在对话中，图形界面控件自动弹出候选词列表：

1.怦然星动

2.怦然心动

3.怦然行动

4.烹饪行动

5.……

或者网络形式的列表：

1.怦然星动 2.怦然心动 3.怦然行动

4.烹饪行动 5.…… 6.……

7.…… 8.…… 9.……

在实际使用中，候选词窗口的设计包括但不局限于列表以及网格等形式。

对于步骤S14，用户从候选列表中通过点击选择了“怦然心动”，智能设备纠正后，得到，重新为你找到以下符合怦然心动的内容，请问你要看哪一部。再之后就是正常的语音对话流程：用户：第一个。智能设备：为你播放罗伯·莱纳导演的怦然心动，具体流程如图2所示。

通过该实施方式可以看出，在对话系统中引入本方法的主动纠错功能后将能提高对话系统的实用性,并且能够解决客观存在的真歧义问题(在人与人的对话中同样存在)，同时也提升了对话系统的对应错误的容忍与处理能力,有助于对话系统在智能语音产品上，尤其是带屏设备，为用户提供更加优异的用户体验。

对语音识别输入法中，尤其在智能终端上,识别错误的问题一直是不可避免的。当前市场主流的产品并没有对纠错提供用户体验良好的设计，只能使用光标定位到特定位置后手动删除内容再使用文本输入法编写出正确的文本。可以预见当语音输入法引入了基于多模态的主动纠错后，在进行纠错时就能够基于上下文直接点击或者选中词语,接着从系统反馈的高置信度的候选词中选择对应正确的词语,可以避免每次纠错都需要使用键盘进行修改,这将极大的提升语音输入法的性能瓶颈与用户体验。

作为一种实施方式，在本实施例中，所述接收所述用户输入的第二语义关键字包括：

当所述用户从所述多个候选词中选择词语时，将所选词语确定为所述第二语义关键字；

当所述用户输入纠正对话语音时，识别所述纠正对话语音，根据识别结果确定所述第二语义关键字。

当所述用户输入纠正文本时，根据所述纠正文本确定所述第二语义关键字。

在本实施方式中，当第一次用户通过语音输入：我想看怦然心动时,由于怦然星动的搜索热度更高，因此系统返回了2015年陈国辉导演的怦然星动。但是用户实际上想要看的是2010罗伯·莱纳导演的电影怦然心动,用户发现识别的错误后,点击了对话图形界面控件上的语音识别结果中的怦然星动。类似的，用户也可以点击对话系统回复中的怦然星动进行纠错，由于怦然星动属于语义槽解析结果，所以此时对话图形界面控件只需要将本轮对话返回的候选结果以列表或者网络的形式展示到屏幕，如果在本轮对话中，用户想要纠正的内容并非完整的语义槽，或者由于错别字导致没有语义解析结果，那么对话系统将有可能没有返回该错别词对应词语的候选结果，当用户选中后将会由对话图形界面控件请求对话系统动态地获取对应的候选词语。

对于极端的情况，比如一些刚出现的网络词语或者新的网络电影，候选列表是有可能不包含用户想要的结果的,此时用户可以：

方法一:直接通过键盘或者虚拟键盘输入对本轮语音识别的结果进行纠正。

方法二:由于用户此时已经选中了错别字，可以直接通过语音说“心情的心”或者直接说正确的内容，比如当数字136因为突然的环境噪音而不是发音无法区分的情况，导致136被识别为133时，只需要选中133后直接说136即可(本方法错别字纠错是已经先执行过选中的操作,因此不会因为识别内容很长,或者包含多个发音相似的字(比如xing,xin)时而出现不能确定哪个字是想要纠正的字)。

通过该实施方式可以看出，提供了多种方式供用户输入纠正的信息，确保准确的同时，提高用户的体验。

作为一种实施方式，在本实施例中，所述接收所述用户输入的第二语义关键字还包括：

当所述用户输入图像信息时，识别所述图像信息内的纠正文本，根据所述纠正文本确定所述第二语义关键字。

在本实施方式中，对于键盘环境不友好，例如，电视、智慧屏或者不熟悉键盘的用户还可以借助摄像头配合手势，指出文本内容。例如：

用户：我想再买一盒瑞士莲巧克力。

系统：为你找到以下瑞氏莲巧克力，请问你要买哪一个？

用户：用户拿出手边的巧克力盒子，指着盒子上的瑞士莲文字，说“不是这三个字，我想要的是这三个字”。

系统:通过语音识别的结果,以及文字识别的结果,综合处理后返回：为你找到以下瑞士莲巧克力，请问你要买哪一个？

通过该实施方式可以看出，提供了图像方式供用户输入纠正的信息，进一步提高用户的体验。

作为一种实施方式，在本实施例中，所述方法还包括：记录每一轮向所述用户反馈带有语义关键字的多轮结果；

响应于所述用户对任一轮结果内语义关键字的选择，将与所述语义关键字对应的多个候选词向所述用户反馈。

在本实施方式中，用户在与智能设备不断的沟通，智能设备通过屏幕记录下与用户的对话记录，例如：

用户：我想看怦然星动。

系统：为你找到以下符合怦然星动的内容，请问你要看哪一部。

用户：怦然心动。

系统：为你找到以下符合怦然心动的内容，请问你要看哪一部。

此时用户可以在上述多轮对话中任一选择，可以选择最新的“为你找到以下符合怦然心动的内容，请问你要看哪一部”。同时前面这三轮对话同样可以选择。来为用户提供纠正历史对话中的错误。进一步提高用户的体验。

作为一种实施方式，在本实施例中，所述基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果包括：

基于所述第一文本信息确定对应的第一技能，当所述第一文本信息命中多个候选技能时，选取预设优先级最高的技能确定为所述第一技能；

通过所述第一技能向所述用户反馈带有所述第一技能的文本的第一结果。

响应于所述用户对所述第一结果内第一技能的文本的选择，将所述多个候选技能向所述用户反馈；

当所述用户的输入包含第二技能的语音对话时，根据所述第一文本信息重新确定所述第二技能，通过所述第二技能向所述用户反馈带有所述第二技能的文本的第二结果；或

当用户输入包含第一技能的否定语气对话时，根据所述第一文本信息重新确定对应的第三技能，通过所述第三技能向所述用户反馈带有所述第三技能的文本的第三结果。

在本实施方式中，对于语义解析错误进行纠正。例如：

用户：播放西游记。

系统：为你找到以下西游记的视频

①用户:我想听的是有声书。

系统：为你播放有声书西游记。

②用户:我不要看视频。

系统：为你播放有声书西游记。

如上述所示,当用户直接说播放西游记时，语义解析会给出置信度最高的技能[影视]，虽然[有声书]技能的置信度也很高，但是这个结果并不一定会被显示出来，因此用户可以在结果不符合预期时，通过主动纠正的形式进行二次交互。

如下述所示,当用户不满意语义解析结果时,可以直接通过纠正对话结果中的语义槽内容纠正：

用户：播放西游记。

系统：为你找到以下西游记的视频。

用户选中对话系统返回的提示语中的视频这个词。

系统:对话图形界面控件自动弹出候选词窗口,窗口中显示了可以使用的其它技能

1.有声书

2.少儿动画

3.音乐

4.儿歌精选

5.百科

用户通过点击选择了有声书。

系统：为你播放有声书西游记。

虽然以上实施例中举的例子都是对中文文字进行纠正，本文所述方法也可以用于纠正其他语言的语音识别错误以及语义解析结果。

通过该实施方式可以看出，提供的纠错功能不但可以处理对话中的真歧义，同时也可以处理语义解析错误，提高了对话系统对应错误的处理能力。

如图3所示为本发明一实施例提供的一种用于语音对话的纠正装置的结构示意图，该装置可执行上述任意实施例所述的用于语音对话的纠正方法，并配置在终端中。

本实施例提供的一种用于语音对话的纠正装置包括：语音识别程序模块11，结果反馈程序模块12，候选词反馈程序模块13和纠正程序模块14。

其中，语音识别程序模块11用于识别用户输入的对话语音的第一文本信息，其中，所述第一文本信息包括：由多个候选词确定的第一语义关键字；结果反馈程序模块12用于基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果；候选词反馈程序模块13用于响应于所述用户对所述第一结果内第一语义关键字的选择，将所述多个候选词向所述用户反馈；纠正程序模块14用于接收所述用户输入的第二语义关键字，基于所述第二语义关键字对所述第一文本信息进行纠正，确定纠正后的第二文本信息，基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。

进一步地，所述语音识别程序模块用于：

所述候选词反馈程序模块用于：

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于语音对话的纠正方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于语音对话的纠正方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：

在一些实施例中，由多个候选词中确定的第一语义关键字包括：从所述多个候选词中选取识别置信度最高的候选词确定为第一语义关键字；

所述将所述多个候选词向所述用户反馈包括：将所述多个候选词按照识别置信度排序，向所述用户反馈所述多个候选词的列表窗口。

在一些实施例中，所述接收所述用户输入的第二语义关键字包括：

当所述用户输入纠正对话语音时，识别所述纠正对话语音，根据识别结果确定所述第二语义关键字；

在一些实施例中，所述接收所述用户输入的第二语义关键字还包括：

在一些实施例中，处理器还用于：记录每一轮向所述用户反馈带有语义关键字的多轮结果；响应于所述用户对任一轮结果内语义关键字的选择，将与所述语义关键字对应的多个候选词向所述用户反馈。

在一些实施例中，所述基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果包括：

在一些实施例中，处理器还用于：响应于所述用户对所述第一结果内第一技能的文本的选择，将所述多个候选技能向所述用户反馈；

图4是本发明另一实施例提供的执行用于语音对话的纠正方法的电子设备的硬件结构示意图，如图4所示，该设备包括：

一个或多个处理器410以及存储器420，图4中以一个处理器410为例。

执行用于语音对话的纠正方法的设备还可以包括：输入装置430和输出装置440。

处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器420作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的用于语音对话的纠正方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于语音对话的纠正方法。

存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于语音对话的纠正装置的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至用于语音对话的纠正装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可接收输入的数字或字符信息，以及产生与用于语音对话的纠正装置的用户设置以及功能控制有关的信号。输出装置440可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器420中，当被所述一个或者多个处理器410执行时，执行上述任意方法实施例中的用于语音对话的纠正。

本发明实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种用于语音对话的纠正方法，用于电子设备，所述方法包括：

所述电子设备识别用户输入的对话语音的第一文本信息，其中，所述第一文本信息包括：由多个候选词确定的第一语义关键字；

所述电子设备基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果；

响应于所述用户对所述第一结果内第一语义关键字的选择，所述电子设备将所述多个候选词向所述用户反馈；

所述电子设备接收所述用户输入的第二语义关键字，基于所述第二语义关键字对所述第一文本信息进行纠正，确定纠正后的第二文本信息，基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。
根据权利要求1所述的方法，其中，所述由多个候选词中确定的第一语义关键字包括：

从所述多个候选词中选取识别置信度最高的候选词确定为第一语义关键字；

所述将所述多个候选词向所述用户反馈包括：

将所述多个候选词按照识别置信度排序，向所述用户反馈所述多个候选词的列表窗口。
根据权利要求1所述的方法，其中，所述接收所述用户输入的第二语义关键字包括：

当所述用户从所述多个候选词中选择词语时，将所选词语确定为所述第二语义关键字；

当所述用户输入纠正对话语音时，识别所述纠正对话语音，根据识别结果确定所述第二语义关键字；

当所述用户输入纠正文本时，根据所述纠正文本确定所述第二语义关键字。
根据权利要求3所述的方法，其中，所述接收所述用户输入的第二语义关键字还包括：

当所述用户输入图像信息时，识别所述图像信息内的纠正文本，根据所述纠正文本确定所述第二语义关键字。
根据权利要求1所述的方法，其中，所述方法还包括：

记录每一轮向所述用户反馈带有语义关键字的多轮结果；

响应于所述用户对任一轮结果内语义关键字的选择，将与所述语义关键字对应的多个候选词向所述用户反馈。
根据权利要求1所述的方法，其中，所述基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果包括：

基于所述第一文本信息确定对应的第一技能，当所述第一文本信息命中多个候选技能时，选取预设优先级最高的技能确定为所述第一技能；

通过所述第一技能向所述用户反馈带有所述第一技能的文本的第一结果。
根据权利要求6所述的方法，其中，所述方法还包括：

响应于所述用户对所述第一结果内第一技能的文本的选择，将所述多个候选技能向所述用户反馈；

当所述用户的输入包含第二技能的语音对话时，根据所述第一文本信息重新确定所述第二技能，通过所述第二技能向所述用户反馈带有所述第二技能的文本的第二结果；或

当用户输入包含第一技能的否定语气对话时，根据所述第一文本信息重新确定对应的第三技能，通过所述第三技能向所述用户反馈带有所述第三技能的文本的第三结果。
一种用于语音对话的纠正装置，包括：

语音识别程序模块，用于识别用户输入的对话语音的第一文本信息，其中，所述第一文本信息包括：由多个候选词确定的第一语义关键字；

结果反馈程序模块，用于基于所述第一文本信息向所述用户反馈带有所述第一语义关键字的第一结果；

候选词反馈程序模块，用于响应于所述用户对所述第一结果内第一语义关键字的选择，将所述多个候选词向所述用户反馈；

纠正程序模块，用于接收所述用户输入的第二语义关键字，基于所述第二语义关键字对所述第一文本信息进行纠正，确定纠正后的第二文本信息，基于所述第二文本信息向所述用户反馈带有所述第二语义关键字的第二结果。
一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。
一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。