WO2022227973A1

WO2022227973A1 - 构建语音识别模型和语音处理的方法和系统

Info

Publication number: WO2022227973A1
Application number: PCT/CN2022/083190
Authority: WO
Inventors: 殷实; 黄韬; 翟毅斌; 伍朝晖
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-04-27
Filing date: 2022-03-25
Publication date: 2022-11-03
Anticipated expiration: 2023-10-27
Also published as: EP4310837A1; EP4310837A4; CN115668360A; WO2022226811A1; US20240242709A1; EP4310837B1

Abstract

一种构建语音识别模型和语音处理的方法、系统、电子设备、计算机可读存储介质及程序产品。在构建语音识别模型的方法中，获取目标关键词（502），并确定与目标关键词语义相关联的同义词组（504）。随后，利用目标关键词和同义词组来训练语言模型，以获得目标语言模型（506）。根据目标语言模型生成第一解码图，其中第一解码图指示满足基于目标关键词和同义词组所确定的语法约束规则的多条解码路径（508），并基于第一解码图，确定语音识别模型（510）。该方法能够构建具有关键词泛化识别能力的语音识别模型。还提供了构建基于音素序列来进行语音识别的语音识别模型的方法。

Description

构建语音识别模型和语音处理的方法和系统

技术领域

本公开的实施例主要涉及计算机领域，并且更具体地，涉及构建语音识别模型和语音处理的方法和系统。

背景技术

随着计算机技术的发展，语音识别技术已经被广泛地应用于人们生活中的各个方面。在语音识别过程中，语义理解是实现语音交互的重要技术。尤其对于计算能力有限的轻设备(例如，智能家居设备)而言，由于计算能力受限，语义理解是用于实现语音控制的关键。

然而，目前支持语音识别的轻设备通常无法支持自定义的语义，更是完全无法处理相同或相近语义的语音输入，这极大地影响了用户语音交互的体验。

发明内容

本公开的实施例提供了一种构建语音识别模型和语音处理的方案。

在本公开的第一方面，提供了一种构建语音识别模型的方法。该方法包括：获取目标关键词；获取与目标关键词语义相关联的同义词组；利用目标关键词和同义词组训练语言模型，以获得目标语言模型；根据目标语言模型生成第一解码图，第一解码图指示满足基于目标关键词和同义词组所确定的语法约束规则的多条解码路径；以及基于第一解码图，确定语音识别模型。

在第一方面的一些实施例中，该方法例如可以由具有较强计算能力的第一计算设备执行。第一计算设备例如可以包括云侧或嵌入式重设备，其可以具有较强的计算能力，以用于执行语音识别模型的构建。第一计算设备例如还可以包括用户终端设备。在第一方面的一些实施例中，该方法中的一个或多个步骤例如还可以是由用户终端和云端协作执行的。

在第一方面的一些实施例中，所获得的语音识别模型例如可以被部署至第二计算设备。第二计算设备可以包括嵌入式轻设备，其例如具有较弱的计算能力，以用于利用所部署的语音识别模型来执行语音处理。第二计算设备的示例可以包括但不限于：智能家居设备(例如，空调、冰箱、洗衣机、电视、音箱等)、智能穿戴设备(例如，手环、手表、眼镜等)或车载设备等。

基于这样的方式，本公开的实施例能够构建具有关键词泛化识别能力的语音识别模型，从而能够使得例如较小算力的第二计算设备能够具有关键词泛化识别能力，从而提高用户的交互体验。

在第一方面的一些实施例中，目标关键词包括来自音频采集器的语音输入的关键词，音频采集器位于用户终端处。在第一方面的另一些实施例中，目标关键词包括来自文本采集器的文本输入的关键词，文本采集器位于用户终端处。

例如，如果第一计算设备为用户终端，则用户例如可以直接向该用户终端提供语音输入或文本输入，以使得用户终端能够从语音输入或文本输入中提取关键词，以进行语音识别模型的构建。

例如，如果第一计算设备为与用户终端不同的计算设备，例如，云端设备或边缘计算设备，则用户例如可以利用用户终端所提供的接口来输入语音或文本。这样的语音输入或文本输入可以被发送至第一计算设备，以使得第一计算设备能够获取关键词，以进行语音识别模型的构建。

基于这样的方式，可以使得用户能够定制语音识别模型能够支持的关键词，从而能够提高语音识别模型的个性化程度。

在第一方面的一些实施例中，确定与目标关键词语义相关联的同义词组包括：确定目标关键词的语义；以及至少基于目标关键词的语义，确定同义词组，其中同义词组中的每个同义词的语义与目标关键词的语义的差异小于差异阈值。

基于这样的方式，第一计算设备可以自动地基于语义扩展出相关联的同义词组，而不依赖于用户的输入，进而提升降低了用户的交互开销。

在第一方面的一些实施例中，至少基于目标关键词的语义确定同义词组包括：基于目标关键词的语义和目标关键词的长度，确定同义词组，其中同义词组中的每个同义词的长度与目标关键词的长度的差异小于长度阈值。关键词的长度例如可以表示该关键词中包括的字符的数目或者单词的数目。基于这样的方式，能够使得同义词组中的同义词具有接近的长度，从而能够降低利用解码图来进行解码搜索的复杂度。

在第一方面的一些实施例中，至少基于目标关键词的语义确定同义词组包括：基于目标关键词的语义，获取多个候选同义词；向用户提供多个候选同义词；以及基于从用户接收的用户输入，从多个候选同义词中确定同义词组，用户输入指示多个候选同义词中的至少一个候选同义词被排除或被确认。

基于这样的方式，可以进一步基于用户反馈来调整用于训练语音识别模型的同义词组，这能够使得所获得的语音识别模型能够更加符合用户的使用习惯。

在第一方面的一些实施例中，目标关键词至少包括第一关键词和第二关键词，其中基于第一解码图确定语音识别模型包括：从第一解码图中获取第一组解码路径和第二组解码路径，第一组解码路径包括与第一关键词和与第一关键词语义相关联的第一同义词组相对应的解码路径，第二组解码路径包括与第二关键词和与第二关键词语义相关联的第二同义词组相对应的解码路径；基于第一组解码路径生成第一子图；基于第二组解码路径生成第二子图；以及至少基于第一子图和第二子图来确定语音识别模型。基于这样的方式，所生成的解码图具有较低的复杂度，能够支持更快的解码搜索，从而降低计算开销和存储开销。

在第一方面的一些实施例中，第一子图指示第一解码路径和第二解码路径，第一解码路径为与第一关键词相对应的解码路径，第二解码路径为与第一同义词组中的同义词相对应的解码路径，第一解码路径和每条第二解码路径在第一子图中具有相同的权重。基于这样的方式，能够实现针对所扩展的同义词更为快速的解码搜索，从而降低计算开销和存储开销。

在第一方面的一些实施例中，获取目标关键词包括：根据预存的历史关键词和接收的关键词获取第一关键词组；以及响应于确定第一关键词组中的关键词数目超过预定阈值，基于预定阈值从第一关键词组中获取目标关键词。例如，第一计算设备可以仅保留第一关键词组中预定阈值数目的关键词，以作为目标关键词。

基于这样的方式，能够避免用于训练语言模型的关键词数目过多，从而保证解码图是轻量级的，从而能够适用于具有较少计算资源的设备。

在第一方面的一些实施例中，基于预定阈值从第一关键词组中获取目标关键词包括：根据目标关键词中的关键词的属性来从第一关键词组中获取目标关键词，目标关键词数量为预定阈值。例如，可以从第一关键词组中删除最早被创建的一个或多个历史关键词，从而获得预定阈值数目的关键词。

在第一方面的一些实施例中，基于预定阈值从第一关键词组中获取目标关键词包括：根据用户指示来从第一关键词组中获取目标关键词，目标关键词数量为预定阈值。例如，可以根据用户输入来选择保留第一关键词组中的哪些关键词以作为目标关键词。

在第一方面的一些实施例中，第一计算设备还可以指示向目标计算设备(例如，第二计算设备)提供语音识别模型，以用于在目标计算设备上部署语音识别模型。基于这样的方式，能够支持语音识别模型的自动部署。

在本公开的第二方面，提供了一种语音处理的方法。该方法包括：接收语音输入；以及利用语音识别模型来确定与语音输入相关联的文本表示，其中语音识别模型是基于以下过程而被获得的：获取目标关键词；获取与目标关键词语义相关联的同义词组；利用目标关键词和同义词组训练语言模型，以获得目标语言模型；根据目标语言模型生成第一解码图，第一解码图指示满足基于目标关键词和同义词组所确定的语法约束规则的多条解码路径；以及基于第一解码图，确定语音识别模型。

在第二方面的一些实施例中，语音识别模型可以是由第一计算设备来获得的。第一计算设备例如可以包括云侧或嵌入式重设备，其可以具有较强的计算能力，以用于执行语音识别模型的构建。第一计算设备例如还可以包括用户终端设备。

在第二方面的一些实施例中，获得语音识别模型的步骤例如还可以是由用户终端和云端协作执行的。

在第二方面的一些实施例中，该语音处理方法例如可以是由第二计算设备来执行的。第二计算设备可以包括嵌入式轻设备，其例如具有较弱的计算能力，以用于利用所部署的语音识别模型来执行语音处理。第二计算设备的示例可以包括但不限于：智能家居设备(例如，空调、冰箱、洗衣机、电视、音箱等)、智能穿戴设备(例如，手环、手表、眼镜等)或车载设备等。

基于这样的方式，本公开的实施例能够使得例如较小算力的第二计算设备具有关键词泛化识别能力，从而提高用户的语音交互体验。

在第二方面的一些实施例中，目标关键词包括来自音频采集器的语音输入的关键词，音频采集器位于用户终端处。在第二方面的另一些实施例中，目标关键词包括来自文本采集器的文本输入的关键词，文本采集器位于用户终端处。

基于这样的方式，可以使得用户能够定制语音识别模型能够支持的关键词，从而能够语音识别模型的个性化程度。

在第二方面的一些实施例中，确定与目标关键词语义相关联的同义词组包括：确定目标关键词的语义；以及至少基于目标关键词的语义，确定同义词组，其中同义词组中的每个同义词的语义与目标关键词的语义的差异小于差异阈值。

在第二方面的一些实施例中，至少基于目标关键词的语义确定同义词组包括：基于目标关键词的语义和目标关键词的长度，确定同义词组，其中同义词组中的每个同义词的长度与目标关键词的长度的差异小于长度阈值。关键词的长度例如可以表示该关键词中包括的字符的数目或者单词的数目。基于这样的方式，能够使得同义词组中的同义词具有接近的长度，从而能够降低利用解码图来进行解码搜索的复杂度。

在第二方面的一些实施例中，至少基于目标关键词的语义确定同义词组包括：基于目标关键词的语义，获取多个候选同义词；向用户提供多个候选同义词；以及基于从用户接收的用户输入，从多个候选同义词中确定同义词组，用户输入指示多个候选同义词中的至少一个候选同义词被排除或被确认。

在第二方面的一些实施例中，目标关键词至少包括第一关键词和第二关键词，其中基于第一解码图确定语音识别模型包括：从第一解码图中获取第一组解码路径和第二组解码路径，第一组解码路径包括与第一关键词和与第一关键词语义相关联的第一同义词组相对应的解码路径，第二组解码路径包括与第二关键词和与第二关键词语义相关联的第二同义词组相对应的解码路径；基于第一组解码路径生成第一子图并基于第二组解码路径生成第二子图；以及至少基于第一子图和第二子图来确定语音识别模型。基于这样的方式，所生成的解码图具有较低的复杂度，能够支持更快的解码搜索，从而降低计算开销和存储开销。

在第二方面的一些实施例中，第一子图指示第一解码路径和第二解码路径，第一解码路径为与第一关键词相对应的解码路径，第二解码路径为第一同义词组中的同义词相对应的解码路径，第一解码路径和每条第二解码路径在第一子图中具有相同的权重。基于这样的方式，能够实现针对所扩展的同义词更为快速的解码搜索，从而降低计算开销和存储开销。

在第二方面的一些实施例中，获取目标关键词包括：根据预存的历史关键词和接收的关键词获取第一关键词组；以及响应于确定第一关键词组中的关键词数目超过预定阈值，基于预定阈值从第一关键词组中获取目标关键词。例如，可以仅保留第一关键词组中预定阈值数目的关键词，以作为目标关键词。

在第二方面的一些实施例中，基于预定阈值从第一关键词组中获取目标关键词包括：根据目标关键词中的关键词的属性来从第一关键词组中获取目标关键词，目标关键词数量为预定阈值。例如，可以从第一关键词组中删除最早被创建的一个或多个历史关键词，从而获得预定阈值数目的关键词。

在第二方面的一些实施例中，基于预定阈值从第一关键词组中获取目标关键词包括：根据用户指示来从第一关键词组中获取目标关键词，目标关键词数量为预定阈值。例如，可以根据用户输入来选择保留第一关键词组中的哪些关键词以作为目标关键词。

在第二方面的一些实施例中，第二计算设备还可以执行与文本表示对应的动作。备选地，第二计算设备还可以基于文本表示生成对应的控制命令，并发送至第三计算设备，以使得第三计算设备执行对应的动作。

在第二方面的一些实施例中，文本表示对应于目标关键词或同义词组中的一个同义词。

在本公开的第三方面，提供了一种语音模型构建系统。该系统包括关键词获取单元，用于获取目标关键词；同义词获取单元，用于获取与目标关键词语义相关联的同义词组；模型训练单元，用于利用目标关键词和同义词组训练语言模型，以获得目标语言模型；解码图生成单元，用于根据目标语言模型生成第一解码图，第一解码图指示满足基于目标关键词和同义词组所确定的语法约束规则的多条解码路径；以及模型确定单元，用于基于第一解码图，确定语音识别模型。

在第三方面的一些实施例中，语音模型构建系统例如可以包括具有较强计算能力的第一计算设备。第一计算设备例如可以包括云侧或嵌入式重设备，其可以具有较强的计算能力，以用于执行语音识别模型的构建。第一计算设备例如还可以包括用户终端设备。在第三方面的一些实施例中，该方法例如还可以是由用户终端和云端协作执行的。

在第三方面的一些实施例中，所获得的语音识别模型例如可以被部署至第二计算设备。第二计算设备可以包括嵌入式轻设备，其例如具有较弱的计算能力，以用于利用所部署的语音识别模型来执行语音处理。第二计算设备的示例可以包括但不限于：智能家居设备(例如，空调、冰箱、洗衣机、电视、音箱等)、智能穿戴设备(例如，手环、手表、眼镜等)或车载设备等。

在第三方面的一些实施例中，目标关键词包括来自音频采集器的语音输入的关键词，音频采集器位于用户终端处。在第三方面的另一些实施例中，目标关键词包括来自文本采集器的文本输入的关键词，文本采集器位于用户终端处。

在第三方面的一些实施例中，同义词获取单元还用于：确定目标关键词的语义；以及至少基于目标关键词的语义，确定同义词组，其中同义词组中的每个同义词的语义与目标关键词的语义的差异小于差异阈值。

在第三方面的一些实施例中，同义词获取单元还用于：基于目标关键词的语义和目标关键词的长度，确定同义词组，其中同义词组中的每个同义词的长度与目标关键词的长度的差异小于长度阈值。关键词的长度例如可以表示该关键词中包括的字符的数目或者单词的数目。基于这样的方式，能够使得同义词组中的同义词具有接近的长度，从而能够降低利用解码图来进行解码搜索的复杂度。

在第三方面的一些实施例中，同义词获取单元还用于：基于目标关键词的语义，获取多个候选同义词；向用户提供多个候选同义词；以及基于从用户接收的用户输入，从多个候选同义词中确定同义词组，用户输入指示多个候选同义词中的至少一个候选同义词被排除或被确认。

在第三方面的一些实施例中，目标关键词至少包括第一关键词和第二关键词，其中模型合并单元还用于：从第一解码图中获取第一组解码路径和第二组解码路径，第一组解码路径包括与第一关键词和与第一关键词语义相关联的第一同义词组相对应的解码路径，第二组解码路径包括与第二关键词和与第二关键词语义相关联的第二同义词组相对应的解码路径；基于第一组解码路径生成第一子图并基于第二组解码路径生成第二子图；以及至少基于第一子图和第二子图来确定语音识别模型。基于这样的方式，所生成的解码图具有较低的复杂度，能够支持更快的解码搜索，从而降低计算开销和存储开销。

在第三方面的一些实施例中，第一子图指示第一解码路径和第二解码路径，第一解码路径为与第一关键词相对应的解码路径，第二解码路径为第一同义词组中的同义词相对应的解码路径，第一解码路径和每条第二解码路径在第一子图中具有相同的权重。基于这样的方式，能够实现针对所扩展的同义词更为快速的解码搜索，从而降低计算开销和存储开销。

在第三方面的一些实施例中，关键词获取单元还用于：根据预存的历史关键词和接收的关键词获取第一关键词组；以及响应于确定第一关键词组中的关键词数目超过预定阈值，基于预定阈值从第一关键词组中获取目标关键词。

在第三方面的一些实施例中，关键词获取单元还用于：根据目标关键词中的关键词的属性来从第一关键词组中获取目标关键词，目标关键词数量为预定阈值。例如，可以从第一关键词组中删除最早被创建的一个或多个历史关键词，从而获得预定阈值数目的关键词。

在第三方面的一些实施例中，关键词获取单元还用于：根据用户指示来从第一关键词组中获取目标关键词，目标关键词数量为预定阈值。例如，可以根据用户输入来选择保留第一关键词组中的哪些关键词以作为目标关键词。

在第三方面的一些实施例中，语音模型构建系统还可以指示向目标计算设备(例如，第二计算设备)提供语音识别模型，以用于在目标计算设备上部署语音识别模型。基于这样的方式，能够支持语音识别模型的自动部署。

在本公开的第四方面，提供了一种语音处理系统。该系统包括：语音输入单元，用于接收语音输入；以及语音处理单元，用于利用语音识别模型来确定与语音输入相关联的文本表示，其中语音识别模型是基于以下过程而被获得的：获取目标关键词；获取与目标关键词语义相关联的同义词组；利用目标关键词和同义词组训练语言模型，以获得目标语言模型；根据目标语言模型生成第一解码图，第一解码图指示满足基于目标关键词和同义词组所确定的语法约束规则的多条解码路径；以及基于第一解码图，确定语音识别模型。

在第四方面的一些实施例中，语音识别模型可以是由第一计算设备来获得的。第一计算设备例如可以包括云侧或嵌入式重设备，其可以具有较强的计算能力，以用于执行语音识别模型的构建。第一计算设备例如还可以包括用户终端设备。

在第四方面的一些实施例中，获得语音识别模型的步骤例如还可以是由用户终端和云端协作执行的。

在第四方面的一些实施例中，语音处理系统例如可以包括第二计算设备。第二计算设备可以包括嵌入式轻设备，其例如具有较弱的计算能力，以用于利用所部署的语音识别模型来执行语音处理。第二计算设备的示例可以包括但不限于：智能家居设备(例如，空调、冰箱、洗衣机、电视、音箱等)、智能穿戴设备(例如，手环、手表、眼镜等)或车载设备等。

在第四方面的一些实施例中，目标关键词包括来自音频采集器的语音输入的关键词，音频采集器位于用户终端处。在第四方面的另一些实施例中，目标关键词包括来自文本采集器的文本输入的关键词，文本采集器位于用户终端处。

在第四方面的一些实施例中，确定与目标关键词语义相关联的同义词组包括：确定目标关键词的语义；以及至少基于目标关键词的语义，确定同义词组，其中同义词组中的每个同义词的语义与目标关键词的语义的差异小于差异阈值。

在第四方面的一些实施例中，至少基于目标关键词的语义确定同义词组包括：基于目标关键词的语义和目标关键词的长度，确定同义词组，其中同义词组中的每个同义词的长度与目标关键词的长度的差异小于长度阈值。关键词的长度例如可以表示该关键词中包括的字符的数目或者单词的数目。基于这样的方式，能够使得同义词组中的同义词具有接近的长度，从而能够降低利用解码图来进行解码搜索的复杂度。

在第四方面的一些实施例中，至少基于目标关键词的语义确定同义词组包括：基于目标关键词的语义，获取多个候选同义词；向用户提供多个候选同义词；以及基于从用户接收的用户输入，从多个候选同义词中确定同义词组，用户输入指示多个候选同义词中的至少一个候选同义词被排除或被确认。

在第四方面的一些实施例中，目标关键词至少包括第一关键词和第二关键词，其中基于第一解码图确定语音识别模型包括：从第一解码图中获取第一组解码路径和第二组解码路径，第一组解码路径包括与第一关键词和与第一关键词语义相关联的第一同义词组相对应的解码路径，第二组解码路径包括与第二关键词和与第二关键词语义相关联的第二同义词组相对应的解码路径；基于第一组解码路径生成第一子图并基于第二组解码路径生成第二子图；以及至少基于第一子图和第二子图来确定语音识别模型。基于这样的方式，所生成的解码图具有较低的复杂度，能够支持更快的解码搜索，从而降低计算开销和存储开销。

在第四方面的一些实施例中，第一子图指示第一解码路径和第二解码路径，第一解码路径为与第一关键词相对应的解码路径，第二解码路径为第一同义词组中的同义词相对应的解码路径，第一解码路径和每条第二解码路径在第一子图中具有相同的权重。基于这样的方式，能够实现针对所扩展的同义词更为快速的解码搜索，从而降低计算开销和存储开销。

在第四方面的一些实施例中，获取目标关键词包括：根据预存的历史关键词和接收的关键词获取第一关键词组；以及响应于确定第一关键词组中的关键词数目超过预定阈值，基于预定阈值从第一关键词组中获取目标关键词。

在第四方面的一些实施例中，基于预定阈值从第一关键词组中获取目标关键词包括：根据目标关键词中的关键词的属性来从第一关键词组中获取目标关键词，目标关键词数量为预定阈值。例如，可以从第一关键词组中删除最早被创建的一个或多个历史关键词，从而获得预定阈值数目的关键词。

在第四方面的一些实施例中，基于预定阈值从第一关键词组中获取目标关键词包括：根据用户指示来从第一关键词组中获取目标关键词，目标关键词数量为预定阈值。例如，可以根据用户输入来选择保留第一关键词组中的哪些关键词以作为目标关键词。

在第四方面的一些实施例中，语音处理系统还可以执行与文本表示对应的动作。备选地，第二计算设备还可以基于文本表示生成对应的控制命令，并发送至第三计算设备，以使得第三计算设备执行对应的动作。

在第四方面的一些实施例中，文本表示对应于目标关键词或同义词组中的一个同义词。

在本公开的第五方面，提供了一种构建语音识别模型的方法。该方法包括：获取目标语言信息；获取与目标语言信息相关联的同义音素序列组，同义音素序列组包括至少一个所述同义音素序列，至少一个同义音素序列为与目标语言信息语义相近的词句所对应的音素序列；利用同义音素序列组训练语言模型，以获取目标语言模型；根据目标语言模型生成第一解码图，第一解码图指示满足基于同义音素序列组所确定的语法约束规则的多条解码路径；以及基于第一解码图，确定语音识别模型。

在第五方面的一些实施例中，该方法例如可以由具有较强计算能力的第一计算设备执行。第一计算设备例如可以包括云侧或嵌入式重设备，其可以具有较强的计算能力，以用于执行语音识别模型的构建。第一计算设备例如还可以包括用户终端设备。在第五方面的一些实施例中，该方法中的一个或多个步骤例如还可以是由用户终端和云端协作执行的。

在第五方面的一些实施例中，所获得的语音识别模型例如可以被部署至第二计算设备。第二计算设备可以包括嵌入式轻设备，其例如具有较弱的计算能力，以用于利用所部署的语音识别模型来执行语音处理。第二计算设备的示例可以包括但不限于：智能家居设备(例如，空调、冰箱、洗衣机、电视、音箱等)、智能穿戴设备(例如，手环、手表、眼镜等)或车载设备等。

基于这样的方式，本公开的实施例能够构建具有与目标语言信息相关联的音素序列泛化识别能力的语音识别模型，从而能够使得例如较小算力的第二计算设备能够具有音素序列泛化识别能力，从而提高用户的交互体验。

在第五方面的一些实施例中，目标语言信息可以包括语音或文本。在一些实施例中，目标语言信息包括来自音频采集器的语音输入，音频采集器位于用户终端处。在另一些实施例中，从用户终端处的文本采集器获取文本输入的关键词。在一些实施例中，目标语言信息可以是一些简短的指令词或者指令语句，如“关闭”，“停止”，“暂停”，“提高音量”，“增大音量”等。

例如，如果第一计算设备为用户终端，则用户例如可以直接向该用户终端提供语音输入或文本输入，以使得用户终端能够从语音输入或文本输入中提取目标语言信息，以进行语音识别模型的构建。

例如，如果第一计算设备为与用户终端不同的计算设备，例如，云端设备或边缘计算设备，则用户例如可以利用用户终端所提供的接口来输入语音或文本。这样的语音输入或文本输入可以被发送至第一计算设备，以使得第一计算设备能够获取目标语言信息，以进行语音识别模型的构建。基于这样的方式，可以使得用户能够定制语音识别模型能够支持的音素序列，从而能够提高语音识别模型的个性化程度。

在第五方面的一些实施例中，获取与目标语言信息相关联的同义音素序列组包括：确定目标语言信息的语义；以及至少基于目标语言信息的语义确定同义音素序列组，其中同义音素序列组中的每个同义音素序列的语义与目标语言信息的语义的差异小于差异阈值。

基于这样的方式，第一计算设备可以自动地基于语义扩展出相关联的同义音素序列组，而不依赖于用户的输入，进而提升降低了用户的交互开销。

在第五方面的一些实施例中，至少基于目标语言信息的语义确定同义音素序列组包括：确定与目标语言信息对应的目标音素序列；以及基于目标音素序列的语义和目标音素序列的长度，确定同义音素序列组，同义音素序列组中的每个同义音素序列的长度与目标音素序列的长度的差异小于长度阈值。音素序列的长度例如可以表示该音素序列中包括的音素(例如，声韵母)的数目。在一些实施例中，如果目标语言信息是文本，则可以通过发音词典得到与该文本对应的音素序列作为目标音素序列。如果目标语言信息是语音，可以通过声学模型来得到该语音的音素序列作为目标音素序列。

基于这样的方式，能够使得同义音素序列组中的同义音素序列具有接近的长度，从而能够降低利用解码图来进行解码搜索的复杂度。

在第五方面的一些实施例中，获取与目标语言信息语义相关联的同义音素序列组包括：基于对应于目标语言信息的目标关键词的语义，获取多个候选同义词；向用户提供多个候选同义词；基于从用户接收的用户输入，从多个候选同义词中确定同义词组，用户输入指示多个候选同义词中的至少一个候选同义词被排除或被确认；以及基于发音词典和同义词组，获取同义音素序列组。

基于这样的方式，可以进一步基于用户反馈来调整用于训练语音识别模型的同义音素序列组，这能够使得所获得的语音识别模型能够更加符合用户的使用习惯。

在第五方面的一些实施例中，其中获取与所述目标音素序列语义相关联的同义音素序列组包括：从用户接收语音输入；以及基于所述语音输入来生成同义音素序列组。例如，基于语音输入对应的关键词来得到语音输入的语义，从而生成所述同义音素序列组。

基于这样的方式，可以进一步基于语音输入形式的用户反馈来补充用于训练语音识别模型的同义音素序列组，这能够使得所获得的语音识别模型能够更加符合用户的使用习惯。

在第五方面的一些实施例中，目标语言信息至少包括第一语言信息和第二语言信息，其中基于第一解码图确定语音识别模型包括：从第一解码图中获取第一组解码路径和第二组解码路径，第一组解码路径包括与所述第一语言信息相关联的第一同义音素序列组的解码路径，第二组解码路径包括与第二语言信息相关联的第二同义音素序列组的解码路径；基于第一组解码路径生成第一子图；基于第二组解码路径生成第二子图；以及至少基于第一子图和第二子图来确定语音识别模型。基于这样的方式，所生成的解码图具有较低的复杂度，能够支持更快的解码搜索，从而降低计算开销和存储开销。

在第五方面的一些实施例中，第一子图指示第一解码路径和第二解码路径，第一解码路径和第二解码路径为与第一同义音素序列组中的解码路径，第一解码路径和第二解码路径在第一子图中具有相同的权重。基于这样的方式，能够实现针对所扩展的同义音素序列的更为快速的解码搜索，从而降低计算开销和存储开销。

在第五方面的一些实施例中，获取目标语言信息包括：根据预存的历史语言信息和接收的语言信息获取第一语言信息组；响应于确定第一语言信息组中的语言信息的数目超过预定阈值，基于预定阈值从第一语言信息组中获取所述目标语言信息。

基于这样的方式，能够避免用于训练语言模型的语言信息数目过多，从而保证解码图是轻量级的，从而能够适用于具有较少计算资源的设备。

在第五方面的一些实施例中，基于预定阈值从第一语言信息组中获取目标语言信息包括：根据目标语言信息中的语言信息的属性从第一语言信息组中获取目标语言信息，目标语言信息的数量为预定阈值。例如，可以从第一语言信息组中删除最早被创建的一个或多个历史语言信息，从而获得预定阈值数目的语言信息。

在第五方面的一些实施例中，基于预定阈值从第一语言信息组中获取目标语言信息包括：根据用户指示来从第一语言信息组中获取目标语言信息，目标语言信息的数量为预定阈值。例如，可以根据用户输入来选择保留第一语言信息组中的哪些语言信息以作为目标语言信息。

在第五方面的一些实施例中，第一计算设备还可以指示向目标计算设备(例如，第二计算设备)提供语音识别模型，以用于在目标计算设备上部署语音识别模型。基于这样的方式，能够支持语音识别模型的自动部署。

在本公开的第六方面，提供了一种语音处理方法，包括：接收语音指令输入；利用语音识别模型来获取所述语音输入的音素序列表示，所述语音识别模型被配置基于指令语义同义的音素序列组进行语音指令的识别；以及如果所述音素序列表示对应于所述音素序列组中的音素序列，执行与所述音素序列表示对应的指令。

在第六方面的一些实施例中，语音识别模型可以是由第一计算设备来获得的。第一计算设备例如可以包括云侧或嵌入式重设备，其可以具有较强的计算能力，以用于执行语音识别模型的构建。第一计算设备例如还可以包括用户终端设备。

在第六方面的一些实施例中，获得语音识别模型的步骤例如还可以是由用户终端和云端协作执行的。

在第六方面的一些实施例中，该语音处理方法例如可以是由第二计算设备来执行的。第二计算设备可以包括嵌入式轻设备，其例如具有较弱的计算能力，以用于利用所部署的语音识别模型来执行语音处理。第二计算设备的示例可以包括但不限于：智能家居设备(例如，空调、冰箱、洗衣机、电视、音箱等)、智能穿戴设备(例如，手环、手表、眼镜等)或车载设备等。

基于这样的方式，本公开的实施例能够使得例如较小算力的第二计算设备具有音素序列泛化识别能力，而不需要通过识别关键词来进行自然语言理解，从而降低对设备性能的要求，同时还提高了用户的语音交互体验。

在第六方面的一些实施例中，语音识别模型是基于以下过程而被获得的：获取目标语言信息；获取与目标语言信息相关联的同义音素序列组，同义音素序列组包括至少一个同义音素序列，同义音素序列为与目标语言信息语义相近的词句所对应的音素序列；利用同义音素序列组训练语言模型，以获取目标语言模型；根据目标语言模型生成第一解码图，第一解码图指示满足基于同义音素序列组所确定的语法约束规则的多条解码路径；以及基于第一解码图，确定语音识别模型。

基于这样的方式，所构建的语音识别模型能够实现自定义的目标语言信息的泛化识别能力。

在第六方面的一些实施例中，如果音素序列表示与音素序列组中的任何一个音素序列都不匹配，提供无识别结果的通知。基于这样的方式，能够实时且高效地识别用户语音，提高了用户的语音交互体验。

在第六方面的一些实施例中，语音识别模型被配置用于识别具有第一语义同义的第一音素序列组和具有第二语义同义的第二音素序列组。方法还可以包括如果音素序列表示对应于第一音素序列组中的第一音素序列，执行第一指令，以及如果音素序列表示对应于第二音素序列组中的第二音素序列，执行与第一动作不同的第二指令。基于这样的方式，能够利用语音识别模型来识别出具有不同语义的音素序列组中的音素序列，由此能够执行对应于用户意图的指令。

在第六方面的一些实施例中，利用语音识别模型来获取语音指令的音素序列表示可以包括：利用声学模型来生成语音指令输入的语音特征到音素的发射概率；通过将发射概率输入到语音识别模型来识别语音指令输入；以及使语音识别模型输出音素序列表示。基于这样的方式，可以从语音形式的指令得到对应的音素序列，以用于匹配语音识别模型能够识别的音素序列组中的音素序列。在本公开的第七方面，提供了一种语音模型构建系统，包括：目标语言信息获取单元，用于获取目标语言信息；同义音素序列组获取单元，用于获取与所述目标语言信息相关联的同义音素序列组，所述同义音素序列组包括至少一个同义音素序列，至少一个同义音素序列为与所述目标语言信息语义相近的词句所对应的音素序列；模型训练单元，用于利用所述同义音素序列组训练语言模型，以获得目标语言模型；解码图生成单元，用于根据所述目标语言模型生成第一解码图，所述第一解码图指示满足基于所述同义音素序列组所确定的语法约束规则的多条解码路径；以及模型确定单元，用于基于所述第一解码图，确定所述语音识别模型。

在第七方面的一些实施例中，根据第七方面的的语音模型构建系统例如可以由具有较强计算能力的第一计算设备来实现。第一计算设备例如可以包括云侧或嵌入式重设备，其可以具有较强的计算能力，以用于执行语音识别模型的构建。第一计算设备例如还可以包括用户终端设备。在第七方面的一些实施例中，该系统还可以是由用户终端和云端协作来实现的。

在第七方面的一些实施例中，所获得的语音识别模型例如可以被部署至第二计算设备。第二计算设备可以包括嵌入式轻设备，其例如具有较弱的计算能力，以用于利用所部署的语音识别模型来执行语音处理。第二计算设备的示例可以包括但不限于：智能家居设备(例如，空调、冰箱、洗衣机、电视、音箱等)、智能穿戴设备(例如，手环、手表、眼镜等)或车载设备等。

在第七方面的一些实施例中，目标语言信息可以包括语音或文本。在一些实施例中，目标语言信息包括来自音频采集器的语音输入，音频采集器位于用户终端处。在另一些实施例中，从用户终端处的文本采集器获取文本输入的关键词。在一些实施例中，目标语言信息可以是一些简短的指令词或者指令语句，如“关闭”，“停止”，“暂停”，“提高音量”，“增大音量”等。

在第七方面的一些实施例中，同义音素序列组获取单元还可以用于：确定目标语言信息的语义；以及至少基于目标语言信息的语义确定同义音素序列组，其中同义音素序列组中的每个同义音素序列的语义与目标语言信息的语义的差异小于差异阈值。

在第七方面的一些实施例中，同义音素序列组获取单元还可以用于：确定与目标语言信息对应的目标音素序列；以及基于目标音素序列的语义和目标音素序列的长度，确定同义音素序列组，同义音素序列组中的每个同义音素序列的长度与目标音素序列的长度的差异小于长度阈值。音素序列的长度例如可以表示该音素序列中包括的音素(例如，声韵母)的数目。在一些实施例中，如果目标语言信息是文本，则可以通过发音词典得到与该文本对应的音素序列作为目标音素序列。如果目标语言信息是语音，可以通过声学模型来得到该语音的音素序列作为目标音素序列。

在第七方面的一些实施例中，同义音素序列组获取单元还可以用于：基于对应于目标语言信息的目标关键词的语义，获取多个候选同义词；向用户提供多个候选同义词；基于从用户接收的用户输入，从多个候选同义词中确定同义词组，用户输入指示多个候选同义词中的至少一个候选同义词被排除或被确认；以及基于发音词典和同义词组，获取同义音素序列组。

在第七方面的一些实施例中，同义音素序列组获取单元还可以用于：从用户接收语音输入；以及基于语音输入来生成同义音素序列组。例如，基于语音输入对应的关键词来得到语音输入的语义，从而生成所述同义音素序列组。

在第七方面的一些实施例中，目标语言信息至少包括第一语言信息和第二语言信息，其中模型确定单元还可以用于：从第一解码图中获取第一组解码路径和第二组解码路径，第一组解码路径包括与第一语言信息相关联的第一同义音素序列组的解码路径，第二组解码路径包括与第二语言信息相关联的第二同义音素序列组的解码路径；基于第一组解码路径生成第一子图；基于第二组解码路径生成第二子图；以及至少基于第一子图和第二子图来确定语音识别模型。基于这样的方式，所生成的解码图具有较低的复杂度，能够支持更快的解码搜索，从而降低计算开销和存储开销。

在第七方面的一些实施例中，第一子图指示第一解码路径和第二解码路径，第一解码路径和第二解码路径为与第一同义音素序列组中的解码路径，第一解码路径和第二解码路径在第一子图中具有相同的权重。基于这样的方式，能够实现针对所扩展的同义音素序列的更为快速的解码搜索，从而降低计算开销和存储开销。

在第七方面的一些实施例中，目标语言信息获取单元还可以用于：根据预存的历史语言信息和接收的语言信息获取第一语言信息组；响应于确定第一语言信息组中的语言信息的数目超过预定阈值，基于预定阈值从第一语言信息组中获取目标语言信息。

在第七方面的一些实施例中，目标语言信息获取单元还可以用于：根据目标语言信息中的语言信息的属性从第一语言信息组中获取目标语言信息，目标语言信息的数量为预定阈值。例如，可以从第一语言信息组中删除最早被创建的一个或多个历史语言信息，从而获得预定阈值数目的语言信息。

在第七方面的一些实施例中，目标语言信息获取单元还可以用于：根据用户指示来从第一语言信息组中获取目标语言信息，目标语言信息的数量为预定阈值。例如，可以根据用户输入来选择保留第一语言信息组中的哪些语言信息以作为目标语言信息。

在第七方面的一些实施例中，第一计算设备还可以指示向目标计算设备(例如，第二计算设备)提供语音识别模型，以用于在目标计算设备上部署语音识别模型。基于这样的方式，能够支持语音识别模型的自动部署。

在本公开的第八方面，提供了一种语音处理系统，包括：语音指令输入单元，用于接收语音指令输入；语音处理单元，用于利用语音识别模型来获取语音指令输入的音素序列表示，语音识别模型被配置基于指令语义同义的音素序列组进行语音指令输入的识别；以及用于在音素序列表示对应于音素序列组中的音素序列的情况下执行与音素序列表示对应的指令。

在第八方面的一些实施例中，语音识别模型可以是由第一计算设备来获得的。第一计算设备例如可以包括云侧或嵌入式重设备，其可以具有较强的计算能力，以用于执行语音识别模型的构建。第一计算设备例如还可以包括用户终端设备。

在第八方面的一些实施例中，该语音处理系统例如可以是由第二计算设备来执行的。第二计算设备可以包括嵌入式轻设备，其例如具有较弱的计算能力，以用于利用所部署的语音识别模型来执行语音处理。第二计算设备的示例可以包括但不限于：智能家居设备(例如，空调、冰箱、洗衣机、电视、音箱等)、智能穿戴设备(例如，手环、手表、眼镜等)或车载设备等。

在第八方面的一些实施例中，语音识别模型是基于以下过程而被获得的：获取目标语言信息；获取与目标语言信息相关联的同义音素序列组，同义音素序列组包括至少一个同义音素序列，同义音素序列为与目标语言信息语义相近的词句所对应的音素序列；利用同义音素序列组训练语言模型，以获取目标语言模型；根据目标语言模型生成第一解码图，第一解码图指示满足基于同义音素序列组所确定的语法约束规则的多条解码路径；以及基于第一解码图，确定语音识别模型。

在第八方面的一些实施例中，语音处理单元还可以用于：如果音素序列表示与音素序列组中的任何一个音素序列都不匹配，提供无识别结果的通知。基于这样的方式，能够实时且高效地识别用户语音，提高了用户的语音交互体验。

在第八方面的一些实施例中，语音识别模型被配置用于识别具有第一语义同义的第一音素序列组和具有第二语义同义的第二音素序列组。语音处理单元还可以用于：如果音素序列表示对应于第一音素序列组中的第一音素序列，执行第一指令，以及如果音素序列表示对应于第二音素序列组中的第二音素序列，执行与第一动作不同的第二指令。基于这样的方式，能够利用语音识别模型来识别出具有不同语义的音素序列组中的音素序列，由此能够执行对应于用户意图的指令。

在第八方面的一些实施例中，语音处理单元还可以用于：利用声学模型来生成语音指令输入的语音特征到音素的发射概率；通过将发射概率输入到语音识别模型来识别语音指令输入；以及使语音识别模型输出音素序列表示。基于这样的方式，可以从语音形式的指令得到对应的音素序列，以用于匹配语音识别模型能够识别的音素序列组中的音素序列。

在本公开的第九方面，提供了一种第一计算设备。该第一计算设备包括：至少一个计算单元；至少一个存储器，至少一个存储器被耦合到至少一个计算单元并且存储用于由至少一个计算单元执行的指令，指令当由至少一个计算单元执行时，使得第一计算设备执行第一方面或者第一方面中的任意一种实现方式中的方法的部分或全部步骤，或者执行第五方面或者第五方面中的任意一种实现方式中的方法的部分或全部步骤。

在本公开的第十方面，提供了一种第二计算设备。该第二计算设备包括：至少一个计算单元；至少一个存储器，至少一个存储器被耦合到至少一个计算单元并且存储用于由至少一个计算单元执行的指令，指令当由至少一个计算单元执行时，使得第二计算设备执行第二方面或者第二方面中的任意一种实现方式中的方法的部分或全部步骤，或者执行第六方面或者第六方面中的任意一种实现方式中的方法的部分或全部步骤。

在本公开的第十一方面，提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行实现第一方面或者第一方面中的任意一种实现方式中的方法，或者执行第五方面或者第五方面中的任意一种实现方式中的方法的部分或全部步骤。

在本公开的第十二方面，提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行实现第二方面或者第二方面中的任意一种实现方式中的方法，或者执行第六方面或者第六方面中的任意一种实现方式中的方法的部分或全部步骤。

在本公开的第十三方面，提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行第一方面或者第一方面中的任意一种实现方式中的方法的部分或全部步骤的指令，或者执行第五方面或者第五方面中的任意一种实现方式中的方法的部分或全部步骤。

在本公开的第十四方面，提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行第二方面或者第二方面中的任意一种实现方式中的方法的部分或全部步骤的指令，或者执行第六方面或者第六方面中的任意一种实现方式中的方法的部分或全部步骤。

可以理解地，上述提供的第九方面的第一计算设备、第十一方面的计算机存储介质或者第十三方面的计算机程序产品均用于执行第一方面所提供的方法。因此，关于第一方面的解释或者说明同样适用于第九方面、第十一方面和第十三方面。此外，第九方面、第十一方面和第十三方面所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

可以理解地，上述提供的第十方面的第二计算设备、第十二方面的计算机存储介质或者第十四方面的计算机程序产品均用于执行第二方面所提供的方法。因此，关于第二方面的解释或者说明同样适用于第十方面、第十二方面和第十四方面。此外，第十方面、第十二方面和第十四方面所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了可以在其中实施本公开的实施例的示例环境的示意框图；

图2A至图2D示出了根据本公开的一些实施例示例用户界面；

图3示出了可以在其中实施本公开的实施例的另一示例环境的示意框图；

图4示出了可以在其中实施本公开的实施例的又一示例环境的示意框图；

图5示出了根据本公开的一些实施例的构建语音识别模型的过程的流程图；

图6示出了根据本公开的一些实施例的获取目标关键词的示例过程的流程图；

图7示出了根据本公开的一些实施例的确定同义词组的示例过程的流程图；

图8示出了根据本公开的一些实施例的训练语言模型的示例过程的示意图；

图9示出了根据本公开的一些实施例的生成解码图的示意图；

图10示出了根据本公开的一些实施例的对解码图进行子图聚类的示意图；

图11出了根据本公开的一些实施例的示例子图的示意图；

图12示出了根据本公开的一些实施例的语音处理的示例过程的流程图；

图13示出了根据本公开实施例的确定同义音素序列组的示例过程的流程图；

图14示出了根据本公开实施例的生成解码图的示例过程的示意图；

图15示出了根据本公开实施例的同义音素序列聚类的示例过程的示意图；

图16示出了根据本公开的一些实施例的示例子图的示意图；

图17示出了根据本公开的一些实施例的语音处理的示例过程的流程图；

图18示出了根据本公开实施例的确定语音识别结果的示例过程的流程图；

图19示出了根据本公开实施例的语音处理方法的示例过程的流程图；

图20示出了根据本公开的一些具体实施例的示例语音识别系统的示意框图；

图21示出了根据本公开实施例的语音模型构建系统的示意框图；

图22示出了根据本公开实施例的语音处理系统的框图；

图23示出了根据本公开实施例的语音模型构建系统的框图；

图24示出了根据本公开实施例的语音处理系统的框图；

图25示出了可以用来实施本公开内容的实施例的示例设备的示意性框图。

在各个附图中，相同或相似参考数字表示相同或相似元素。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如上文所讨论的，对于计算能力有限的轻设备(例如，智能家居设备)而言，一些传统的语音识别方案通常依赖于具有更强计算能力的其他设备(例如，手机或云服务器等)来实现语音输入的语义理解。或者，一些轻设备也可以部署轻量级的语音识别模型来实现本地的语义理解，然而这样的语音识别模型无法支持用户自定义语义，更无法处理相同语义的语音输入。这将对于用户的语音交互体验带来极大的影响。

本公开的实施例提供了基于关键词的语音识别模型和基于音素序列的语音识别模型。这里，关键词可以是语言的文本表示，音素序列可以是根据语音的自然属性划分出来的语音单位的序列。取决于语言类型(例如，汉语或英语等)，音素可以例如声韵母、音标、或者任何其他形式。

示例环境1

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示，环境100包括第一计算设备130，第一计算设备130例如可以是具有较强计算能力的设备，其示例包括但不限于：云侧服务器、智能手机、笔记本电脑、平板电脑、台式机或边缘计算设备等。在本公开中，这样的第一计算设备130也可以被称为重设备。在图1的示例中，这样的第一计算设备130例如可以包括云侧设备。

根据本公开的实施例，第一计算设备130可以获取目标关键词，基于与目标关键词语义相关联的同义词组来训练语言模型，并进一步获得语音识别模型。在一些实施例中，目标关键词例如可以包括用户105输入的关键词。如图1所示，用户105例如可以利用用户终端110来配置关键词。用户105例如期望配置第二计算设备150，以使得能够支持关键词“提高声音”的语音识别。

根据本公开的实施例，第一计算设备130还可以获取目标语言信息，基于与目标语言信息相关联的同义音素序列组来训练语言模型，并进一步获得语音识别模型。在一些实施例中，目标音素序列例如可以包括用户105提供语音115。如图1所示，用户105例如可以利用用户终端110来配置同义音素序列组。用户105例如期望配置第二计算设备150，以使得能够支持与“提高声音”对应音素序列的语音识别。

在图1的示例中，第二计算设备150被示出为智能音箱，应当理解，智能音箱仅仅是第二计算设备150的一个示例，第二计算设备150还可以包括其他适当的设备，例如，智能家居设备(例如，空调、冰箱、洗衣机、电视等)、智能穿戴设备(例如，手环、手表、眼镜等)或车载设备等。第二计算设备150通常具有较弱的计算能力，在本公开中也被称为轻设备。本公开不旨在对第二计算设备150的具体形式进行限定。

在一些实施例中，如图2A所示，用户105例如可以通过用户终端110进入到配置智能家居的用户界面200A，并例如可以选择“客厅的音箱”来对智能音箱进行配置。应当理解，用户105例如还可以选择其他适当的智能家居进行配置。仅是为了说明的目的，在图1和图2的场景中使用了“客厅的音箱”以作为示例。

如图2B所示，用户终端110例如可以向用户105提供用于配置自定义关键词的用户界面200B，以使得用户105能够修改、增加或删除智能音箱能够语音识别的关键词。如图2B所示，智能音箱例如添加了用户105先前创建的三个自定义关键词“降低声音”、“静音”和“切换信号源”。

对于每个自定义关键词，用户105例如可以通过查看智能音箱所支持的同义词。以“降低声音”作为示例，用户105例如可以通过点击“查看同义词”来查看智能音箱所支持的“降低声音”的同义词组，例如“减小声音”和“调低声音”等，如图2C所示。

在一些实施例中，用户105例如可以也可以对智能音箱所支持的同义词组进行编辑，以删除同义词或者修改同义词。

如图2D所示，用户105例如还可以配置新的关键词。在一些实施例中，用户105例如可以通过用户终端110所提供的触摸屏来输入文本“提高声音”。备选地，用户105例如也可以通过点击麦克风按钮，以直接录入与“提高声音”相对应的语音。

如图2D所示，用户105例如还可以自定义与该关键词所对应的执行动作，也即，智能音箱在识别出该关键词时应当执行何种操作。在图2D的示例中，根据该配置的规则，智能音箱例如可以在识别出关键词“提高声音”后，执行“提高音箱音量”的动作。

在一些实施例中，可以利用发音字典将通过上述方式获取的关键词以及具有相同语义的其他关键词转换为对应的音素序列，以用于获取同义音素序列组。

继续参考图1，用户终端110例如可以经由无线通信而将所接收的语音输入115或文本输入120提供至第一计算设备130，例如，云侧的服务器。

如图1所示，第一计算设备130可以从语音输入115或文本输入120中获得用户输入的关键词“提高声音”或对应的音素序列(例如，通过发音词典)，并从而确定用于训练语言模型的目标关键词或对应的目标音素序列。在一些实施例中，目标关键词例如可以包括默认的系统关键词、用户先前的自定义关键词，以及用户期望新增的关键词。

备选地，目标关键词例如可以仅包括与用户的个性化定制相关联的关键词，默认的系统关键词可以不再响应于用户的自定义操作而被重复地获取，从而使得所生成的语音识别模型 140仅用于支持用户自定义的关键词的语音识别。类似地，目标音素序列可以仅包括用户的个性化定制相关联的音素序列。

在获取目标关键词后，第一计算设备130可以确定与目标关键词语义相关联的同义词组，并利用目标关键词和同义词组来训练语言模型，并进一步获得语音识别模型140。类似地，在获取目标语言信息后，第一计算设备130可以确定与目标语言信息相关联的同义音素序列组，并利用同义音素序列组来训练语言模型，并进一步获得语音识别模型140。关于获得语音识别模型140过程将在下文参考图2详细描述，在此暂不详叙。

在一些实施例中，利用目标关键词和同义词组所获得的语音识别模型140可以被部署到用户105所指定的智能音箱。在智能音箱部署有语音识别模型140后，其将能够支持对于目标关键词以及相关联的同义词组的语音识别。示例性地，用户155(可以是与用户105相同或不同的用户)可以向智能音箱提供语音输入160，例如“提升音量”。相应地，智能音箱能够利用语音识别模型140来处理语音输入160，并确定与该语音输入160对应的文本表示170，即“提升音量”。

应当理解，文本表示170可以是与语音输入160的全部语音片段所对应的文本，或者，文本表示170也可以是与语音输入160的部分语音片段所对应的文本。例如，用户155可以通过语音输入“请提升音量”，相应地，智能音箱可以利用语音识别模型140识别出其中包括的关键词“提升音量”。

在一些实施例中，智能音箱所接收的语音输入160可以对应于用户105所配置的自定义关键词，例如“提高声音”，也可以对应于由第一计算设备130所自动确定的同义词，例如“提升音量”。

在一些实施例中，智能音箱可以基于预先配置的规则来执行与该文本表示170所对应的动作。例如，用户105先前已经配置了对应的执行动作为“提高音箱音量”。这可以使得智能音箱在识别出关键词“提升音量”后，执行“提高音箱音量”的动作。

在一些实施例中，文本表示170例如还可以触发与智能音箱不同的另一设备执行对应的动作。例如，用户也可以将对应的执行动作配置为“提高客厅电视的音量”。相应地，智能音箱在识别出“提升音量”时，可以向“客厅电视”发送命令，以提高电视的音量。

在一些实施例中，利用利用同义音素序列组所获得的语音识别模型140也可以被部署到用户105所指定的智能音箱。在智能音箱部署有语音识别模型140后，其将能够支持对于同义音素序列组的语音识别。示例性地，用户155(可以是与用户105相同或不同的用户)可以向智能音箱提供语音输入160，例如“提升音量”。相应地，智能音箱能够利用语音识别模型140来处理语音输入160，并确定用户语音输入160的音素序列表示180，即，“ti sheng yin liang”。

应当理解，基于音素序列来识别语音输入时，音素序列表示180可以是与语音输入160的全部语音片段所对应的音素序列，或者，音素序列表示180也可以是与语音输入160的部分语音片段所对应的音素序列。例如，用户155可以通过语音输入“qing ti sheng yin liang”(请提升音量)，相应地，智能音箱可以利用语音识别模型140识别出其中包括的音素序列“ti sheng yin liang”。

在一些实施例中，智能音箱所接收的语音输入160可以对应于用户105所配置的自定义音素序列，例如“ti gao sheng yin”(提高声音)，也可以对应于由第一计算设备130所自动确定的同义音素序列，例如“ti sheng yin liang”(提升音量)。

在一些实施例中，智能音箱可以基于预先配置的规则来执行与该音素序列表示180所对应的动作。例如，用户105先前已经配置了对应的执行动作为“提高音箱音量”。这可以使得智能音箱在识别出音素序列表示“ti sheng yin liang”后，执行“提高音箱音量”的动作。

在一些实施例中，音素序列表示180例如还可以触发与智能音箱不同的另一设备执行对应的动作。例如，用户也可以将对应的执行动作配置为“提高客厅电视的音量”。相应地，智能音箱在识别出“ti sheng yin liang”时，可以向“客厅电视”发送命令，以提高电视的音量。

示例环境2

图3示出了本公开的多个实施例能够在其中实现的示例环境300的示意图。如图3所示，环境300包括第一计算设备330。在图3的示例中，这样的第一计算设备330例如可以包括云侧设备。

与图1中所示的环境100不同，用户305例如可以通过直接向待配置的第二计算设备310提供语音输入320，来配置期望第二计算设备310能够语音识别的自定义关键词。在图3的示例中，第二计算设备310被示出为智能音箱，应当理解，智能音箱仅仅是第二计算设备310的一个示例，第二计算设备310还可以包括其他适当的设备，例如，智能家居设备(例如，空调、冰箱、洗衣机、电视等)、智能穿戴设备(例如，手环、手表、眼镜等)或车载设备等。

相应地，该语音输入320例如可以经由有线或无线网络而被发送至第一计算设备330。第一计算设备330例如可以利用适当的语音识别技术和预先指定的语法规则来从语音输入320中提取关键词“提高声音”或音素序列表示“ti gao sheng yin”。

与参考图1所讨论的过程类似，第一计算设备330可以获取包括“提高声音”的目标关键词，并可以进一步获取与目标关键词语音相关联的同义词组335。第一计算设备330可以进一步利用目标关键词和同义词组335来获得语音识别模型340。

第一计算设备330也可以获取包括“ti gao sheng yin”的目标语言输入，并可以进一步获取与目标语言输入相关联的同义音素序列组(图中未示出)。第一计算设备330可以进一步利用该同义音素序列组来获得语音识别模型340。

在一些实施例中，语音识别模型340可以被进一步部署到智能音箱，以使得智能音箱具有语音识别用户305所定义的关键词“提高音量”和对应的同义词组的能力。示例性地，用户355(可以是与用户305相同或不同的用户)可以向智能音箱提供语音输入360，例如“提升音量”。相应地，智能音箱能够利用语音识别模型340来处理语音输入360，并确定与该语音输入360对应的文本表示370，即“提升音量”，或者确定与该语音输入360对应的音素序列表示380，即“ti sheng yin liang”。

应当理解，文本表示370可以是与语音输入360的全部语音片段所对应的文本，或者，文本表示370也可以是与语音输入360的部分语音片段所对应的文本。例如，用户355可以通过语音输入“请提升音量”，相应地，智能音箱可以利用语音识别模型340识别出其中包括的关键词“提升音量”。在一些实施例中，智能音箱所接收的语音输入360可以对应于用户305所配置的自定义关键词，例如“提高声音”，也可以对应于由第一计算设备330所自动确定的同义词，例如“提升音量”。在一些实施例中，智能音箱还可以基于预先配置的规则来执行与该文本表示370所对应的动作。

类似地，音素序列表示380可以是与语音输入360的全部语音片段所对应的音素序列，或者，音素序列表示380也可以是与语音输入360的部分语音片段所对应的文本。例如，用户355可以通过语音输入“qing ti sheng yin liang”(请提升音量)，相应地，智能音箱可以利用语音识别模型340识别出其中包括的音素序列“ti sheng yin liang”(提升音量)。

在一些实施例中，智能音箱所接收的语音输入360可以对应于用户305所配置的自定义音素序列，例如“ti gao sheng yin”(提高声音)，也可以对应于由第一计算设备330所自动确定的同义音素序列，例如“ti sheng yin liang”(提升音量)。在一些实施例中，智能音箱还可以基于预先配置的规则来执行与该音素序列表示380所对应的动作。

示例环境3

图4示出了本公开的多个实施例能够在其中实现的又一示例环境400的示意图。如图4所示，环境400包括第一计算设备430。在图4的示例中，第一计算设备430例如可以是用户终端，例如，智能手机或平板电脑等。

与图1所示的环境100不同，用户405例如可以通过用户终端所提供的接口来对第二计算设备450进行配置。在图4中，第二计算设备450被示出为智能电视，但是应当理解，应当理解，智能电视仅仅是第二计算设备450的一个示例，第二计算设备450还可以包括其他适当的设备，例如，智能家居设备(例如，空调、冰箱、洗衣机、音箱等)、智能穿戴设备(例如，手环、手表、眼镜等)或车载设备等。

与参考图1所讨论的过程100不同，在图4的环境400中，可以由用户终端直接从语音输入410或文本输入420中直接确定关键词“提高声音”或对应的音素序列，而无需将语音输入410或文本输入420发送至云侧设备。

进一步地，用户终端还可以获取目标关键词，这样的目标关键词例如可以包括基于语音输入410或文本输入420所确定的关键词，还可以包括用户先前定义的关键词等。用户终端可以进一步获取与目标关键词语义相关联的同义词组435，并基于与图1类似的过程来获得语音识别模型440。

类似地，用户终端还可以获取目标语言信息(例如，文本或语音)。这样的目标语言信息例如可以包括基于语音输入410或文本输入420所确定的音素序列，还可以包括用户先前定义的音素序列等。用户终端可以进一步获取与目标音语言信息相关联的同义音素序列组(图中未示出)，并基于与图1类似的过程来获得语音识别模型440。

在一些实施例中，利用目标关键词和同义词组435所获得的语音识别模型440可以被部署到用户405所指定的智能电视。

在智能电视部署有语音识别模型440后，其将能够支持对于目标关键词以及相关联的同义词组435的语义识别。示例性地，用户455(可以是与用户405相同或不同的用户)可以向智能电视提供语音输入460，例如“提升音量”。相应地，智能电视能够利用语音识别模型440来处理语音输入460，并确定与该语音输入460对应的文本表示470，即“提升音量”。

应当理解，文本表示470可以是与语音输入460的全部语音片段所对应的文本，或者，文本表示470也可以是与语音输入460的部分语音片段所对应的文本。例如，用户455可以通过语音输入“请提升音量”，相应地，智能电视可以利用语音识别模型440识别出其中包括的关键词“提升音量”。

在一些实施例中，智能电视所接收的语音输入460可以对应于用户405所配置的自定义关键词，例如“提高声音”，也可以对应于由第一计算设备430所自动确定的同义词，例如“提升音量”。

在一些实施例中，智能电视可以基于预先配置的规则来执行与该文本表示470所对应的动作。例如，用户405先前已经配置了对应的执行动作为“提高电视音量”。这可以使得智能电视在识别出关键词“提升音量”后，执行“提高电视音量”的动作。

在一些实施例中，文本表示470例如还可以触发与智能电视不同的另一设备执行对应的动作。例如，用户也可以将对应的执行动作配置为“提高客厅音箱的音量”。相应地，智能电视在识别出“提升音量”使，可以向“客厅音箱”发送命令，以提高音箱的音量。

在另一些实施例中，利用同义音素序列组所获得的语音识别模型440可以被部署到用户405所指定的智能电视。

在智能电视部署有语音识别模型440后，其将能够支持对于同义音素序列组的语义识别。示例性地，用户455(可以是与用户405相同或不同的用户)可以向智能电视提供语音输入460，例如“ti sheng yin liang”(提升音量)。相应地，智能电视能够利用语音识别模型440来处理语音输入460，并确定与该语音输入460对应的音素序列表示480，即“ti sheng yin liang”。

应当理解，音素序列表示480可以是与语音输入460的全部语音片段所对应的文本，或者，音素序列表示480也可以是与语音输入460的部分语音片段所对应的文本。例如，用户455可以通过语音输入“qing ti sheng yin liang”(请提升音量)，相应地，智能电视可以利用语音识别模型440识别出其中包括的音素序列“ti sheng yin liang”。

在一些实施例中，智能电视所接收的语音输入460可以对应于用户405所配置的自定义音素序列，例如“ti gao sheng yin”(提高声音)，也可以对应于由第一计算设备430所自动确定的同义音素序列，例如“ti sheng yin liang”(提升音量)。

在一些实施例中，智能电视可以基于预先配置的规则来执行与该音素序列表示480所对应的动作。例如，用户405先前已经配置了对应的执行动作为“提高电视音量”。这可以使得智能电视在识别出音素序列“ti sheng yin liang”(提升音量)后，执行“提高电视音量”的动作。

在一些实施例中，音素序列表示480例如还可以触发与智能电视不同的另一设备执行对应的动作。例如，用户也可以将对应的执行动作配置为“提高客厅音箱的音量”。相应地，智能电视在识别出“ti sheng yin liang”后，可以向“客厅音箱”发送命令，以提高音箱的音量。

语音识别模型的构建

根据本公开的各种实施例，提供一种用于构建语音识别模型的方案。该方案基于关键词来构建语音识别模型。在本公开的实施例中，获取目标关键词，并确定与目标关键词语义相关联的同义词组。随后，利用目标关键词和同义词组来训练语言模型，以获得目标语言模型。目标语言模型、声学模型和发音字典被合并，以获得语音识别模型，该语音识别模型为解码图。这样，本公开的实施例能够构建具有关键词泛化识别能力的语音识别模型。

以下将参考图5至图11来描述根据本公开的一些实施例的语音处理的过程。图5示出了根据本公开的一些实施例的语音处理的示例过程500的流程图。过程500例如可以由上文所讨论的第一计算设备来执行，例如图1中的第一计算设备130、图3中的第一计算设备330或图3中的第一计算设备430。过程500例如也可以由终端设备和云侧设备协同执行。为了方便描述，以下以第一计算设备作为示例来描述过程500。

如图5所示，在框502，第一计算设备获取目标关键词。

如参考上文所讨论的，目标关键词可以包括用户输入的关键词。在一些实施例中，第一计算设备可以从不同类型的数据(例如，文本数据或音频数据)中确定用户输入的关键词。以下将参考图6来描述确定用户输入的关键词的详细过程。图6示出了根据本公开实施例的确定关键词的示例过程600的流程图。

如图6所示，在框602，第一计算设备可以获取目标关键词数据。在一些实施例中，第一计算设备可以获取来自音频采集器的语音输入。在图1的示例中，第一计算设备130可以从用户终端110获取语音输入115。在图3的示例中，第一计算设备130例如可以从待部署语音识别模型的第二计算设备310处获取语音输入320。在图4的示例中，第一计算设备430可以是终端设备，其可以利用语音采集器(例如，麦克风)来直接获取语音输入410。

备选地或附加地，第一计算设备也可以经由文本采集器来获取文本输入。在图1的示例中，第一计算设备130可以从用户终端110获取文本输入120。在图4的示例中，第一计算设备430可以是终端设备，其可以利用文本采集器(例如，触摸屏)来直接获取文本输入420。

在框604，第一计算设备可以确定关键词数据的类型是音频或者是文本。如果类型为文本，则过程600可以进行到框608，第一计算设备例如可以直接从文本输入中确定关键词。

如果在框604确定目标关键词数据的类型为音频，则过程600可以进行到框606，即第一计算设备例如可以利用ASR(自动语音识别)来识别语音输入。相应地，语音输入可以被转换为对应的文本。进一步地，在框608，第一计算设备可以从根据语音输入110的文本中确定用户输入的关键词。

备选地或附加地，目标关键词还可以包括预存的历史关键词。这样的历史关键词例如可以包括默认的系统关键词。这也的系统关键词例如可以是由第二计算设备的制造商所指定的。或者，预存的历史关键词还可以包括用户自定义的历史关键词，例如图2B中所示出的关键词“降低声音”等。

在一些实施例中，为了避免所生成的语音识别模型过于复杂，第一计算设备还可以限制用于训练语言模型的关键词组中的关键词的数目。

在确定到用户输入的关键词后，第一计算设备可以确定基于用户输入的关键词和预存的历史关键词来获得第一关键词组。如果第一关键词组中关键词数目超过预定阈值，则第一计算设备基于该预定阈值从第一关键词组中获取目标关键词。例如，第一计算设备可以仅保留第一关键词组中预定阈值数目的关键词，以作为目标关键词。基于这样的方式，能够避免用于训练语言模型的关键词数目过多，从而保证解码图是轻量级的，从而能够适用于具有较少计算资源的设备。

在一些实施例中，第一计算设备可以根据所述目标关键词中的关键词的属性来从所述第一关键词组中获取所述目标关键词，所述目标关键词数量为所述预定阈值。这样的属性例如可以包括关键词类型(例如，系统创建或用户自定义)或者关键词创建时间。示例性地，可以根据关键词的创建时间而从第一关键词组中保留预定阈值数目的关键词，以使得创建时间最早的关键词被删除。

备选地，在目标关键词包括默认的系统关键词的情况下，这些系统关键词可以总是用作目标关键词。相应地，第一计算设备还可以根据预定阈值与系统关键词数目的差值，从用户自定义关键词中选择一个或多个关键词，以作为目标关键词。

备选地，预存的历史关键词可以仅包括用户自定义关键词。相应地，该预定阈值可以用于限定语音识别模型所支持的用户自定义关键词的数目。这样，如果第一关键词组已经包括预定数目的用户自定义关键词，则第一计算设备例如可以从第一关键词组中选择预定阈值数目的用户自定义关键词，以作为目标关键词。

在一些实施例中，第一计算设备也可以基于用户输入来从第一关键词组中获取目标关键词。以图2B作为示例，第一计算设备例如可以允许用户最多配置3个自定义关键词。当已经配置了3个自定义关键词以后，如果用户进一步期望添加新的自定义关键词时，用户终端可以要求用户从已经配置的3个自定义关键词中选择哪些关键词应当被保留/删除，以保证用于训练的目标关键词的数目为预定阈值。

基于这样的方式，本公开的实施例能够支持对于第二计算设备处所部署的语音识别模型的个性化定制。

继续参考图5，在框504，第一计算设备获取与目标关键词语义相关联的同义词组。对于接收的新关键词，第一计算设备可以基于关键词的语义来从词库中确定同义词组。在一些实施例中，词库可以被维护在第一计算设备本地，或者可以是被维护在与第一计算设备不同的远程设备处。对于预存的历史关键词，第一计算设备例如可以直接获取先前存储的同义词组，而无需从词库中重新确定同义词组。

以下将参考图7来描述确定同义词组的具体过程。图7示出了根据本公开实施例的确定同义词组的示例过程700的流程图。

如图7所示，在框702，第一计算设备可以获取关键词。在框704，第一计算设备可以例如利用自然语言理解技术来确定目标关键词的第一语义。在框706，第一计算设备可以基于第一语义来从词库中搜索与第一语义接近的多个候选同义词。具体地，所确定的每个候选同义词的语义与第一语义的差异小于预定的差异阈值。

在一些实施例中，该多个候选同义词可以被直接确定作为用于训练语言模型的同义词组。

在一些实施例中，过程700还可以包括框708，即第一计算设备可以对多个候选同义词进行筛选。在一些实施例，第一计算设备可以基于候选同义词与目标关键词的长度差异来进行筛选，以使得所确定的同义词组中的每个同义词与关键词的长度差异小于长度阈值。

例如，第一计算设备可以仅将多个候选同义词中与目标关键词具有相同长度的候选同义词确定作为要用于训练的同义词组。基于这样的方式，能够使得生成的解码图具有更为简单的结构，从而更适于部署于具有较低计算能力的第二计算设备。

在一些实施例中，第一计算设备还可以向用户提供多个候选同义词，并基于从用户接收的用户输入，从多个候选同义词中确定同义词组，用户输入指示多个候选同义词中的至少一个候选同义词被排除或被确认。

示例性地，第一计算设备例如可以通过适当的方式(例如，语音播报或通过屏幕显示等)向用户提供该多个候选同义词，并接收针对用户对于多个候选同义词的反馈信息。这样的反馈信息例如可以指示至少一个候选同义词被确认或者至少一个候选同义词被排除。例如，用户可以通过屏幕上针对所显示的多个候选同义词的点击操作，来确定多个候选同义词中应当被保留或排除的同义词。或者，用户也通过语音输入来指示多个候选词中应当被保留或排除的候选同义词。

基于这样的方式，本公开的实施例能够基于用户反馈来调整用于训练语音识别模型的同义词，这能够使得所获得的语音识别模型能够更加符合用户的使用习惯，避免自动地扩展一些用户不期望的同义词。

在一些实施例中，为了避免所构建的语音识别模型过于复杂，第一计算设备还可以使得所确定同义词组135中所包括的同义词的数目不超过预定数目。相应地，当存在超过预定数目的多个候选同义词时，第一计算设备例如可以选择语义最为接近的预定数目的候选同义词，以作为同义词组135。

继续参考图5，在框506，第一计算设备基于目标关键词和同义词组来训练训练模型，以获得目标语言模型。

具体地，第一计算设备可以基于目标关键词和同义词组来构建用于训练语言模型的训练数据集，并基于该训练数据集来获得目标语言模型。图8示出了根据本公开的一些实施例的训练语言模型的示例过程的示意图800。

如图8所示，基于目标关键词和同义词组所构建的训练数据集805可以被提供至语言模型训练模块810。具体地，语言模型训练模块810可以包括特征提取模块815，以用于根据训练数据集805生成输入特征，并将输入特征提供至模型训练模块820，从而获得目标语言模型825，该目标语言模型825能够指示基于目标关键词和同义词组所确定的语法约束规则。

目标语言模型825的示例包括但不限于：基于N元文法的N-gram模型、基于神经网络的RNN-LM模型、基于正则语法的JSGF模型等，本公开不旨在对语言模型的具体类型进行限定。

继续参考图5，在框508，第一计算设备根据目标语言模型生成第一解码图，第一解码图指示满足基于目标关键词和同义词组所确定的语法约束规则的多条解码路径。

对目标语言模型、声学模型和发音字典进行模型合并，以获得语音识别模型，其中该语音识别模型为解码图。

在一些实施例中，在生成目标语言模型525后，第一计算设备可以基于目标语言模型525和已有的发音字典和声学模型来生成解码图。在一些实施例中，声学模型可以采用离线训练或在线的训练方式。声学模型也可以采用如DNN-HMM、LSTM-HMM、TDNN-HMM等多种模型结构，本公开不旨在对于声学模型的类型或训练过程进行限定。

在一些实施例中，第一计算设备例如基于HCLG(HMM+Context+Lexicon+Grammar)解码图构建过程来生成解码图。图9示出了根据本公开实施例的生成解码图的示例过程的示意图900。

如图9所示，第一计算设备首先利用模型合并单元915来合并目标语言模型905(例如，图8中目标语言模型825)和发音字典910，来生成合并模型1 920。

可选地，如果声学模型940是利用单音素所训练的，则第一计算设备可以直接将合并模型1 90920与声学模型940进行合并，而不考虑上下文相关音素。相反，如果声学模型940在训练过程中考虑了音素的上下文，例如，利用多音素来训练获得声学模型940，则第一计算设备可以先利用模型合并单元930来对合并模型1 920和上下文相关音素925进行合并，以生成合并模型2 935，并随后利用模型合并单元945来对合并模型2 935和声学模型940进行合并，以生成解码图950。解码图950也称为HCLG解码模型，其用于指示基于目标关键词和同义词组所确定的语法约束规则的多条解码路径。

继续参考图5，在框510，第一计算设备基于第一解码图来确定语音识别模型。

在一些实施例中，第一计算设备可以直接将解码图950作为最终的语音识别模型。

在一些实施例中，目标关键词例如可以至少包括第一关键词和第二关键词。为了降低解码图解码搜索的效率，第一计算设备还可以对所获得的解码图执行同义词聚类。图10示出了根据本公开实施例的同义词聚类的示例过程的示意图1000。

如图10所示，第一计算设备可以利用同义词子图聚类模块1020来对第一解码图1010(例如，图9中的解码图950)执行同义词聚类。具体地，第一计算设备可以从第一解码图中获取第一组解码路径和第二解码路径，其中获取第一组解码路径包括与第一关键词和与第一关键词语义相关联的第一同义词组相对应的解码路径，第二组解码路径包括与第二关键词和与第二关键词语义相关联的第二同义词组相对应的解码路径。进一步地，第一计算设备可以基于第一组解码路径生成第一子图并基于第二组解码路径生成第二子图。图11示出了根据本公开的一些实施例的示例子图1100的示意图。如图11所示，子图1100包括与关键词“提高声音”以及同义词组所对应的解码路径。

进一步地，第一计算设备可以至少基于所述第一子图和所述第二子图来确定语音识别模型。具体地，第一计算设备例如可以基于第一子图和第二子图来生成第二解码图，以作为语音识别识别模型。如图10所示，在一些实施例中，经子图聚类后的解码图可以被直接作为第二解码图1040，并用作最终的语音识别模型。当目标关键词包括多个关键词的时候，所生成的第二解码图1040可以包括与多个关键词所对应的多个独立的子图。

备选地，第一计算设备还可以利用子图权重调整模块1030来对经子图聚类后的解码图执行子图权重调整。具体地，第一计算设备使得与目标关键词对应的第一解码路径具有同与同义词组中的同义词对应的第二解码路径相同的权重，以获得最终的解码图1040。以图11作为示例，与目标关键词“提高声音”相对应的解码路径具有同与同义词“提升音量”相对应的解码路径相同的权重。基于这样的方式，能够实现针对所扩展的同义词更为快速的解码搜索，从而降低计算开销和存储开销。

基于上文所讨论的方法，第一计算设备能够基于目标关键词自动地扩展出相关联的同义词组，并构建用于第二计算设备的解码图。这样，能够使得所生成的解码图既满足轻量化的要求，又能够使第二计算设备具有关键词泛化识别的能力。

在一些实施例中，第一计算设备还可以指示向目标计算设备(例如，第二计算设备)提供语音识别模型，以用于在目标计算设备上部署该语音识别模型。示例性地，第一计算设备可以通过有线或无线通信来向第二计算设备发送该语音识别模型，以用于部署到第二计算设备。或者，第一计算设备还可以将该模型存储到预定的存储设备，以使得第二计算设备能够自动地从该存储设备获取该语音识别模型，以进行部署。

根据本公开的各种实施例，提供一种用于构建语音识别模型的另一方案。该方案基于音素序列来构建语音识别模型。在本公开的实施例中，获取目标语言信息，并确定与目标语言信息相关联的同义音素序列组。随后，利用同义音素序列组来训练语言模型，以获得目标语言模型。目标语言模型可以与声学模型合并，获得语音识别模型，该语音识别模型为解码图。这样，本公开的实施例能够构建具有音素序列泛化识别能力的语音识别模型。

以下将参考图12至图17来描述根据本公开的一些实施例的语音处理的过程。图12示出了根据本公开的一些实施例的语音处理的示例过程1200的流程图。过程1200例如可以由上文所讨论的第一计算设备来执行，例如图1中的第一计算设备130、图3中的第一计算设备330或图3中的第一计算设备430。过程1200例如也可以由终端设备和云侧设备协同执行。为了方便描述，以下以第一计算设备作为示例来描述过程1200。

如图12所示，在框1202，第一计算设备获取目标语言信息。在一些实施例中，第一计算设备可以从不同类型的数据(例如，文本数据或音频数据)中确定目标语言信息。第一计算设备可以获取来自音频采集器的语音输入。在图1的示例中，第一计算设备130可以从用户终端110获取语音输入115。在图3的示例中，第一计算设备130例如可以从待部署语音识别模型的第二计算设备310处获取语音输入320。在图4的示例中，第一计算设备430可以是终端设备，其可以利用语音采集器(例如，麦克风)来直接获取语音输入410。

备选地或附加地，目标语言信息还可以包括预存的历史语言信息。历史语言信息可以包括语音或文本。这样的历史语言信息例如可以包括默认的系统语言信息。这也的系统语言信息例如可以是由第二计算设备的制造商所指定的。或者，预存的历史语言信息还可以包括用户自定义的历史语言信息，例如，与图2B中所示出的“降低声音”对应的语音或文本等。

在一些实施例中，为了避免所生成的语音识别模型过于复杂，第一计算设备还可以限制用于训练语言模型的同义音素序列组中的音素序列的数目。

在确定到用户输入的目标语言信息后，第一计算设备可以确定基于用户输入的目标语言信息和预存的历史语言信息来获得第一语言信息组。如果第一语言信息组中的语言信息的数目超过预定阈值，则第一计算设备基于该预定阈值从第一语言信息组中获取目标语言信息。例如，第一计算设备可以仅保留第一语言信息组中预定阈值数目的语言信息，以作为目标音素序列。基于这样的方式，能够避免用于训练语言模型的目标语言信息的数目过多，从而保证解码图是轻量级的，从而能够适用于具有较少计算资源的设备。

在一些实施例中，第一计算设备可以语言信息的属性来从第一语言信息组中获取目标语言信息，其中，目标语言信息的数量为预定阈值。这样的属性例如可以包括语言信息的类型(例如，系统创建或用户自定义)或者语言信息的创建时间。示例性地，可以根据语言信息的创建时间而从第一语言信息组中保留预定阈值数目的语言信息，以使得创建时间最早的语言信息被删除。

备选地，在目标语言信息包括默认的系统语言信息的情况下，这些系统语言信息可以总是用作目标语言信息。相应地，第一计算设备还可以根据预定阈值与系统语言信息数目的差值，从用户自定义语言信息中选择一个或多个语言信息，以作为目标语言信息。

备选地，预存的历史语言信息可以仅包括用户自定义语言信息。相应地，该预定阈值可以用于限定语音识别模型所支持的用户自定义语言信息的数目。这样，如果第一语言信息组已经包括预定数目的用户自定义语言信息，则第一计算设备例如可以从第一语言信息组中选择预定阈值数目的用户自定义语言信息，以作为目标语言信息。

在一些实施例中，第一计算设备也可以基于用户输入来从第一语言信息组中获取目标语言信息。以图2B作为示例，第一计算设备例如可以允许用户最多配置3个自定义关键词。当已经配置了3个自定义关键词以后，如果用户进一步期望添加新的自定义关键词时，用户终端可以要求用户从已经配置的3个自定义关键词中选择哪些关键词应当被保留/删除。保留下来的关键词及其同义关键词的音素序列可以被用于训练目标语言模型。以此方式，可以保证用于训练的语言信息的数目为预定阈值。

继续参考图12，在框1204，第一计算设备获取与目标语言信息相关联的同义音素序列组。同义音素序列组包括至少一个同义音素序列。至少一个同义音素序列中的为与目标语言信息语义相近的词句所对应的音素序列。

第一计算设备可以基于目标语言信息的语义来确定同义音素序列组，并且基于目标语言信息的语义确定同义音素序列组。例如，对于语音形式的目标语言信息，可以通过发音词典将映射到关键词，再从词库获取同义的关键词，然后再利用发音字典映射到音素序列。对于文本形式的目标语言信息，则可以通过分词而直接得到对应于的关键词。

在一些实施例中，词库可以被维护在第一计算设备本地，或者可以是被维护在与第一计算设备不同的远程设备处。对于预存的历史语言信息，第一计算设备例如可以直接获取先前存储的同义音素序列组，而无需重新确定同义音素序列组。

以下将参考图13来描述确定同义音素序列的具体过程。图13示出了根据本公开实施例的确定同义音素序列组的示例过程1300的流程图。

如图13所示，在框1302，第一计算设备可以获取目标语言信息。在一些实施例中，目标语言信息可以被转换为对应的关键词。在框1304，第一计算设备可以例如利用自然语言理解技术来确定目标语言信息的第一语义。在框1306，第一计算设备可以基于第一语义来搜索与第一语义接近的多个候选关键词，例如，通过词库。具体地，所确定的每个候选同义关键词的语义与第一语义的差异小于预定的差异阈值。

然后，在框1308，第一计算设备可以例如通过发音字典来获取多个候选关键词的音素序列。在一些实施例中，多个候选关键词的音素序列可以被直接确定作为用于训练语言模型的同义音素序列组。

在一些实施例中，过程1300还可以包括框1310，即第一计算设备可以对多个候选同义关键词的音素序列进行筛选。在一些实施例，第一计算设备可以基于候选同义关键词的音素序列与目标语言信息的音素序列的长度差异来进行筛选，以使得所确定的同义音素序列组中的每个同义音素序列与目标语言信息的音素序列的长度差异小于长度阈值。

例如，第一计算设备可以仅将多个候选同义音素序列中与目标音素序列具有相同长度的候选同义音素序列确定作为要用于训练的同义音素序列组。基于这样的方式，能够使得生成的解码图具有更为简单的结构，从而更适于部署于具有较低计算能力的第二计算设备。

在一些实施例中，第一计算设备还可以向用户提供多个候选同义音素序列或对应的文本，并基于从用户接收的用户输入，从多个候选同义音素序列中确定同义音素序列组，用户输入指示多个候选同义音素序列中的至少一个候选同义音素序列被排除或被确认。

示例性地，第一计算设备例如可以通过适当的方式(例如，语音播报或通过屏幕显示等)向用户提供该多个候选同义音素序列，并接收针对用户对于多个候选同义音素序列的反馈信息。这样的反馈信息例如可以指示至少一个候选同义音素序列被确认或者至少一个候选同义音素序列被排除。例如，用户可以通过屏幕上针对所显示的多个候选同义音素序列或对应文本的点击操作，来确定多个候选同义音素序列中应当被保留或排除的同义音素序列。或者，用户也通过语音输入来指示多个候选音素序列中应当被保留或排除的候选同义音素序列。

基于这样的方式，本公开的实施例能够基于用户反馈来调整用于训练语音识别模型的同义音素序列，这能够使得所获得的语音识别模型能够更加符合用户的使用习惯，避免自动地扩展一些用户不期望的同义音素序列。

在一些实施例中，为了避免所构建的语音识别模型过于复杂，第一计算设备还可以使得所确定同义音素序列组中所包括的同义音素序列的数目不超过预定数目。相应地，当存在超过预定数目的多个候选同义音素序列时，第一计算设备例如可以选择语义最为接近的预定数目的候选同义音素序列，以作为同义音素序列组。

继续参考图，在框1206，第一计算设备利用同义音素序列组来训练训练模型，以获得目标语言模型。

具体地，第一计算设备可以基于同义音素序列组来构建用于训练语言模型的训练数据集，并基于该训练数据集来获得目标语言模型。训练语言模型的示例过程与参考图8描述的过程类似，这里不再赘述。

目标语言模型能够指示基于目标关键词和同义词组所确定的语法约束规则。目标语言模型的示例包括但不限于：基于N元文法的N-gram模型、基于神经网络的RNN-LM模型、基于正则语法的JSGF模型等，本公开不旨在对语言模型的具体类型进行限定。

继续参考图12，在框1208，第一计算设备根据目标语言模型生成第一解码图，第一解码图指示满足基于同义音素序列组所确定的语法约束规则的多条解码路径。

在生成目标语言模型后，第一计算设备可以基于目标语言模型和已有的声学模型来生成解码图。在一些实施例中，声学模型可以采用离线训练或在线的训练方式。声学模型也可以采用如DNN-HMM、LSTM-HMM、TDNN-HMM等多种模型结构，本公开不旨在对于声学模型的类型或训练过程进行限定。

图14示出了根据本公开实施例的生成解码图的示例过程的示意图。相比于图9所示的过程，过程1400不需要使用发音字典，语言模型1520是基于音素序列训练得到的。

如果声学模型1440是利用单音素所训练的，则第一计算设备可以直接将合并模型1435与声学模型1440进行合并，而不考虑上下文相关音素。相反，如果声学模型1440在训练过程中考虑了音素的上下文，例如，利用多音素来训练获得声学模型1440，则第一计算设备可以先利用模型合并单元1430来对语言模型1420和上下文相关音素1425进行合并，以生成合并模型1435，并随后利用模型合并单元1445来对合并模型1435和声学模型1440进行合并，以生成解码图1450。解码图1450用于指示基于目标音素序列和同义音素序列组所确定的语法约束规则的多条解码路径。

继续参考图12，在框1210，第一计算设备基于第一解码图来确定语音识别模型。

在一些实施例中，第一计算设备可以直接将解码图1450作为最终的语音识别模型。

在一些实施例中，目标音素序列例如可以至少包括第一音素序列和第二音素序列。为了降低解码图解码搜索的效率，第一计算设备还可以对所获得的解码图执行同义音素序列聚类。图15示出了根据本公开实施例的同义音素序列聚类的示例过程的示意图1500。

如图15所示，第一计算设备可以利用同义音素序列子图聚类模块1520来对第一解码图1510(例如，图14中的解码图1450)执行同义音素序列聚类。具体地，第一计算设备可以从第一解码图中获取第一组解码路径和第二解码路径，其中获取第一组解码路径包括与第一音素序列和与第一音素序列语义相关联的第一同义音素序列组相对应的解码路径，第二组解码路径包括与第二音素序列和与第二音素序列语义相关联的第二同义音素序列组相对应的解码路径。进一步地，第一计算设备可以基于第一组解码路径生成第一子图并基于第二组解码路径生成第二子图。图16示出了根据本公开的一些实施例的示例子图1600的示意图。如图16所示，子图1600包括与音素序列“ti gao sheng yin”(提高声音)以及同义音素序列组所对应的解码路径。

进一步地，第一计算设备可以至少基于第一子图和第二子图来确定语音识别模型。具体地，第一计算设备例如可以基于第一子图和第二子图来生成第二解码图，以作为语音识别识别模型。如图15所示，在一些实施例中，经子图聚类后的解码图可以被直接作为第二解码图 1540，并用作最终的语音识别模型。当目标音素序列包括多个音素序列的时候，所生成的第二解码图1540可以包括与多个音素序列所对应的多个独立的子图。

备选地，第一计算设备还可以利用子图权重调整模块1530来对经子图聚类后的解码图执行子图权重调整。具体地，第一计算设备使得与目标音素序列对应的第一解码路径具有同与同义音素序列组中的同义音素序列对应的第二解码路径相同的权重，以获得最终的解码图1540。以图16作为示例，与目标音素序列“ti gao sheng yin”相对应的解码路径具有同与同义词“ti sheng yin liang”(提升音量)相对应的解码路径相同的权重。基于这样的方式，能够实现针对所扩展的同义音素序列更为快速的解码搜索，从而降低计算开销和存储开销。

基于上文所讨论的方法，第一计算设备能够基于目标音素序列自动地扩展出相关联的同义音素序列组，并构建用于第二计算设备的解码图。这样，能够使得所生成的解码图既满足轻量化的要求，又能够使第二计算设备具有音素序列泛化识别的能力。

语音识别模型的使用

根据本公开的各种实施例，还提供了一种用于语音处理的方案。在本公开的实施例中，接收语音输入，并利用语音识别模型来确定与语音输入相关联的文本表示，其中语音识别模型是基于以下过程而被获得的：获取目标关键词；获取与目标关键词语义相关联的同义词组；利用目标关键词和同义词组训练语言模型，以获得目标语言模型；以及对目标语言模型、声学模型和发音字典进行模型合并，以获得语音识别模型，语音识别模型为解码图。基于这样的方式，本公开的实施例能够使得例如较小算力的计算设备具有关键词泛化识别能力，从而提高用户的语音交互体验。

以下将参考图17至图19来描述根据本公开的一些实施例的语音处理的过程。图17示出了根据本公开的一些实施例的语音处理的示例过程1700的流程图。过程1700例如可以由上文所讨论的第二计算设备来执行，例如图1中的第二计算设备150、图3中的第二计算设备310或图3中的第二计算设备450。

如图17所示，在框1702，第二计算设备接收语音输入。在一些实施例中，第二计算设备可以经由位于第二计算设备本地的音频采集器(例如，麦克风)或与第二计算设备通信耦合的音频采集器来接收语音输入。

例如，如上文所讨论的，图1中的第二计算设备150可以从用户155接收语音输入160，图3中的第二计算设备310可以从用户355接收语音输入360，图4中的第二计算设备450可以从用户455接收语音输入460。

在框1704，第二计算设备利用利用语音识别模型来确定与所述语音输入相关联的文本表示。该语音识别模型是由第一计算设备基于上文所讨论的过程，使用关键词训练数据来获取的，关于语音识别模型的具体构建过程可以参见以上关于图5至图11所描述的内容，在此不再详叙。图18进一步示出了根据本公开实施例的确定语音识别结果的示例过程的流程图。如图18所示，在框1802，第二计算设备可以获取语音信号，并在框1804对信号进行预处理。随后，在框1806，第二计算设备可以对经预处理的信号进行分帧加窗处理；在框1808，第二计算设备可以提取特征；在框1810，第二计算设备可以基于所提取的特征，并利用所部署的解码图进行解码搜索；在框18012，第二计算设备可以利用解码图获得识别结果，即与语音输入相关联的文本表示或音素序列表示。

在一些实施例中，对于从关键词训练数据得到的语音识别模型，文本表示可以对应于目标关键词或同义词组中的一个同义词。

在一些实施例中，第二计算设备还可以执行与文本表示对应的动作。示例性地，第二计算设备可以根据所确定的文本表示来查询预定的动作规则，以确定第二计算设备应当执行的对应动作。例如，根据文本表示为“提升音量”，第二计算设备(例如，智能音箱)可以执行提高音箱音量的动作。

在一些实施例中，第二计算设备还可以基于文本表示生成对应的控制命令，并发送至第三计算设备，以使得第三计算设备执行对应的动作。例如，第二计算设备150可以是智能音箱，当文本表示为“打开电视”时，智能音箱可以向对应的智能电视发送开机的指令，以使得智能电视自动地开机。

基于这样的方式，第二计算设备可以利用具有关键词泛化识别能力的语音识别模型来对语音输入进行处理以检测其中包括的关键词。

在一些实施例中，语音识别模型还可以是使用音素序列训练数据获取的。关于该语音识别模型的具体构建过程可以参见以上关于图12至图16所描述的内容，在此不再详叙。相比于过程1800，替代地，第二计算设备在接收语义输入之后，可以利用语音识别模型来确定与语音输入相关联的音素序列表示。

在一些实施例中，对于从音素序列训练数据得到的语音识别模型，音素序列表示可以对应于目标音素序列或同义音素序列组中的一个同义音素序列。

在一些实施例中，第二计算设备还可以执行与音素序列表示对应的动作。示例性地，第二计算设备可以根据所确定的音素序列表示来查询预定的动作规则，以确定第二计算设备应当执行的对应动作。例如，根据音素序列表示为“ti sheng yin liang”(提升音量)，第二计算设备(例如，智能音箱)可以执行提高音箱音量的动作。

在一些实施例中，第二计算设备还可以基于音素序列表示生成对应的控制命令，并发送至第三计算设备，以使得第三计算设备执行对应的动作。例如，第二计算设备150可以是智能音箱，当音素序列表示为“da kai dian shi”(打开电视)时，智能音箱可以向对应的智能电视发送开机的指令，以使得智能电视自动地开机。

基于这样的方式，第二计算设备可以利用具有音素序列泛化识别能力的语音识别模型来对语音输入进行处理以检测其中包括的音素序列。

图19进一步示出了根据本公开实施例的语音处理方法的示例过程1900的流程图。过程1900例如可以由上文所讨论的第二计算设备来执行，例如图1中的第二计算设备150、图3中的第二计算设备310或图3中的第二计算设备450。

在框1902，第二计算设备接收语音指令输入。在一些实施例中，第二计算设备可以经由位于第二计算设备本地的音频采集器(例如，麦克风)或与第二计算设备通信耦合的音频采集器来接收语音输入。

在框1904。第二计算设备利用语音识别模型来获取语音输入的音素序列表示。这里，语音识别模型被配置用于识别语义相关联的音素序列组。关于该语音识别模型的具体构建过程可以参见以上关于图12至图16所描述的内容。

在框1906，如果音素序列表示对应于音素序列组中的音素序列，执行与音素序列表示对应的指令。

在一些实施例中，语音识别模型是基于以下过程而被获得的：获取目标语言信息；获取与目标语言信息相关联的同义音素序列组，同义音素序列组包括至少一个同义音素序列，该至少一个同义音素序列为与目标语言信息语义相近的词句所对应的音素序列；利用同义音素序列组训练语言模型，以获取目标语言模型；根据目标语言模型生成第一解码图，第一解码图指示满足基于同义音素序列组所确定的语法约束规则的多条解码路径；以及基于第一解码图，确定语音识别模型。

在一些实施例中，如果音素序列表示与音素序列组中的任何一个音素序列都不匹配，第二计算设备可以提供无识别结果的通知。无识别结果可以表示为诸如“SIL”的垃圾表征，并且被丢弃。

在一些实施例中，语音识别模型被配置用于识别具有第一相关联语义的第一音素序列组和具有第二相关联语义的第二音素序列组。过程2000还可以包括：如果音素序列表示对应于所述第一音素序列组中的第一音素序列，执行第一动作；以及如果音素序列表示对应于第二音素序列组中的第二音素序列，执行与第一动作不同的第二动作。

在一些实施例中，利用语音识别模型来获取语音输入的音素序列表示可以包括：利用声学模型来生成语音输入的语音特征到音素的发射概率；通过将发射概率输入到语音识别模型来识别所述语音输入；以及使语音识别模型输出音素序列表示。

示例系统与设备

图20示出了根据本公开的一些具体实施例的示例语音识别系统2000的示意框图。如图20所示，语音识别系统2000可以包括云侧或嵌入式重设备2020，其示例包括但不限于：云侧服务器、智能手机、笔记本电脑、平板电脑、台式机或边缘计算设备等。

如图20所示，云侧或嵌入式重设备2020可以获取关键词输入数据。在一些实施例中，关键词输入数据例如可以是由部署在关键词接收设备2010中的自定义关键词输入模块2015所获取的。在一些实施例中，关键词接收设备2010例如可以是与云侧或嵌入式重设备2020不同的设备，并经由有线或无线通信将关键词输入数据发送至云侧或嵌入重设备2020中的传输通信模块2050。在一些实施例中，关键词接收设备2010例如也可以是用于部署语音识别模型的嵌入式轻设备2055。

备选地，关键词接收设备2010也可以是与云侧或嵌入重设备2020相同的设备，在这种情况下，自定义关键词输入单元2015的输出可以被直接提供至数据预处理单元2025。

如图20所示，数据预处理模块2025可以基于所接收的关键词输入数据来确定自定义关键词。例如，当关键词输入数据为文本数据时，数据预处理模块2025可以基于文本输入直接确定自定义关键词。此外，当关键词输入数据为音频数据时，数据预处理模块2025可以首先利用自动语音识别技术来将音频数据转换为文本数据，并进一步从文本数据中确定自定义关键词。

在一些实施例中，数据预处理模块2025可以基于自定义关键词和预存的历史关键词来确定目标关键词。在一些实施例中，同义词增广模块2030可以基于目标关键词的语义来从词库确定与目标关键词相关联的同义词组。

在一些实施例中，模型训练模块2035可以基于目标关键词和同义词组来训练语言模型，并将该语言模型存储到模型库2040中。模型库2040例如可以维护已经训练好的声学模型、语言模型和发音字典。在一些实施例中，模型库2040例如也可以被维护在云端服务器。

相应地，经训练的语言模型还可以被提供至解码图构建模块2045，以基于语言模型、模型库2040中存储的声学模型和发音字典来生成用于嵌入式轻设备2055的解码图。

应当理解，上文参考图5至图16所讨论的关于构建语音识别模型的各实施例同样适用于云侧或嵌入式重设备2020生成解码图的过程，在此不再详叙。

在一些实施例中，如图20所示，所生成的解码图可以经由传输通信模块2050被发送至嵌入式轻设备2055中的关键词识别检测单元2060，以使得该关键词识别检测单元2160能够利用解码图处理接收的语音输入，以确定与语音输入相对应的文本表示。

应当理解，上文参考图17至图19所讨论的语音识别的各实施例同样适用于嵌入式轻设备2055进行语音识别的过程，在此不再详叙。

以上描述了基于关键词进行语音识别的示例语音识别系统2100。本公开还提供了基于音素序列进行语音识别的示例性语音识别系统，该语音识别系统中使用音素序列而不是文本形式的关键词来构建语音识别模型，并且所构建的语音识别模型将语音输入识别为音素序列，基于音素序列而不是关键词来识别语音。该语音识别模型的整体结构与图20的语音识别模型2000类似，这里不再赘述。

图21进一步示出了根据本公开实施例的语音模型构建系统2100的示意框图，语音模型构建系统2100可以包括多个单元，以用于执行如图5中所讨论的过程500中的对应步骤。如图21所示，语音模型构建系统2100包括关键词获取单元2110，用于获取目标关键词；同义词获取单元2120，用于获取与目标关键词语义相关联的同义词组；模型训练单元2130，用于利用目标关键词和同义词组训练语言模型，以获得目标语言模型；解码图生成单元2140，用于根据目标语言模型生成第一解码图，第一解码图指示满足基于目标关键词和同义词组所确定的语法约束规则的多条解码路径；以及模型确定单元2150，用于基于第一解码图，确定语音识别模型。

在一些实施例中，目标关键词包括来自音频采集器的语音输入的关键词，音频采集器位于用户终端处。

在另一些实施例中，目标关键词包括来自文本采集器的文本输入的关键词，文本采集器位于用户终端处。

在一些实施例中，同义词获取单元2120还用于：确定目标关键词的语义；以及至少基于目标关键词的语义，确定同义词组，其中同义词组中的每个同义词的语义与目标关键词的语义的差异小于差异阈值。

在一些实施例中，同义词获取单元2120还用于：基于目标关键词的语义和目标关键词的长度，确定同义词组，其中同义词组中的每个同义词的长度与目标关键词的长度的差异小于长度阈值。关键词的长度例如可以表示该关键词中包括的字符的数目或者单词的数目。

在一些实施例中，同义词获取单元2120还用于：基于目标关键词的语义，获取多个候选同义词；向用户提供多个候选同义词；以及基于从用户接收的用户输入，从多个候选同义词中确定同义词组，用户输入指示多个候选同义词中的至少一个候选同义词被排除或被确认。

在一些实施例中，目标关键词至少包括第一关键词和第二关键词，其中模型确定单元1550还用于：从第一解码图中获取第一组解码路径和第二组解码路径，第一组解码路径包括与第一关键词和与第一关键词语义相关联的第一同义词组相对应的解码路径，第二组解码路径包括与第二关键词和与第二关键词语义相关联的第二同义词组相对应的解码路径；基于第一组解码路径生成第一子图并基于第二组解码路径生成第二子图；以及至少基于第一子图和第二子图来确定语音识别模型。

在一些实施例中，第一子图指示第一解码路径和第二解码路径，第一解码路径为与第一关键词相对应的解码路径，第二解码路径为第一同义词组中的同义词相对应的解码路径，第一解码路径和每条第二解码路径在第一子图中具有相同的权重。

在一些实施例中，关键词获取单元2110还用于：根据预存的历史关键词和接收的关键词来获取第一关键词组；以及响应于确定第一关键词组中的关键词数目超过预定阈值，删除第一关键词组中的至少一个关键词，删除至少一个关键词后的第一关键词组中的剩余关键词为目标关键词。

在一些实施例中，关键词获取单元2110还用于：根据目标关键词中的关键词的属性来删除目标关键词中的至少一个关键词。

在一些实施例中，关键词获取单元2110还用于：根据用户指示删除目标第一关键词组中的至少一个关键词。

在一些实施例中，语音模型构建系统2100还可以包括通信单元，以用于向第二计算设备提供语音识别模型，以用于在第二计算设备上部署语音识别模型。

应当理解，语音模型构建系统2100中的各单元可以利用硬件单元、软件单元或硬件单元与软件单元的组合来实施。

图22进一步示出了根据本公开实施例的语音处理系统2200的框图，语音处理系统2200可以包括多个单元，以用于执行如图1700中所讨论的过程1700中的对应步骤。如图22所示，语音处理系统2200包括语音输入单元2210，用于接收语音输入；以及语音处理单元2220，用于利用语音识别模型来确定与语音输入相关联的文本表示。语音识别模型是基于以下过程而被获得的：获取目标关键词；获取与目标关键词语义相关联的同义词组；根据目标语言模型生成第一解码图，第一解码图指示满足基于目标关键词和同义词组所确定的语法约束规则的多条解码路径；以及基于第一解码图，确定语音识别模型。

在一些实施例中，确定与目标关键词语义相关联的同义词组包括：确定目标关键词的语义；以及至少基于目标关键词的语义，确定同义词组，其中同义词组中的每个同义词的语义与目标关键词的语义的差异小于差异阈值。

在一些实施例中，至少基于目标关键词的语义确定同义词组包括：基于目标关键词的语义和目标关键词的长度，确定同义词组，其中同义词组中的每个同义词的长度与目标关键词的长度的差异小于长度阈值。关键词的长度例如可以表示该关键词中包括的字符的数目或者单词的数目。

在一些实施例中，至少基于目标关键词的语义确定同义词组包括：基于目标关键词的语义，获取多个候选同义词；向用户提供多个候选同义词；以及基于从用户接收的用户输入，从多个候选同义词中确定同义词组，用户输入指示多个候选同义词中的至少一个候选同义词被排除或被确认。

在一些实施例中，目标关键词至少包括第一关键词和第二关键词，其中基于第一解码图确定语音识别模型包括：从第一解码图中获取第一组解码路径和第二组解码路径，第一组解码路径包括与第一关键词和与第一关键词语义相关联的第一同义词组相对应的解码路径，第二组解码路径包括与第二关键词和与第二关键词语义相关联的第二同义词组相对应的解码路径；基于第一组解码路径生成第一子图；基于第二组解码路径生成第二子图；以及至少基于第一子图和第二子图来确定语音识别模型。

在一些实施例中，获取目标关键词包括：根据预存的历史关键词和接收的关键词来获取第一关键词组；以及响应于确定第一关键词组中的关键词数目超过预定阈值，删除第一关键词组中的至少一个关键词，删除至少一个关键词后的第一关键词组中的剩余关键词为目标关键词。

在一些实施例中，删除目标关键词中的至少一个关键词包括：根据目标关键词中的关键词的属性来删除目标关键词中的至少一个关键词。例如，可以根据历史关键词的创建时间来删除最早被创建的历史关键词。

在一些实施例中，删除目标第一关键词组中的至少一个关键词包括根据用户指示删除目标第一关键词组中的至少一个关键词。

在一些实施例中，语音处理系统2200还可以包括动作执行单元，用于执行与文本表示对应的动作。

在一些实施例中，语音处理系统2200还可以包括设备控制单元，以用于基于文本表示生成对应的控制命令，并发送至第三计算设备，以使得第三计算设备执行对应的动作。

在一些实施例中，文本表示对应于目标关键词或同义词组中的一个同义词。

应当理解，语音处理系统2200中的各单元可以利用硬件单元、软件单元或硬件单元与软件单元的组合来实施。语音输入单元2210的示例可以包括用于接收语音输入的麦克风，语音处理单元2220的示例可以包括用于执行语音识别操作的处理设备。

应当理解，语音模型构建系统2100和/或语音处理系统2200可以利用专用集成电路、一个或多个FPGA(现场可编程门阵列)、PLD(可编程逻辑器件)、控制器、状态机、门逻辑、分立硬件部件、任何其它适合的电路、或者能够执行本公开各种过程的电路的任意组合、芯片、单板或通信设备等来实现。

图23进一步示出了根据本公开实施例的语音模型构建系统2300的框图，语音模型构建系统2300可以包括多个单元，以用于执行如图12中所讨论的过程1200中的对应步骤。如图23所示，语音模型构建系统2300包括：目标语言信息获取单元2310，用于获取目标语言信息；同义音素序列组获取单元2320，用于获取与所述目标语言信息相关联的同义音素序列组，同义音素序列组包括至少一个同义音素序列，至少一个同义音素序列为与目标语言信息语义相近的词句所对应的音素序列；模型训练单元2330，用于利用同义音素序列组训练语言模型，以获得目标语言模型；解码图生成单元2340，用于根据所述目标语言模型生成第一解码图，第一解码图指示满足基于同义音素序列组所确定的语法约束规则的多条解码路径；以及模型确定单元2350，用于基于所述第一解码图，确定所述语音识别模型。

在一些实施例中，目标语言信息可以包括语音或文本。在一些实施例中，目标语言信息包括来自音频采集器的语音输入，音频采集器位于用户终端处。在另一些实施例中，从用户终端处的文本采集器获取文本输入的关键词。在一些实施例中，目标语言信息可以是一些简短的指令词或者指令语句，如“关闭”，“停止”，“暂停”，“提高音量”，“增大音量”等。

在一些实施例中，同义音素序列组获取单元2320还可以用于：确定目标语言信息的语义；以及至少基于目标语言信息的语义确定同义音素序列组，其中同义音素序列组中的每个同义音素序列的语义与目标语言信息的语义的差异小于差异阈值。

在一些实施例中，同义音素序列组获取单元2320还可以用于：确定与目标语言信息对应的目标音素序列；以及基于目标音素序列的语义和目标音素序列的长度，确定同义音素序列组，同义音素序列组中的每个同义音素序列的长度与目标音素序列的长度的差异小于长度阈值。音素序列的长度例如可以表示该音素序列中包括的音素(例如，声韵母)的数目。在一些实施例中，如果目标语言信息是文本，则可以通过发音词典得到与该文本对应的音素序列作为目标音素序列。如果目标语言信息是语音，可以通过声学模型来得到该语音的音素序列作为目标音素序列。

在一些实施例中，同义音素序列组获取单元2320还可以用于：基于对应于目标语言信息的目标关键词的语义，获取多个候选同义词；向用户提供多个候选同义词；基于从用户接收的用户输入，从多个候选同义词中确定同义词组，用户输入指示多个候选同义词中的至少一个候选同义词被排除或被确认；以及基于发音词典和同义词组，获取同义音素序列组。

在一些实施例中，同义音素序列组获取单元2320还可以用于：从用户接收语音输入；以及基于语音输入来生成同义音素序列组。例如，基于语音输入对应的关键词来得到语音输入的语义，从而生成所述同义音素序列组。

在一些实施例中，目标语言信息至少包括第一语言信息和第二语言信息，其中模型确定单元2330还可以用于：从第一解码图中获取第一组解码路径和第二组解码路径，第一组解码路径包括与第一语言信息相关联的第一同义音素序列组的解码路径，第二组解码路径包括与第二语言信息相关联的第二同义音素序列组的解码路径；基于第一组解码路径生成第一子图；基于第二组解码路径生成第二子图；以及至少基于第一子图和第二子图来确定语音识别模型。

在一些实施例中，第一子图指示第一解码路径和第二解码路径，第一解码路径和第二解码路径为与第一同义音素序列组中的解码路径，第一解码路径和第二解码路径在第一子图中具有相同的权重。基于这样的方式，能够实现针对所扩展的同义音素序列的更为快速的解码搜索，从而降低计算开销和存储开销。

在一些实施例中，目标语言信息获取单元2310还可以用于：根据预存的历史语言信息和接收的语言信息获取第一语言信息组；响应于确定第一语言信息组中的语言信息的数目超过预定阈值，基于预定阈值从第一语言信息组中获取目标语言信息。

在一些实施例中，目标语言信息获取单元2310还可以用于：根据目标语言信息中的语言信息的属性从第一语言信息组中获取目标语言信息，目标语言信息的数量为预定阈值。例如，可以从第一语言信息组中删除最早被创建的一个或多个历史语言信息，从而获得预定阈值数目的语言信息。

在一些实施例中，目标语言信息获取单元2310还可以用于：根据用户指示来从第一语言信息组中获取目标语言信息，目标语言信息的数量为预定阈值。例如，可以根据用户输入来选择保留第一语言信息组中的哪些语言信息以作为目标语言信息。

在一些实施例中，第一计算设备还可以指示向目标计算设备(例如，第二计算设备)提供语音识别模型，以用于在目标计算设备上部署语音识别模型。

图24进一步示出了根据本公开实施例的语音处理系统2400的框图。语音模型构建系统2300可以包括多个单元，以用于执行如图19中所讨论的过程1900中的对应步骤。如图24所示，语音处理系统2400包括：语音指令输入单元2410，用于接收语音指令输入；语音处理单元2420，用于利用语音识别模型来获取语音指令输入的音素序列表示，语音识别模型被配置基于指令语义同义的音素序列组进行语音指令输入的识别；以及用于在音素序列表示对应于音素序列组中的音素序列的情况下执行与音素序列表示对应的指令。

在一些实施例中，语音识别模型可以是由第一计算设备来获得的。第一计算设备例如可以包括云侧或嵌入式重设备，其可以具有较强的计算能力，以用于执行语音识别模型的构建。第一计算设备例如还可以包括用户终端设备。

在一些实施例中，语音处理系统2400例如可以是由第二计算设备来执行的。第二计算设备可以包括嵌入式轻设备，其例如具有较弱的计算能力，以用于利用所部署的语音识别模型来执行语音处理。第二计算设备的示例可以包括但不限于：智能家居设备(例如，空调、冰箱、洗衣机、电视、音箱等)、智能穿戴设备(例如，手环、手表、眼镜等)或车载设备等。

在一些实施例中，语音识别模型是基于以下过程而被获得的：获取目标语言信息；获取与目标语言信息相关联的同义音素序列组，同义音素序列组包括至少一个同义音素序列，同义音素序列为与目标语言信息语义相近的词句所对应的音素序列；利用同义音素序列组训练语言模型，以获取目标语言模型；根据目标语言模型生成第一解码图，第一解码图指示满足基于同义音素序列组所确定的语法约束规则的多条解码路径；以及基于第一解码图，确定语音识别模型。

在一些实施例中，语音处理单元2420还可以用于：如果音素序列表示与音素序列组中的任何一个音素序列都不匹配，提供无识别结果的通知。基于这样的方式，能够实时且高效地识别用户语音，提高了用户的语音交互体验。

在一些实施例中，语音识别模型被配置用于识别具有第一语义同义的第一音素序列组和具有第二语义同义的第二音素序列组。语音处理单元2420还可以用于：如果音素序列表示对应于第一音素序列组中的第一音素序列，执行第一指令，以及如果音素序列表示对应于第二音素序列组中的第二音素序列，执行与第一动作不同的第二指令。

在一些实施例中，语音处理单元还可以用于：利用声学模型来生成语音指令输入的语音特征到音素的发射概率；通过将发射概率输入到语音识别模型来识别语音指令输入；以及使语音识别模型输出音素序列表示。

图25示出了可以用来实施本公开内容的实施例的示例设备2500的示意性框图。例如，根据本公开实施例的第一计算设备(例如，图1中的第一计算设备130、图3中的第一计算设备330或图3中的第一计算设备430)和/或第二计算设备(例如，图1中的第二计算设备150、图3中的第二计算设备310或图3中的第二计算设备450)可以由设备2500来实施。如图所示，设备2500包括中央处理单元(CPU)2501，其可以根据存储在只读存储器(ROM)2502中的计算机程序指令或者从存储单元2508加载到随机访问存储器(RAM)2503中的计算机程序指令，来执行各种适当的动作和处理。在RAM 2503中，还可存储设备2500操作所需的各种程序和数据。CPU 2501、ROM 2502以及RAM 2503通过总线2504彼此相连。输入/输出(I/O)接口2505也连接至总线2404。

设备2500中的多个部件连接至I/O接口2505，包括：输入单元2506，例如键盘、鼠标等；输出单元2507，例如各种类型的显示器、扬声器等；存储单元2508，例如磁盘、光盘等；以及通信单元2509，例如网卡、调制解调器、无线通信收发机等。通信单元2509允许设备2500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如过程500、600、700、800、900、1000、1200、1300、1400、1500、1700、1800、1900，可由处理单元2501执行。例如，在一些实施例中，上述过程可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元2508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 2502和/或通信单元2509而被载入和/或安装到设备2500上。当计算机程序被加载到RAM 2503并由CPU 2501执行时，可以执行上文描述的过程的一个或多个动作。

本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施方式，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施方式。在不偏离明的各实施方式的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施方式的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施方式。

Claims

一种构建语音识别模型的方法，包括：

获取目标关键词；

获取与所述目标关键词语义相关联的同义词组；

利用所述目标关键词和所述同义词组训练语言模型，以获得目标语言模型；

根据所述目标语言模型生成第一解码图，所述第一解码图指示满足基于所述目标关键词和所述同义词组所确定的语法约束规则的多条解码路径；以及

基于所述第一解码图，确定所述语音识别模型。
根据权利要求1所述的方法，其中确定与所述目标关键词语义相关联的所述同义词组包括：

确定所述目标关键词的语义；以及

至少基于所述目标关键词的语义确定所述同义词组，其中所述同义词组中的每个同义词的语义与所述目标关键词的语义的差异小于差异阈值。
根据权利要求2所述的方法，其中至少基于所述目标关键词的语义确定所述同义词组包括：

基于所述目标关键词的所述语义和所述目标关键词的长度，确定所述同义词组，其中所述同义词组中的每个同义词的长度与所述目标关键词的长度的差异小于长度阈值。
根据权利要求2所述的方法，其中至少基于所述目标关键词的语义确定所述同义词组包括：

基于所述目标关键词的语义，获取多个候选同义词；

向用户提供所述多个候选同义词；以及

基于从所述用户接收的用户输入，从所述多个候选同义词中确定所述同义词组，所述用户输入指示所述多个候选同义词中的至少一个候选同义词被排除或被确认。
根据权利要求1所述的方法，其中所述目标关键词至少包括第一关键词和第二关键词，其中基于所述第一解码图确定所述语音识别模型包括：

从所述第一解码图中获取第一组解码路径和第二组解码路径，所述第一组解码路径包括与所述第一关键词和与所述第一关键词语义相关联的第一同义词组相对应的解码路径，所述第二组解码路径包括与所述第二关键词和与所述第二关键词语义相关联的第二同义词组相对应的解码路径；

基于所述第一组解码路径生成第一子图；

基于第二组解码路径生成第二子图；以及

至少基于所述第一子图和所述第二子图来确定所述语音识别模型。
根据权利要求5所述的方法，其中所述第一子图指示第一解码路径和第二解码路径，所述第一解码路径为与所述第一关键词相对应的解码路径，所述第二解码路径为所述第一同义词组中的同义词相对应的解码路径，所述第一解码路径和每条所述第二解码路径在所述第一子图中具有相同的权重。
根据权利要求1所述的方法，其中获取所述目标关键词包括：

根据预存的历史关键词和接收的关键词获取第一关键词组；以及

响应于确定所述第一关键词组中的关键词数目超过预定阈值，基于所述预定阈值从所述第一关键词组中获取所述目标关键词。
根据权利要求7所述的方法，基于所述预定阈值从所述第一关键词组中获取所述目标关键词包括：

根据所述目标关键词中的关键词的属性从所述第一关键词组中获取所述目标关键词，所述目标关键词数量为所述预定阈值。
根据权利要求1所述的方法，所述方法还包括：指示向目标计算设备提供所述语音识别模型，以用于在所述目标计算设备上部署所述语音识别模型。
一种语音处理的方法，包括：

接收语音输入；以及

利用语音识别模型来确定与所述语音输入相关联的文本表示，其中所述语音识别模型是基于以下过程而被获得的：

获取目标关键词；

获取与所述目标关键词语义相关联的同义词组；

利用所述目标关键词和所述同义词组训练语言模型，以获得目标语言模型；

根据所述目标语言模型生成第一解码图，所述第一解码图指示满足基于所述目标关键词和所述同义词组所确定的语法约束规则的多条解码路径；以及

基于所述第一解码图，确定所述语音识别模型。
根据权利要求10所述的方法，其中确定与所述目标关键词语义相关联的所述同义词组包括：

确定所述目标关键词的语义；以及

至少基于所述目标关键词的语义确定所述同义词组，其中所述同义词组中的每个同义词的语义与所述目标关键词的语义的差异小于差异阈值。
根据权利要求11所述的方法，其中至少基于所述目标关键词的语义确定所述同义词组包括：

基于所述目标关键词的所述语义和所述目标关键词的长度，确定所述同义词组，其中所述同义词组中的每个同义词的长度与所述目标关键词的长度的差异小于长度阈值。
根据权利要求11所述的方法，其中至少基于所述目标关键词的语义确定所述同义词组包括：

基于所述目标关键词的语义，获取多个候选同义词；

向用户提供所述多个候选同义词；以及

基于从所述用户接收的用户输入，从所述多个候选同义词中确定所述同义词组，所述用户输入指示所述多个候选同义词中的至少一个候选同义词被排除或被确认。
根据权利要求10所述的方法，其中所述目标关键词至少包括第一关键词和第二关键词，其中基于所述第一解码图确定所述语音识别模型包括：

从所述第一解码图中获取第一组解码路径和第二组解码路径，所述第一组解码路径包括与所述第一关键词和与所述第一关键词语义相关联的第一同义词组相对应的解码路径，所述第二组解码路径包括与所述第二关键词和与所述第二关键词语义相关联的第二同义词组相对应的解码路径；

基于所述第一组解码路径生成第一子图；

基于第二组解码路径生成第二子图；以及

至少基于所述第一子图和所述第二子图来确定所述语音识别模型。
根据权利要求14所述的方法，其中所述第一子图指示第一解码路径和第二解码路径，所述第一解码路径为与所述第一关键词相对应的解码路径，所述第二解码路径为所述第一同义词组中的同义词相对应的解码路径，所述第一解码路径和每条所述第二解码路径在所述第一子图中具有相同的权重。
根据权利要求10所述的方法，其中获取所述目标关键词包括：

根据预存的历史关键词和接收的关键词获取第一关键词组；以及

响应于确定所述第一关键词组中的关键词数目超过预定阈值，基于所述预定阈值从所述第一关键词组中获取所述目标关键词。
根据权利要求16所述的方法，基于所述预定阈值从所述第一关键词组中获取所述目标关键词包括：

根据所述目标关键词中的关键词的属性从所述第一关键词组中获取所述目标关键词，所述目标关键词数量为所述预定阈值。
根据权利要求10所述的方法，还包括：执行与所述文本表示对应的动作。
根据权利要求10所述的方法，其中所述文本表示对应于所述目标关键词或所述同义词组中的一个同义词。
一种语音模型构建系统，包括：

关键词获取单元，用于获取目标关键词；

同义词获取单元，用于获取与所述目标关键词语义相关联的同义词组；

模型训练单元，用于利用所述目标关键词和所述同义词组训练语言模型，以获得目标语言模型；

解码图生成单元，用于根据所述目标语言模型生成第一解码图，所述第一解码图指示满足基于所述目标关键词和所述同义词组所确定的语法约束规则的多条解码路径；以及

模型确定单元，用于基于所述第一解码图，确定所述语音识别模型。
一种语音处理系统，包括：

语音输入单元，用于接收语音输入；以及

语音处理单元，用于利用语音识别模型来确定与所述语音输入相关联的文本表示，

其中所述语音识别模型是基于以下过程而被获得的：

获取目标关键词；

获取与所述目标关键词语义相关联的同义词组；

利用所述目标关键词和所述同义词组训练语言模型，以获得目标语言模型；

根据所述目标语言模型生成第一解码图，所述第一解码图指示满足基于所述目标关键词和所述同义词组所确定的语法约束规则的多条解码路径；以及

基于所述第一解码图，确定所述语音识别模型。
一种构建语音识别模型的方法，包括：

获取目标语言信息；

获取与所述目标语言信息相关联的同义音素序列组，所述同义音素序列组包括至少一个同义音素序列，所述至少一个同义音素序列为与所述目标语言信息语义相近的词句所对应的音素序列；

利用所述同义音素序列组训练语言模型，以获取目标语言模型；

根据所述目标语言模型生成第一解码图，所述第一解码图指示满足基于所述同义音素序列组所确定的语法约束规则的多条解码路径；以及

基于所述第一解码图，确定所述语音识别模型。
根据权利要求22所述的方法，其中获取与所述目标语言信息相关联的同义音素序列组包括：

确定所述目标语言信息的语义；以及

至少基于所述目标语言信息的语义确定所述同义音素序列组，其中所述同义音素序列组中的每个同义音素序列的语义与所述目标语言信息的语义的差异小于差异阈值。
根据权利要求23所述的方法，其中至少基于所述目标语言信息的语义确定所述同义音素序列组包括：

确定与所述目标语言信息对应的目标音素序列；以及

基于所述目标语言信息的所述语义和所述目标音素序列的长度，确定所述同义音素序列组，所述同义音素序列组中的每个同义音素序列的长度与所述目标音素序列的长度的差异小于长度阈值。
根据权利要求24所述的方法，其中获取与所述目标语言信息相关联的同义音素序列组包括：

基于对应于所述目标语言信息的目标关键词的语义，获取多个候选同义词；

向用户提供所述多个候选同义词；

基于从所述用户接收的用户输入，从所述多个候选同义词中确定同义词组，所述用户输入指示所述多个候选同义词中的至少一个候选同义词被排除或被确认；以及

基于发音词典和所述同义词组，获取所述同义音素序列组。
根据权利要求22所述的方法，其中获取与所述目标音素序列语义相关联的同义音素序列组包括：

从用户接收语音输入；以及

基于所述语音输入来生成所述同义音素序列组。
根据权利要求22所述的方法，其中所述目标语言信息至少包括第一语言信息和第二语言信息，其中基于所述第一解码图确定所述语音识别模型包括：

从所述第一解码图中获取第一组解码路径和第二组解码路径，所述第一组解码路径包括与所述第一语言信息相关联的第一同义音素序列组的解码路径，所述第二组解码路径包括与所述第二语言信息相关联的第二同义音素序列组的解码路径；

基于所述第一组解码路径生成第一子图；

基于第二组解码路径生成第二子图；以及

至少基于所述第一子图和所述第二子图来确定所述语音识别模型。
根据权利要求27所述的方法，其中所述第一子图指示第一解码路径和第二解码路径，所述第一解码路径和所述第二解码路径为所述第一组解码路径中的解码路径，所述第一解码路径和所述第二解码路径在所述第一子图中具有相同的权重。
根据权利要求22所述的方法，其中获取所述目标语言信息包括：

根据预存的历史语言信息和接收的语言信息获取第一语言信息组；以及

响应于确定所述第一语言信息组中的语言信息的数目超过预定阈值，基于所述预定阈值从所述第一语言信息组中获取所述目标语言信息。
根据权利要求29所述的方法，基于所述预定阈值从所述第一语言信息组中获取所述目标语言信息包括：

根据所述第一语言信息组中的语言信息的属性从所述第一音素序列组中获取所述目标语言信息，所述目标语言信息的数量为所述预定阈值。
根据权利要求22所述的方法，其中，所述目标语言信息包括语音或文本。
根据权利要求22所述的方法，所述方法还包括：指示向目标计算设备提供所述语音识别模型，以用于在所述目标计算设备上部署所述语音识别模型。
一种语音处理方法，包括：

接收语音指令输入；

利用语音识别模型来获取所述语音指令输入的音素序列表示，所述语音识别模型被配置基于指令语义同义的音素序列组进行所述语音指令输入的识别；以及

当所述音素序列表示对应于所述同义的音素序列组中的音素序列，执行与所述音素序列表示对应的指令。
根据权利要求33所述的方法，还包括：所述语音识别模型是基于以下过程而被获得的：

获取目标语言信息；

获取与所述目标语言信息相关联的同义音素序列组，所述同义音素序列组包括至少一个同义音素序列，所述至少一个同义音素序列为与所述目标语言信息语义相近的词句所对应的音素序列；

利用所述同义音素序列组训练语言模型，以获取目标语言模型；

根据所述目标语言模型生成第一解码图，所述第一解码图指示满足基于所述同义音素序列组所确定的语法约束规则的多条解码路径；以及

基于所述第一解码图，确定所述语音识别模型。
根据权利要求33所述的方法，还包括：

如果所述音素序列表示与所述音素序列组中的任何一个音素序列都不匹配，提供无识别结果的通知。
根据权利要求33所述的方法，其中所述语音识别模型被配置用于识别具有第一语义同义的第一音素序列组和具有第二语义同义的第二音素序列组，所述方法还包括：

如果所述音素序列表示对应于所述第一音素序列组中的第一音素序列，执行第一指令；以及

如果所述音素序列表示对应于所述第二音素序列组中的第二音素序列，执行与所述第一指令不同的第二指令。
根据权利要求33所述方法，其中利用语音识别模型来获取所述语音指令输入的音素序列表示包括：

利用声学模型来生成所述语音指令输入的语音特征到音素的发射概率；

通过将所述发射概率输入到所述语音识别模型来识别所述语音指令输入；以及

使所述语音识别模型输出所述音素序列表示。
一种语音模型构建系统，包括：

目标语言信息获取单元，用于获取目标语言信息；

同义音素序列组获取单元，用于获取与所述目标语言信息相关联的同义音素序列组，所述同义音素序列组包括至少一个同义音素序列，所述至少一个同义音素序列为与所述目标语言信息语义相近的词句所对应的音素序列；

模型训练单元，用于利用所述同义音素序列组训练语言模型，以获得目标语言模型；

解码图生成单元，用于根据所述目标语言模型生成第一解码图，所述第一解码图指示满足基于所述同义音素序列组所确定的语法约束规则的多条解码路径；以及

模型确定单元，用于基于所述第一解码图，确定所述语音识别模型。
一种语音处理系统，包括：

语音指令输入单元，用于接收语音指令输入；

语音处理单元，用于

利用语音识别模型来获取所述语音指令输入的音素序列表示，所述语音识别模型被配置基于指令语义同义的音素序列组进行所述语音指令输入的识别；以及

在所述音素序列表示对应于所述音素序列组中的音素序列的情况下执行与所述音素序列表示对应的指令。
一种电子设备，包括：

至少一个计算单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个计算单元并且存储用于由所述至少一个计算单元执行的指令，所述指令当由所述至少一个计算单元执行时，使得所述设备执行根据权利要求1至19或者权利要求22至37中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1至19或者权利要求22至37中任一项所述的方法。
一种计算机程序产品，包括计算机可执行指令，其中所述计算机可执行指令在被处理器执行时实现根据权利要求1至19或者权利要求22至37中任一项所述的方法。