WO2022141706A1

WO2022141706A1 - 语音识别方法、装置及存储介质

Info

Publication number: WO2022141706A1
Application number: PCT/CN2021/073773
Authority: WO
Inventors: 方昕; 吴明辉; 马志强; 刘俊华
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-31
Filing date: 2021-01-26
Publication date: 2022-07-07
Anticipated expiration: 2023-06-30
Also published as: EP4273855A4; EP4273855B1; EP4273855C0; JP7627766B2; EP4273855A1; KR20230159371A; CN112767917B; CN112767917A; JP2024502048A

Abstract

一种语音识别方法、装置、电子设备、存储介质和程序产品，语音识别方法包括：对待识别语音数据进行编码，得到第一特征向量序列（101）；对预设热词库中每一热词进行编码，得到第二特征向量序列（102）；对预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列（103）；将第一特征向量序列和第三特征向量序列进行第一注意力操作，得到第四特征向量序列（104）；根据第二特征向量序列、第三特征向量序列和第四特征向量序列进行解码操作，得到识别结果（105）。方法能够提升热词识别精度。

Description

语音识别方法、装置及存储介质

本申请要求2020年12月31日递交的发明名称为“语音识别方法、装置及存储介质”的申请号202011641751.3的在先申请优先权，上述在先申请的内容以引入的方式并入本文本中。

技术领域

本申请涉及语音识别技术领域，具体涉及一种语音识别方法、装置及存储介质。

背景技术

在语音识别领域，由于端到端模型输出的低频词得分很低，传统的热词得分激励方法效果提升有限。而谷歌提出的CLAS(Contextual Listen,Attend and Spell，CLAS)从模型层面对热词进行激励，已经取得了不错的效果，但是做法过于简单，很容易将不包含热词的句子也误识别出热词，导致整体识别率下降，在实际系统中难以直接使用，因此，如何提升热词识别精度的问题亟待解决。

发明内容

本申请实施例提供了一种语音识别方法、装置及存储介质，能够提升热词识别精度。

第一方面，本申请实施例提供一种语音识别方法，所述方法包括：

对待识别语音数据进行编码，得到第一特征向量序列；

对预设热词库中每一热词进行编码，得到第二特征向量序列；

对所述预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列；

将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作，得到第四特征向量序列；

根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果。

第二方面，本申请实施例提供一种语音识别装置，所述语音识别装置包括：音频编码器模块、热词文本编码器模块、热词音频编码器模块、帧层级注意力模块和解码器模块，其中，

所述音频编码器模块，用于对待识别语音数据进行编码，得到第一特征向量序列；

所述热词文本编码器模块，用于对预设热词库中每一热词进行编码，得到第二特征向量序列；

所述热词音频编码器模块，用于对所述预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列；

所述帧层级注意力模块，用于将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作，得到第四特征向量序列；

所述解码器模块，用于根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果。

第三方面，本申请实施例提供一种电子设备，包括：处理器，存储器，通信接口，以及一个或多个程序；其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

实施本申请实施例，具备如下有益效果：

可以看出，本申请实施例中所描述的语音识别方法、装置及相关产品，对待识别语音数据进行编码，得到第一特征向量序列；对预设热词库中每一热词进行编码，得到第二特征向量序列，对预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列，将第一特征向量序列和第三特征向量序列进行第一注意力操作，得到第四特征向量序列，根据第二特征向量序列、第三特征向量序列和第四特征向量序列进行解码操作，得到识别结果，由于不仅将热词文本信息作为输入，还将其对应的音频片段作为输入，以及将待识别语音数据以及热词文本信息的音频片段进行注意力操作加以融合后作为输入，进而，能够显著提升热词激励效果，再将三者进行解码操作，能够提升热词识别效果，从而，提升热词识别精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请实施例提供的一种语音识别模型的结构示意图；

图1B是本申请实施例提供的一种语音识别方法的流程示意图；

图1C是本申请实施例提供的热词编码的演示示意图；

图1D是本申请实施例提供的特征拼接的演示示意图；

图2是本申请实施例提供的另一种语音识别方法的流程示意图；

图3是本申请实施例提供的一种电子设备的结构示意图；

图4A是本申请实施例提供的一种语音识别装置的功能单元组成框图；

图4B是本申请实施例提供的另一种语音识别装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是在一个可能地示例中还包括没有列出的步骤或单元，或在一个可能地示例中还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例所涉及到的电子设备可以是包括各种具备语音识别功能的手持设备、录音笔、智能机器人、智能阅读器、智能翻译机、智能耳机、智能词典、智能点读机、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(UserEquipment，UE)，移动台(MobileStation，MS)，终端设备(terminaldevice)等等，电子设备还可以为服务器或者智能家居设备。

本申请实施例中，智能家居设备可以为以下至少一种：冰箱、洗衣机、电饭煲、智能窗帘、智能灯、智能床、智能垃圾桶、微波炉、烤箱、蒸箱、空调、油烟机、服务器、智能门、智能窗户、窗门衣柜、智能音箱、智能家居、智能椅、智能晾衣架、智能淋浴、饮水机、净水器、空气净化器、门铃、监控系统、智能车库、电视机、投影仪、智能餐桌、智能沙发、按摩椅、跑步机等等。

下面对本申请实施例进行详细介绍。

请参见图1A，图1A是本申请实施例提供的一种语音识别模型，该语音识别模型包括：音频编码器模块、热词文本编码器模块、热词音频编码器模块、帧层级注意力模块、词层级注意力模块和解码器模块，解码器模块可以包括解码器，该语音识别模型可以用于实现语音识别功能，具体如下：

首先，利用音频编码器模块，对待识别语音数据的语音特征向量序列X＝[x ₁,x ₂,……,x _K]进行编码，得到第一特征向量序列H ^x＝[h ₁ ^x,h ₂ ^x,……,h _K ^x]，其中，x _k表示第k帧语音特征向量，h _k ^x为音频编码器模块的最后一个神经网络层输出的特征向量，h _k ^x对应x _k经过音频编码器模块变换后的结果。电子设备还可以用热词文本编码器模块对预设热词库中的每个热词进行独立编码，实现将长度不一的热词编码为固定维度的向量，得到一组表示热词的特征向量序列，即第二特征向量序列H ^z＝[h ₀ ^z,h ₁ ^z,……,h _N ^z]，其中，h _n ^z为第n个热词经过热词编码器模块编码处理后的特征向量。预设热词库可以根据用户需求事先设置，例如，可以依据自己的身份或者职业从基础热词库中适配出相应的热词，作为预设热词库，基础热词库可以基于不同的身份或者职业预先建立。预设热词库也可以根据用户历史情况自动生成，例如，用户在使用过程中，可以将使用过程中出现的热词自动生成预设热词库。又例如，语音助手场景下，可以读取用户的通讯录人名作为热词，并根据这些热词生成预设热词库。又例如，在使用过程中，如输入法，经合法授权后，可以根据用户拼音输入的一些实体文本，如地名、人名记住后，作为热词，并将这些热词生成预设热词库。预设热词库可以保存在本地或者云端。

接着，可以用热词音频编码器模块对上述预设热词库中的每个热词的音频片段进行独立编码，此处的热词音频编码器模块可与前述的音频编码器模块共享，共享的意思可以理解为两者为同一个编码器，从而，也可以将长度不一的热词音频片段编码为固定维度的向量，即可以采用热词音频片段的最后一帧的编码器或者平均所有帧的输出代表整个热词音频片段的表征向量，从而得到一组表示热词音频的第三特征向量序列H ^w＝[h ₀ ^w,h ₁ ^w,……,h _N ^w]，其中h _n ^w为第n个热词音频片段经过热词编码器模块编码处理后的特征向量。然后，帧层级注意力模块对每一帧的音频编码表征(第一特征向量序列)和热词音频编码表征(第三向量特征序列)，在帧层级上进行注意力操作，融合热词信息，形成新的音频编码表征，即第四特征向量序列

进而可以采用两种方式进行解码操作，具体如下：

其一，词层级注意力模块，以解码器模块第t时刻输出的状态向量d _t、帧层级注意力模块输出的第四特征向量序列

和热词文本编码器输出的第二特征向量序列H ^z以及热词音频编码器模块输出的第三特征向量序列H ^w为输入，使用注意力机制，计算得到预测第t个字符用的音频上下文特征向量C _t ^x、热词音频上下文特征向量C _t ^w以及热词文本上下文特征向量C _t ^z，输入到解码器模块中完成解码。

其二，解码器模块，可以直接将帧层级注意力模块输出的第四特征向量序列

和热词文本编码器输出的第二特征向量序列H ^z以及热词音频编码器输出的第三特征向量序列H ^w输入到解码器中完成解码。

具体实现中，由于不仅将热词文本信息作为输入，还将其对应的音频片段作为输入，以及将待识别语音数据以及热词文本信息的音频片段进行注意力操作加以融合后作为输入，进而，能够显著提升热词激励效果，再将三者进行解码操作，能够提升热词识别效果，从而，提升热词识别精度。

进一步地，请参阅图1B，图1B是本申请实施例提供的一种语音识别方法的流程示意图，如图所示，图1B所示的语音识别方法应用于图1A所示的语音识别模型，该语音识别模型应用于电子设备，本语音识别方法包括：

101、对待识别语音数据进行编码，得到第一特征向量序列。

其中，本申请实施例中，待识别语音数据可以为预先存储或者实时采集的语音数据或者语音特征向量序列，语音数据可以为以下至少一种:录音数据、实时录音的录音数据、视频数据中提取的录音数据、合成的录音数据等等，在此不作限定。语音特征向量序列可以为以下至少一种：Filter Bank特征、Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征、感知线性预测系数(Perceptual Linear Predictive，PLP)特征等等，在此不作限定。例如，在待识别语音数据为语音数据时，电子设备可以对该语音数据进行特征提取，得到语音特征向量序列，再对语音特征向量序列进行编码，得到第一特征向量序列，又例如，在待识别语音数据为语音特征向量序列时，电子设备可以直接对该语音特征向量序列进行编码，得到第一特征向量序列。

具体实现中，如图1B所示，电子设备可以通过音频编码器模块对待识别语音数据进行编码，得到第一特征向量序列，该音频编码器模块可以包含为一层或多层编码层，编码层可以为长短时记忆神经网络(Long Short-Term Memory，LSTM)中长短时记忆层或者卷积神经网络的卷积层，该长短时记忆神经网络可以为单向或双向长短时记忆神经网络中长短时记忆层。举例说明下，本申请实施例中，可以选择使用3层单向长短时记忆层对输入的语音特征向量序列X＝[x ₁,x ₂,……,x _K]进行编码，输出第一特征向量序列H ^x＝[h ₁ ^x,h ₂ ^x,……,h _K ^x]。

102、对预设热词库中每一热词进行编码，得到第二特征向量序列。

其中，预设热词库可以预先保存在电子设备中，预设热词库中可以包括多个热词的文本信息。电子设备可以通过热词文本编码器模块对预设热词库中的每一热词进行编码，得到第二特征向量序列。或者，其它实现方式中，预设热词库也可以预先保存在其它服务器上，通过访问可以获取预设热词库。

具体实现中，不同热词包含的字数可以一样，也可以不一样，如果字数不一样，比如，日语热词“東京”有两个字、“神奈川”有三个字，则可以将变长的输入用一个固定维度的向量来表示，以便于模型处理。热词文本编码器模块的作用在于将长度不同的热词编码成固定维度的向量，它可以包含为一层或多层编码层，该编码层可以为长短时记忆神经网络中长短时记忆层或者卷积神经网络的卷积层，该长短时记忆神经网络可以为单向或双向长短时记忆神经网络中长短时记忆层。

具体实现中，双向长短时记忆层对热词的编码效果好于单向长短时记忆层，如选择使用一层双向长短时记忆层，以热词“神奈川”为例，该热词由“神”、“奈”、“川”三个字组成，一层双向长短时记忆层的热词编码器对它编码的示意图如图1C所示，图中的左边为双向长短时记忆层的正向部分，右边为反向部分，将正向和反向最后一步的输出向量h _f ^z和h _b ^z进行拼接，得到的向量h ^z即为热词的编码向量表示，多个热词的编码向量表示可以构成第二特征向量序列。假设共有N+1个热词Z＝[z ₀,z ₁,……,z _N]，使用热词编码器模块对每个热词独立进行处理，得到第二特征向量序列H ^z＝[h ₀ ^z,h ₁ ^z,……,h _N ^z]，其中，h _i ^z为第i个热词z _i的编码向量。需要特别说明的是，z ₀是一个特殊的热词“<no-bias>”，表示不存在热词，在后期解码的过程中选中的热词为“<no-bias>”时，则不会对<no-bias>进行激励，以处理语音中不存在热词或者正要识别的语音片段不是热词的情况。

103、对所述预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列。

其中，电子设备可以通过热词音频编码器模块对预设热词库中每一热词的音频片段进行编码，得到第三特征向量序列。第三特征向量序列可以表征热词音频片段所含的音频信息。

具体实现中，热词音频编码器模块与上述音频编码器模块可共享，即两者可以共享算法，如：两者为同一个编码器，热词音频编码器模块也可以包含一层或多层编码层，该编码层可以为长短时记忆神经网络中长短时记忆层或者卷积神经网络的卷积层，该长短时记忆神经网络可以为单向或双向长短时记忆神经网络中长短时记忆层。或者，在其它实现方式中，热词音频编码器模块与上述音频编码器模块也可以是独立的两个编码器，本发明对此不做限定。

其中，热词的音频片段可以通过如下几种方式得到，可以包括但不限于：从音频中截取、人为采集、利用语音合成系统合成等，在此不作限定，最终可以得到热词的音频片段，例如，该热词的音频片段可以是预先存储的，也可以是基于热词而合成的音频片段。举例说明下，为了描述方便，本申请实施例中，可以选择使用3层单向长短时记忆层对输入的热词音频片段特征向量序列X＝[x ₁,x ₂,……,x _K]进行编码，取最后一帧的输出作为该热词的音频片段的表征向量，由于编码方式是LSTM，LSTM为一个递归的神经网络，所以最后一帧就能代表整个音频序列的信息，当然，在其它实施方式中，也可以不取最后一帧，比如，取所有帧的平均数。假设共有N+1个热词Z＝[z ₀,z ₁,……,z _N]，使用热词音频编码器模块对每个热词音频独立进行编码，得到一组热词音频向量序列，即第三特征向量序列H ^w＝[h ₀ ^w,h ₁ ^w,……,h _N ^w]，其中h _i ^w为第i个热词z _i的音频编码向量。需要特别说明的是，z ₀是一个特殊的热词“<no-bias>”，表示不存在热词，在具体实现中，它可以取所有热词向量的平均值代替，此处所有热词向量可以为第二特征向量序列和第三特征向量序列中的至少一个特征向量序列的所有向量，在后期解码的过程中选中的热词为“<no-bias>”时，则不会对<no-bias>进行激励，以处理语音中不存在热词或者正要识别的语音片段不是热词的情况。

104、将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作，得到第四特征向量序列。

具体实现中，电子设备可以通过帧层级注意力模块将第一特征向量序列和第三特征向量序列进行第一注意力操作，以实现将两者的特征加以融合，得到第四特征向量序列，如此，可以显著提升热词激励效果。

其中，帧层级注意力模块其作用在于对于每一帧音频编码器模块的输出融合预设热词库中的热词文本信息后形成具有热词信息的表征的第四特征向量序列，使得每一帧的待识别语音数据的音频表征(第一特征向量序列)更具热词鲁棒性。具体地，第一注意力操作的注意力机制可以使用音频编码器模块输出的一帧向量h _i ^x作为查询项(query)，对热词音频编码器输出的第三特征向量序列H ^z＝[h ₀ ^z,h ₁ ^z,……,h _N ^z]进行注意力机制操作。

在一个可能地示例中，上述步骤104，将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作，得到第四特征向量序列，包括：

41、将所述第一特征向量序列中的各个第一特征向量与所述第三特征向量序列中的每一第三特征向量进行匹配运算，得到各第三特征向量对应的匹配系数；

42、将所述各第三特征向量对应的匹配系数与对应的第三特征向量进行运算，得到所述各第三特征向量对应的新特征向量；

43、将所述各第三特征向量对应的新特征向量与对应的第三特征向量进行拼接，得到所述各第三特征向量对应的表征向量，将所述各第三特征向量对应的表征向量作为所述第四特征向量序列。

具体地，如图1D所示，以第一特征向量序列中的任一第一特征向量为例，将其作为查询项，则电子设备可以将查询项与第三特征向量序列中每个特征向量基于注意力机制计算匹配系数，例如，通过求内积方式或者特征距离方式计算匹配系数并归一化得到匹配系数W _n，再将匹配系数W _n与对应的特征向量h _n ^z进行运算，该运算方式可以为以下任一种：点乘并求和、加权运算、求内积等等，在此不作限定，运算后可以得到一个新的特征向量h _i ^z即为与查询项最匹配的特征向量，并与查询项进行拼接，得到融合后的最后的音频编码表征 h _i ^x，对每一帧音频编码器输出向量均进行上述操作，得到最终的第四特征向量序列

本帧层级注意力模块主要目的在于让音频在编码过程中增加了包含预设热词库中的热词音频信息的内容，因此，其更有利于后续解码模块的热词的解码准确率。

105、根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果。

其中，具体实现中，电子设备可以将第二特征向量序列、第三特征向量序列和第四特征向量序列输入到解码器进行解码操作，得到识别结果，或者，电子设备也可以将第二特征向量序列、第三特征向量序列、第四特征向量序列先进行第二注意力操作，再将其结果输入到解码器进行解码操作，得到识别结果。解码器可以包含多个神经网络层。解码操作的方式可以为Beam Search解码，当然，还可以为其他解码方式，在此不再赘述。

本申请实施例中，在步骤101之前，可以收集大量带文本标注的语音数据，并提取其语音特征，该语音特征可以为以下至少一种：PLP、MFCC、FilterBank等，在此不作限定。此处收集的带文本标注的语音数据可以用于训练热词音频编码器模块。某句语音数据的语音特征序列和文本标注序列可用如下方式表示：

语音特征序列X＝[x ₁,x ₂,……,x _k,……,x _K]

文本标注序列Y＝[y ₀,y ₁,……,y _t,……,y _T]

其中，x _k表示语音特征序列X中第k帧语音特征向量，K为总语音帧数目；y _t表示文本标注序列Y 中第t个字符，T+1为该总文本标注的总字符数目，其中，y ₀为句子开始符“<s>”，y _T为句子结束符“</s>”。以日文语音识别为例，并用单个字作为建模单元。假设某句话的文本内容为“今日は東京は風が強い”，共有10个字，加上句子开始符和句子结束符，文本标注序列总共12个字符，则文本标注序列Y＝[<s>,今，日，は，東，京，は，風，が，強，い，</s>]。

具体实现中，语音识别模型可以具备支持任意热词识别的能力，这就说明在模型训练中不能限定热词。因此，本申请实施例可以从训练数据的文本标注中随机挑选标注片段作为热词，以参与整个模型训练。以下以B句语音数据进行一次模型训练为例，B为大于1的整数，进行详细说明。例如，可以设置P和N两个参数，P为某句训练数据是否挑选热词的概率，N为挑选的热词最大字数。本申请实施例中，可以设置P＝0.5，N＝4，也就是说任何一句训练数据有50％的概率被选中，从它的文本标注，挑选最多连续4个字作为热词。以“今日は東京は風が強い”为例，可以从该句挑选出热词前后的标注对比如下表所示：

当原始标注中“東”、“京”被挑选为热词，可以在它的后面添加特殊标记符“<bias>”。“<bias>”的作用是引入训练错误，以强迫模型训练时更新热词相关的模型参数，比如热词音频编码器模块的模型参数或者热词文本编码器模块的模型参数。当“東”、“京”被选为热词后，可以将它加入这次模型更新的热词列表中，作为热词音频编码器模块或者热词文本编码器模块的输入。每次模型更新热词挑选工作独立进行，初始时刻热词列表可以为空。在处理好数据之后，即可用神经网络优化方法更新模型参数。在训练阶段，获取样本数据以及该样本数据对应的真实识别结果，可以对样本数据进行编码，得到第一特征向量序列，对预设热词库中每一热词进行编码，得到第二特征向量序列，对预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列，将第一特征向量序列和第三特征向量序列进行第一注意力操作，得到第四特征向量序列，根据第二特征向量序列、第三特征向量序列和第四特征向量序列进行解码操作，得到预测识别结果，依据真实识别结果和预设识别结果之间的偏差实现模型参数更新。

在一个可能地示例中，上述步骤105，根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果，可以包括如下步骤：

A51、将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行第二注意力操作，得到热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列；

A52、将所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到解码器进行解码操作，得到识别结果。

其中，电子设备可以将第二特征向量序列、第三特征向量序列和第四特征向量序列进行第二注意力操作，得到热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列，词层级注意力模块的作用在于每个解码时刻从音频特征向量序列和热词文本特征向量序列以及热词音频特征向量序列中提取待解码时刻所需的音频相关特征向量和热词相关特征向量。以第t个字符为例，在模型预测第t个字符时，可以认为音频相关特征向量表示的是第t时刻待解码字符的音频内容，热词文本相关特征向量表示第t时刻可能的热词文本内容，热词音频相关特征向量表示第t时刻可能的热词音频内容。

其中，词层级注意力机制，注意力机制可以使用一个向量作为查询项(query)，对一组特征向量序列进行注意力机制操作，选出与查询项最匹配的特征向量作为输出，具体为：将查询项与特征向量序列中每个特征向量计算一个匹配系数，然后将这些匹配系数与对应的特征向量相乘并求和，得到一个新的特征向量，即为与查询项最匹配的特征向量。

在一个可能地示例中，上述步骤A51，将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行第二注意力操作，得到热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列，可以包括如下步骤：

A511、获取当前时刻所述解码器的第一状态特征向量；

A512、依据所述第一状态特征向量对所述第二特征向量序列进行注意力操作，得到所述当前时刻的所述热词文本上下文特征向量序列；

A513、依据所述第一状态特征向量对所述第三特征向量序列进行注意力操作，得到所述当前时刻的所述热词音频上下文特征向量序列；

A514、依据所述第一状态特征向量对所述第四特征向量序列进行注意力操作，得到所述当前时刻的所述音频上下文特征向量序列。

具体实现中，假设当前时刻的解码器的第一状态特征向量为d _t，可以用d _t作为查询项，采用上述的注意力机制，可以将上述帧层级注意力模块输出第四特征向量序列

进行注意力机制操作，即可得到音频上下文特征向量序列c _t ^x，由于热词参与了

的计算，

包含了潜在热词的完整音频信息，由此方式计算得到的c _t ^x也包含了是否包含热词、具体是哪个热词的信息。同理，用d _t作为查询项，将热词文本编码模块输出第二特征向量序列H ^z进行注意力机制操作，即可得到热词文本上下文特征向量序列c _t ^z；同理，用d _t作为查询项，将热词音频编码模块输出第三特征向量序列H ^w进行注意力机制操作，即可得到热词音频上下文特征向量序列c _t ^w。

进一步地，还可以在计算得到c _t ^x、c _t ^z和c _t ^w后，可以将这三个向量拼接起来送入解码器模块，进行第t时刻的解码，由于增加了包含预设热词库中的热词对应的热词音频信息的c _t ^w，因此，更有利于后续热词的解码准确率。

或者，在其它实现方式中，也可以基于第一特征向量序列分别对第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行第二注意力操作，从而得到热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列。

进一步地，在一个可能地示例中，所述解码器包括第一层单向长短时记忆层，上述步骤A511，获取第一历史时刻所述解码器的第一状态特征向量，可以包括如下步骤：

A5111、获取第一历史时刻的识别结果以及该第一历史时刻的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列；

A5112、依据所述第一历史时刻的识别结果以及所述第一历史时刻的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到所述第一层单向长短时记忆层，得到所述第一状态特征向量。

其中，上述第一历史时刻为当前时刻前面的至少一个时刻，也就是，第一历史时刻可以为当前时刻的前一时刻，或者，也可以为当前时刻之前的多个时刻；上述解码器可以包括两层单向长短时记忆层，该两层单向长短时记忆层可以包括第一层单向长短时记忆层和第二层单向长短时记忆层，具体实现中，电子设备可以获取第一历史时刻的解码器的识别结果以及该第一历史时刻的热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列，将其输入到第一层单向长短时记忆层，得到第一状态特征向量，进而，利用第一历史时刻的识别结果以及对应的输入内容进行记忆(特征)融合，有助于提升模型预测能力。

具体实现中，第一历史时刻的热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列可以通过如下方式得到：获取第一历史时刻解码器的第一状态特征向量，并依据该第一状态特征向量对第二特征向量序列进行注意力操作，得到第一历史时刻的热词文本上下文特征向量序列，依据第一状态特征向量对第三特征向量序列进行注意力操作，得到第一历史时刻的热词音频上下文特征向量序列，依据第一状态特征向量对第四特征向量序列进行注意力操作，得到第一历史时刻的音频上下文特征向量序列。例如，假设第一历史时刻的解码器的第一状态特征向量d _t-1，可以将该d _t-1作为查询项，对第一历史时刻输入的第二特征向量序列、第三特征向量序列、第四特征向量序列进行注意力操作；d _t-1可以是根据第二历史时刻的识别结果以及第二历史时刻的热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列输入到第一层单向长短时记忆层，得到的第一状态特征向量。上述第二历史时刻可以为第一历史时刻前面的至少一个时刻，也就是，第二历史时刻可以为第一历史时刻的前一时刻，或者，也可以为第一历史时刻之前的多个时刻。

或者在另一种实现方式中，也可以依据当前时刻之前的所有或部分的识别结果以及该第一历史时刻的输入所述解码器的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到所述第一层单向长短时记忆层，得到第一状态特征向量；进而，将当前时刻输入所述解码器的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到所述第二层单向长短时记忆层，得到所述当前时刻的识别结果。

进一步地，在一个可能地示例中，所述解码器包括第二层单向长短时记忆层，上述步骤A52，将所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到解码器进行解码操作，得到识别结果，可以包括如下步骤：

将当前时刻输入所述解码器的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到所述第二层单向长短时记忆层，得到所述当前时刻的识别结果，所述当前时刻的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列为通过第一状态特征向量分别对所述当前时刻的第二特征向量序列、所述第三特征向量序列以及所述第四特征向量序列进行所述第二注意力操作而得到。

具体实现中，当前时刻可以理解为当前解码时刻，比如，第一历史时刻为当前时刻的前一时刻，解码第t个词的时候，当前时刻的前一时刻，也就是解码第t-1个词的时刻为第一历史时刻。解码器可以包括两层单向长短时记忆层，以第t个字符(时刻)为例，在解码第t个字符时，第一层长短时记忆层以t-1时刻的识别结果字符y _t-1和词层级注意力模块的输出向量c _t-1(t-1个字符时候的输入解码器的热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列)作为输入，计算得到解码器的第一状态特征向量d _t。d _t输入给词层级注意力模块，用于计算第t时刻词层级注意力模块的输出c _t，c _t即为第t时刻的热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列，然后，c _t作为第二层长短时记忆层的输入，计算得到解码器的输出h _t ^d，最终，进行输出字符的后验概率的计算，可以得到识别结果。

基于上述本申请实施例，其一，除了以热词文本信息为输入之外，增加热词语音片段为额外输入激励源，热词文本联合语音片段的输入将有效增加热词输入信息的丰富性，势必可以很大程度上提升热词激励的效果；其二，采用双层激励，即二次注意力操作，势必会提升热词激励的效果，双输入与双层级热词激励方案相辅相成，两者共同提升了热词识别效果，进而，有助于提升热词识别精度。

在一个可能地示例中，上述步骤105，根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果，可以按照如下方式实施：

将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到解码器进行解码操作，得到所述识别结果。

具体实现中，电子设备可以直接将第二特征向量序列、第三特征向量序列和第四特征向量序列输入到解码器进行解码操作，得到识别结果，由于不仅将热词文本信息作为输入，还将其对应的音频片段作为输入，以及将待识别语音数据以及热词文本信息的音频片段进行注意力操作加以融合后作为输入，进而，能够显著提升热词激励效果，再将三者进行解码操作，能够提升热词识别效果，从而，提升热词识别精度。

进一步地，在一个可能地示例中，所述解码器包括两层单向长短时记忆层，所述两层单向长短时记忆层包括第一层单向长短时记忆层和第二层单向长短时记忆层，上述步骤，将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到解码器进行解码操作，得到所述识别结果，可以包括如下步骤：

B51、获取第一历史时刻的识别结果以及该第一历史时刻的输入所述解码器的所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列；

B52、依据所述第一历史时刻的识别结果以及所述第一历史时刻的输入所述解码器的所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到所述第一层单向长短时记忆层，得到第二状态特征向量；

B53、将当前时刻输入所述解码器的所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到所述第二层单向长短时记忆层，得到所述当前时刻的识别结果，所述第四特征向量序列为通过所述第二状态特征向量对所述当前时刻的所述第一特征向量序列和所述第三特征向量序列进行所述第一注意力操作而得到。

其中，解码器可以包含多个神经网络层，例如，解码器可以包括两层单向长短时记忆层，该两层单向长短时记忆层包括第一层单向长短时记忆层和第二层单向长短时记忆层。

具体实现中，电子设备可以获取第一历史时刻的识别结果以及第一历史时刻的输入解码器的第二特征向量序列、第三特征向量序列和第四特征向量序列，并将其输入到第一层单向长短时记忆层，得到第二状态特征向量，将当前时刻输入解码器的第二特征向量序列、第三特征向量序列和第四特征向量序列输入到第二层单向长短时记忆层，得到当前时刻的识别结果，其中，第四特征向量序列可以为通过第二状态特征向量对当前时刻的第一特征向量序列和第三特征向量序列中的至少一个特征向量序列进行第一注意力操作而得到，例如，可以通过第二状态特征向量分别对当前时刻的第一特征向量序列和第三特征向量序列进行第一注意力操作。进而，可以得到解码器的第二层单向长短时记忆层的输出内容，还可以对输出内容进行后验概率计算，得到最终的解码结果，即当前时刻的识别结果。

可以看出，本申请实施例中所描述的语音识别方法，对待识别语音数据进行编码，得到第一特征向量序列；对预设热词库中每一热词进行编码，得到第二特征向量序列，对预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列，将第一特征向量序列和第三特征向量序列进行第一注意力操作，得到第四特征向量序列，根据第二特征向量序列、第三特征向量序列和第四特征向量序列进行解码操作，得到识别结果，由于不仅将热词文本信息作为输入，还将其对应的音频片段作为输入，以及将待识别语音数据以及热词文本信息的音频片段进行注意力操作加以融合后作为输入，进而，能够显著提升热词激励效果，再将三者进行解码操作，能够提升热词识别效果，从而，提升热词识别精度。

与上述图1B所示的实施例一致地，请参阅图2，图2是本申请实施例提供的一种语音识别方法的流程示意图，如图所示，图2所示的语音识别方法应用于图1A所示的语音识别模型，该语音识别模型应用于电子设备，本语音识别方法包括：

201、对待识别语音数据进行编码，得到第一特征向量序列。

202、对预设热词库中每一热词进行编码，得到第二特征向量序列。

203、对所述预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列。

204、将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作，得到第四特征向量序列。

205、将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行第二注意力操作，得到热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列。

206、将所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到解码器进行解码操作，得到识别结果。

其中，上述步骤201-步骤206的具体描述可以参照上述图1B所描述的语音识别方法的相应步骤，在此不再赘述。

可以看出，本申请实施例中所描述的语音识别方法，其一，除了以热词文本信息为输入之外，增加热词语音片段为额外输入激励源，热词文本联合语音片段的输入将有效增加热词输入信息的丰富性，势必可以很大程度上提升热词激励的效果；其二，采用双层激励，即二次注意力操作，势必会提升热词激励的效果，双输入与双层级热词激励方案相辅相成，两者共同提升了热词识别效果，进而，有助于提升热词识别精度。

与上述实施例一致地，请参阅图3，图3是本申请实施例提供的一种电子设备的结构示意图，如图所示，该电子设备包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，本申请实施例中，上述程序包括用于执行以下步骤的指令：

对待识别语音数据进行编码，得到第一特征向量序列；

可以看出，本申请实施例中所描述的电子设备，对待识别语音数据进行编码，得到第一特征向量序列；对预设热词库中每一热词进行编码，得到第二特征向量序列，对预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列，将第一特征向量序列和第三特征向量序列进行第一注意力操作，得到第四特征向量序列，根据第二特征向量序列、第三特征向量序列和第四特征向量序列进行解码操作，得到识别结果，由于不仅将热词文本信息作为输入，还将其对应的音频片段作为输入，以及将待识别语音数据以及热词文本信息的音频片段进行注意力操作加以融合后作为输入，进而，能够显著提升热词激励效果，再将三者进行解码操作，能够提升热词识别效果，从而，提升热词识别精度。

在一个可能地示例中，在所述将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作，得到第四特征向量序列方面，上述程序包括用于执行以下步骤的指令：

将所述第一特征向量序列中的各个第一特征向量与所述第三特征向量序列中的每一第三特征向量进行匹配运算，得到各第三特征向量对应的匹配系数；

将所述各第三特征向量对应的匹配系数与对应的第三特征向量进行运算，得到所述各第三特征向量对应的新特征向量；

将所述各第三特征向量对应的新特征向量与对应的所述第一特征向量进行拼接，得到所述各第三特征向量对应的表征向量，将所述各第三特征向量对应的表征向作为所述第四特征向量序列。

在一个可能地示例中，在所述根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果方面，上述程序包括用于执行以下步骤的指令：

将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行第二注意力操作，得到热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列；

将所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到解码器进行解码操作，得到识别结果。

在一个可能地示例中，在所述将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行第二注意力操作，得到热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列方面，上述程序包括用于执行以下步骤的指令：

获取当前时刻所述解码器的第一状态特征向量；

依据所述第一状态特征向量对所述第二特征向量序列进行注意力操作，得到所述当前时刻的所述热词文本上下文特征向量序列；

依据所述第一状态特征向量对所述第三特征向量序列进行注意力操作，得到所述当前时刻的所述热词音频上下文特征向量序列；

依据所述第一状态特征向量对所述第四特征向量序列进行注意力操作，得到所述当前时刻的所述音频上下文特征向量序列。

在一个可能地示例中，所述解码器包括第一层单向长短时记忆层，在所述获取第一历史时刻所述解码器的第一状态特征向量方面，上述程序包括用于执行以下步骤的指令：

获取第一历史时刻的识别结果以及该第一历史时刻的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列；

依据所述第一历史时刻的识别结果以及所述第一历史时刻的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到所述第一层单向长短时记忆层，得到所述第一状态特征向量。

在一个可能地示例中，所述解码器包括第二层单向长短时记忆层，在所述将所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到解码器进行解码操作，得到识别结果方面，上述程序包括用于执行以下步骤的指令：

在一个可能地示例中，所述解码器包括两层单向长短时记忆层，所述两层单向长短时记忆层包括第一层单向长短时记忆层和第二层单向长短时记忆层，在所述将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到解码器进行解码操作，得到所述识别结果方面，上述程序包括用于执行以下步骤的指令：

获取第一历史时刻的识别结果以及该第一历史时刻的输入所述解码器的所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列；

依据所述第一历史时刻的识别结果以及所述第一历史时刻的输入所述解码器的所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到所述第一层单向长短时记忆层，得到第二状态特征向量；

将当前时刻输入所述解码器的所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到所述第二层单向长短时记忆层，得到所述当前时刻的识别结果，所述第四特征向量序列为通过所述第二状态特征向量对所述当前时刻的所述第一特征向量序列和所述第三特征向量序列进行所述第一注意力操作而得到。

在一个可能地示例中，所述对所述预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列，包括：

通过一层或者多层编码层对所述预设热词库中每一热词的音频片段进行编码，得到所述第三特征向量序列，所述编码层包括：长短时记忆神经网络中长短时记忆层或者卷积神经网络的卷积层，所述长短时记忆神经网络中长短时记忆层为基于单向或者双向的长短时记忆神经网络中长短时记忆层。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图4A是本申请实施例中所涉及的语音识别装置400的功能单元组成框图。该语音识别装置400，应用于电子设备，所述语音识别装置400包括：音频编码器模块401、热词文本编码器模块402、热词音频编码器模块403、帧层级注意力模块404和解码器模块405，其中，

所述音频编码器模块401，用于对待识别语音数据进行编码，得到第一特征向量序列；

所述热词文本编码器模块402，用于对预设热词库中每一热词进行编码，得到第二特征向量序列；

所述热词音频编码器模块403，用于对所述预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列；

所述帧层级注意力模块404，用于将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作，得到第四特征向量序列；

所述解码器模块405，用于根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果。

可以看出，本申请实施例中所描述的语音识别装置，对待识别语音数据进行编码，得到第一特征向量序列；对预设热词库中每一热词进行编码，得到第二特征向量序列，对预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列，将第一特征向量序列和第三特征向量序列进行第一注意力操作，得到第四特征向量序列，根据第二特征向量序列、第三特征向量序列和第四特征向量序列进行解码操作，得到识别结果，由于不仅将热词文本信息作为输入，还将其对应的音频片段作为输入，以及将待识别语音数据以及热词文本信息的音频片段进行注意力操作加以融合后作为输入，进而，能够显著提升热词激励效果，再将三者进行解码操作，能够提升热词识别效果，从而，提升热词识别精度。

在一个可能地示例中，在所述将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作，得到第四特征向量序列方面，所述帧层级注意力模块404具体用于：

在一个可能地示例中，如图4B所示，图4B为图4A所示的语音识别装置的又一变型结构，其与图4A相比较，其解码器模块405可以包括：词层级注意力模块4051和解码器4052，其中，

所述词层级注意力模块4051，用于将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行第二注意力操作，得到热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列；

所述解码器4052，用于将所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到解码器进行解码操作，得到识别结果。

在一个可能地示例中，在所述将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行第二注意力操作，得到热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列方面，所述词层级注意力模块4051具体用于：

获取当前时刻所述解码器的第一状态特征向量；

在一个可能地示例中，所述解码器包括第一层单向长短时记忆层，在所述获取第一历史时刻所述解码器的第一状态特征向量方面，所述词层级注意力模块4051具体用于：

在一个可能地示例中，所述解码器包括第二层单向长短时记忆层，在所述将所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到解码器进行解码操作，得到识别结果方面，所述解码器4052具体用于：

在一个可能地示例中，在所述根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果方面，所述解码器模块405具体用于：

在一个可能地示例中，所述解码器包括两层单向长短时记忆层，所述两层单向长短时记忆层包括第一层单向长短时记忆层和第二层单向长短时记忆层，在所述将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到解码器进行解码操作，得到所述识别结果方面，所述解码器模块405具体用于：

在一个可能地示例中，在所述对所述预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列方面，所述热词音频编码器模块403具体用于：

可以理解的是，本实施例的语音识别装置的各程序模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种语音识别方法，其特征在于，所述方法包括：

对待识别语音数据进行编码，得到第一特征向量序列；

对预设热词库中每一热词进行编码，得到第二特征向量序列；

对所述预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列；

将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作，得到第四特征向量序列；

根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果。
根据权利要求1所述的方法，其特征在于，所述将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作，得到第四特征向量序列，包括：

将所述第一特征向量序列中的各个第一特征向量与所述第三特征向量序列中的每一第三特征向量进行匹配运算，得到各第三特征向量对应的匹配系数；

将所述各第三特征向量对应的匹配系数与对应的第三特征向量进行运算，得到所述各第三特征向量对应的新特征向量；

将所述各第三特征向量对应的新特征向量与对应的所述第一特征向量进行拼接，得到所述各第三特征向量对应的表征向量，将所述各第三特征向量对应的表征向作为所述第四特征向量序列。
根据权利要求1或2所述的方法，其特征在于，所述根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果，包括：

将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行第二注意力操作，得到热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列；

将所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到解码器进行解码操作，得到识别结果。
根据权利要求3所述的方法，其特征在于，所述将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行第二注意力操作，得到热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列，包括：

获取当前时刻所述解码器的第一状态特征向量；

依据所述第一状态特征向量对所述第二特征向量序列进行注意力操作，得到所述当前时刻的所述热词文本上下文特征向量序列；

依据所述第一状态特征向量对所述第三特征向量序列进行注意力操作，得到所述当前时刻的所述热词音频上下文特征向量序列；

依据所述第一状态特征向量对所述第四特征向量序列进行注意力操作，得到所述当前时刻的所述音频上下文特征向量序列。
根据权利要求4所述的方法，其特征在于，所述解码器包括第一层单向长短时记忆层，所述获取第一历史时刻所述解码器的第一状态特征向量，包括：

获取第一历史时刻的识别结果以及该第一历史时刻的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列；

依据所述第一历史时刻的识别结果以及所述第一历史时刻的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到所述第一层单向长短时记忆层，得到所述第一状态特征向量。
根据权利要求3所述的方法，其特征在于，所述解码器包括第二层单向长短时记忆层，所述将所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到解码器进行解码操作，得到识别结果，包括：

将当前时刻输入所述解码器的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到所述第二层单向长短时记忆层，得到所述当前时刻的识别结果，所述当前时刻的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列为通过第一状态特征向量分别对所述当前时刻的第二特征向量序列、所述第三特征向量序列以及所述第四特征向量序列进行所述第二注意力操作而得到。
根据权利要求1所述的方法，其特征在于，所述根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果，包括：

将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到解码器进行解码操作，得到所述识别结果。
根据权利要求7所述的方法，其特征在于，所述解码器包括两层单向长短时记忆层，所述两层单向长短时记忆层包括第一层单向长短时记忆层和第二层单向长短时记忆层，所述将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到解码器进行解码操作，得到所述识别结果，包括：

获取第一历史时刻的识别结果以及该第一历史时刻的输入所述解码器的所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列；

依据所述第一历史时刻的识别结果以及所述第一历史时刻的输入所述解码器的所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到所述第一层单向长短时记忆层，得到第二状态特征向量；

将当前时刻输入所述解码器的所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到所述第二层单向长短时记忆层，得到所述当前时刻的识别结果，所述第四特征向量序列为通过所述第二状态特征向量对所述当前时刻的所述第一特征向量序列和所述第三特征向量序列进行所述第一注意力操作而得到。
根据权利要求1-8任一项所述的方法，其特征在于，所述对所述预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列，包括：

通过一层或者多层编码层对所述预设热词库中每一热词的音频片段进行编码，得到所述第三特征向量序列，所述编码层包括：长短时记忆神经网络中长短时记忆层或者卷积神经网络的卷积层，所述长短时记忆神经网络中长短时记忆层为基于单向或者双向的长短时记忆神经网络中长短时记忆层。
一种语音识别装置，其特征在于，所述语音识别装置包括：音频编码器模块、热词文本编码器模块、热词音频编码器模块、帧层级注意力模块和解码器模块，其中，

所述音频编码器模块，用于对待识别语音数据进行编码，得到第一特征向量序列；

所述热词文本编码器模块，用于对预设热词库中每一热词进行编码，得到第二特征向量序列；

所述热词音频编码器模块，用于对所述预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列；

所述帧层级注意力模块，用于将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作，得到第四特征向量序列；

所述解码器模块，用于根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果。
根据权利要求10所述的装置，其特征在于，在所述将所述第一特征向量序列和所述第三特征向量序列进行第一注意力操作，得到第四特征向量序列方面，所述帧层级注意力模块具体用于：

将所述第一特征向量序列中的各个第一特征向量与所述第三特征向量序列中的每一第三特征向量进行匹配运算，得到各第三特征向量对应的匹配系数；

将所述各第三特征向量对应的匹配系数与对应的第三特征向量进行运算，得到所述各第三特征向量对应的新特征向量；

将所述各第三特征向量对应的新特征向量与对应的所述第一特征向量进行拼接，得到所述各第三特征向量对应的表征向量，将所述各第三特征向量对应的表征向作为所述第四特征向量序列。
根据权利要求10或11所述的装置，其特征在于，在所述根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果方面，所述编码器模块具体用于：

将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行第二注意力操作，得到热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列；

将所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到解码器进行解码操作，得到识别结果。
根据权利要求12所述的装置，其特征在于，在所述将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行第二注意力操作，得到热词文本上下文特征向量序列、热词音频上下文特征向量序列和音频上下文特征向量序列方面，所述编码器模块具体用于：

获取当前时刻所述解码器的第一状态特征向量；

依据所述第一状态特征向量对所述第二特征向量序列进行注意力操作，得到所述热词文本上下文特征向量序列；

依据所述第一状态特征向量对所述第三特征向量序列进行注意力操作，得到所述热词音频上下文特征向量序列；

依据所述第一状态特征向量对所述第四特征向量序列进行注意力操作，得到所述音频上下文特征向量序列。
根据权利要求13所述的装置，其特征在于，所述解码器包括第一层单向长短时记忆层，在所述获取第一历史时刻所述解码器的第一状态特征向量方面，所述编码器模块具体用于：

获取第一历史时刻的识别结果以及该第一历史时刻的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列；

依据所述第一历史时刻的识别结果以及所述第一历史时刻的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到所述第一层单向长短时记忆层，得到所述第一状态特征向量。
根据权利要求10所述的装置，其特征在于，所述解码器包括第二层单向长短时记忆层，在所述将所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到解码器进行解码操作，得到识别结果方面，所述编码器模块具体用于：

将当前时刻输入所述解码器的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列输入到所述第二层单向长短时记忆层，得到所述当前时刻的识别结果，所述当前时刻的所述热词文本上下文特征向量序列、所述热词音频上下文特征向量序列和所述音频上下文特征向量序列为通过所述第一状态特征向量分别对所述当前时刻的第二特征向量序列、所述第三特征向量序列以及所述第四特征向量序列进行所述第二注意力操作而得到。
根据权利要求10所述的装置，其特征在于，在所述根据所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列进行解码操作，得到识别结果方面，所述编码器模块具体用于：

将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到解码器进行解码操作，得到所述识别结果。
根据权利要求16所述的装置，其特征在于，所述解码器包括两层单向长短时记忆层，所述两层单向长短时记忆层包括第一层单向长短时记忆层和第二层单向长短时记忆层，在所述将所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到解码器进行解码操作，得到所述识别结果方面，所述编码器模块具体用于：

获取第一历史时刻的识别结果以及该第一历史时刻的输入所述解码器的所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列；

依据所述第一历史时刻的识别结果以及所述第一历史时刻的输入所述解码器的所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到所述第一层单向长短时记忆层，得到第二状态特征向量；

将当前时刻输入所述解码器的所述第二特征向量序列、所述第三特征向量序列和所述第四特征向量序列输入到所述第二层单向长短时记忆层，得到所述当前时刻的识别结果，所述第四特征向量序列为通过所述第二状态特征向量对所述当前时刻的所述第一特征向量序列和所述第三特征向量序列进行所述第一注意力操作而得到。
根据权利要求10-17任一项所述的装置，其特征在于，在所述对所述预设热词库中每个热词的音频片段进行编码，得到第三特征向量序列方面，所述热词音频编码器模块具体用于：

通过一层或者多层编码层对所述预设热词库中每一热词的音频片段进行编码，得到所述第三特征向量序列，所述编码层包括：长短时记忆神经网络中长短时记忆层或者卷积神经网络的卷积层，所述长短时记忆神经网络中长短时记忆层为基于单向或者双向的长短时记忆神经网络中长短时记忆层。
一种电子设备，其特征在于，包括：处理器，存储器，通信接口，以及一个或多个程序；所述一个或多个程序被存储在所述存储器中，并且被配置成由所述处理器执行，以执行权利要求1-9任一项方法中的步骤的指令。
一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-9任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如权利要求1-9任一项所述的方法。