WO2021135611A1

WO2021135611A1 - 一种语音识别的方法、装置、终端以及存储介质

Info

Publication number: WO2021135611A1
Application number: PCT/CN2020/125608
Authority: WO
Inventors: 耿杰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-12-31
Filing date: 2020-10-30
Publication date: 2021-07-08
Anticipated expiration: 2022-06-30
Also published as: EP4064276A1; EP4064276A4; US20230072352A1; CN111261144A; CN111261144B

Abstract

一种基于人工智能语音识别的方法、装置、终端以及存储介质，该方法包括：获取待识别的目标语音信号（S301）；确定该目标语音信号的目标语言类型（S302）；通过目标语言类型对应的实时语音识别模型，输出目标语音信号的文本信息（S303）；该实时语音识别模型是通过包含原始语音信号以及扩展语音信号的训练集训练得到的；该扩展语音信号是基于基础语言类型的已有文本转换得到的。该方法能够增加训练非基础语言的实时语音识别模型训练所需的样本个数，提高语音识别的准确性以及适用性。

Description

一种语音识别的方法、装置、终端以及存储介质

本申请要求于2019年12月31日提交国家知识产权局、申请号为201911409041.5、申请名称为“一种语音识别的方法、装置、终端以及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于数据处理技术领域，尤其涉及一种语音识别的方法、装置、终端以及存储介质。

背景技术

随着终端设备技术的发展，语音识别技术作为人机交互的重要方式，被应用在多个不同的领域，如何能够提高语音识别的准确性以及适用范围，则变得愈来愈重要。现有的语音识别技术，由于基础语言类型的样本较多，因此识别准确性较高，而对于非基础语言类型，例如方言以及小语种，由于样本数量较小，因此识别准确性低。由此可见，现有的语音识别技术，对于非基础语言的识别准确率低，影响了语音识别技术的适用性。

发明内容

本申请实施例提供了一种语音识别的方法、装置、终端以及存储介质，可以解决现有的语音识别技术，对于非基础语言的识别准确率低以及适用性差的问题。

第一方面，本申请实施例提供了一种语音识别的方法，包括：

获取待识别的目标语音信号；

确定所述目标语音信号的目标语言类型；

将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息；

其中，所述语音识别模型是通过训练样本集训练得到的，所述训练样本集包括多个扩展语音信号、每个扩展语音信号对应的扩展文本信息、每个扩展语音信号对应的原始语音信号以及每个原始语音信号对应的原始文本信息，所述扩展语音信号是基于基础语言类型的已有文本转换得到的。

在第一方面的一种可能的实现方式中，在所述将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息之前，还包括：

获取所述基础语言类型对应的已有文本；

将所述已有文本转换成所述目标语言类型对应的扩展语音文本；

生成所述扩展语音文本对应的所述扩展语音信号。

通过所述训练集中的所述原始语音信号以及与所述原始语音信号对应的原始语言文本，对第一原生语音模型进行训练，得到异步语音识别模型；

基于所述异步语音识别模型，输出所述扩展语音信号对应的发音概率矩阵；

根据所述发音概率矩阵以及所述扩展语音信号，对第二原生语音模型进行训练，得到所述实时语音识别模型。

在第一方面的一种可能的实现方式中，所述根据所述发音概率矩阵以及所述扩展语音信号，对第二原生语音模型进行训练，得到所述实时语音识别模型，包括：

根据发音概率矩阵以及所述扩展语音信号，对所述第二原生语音模型进行粗粒度训练，得到准实时语音模型；

根据所述原始语音信号以及所述原始语言文本，对所述准实时语音模型进行细粒度训练，得到所述实时语音识别模型。

在第一方面的一种可能的实现方式中，所述根据发音概率矩阵以及所述扩展语音文本，对所述第二原生语音模型进行粗粒度训练，得到准实时语音模型，包括：

将所述扩展语音信号导入所述第二原生语音模型，确定所述扩展语音信号对应的预测概率矩阵；

所述发音概率矩阵以及所述预测概率矩阵导入预设的损失函数，计算所述第二原生语音模型的损失量；

基于所述损失量调整所述第二原生语音模型内的网络参量，得到所述准实时语音识别模型。

在第一方面的一种可能的实现方式中，所述损失函数具体为：

其中，Loss _{top_k}为所述损失量；

为所述预测概率矩阵中对所述扩展语音信号内第t帧、第c个发音的概率值；

为通过优化算法处理后所述发音概率矩阵中对所述扩展语音信号内第t帧、第c个发音的概率值；T为帧总数；C为第t帧内识别的发音总数；

为所述发音概率矩阵中对所述扩展语音信号内第t帧、第c个发音的概率值；

为基于概率数值由大到小对所述发音概率矩阵中所述扩展语音信号的第t帧的所有发音进行排序后，第c个发音对应的序号；K为预设参数。

在第一方面的一种可能的实现方式中，所述异步语音识别模型内的第一网络层级多于所述实时语音识别模型内的第二网络层级。

在第一方面的一种可能的实现方式中，所述将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息，包括：

将所述目标语音信号划分为多个音频帧；

分别对各个所述音频帧进行离散傅里叶变换，得到各个所述音频帧对应的语音频谱；

基于帧编号，依次将各个所述音频帧对应的所述语音频谱导入所述实时语音识别模型，输出所述文本信息。

在第一方面的一种可能的实现方式中，在所述将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息之后，还包括：

将所述目标语音信号导入所述目标语言类型对应的训练集。

第二方面，本申请实施例提供了一种语音识别的装置，包括：

目标语音信号获取单元，用于获取待识别的目标语音信号；

目标语言类型识别单元，用于确定所述目标语音信号的目标语言类型；

语音识别单元，用于将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息；

第三方面，本申请实施例提供了一种终端设备，存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述语音识别的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述第一方面中任一项所述语音识别的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述语音识别的方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例通过样本数量较大的基础语言文本转换为扩展语音信号，并通过目标语言类型对应的原始语音信号以及扩展语音信号对目标语言类型对应的实时语音识别模型进行训练，并通过训练后的实时语音识别模型对目标语音信号进行语音识别，输出文本信息，从而能够增加训练非基础语言的实时语音识别模型训练所需的样本个数，从而提高了语音识别的准确性以及适用性。

附图说明

图1是本申请实施例提供的手机的部分结构的框图；

图2是本申请实施例的手机的软件结构示意图；

图3是本申请第一实施例提供的一种语音识别的方法的实现流程图；

图4是本申请一实施例提供的语音识别系统的结构示意图；

图5是本申请一实施例提供的语音识别系统的交互流程图；

图6是本申请第二实施例提供的一种语音识别的方法具体实现流程图；

图7是本申请一实施例提供的扩展语音文本的转换示意图；

图8是本申请第三实施例提供的一种语音识别的方法具体实现流程图；

图9是本申请实施例提供的一种异步语音识别模型以及实时语音识别模型的结构示意图；

图10是本申请第四实施例提供的一种语音识别的方法S803具体实现流程图；

图11是本申请第五实施例提供的一种语音识别的方法S1001具体实现流程图；

图12是本申请一实施例提供的实时语音模型的训练过程的示意图；

图13是本申请第六实施例提供的一种语音识别的方法S303的具体实现流程图；

图14是本申请第七实施例提供的一种语音识别的方法具体实现流程图；

图15是本申请一实施例提供的一种语音识别的设备的结构框图；

图16是本申请另一实施例提供的一种终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的语音识别的方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，还可以应用于数据库、服务器以及基于终端人工智能的服务响应系统，用于响应语音识别请求，本申请实施例对终端设备的具体类型不作任何限制。

例如，所述终端设备可以是WLAN中的站点(STAION，ST)，可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol，SIP)电话、无线本地环路(Wireless Local Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G网络中的移动终端或者未来演进的公共陆地移动网络(Public Land Mobile Network，PLMN)网络中的移动终端等。

作为示例而非限定，当所述终端设备为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备，通过附着与用户身上，采集用户的房颤信号。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

以所述终端设备为手机为例。图1示出的是与本申请实施例提供的手机的部分结构的框图。参考图1，手机包括：射频(Radio Frequency，RF)电路110、存储器120、输入单元130、显示单元140、传感器150、音频电路160、近场通信模块170、处理器180、以及电源190等部件。本领域技术人员可以理解，图1中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对手机的各个构成部件进行具体的介绍：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器180处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)等，通过RF电路110接收其他终端采集的语音信号，并对语音信号进行识别，输出对应的文本信息。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行手机的各种功能应用以及数据处理，例如将训练好的实时语音识别算法存储于存储器120内。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元130可用于接收输入的数字或字符信息，以及产生与手机100的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触控面板131以及其他输入设备132。触控面板131，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板131上或在触控面板131附近的操作)，并根据预先设定的程式驱动相应的连接装置。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单，例如输出语音识别后的文本信息。显示单元140可包括显示面板141，可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板141。进一步的，触控面板131可覆盖显示面板141，当触控面板131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1中，触控面板131与显示面板141是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板131与显示面板141集成而实现手机的输入和输出功能。

手机100还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在手机移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与手机之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一手机，或者将音频数据输出至存储器120以便进一步处理。例如，终端设备可以通过传声器162，采集用户的目标语音信号，并将转换后的电信号发送给终端设备的处理器进行语音识别。

终端设备可以通过近场通信模块170可以接收其他设备发送的房颤信号，例如该近场通信模块170集成有蓝牙通信模块，通过蓝牙通信模块与可佩戴设备建立通信连接，并接收可穿戴设备反馈的目标语音信号。虽然图1示出了近场通信模块170，但是可以理解的是，其并不属于手机100的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器180是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理单元；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

手机100还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

图2是本申请实施例的手机100的软件结构示意图。以手机100操作系统为Android系统为例，在一些实施例中，将Android系统分为四层，分别为应用程序层、应用程序框架层(framework，FWK)、系统层以及硬件抽象层，层与层之间通过软件接口通信。

如图2所示，所述应用程序层可以一系列应用程序包，应用程序包可以包括短信息，日历，相机，视频，导航，图库，通话等应用程序。特别地，语音识别算法可以嵌入至应用程序内，通过应用程序内的相关控件启动语音识别流程，并处理采集到的目标语音信号，得到对应的文本信息。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层可以包括一些预先定义的函数，例如用于接收应用程序框架层所发送的事件的函数。

如图2所示，应用程序框架层可以包括窗口管理器、资源管理器以及通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

应用程序框架层还可以包括：

视图系统，所述视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供手机100的通信功能。例如通话状态的管理(包括接通，挂断等)。

系统层可以包括多个功能模块。例如：传感器服务模块，物理状态识别模块，三维图形处理库(例如：OpenGL ES)等。

传感器服务模块，用于对硬件层各类传感器上传的传感器数据进行监测，确定手机100的物理状态；

物理状态识别模块，用于对用户手势、人脸等进行分析和识别；

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

系统层还可以包括：

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

硬件抽象层是硬件和软件之间的层。硬件抽象层可以包括显示驱动、摄像头驱动、传感器驱动、麦克风驱动等，用于驱动硬件层的相关硬件，如显示屏、摄像头、传感器以及麦克风等。特别地，通过麦克风驱动启动麦克风模块，采集用户的目标语音信息，以直线后续的语音识别流程。

需要说明的是，本申请实施例提供的语音识别的方法可以在上述任一层级中执行，在此不做限定。

在本申请实施例中，流程的执行主体为安装有语音识别的程序的设备。作为示例而非限定，语音识别的程序的设备具体可以为终端设备，该终端设备可以为用户使用的智能手机、平板电脑、笔记本电脑、服务器等，对获取得到的语音信号进行识别，并确定该语音信号对应的文本信息，实现将声音信号转换为文本信息的目的。图3示出了本申请第一实施例提供的语音识别的方法的实现流程图，详述如下：

在S301中，获取待识别的目标语音信号。

在本实施例中，终端设备可以通过内置的麦克风模块采集用户的目标语音信号，在该情况下，用户可以通过启动终端设备内的特定应用以激活麦克风模块，例如录音应用、实时通话语音通话应用等；用户还可以通过点击当前应用中的部分控件，以激活麦克风模块，例如在社交应用中点击发送语音的控件，将采集到的语音信号作为交互信息发送给通信对端，此时终端设备会通过麦克风模块采集用户在点击操作过程中产生的语音信号，作为上述的目标语音信号；终端设备内置有输入法应用，该输入法应用支持语音输入功能，用户可以通过点击输入控件以激活终端设备内的输入法应用，并选择语音输入文字功能，此时终端设备可以启动麦克风模块，通过麦克风模块采集用户的目标语音信号，并将目标语音信号转换为文本信息，将该文本信息作为所需输入的参量导入到输入控件。终端设备还可以通过外置的麦克风模块采集用户的目标语音信号，在该情况下，终端设备可以通过无线通信模块或串行接口等方式与外置的麦克风模块建立通信连接，用户可以通过点击麦克风模块上的录音按键，启动麦克风模块采集目标语音信号，并将采集到的目标语音信号通过上述建立的通信连接传输给终端设备，终端设备接收到麦克风模块反馈的目标语音信号后，可以执行后续的语音识别流程。

在一种可能的实现方式中，终端设备除了可以通过麦克风模块获取待识别的目标语音信号外，还可以通过通信对端发送的方式进行获取。终端设备可以通过通信模块与通信对端建立通信连接，通过通信连接接收通信对端发送的目标语音信号，其中，通信对端采集目标语音信号的方式可以参见上述过程，在此不再赘述。终端设备在接收到通信对端反馈的目标语音信号后，可以对该目标语音信号进行语音识别。以下以一应用场景对上述过程进行解释说明：终端设备A与终端设备B之间基于社交应用程序建立传输交互数据的通信链路，终端设备B通过内置的麦克风模块采集一目标语音信号，并将该目标语音信号通过上述建立的用于传输交互数据的通信链路发送给终端设备A。终端设备A可以通过扬声器模块播放上述目标语音信号，终端设备A的用户可以通过收听的方式获取到交互内容；若终端设备A的用户无法收听目标语音信号，则可以通过点击“文字转换”按钮，识别目标语音信号对应的文本信息，通过输出文本信息的方式显示交互内容。

在一种可能的实现方式中，终端设备在获取得到目标语音信号后，可以通过预设的信号优化算法对目标语音信号进行预处理，从而能够提高后续语音识别的准确性。其中，优化的方式包括但不限于以下一种或多种的组合：信号放大、信号滤波、异常检测、信号修复等。

其中，异常检测具体为根据采集得到的目标语音信号的信号波形，提取多个波形特征参数，例如信噪比、有效语音的持续占比、有效语音的持续时长等，并根据上述采集得到波形特征值计算目标语音信号的信号质量，若检测到该信号质量低于有效信号阈值，则识别目标语音信号为无效信号，不对无效信号执行后续语音识别操作。反之，若该信号质量高于有效信号阈值，则识别目标语音信号为有效信号，执行S302以及S303的操作。

其中，信号修复具体为通过预设的波形拟合算法对采集目标语音信号过程中的中断区域进行波形拟合，生成连续的目标语音信号。该波形拟合算法可以为一神经网络，通过采集目标用户的历史语音信号，对波形拟合算法中的参数进行调整，以使得拟合后的目标语音信号的波形走向与目标用户的波形走向相匹配，从而提高了波形拟合效果。优选地，该信号修复操作在上述异常检测操作之后执行，由于通过信号修改目标语音信号缺失的波形时，会提高目标语音信号的采集质量，从而影响异常检测的操作，从而无法对采集质量较差的异常信号进行识别，基于此，终端设备可以先通过异常检测算法，判断目标语音信号是否有效信号；若该目标语音信号为有效信号，则通过信号修复算法对心电信号进行信号修复；反之，若目标语音信号为异常信号，则无需进行信号修复，从而减少了不必要的修复操作。

在一种可能的实现方式中，终端设备可以通过语音活性检测算法，提取出目标语音信号中的有效语音段，其中，有效语音段具体指的是包含说话内容的语音段，而无效语音段具体指的是在不包含说话内容的语音端。终端设备可以设置语音启动幅值，以及语音结束幅值，其中，语音启动幅值的数值大于语音结束幅值的数值。即有效语音端的启动要求高于有效语音段的结束要求。由于用户在发言的开始时间，往往音量音调较高，此时对应的语音幅值的数值较高；而在用户说话的过程中，部分字符存在弱音或轻音，此时不应该识别用户的说话中断，因此，需要适当降低语音结束幅值，避免误识别的情况发生。终端设备可以根据语音启动幅值以及语音结束幅值，对语音波形图进行有效语音识别，从而划分得到多个有效语音段，其中，该有效语音段的启示时刻对应的幅值大于或等于语音启动幅值，且结束时刻对应的幅值小于或等于语音结束幅值。在后续识别的过程中，终端设备可以对有效语音段进行语音识别，而无效语音段则无需进行识别，从而可以减少语音识别的信号长度，从而提高了识别效率。

在一种可能的实现方式中，该目标语音信号具体为可以为一音频流，该音频流内包含多个语音帧，其中该音频流的采样率具体为16kHz，即每秒采集16k个语音信号点，且每个信号点通过16比特表示，即位深度为16bit。其中，每个语音帧的帧长为25ms，每个语音帧之间的间隔为10ms。

在S302中，确定所述目标语音信号的目标语言类型。

在本实施例中，终端设备在获取到目标语音信号后，可以通过预设的语言识别算法，确定目标语音信号对应的目标语言类型。由于目标语音信号可以是基于不同的语言类型下的语音信号，不同的语言类型所对应的语音识别算法不同，因此在执行语音识别之前，需要确定该目标语音信号对应的目标语音类型。其中，该目标语言类型可以基于语种进行划分，例如，汉语、英语、俄语、德语、法语以及日语等，还可以基于地域方言类型进行划分，对于汉语而言可以划分为：普通话、粤语、上海话、四川话等，对于日语而言可以划分为：关西腔以及标准日语等。

在一种可能的实现方式中，终端设备可以接收用户输入的地域范围，例如亚洲范围、中国范围或广东范围等，终端设备可以基于用户输入的地域范围，确定该地域内包含的语言类型，并基于该地域范围内的所有语言类型调整语言识别算法。作为示例而非限定，该地域范围为广东范围，而广东范围内包含的语言类型为：粤语、潮汕话、客家话以及普通话，则基于上述四个语言类型，配置对应的语言识别算法。终端设备还可以通过内置的定位装置，获取终端设备采集目标语音信号时的位置信息，并基于该位置信息确定地域范围，从而无需用户手动输入提高了自动化程度。终端设备可以基于上述的地域范围，过滤掉识别概率较低的语言类型，从而能够提高语言识别算法准确性。

在一种可能的实现方式中，该终端设备具体可以为一语音识别服务器。该语音识别服务器可以接收各个用户终端发送的目标语音信号，并通过内置的语言识别算法，确定该目标语音信号的目标语言类型，并从数据库中提取与目标语言类型对应的实时语音识别模型识别目标语音信号对应的文本信息，将文本信息反馈给用户终端。

作为示例而非限定，图4示出了本申请一实施例提供的语音识别系统的结构示意图。参见图4所示，该语音识别系统包括有用户终端41以及语音识别服务器42。用户可以通过用户终端41采集所需识别的目标语音信号，终端设备41可以安装有与语音识别服务器42对应的客户端程序，通过客户端程序与语音识别服务器42建立通信连接，并将采集到的目标语音信号通过客户端程序发送给语音识别服务器42，语音识别服务器42由于采用的是实时语音识别模型，因此可以实时响应用户的语音识别请求，并将语音识别结果通过客户端程序反馈给用户终端41，用户终端41在接收到语音识别结果后，可以通过交互模块，例如显示器或触控屏等，将语音识别结果内的文本信息输出给用户，从而完成语音识别流程。

在一种可能的实现方式中，终端设备可以调用语音识别服务器提供的应用程序接口API，将所需识别的目标语言信号发送给语音识别服务器，通过语音识别服务器内置的语言识别算法，确定该目标语音信号的目标语言类型，继而选取与目标语言类型对应的语音识别算法，输出目标语音信号的文本信息，并通过API接口将文本信息反馈给终端设备。

在S303中，将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息；

在本实施例中，终端设备在确定了目标语音信号对应的目标语言类型后，可以获取与目标语言类型相对应的实时语音识别模型，其中，终端设备内置的存储器中可以存储有各个不同语言类型的实时语音识别模型，终端设备可以根据目标语言类型的类型编号，从存储器中选取对应的实时语音识别模型；终端设备还可以向云端服务器发送模型获取请求，该模型获取请求内携带有上述识别得到的目标语言类型的类型编号，云端服务器可以将与类型编号对应的实时语音识别模型反馈给终端设备。

在本实施例中，由于不同的语言类型样本的数量差别较多，特别对于基础语言类型，以汉语而言，基础语言类型即为普通话，由于使用的用户数量较多而且使用场合较多，因此可以采集得到的语音样本的数量较多，在对实时语音识别模型进行训练时，由于样本数量大，因此具有较好的训练效果，进而使得基础语言类型的实时语音识别模型的输出准确性较高。而对于非基础语言类型的语言类型，例如地方性方言，对于汉语而言，地方性方言则为区别与普通话而言的其他语言，例如粤语、潮汕话、上海话、北京话以及天津话等，相对于基础语言类型而言，由于上述地区性方言的使用用户的数量较少以及使用场合也较为局限，因此采集到地方性方言的语音信号的样本较少，从而训练的覆盖率较低，进而降低了非基础语言类型的实时语音识别模型的输出准确性。为了平衡不同语言种类的样本数量之间差异，从而提高非基础语言类型的实时语音识别模型的识别准确性，本申请实施例在对实时语音识别模型进行训练时所使用的训练集中，除了原始语音信号外，还包含有扩展语音信号。其中，原始语音信号指的是该信号对应的说话对象所使用的语言类型为目标语言类型，即基于目标语言类型下所说出的语音信号。而扩展语音信号并非真实采集得到的原始信号，而是将基础语言类型所对应的基础语言文本导入至预设的语音合成算法，所输出的合成语音信号。由于以基础语言类型所编辑的基础语言文本的数量较多，因此样本数较多，能够提高训练的覆盖率。例如，大部分中文书籍、通知以及网路文章等，均是基于普通话为阅读语言而撰写的，而以粤语或东北话等地方性方言为阅读语言的文本量则较少，因此，可以基于上述基础语言类型对应的基础语言文本，转换为扩展语言信号，以扩大对于非基础语言类型的样本数量。

在一种可能的实现方式中，获取原始语音信号的方式可以为：终端设备可以从多个预设的云端服务器处下载目标语言类型的语料库，该语料库内存储有关于目标语言类型的多个历史语音信号。终端设备将所有历史语音信号进行整理，并将整理后的历史语音信号作为训练集内的原始语音信号。上述的历史语音信号可以从视频文件的音频数据中截图得到，例如某一电影文件的标签中包含有配音语种，若该配音语种与目标语言类型相匹配，则电影文件中的音频数据即是基于目标语言类型的语音信号录制得到的，因此可以从电影文件中的音频数据获取上述的原始语音信号。当然，其他已有文件若携带有目标语言类型的标签，也可以从已有文件中提取原始语音信号。

在一种可能的实现方式中，生成扩展语音信号的方式可以为：终端设备可以通过语义识别算法对基础语言类型的已有文本进行语义分析，确定该已有文本内包含的文本关键词，并确定各个文本关键词在目标语言类型对应的关键词译名，并获取各个关键词译名对应的译名发音，基于所有关键词译名的译名发音生成上述的扩展文本。

作为示例而非限定，图5示出了本申请一实施例提供的语音识别系统的交互流程图。参见图5所示，该语音识别系统包括有用户终端以及语音识别服务器。该语音识别服务器包括有多个不同的模块，分别为语言类型识别模块以及对应不同语言类型的实时语音识别模块，其中，该实时语音识别模块内包含有基础语言类型的实时语音识别模块以及地方性方言的实时语音识别模块。用户终端采集得到用户的目标语音信号后，将其发送给语音识别服务，通过语音识别服务器内的语音类型识别模块确定该目标语音信号的目标语言类型，并传输给对应的实时语音识别模块进行语音识别，以输出对应的文本信息，并将输出的文本信息反馈给用户终端。

在本实施例中，终端设备可以通过原始语音信号以及通过基础语言类型的已有文本转换得到的扩展语音信号对原生语音识别模型进行训练，当原生语音识别模型的识别结果收敛且对应的损失函数小于预设的损失阈值，则识别该原生语音识别模型已调整完毕，此时可以将调整后的原生语音识别模型作为上述的实时语音识别模型，以响应发起的语音识别操作。

随着智能移动设备的普及，语音识别(Automatic Speech Recognition，ASR)技术作为一种新的人机交互方式，开始得到大规模应用。大量的应用场景下可以基于语音识别技术提供多项服务，例如智能语音助手、语音输入法和文本转写系统等等。近年来，深度学习的发展极大提升了ASR技术的识别准确率，目前大部分ASR系统可以以深度学习模型为基础进行系统搭建。然而深度学习模型需要依赖海量的数据，即训练语料，来提高识别准确率。训练语料的来源主要是通过人工进行标注，然而上述方式人工成本非常高昂，阻碍了ASR技术的发展。出了主动标注的方式外，ASR模型在使用过程中还可以收集到的大量的用户数据，若能够通过自动化的方式将这些数据进行标注，则可以大规模扩充训练语料的数量，从而提高语音识别的准确性。在面向海量用户时，由于不同用户使用的语言类型不同，则要求ASR模型能够通过自学习的方式适应不同搞得语言类型，从而达到对所有语言类型均具有较高的识别准确率。而由于地方性方言的用户样本较少，因此会导致部分方言的训练语料不足，从而影响对该类方言的识别率。然而现有的实时语音识别模型，针对各种方言的样本数量严重不平衡，基础性语言的样本占大多数，而某些方言样本稀少，难以对方言的识别率有针对性的提升。由于实时语音识别领域中，虽然用户数据数量较大，无法全部进行人工标注，利用机器自动标注又可能会引入误差，这些误差会导致模型在自学习的过程中发生偏移，从而降低模型性能。

在一种可能的实现方式中，根据语音信号采集的地域信息，来配置不同的实时语音识别模型，从而能够基于省份或市区等行政地域划分规则，对实时语音识别模型进行训练，以实现有针对性地模型训练。然而上述方式依赖省份区分口音无法做到对口音的精细建模，由于部分省份方言差异非常大，同一省份内的方言有完全不同的发音方式甚至短语，无法保证省份的口音一致性，导致实时语音训练的粒度较大，降低了识别的准确性；另一方面，某些方言具有较多的人群，如粤语、上海话，上述人群可以分布于多个不同省份，从而导致了上述无法针对特定的方言进行针对性优化，降低了识别的准确性。

与上述实现方式不同的是，本实施例提供的方式可以利用基础语言类型的样本数量庞大、覆盖性高的特点，将基础语言类型的已有文本转换为目标语言类型的扩展语言信号，由于上述转换方式是定向转换的，因此生成的扩展语言信号必然是基于目标语言类型的语音信号，从而无需用户进行手动标记，减少了人力成本的同时，也能够为地方性方言提供大量的训练语料，从而实现了不同语言类型的样本均衡，提高了训练操作的准确性。

以上可以看出，本申请实施例提供的一种语音识别的方法通过样本数量较大的基础语言文本转换为扩展语音信号，并通过目标语言类型对应的原始语音信号以及扩展语音信号对目标语言类型对应的实时语音识别模型进行训练，并通过训练后的实时语音识别模型对目标语音信号进行语音识别，输出文本信息，从而能够增加训练非基础语言的实时语音识别模型训练所需的样本个数，从而提高了语音识别的准确性以及适用性。

图6示出了本申请第二实施例提供的一种语音识别的方法的具体实现流程图。参见图6，相对于图3所述实施例，本实施例提供的一种语音识别的方法中在所述将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息之前，还包括：S601～S603，具体详述如下：

进一步地，在所述将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息之前，还包括：

在S601中，获取所述基础语言类型对应的已有文本。

在本实施例中，由于基础语言类型的使用范围广且使用人群较多，因此互联网以及云端数据库内存储有的基于基础语言类型作为记载语言的文本数量较多，终端设备可以从云端数据库的文本库内提取基础语言类型的已有文本，还可以从互联网中进行数据爬取，获取多个记载语言使用的是基础语言类型的文本，以获取得到上述的已有文本。

在一种可能的实现方式中，终端设备在响应用户发起的语音识别操作时，获取到用户发送的历史语音信号，若检测到该历史语音信号对应的语言类型为基础语言类型，则可以将该历史语音信号生成的历史文本，作为上述基于基础语言类型所记载的已有文本，从而实现自采集训练数据的目的，提高了训练样本数，继而提高了实时语音识别模型的识别准确性。

在一种可能的实现方式中，不同的目标语言类型所对应的基础语言类型不同，终端设备可以建立基础语言对应关系，确定不同的目标语言类型所关联的基础语言类型。需要说明的是，一个目标语言类型对应一个基础语言类型，而一个基础语言类型可以对应多个目标语言类型。例如，对于汉语语种而言，其基础语言类型为普通话，则属于汉语语种这一大类的所有语言类型，其对应的基础语言类型为普通话；而对于英语语种而言，其基础语言类型为英式英语，则属于英语语种这一大类的所有语言类型，其对应的基础语言类型为英式英语，从而可以确定不同的语言类型与基础语言类型之间的对应关系。终端设备可以根据上述建立的基础语言对应关系，确定目标语言类型对应的基础语言类型，并获取该基础语言类型的已有文本。

在S602中，将所述已有文本转换成所述目标语言类型对应的扩展语音文本。

在本实施例中，终端设备可以根据基础语言类型以及目标语言类型，确定两者之间的翻译算法，并将已有文本导入到翻译算法内，生成扩展语音文本。由于已有文本是基于基础语言类型记载的，里面词汇以及语法是根据基础语言类型所确定的，而不同的语言类型，所使用的词汇以及语法会存在差异，为了能够提高后续扩展语音信号的准确性，终端设备并非直接根据已有文本生成对应的合成语音，而是首先对已有文本进行翻译，从而能够生成符合目标语言类型的语法结构以及用词规范的扩展语音文本，以提高后续识别的准确性。

在一种可能的实现方式中，终端设备在转换得到扩展语音文本后，可以对上述翻译的正确性进行校验。终端设备可以通过语义分析算法，确定已有文本内包含的各个实体，并获取各个实体在目标语言类型对应的译名；检测各个译名是否在转换后的扩展语音文本中，若各个译名均在扩展语音文本内，则识别各个译名的之间的相互位置关系，基于相互位置关系确定译名之间是否符合目标语言类型的语法结构，若所述相互位置关系均满足所述语法结构，则识别翻译正确；反之，若所述相互位置关系不满足所述语法结构和/或，所述译名不包含在所述扩展语音文本内，则识别翻译失败，需要重新调整上述翻译算法。

在S603中，生成所述扩展语音文本对应的所述扩展语音信号。

在本实施例中，终端设备可以通过语音合成算法，获取扩展语音文本内各个字符对应的标准读音，并通过语义识别算法，确定扩展语音文本内包含的词组，确定每个词组之间的词间间隔时长以及词组内不同字符之间的字符间隔时长，根据词间间隔时长、字符间隔时长以及各个字符对应的标准读音，生成扩展语音文本对应的扩展语音信号，从而生成了以目标语言类型为会话语言的扩展语音信号。

在一种可能的实现方式中，终端设备可以为不同的目标语言类型建立对应的语料库。每个语料库记录有该目标语言类型的多个基础发音。终端设备在获取得到目标语言类型对应的字符后，可以确定该字符内包含的基础发音，基于多个基础发音进行合并以及变换，得到该字符对应的标准发音，从而可以基于每个字符对应的标准发音，生成扩展语音信号。

作为而非限定，图7示出了本申请一实施例提供的扩展语音文本的转换示意图。终端设备获取的一已有文本为“我这里没有你想要的”，其对应的基础语言类型为普通话，而目标语言类型为粤语，则终端设备可以通过普通话与粤语之间的翻译算法，将上述已有文本翻译为基于粤语的扩展语音文本，得到的翻译结果为“我呢度冇你想要嘅”，并将上述扩展语音文本导入到粤语的语音合成算法，得到对应的扩展语音信号，得到一个用于表示“我这里没有你想要的”意思的扩展语音信号，实现了样本扩充的目的。

在本申请实施例中，通过获取基础语言类型对应的已有文本，并对已有文本进行转换得到扩展语音文本，能够实现对样本数较少的非基础语言的样本扩充，提高了实时语音识别模型的训练效果，从而提高了识别准确性。

图8示出了本申请第三实施例提供的一种语音识别的方法的具体实现流程图。参见图8，相对于图3所述实施例，本实施例提供的一种语音识别的方法中在所述将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息之前，还包括：S801～S803，具体详述如下：

在S801中，通过所述训练集中的所述原始语音信号以及与所述原始语音信号对应的原始语言文本，对第一原生语音模型进行训练，得到异步语音识别模型。

在本实施例中，终端设备可以配置有两种不同的语音识别模型，分别为能够响应实时语音识别操作的实时语音识别模型以及需要较长响应时间的异步语音识别模型。其中，实时语音识别模型可以是基于神经网络搭建的，搭建上述实时语音识别模型的神经网络的网络层级较少，从而具有较快的响应效率，但同时，识别的准确率低于异步语音识别模型；而异步语音识别模型也可以是基于神经网络搭建的，搭建上述异步语音识别模型的神经网络的网络层级较多，从而识别所需时长较长，响应效率较低，但同时，识别的准确率高于实时语音识别模型。在该情况下，通过异步语音识别模型来对实时语音识别模型的训练过程进行数据纠偏，从而提高实时语音识别模型的准确性。

在一种可能的实现方式中，实时语音识别模型与异步语音识别模型可以是基于同类结构的神经网络搭建的，也可以是不同类结构的神经网络搭建的，在此不做限定。因此，用于构建实时语音识别模型的第二原生语音模型以及用于构建异步语音识别模型的第一原生语音模型之间，也可以是基于同类结构的神经网络搭建的，也可以是不同类结构的神经网络搭建的，在此不做限定。

在本实施例中，由于异步语音识别模型具有更好的识别准确性以及更久的收敛时长，在样本较少的情况下，也能够保证数据训练的效果。而原始语音信号是未经转换得到的语音信号，该原始语音信号内各个字节的发音会根据用户不同而存在一定的差异，因此对于测试过程而言具有较高的覆盖率，并且由于用户的发音会与标准发音存在偏差，也能够对后续训练过程进行识别纠正。基于上述原因，终端设备可以将原始语音信号以及与原始语音信号对应的原始语言文本作为训练样本，对第一原生语音模型进行训练，并将训练结果收敛且模型的损失量小于预设的损失阈值时对应的网络参数，作为训练后的网络参数，基于训练后的网络参数配置第一原生语音模型，得到上述的异步语音识别模型。其中，计算上述第一原生语音模型采用的损失量的函数可以为时序连接性分类损失函数(Connectionist Temporal Classification Loss，CTC Loss)，该CTC Loss具体可以表示为：

Loss _ctc＝-∑ _(x,z)∈Sln p(z|x)

其中，Loss _ctc为上述的损失函数；x为原始语音信号；z为原始语音信号对应的原始语言文本；S为所有原始语音信号构成的训练集合；p(z|x)为基于原始语音信号输出原始语言文本的概率值。

进一步地，作为本申请的另一实施例，所述异步语音识别模型内的第一网络层级多于所述实时语音识别模型内的第二网络层级。

在本实施例中，上述两个语音识别模型具体为基于同类结构的神经网络搭建的语音识别模型，而异步语音识别模型包含的第一网络层级多于实时语音识别模型的第二网络层级，从而异步语音识别模型具有更优的识别准确性，但语音识别操作的时长较长，从而适用于非实时的异步响应场景。举例性地，各个不同用户可以将所需执行语音识别的音频文件发送给终端设备，终端设备可以将上述音频文件导入到异步语音识别模型，此时，用户终端与终端设备可以将通信链路配置为长连接链路，并以预设的时间间隔检测异步语音识别模型的运行情况，在长连接过程中，用户终端与终端设备之间维护该通信链路的开销较少，从而降低了终端设备接口的资源占用量；若检测到异步语音识别模型输出上述音频文件的语音识别结果后，可以将通过上述长连接链路将语音识别结果发送给用户终端，此时可以动态调整该长连接的网络资源占用量，从而提高语音识别记过的发送速度。在该情况下，异步语音识别模型可以将各个语音识别任务添加到预设的任务列表内，并基于各个语音识别任务的添加次序，依次进行处理，并将各个语音识别结果发送给各个用户终端。而实时语音识别模型可以实时响应用户发送的语音识别请求，在该情况下，用户终端与终端设备之间可以建立实时传输链路，用户终端在采集语音信号的过程中，会语音信号对应音频流实时传输给终端设备，终端设备将音频流导入到实时语音识别模型，即用户终端一边采集用户的语音信号的同时，实时语音识别模型可以语音信号中已反馈的音频帧进行语音识别，在用户的语音信号采集完成后，用户终端可以将完整的音频流发送给终端设备，终端设备将后续接收到且未识别的剩余音频帧传输给实时语音识别模型，从而生成语音识别结果，即文本信息，并反馈给用户终端，实现了实时响应用户发起的语音识别请求的目的。

作为示例而非限定，图9示出了本申请实施例提供的一种异步语音识别模型以及实时语音识别模型的结构示意图。参见图9所示，实时语音识别模型与异步语音识别模型属于相同网络结构的神经网络，包含有频率特征提取层、卷积层CNN、循环神经网络层Bi-RNN以及全连接层。其中，实时语音识别模型与异步语音识别模型中频率特征提取层以及全连接层的层数相同，均为一层。其中，频率特征提取层可以将音频流转换得到的语音频谱提取频谱特征值，得到频率特征矩阵；而全连接层可以将上述输入的层级最后输出的特征向量，确定各个音频帧的多个发音概率，生成发音概率矩阵，并基于发音概率矩阵输出语音信号对应的文本信息。其中，实时语音识别模型中包含有两层卷积层，四层循环神经网络层；异步语音识别模型中包含三层卷积层以及九层循环神经网络层。通过多个卷积层以及循环神经网络层，具有更优的特征提取特征，进而提高识别的准确性，但相对于，网络层级越多，则运算所需时长越长，因此，实时语音识别模型需要平衡识别准确性以及响应时长，配置的网络层级个数会少于异步语音识别模型。

在本申请实施例中，通过配置更多网络层级于异步语音识别模型内，能够提高异步语音识别模型的识别准确性，从而能够对后续实时语音识别模型的训练过程进行监督以及纠正，从而能够提高实时语音识别模型的识别准确性。

在S802中，基于所述异步语音识别模型，输出所述扩展语音信号对应的发音概率矩阵。

在本实施例中，终端设备配置了异步语音识别模型后，可以分别将各个扩展语音信号导入到上述的异步语音识别模型，生成各个扩展语音信号对应的发音概率矩阵。由于扩展语音信号具体由不同的语音帧构成，不同的语音帧对应一个发音，而由于语音识别模型最后的全连接层，是用于输出不同发音的概率值，因此每个语音帧可以对应多个不同的候选发音，不同候选发音对应不同的概率值，然后可以根据各个发音对应的字符之前的上下文关联度以及每个字符的概率值，最后生成对应的文本信息。基于此，不同语音帧可以对应多个不同发音，而不同的发音对应不同的概率值。将各个语音帧对应的候选语音进行整合，则可以生成一个发音概率矩阵。

作为实力而非限定，表1示出了本申请一实施例提供的发音概率矩阵的示意图。参见表1所示，该扩展语音信号包含有四个语音帧，分别为T1～T4，每个语音帧可以用于表示一个字符。对于第一语音帧T1经过异步语音识别模型识别后，对应4个不同的候选发音，分别为“xiao”、“xing”、“liao”以及“liang”，且每个发音对应的概率值为61％、15％、21％以及3％。依次类推，后续各个语音帧也具有多个候选字符，且不同候选字符对应一个发音概率。

T1	T2	T3	T4
Xiao 61％	Ye 11％	Liao 22％	Yi 70％
Xing 15％	Yi 54％	Xing 19％	Ye 9％
Liao 21％	Yan 8％	Xiao 49％	Ya 21％
Liang 3％	Ya 14％	Liang 10％
	Yin 13％

表1

在S803中，根据所述发音概率矩阵以及所述扩展语音信号，对第二原生语音模型进行训练，得到所述实时语音识别模型。

在本实施例中，终端设备可以联合异步语音识别模型以及已有的训练样本对第二原生语音模型进行训练，以得到实时语音识别模型，从而能够提高实时语音识别模型的识别准确性。其中，异步语音识别模型具体的作用是对第二原生语音模型的训练过程进行监督以及预测纠正，从而提高第二原生语音模型的训练效率以及准确性，以得到实时语音识别模型。

需要说明的是，由于通过配置训练集对模型进行训练的过程中，训练集内每个输入只对应一个标准输出结果，特别对于语音识别过程，由于用户的语音语调或者采集过程中存在噪声，同样字符不同用户或不同场景下发音之间差异较大，因此识别得到的输出结果可能存在多个候选发音，若只是对应一个标准输出结果，并根据标准输出结果进行训练，则无法确定语音预测的方向是否准确，从而降低了训练的准确性。为了解决上述问题，本申请引入了异步语音识别模型对实时语音识别模型的语音预测方向进行纠偏，通过配置有多个不同候选发音的发音概率矩阵，基于上述的发音概率矩阵对实时语音识别模型进行训练，由于异步语音识别模型具有更高的准确性以及可靠性，从而能够保证实时语音识别模型的语音预测方向与异步语音识别模型的语音识别方向一致，从而提高了实时语音识别模型的准确性。

在一种可能的实现方式中，训练第二原生语音模型的过程具体可以为：将扩展语音信号导入到上述的第二原生语音模型，并生成对应的预测发音矩阵。通过发音概率矩阵以及预测发音矩阵，确定差异的候选发音以及相同候选发音之间的偏差值，计算两个矩阵之间的偏差率，基于所有偏差率确定第二原生语音模型的损失量，从而基于损失量对第二原生语音模型进行调整。其中，损失量的计算函数仍可以采用CTC Loss函数进行计算，具体函数公式可以参照上述论述，在此不再赘述，其中，函数中的z为上述的发音概率矩阵，p(z|x)为输出上述发音概率矩阵的概率值。

在本申请实施例中，通过对异步语音识别模型进行训练，并基于异步语音识别模型监督实时语音识别模型的训练过程，从而提高训练效果，实现了语音识别的纠偏，提高了实时语音识别模型的准确性。

图10示出了本申请第四实施例提供的一种语音识别的方法S803的具体实现流程图。参见图10，相对于图8所述实施例，本实施例提供的一种语音识别的方法中S803包括：S1001～S1002，具体详述如下：

进一步地，所述根据所述发音概率矩阵以及所述扩展语音信号，对第二原生语音模型进行训练，得到所述实时语音识别模型，包括

在S1001中，根据发音概率矩阵以及所述扩展语音信号，对所述第二原生语音模型进行粗粒度训练，得到准实时语音模型。

在本实施例中，对于第二原生语音模型的训练过程分为两个部分，一个是粗粒度训练过程，另一个是细粒度训练过程。其中，粗粒度训练过程则具体通过异步语音识别模型生成的发音概率矩阵进行语音纠错以及监督。在该情况下，终端设备可以将将扩展语音信号作为第二原生语音模型的训练输入，将发音概率矩阵作为第二原生语音模型的训练输出，对第二原生语音模型进行模型训练，直到第二原生语音模型的结果收敛，且对应的损失函数小于预设的损失阈值，此时识别第二原生语音模型训练完成，将训练完成的第二原生语音模型识别为准实时语音模型，以便执行下一步的细粒度训练操作。

在一种可能的实现方式中，对第二原生语音模型进行粗粒度训练的过程具体可以为：将上述扩展语音信号划分为多个训练组，该训练组包含一定数量的扩展语音信号以及与该扩展语音信号关联的发音概率矩阵。终端设备分别通过各个训练组对上述的第二原生语音模型进行训练，并在训练后，通过预设的原始语音信号作为验证集导入到每次训练后的第二原生语音模型，计算关于各个验证集的偏差率，终端设备将偏差率最小时所述第二原生语音模型的网络参量，作为训练完成的网络参量，并基于训练完成的网络参量导入到第二原生语音模型，从而得到上述的准实时语音模型。

在S1002中，根据所述原始语音信号以及所述原始语言文本，对所述准实时语音模型进行细粒度训练，得到所述实时语音识别模型。

在本实施例中，终端设备在生成了准实时语音识别模型后，可以进行二次训练，即上述的细粒度训练，其中，细粒度训练采用的训练数据为原始语音信号以及与原始语音信号对应的原始语音文本。原始语音信号是未经转换得到的语音信号，该原始语音信号内各个字节的发音会根据用户不同而存在一定的差异，因此对于测试过程而言具有较高的覆盖率，并且由于用户的发音会与标准发音存在偏差，也能够对后续训练过程进行识别纠正。基于上述原因，终端设备可以将原始语音信号以及与原始语音信号对应的原始语言文本作为训练样本，对准实时语音模型进行训练，并将训练结果收敛且模型的损失量小于预设的损失阈值时对应的网络参数，作为训练后的网络参数，基于训练后的网络参数配置准实时语音模型，得到上述的实时语音识别模型。其中，计算上述准实时语音模型采用的损失量的函数可以为时序连接性分类损失函数(Connectionist Temporal Classification Loss，CTC Loss)，该CTC Loss具体可以表示为：

Loss _ctc＝-∑ _(x,z)∈Sln p(z|x)

在本申请实施例中，通过两个阶段对第二原生语音模型进行训练，从而生成实时语音识别模型，通过扩展语音信息扩展了训练样本以及采用异步语音识别模型对训练过程进行纠偏，提高了训练的准确性。

图11示出了本申请第五实施例提供的一种语音识别的方法S1001的具体实现流程图。参见图11，相对于图10所述实施例，本实施例提供的一种语音识别的方法中S1001包括：S1101～S1103，具体详述如下：

进一步地，所述根据发音概率矩阵以及所述扩展语音文本，对所述第二原生语音模型进行粗粒度训练，得到准实时语音模型，包括：

在S1101中，将所述扩展语音信号导入所述第二原生语音模型，确定所述扩展语音信号对应的预测概率矩阵。

在本实施例中，终端设备可以将扩展语音信号作为训练的输入量，导入到第二原生语音模型，该原生第二原生语音模型可以确定扩展语音信号内各个语音帧对应的候选发音，以及各个候选发音的判定概率，将所有语音帧对应的候选发音以及关联的判定概率生成预测概率矩阵。其中，预测概率矩阵的结构与发音概率矩阵的结构一致，具体描述可以参见上述实施例的描述。在此不做赘述。

在S1102中，所述发音概率矩阵以及所述预测概率矩阵导入预设的损失函数，计算所述第二原生语音模型的损失量。

在本实施例中，每个扩展语音信号对应两个概率矩阵，分别为基于第二原生语音识别模型输出的预测概率矩阵，以及基于异步语音识别模型输出的发音概率矩阵，终端设备可以将所有扩展语音信号对应的两个概率矩阵导入到预设的损失函数内，计算第二原生语音模型的损失量。若预测概率矩阵内各个候选发音以及对应概率值与发音概率矩阵的匹配程度越高，则对应的损失量的数值越少，从而可以根据损失量确定第二原生语音识别模型的识别准确性。

进一步地，作为本申请的另一实施例，所述损失函数具体为：

其中，Loss _{top_k}为所述损失量；

在本实施例中，上述的损失函数具体用于训练第二原生语音模型学习异步语音识别模型中前K个概率值较大的发音，而对于概率值较小的发音则无需进行学习，因此，对于前K个概率值较大的发音，其对应的概率值保持不变，即为

而对于除前K个外的其他发音，其优化后的概率值即为0，对应的学习效率为0，从而能够实现对第二原生语音模型的语音识别纠偏，提高了纠正效果的同时，能够兼顾纠正效率，无需学习其他概率较低的无效发音预测行为。

作为而非限定，表2示出了本申请提供的一种通过优化算法处理后的发音概率矩阵。其中，优化钱的发音概率矩阵可以参见表1所示，表1中的发音概率矩阵中各个发音并不会根据概率值的大小进行排序。优化算法中配置的K值为2，则第二原生训练模型对概率值最高的前两个发音进行预测学习。其中，

表示第一帧第一个发音的概率值，即为“xiao”的发音概率，为61％，而由于该概率值在第一帧内所有发音的概率值的数值最大，因此对应的排序为1，即

为1小于等于K的值，因此对该发音概率进行学习，即

与

相同，为61％；而

表示第二帧第二个发音的概率值，即为“xing”的发音概率，为15％，由于该概率值在第一帧内所有发音的概率值的由大到小排序后为第3个，即

为3大于K的值，因此不对该发音概率进行学习，即

与

不相同，为0，以此类推，从而得到通过优化算法处理后的发音概率矩阵。

表2

在本申请实施例中，通过采用Top-K的方式确定损失函数，从而能够对概率较高的发音预测进行学习，兼顾了训练准确性的同时，能够提高收敛速度，从而提高了训练效果；并且还达到对异步语言识别模型输出的发音概率矩阵压缩的目的，节省存储空间。

在S1103中，基于所述损失量调整所述第二原生语音模型内的网络参量，得到所述准实时语音识别模型。

在本实施例中，终端设备可以根据上述的损失量对第二原生语音模型进行调整，在上述损失量小于预设的损失阈值且结果收敛时对应的网络参量，作为训练完成的网络参量，基于训练完成的网络参量配置第二原生语音模型，得到准实时语音识别模型。

作为示例而非限定，图12示出了本申请一实施例提供的实时语音模型的训练过程的示意图。参见图12所示，该训练过程包括三个阶段，分别为预训练阶段、粗粒度训练阶段以及细粒度训练阶段，其中，预训练阶段是基于原始语音信号以及原始语言文本对异步语音模型进行训练，其中训练过程中采用的损失函数可以为CTC Loss函数；而对于粗粒度训练阶段，可以通过训练后的异步语音模型输出扩展语音信号的发音概率矩阵，并基于发音概率矩阵以及扩展语音信号对准实时语音模型进行训练，其中训练过程中采用的损失函数可以为Top-K CE Loss函数；细粒度训练阶段是基于原始语音信号以及原始语言文本对实时语音模型进行训练，其中训练过程中采用的损失函数可以为CTC Loss函数。

在本申请实施例中，通过计算两个概率矩阵之间的偏差值，确定第二原生语音模型与异步语音识别模型之间的识别损失量，从而能够实现基于异步语义识别模型对第二原生语音模型进行纠偏的目的，提高了训练的准确性。

图13示出了本申请第六实施例提供的一种语音识别的方法S303的具体实现流程图。参见图13，相对于图3、图6、图8、图10以及图11任一所述实施例，本实施例提供的一种语音识别的方法S303包括：S1301～S1303，具体详述如下：

进一步地，所述将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息，包括：

在S1301中，将所述目标语音信号划分为多个音频帧。

在本实施例中，语音信号可以有多个不同音频帧构成，不同音频帧具有预设的帧长，而各个音频帧之间具有一定的帧间隔，基于帧间隔对各个音频帧进行排列，则得到上述一段完整的音频流。终端设备可以根据预设的帧间隔以及帧长，对目标语音信号进行划分，从而得到多个音频帧。每个音频帧可以对应一个字符对应的发音。

在S1302中，分别对各个所述音频帧进行离散傅里叶变换，得到各个所述音频帧对应的语音频谱。

在本实施例中，终端设备可以通过离散傅里叶变换，实现时域到频域的转换，从而得到各个音频帧对应的语音频段，可以根据语音频段确定各个发音的发音频率，从而根据发音频率确定该各个发音对应的字符。

在S1303中，基于帧编号，依次将各个所述音频帧对应的所述语音频谱导入所述实时语音识别模型，输出所述文本信息。

在本实施例中，终端设备可以根据各个音频帧在目标语言信号内关联的帧编号，依次将各个音频帧转换得到的语音频谱导入到实时语音识别模型，该实时语音识别模型可以输出各个音频帧对应的发音概率，并基于各个候选发音概率以及上下文关联度，生成对应的文本信息。

在本申请实施例中，通过对目标语音信号进行预处理，得到目标语音信号内各个音频帧的语音频谱，从而能够提高实时语音识别模型的数据处理效率，提高了识别效率。

图14示出了本申请第七实施例提供的一种语音识别的方法的具体实现流程图。参见图14，相对于图3、图6、图8、图10以及图11任一所述实施例，本实施例提供的一种语音识别的方法在S303之后，还包括：S1401，具体详述如下：

进一步地，在所述将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息之后，还包括：

在S1401中，将所述目标语音信号导入所述目标语言类型对应的训练集。

在本实施例中，终端设备在输出目标语音信号对应的文本信息后，可以将目标语音信号以及对应的文本信息导入到训练集中，从而实现了训练集的自动扩充。

在本申请实施例中，通过自动标记目标语言信号的目标语言类型的方式，增加训练集中的样本个数，实现了自动扩充样本集的目的，提高训练操作的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的语音识别的方法，图15示出了本申请实施例提供的语音识别的装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图15，该语音识别的装置包括：

目标语音信号获取单元151，用于获取待识别的目标语音信号；

目标语言类型识别单元152，用于确定所述目标语音信号的目标语言类型；

语音识别单元153，用于将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息；所述实时语音识别模型是通过包含原始语音信号以及扩展语音信号的训练集训练得到的；所述扩展语音信号是基于基础语言类型的已有文本转换得到的将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息；

可选地，所述语音识别的装置还包括：

已有文本获取单元，用于获取所述基础语言类型对应的所述已有文本；

扩展语音文本转换单元，用于将所述已有文本转换成所述目标语言类型对应的扩展语音文本；

扩展语音信号生成单元，用于基于语音合成算法，生成所述扩展语音文本对应的所述扩展语音信号。

可选地，所述语音识别的装置还包括：

异步语音识别模型配置单元，用于通过所述训练集中的所述原始语音信号以及与所述原始语音信号对应的原始语言文本，对第一原生语音模型进行训练，得到异步语音识别模型；

发音概率矩阵输出单元，用于基于所述异步语音识别模型，输出所述扩展语音信号对应的发音概率矩阵；

实时语音识别模型配置单元，用于根据所述发音概率矩阵以及所述扩展语音信号，对第二原生语音模型进行训练，得到所述实时语音识别模型。

可选地，所述实时语音识别模型配置单元包括：

准实时语音模型生成单元，用于根据发音概率矩阵以及所述扩展语音信号，对所述第二原生语音模型进行粗粒度训练，得到准实时语音模型；

实时语音识别模型生成单元，用于根据所述原始语音信号以及所述原始语言文本，对所述准实时语音模型进行细粒度训练，得到所述实时语音识别模型。

可选地，所述准实时语音模型生成单元包括：

预测概率矩阵生成单元，用于将所述扩展语音信号导入所述第二原生语音模型，确定所述扩展语音信号对应的预测概率矩阵；

损失量计算单元，用于所述发音概率矩阵以及所述预测概率矩阵导入预设的损失函数，计算所述第二原生语音模型的损失量；

准实时语音识别模型训练单元，用于基于所述损失量调整所述第二原生语音模型内的网络参量，得到所述准实时语音识别模型。

可选地，所述损失函数具体为：

其中，Loss _{top_k}为所述损失量；

为通过优化算法处理后所述发音概率矩阵中对所述扩展语音信号内第t帧、第c个发音的概率值；T为帧总数；C为第t帧内识别的发音

帧的所有发音进行排序后，第c个发音对应的序号；K为预设参数。。

可选地，所述异步语音识别模型内的第一网络层级多于所述实时语音识别模型内的第二网络层级。

可选地，所述语音识别单元153包括：

将所述目标语音信号划分为多个音频帧；

可选地，所述语音识别的装置还包括：

训练集扩充单元，用于将所述目标语音信号导入所述目标语言类型对应的训练集

因此，本申请实施例提供的语音识别的装置同样可以通过样本数量较大的基础语言文本转换为扩展语音信号，并通过目标语言类型对应的原始语音信号以及扩展语音信号对目标语言类型对应的实时语音识别模型进行训练，并通过训练后的实时语音识别模型对目标语音信号进行语音识别，输出文本信息，从而能够增加训练非基础语言的实时语音识别模型训练所需的样本个数，从而提高了语音识别的准确性以及适用性。

图16为本申请一实施例提供的终端设备的结构示意图。如图16所示，该实施例的终端设备16包括：至少一个处理器160(图16中仅示出一个)处理器、存储器161以及存储在所述存储器161中并可在所述至少一个处理器160上运行的计算机程序162，所述处理器160执行所述计算机程序162时实现上述任意各个语音识别的方法实施例中的步骤。

所述终端设备16可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器160、存储器161。本领域技术人员可以理解，图16仅仅是终端设备16的举例，并不构成对终端设备16的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器160可以是中央处理单元(Central Processing Unit，CPU)，该处理器160还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器161在一些实施例中可以是所述终端设备16的内部存储单元，例如终端设备16的硬盘或内存。所述存储器161在另一些实施例中也可以是所述**装置/终端设备16的外部存储设备，例如所述终端设备16上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器161还可以既包括所述终端设备16的内部存储单元也包括外部存储设备。所述存储器161用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器161还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种网络设备，该网络设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

最后应说明的是：以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种语音识别的方法，其特征在于，包括：

获取待识别的目标语音信号；

确定所述目标语音信号的目标语言类型；

将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息；

其中，所述语音识别模型是通过训练样本集训练得到的，所述训练样本集包括多个扩展语音信号、每个扩展语音信号对应的扩展文本信息、每个扩展语音信号对应的原始语音信号以及每个原始语音信号对应的原始文本信息，所述扩展语音信号是基于基础语言类型的已有文本转换得到的。
根据权利要求1所述的方法，其特征在于，在所述将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息之前，还包括：

获取所述基础语言类型对应的已有文本；

将所述已有文本转换成所述目标语言类型对应的扩展语音文本；

生成所述扩展语音文本对应的所述扩展语音信号。
根据权利要求1所述的方法，其特征在于，在所述将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息之前，还包括：

通过所述训练集中的所述原始语音信号以及与所述原始语音信号对应的原始语言文本，对第一原生语音模型进行训练，得到异步语音识别模型；

基于所述异步语音识别模型，输出所述扩展语音信号对应的发音概率矩阵；

根据所述发音概率矩阵以及所述扩展语音信号，对第二原生语音模型进行训练，得到所述实时语音识别模型。
根据权利要求3所述的方法，所述根据所述发音概率矩阵以及所述扩展语音信号，对第二原生语音模型进行训练，得到所述实时语音识别模型，包括：

根据发音概率矩阵以及所述扩展语音信号，对所述第二原生语音模型进行粗粒度训练，得到准实时语音模型；

根据所述原始语音信号以及所述原始语言文本，对所述准实时语音模型进行细粒度训练，得到所述实时语音识别模型。
根据权利要求4所述的方法，其特征在于，所述根据发音概率矩阵以及所述扩展语音文本，对所述第二原生语音模型进行粗粒度训练，得到准实时语音模型，包括：

将所述扩展语音信号导入所述第二原生语音模型，确定所述扩展语音信号对应的预测概率矩阵；

所述发音概率矩阵以及所述预测概率矩阵导入预设的损失函数，计算所述第二原生语音模型的损失量；

基于所述损失量调整所述第二原生语音模型内的网络参量，得到所述准实时语音识别模型。
根据权利要求5所述的方法，其特征在于，所述损失函数具体为：

其中，Loss _{top_k}为所述损失量；
为所述预测概率矩阵中对所述扩展语音信号内第t帧、第c个发音的概率值；
为通过优化算法处理后所述发音概率矩阵中对所述扩展语音信号内第t帧、第c个发音的概率值；T为帧总数；C为第t帧内识别的发音总数；
为所述发音概率矩阵中对所述扩展语音信号内第t帧、第c个发音的概率值；
为基于概率数值由大到小对所述发音概率矩阵中所述扩展语音信号的第t帧的所有发音进行排序后，第c个发音对应的序号；K为预设参数。
根据权利要求3所述的方法，所述异步语音识别模型内的第一网络层级多于所述实时语音识别模型内的第二网络层级。
根据权利要求1-7任一所述的方法，其特征在于，所述将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息，包括：

将所述目标语音信号划分为多个音频帧；

分别对各个所述音频帧进行离散傅里叶变换，得到各个所述音频帧对应的语音频谱；

基于帧编号，依次将各个所述音频帧对应的所述语音频谱导入所述实时语音识别模型，输出所述文本信息。
根据权利要求1-7任一项所述的方法，其特征在于，在所述将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息之后，还包括：

将所述目标语音信号导入所述目标语言类型对应的训练集。
一种语音识别的装置，其特征在于，包括：

目标语音信号获取单元，用于获取待识别的目标语音信号；

目标语言类型识别单元，用于确定所述目标语音信号的目标语言类型；

语音识别单元，用于将所述目标语言信号输入至与所述目标语言类型对应的语音识别模型，获得所述语音识别模型输出的文本信息；

其中，所述语音识别模型是通过训练样本集训练得到的，所述训练样本集包括多个扩展语音信号、每个扩展语音信号对应的扩展文本信息、每个扩展语音信号对应的原始语音信号以及每个原始语音信号对应的原始文本信息，所述扩展语音信号是基于基础语言类型的已有文本转换得到的。
一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的方法。